]> Sergey Matveev's repositories - public-inbox.git/commitdiff
use MdirReader in -watch and InboxWritable
authorEric Wong <e@80x24.org>
Tue, 9 Feb 2021 08:09:33 +0000 (07:09 -0100)
committerEric Wong <e@80x24.org>
Wed, 10 Feb 2021 06:59:07 +0000 (06:59 +0000)
MdirReader now handles files in "$MAILDIR/new" properly and
is stricter about what it accepts.  eml_from_path is also
made robust against FIFOs while eliminating TOCTOU races with
between stat(2) and open(2) calls.

MANIFEST
lib/PublicInbox/InboxWritable.pm
lib/PublicInbox/MdirReader.pm
lib/PublicInbox/Watch.pm
t/mdir_reader.t [new file with mode: 0644]

index 6b3fc812f7248b6b0af30d88d66d0574e4d6d6a7..f8ee69982650075c93cc4fcc54dd483bfb3fb3c0 100644 (file)
--- a/MANIFEST
+++ b/MANIFEST
@@ -376,6 +376,7 @@ t/mbox_reader.t
 t/mda-mime.eml
 t/mda.t
 t/mda_filter_rubylang.t
+t/mdir_reader.t
 t/mid.t
 t/mime.t
 t/miscsearch.t
index 3a4012cd6ac4dcc8f6cb5be9c5f2a14dfe741146..c3acc4f923ad03367da0faa74a0a7cd16f39785f 100644 (file)
@@ -10,6 +10,7 @@ use PublicInbox::Import;
 use PublicInbox::Filter::Base qw(REJECT);
 use Errno qw(ENOENT);
 our @EXPORT_OK = qw(eml_from_path);
+use Fcntl qw(O_RDONLY O_NONBLOCK);
 
 use constant {
        PERM_UMASK => 0,
@@ -118,25 +119,10 @@ sub filter {
        undef;
 }
 
-sub is_maildir_basename ($) {
-       my ($bn) = @_;
-       return 0 if $bn !~ /\A[a-zA-Z0-9][\-\w:,=\.]+\z/;
-       if ($bn =~ /:2,([A-Z]+)\z/i) {
-               my $flags = $1;
-               return 0 if $flags =~ /[DT]/; # no [D]rafts or [T]rashed mail
-       }
-       1;
-}
-
-sub is_maildir_path ($) {
-       my ($path) = @_;
-       my @p = split(m!/+!, $path);
-       (is_maildir_basename($p[-1]) && -f $path) ? 1 : 0;
-}
-
 sub eml_from_path ($) {
        my ($path) = @_;
-       if (open my $fh, '<', $path) {
+       if (sysopen(my $fh, $path, O_RDONLY|O_NONBLOCK)) {
+               return unless -f $fh; # no FIFOs or directories
                my $str = do { local $/; <$fh> } or return;
                PublicInbox::Eml->new(\$str);
        } else { # ENOENT is common with Maildir
@@ -145,27 +131,30 @@ sub eml_from_path ($) {
        }
 }
 
+sub _each_maildir_fn {
+       my ($fn, $im, $self) = @_;
+       if ($fn =~ /:2,([A-Za-z]*)\z/) {
+               my $fl = $1;
+               return if $fl =~ /[DT]/; # no Drafts or Trash for public
+       }
+       my $eml = eml_from_path($fn) or return;
+       if ($self && (my $filter = $self->filter($im))) {
+               my $ret = $filter->scrub($eml) or return;
+               return if $ret == REJECT();
+               $eml = $ret;
+       }
+       $im->add($eml);
+}
+
 sub import_maildir {
        my ($self, $dir) = @_;
-       my $im = $self->importer(1);
-
        foreach my $sub (qw(cur new tmp)) {
                -d "$dir/$sub" or die "$dir is not a Maildir (missing $sub)\n";
        }
-       foreach my $sub (qw(cur new)) {
-               opendir my $dh, "$dir/$sub" or die "opendir $dir/$sub: $!\n";
-               while (defined(my $fn = readdir($dh))) {
-                       next unless is_maildir_basename($fn);
-                       my $mime = eml_from_path("$dir/$fn") or next;
-
-                       if (my $filter = $self->filter($im)) {
-                               my $ret = $filter->scrub($mime) or return;
-                               return if $ret == REJECT();
-                               $mime = $ret;
-                       }
-                       $im->add($mime);
-               }
-       }
+       my $im = $self->importer(1);
+       my @self = $self->filter($im) ? ($self) : ();
+       PublicInbox::MdirReader::maildir_each_file(\&_each_maildir_fn,
+                                               $im, @self);
        $im->done;
 }
 
index c6a0e7a8d208de5d3103d7ad5ac2c6b4244d20af..e0ff676deb19eb656a37e0e30fc187a29732405d 100644 (file)
@@ -2,18 +2,36 @@
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
 
 # Maildirs for now, MH eventually
+# ref: https://cr.yp.to/proto/maildir.html
+#      https://wiki2.dovecot.org/MailboxFormat/Maildir
 package PublicInbox::MdirReader;
 use strict;
 use v5.10.1;
 
+# returns Maildir flags from a basename ('' for no flags, undef for invalid)
+sub maildir_basename_flags {
+       my (@f) = split(/:/, $_[0], -1);
+       return if (scalar(@f) > 2 || substr($f[0], 0, 1) eq '.');
+       $f[1] // return ''; # "new"
+       $f[1] =~ /\A2,([A-Za-z]*)\z/ ? $1 : undef; # "cur"
+}
+
+# same as above, but for full path name
+sub maildir_path_flags {
+       my ($f) = @_;
+       my $i = rindex($f, '/');
+       $i >= 0 ? maildir_basename_flags(substr($f, $i + 1)) : undef;
+}
+
 sub maildir_each_file ($$;@) {
        my ($dir, $cb, @arg) = @_;
        $dir .= '/' unless substr($dir, -1) eq '/';
        for my $d (qw(new/ cur/)) {
                my $pfx = $dir.$d;
                opendir my $dh, $pfx or next;
-               while (defined(my $fn = readdir($dh))) {
-                       $cb->($pfx.$fn, @arg) if $fn =~ /:2,[A-Za-z]*\z/;
+               while (defined(my $bn = readdir($dh))) {
+                       maildir_basename_flags($bn) // next;
+                       $cb->($pfx.$bn, @arg);
                }
        }
 }
index 1835fa0eced4b45237113d1e1a84edeca230b282..a4302162db765f763a825a68ca69f4507606c89f 100644 (file)
@@ -2,12 +2,13 @@
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
 #
 # ref: https://cr.yp.to/proto/maildir.html
-#      http://wiki2.dovecot.org/MailboxFormat/Maildir
+#      httsp://wiki2.dovecot.org/MailboxFormat/Maildir
 package PublicInbox::Watch;
 use strict;
 use v5.10.1;
 use PublicInbox::Eml;
 use PublicInbox::InboxWritable qw(eml_from_path);
+use PublicInbox::MdirReader;
 use PublicInbox::Filter::Base qw(REJECT);
 use PublicInbox::Spamcheck;
 use PublicInbox::Sigfd;
@@ -207,7 +208,8 @@ sub import_eml ($$$) {
 
 sub _try_path {
        my ($self, $path) = @_;
-       return unless PublicInbox::InboxWritable::is_maildir_path($path);
+       my $fl = PublicInbox::MdirReader::maildir_path_flags($path) // return;
+       return if $fl =~ /[DT]/; # no Drafts or Trash
        if ($path !~ $self->{mdre}) {
                warn "unrecognized path: $path\n";
                return;
diff --git a/t/mdir_reader.t b/t/mdir_reader.t
new file mode 100644 (file)
index 0000000..51b38af
--- /dev/null
@@ -0,0 +1,22 @@
+#!perl -w
+# Copyright (C) 2021 all contributors <meta@public-inbox.org>
+# License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
+use PublicInbox::TestCommon;
+require_ok 'PublicInbox::MdirReader';
+*maildir_basename_flags = \&PublicInbox::MdirReader::maildir_basename_flags;
+*maildir_path_flags = \&PublicInbox::MdirReader::maildir_path_flags;
+
+is(maildir_basename_flags('foo'), '', 'new valid name accepted');
+is(maildir_basename_flags('foo:2,'), '', 'cur valid name accepted');
+is(maildir_basename_flags('foo:2,bar'), 'bar', 'flags name accepted');
+is(maildir_basename_flags('.foo:2,bar'), undef, 'no hidden files');
+is(maildir_basename_flags('fo:o:2,bar'), undef, 'no extra colon');
+is(maildir_path_flags('/path/to/foo:2,S'), 'S', 'flag returned for path');
+is(maildir_path_flags('/path/to/.foo:2,S'), undef, 'no hidden paths');
+is(maildir_path_flags('/path/to/foo:2,'), '', 'no flags in path');
+
+# not sure if there's a better place for eml_from_path
+use_ok 'PublicInbox::InboxWritable', qw(eml_from_path);
+is(eml_from_path('.'), undef, 'eml_from_path fails on directory');
+
+done_testing;