]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/LeiToMail.pm
lei: All Local Externals: bare git dir for alternates
[public-inbox.git] / lib / PublicInbox / LeiToMail.pm
index df813064c992593939dbe46deb0dc8a49ae97066..7e82164631b963157cb53f9bb3d983fad7506c16 100644 (file)
@@ -11,8 +11,6 @@ use PublicInbox::Lock;
 use PublicInbox::ProcessPipe;
 use PublicInbox::Spawn qw(which spawn popen_rd);
 use PublicInbox::LeiDedupe;
-use PublicInbox::OnDestroy;
-use PublicInbox::Git;
 use PublicInbox::GitAsyncCat;
 use PublicInbox::PktOp qw(pkt_do);
 use Symbol qw(gensym);
@@ -20,7 +18,6 @@ use IO::Handle; # ->autoflush
 use Fcntl qw(SEEK_SET SEEK_END O_CREAT O_EXCL O_WRONLY);
 use Errno qw(EEXIST ESPIPE ENOENT EPIPE);
 use Digest::SHA qw(sha256_hex);
-my ($maildir_each_file);
 
 # struggles with short-lived repos, Gcf2Client makes little sense with lei;
 # but we may use in-process libgit2 in the future.
@@ -172,9 +169,9 @@ sub reap_compress { # dwaitpid callback
 # { foo => '' } means "--foo" is passed to the command-line,
 # otherwise { foo => '--bar' } passes "--bar"
 our %zsfx2cmd = (
-       gz => [ qw(GZIP pigz gzip), { rsyncable => '', threads => '-p' } ],
+       gz => [ qw(GZIP pigz gzip), { rsyncable => '' } ],
        bz2 => [ 'bzip2', {} ],
-       xz => [ 'xz', { threads => '-T' } ],
+       xz => [ 'xz', {} ],
        # XXX does anybody care for these?  I prefer zstd on entire FSes,
        # so it's probably not necessary on a per-file basis
        # zst => [ 'zstd', { -default => [ qw(-q) ], # it's noisy by default
@@ -205,7 +202,7 @@ sub zsfx2cmd ($$$) {
                my $switch = $cmd_opt->{rsyncable} // next;
                push @cmd, '--'.($switch || $bool);
        }
-       for my $key (qw(threads)) { # support compression level?
+       for my $key (qw(rsyncable)) { # support compression level?
                my $switch = $cmd_opt->{$key} // next;
                my $val = $lei->{opt}->{$key} // next;
                push @cmd, $switch, $val;
@@ -219,20 +216,18 @@ sub _post_augment_mbox { # open a compressor process
        my $cmd = zsfx2cmd($zsfx, undef, $lei);
        my ($r, $w) = @{delete $lei->{zpipe}};
        my $rdr = { 0 => $r, 1 => $lei->{1}, 2 => $lei->{2} };
-       my $pid = spawn($cmd, $lei->{env}, $rdr);
+       my $pid = spawn($cmd, undef, $rdr);
        my $pp = gensym;
        my $dup = bless { "pid.$pid" => $cmd }, ref($lei);
        $dup->{$_} = $lei->{$_} for qw(2 sock);
        tie *$pp, 'PublicInbox::ProcessPipe', $pid, $w, \&reap_compress, $dup;
        $lei->{1} = $pp;
-       die 'BUG: unexpected {ovv}->{lock_path}' if $lei->{ovv}->{lock_path};
-       $lei->{ovv}->ovv_out_lk_init;
 }
 
 sub decompress_src ($$$) {
        my ($in, $zsfx, $lei) = @_;
        my $cmd = zsfx2cmd($zsfx, 1, $lei);
-       popen_rd($cmd, $lei->{env}, { 0 => $in, 2 => $lei->{2} });
+       popen_rd($cmd, undef, { 0 => $in, 2 => $lei->{2} });
 }
 
 sub dup_src ($) {
@@ -248,6 +243,13 @@ sub _augment { # MboxReader eml_cb
        $lei->{dedupe}->is_dup($eml);
 }
 
+sub _mbox_augment_kw_maybe {
+       my ($eml, $lei, $lse, $augment) = @_;
+       my $kw = PublicInbox::MboxReader::mbox_keywords($eml);
+       update_kw_maybe($lei, $lse, $eml, $kw);
+       _augment($eml, $lei) if $augment;
+}
+
 sub _mbox_write_cb ($$) {
        my ($self, $lei) = @_;
        my $ovv = $lei->{ovv};
@@ -269,8 +271,19 @@ sub _mbox_write_cb ($$) {
        }
 }
 
-sub _augment_file { # maildir_each_file cb
-       my ($f, $lei, $mod, $shard) = @_;
+sub update_kw_maybe ($$$$) {
+       my ($lei, $lse, $eml, $kw) = @_;
+       return unless $lse;
+       my $x = $lse->kw_changed($eml, $kw);
+       if ($x) {
+               $lei->{sto}->ipc_do('set_eml', $eml, { kw => $kw });
+       } elsif (!defined($x)) {
+               $lei->{sto}->ipc_do('set_xkw', $eml, $kw);
+       }
+}
+
+sub _augment_or_unlink { # maildir_each_eml cb
+       my ($f, $kw, $eml, $lei, $lse, $mod, $shard, $unlink) = @_;
        if ($mod) {
                # can't get dirent.d_ino w/ pure Perl, so we extract the OID
                # if it looks like one:
@@ -278,9 +291,9 @@ sub _augment_file { # maildir_each_file cb
                                $1 : sha256_hex($f);
                my $recno = hex(substr($hex, 0, 8));
                return if ($recno % $mod) != $shard;
+               update_kw_maybe($lei, $lse, $eml, $kw);
        }
-       my $eml = PublicInbox::InboxWritable::eml_from_path($f) or return;
-       _augment($eml, $lei);
+       $unlink ? unlink($f) : _augment($eml, $lei);
 }
 
 # maildir_each_file callback, \&CORE::unlink doesn't work with it
@@ -376,18 +389,13 @@ sub new {
        my $dst = $lei->{ovv}->{dst};
        my $self = bless {}, $cls;
        if ($fmt eq 'maildir') {
-               $maildir_each_file //= do {
-                       require PublicInbox::MdirReader;
-                       PublicInbox::MdirReader->can('maildir_each_file');
-               };
-               $lei->{opt}->{augment} and
-                       require PublicInbox::InboxWritable; # eml_from_path
+               require PublicInbox::MdirReader;
                $self->{base_type} = 'maildir';
                -e $dst && !-d _ and die
                                "$dst exists and is not a directory\n";
                $lei->{ovv}->{dst} = $dst .= '/' if substr($dst, -1) ne '/';
        } elsif (substr($fmt, 0, 4) eq 'mbox') {
-               require PublicInbox::MboxReader if $lei->{opt}->{augment};
+               require PublicInbox::MboxReader;
                (-d $dst || (-e _ && !-w _)) and die
                        "$dst exists and is not a writable file\n";
                $self->can("eml2$fmt") or die "bad mbox format: $fmt\n";
@@ -427,33 +435,51 @@ sub _pre_augment_maildir {
 sub _do_augment_maildir {
        my ($self, $lei) = @_;
        my $dst = $lei->{ovv}->{dst};
+       my $lse = $lei->{sto}->search if $lei->{opt}->{'import-before'};
+       my ($mod, $shard) = @{$self->{shard_info} // []};
        if ($lei->{opt}->{augment}) {
                my $dedupe = $lei->{dedupe};
                if ($dedupe && $dedupe->prepare_dedupe) {
-                       my ($mod, $shard) = @{$self->{shard_info} // []};
-                       $maildir_each_file->($dst, \&_augment_file,
-                                               $lei, $mod, $shard);
+                       PublicInbox::MdirReader::maildir_each_eml($dst,
+                                               \&_augment_or_unlink,
+                                               $lei, $lse, $mod, $shard);
                        $dedupe->pause_dedupe;
                }
-       } else { # clobber existing Maildir
-               $maildir_each_file->($dst, \&_unlink);
+       } elsif ($lse) {
+               PublicInbox::MdirReader::maildir_each_eml($dst,
+                                       \&_augment_or_unlink,
+                                       $lei, $lse, $mod, $shard, 1);
+       } else {# clobber existing Maildir
+               PublicInbox::MdirReader::maildir_each_file($dst, \&_unlink);
        }
 }
 
-sub _augment_imap { # PublicInbox::NetReader::imap_each cb
-       my ($url, $uid, $kw, $eml, $lei) = @_;
-       _augment($eml, $lei);
+sub _imap_augment_or_delete { # PublicInbox::NetReader::imap_each cb
+       my ($url, $uid, $kw, $eml, $lei, $lse, $delete_mic) = @_;
+       update_kw_maybe($lei, $lse, $eml, $kw);
+       if ($delete_mic) {
+               $lei->{net}->imap_delete_1($url, $uid, $delete_mic);
+       } else {
+               _augment($eml, $lei);
+       }
 }
 
 sub _do_augment_imap {
        my ($self, $lei) = @_;
        my $net = $lei->{net};
+       my $lse = $lei->{sto}->search if $lei->{opt}->{'import-before'};
        if ($lei->{opt}->{augment}) {
                my $dedupe = $lei->{dedupe};
                if ($dedupe && $dedupe->prepare_dedupe) {
-                       $net->imap_each($self->{uri}, \&_augment_imap, $lei);
+                       $net->imap_each($self->{uri}, \&_imap_augment_or_delete,
+                                       $lei, $lse);
                        $dedupe->pause_dedupe;
                }
+       } elsif ($lse) {
+               my $delete_mic;
+               $net->imap_each($self->{uri}, \&_imap_augment_or_delete,
+                                       $lei, $lse, \$delete_mic);
+               $delete_mic->expunge if $delete_mic;
        } elsif (!$self->{-wq_worker_nr}) { # undef or 0
                # clobber existing IMAP folder
                $net->imap_delete_all($self->{uri});
@@ -463,38 +489,72 @@ sub _do_augment_imap {
 sub _pre_augment_mbox {
        my ($self, $lei) = @_;
        my $dst = $lei->{ovv}->{dst};
+       my $out = $lei->{1};
        if ($dst ne '/dev/stdout') {
-               my $mode = -p $dst ? '>' : '+>>';
-               if (-f _ && !$lei->{opt}->{augment} and !unlink($dst)) {
-                       $! == ENOENT or die "unlink($dst): $!";
+               if (-p $dst) {
+                       $out = undef;
+                       open $out, '>', $dst or die "open($dst): $!";
+               } elsif (-f _ || !-e _) {
+                       require PublicInbox::MboxLock;
+                       my $m = $lei->{opt}->{'lock'} //
+                                       PublicInbox::MboxLock->defaults;
+                       $self->{mbl} = PublicInbox::MboxLock->acq($dst, 1, $m);
+                       $out = $self->{mbl}->{fh};
                }
-               open my $out, $mode, $dst or die "open($dst): $!";
                $lei->{old_1} = $lei->{1}; # keep for spawning MUA
-               $lei->{1} = $out;
        }
        # Perl does SEEK_END even with O_APPEND :<
-       $self->{seekable} = seek($lei->{1}, 0, SEEK_SET);
+       $self->{seekable} = seek($out, 0, SEEK_SET);
        if (!$self->{seekable} && $! != ESPIPE && $dst ne '/dev/stdout') {
                die "seek($dst): $!\n";
        }
+       if (!$self->{seekable}) {
+               my $ia = $lei->{opt}->{'import-before'};
+               die "--import-before specified but $dst is not seekable\n"
+                       if $ia && !ref($ia);
+               die "--augment specified but $dst is not seekable\n" if
+                       $lei->{opt}->{augment};
+       }
        state $zsfx_allow = join('|', keys %zsfx2cmd);
-       ($self->{zsfx}) = ($dst =~ /\.($zsfx_allow)\z/) or return;
-       pipe(my ($r, $w)) or die "pipe: $!";
-       $lei->{zpipe} = [ $r, $w ];
+       if (($self->{zsfx}) = ($dst =~ /\.($zsfx_allow)\z/)) {
+               pipe(my ($r, $w)) or die "pipe: $!";
+               $lei->{zpipe} = [ $r, $w ];
+               $lei->{ovv}->{lock_path} and
+                       die 'BUG: unexpected {ovv}->{lock_path}';
+               $lei->{ovv}->ovv_out_lk_init;
+       } elsif (!$self->{seekable} && !$lei->{ovv}->{lock_path}) {
+               $lei->{ovv}->ovv_out_lk_init;
+       }
+       $lei->{1} = $out;
+       undef;
 }
 
 sub _do_augment_mbox {
        my ($self, $lei) = @_;
-       return if !$lei->{opt}->{augment};
-       my $dedupe = $lei->{dedupe};
-       my $dst = $lei->{ovv}->{dst};
-       die "cannot augment $dst, not seekable\n" if !$self->{seekable};
+       return unless $self->{seekable};
+       my $opt = $lei->{opt};
        my $out = $lei->{1};
-       if (-s $out && $dedupe && $dedupe->prepare_dedupe) {
-               my $zsfx = $self->{zsfx};
-               my $rd = $zsfx ? decompress_src($out, $zsfx, $lei) :
-                               dup_src($out);
-               my $fmt = $lei->{ovv}->{fmt};
+       my ($fmt, $dst) = @{$lei->{ovv}}{qw(fmt dst)};
+       return unless -s $out;
+       unless ($opt->{augment} || $opt->{'import-before'}) {
+               truncate($out, 0) or die "truncate($dst): $!";
+               return;
+       }
+       my $zsfx = $self->{zsfx};
+       my $rd = $zsfx ? decompress_src($out, $zsfx, $lei) : dup_src($out);
+       my $dedupe;
+       if ($opt->{augment}) {
+               $dedupe = $lei->{dedupe};
+               $dedupe->prepare_dedupe if $dedupe;
+       }
+       if ($opt->{'import-before'}) { # the default
+               my $lse = $lei->{sto}->search;
+               PublicInbox::MboxReader->$fmt($rd, \&_mbox_augment_kw_maybe,
+                                               $lei, $lse, $opt->{augment});
+               if (!$opt->{augment} and !truncate($out, 0)) {
+                       die "truncate($dst): $!";
+               }
+       } else { # --augment --no-import-before
                PublicInbox::MboxReader->$fmt($rd, \&_augment, $lei);
        }
        # maybe some systems don't honor O_APPEND, Perl does this:
@@ -519,6 +579,8 @@ sub do_augment { # slow, runs in wq worker
 # fast (spawn compressor or mkdir), runs in same process as pre_augment
 sub post_augment {
        my ($self, $lei, @args) = @_;
+       my $wait = $lei->{opt}->{'import-before'} ?
+                       $lei->{sto}->ipc_do('checkpoint', 1) : 0;
        # _post_augment_mbox
        my $m = $self->can("_post_augment_$self->{base_type}") or return;
        $m->($self, $lei, @args);
@@ -574,23 +636,20 @@ sub poke_dst {
        my ($self) = @_;
        if ($self->{base_type} eq 'maildir') {
                my $t = time + 1;
-               utime($t, $t, "$self->{dst}/cur");
+               utime($t, $t, $self->{dst} . 'cur');
        }
 }
 
 sub write_mail { # via ->wq_io_do
-       my ($self, $git_dir, $smsg) = @_;
-       my $git = $self->{"$$\0$git_dir"} //= PublicInbox::Git->new($git_dir);
-       git_async_cat($git, $smsg->{blob}, \&git_to_mail,
+       my ($self, $smsg) = @_;
+       git_async_cat($self->{lei}->{ale}->git, $smsg->{blob}, \&git_to_mail,
                                [$self->{wcb}, $smsg]);
 }
 
 sub wq_atexit_child {
        my ($self) = @_;
        delete $self->{wcb};
-       for my $git (delete @$self{grep(/\A$$\0/, keys %$self)}) {
-               $git->async_wait_all;
-       }
+       $self->{lei}->{ale}->git->async_wait_all;
        $SIG{__WARN__} = 'DEFAULT';
 }