]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/SearchIdx.pm
searchidx: remove v1-only msg_mime sub
[public-inbox.git] / lib / PublicInbox / SearchIdx.pm
index 4d2e0da9267c9c7214c8d13f2da8ecaef622b675..feb00de22e062a86c7042b2f5234496a9b606c61 100644 (file)
@@ -12,7 +12,7 @@ use v5.10.1;
 use parent qw(PublicInbox::Search PublicInbox::Lock Exporter);
 use PublicInbox::Eml;
 use PublicInbox::InboxWritable;
-use PublicInbox::MID qw(mid_mime mids_for_index mids);
+use PublicInbox::MID qw(mids_for_index mids);
 use PublicInbox::MsgIter;
 use PublicInbox::IdxStack;
 use Carp qw(croak);
@@ -21,7 +21,7 @@ use PublicInbox::OverIdx;
 use PublicInbox::Spawn qw(spawn);
 use PublicInbox::Git qw(git_unquote);
 use PublicInbox::MsgTime qw(msg_timestamp msg_datestamp);
-our @EXPORT_OK = qw(too_big crlf_adjust log2stack is_ancestor);
+our @EXPORT_OK = qw(crlf_adjust log2stack is_ancestor check_size nodatacow_dir);
 my $X = \%PublicInbox::Search::X;
 my ($DB_CREATE_OR_OPEN, $DB_OPEN);
 our $DB_NO_SYNC = 0;
@@ -110,6 +110,12 @@ sub load_xapian_writable () {
        1;
 }
 
+sub nodatacow_dir ($) {
+       my ($dir) = @_;
+       opendir my $dh, $dir or die "opendir($dir): $!\n";
+       PublicInbox::Spawn::set_nodatacow(fileno($dh));
+}
+
 sub idx_acquire {
        my ($self) = @_;
        my $flag;
@@ -125,8 +131,10 @@ sub idx_acquire {
 
                # don't create empty Xapian directories if we don't need Xapian
                my $is_shard = defined($self->{shard});
-               if (!$is_shard || ($is_shard && need_xapian($self))) {
+               if (!-d $dir && (!$is_shard ||
+                               ($is_shard && need_xapian($self)))) {
                        File::Path::mkpath($dir);
+                       nodatacow_dir($dir);
                }
        }
        return unless defined $flag;
@@ -484,6 +492,11 @@ sub unindex_eml {
        while (my ($num, $nr) = each %tmp) {
                warn "BUG: $num appears >1 times ($nr) for $oid\n" if $nr != 1;
        }
+       if ($nr) {
+               $self->{mm}->num_delete($_) for (keys %tmp);
+       } else { # just in case msgmap and over.sqlite3 become desynched:
+               $self->{mm}->mid_delete($mids->[0]);
+       }
        xdb_remove($self, $oid, keys %tmp) if need_xapian($self);
 }
 
@@ -504,11 +517,6 @@ sub index_mm {
        }
 }
 
-sub unindex_mm {
-       my ($self, $mime) = @_;
-       $self->{mm}->mid_delete(mid_mime($mime));
-}
-
 # returns the number of bytes to add if given a non-CRLF arg
 sub crlf_adjust ($) {
        if (index($_[0], "\r\n") < 0) {
@@ -536,9 +544,7 @@ sub index_both { # git->cat_async callback
 
 sub unindex_both { # git->cat_async callback
        my ($bref, $oid, $type, $size, $self) = @_;
-       my $eml = PublicInbox::Eml->new($bref);
-       unindex_eml($self, $oid, $eml);
-       unindex_mm($self, $eml);
+       unindex_eml($self, $oid, PublicInbox::Eml->new($bref));
 }
 
 # called by public-inbox-index
@@ -553,19 +559,58 @@ sub index_sync {
        }
 }
 
-sub too_big ($$) {
-       my ($self, $oid) = @_;
-       my $max_size = $self->{index_max_size} or return;
-       my (undef, undef, $size) = $self->{ibx}->git->check($oid);
-       die "E: bad $oid in $self->{ibx}->{inboxdir}\n" if !defined($size);
-       return if $size <= $max_size;
-       warn "W: skipping $oid ($size > $max_size)\n";
-       1;
+sub check_size { # check_async cb for -index --max-size=...
+       my ($oid, $type, $size, $arg, $git) = @_;
+       (($type // '') eq 'blob') or die "E: bad $oid in $git->{git_dir}";
+       if ($size <= $arg->{index_max_size}) {
+               $git->cat_async($oid, $arg->{index_oid}, $arg);
+       } else {
+               warn "W: skipping $oid ($size > $arg->{index_max_size})\n";
+       }
+}
+
+sub v1_checkpoint ($$;$) {
+       my ($self, $sync, $stk) = @_;
+       $self->{ibx}->git->check_async_wait;
+       $self->{ibx}->git->cat_async_wait;
+
+       # latest_cmt may be undef
+       my $newest = $stk ? $stk->{latest_cmt} : undef;
+       if ($newest) {
+               my $cur = $self->{mm}->last_commit || '';
+               if (need_update($self, $cur, $newest)) {
+                       $self->{mm}->last_commit($newest);
+               }
+       } else {
+               ${$sync->{max}} = $BATCH_BYTES;
+       }
+
+       $self->{mm}->{dbh}->commit;
+       if ($newest && need_xapian($self)) {
+               my $cur = $self->{xdb}->get_metadata('last_commit');
+               if (need_update($self, $cur, $newest)) {
+                       $self->{xdb}->set_metadata('last_commit', $newest);
+               }
+       }
+
+       $self->{over}->rethread_done($sync->{-opt}) if $newest; # all done
+       commit_txn_lazy($self);
+       $self->{ibx}->git->cleanup;
+       my $nr = ${$sync->{nr}};
+       idx_release($self, $nr);
+       # let another process do some work...
+       if (my $pr = $sync->{-opt}->{-progress}) {
+               $pr->("indexed $nr/$sync->{ntodo}\n") if $nr;
+       }
+       if (!$stk) { # more to come
+               begin_txn_lazy($self);
+               $self->{mm}->{dbh}->begin_work;
+       }
 }
 
 # only for v1
 sub process_stack {
-       my ($self, $stk, $sync, $batch_cb) = @_;
+       my ($self, $sync, $stk) = @_;
        my $git = $self->{ibx}->git;
        my $max = $BATCH_BYTES;
        my $nr = 0;
@@ -573,6 +618,7 @@ sub process_stack {
        $sync->{max} = \$max;
        $sync->{sidx} = $self;
 
+       $self->{mm}->{dbh}->begin_work;
        if (my @leftovers = keys %{delete($sync->{D}) // {}}) {
                warn('W: unindexing '.scalar(@leftovers)." leftovers\n");
                for my $oid (@leftovers) {
@@ -580,23 +626,23 @@ sub process_stack {
                        $git->cat_async($oid, \&unindex_both, $self);
                }
        }
+       if ($sync->{index_max_size} = $self->{ibx}->{index_max_size}) {
+               $sync->{index_oid} = \&index_both;
+       }
        while (my ($f, $at, $ct, $oid) = $stk->pop_rec) {
                if ($f eq 'm') {
-                       $sync->{autime} = $at;
-                       $sync->{cotime} = $ct;
-                       next if too_big($self, $oid);
-                       $git->cat_async($oid, \&index_both, { %$sync });
-                       if ($max <= 0) {
-                               $git->cat_async_wait;
-                               $max = $BATCH_BYTES;
-                               $batch_cb->($nr);
+                       my $arg = { %$sync, autime => $at, cotime => $ct };
+                       if ($sync->{index_max_size}) {
+                               $git->check_async($oid, \&check_size, $arg);
+                       } else {
+                               $git->cat_async($oid, \&index_both, $arg);
                        }
+                       v1_checkpoint($self, $sync) if $max <= 0;
                } elsif ($f eq 'd') {
                        $git->cat_async($oid, \&unindex_both, $self);
                }
        }
-       $git->cat_async_wait;
-       $batch_cb->($nr, $stk);
+       v1_checkpoint($self, $sync, $stk);
 }
 
 sub log2stack ($$$$) {
@@ -714,7 +760,7 @@ sub _index_sync {
        my $git = $self->{ibx}->git;
        $git->batch_prepare;
        my $pr = $opts->{-progress};
-       my $sync = { reindex => $opts->{reindex} };
+       my $sync = { reindex => $opts->{reindex}, -opt => $opts };
        my $xdb = $self->begin_txn_lazy;
        $self->{over}->rethread_prepare($opts);
        my $mm = _msgmap_init($self);
@@ -735,40 +781,7 @@ sub _index_sync {
        my $stk = prepare_stack($self, $sync, $range);
        $sync->{ntodo} = $stk ? $stk->num_records : 0;
        $pr->("$sync->{ntodo}\n") if $pr; # continue previous line
-
-       my $dbh = $mm->{dbh};
-       my $batch_cb = sub {
-               my ($nr, $stk) = @_;
-               # latest_cmt may be undef
-               my $newest = $stk ? $stk->{latest_cmt} : undef;
-               if ($newest) {
-                       my $cur = $mm->last_commit || '';
-                       if (need_update($self, $cur, $newest)) {
-                               $mm->last_commit($newest);
-                       }
-               }
-               $dbh->commit;
-               if ($newest && need_xapian($self)) {
-                       my $cur = $xdb->get_metadata('last_commit');
-                       if (need_update($self, $cur, $newest)) {
-                               $xdb->set_metadata('last_commit', $newest);
-                       }
-               }
-
-               $self->{over}->rethread_done($opts) if $newest; # all done
-               $self->commit_txn_lazy;
-               $git->cleanup;
-               $xdb = idx_release($self, $nr);
-               # let another process do some work...
-               $pr->("indexed $nr/$sync->{ntodo}\n") if $pr && $nr;
-               if (!$stk) { # more to come
-                       $xdb = $self->begin_txn_lazy;
-                       $dbh->begin_work;
-               }
-       };
-
-       $dbh->begin_work;
-       process_stack($self, $stk, $sync, $batch_cb);
+       process_stack($self, $sync, $stk);
 }
 
 sub DESTROY {