]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/ExtSearchIdx.pm
extindex: sync each inbox before checking for missed messages
[public-inbox.git] / lib / PublicInbox / ExtSearchIdx.pm
index 20c4cf7807eae9cb152b9760c9ede22bfdc95595..d589d2c00f1a0aa508340fcfb040031b9972beb1 100644 (file)
@@ -421,34 +421,43 @@ sub eidx_gc_scan_shards ($$) { # TODO: use for lei/store
 DELETE FROM xref3 WHERE docid NOT IN (SELECT num FROM over)
 
        warn "I: eliminated $nr stale xref3 entries\n" if $nr != 0;
+       reindex_checkpoint($self, $sync) if checkpoint_due($sync);
 
        # fixup from old bugs:
        $nr = $self->{oidx}->dbh->do(<<'');
-DELETE FROM over WHERE num NOT IN (SELECT docid FROM xref3)
+DELETE FROM over WHERE num > 0 AND num NOT IN (SELECT docid FROM xref3)
 
        warn "I: eliminated $nr stale over entries\n" if $nr != 0;
+       reindex_checkpoint($self, $sync) if checkpoint_due($sync);
 
        my ($cur) = $self->{oidx}->dbh->selectrow_array(<<EOM);
-SELECT MIN(num) FROM over
+SELECT MIN(num) FROM over WHERE num > 0
 EOM
-       my ($max) = $self->{oidx}->dbh->selectrow_array(<<EOM);
-SELECT MAX(num) FROM over
-EOM
-       my $exists;
-restart:
-       $exists = $self->{oidx}->dbh->prepare(<<EOM);
-SELECT COUNT(num) FROM over WHERE num = ?
-EOM
-       for (; $cur <= $max; $cur++) {
-               $exists->execute($cur);
-               next if $exists->fetchrow_array != 0;
-               $self->idx_shard($cur)->ipc_do('xdb_remove_quiet', $cur);
+       $cur // return; # empty
+       my ($r, $n, %active);
+       $nr = 0;
+       while (1) {
+               $r = $self->{oidx}->dbh->selectcol_arrayref(<<"", undef, $cur);
+SELECT num FROM over WHERE num >= ? ORDER BY num ASC LIMIT 10000
+
+               last unless scalar(@$r);
+               while (defined($n = shift @$r)) {
+                       for my $i ($cur..($n - 1)) {
+                               my $idx = idx_shard($self, $i);
+                               $idx->ipc_do('xdb_remove_quiet', $i);
+                               $active{$idx} = $idx;
+                       }
+                       $cur = $n + 1;
+               }
                if (checkpoint_due($sync)) {
-                       $exists = undef;
+                       for my $idx (values %active) {
+                               $nr += $idx->ipc_do('nr_quiet_rm')
+                       }
+                       %active = ();
                        reindex_checkpoint($self, $sync);
-                       goto restart;
                }
        }
+       warn "I: eliminated $nr stale Xapian documents\n" if $nr != 0;
 }
 
 sub eidx_gc {
@@ -803,6 +812,9 @@ sub _reindex_check_unseen ($$$) {
        my $ibx_id = $ibx->{-ibx_id};
        my $slice = 1000;
        my ($beg, $end) = (1, $slice);
+       my $err = sync_inbox($self, $sync, $ibx) and return;
+       my $max = $ibx->over->max;
+       $end = $max if $end > $max;
 
        # first, check if we missed any messages in target $ibx
        my $msgs;
@@ -816,6 +828,7 @@ sub _reindex_check_unseen ($$$) {
                ${$sync->{nr}} = $beg;
                $beg = $msgs->[-1]->{num} + 1;
                $end = $beg + $slice;
+               $end = $max if $end > $max;
                if (checkpoint_due($sync)) {
                        reindex_checkpoint($self, $sync); # release lock
                }
@@ -893,15 +906,14 @@ DELETE FROM xref3 WHERE ibx_id = ? AND xnum = ? AND oidbin = ?
                        $del->execute;
 
                        # get_xref3 over-fetches, but this is a rare path:
-                       my $xr3 = $self->{oidx}->get_xref3($docid);
+                       my $xr3 = $self->{oidx}->get_xref3($docid, 1);
                        my $idx = $self->idx_shard($docid);
                        if (scalar(@$xr3) == 0) { # all gone
                                $self->{oidx}->delete_by_num($docid);
                                $self->{oidx}->eidxq_del($docid);
                                $idx->ipc_do('xdb_remove', $docid);
                        } else { # enqueue for reindex of remaining messages
-                               $idx->ipc_do('remove_eidx_info',
-                                               $docid, $ibx->eidx_key);
+                               $idx->ipc_do('remove_eidx_info', $docid, $ekey);
                                $self->{oidx}->eidxq_add($docid); # yes, add
                        }
                }
@@ -944,6 +956,7 @@ sub sync_inbox {
        my $err = _sync_inbox($self, $sync, $ibx);
        delete @$ibx{qw(mm over)};
        warn $err, "\n" if defined($err);
+       $err;
 }
 
 sub dd_smsg { # git->cat_async callback