]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/ExtSearchIdx.pm
rename {pi_config} fields to {pi_cfg}
[public-inbox.git] / lib / PublicInbox / ExtSearchIdx.pm
index 7ab0c4af64a9a3c5951cf796bd017f51d3984947..c82d163349a755094193fb5916c617aae76fa0e1 100644 (file)
@@ -87,17 +87,10 @@ sub _ibx_attach { # each_inbox callback
 
 sub attach_config {
        my ($self, $cfg) = @_;
+       $self->{cfg} = $cfg;
        $cfg->each_inbox(\&_ibx_attach, $self);
 }
 
-sub git_blob_digest ($) {
-       my ($bref) = @_;
-       my $dig = Digest::SHA->new(1); # XXX SHA256 later
-       $dig->add('blob '.length($$bref)."\0");
-       $dig->add($$bref);
-       $dig;
-}
-
 sub is_bad_blob ($$$$) {
        my ($oid, $type, $size, $expect_oid) = @_;
        if ($type ne 'blob') {
@@ -128,14 +121,21 @@ sub do_xpost ($$) {
        my $oid = $req->{oid};
        my $xibx = $req->{ibx};
        my $eml = $req->{eml};
+       my $eidx_key = $xibx->eidx_key;
        if (my $new_smsg = $req->{new_smsg}) { # 'm' on cross-posted message
                my $xnum = $req->{xnum};
-               $self->{oidx}->add_xref3($docid, $xnum, $oid, $xibx->eidx_key);
-               $idx->shard_add_eidx_info($docid, $oid, $xibx, $eml);
+               $self->{oidx}->add_xref3($docid, $xnum, $oid, $eidx_key);
+               $idx->shard_add_eidx_info($docid, $eidx_key, $eml);
                check_batch_limit($req);
        } else { # 'd'
-               $self->{oidx}->remove_xref3($docid, $oid, $xibx->eidx_key);
-               $idx->shard_remove_eidx_info($docid, $oid, $xibx, $eml);
+               my $rm_eidx_info;
+               my $nr = $self->{oidx}->remove_xref3($docid, $oid, $eidx_key,
+                                                       \$rm_eidx_info);
+               if ($nr == 0) {
+                       $idx->shard_remove($docid);
+               } elsif ($rm_eidx_info) {
+                       $idx->shard_remove_eidx_info($docid, $eidx_key, $eml);
+               }
        }
 }
 
@@ -236,10 +236,6 @@ sub cur_ibx_xnum ($$) {
        my ($req, $bref) = @_;
        my $ibx = $req->{ibx} or die 'BUG: current {ibx} missing';
 
-       # XXX overkill?
-       git_blob_digest($bref)->hexdigest eq $req->{oid} or die
-               "BUG: blob mismatch $req->{oid}";
-
        $req->{eml} = PublicInbox::Eml->new($bref);
        $req->{chash} = content_hash($req->{eml});
        $req->{mids} = mids($req->{eml});
@@ -309,13 +305,96 @@ sub _sync_inbox ($$$) {
                warn "E: $ekey unsupported inbox version (v$v)\n";
                return;
        }
-       unless ($sync->{quit}) {
-               index_todo($self, $sync, $_) for @{delete($sync->{todo}) // []};
-               $self->{midx}->index_ibx($ibx) unless $sync->{quit};
+       for my $unit (@{delete($sync->{todo}) // []}) {
+               last if $sync->{quit};
+               index_todo($self, $sync, $unit);
        }
+       $self->{midx}->index_ibx($ibx) unless $sync->{quit};
        $ibx->git->cleanup; # done with this inbox, now
 }
 
+sub unref_doc ($$$$) {
+       my ($self, $ibx_id, $eidx_key, $docid) = @_;
+       my $dbh = $self->{oidx}->dbh;
+
+       # for debug/info purposes, oids may no longer be accessible
+       my $sth = $dbh->prepare_cached(<<'', undef, 1);
+SELECT oidbin FROM xref3 WHERE docid = ? AND ibx_id = ?
+
+       $sth->execute($docid, $ibx_id);
+       my @oid = map { unpack('H*', $_->[0]) } @{$sth->fetchall_arrayref};
+
+       $dbh->prepare_cached(<<'')->execute($docid, $ibx_id);
+DELETE FROM xref3 WHERE docid = ? AND ibx_id = ?
+
+       my $remain = $self->{oidx}->get_xref3($docid);
+       my $idx = $self->idx_shard($docid);
+       if (@$remain) {
+               for my $oid (@oid) {
+                       warn "I: unref #$docid $eidx_key $oid\n";
+                       $idx->shard_remove_eidx_info($docid, $eidx_key);
+               }
+       } else {
+               warn "I: remove #$docid $eidx_key @oid\n";
+               $idx->shard_remove($docid);
+       }
+}
+
+sub eidx_gc {
+       my ($self, $opt) = @_;
+       $self->{cfg} or die "E: GC requires ->attach_config\n";
+       $opt->{-idx_gc} = 1;
+       $self->idx_init($opt); # acquire lock via V2Writable::_idx_init
+
+       my $dbh = $self->{oidx}->dbh;
+       my $x3_doc = $dbh->prepare('SELECT docid FROM xref3 WHERE ibx_id = ?');
+       my $ibx_ck = $dbh->prepare('SELECT ibx_id,eidx_key FROM inboxes');
+       my $lc_i = $dbh->prepare('SELECT key FROM eidx_meta WHERE key LIKE ?');
+
+       $ibx_ck->execute;
+       while (my ($ibx_id, $eidx_key) = $ibx_ck->fetchrow_array) {
+               next if $self->{ibx_map}->{$eidx_key};
+               $self->{midx}->remove_eidx_key($eidx_key);
+               warn "I: deleting messages for $eidx_key...\n";
+               $x3_doc->execute($ibx_id);
+               while (defined(my $docid = $x3_doc->fetchrow_array)) {
+                       unref_doc($self, $ibx_id, $eidx_key, $docid);
+               }
+               $dbh->prepare_cached(<<'')->execute($ibx_id);
+DELETE FROM inboxes WHERE ibx_id = ?
+
+               # drop last_commit info
+               my $pat = $eidx_key;
+               $pat =~ s/([_%])/\\$1/g;
+               $lc_i->execute("lc-%:$pat//%");
+               while (my ($key) = $lc_i->fetchrow_array) {
+                       next if $key !~ m!\Alc-v[1-9]+:\Q$eidx_key\E//!;
+                       warn "I: removing $key\n";
+                       $dbh->prepare_cached(<<'')->execute($key);
+DELETE FROM eidx_meta WHERE key = ?
+
+               }
+
+               warn "I: $eidx_key removed\n";
+       }
+
+       # it's not real unless it's in `over', we use parallelism here,
+       # shards will be reading directly from over, so commit
+       $self->{oidx}->commit_lazy;
+       $self->{oidx}->begin_lazy;
+
+       for my $idx (@{$self->{idx_shards}}) {
+               warn "I: cleaning up shard #$idx->{shard}\n";
+               $idx->shard_over_check($self->{oidx});
+       }
+       my $nr = $dbh->do(<<'');
+DELETE FROM xref3 WHERE docid NOT IN (SELECT num FROM over)
+
+       warn "I: eliminated $nr stale xref3 entries\n" if $nr != 0;
+
+       done($self);
+}
+
 sub eidx_sync { # main entry point
        my ($self, $opt) = @_;
        $self->idx_init($opt); # acquire lock via V2Writable::_idx_init
@@ -334,17 +413,16 @@ sub eidx_sync { # main entry point
                -regen_fmt => "%u/?\n",
        };
        local $SIG{USR1} = sub { $need_checkpoint = 1 };
-       my $quit = sub { $sync->{quit} = 1; warn "gracefully quitting\n"; };
+       my $quit = PublicInbox::SearchIdx::quit_cb($sync);
        local $SIG{QUIT} = $quit;
        local $SIG{INT} = $quit;
        local $SIG{TERM} = $quit;
 
        # don't use $_ here, it'll get clobbered by reindex_checkpoint
        for my $ibx (@{$self->{ibx_list}}) {
-               _sync_inbox($self, $sync, $ibx);
                last if $sync->{quit};
+               _sync_inbox($self, $sync, $ibx);
        }
-
        $self->{oidx}->rethread_done($opt) unless $sync->{quit};
 
        PublicInbox::V2Writable::done($self);
@@ -406,6 +484,7 @@ sub idx_init { # similar to V2Writable
                                next if $seen{"$st[0]\0$st[1]"}++;
                        } else {
                                warn "W: stat($d) failed (from $alt): $!\n";
+                               next if $opt->{-idx_gc};
                        }
                        push @old, $line;
                }
@@ -417,6 +496,7 @@ sub idx_init { # similar to V2Writable
                        next if $seen{"$st[0]\0$st[1]"}++;
                } else {
                        warn "W: stat($d) failed (from $ibx->{inboxdir}): $!\n";
+                       next if $opt->{-idx_gc};
                }
                push @new, $line;
        }