]> Sergey Matveev's repositories - public-inbox.git/blobdiff - t/extsearch.t
t/lei-watch.t: improve test reliability
[public-inbox.git] / t / extsearch.t
index 70a60b5ae522b90f4c20b1671993af32e3ea6e67..46a6f2ec5eb80b1f81a911486839c42cc5b0a654 100644 (file)
@@ -1,18 +1,20 @@
 #!perl -w
-# Copyright (C) 2020 all contributors <meta@public-inbox.org>
+# Copyright (C) 2020-2021 all contributors <meta@public-inbox.org>
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
 use strict;
 use Test::More;
 use PublicInbox::TestCommon;
 use PublicInbox::Config;
+use PublicInbox::InboxWritable;
 use Fcntl qw(:seek);
-my $json = PublicInbox::Config::json() or plan skip_all => 'JSON missing';
 require_git(2.6);
-require_mods(qw(DBD::SQLite Search::Xapian));
+require_mods(qw(json DBD::SQLite Search::Xapian));
+require PublicInbox::Search;
 use_ok 'PublicInbox::ExtSearch';
 use_ok 'PublicInbox::ExtSearchIdx';
+use_ok 'PublicInbox::OverIdx';
 my $sock = tcp_server();
-my $host_port = $sock->sockhost . ':' . $sock->sockport;
+my $host_port = tcp_host_port($sock);
 my ($home, $for_destroy) = tmpdir();
 local $ENV{HOME} = $home;
 mkdir "$home/.public-inbox" or BAIL_OUT $!;
@@ -58,6 +60,38 @@ ok(run_script([qw(-extindex --all), "$home/extindex"]), 'extindex init');
        ok($es->has_threadid, '->has_threadid');
 }
 
+if ('with boost') {
+       xsys([qw(git config publicinbox.v1test.boost), 10],
+               { GIT_CONFIG => $cfg_path });
+       ok(run_script([qw(-extindex --all), "$home/extindex-b"]),
+               'extindex init with boost');
+       my $es = PublicInbox::ExtSearch->new("$home/extindex-b");
+       my $smsg = $es->over->get_art(1);
+       ok($smsg, 'got first article');
+       my $xref3 = $es->over->get_xref3($smsg->{num});
+       my @v1 = grep(/\Av1/, @$xref3);
+       my @v2 = grep(/\Av2/, @$xref3);
+       like($v1[0], qr/\Av1\.example.*?\b\Q$smsg->{blob}\E\b/,
+               'smsg->{blob} respected boost');
+       is(scalar(@$xref3), 2, 'only to entries');
+       undef $es;
+
+       xsys([qw(git config publicinbox.v2test.boost), 20],
+               { GIT_CONFIG => $cfg_path });
+       ok(run_script([qw(-extindex --all --reindex), "$home/extindex-b"]),
+               'extindex --reindex with altered boost');
+
+       $es = PublicInbox::ExtSearch->new("$home/extindex-b");
+       $smsg = $es->over->get_art(1);
+       like($v2[0], qr/\Av2\.example.*?\b\Q$smsg->{blob}\E\b/,
+                       'smsg->{blob} respects boost after reindex');
+
+       xsys([qw(git config --unset publicinbox.v1test.boost)],
+               { GIT_CONFIG => $cfg_path });
+       xsys([qw(git config --unset publicinbox.v2test.boost)],
+               { GIT_CONFIG => $cfg_path });
+}
+
 { # TODO: -extindex should write this to config
        open $fh, '>>', $cfg_path or BAIL_OUT $!;
        print $fh <<EOF or BAIL_OUT $!;
@@ -101,7 +135,7 @@ my $es = PublicInbox::ExtSearch->new("$home/extindex");
        is(scalar(@$xref3), 2, 'only to entries');
 }
 
-{
+if ('inbox edited') {
        my ($in, $out, $err);
        $in = $out = $err = '';
        my $opt = { 0 => \$in, 1 => \$out, 2 => \$err };
@@ -176,13 +210,15 @@ is(scalar(@it), 2, 'two inboxes');
 like($it[0]->get_document->get_data, qr/v2test/, 'docdata matched v2');
 like($it[1]->get_document->get_data, qr/v1test/, 'docdata matched v1');
 
+my $cfg = PublicInbox::Config->new;
+my $schema_version = PublicInbox::Search::SCHEMA_VERSION();
+my $f = "$home/extindex/ei$schema_version/over.sqlite3";
+my $oidx = PublicInbox::OverIdx->new($f);
 if ('inject w/o indexing') {
        use PublicInbox::Import;
-       use PublicInbox::Search;
-       my $schema_version = PublicInbox::Search::SCHEMA_VERSION();
-       my $v1ibx = PublicInbox::Config->new->lookup_name('v1test');
+       my $v1ibx = $cfg->lookup_name('v1test');
        my $last_v1_commit = $v1ibx->mm->last_commit;
-       my $v2ibx = PublicInbox::Config->new->lookup_name('v2test');
+       my $v2ibx = $cfg->lookup_name('v2test');
        my $last_v2_commit = $v2ibx->mm->last_commit_xap($schema_version, 0);
        my $git0 = PublicInbox::Git->new("$v2ibx->{inboxdir}/git/0.git");
        chomp(my $cmt = $git0->qx(qw(rev-parse HEAD^0)));
@@ -230,6 +266,126 @@ if ('inject w/o indexing') {
        is($mset->size, 1, 'got v2 message');
 }
 
+if ('reindex catches missed messages') {
+       my $v2ibx = $cfg->lookup_name('v2test');
+       $v2ibx->{-no_fsync} = 1;
+       my $im = PublicInbox::InboxWritable->new($v2ibx)->importer(0);
+       my $cmt_a = $v2ibx->mm->last_commit_xap($schema_version, 0);
+       my $eml = eml_load('t/data/0001.patch');
+       $im->add($eml);
+       $im->done;
+       my $cmt_b = $v2ibx->mm->last_commit_xap($schema_version, 0);
+       isnt($cmt_a, $cmt_b, 'v2 0.git HEAD updated');
+       $oidx->dbh;
+       my $uv = $v2ibx->uidvalidity;
+       my $lc_key = "lc-v2:v2.example//$uv;0";
+       is($oidx->eidx_meta($lc_key, $cmt_b), $cmt_a,
+               'update lc-v2 meta, old is as expected');
+       my $max = $oidx->max;
+       $oidx->dbh_close;
+       ok(run_script([qw(-extindex), "$home/extindex", $v2ibx->{inboxdir}]),
+               '-extindex noop');
+       is($oidx->max, $max, '->max unchanged');
+       is($oidx->eidx_meta($lc_key), $cmt_b, 'lc-v2 unchanged');
+       $oidx->dbh_close;
+       my $opt = { 2 => \(my $err = '') };
+       ok(run_script([qw(-extindex --reindex), "$home/extindex",
+                       $v2ibx->{inboxdir}], undef, $opt),
+                       '--reindex for unseen');
+       is($oidx->max, $max + 1, '->max bumped');
+       is($oidx->eidx_meta($lc_key), $cmt_b, 'lc-v2 stays unchanged');
+       my @err = split(/^/, $err);
+       is(scalar(@err), 1, 'only one warning') or diag "err=$err";
+       like($err[0], qr/I: reindex_unseen/, 'got reindex_unseen message');
+       my $new = $oidx->get_art($max + 1);
+       is($new->{subject}, $eml->header('Subject'), 'new message added');
+
+       $es->{xdb}->reopen;
+       my $mset = $es->mset("mid:$new->{mid}");
+       is($mset->size, 1, 'previously unseen, now indexed in Xapian');
+
+       ok($im->remove($eml), 'remove new message from v2 inbox');
+       $im->done;
+       my $cmt_c = $v2ibx->mm->last_commit_xap($schema_version, 0);
+       is($oidx->eidx_meta($lc_key, $cmt_c), $cmt_b,
+               'bump lc-v2 meta again to skip v2 remove');
+       $err = '';
+       $oidx->dbh_close;
+       ok(run_script([qw(-extindex --reindex), "$home/extindex",
+                       $v2ibx->{inboxdir}], undef, $opt),
+                       '--reindex for stale');
+       @err = split(/^/, $err);
+       is(scalar(@err), 1, 'only one warning') or diag "err=$err";
+       like($err[0], qr/\(#$new->{num}\): stale/, 'got stale message warning');
+       is($oidx->get_art($new->{num}), undef,
+               'stale message gone from over');
+       is_deeply($oidx->get_xref3($new->{num}), [],
+               'stale message has no xref3');
+       $es->{xdb}->reopen;
+       $mset = $es->mset("mid:$new->{mid}");
+       is($mset->size, 0, 'stale mid gone Xapian');
+}
+
+if ('reindex catches content bifurcation') {
+       use PublicInbox::MID qw(mids);
+       my $v2ibx = $cfg->lookup_name('v2test');
+       $v2ibx->{-no_fsync} = 1;
+       my $im = PublicInbox::InboxWritable->new($v2ibx)->importer(0);
+       my $eml = eml_load('t/data/message_embed.eml');
+       my $cmt_a = $v2ibx->mm->last_commit_xap($schema_version, 0);
+       $im->add($eml);
+       $im->done;
+       my $cmt_b = $v2ibx->mm->last_commit_xap($schema_version, 0);
+       my $uv = $v2ibx->uidvalidity;
+       my $lc_key = "lc-v2:v2.example//$uv;0";
+       $oidx->dbh;
+       is($oidx->eidx_meta($lc_key, $cmt_b), $cmt_a,
+               'update lc-v2 meta, old is as expected');
+       my $mid = mids($eml)->[0];
+       my $smsg = $v2ibx->over->next_by_mid($mid, \(my $id), \(my $prev));
+       my $oldmax = $oidx->max;
+       my $x3_orig = $oidx->get_xref3(3);
+       is(scalar(@$x3_orig), 1, '#3 has one xref');
+       $oidx->add_xref3(3, $smsg->{num}, $smsg->{blob}, 'v2.example');
+       my $x3 = $oidx->get_xref3(3);
+       is(scalar(@$x3), 2, 'injected xref3');
+       $oidx->commit_lazy;
+       my $opt = { 2 => \(my $err = '') };
+       ok(run_script([qw(-extindex --all), "$home/extindex"], undef, $opt),
+               'extindex --all is noop');
+       is($err, '', 'no warnings in index');
+       $oidx->dbh;
+       is($oidx->max, $oldmax, 'oidx->max unchanged');
+       $oidx->dbh_close;
+       ok(run_script([qw(-extindex --reindex --all), "$home/extindex"],
+               undef, $opt), 'extindex --reindex');
+       $oidx->dbh;
+       ok($oidx->max > $oldmax, 'oidx->max bumped');
+       like($err, qr/split into 2 due to deduplication change/,
+               'bifurcation noted');
+       my $added = $oidx->get_art($oidx->max);
+       is($added->{blob}, $smsg->{blob}, 'new blob indexed');
+       is_deeply(["v2.example:$smsg->{num}:$smsg->{blob}"],
+               $oidx->get_xref3($added->{num}),
+               'xref3 corrected for bifurcated message');
+       is_deeply($oidx->get_xref3(3), $x3_orig, 'xref3 restored for #3');
+}
+
+if ('--reindex --rethread') {
+       my $before = $oidx->dbh->selectrow_array(<<'');
+SELECT MAX(tid) FROM over WHERE num > 0
+
+       my $opt = {};
+       ok(run_script([qw(-extindex --reindex --rethread --all),
+                       "$home/extindex"], undef, $opt),
+                       '--rethread');
+       my $after = $oidx->dbh->selectrow_array(<<'');
+SELECT MIN(tid) FROM over WHERE num > 0
+
+       # actual rethread logic is identical to v1/v2 and tested elsewhere
+       ok($after > $before, '--rethread updates MIN(tid)');
+}
+
 if ('remove v1test and test gc') {
        xsys([qw(git config --unset publicinbox.v1test.inboxdir)],
                { GIT_CONFIG => $cfg_path });
@@ -244,4 +400,15 @@ if ('remove v1test and test gc') {
        is(scalar(@it), 1, 'only one inbox left');
 }
 
+if ('dedupe + dry-run') {
+       my @cmd = ('-extindex', "$home/extindex");
+       my $opt = { 2 => \(my $err = '') };
+       ok(run_script([@cmd, '--dedupe'], undef, $opt), '--dedupe');
+       ok(run_script([@cmd, qw(--dedupe --dry-run)], undef, $opt),
+               '--dry-run --dedupe');
+       is $err, '', 'no errors';
+       ok(!run_script([@cmd, qw(--dry-run)], undef, $opt),
+               '--dry-run alone fails');
+}
+
 done_testing;