]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/Search.pm
isearch: emulate per-inbox search with ->ALL
[public-inbox.git] / lib / PublicInbox / Search.pm
index 4cfb7b3846d5f6475478c1edb94893670720bd56..ba2392557bc5abfc42147483a65bb1f7dc10ef2a 100644 (file)
@@ -6,7 +6,8 @@
 package PublicInbox::Search;
 use strict;
 use parent qw(Exporter);
-our @EXPORT_OK = qw(mdocid);
+our @EXPORT_OK = qw(retry_reopen);
+use List::Util qw(max);
 
 # values for searching, changing the numeric value breaks
 # compatibility with old indices (so don't change them it)
@@ -53,20 +54,34 @@ use constant {
 
 use PublicInbox::Smsg;
 use PublicInbox::Over;
-my $QP_FLAGS;
-our %X = map { $_ => 0 } qw(BoolWeight Database Enquire
-                       NumberValueRangeProcessor QueryParser Stem);
+our $QP_FLAGS;
+our %X = map { $_ => 0 } qw(BoolWeight Database Enquire QueryParser Stem Query);
 our $Xap; # 'Search::Xapian' or 'Xapian'
-my $ENQ_ASCENDING;
+our $NVRP; # '$Xap::'.('NumberValueRangeProcessor' or 'NumberRangeProcessor')
+our $ENQ_ASCENDING;
 
 sub load_xapian () {
        return 1 if defined $Xap;
-       for my $x (qw(Search::Xapian Xapian)) {
+       # n.b. PI_XAPIAN is intended for development use only.  We still
+       # favor Search::Xapian since that's what's available in current
+       # Debian stable (10.x) and derived distros.
+       for my $x (($ENV{PI_XAPIAN} // 'Search::Xapian'), 'Xapian') {
                eval "require $x";
                next if $@;
 
                $x->import(qw(:standard));
                $Xap = $x;
+
+               # `version_string' was added in Xapian 1.1
+               my $xver = eval('v'.eval($x.'::version_string()')) //
+                               eval('v'.eval($x.'::xapian_version_string()'));
+
+               # NumberRangeProcessor was added in Xapian 1.3.6,
+               # NumberValueRangeProcessor was removed for 1.5.0+,
+               # favor the older /Value/ variant since that's what our
+               # (currently) preferred Search::Xapian supports
+               $NVRP = $x.'::'.($x eq 'Xapian' && $xver ge v1.5 ?
+                       'NumberRangeProcessor' : 'NumberValueRangeProcessor');
                $X{$_} = $Xap.'::'.$_ for (keys %X);
 
                # ENQ_ASCENDING doesn't seem exported by SWIG Xapian.pm,
@@ -75,9 +90,6 @@ sub load_xapian () {
                $ENQ_ASCENDING = $x eq 'Xapian' ?
                                1 : Search::Xapian::ENQ_ASCENDING();
 
-               # for Smsg:
-               *PublicInbox::Smsg::sortable_unserialise =
-                                               $Xap.'::sortable_unserialise';
                # n.b. FLAG_PURE_NOT is expensive not suitable for a public
                # website as it could become a denial-of-service vector
                # FLAG_PHRASE also seems to cause performance problems chert
@@ -178,36 +190,42 @@ sub xdir ($;$) {
        }
 }
 
-sub _xdb ($) {
+sub xdb_sharded {
+       my ($self) = @_;
+       opendir(my $dh, $self->{xpfx}) or return; # not initialized yet
+
+       # We need numeric sorting so shard[0] is first for reading
+       # Xapian metadata, if needed
+       my $last = max(grep(/\A[0-9]+\z/, readdir($dh)));
+       return if !defined($last);
+       my (@xdb, $slow_phrase);
+       for (0..$last) {
+               my $shard_dir = "$self->{xpfx}/$_";
+               if (-d $shard_dir && -r _) {
+                       push @xdb, $X{Database}->new($shard_dir);
+                       $slow_phrase ||= -f "$shard_dir/iamchert";
+               } else { # gaps from missing epochs throw off mdocid()
+                       warn "E: $shard_dir missing or unreadable\n";
+                       return;
+               }
+       }
+       $self->{qp_flags} |= FLAG_PHRASE() if !$slow_phrase;
+       $self->{nshard} = scalar(@xdb);
+       my $xdb = shift @xdb;
+       $xdb->add_database($_) for @xdb;
+       $xdb;
+}
+
+sub _xdb {
        my ($self) = @_;
        my $dir = xdir($self, 1);
-       my ($xdb, $slow_phrase);
-       my $qpf = \($self->{qp_flags} ||= $QP_FLAGS);
+       $self->{qp_flags} //= $QP_FLAGS;
        if ($self->{ibx_ver} >= 2) {
-               my @xdb;
-               opendir(my $dh, $dir) or return; # not initialized yet
-
-               # We need numeric sorting so shard[0] is first for reading
-               # Xapian metadata, if needed
-               for (sort { $a <=> $b } grep(/\A[0-9]+\z/, readdir($dh))) {
-                       my $shard_dir = "$dir/$_";
-                       if (-d $shard_dir && -r _) {
-                               push @xdb, $X{Database}->new($shard_dir);
-                               $slow_phrase ||= -f "$shard_dir/iamchert";
-                       } else { # gaps from missing epochs throw off mdocid()
-                               warn "E: $shard_dir missing or unreadable\n";
-                               return;
-                       }
-               }
-               $self->{nshard} = scalar(@xdb);
-               $xdb = shift @xdb;
-               $xdb->add_database($_) for @xdb;
+               xdb_sharded($self);
        } else {
-               $slow_phrase = -f "$dir/iamchert";
-               $xdb = $X{Database}->new($dir);
+               $self->{qp_flags} |= FLAG_PHRASE() if !-f "$dir/iamchert";
+               $X{Database}->new($dir);
        }
-       $$qpf |= FLAG_PHRASE() unless $slow_phrase;
-       $xdb;
 }
 
 # v2 Xapian docids don't conflict, so they're identical to
@@ -227,9 +245,9 @@ sub mset_to_artnums {
 
 sub xdb ($) {
        my ($self) = @_;
-       $self->{xdb} ||= do {
+       $self->{xdb} //= do {
                load_xapian();
-               _xdb($self);
+               $self->_xdb;
        };
 }
 
@@ -251,8 +269,6 @@ sub new {
                ibx_ver => $ibx->version,
        }, $class;
        xpfx_init($self);
-       my $dir = xdir($self, 1);
-       $self->{over_ro} = PublicInbox::Over->new("$dir/over.sqlite3");
        $self;
 }
 
@@ -265,30 +281,25 @@ sub reopen {
 }
 
 # read-only
-sub query {
+sub mset {
        my ($self, $query_string, $opts) = @_;
        $opts ||= {};
-       if ($query_string eq '' && !$opts->{mset}) {
-               $self->{over_ro}->recent($opts);
-       } else {
-               my $qp = $self->{qp} //= qparse_new($self);
-               my $qp_flags = $self->{qp_flags};
-               my $query = $qp->parse_query($query_string, $qp_flags);
-               $opts->{relevance} = 1 unless exists $opts->{relevance};
-               _do_enquire($self, $query, $opts);
-       }
+       my $qp = $self->{qp} //= qparse_new($self);
+       my $query = $qp->parse_query($query_string, $self->{qp_flags});
+       $opts->{relevance} = 1 unless exists $opts->{relevance};
+       _do_enquire($self, $query, $opts);
 }
 
 sub retry_reopen {
-       my ($self, $cb, $arg) = @_;
+       my ($self, $cb, @arg) = @_;
        for my $i (1..10) {
                if (wantarray) {
                        my @ret;
-                       eval { @ret = $cb->($arg) };
+                       eval { @ret = $cb->($self, @arg) };
                        return @ret unless $@;
                } else {
                        my $ret;
-                       eval { $ret = $cb->($arg) };
+                       eval { $ret = $cb->($self, @arg) };
                        return $ret unless $@;
                }
                # Exception: The revision being read has been discarded -
@@ -308,12 +319,21 @@ sub retry_reopen {
 
 sub _do_enquire {
        my ($self, $query, $opts) = @_;
-       retry_reopen($self, \&_enquire_once, [ $self, $query, $opts ]);
+       retry_reopen($self, \&_enquire_once, $query, $opts);
+}
+
+# returns true if all docs have the THREADID value
+sub has_threadid ($) {
+       my ($self) = @_;
+       (xdb($self)->get_metadata('has_threadid') // '') eq '1';
 }
 
 sub _enquire_once { # retry_reopen callback
-       my ($self, $query, $opts) = @{$_[0]};
+       my ($self, $query, $opts) = @_;
        my $xdb = xdb($self);
+       if (defined(my $eidx_key = $opts->{eidx_key})) {
+               $query = $X{Query}->new(OP_FILTER(), $query, 'O'.$eidx_key);
+       }
        my $enquire = $X{Enquire}->new($xdb);
        $enquire->set_query($query);
        $opts ||= {};
@@ -326,16 +346,22 @@ sub _enquire_once { # retry_reopen callback
        } else {
                $enquire->set_sort_by_value_then_relevance(TS, $desc);
        }
-       my $offset = $opts->{offset} || 0;
-       my $limit = $opts->{limit} || 50;
-       my $mset = $enquire->get_mset($offset, $limit);
-       return $mset if $opts->{mset};
+
+       # `mairix -t / --threads' or JMAP collapseThreads
+       if ($opts->{thread} && has_threadid($self)) {
+               $enquire->set_collapse_key(THREADID);
+       }
+       $enquire->get_mset($opts->{offset} || 0, $opts->{limit} || 50);
+}
+
+sub mset_to_smsg {
+       my ($self, $ibx, $mset) = @_;
        my $nshard = $self->{nshard} // 1;
        my $i = 0;
        my %order = map { mdocid($nshard, $_) => ++$i } $mset->items;
        my @msgs = sort {
                $order{$a->{num}} <=> $order{$b->{num}}
-       } @{$self->{over_ro}->get_all(keys %order)};
+       } @{$ibx->over->get_all(keys %order)};
        wantarray ? ($mset->get_matches_estimated, \@msgs) : \@msgs;
 }
 
@@ -352,15 +378,18 @@ sub qparse_new ($) {
        $qp->set_database($xdb);
        $qp->set_stemmer(stemmer($self));
        $qp->set_stemming_strategy(STEM_SOME());
-       $qp->set_max_wildcard_expansion(100);
-       my $nvrp = $X{NumberValueRangeProcessor};
-       $qp->add_valuerangeprocessor($nvrp->new(YYYYMMDD, 'd:'));
-       $qp->add_valuerangeprocessor($nvrp->new(DT, 'dt:'));
+       my $cb = $qp->can('set_max_wildcard_expansion') //
+               $qp->can('set_max_expansion'); # Xapian 1.5.0+
+       $cb->($qp, 100);
+       $cb = $qp->can('add_valuerangeprocessor') //
+               $qp->can('add_rangeprocessor'); # Xapian 1.5.0+
+       $cb->($qp, $NVRP->new(YYYYMMDD, 'd:'));
+       $cb->($qp, $NVRP->new(DT, 'dt:'));
 
        # for IMAP, undocumented for WWW and may be split off go away
-       $qp->add_valuerangeprocessor($nvrp->new(BYTES, 'bytes:'));
-       $qp->add_valuerangeprocessor($nvrp->new(TS, 'ts:'));
-       $qp->add_valuerangeprocessor($nvrp->new(UID, 'uid:'));
+       $cb->($qp, $NVRP->new(BYTES, 'bytes:'));
+       $cb->($qp, $NVRP->new(TS, 'ts:'));
+       $cb->($qp, $NVRP->new(UID, 'uid:'));
 
        while (my ($name, $prefix) = each %bool_pfx_external) {
                $qp->add_boolean_prefix($name, $_) foreach split(/ /, $prefix);