]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/Search.pm
smsg: remove from_mitem
[public-inbox.git] / lib / PublicInbox / Search.pm
index 4d02a7c169c202ebd150ccd1e0158ab21939c56a..1c6482990d6105be88b3df1999dde848a4d05049 100644 (file)
@@ -5,16 +5,50 @@
 # Read-only search interface for use by the web and NNTP interfaces
 package PublicInbox::Search;
 use strict;
+use parent qw(Exporter);
+our @EXPORT_OK = qw(mdocid);
 
-# values for searching
+# values for searching, changing the numeric value breaks
+# compatibility with old indices (so don't change them it)
 use constant {
        TS => 0, # Received: header in Unix time (IMAP INTERNALDATE)
        YYYYMMDD => 1, # Date: header for searching in the WWW UI
        DT => 2, # Date: YYYYMMDDHHMMSS
+
+       # added for public-inbox 1.6.0+
        BYTES => 3, # IMAP RFC822.SIZE
        UID => 4, # IMAP UID == NNTP article number == Xapian docid
+
        # TODO
-       # REPLYCNT => 4, # IMAP ANSWERED
+       # THREADID => ?
+       # REPLYCNT => ?, # IMAP ANSWERED
+
+       # SCHEMA_VERSION history
+       # 0 - initial
+       # 1 - subject_path is lower-cased
+       # 2 - subject_path is id_compress in the index, only
+       # 3 - message-ID is compressed if it includes '%' (hack!)
+       # 4 - change "Re: " normalization, avoid circular Reference ghosts
+       # 5 - subject_path drops trailing '.'
+       # 6 - preserve References: order in document data
+       # 7 - remove references and inreplyto terms
+       # 8 - remove redundant/unneeded document data
+       # 9 - disable Message-ID compression (SHA-1)
+       # 10 - optimize doc for NNTP overviews
+       # 11 - merge threads when vivifying ghosts
+       # 12 - change YYYYMMDD value column to numeric
+       # 13 - fix threading for empty References/In-Reply-To
+       #      (commit 83425ef12e4b65cdcecd11ddcb38175d4a91d5a0)
+       # 14 - fix ghost root vivification
+       # 15 - see public-inbox-v2-format(5)
+       #      further bumps likely unnecessary, we'll suggest in-place
+       #      "--reindex" use for further fixes and tweaks:
+       #
+       #      public-inbox v1.5.0 adds (still SCHEMA_VERSION=15):
+       #      * "lid:" and "l:" for List-Id searches
+       #
+       #      v1.6.0 adds BYTES and UID values
+       SCHEMA_VERSION => 15,
 };
 
 use PublicInbox::Smsg;
@@ -61,33 +95,6 @@ sub load_xapian () {
 # a prefix common in patch emails
 our $LANG = 'english';
 
-use constant {
-       # SCHEMA_VERSION history
-       # 0 - initial
-       # 1 - subject_path is lower-cased
-       # 2 - subject_path is id_compress in the index, only
-       # 3 - message-ID is compressed if it includes '%' (hack!)
-       # 4 - change "Re: " normalization, avoid circular Reference ghosts
-       # 5 - subject_path drops trailing '.'
-       # 6 - preserve References: order in document data
-       # 7 - remove references and inreplyto terms
-       # 8 - remove redundant/unneeded document data
-       # 9 - disable Message-ID compression (SHA-1)
-       # 10 - optimize doc for NNTP overviews
-       # 11 - merge threads when vivifying ghosts
-       # 12 - change YYYYMMDD value column to numeric
-       # 13 - fix threading for empty References/In-Reply-To
-       #      (commit 83425ef12e4b65cdcecd11ddcb38175d4a91d5a0)
-       # 14 - fix ghost root vivification
-       # 15 - see public-inbox-v2-format(5)
-       #      further bumps likely unnecessary, we'll suggest in-place
-       #      "--reindex" use for further fixes and tweaks
-       #
-       #      public-inbox v1.5.0 adds (still SCHEMA_VERSION=15):
-       #      * "lid:" and "l:" for List-Id searches
-       SCHEMA_VERSION => 15,
-};
-
 # note: the non-X term prefix allocations are shared with
 # Xapian omega, see xapian-applications/omega/docs/termprefixes.rst
 my %bool_pfx_external = (
@@ -258,7 +265,7 @@ sub query {
        if ($query_string eq '' && !$opts->{mset}) {
                $self->{over_ro}->recent($opts);
        } else {
-               my $qp = qp($self);
+               my $qp = $self->{qp} //= qparse_new($self);
                my $qp_flags = $self->{qp_flags};
                my $query = $qp->parse_query($query_string, $qp_flags);
                $opts->{relevance} = 1 unless exists $opts->{relevance};
@@ -317,27 +324,27 @@ sub _enquire_once { # retry_reopen callback
        my $limit = $opts->{limit} || 50;
        my $mset = $enquire->get_mset($offset, $limit);
        return $mset if $opts->{mset};
-       my @msgs = map { PublicInbox::Smsg::from_mitem($_) } $mset->items;
-       return \@msgs unless wantarray;
-
-       ($mset->get_matches_estimated, \@msgs)
+       my $nshard = $self->{nshard} // 1;
+       my $i = 0;
+       my %order = map { mdocid($nshard, $_) => ++$i } $mset->items;
+       my @msgs = sort {
+               $order{$a->{num}} <=> $order{$b->{num}}
+       } @{$self->{over_ro}->get_all(keys %order)};
+       wantarray ? ($mset->get_matches_estimated, \@msgs) : \@msgs;
 }
 
 # read-write
 sub stemmer { $X{Stem}->new($LANG) }
 
 # read-only
-sub qp {
+sub qparse_new ($) {
        my ($self) = @_;
 
-       my $qp = $self->{query_parser};
-       return $qp if $qp;
        my $xdb = xdb($self);
-       # new parser
-       $qp = $X{QueryParser}->new;
+       my $qp = $X{QueryParser}->new;
        $qp->set_default_op(OP_AND());
        $qp->set_database($xdb);
-       $qp->set_stemmer($self->stemmer);
+       $qp->set_stemmer(stemmer($self));
        $qp->set_stemming_strategy(STEM_SOME());
        $qp->set_max_wildcard_expansion(100);
        my $nvrp = $X{NumberValueRangeProcessor};
@@ -375,13 +382,12 @@ EOF
        while (my ($name, $prefix) = each %prob_prefix) {
                $qp->add_prefix($name, $_) foreach split(/ /, $prefix);
        }
-
-       $self->{query_parser} = $qp;
+       $qp;
 }
 
 sub help {
        my ($self) = @_;
-       $self->qp; # parse altids
+       $self->{qp} //= qparse_new($self); # parse altids
        my @ret = @HELP;
        if (my $user_pfx = $self->{-user_pfx}) {
                push @ret, @$user_pfx;