]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/Search.pm
nntp: fix NEWNEWS command
[public-inbox.git] / lib / PublicInbox / Search.pm
index 3ec96ca93a35fc966166c3c08ebb872cf3fb27d1..4dc274723d6ca8e34ca19821256308d47ea7058d 100644 (file)
@@ -56,9 +56,10 @@ my %bool_pfx_internal = (
 );
 
 my %bool_pfx_external = (
-       mid => 'XMID', # uniQue id (Message-ID)
+       mid => 'Q', # Message-ID (full/exact), this is mostly uniQue
 );
 
+my $non_quoted_body = 'XNQ XDFN XDFA XDFB XDFHH XDFCTX XDFPRE XDFPOST';
 my %prob_prefix = (
        # for mairix compatibility
        s => 'S',
@@ -69,12 +70,12 @@ my %prob_prefix = (
        c => 'XCC',
        tcf => 'XTO XCC A',
        a => 'XTO XCC A',
-       b => 'XNQ XQUOT',
-       bs => 'XNQ XQUOT S',
+       b => $non_quoted_body . ' XQUOT',
+       bs => $non_quoted_body . ' XQUOT S',
        n => 'XFN',
 
        q => 'XQUOT',
-       nq => 'XNQ',
+       nq => $non_quoted_body,
        dfn => 'XDFN',
        dfa => 'XDFA',
        dfb => 'XDFB',
@@ -85,7 +86,7 @@ my %prob_prefix = (
        dfblob => 'XDFPRE XDFPOST',
 
        # default:
-       '' => 'XM S A XNQ XQUOT XFN',
+       '' => 'XM S A XQUOT XFN ' . $non_quoted_body,
 );
 
 # not documenting m: and mid: for now, the using the URLs works w/o Xapian
@@ -120,18 +121,59 @@ chomp @HELP;
 my $mail_query = Search::Xapian::Query->new('T' . 'mail');
 
 sub xdir {
-       my (undef, $git_dir) = @_;
-       "$git_dir/public-inbox/xapian" . SCHEMA_VERSION;
+       my ($self) = @_;
+       if ($self->{version} == 1) {
+               "$self->{mainrepo}/public-inbox/xapian" . SCHEMA_VERSION;
+       } else {
+               my $dir = "$self->{mainrepo}/xap" . SCHEMA_VERSION;
+               my $part = $self->{partition};
+               defined $part or die "partition not given";
+               $dir .= "/$part";
+       }
 }
 
 sub new {
-       my ($class, $git_dir, $altid) = @_;
-       my $dir = $class->xdir($git_dir);
-       my $db = Search::Xapian::Database->new($dir);
-       bless { xdb => $db, git_dir => $git_dir, altid => $altid }, $class;
+       my ($class, $mainrepo, $altid) = @_;
+       my $version = 1;
+       my $ibx = $mainrepo;
+       if (ref $ibx) {
+               $version = $ibx->{version} || 1;
+               $mainrepo = $ibx->{mainrepo};
+       }
+       my $self = bless {
+               mainrepo => $mainrepo,
+               altid => $altid,
+               version => $version,
+       }, $class;
+       if ($version >= 2) {
+               my $dir = "$self->{mainrepo}/xap" . SCHEMA_VERSION;
+               my $xdb;
+               my $parts = 0;
+               foreach my $part (<$dir/*>) {
+                       -d $part && $part =~ m!/\d+\z! or next;
+                       $parts++;
+                       my $sub = Search::Xapian::Database->new($part);
+                       if ($xdb) {
+                               $xdb->add_database($sub);
+                       } else {
+                               $xdb = $sub;
+                       }
+               }
+               $self->{xdb} = $xdb;
+               $self->{skel} = Search::Xapian::Database->new("$dir/skel");
+       } else {
+               $self->{xdb} = Search::Xapian::Database->new($self->xdir);
+       }
+       $self;
 }
 
-sub reopen { $_[0]->{xdb}->reopen }
+sub reopen {
+       my ($self) = @_;
+       $self->{xdb}->reopen;
+       if (my $skel = $self->{skel}) {
+               $skel->reopen;
+       }
+}
 
 # read-only
 sub query {
@@ -149,7 +191,7 @@ sub query {
 
 sub get_thread {
        my ($self, $mid, $opts) = @_;
-       my $smsg = eval { $self->lookup_message($mid) };
+       my $smsg = retry_reopen($self, sub { lookup_skeleton($self, $mid) });
 
        return { total => 0, msgs => [] } unless $smsg;
        my $qtid = Search::Xapian::Query->new('G' . $smsg->thread_id);
@@ -165,7 +207,7 @@ sub get_thread {
        # always sort threads by timestamp, this makes life easier
        # for the threading algorithm (in SearchThread.pm)
        $opts->{asc} = 1;
-
+       $opts->{enquire} = enquire_skel($self);
        _do_enquire($self, $qtid, $opts);
 }
 
@@ -180,6 +222,7 @@ sub retry_reopen {
                if (ref($@) eq 'Search::Xapian::DatabaseModifiedError') {
                        reopen($self);
                } else {
+                       warn "ref: ", ref($@), "\n";
                        die;
                }
        }
@@ -192,7 +235,7 @@ sub _do_enquire {
 
 sub _enquire_once {
        my ($self, $query, $opts) = @_;
-       my $enquire = $self->enquire;
+       my $enquire = $opts->{enquire} || enquire($self);
        if (defined $query) {
                $query = Search::Xapian::Query->new(OP_AND,$query,$mail_query);
        } else {
@@ -274,18 +317,57 @@ sub num_range_processor {
 sub query_xover {
        my ($self, $beg, $end, $offset) = @_;
        my $qp = Search::Xapian::QueryParser->new;
-       $qp->set_database($self->{xdb});
+       $qp->set_database($self->{skel} || $self->{xdb});
        $qp->add_valuerangeprocessor($self->num_range_processor);
        my $query = $qp->parse_query("$beg..$end", QP_FLAGS);
 
-       _do_enquire($self, $query, {num => 1, limit => 200, offset => $offset});
+       my $opts = {
+               enquire => enquire_skel($self),
+               num => 1,
+               limit => 200,
+               offset => $offset,
+       };
+       _do_enquire($self, $query, $opts);
+}
+
+sub query_ts {
+       my ($self, $ts, $opts) = @_;
+       my $qp = $self->{qp_ts} ||= eval {
+               my $q = Search::Xapian::QueryParser->new;
+               $q->set_database($self->{skel} || $self->{xdb});
+               $q->add_valuerangeprocessor(
+                       Search::Xapian::NumberValueRangeProcessor->new(TS));
+               $q
+       };
+       my $query = $qp->parse_query($ts, QP_FLAGS);
+       $opts->{enquire} = enquire_skel($self);
+       _do_enquire($self, $query, $opts);
+}
+
+sub lookup_skeleton {
+       my ($self, $mid) = @_;
+       my $skel = $self->{skel} or return lookup_message($self, $mid);
+       $mid = mid_clean($mid);
+       my $term = 'Q' . $mid;
+       my $smsg;
+       my $beg = $skel->postlist_begin($term);
+       if ($beg != $skel->postlist_end($term)) {
+               my $doc_id = $beg->get_docid;
+               if (defined $doc_id) {
+                       # raises on error:
+                       my $doc = $skel->get_document($doc_id);
+                       $smsg = PublicInbox::SearchMsg->wrap($doc, $mid);
+                       $smsg->{doc_id} = $doc_id;
+               }
+       }
+       $smsg;
 }
 
 sub lookup_message {
        my ($self, $mid) = @_;
        $mid = mid_clean($mid);
 
-       my $doc_id = $self->find_unique_doc_id('XMID' . $mid);
+       my $doc_id = $self->find_first_doc_id('Q' . $mid);
        my $smsg;
        if (defined $doc_id) {
                # raises on error:
@@ -304,6 +386,42 @@ sub lookup_mail { # no ghosts!
        });
 }
 
+sub lookup_article {
+       my ($self, $num) = @_;
+       my $term = 'XNUM'.$num;
+       my $smsg;
+       eval {
+               retry_reopen($self, sub {
+                       my $db = $self->{skel} || $self->{xdb};
+                       my $head = $db->postlist_begin($term);
+                       return if $head == $db->postlist_end($term);
+                       my $doc_id = $head->get_docid;
+                       return unless defined $doc_id;
+                       # raises on error:
+                       my $doc = $db->get_document($doc_id);
+                       $smsg = PublicInbox::SearchMsg->wrap($doc);
+                       $smsg->load_expand;
+                       $smsg->{doc_id} = $doc_id;
+               });
+       };
+       $smsg;
+}
+
+sub each_smsg_by_mid {
+       my ($self, $mid, $cb) = @_;
+       my $xdb = $self->{xdb};
+       # XXX retry_reopen isn't necessary for V2Writable, but the PSGI
+       # interface will need it...
+       my ($head, $tail) = $self->find_doc_ids('Q' . $mid);
+       for (; $head->nequal($tail); $head->inc) {
+               my $doc_id = $head->get_docid;
+               my $doc = $xdb->get_document($doc_id);
+               my $smsg = PublicInbox::SearchMsg->wrap($doc, $mid);
+               $smsg->{doc_id} = $doc_id;
+               $cb->($smsg) or return;
+       }
+}
+
 sub find_unique_doc_id {
        my ($self, $termval) = @_;
 
@@ -327,6 +445,16 @@ sub find_doc_ids {
        ($db->postlist_begin($termval), $db->postlist_end($termval));
 }
 
+sub find_first_doc_id {
+       my ($self, $termval) = @_;
+
+       my ($begin, $end) = $self->find_doc_ids($termval);
+
+       return undef if $begin->equal($end); # not found
+
+       $begin->get_docid;
+}
+
 # normalize subjects so they are suitable as pathnames for URLs
 # XXX: consider for removal
 sub subject_path {
@@ -351,6 +479,15 @@ sub enquire {
        $self->{enquire} ||= Search::Xapian::Enquire->new($self->{xdb});
 }
 
+sub enquire_skel {
+       my ($self) = @_;
+       if (my $skel = $self->{skel}) {
+               $self->{enquire_skel} ||= Search::Xapian::Enquire->new($skel);
+       } else {
+               enquire($self);
+       }
+}
+
 sub help {
        my ($self) = @_;
        $self->qp; # parse altids