]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/Search.pm
search: allow searching within mail diffs
[public-inbox.git] / lib / PublicInbox / Search.pm
index c9094245a7f597e144b5ff3e0231005cef97c923..c7c5455d744d6fab782572c9f0af2848b55f5769 100644 (file)
@@ -39,7 +39,10 @@ use constant {
        # 10 - optimize doc for NNTP overviews
        # 11 - merge threads when vivifying ghosts
        # 12 - change YYYYMMDD value column to numeric
-       SCHEMA_VERSION => 12,
+       # 13 - fix threading for empty References/In-Reply-To
+       #      (commit 83425ef12e4b65cdcecd11ddcb38175d4a91d5a0)
+       # 14 - fix ghost root vivification
+       SCHEMA_VERSION => 14,
 
        # n.b. FLAG_PURE_NOT is expensive not suitable for a public website
        # as it could become a denial-of-service vector
@@ -53,8 +56,6 @@ my %bool_pfx_internal = (
 );
 
 my %bool_pfx_external = (
-       # do we still need these? probably not..
-       path => 'XPATH',
        mid => 'Q', # uniQue id (Message-ID)
 );
 
@@ -74,6 +75,14 @@ my %prob_prefix = (
 
        q => 'XQUOT',
        nq => 'XNQ',
+       dfn => 'XDFN',
+       dfa => 'XDFA',
+       dfb => 'XDFB',
+       dfhh => 'XDFHH',
+       dfctx => 'XDFCTX',
+       dfpre => 'XDFPRE',
+       dfpost => 'XDFPOST',
+       dfblob => 'XDFPRE XDFPOST',
 
        # default:
        '' => 'XMID S A XNQ XQUOT XFN',
@@ -89,7 +98,7 @@ are also supported
 EOF
        'b:' => 'match within message body, including text attachments',
        'nq:' => 'match non-quoted text within message body',
-       'quot:' => 'match quoted text within message body',
+       'q:' => 'match quoted text within message body',
        'n:' => 'match filename of attachment(s)',
        't:' => 'match within the To header',
        'c:' => 'match within the Cc header',
@@ -97,18 +106,18 @@ EOF
        'a:' => 'match within the To, Cc, and From headers',
        'tc:' => 'match within the To and Cc headers',
        'bs:' => 'match within the Subject and body',
+       'dfn:' => 'match filename from diff',
+       'dfa:' => 'match diff removed (-) lines',
+       'dfb:' => 'match diff added (+) lines',
+       'dfhh:' => 'match diff hunk header context (usually a function name)',
+       'dfctx:' => 'match diff context lines',
+       'dfpre:' => 'match pre-image git blob ID',
+       'dfpost:' => 'match post-image git blob ID',
+       'dfblob:' => 'match either pre or post-image git blob ID',
 );
 chomp @HELP;
-# TODO:
-# df (filenames from diff)
-# da (diff a/ removed lines)
-# db (diff b/ added lines)
 
-my %all_pfx = (%bool_pfx_internal, %bool_pfx_external, %prob_prefix);
-
-sub xpfx { $all_pfx{$_[0]} }
-
-my $mail_query = Search::Xapian::Query->new(xpfx('type') . 'mail');
+my $mail_query = Search::Xapian::Query->new('T' . 'mail');
 
 sub xdir {
        my (undef, $git_dir) = @_;
@@ -143,11 +152,11 @@ sub get_thread {
        my $smsg = eval { $self->lookup_message($mid) };
 
        return { total => 0, msgs => [] } unless $smsg;
-       my $qtid = Search::Xapian::Query->new(xpfx('thread').$smsg->thread_id);
+       my $qtid = Search::Xapian::Query->new('G' . $smsg->thread_id);
        my $path = $smsg->path;
        if (defined $path && $path ne '') {
                my $path = id_compress($smsg->path);
-               my $qsub = Search::Xapian::Query->new(xpfx('path').$path);
+               my $qsub = Search::Xapian::Query->new('XPATH' . $path);
                $qtid = Search::Xapian::Query->new(OP_OR, $qtid, $qsub);
        }
        $opts ||= {};
@@ -276,7 +285,7 @@ sub lookup_message {
        my ($self, $mid) = @_;
        $mid = mid_clean($mid);
 
-       my $doc_id = $self->find_unique_doc_id('mid', $mid);
+       my $doc_id = $self->find_unique_doc_id('Q' . $mid);
        my $smsg;
        if (defined $doc_id) {
                # raises on error:
@@ -296,9 +305,9 @@ sub lookup_mail { # no ghosts!
 }
 
 sub find_unique_doc_id {
-       my ($self, $term, $value) = @_;
+       my ($self, $termval) = @_;
 
-       my ($begin, $end) = $self->find_doc_ids($term, $value);
+       my ($begin, $end) = $self->find_doc_ids($termval);
 
        return undef if $begin->equal($end); # not found
 
@@ -306,23 +315,16 @@ sub find_unique_doc_id {
 
        # sanity check
        $begin->inc;
-       $begin->equal($end) or die "Term '$term:$value' is not unique\n";
+       $begin->equal($end) or die "Term '$termval' is not unique\n";
        $rv;
 }
 
 # returns begin and end PostingIterator
 sub find_doc_ids {
-       my ($self, $term, $value) = @_;
-
-       $self->find_doc_ids_for_term(xpfx($term) . $value);
-}
-
-# returns begin and end PostingIterator
-sub find_doc_ids_for_term {
-       my ($self, $term) = @_;
+       my ($self, $termval) = @_;
        my $db = $self->{xdb};
 
-       ($db->postlist_begin($term), $db->postlist_end($term));
+       ($db->postlist_begin($termval), $db->postlist_end($termval));
 }
 
 # normalize subjects so they are suitable as pathnames for URLs