]> Sergey Matveev's repositories - public-inbox.git/commitdiff
search: index attachment filenames
authorEric Wong <e@80x24.org>
Fri, 9 Sep 2016 00:01:31 +0000 (00:01 +0000)
committerEric Wong <e@80x24.org>
Fri, 9 Sep 2016 00:02:27 +0000 (00:02 +0000)
And while we're at it, ensure searching inside displayable
attachment bodies works.

lib/PublicInbox/Search.pm
lib/PublicInbox/SearchIdx.pm
t/search.t

index ceee39af88e5f8aefa0f46a9ddfa4b1f96d440ba..0c05677216f3e3e3887ffadfa18ff4d963e5e234 100644 (file)
@@ -69,6 +69,7 @@ my %prob_prefix = (
        tcf => 'XTO XCC A',
        b => 'XNQ XQUOT',
        bs => 'XNQ XQUOT S',
+       n => 'XFN',
 
        # n.b.: leaving out "a:" alias for "tcf:" even though
        # mairix supports it.  It is only mentioned in passing in mairix(1)
@@ -77,7 +78,7 @@ my %prob_prefix = (
        nq => 'XNQ',
 
        # default:
-       '' => 'XMID S A XNQ XQUOT',
+       '' => 'XMID S A XNQ XQUOT XFN',
 );
 
 # not documenting m: and mid: for now, the using the URLs works w/o Xapian
index fb68f4b12a66878dbe53108194fbea4396e6ce2c..23aef9f32e959ea1ee3eb3b95957b2ebfe442a6b 100644 (file)
@@ -181,6 +181,10 @@ sub add_message {
                msg_iter($mime, sub {
                        my ($part, $depth, @idx) = @{$_[0]};
                        my $ct = $part->content_type || 'text/plain';
+                       my $fn = $part->filename;
+                       if (defined $fn && $fn ne '') {
+                               $tg->index_text($fn, 1, 'XFN');
+                       }
 
                        return if $ct =~ m!\btext/x?html\b!i;
 
index bddb545a59b0a682ffb5f40c59cd46cb8811f708..cce3b9e28417fc5d470055c7a6e813a231031ff7 100644 (file)
@@ -386,6 +386,50 @@ sub filter_mids {
        }
 }
 
+{
+       my $part1 = Email::MIME->create(
+                 attributes => {
+                     content_type => 'text/plain',
+                     disposition  => 'attachment',
+                     charset => 'US-ASCII',
+                    encoding => 'quoted-printable',
+                    filename => 'attached_fart.txt',
+                 },
+                 body_str => 'inside the attachment',
+       );
+       my $part2 = Email::MIME->create(
+                 attributes => {
+                     content_type => 'text/plain',
+                     disposition  => 'attachment',
+                     charset => 'US-ASCII',
+                    encoding => 'quoted-printable',
+                    filename => 'part_deux.txt',
+                 },
+                 body_str => 'inside another',
+       );
+       my $amsg = Email::MIME->create(
+               header_str => [
+                       Subject => 'see attachment',
+                       'Message-ID' => '<file@attached>',
+                       From => 'John Smith <js@example.com>',
+                       To => 'list@example.com',
+               ],
+               parts => [ $part1, $part2 ],
+       );
+       ok($rw->add_message($amsg), 'added attachment');
+       $rw_commit->();
+       $ro->reopen;
+       my $n = $ro->query('n:attached_fart.txt');
+       is(scalar @{$n->{msgs}}, 1, 'got result for n:');
+       my $res = $ro->query('part_deux.txt');
+       is(scalar @{$res->{msgs}}, 1, 'got result without n:');
+       is($n->{msgs}->[0]->mid, $res->{msgs}->[0]->mid,
+               'same result with and without');
+       my $txt = $ro->query('"inside another"');
+       is($txt->{msgs}->[0]->mid, $res->{msgs}->[0]->mid,
+               'search inside text attachments works');
+}
+
 done_testing();
 
 1;