]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/OverIdx.pm
overidx: each_by_mid: account for messages being deleted
[public-inbox.git] / lib / PublicInbox / OverIdx.pm
index 9013ae23e5349486a9913bc8593cc4ade791bed2..985abbf4e693de8f01939556abca07504fa21eae 100644 (file)
@@ -158,7 +158,8 @@ SELECT $cols FROM over WHERE over.num = ? LIMIT 1
 
                foreach (@$nums) {
                        $sth->execute($_->[0]);
-                       my $smsg = $sth->fetchrow_hashref;
+                       # $cb may delete rows and invalidate nums
+                       my $smsg = $sth->fetchrow_hashref // next;
                        $smsg = PublicInbox::Over::load_from_row($smsg);
                        $cb->($self, $smsg, @arg) or return;
                }
@@ -243,12 +244,13 @@ sub link_refs {
        $tid;
 }
 
-# normalize subjects so they are suitable as pathnames for URLs
-# XXX: consider for removal
+# normalize subjects somewhat, they used to be ASCII-only but now
+# we use \w for UTF-8 support.  We may still drop it entirely and
+# rely on Xapian for subject matches...
 sub subject_path ($) {
        my ($subj) = @_;
        $subj = subject_normalized($subj);
-       $subj =~ s![^a-zA-Z0-9_\.~/\-]+!_!g;
+       $subj =~ s![^\w\.~/\-]+!_!g;
        lc($subj);
 }
 
@@ -264,8 +266,10 @@ sub add_overview {
        $smsg->{lines} = $eml->body_raw =~ tr!\n!\n!;
        my $mids = mids_for_index($eml);
        my $refs = $smsg->parse_references($eml, $mids);
-       $mids->[0] //= $smsg->{mid} //= $eml->{-lei_fake_mid};
-       $smsg->{mid} //= '';
+       $mids->[0] //= do {
+               $smsg->{mid} //= '';
+               $eml->{-lei_fake_mid};
+       };
        my $subj = $smsg->{subject};
        my $xpath;
        if ($subj ne '') {
@@ -461,8 +465,8 @@ sub create {
        };
        unless (-r $fn) {
                require File::Path;
-               require File::Basename;
-               File::Path::mkpath(File::Basename::dirname($fn));
+               my ($dir) = ($fn =~ m!(.*?/)[^/]+\z!);
+               File::Path::mkpath($dir);
        }
        # create the DB:
        PublicInbox::Over::dbh($self);
@@ -631,7 +635,7 @@ SELECT COUNT(*) FROM xref3 WHERE docid = ?
                # if deduplication rules in ContentHash change, it's
                # possible a docid can have multiple rows with the
                # same ibx_id.  This governs whether or not we call
-               # ->shard_remove_eidx_info in ExtSearchIdx.
+               # ->remove_eidx_info in ExtSearchIdx.
                $sth = $self->{dbh}->prepare_cached(<<'', undef, 1);
 SELECT COUNT(*) FROM xref3 WHERE docid = ? AND ibx_id = ?
 
@@ -654,6 +658,26 @@ UPDATE over SET ddd = ? WHERE num = ?
        $sth->execute;
 }
 
+sub merge_xref3 { # used for "-extindex --dedupe"
+       my ($self, $keep_docid, $drop_docid, $oidhex) = @_;
+       my $oidbin = pack('H*', $oidhex);
+       my $sth = $self->{dbh}->prepare_cached(<<'');
+UPDATE OR IGNORE xref3 SET docid = ? WHERE docid = ? AND oidbin = ?
+
+       $sth->bind_param(1, $keep_docid);
+       $sth->bind_param(2, $drop_docid);
+       $sth->bind_param(3, $oidbin, SQL_BLOB);
+       $sth->execute;
+
+       # drop anything that conflicted
+       $sth = $self->{dbh}->prepare_cached(<<'');
+DELETE FROM xref3 WHERE docid = ? AND oidbin = ?
+
+       $sth->bind_param(1, $drop_docid);
+       $sth->bind_param(2, $oidbin, SQL_BLOB);
+       $sth->execute;
+}
+
 sub eidxq_add {
        my ($self, $docid) = @_;
        $self->dbh->prepare_cached(<<'')->execute($docid);
@@ -668,14 +692,22 @@ DELETE FROM eidxq WHERE docid = ?
 
 }
 
-sub blob_exists {
-       my ($self, $oidhex) = @_;
-       my $sth = $self->dbh->prepare_cached(<<'', undef, 1);
-SELECT COUNT(*) FROM xref3 WHERE oidbin = ?
-
-       $sth->bind_param(1, pack('H*', $oidhex), SQL_BLOB);
-       $sth->execute;
-       $sth->fetchrow_array;
+# returns true if we're vivifying a message for lei/store that was
+# previously external-metadata only
+sub vivify_xvmd {
+       my ($self, $smsg) = @_;
+       my @docids = $self->blob_exists($smsg->{blob});
+       my @vivify_xvmd;
+       for my $id (@docids) {
+               if (my $cur = $self->get_art($id)) {
+                       # already indexed if bytes > 0
+                       return if $cur->{bytes} > 0;
+                       push @vivify_xvmd, $id;
+               } else {
+                       warn "W: $smsg->{blob} #$id gone (bug?)\n";
+               }
+       }
+       $smsg->{-vivify_xvmd} = \@vivify_xvmd;
 }
 
 1;