]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/OverIdx.pm
wwwstream: subclass off GzipFilter
[public-inbox.git] / lib / PublicInbox / OverIdx.pm
index fd521bdd1e20a62f5a38e8c5308663b104fadb7f..008a5d1a936fd981786c2a7158aa2f9271e6f187 100644 (file)
@@ -15,15 +15,24 @@ use IO::Handle;
 use DBI qw(:sql_types); # SQL_BLOB
 use PublicInbox::MID qw/id_compress mids_for_index references/;
 use PublicInbox::Smsg qw(subject_normalized);
-use PublicInbox::MsgTime qw(msg_timestamp msg_datestamp);
 use Compress::Zlib qw(compress);
 use PublicInbox::Search;
 
 sub dbh_new {
        my ($self) = @_;
        my $dbh = $self->SUPER::dbh_new(1);
+
+       # TRUNCATE reduces I/O compared to the default (DELETE)
+       # We do not use WAL since we're optimized for read-only ops,
+       # (and read-only requires SQLite 3.22.0 (2018-01-22)).
        $dbh->do('PRAGMA journal_mode = TRUNCATE');
+
+       # 80000 pages (80MiB on SQLite <3.12.0, 320MiB on 3.12.0+)
+       # was found to be good in 2018 during the large LKML import
+       # at the time.  This ought to be configurable based on HW
+       # and inbox size; I suspect it's overkill for many inboxes.
        $dbh->do('PRAGMA cache_size = 80000');
+
        create_tables($dbh);
        $dbh;
 }
@@ -216,15 +225,13 @@ sub link_refs {
 }
 
 sub parse_references ($$$) {
-       my ($smsg, $mid0, $mids) = @_;
-       my $mime = $smsg->{mime};
-       my $hdr = $mime->header_obj;
+       my ($smsg, $hdr, $mids) = @_;
        my $refs = references($hdr);
        push(@$refs, @$mids) if scalar(@$mids) > 1;
        return $refs if scalar(@$refs) == 0;
 
        # prevent circular references here:
-       my %seen = ( $mid0 => 1 );
+       my %seen = ( $smsg->{mid} => 1 );
        my @keep;
        foreach my $ref (@$refs) {
                if (length($ref) > PublicInbox::MID::MAX_MID_SIZE) {
@@ -247,31 +254,21 @@ sub subject_path ($) {
 }
 
 sub add_overview {
-       my ($self, $mime, $bytes, $num, $oid, $mid0, $times) = @_;
-       my $lines = $mime->body_raw =~ tr!\n!\n!;
-       my $smsg = bless {
-               mime => $mime,
-               mid => $mid0,
-               bytes => $bytes,
-               lines => $lines,
-               blob => $oid,
-       }, 'PublicInbox::Smsg';
+       my ($self, $mime, $smsg) = @_;
+       $smsg->{lines} = $mime->body_raw =~ tr!\n!\n!;
        my $hdr = $mime->header_obj;
        my $mids = mids_for_index($hdr);
-       my $refs = parse_references($smsg, $mid0, $mids);
-       my $subj = $smsg->subject;
+       my $refs = parse_references($smsg, $hdr, $mids);
+       my $subj = $smsg->{subject};
        my $xpath;
        if ($subj ne '') {
                $xpath = subject_path($subj);
                $xpath = id_compress($xpath);
        }
-       my $dd = $smsg->to_doc_data($oid, $mid0);
+       my $dd = $smsg->to_doc_data;
        utf8::encode($dd);
        $dd = compress($dd);
-       my $ds = msg_timestamp($hdr, $times->{autime});
-       my $ts = msg_datestamp($hdr, $times->{cotime});
-       my $values = [ $ts, $ds, $num, $mids, $refs, $xpath, $dd ];
-       add_over($self, $values);
+       add_over($self, [ @$smsg{qw(ts ds num)}, $mids, $refs, $xpath, $dd ]);
 }
 
 sub add_over {