]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/WWW.pm
www: manifest.js.gz generation no longer hogs event loop
[public-inbox.git] / lib / PublicInbox / WWW.pm
index 99f9f1dc258d2af531349e22eec173c64abd4119..93ab3c9d82c7ee12b8139420f07dee6d2cd13396 100644 (file)
@@ -1,4 +1,4 @@
-# Copyright (C) 2014-2019 all contributors <meta@public-inbox.org>
+# Copyright (C) 2014-2020 all contributors <meta@public-inbox.org>
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
 #
 # Main web interface for mailing list archives
@@ -19,10 +19,10 @@ use PublicInbox::Config;
 use PublicInbox::Hval;
 use URI::Escape qw(uri_unescape);
 use PublicInbox::MID qw(mid_escape);
-require PublicInbox::Git;
 use PublicInbox::GitHTTPBackend;
 use PublicInbox::UserContent;
-use PublicInbox::WwwStatic qw(r);
+use PublicInbox::WwwStatic qw(r path_info_raw);
+use PublicInbox::Eml;
 
 # TODO: consider a routing tree now that we have more endpoints:
 our $INBOX_RE = qr!\A/([\w\-][\w\.\-]*)!;
@@ -43,19 +43,6 @@ sub run {
        PublicInbox::WWW->new->call($req->env);
 }
 
-# PATH_INFO is decoded, and we want the undecoded original
-my %path_re_cache;
-sub path_info_raw ($) {
-       my ($env) = @_;
-       my $sn = $env->{SCRIPT_NAME};
-       my $re = $path_re_cache{$sn} ||= do {
-               $sn = '/'.$sn unless index($sn, '/') == 0;
-               $sn =~ s!/\z!!;
-               qr!\A(?:https?://[^/]+)?\Q$sn\E(/[^\?\#]+)!;
-       };
-       $env->{REQUEST_URI} =~ $re ? $1 : $env->{PATH_INFO};
-}
-
 sub call {
        my ($self, $env) = @_;
        my $ctx = { env => $env, www => $self };
@@ -79,11 +66,13 @@ sub call {
                        my ($epoch, $path) = ($2, $3);
                        return invalid_inbox($ctx, $1) ||
                                serve_git($ctx, $epoch, $path);
+               } elsif ($path_info =~ m!$INBOX_RE/(\w+)\.sql\.gz\z!o) {
+                       return get_altid_dump($ctx, $1, $2);
                } elsif ($path_info =~ m!$INBOX_RE/!o) {
                        return invalid_inbox($ctx, $1) || mbox_results($ctx);
                }
        }
-       elsif ($method !~ /\AGET|HEAD\z/) {
+       elsif ($method !~ /\A(?:GET|HEAD)\z/) {
                return r(405);
        }
 
@@ -98,6 +87,8 @@ sub call {
                invalid_inbox($ctx, $1) || get_atom($ctx);
        } elsif ($path_info =~ m!$INBOX_RE/new\.html\z!o) {
                invalid_inbox($ctx, $1) || get_new($ctx);
+       } elsif ($path_info =~ m!$INBOX_RE/description\z!o) {
+               get_description($ctx, $1);
        } elsif ($path_info =~ m!$INBOX_RE/(?:(?:git/)?([0-9]+)(?:\.git)?/)?
                                ($PublicInbox::GitHTTPBackend::ANY)\z!ox) {
                my ($epoch, $path) = ($2, $3);
@@ -135,6 +126,8 @@ sub call {
                get_vcs_object($ctx, $1, $2, $3);
        } elsif ($path_info =~ m!$INBOX_RE/($OID_RE)/s\z!o) {
                r301($ctx, $1, $2, 's/');
+       } elsif ($path_info =~ m!$INBOX_RE/(\w+)\.sql\.gz\z!o) {
+               get_altid_dump($ctx, $1, $2);
        # convenience redirects order matters
        } elsif ($path_info =~ m!$INBOX_RE/([^/]{2,})\z!o) {
                r301($ctx, $1, $2);
@@ -144,31 +137,54 @@ sub call {
        }
 }
 
-# for CoW-friendliness, MOOOOO!
+# for CoW-friendliness, MOOOOO!  Even for single-process setups,
+# we want to get all immortal allocations done early to avoid heap
+# fragmentation since common allocators favor a large contiguous heap.
 sub preload {
        my ($self) = @_;
+
+       # populate caches used by Encode internally, since emails
+       # may show up with any encoding.
+       require Encode;
+       Encode::find_encoding($_) for Encode->encodings(':all');
+
+       require PublicInbox::ExtMsg;
        require PublicInbox::Feed;
        require PublicInbox::View;
        require PublicInbox::SearchThread;
-       require PublicInbox::MIME;
-       require Digest::SHA;
-       require POSIX;
+       require PublicInbox::Eml;
+       require PublicInbox::Mbox;
+       require PublicInbox::ViewVCS;
+       require PublicInbox::WwwText;
+       require PublicInbox::WwwAttach;
        eval {
                require PublicInbox::Search;
                PublicInbox::Search::load_xapian();
        };
-       foreach (qw(PublicInbox::SearchView
-                       PublicInbox::Mbox IO::Compress::Gzip
-                       PublicInbox::NewsWWW)) {
-               eval "require $_;";
+       for (qw(SearchView MboxGz WwwAltId)) {
+               eval "require PublicInbox::$_;";
        }
        if (ref($self)) {
+               my $pi_config = $self->{pi_config};
+               if (defined($pi_config->{'publicinbox.cgitrc'})) {
+                       $pi_config->limiter('-cgit');
+               }
                $self->cgit;
                $self->stylesheets_prepare($_) for ('', '../', '../../');
                $self->www_listing;
+               $self->news_www;
+               $pi_config->each_inbox(\&preload_inbox);
        }
 }
 
+sub preload_inbox {
+       my $ibx = shift;
+       $ibx->altid_map;
+       $ibx->cloneurl;
+       $ibx->description;
+       $ibx->base_url;
+}
+
 # private functions below
 
 sub r404 {
@@ -216,9 +232,8 @@ sub invalid_inbox_mid {
                my ($x2, $x38) = ($1, $2);
                # this is horrifically wasteful for legacy URLs:
                my $str = $ctx->{-inbox}->msg_by_path("$x2/$x38") or return;
-               require Email::Simple;
-               my $s = Email::Simple->new($str);
-               $mid = PublicInbox::MID::mid_clean($s->header('Message-ID'));
+               my $s = PublicInbox::Eml->new($str);
+               $mid = PublicInbox::MID::mid_clean($s->header_raw('Message-ID'));
                return r301($ctx, $inbox, mid_escape($mid));
        }
        undef;
@@ -286,9 +301,8 @@ sub get_text {
 }
 
 # show git objects (blobs and commits)
-# /$INBOX/_/$OBJECT_ID/show
-# /$INBOX/_/${OBJECT_ID}_${FILENAME}
-# KEY may contain slashes
+# /$INBOX/$GIT_OBJECT_ID/s/
+# /$INBOX/$GIT_OBJECT_ID/s/$FILENAME
 sub get_vcs_object ($$$;$) {
        my ($ctx, $inbox, $oid, $filename) = @_;
        my $r404 = invalid_inbox($ctx, $inbox);
@@ -297,14 +311,21 @@ sub get_vcs_object ($$$;$) {
        PublicInbox::ViewVCS::show($ctx, $oid, $filename);
 }
 
+sub get_altid_dump {
+       my ($ctx, $inbox, $altid_pfx) =@_;
+       my $r404 = invalid_inbox($ctx, $inbox);
+       return $r404 if $r404;
+       eval { require PublicInbox::WwwAltId } or return need($ctx, 'sqlite3');
+       PublicInbox::WwwAltId::sqldump($ctx, $altid_pfx);
+}
+
 sub need {
        my ($ctx, $extra) = @_;
-       my $msg = <<EOF;
-<html><head><title>$extra not available for this
-public-inbox</title><body><pre>$extra is not available for this public-inbox
-<a href="../">Return to index</a></pre></body></html>
+       require PublicInbox::WwwStream;
+       PublicInbox::WwwStream::html_oneshot($ctx, 501, \<<EOF);
+<pre>$extra is not available for this public-inbox
+<a\nhref="../">Return to index</a></pre>
 EOF
-       [ 501, [ 'Content-Type' => 'text/html; charset=UTF-8' ], [ $msg ] ];
 }
 
 # /$INBOX/$MESSAGE_ID/t.mbox           -> thread as mbox
@@ -488,8 +509,8 @@ sub get_inbox_manifest ($$$) {
        my ($ctx, $inbox, $key) = @_;
        my $r404 = invalid_inbox($ctx, $inbox);
        return $r404 if $r404;
-       require PublicInbox::WwwListing;
-       PublicInbox::WwwListing::js($ctx->{env}, [$ctx->{-inbox}]);
+       require PublicInbox::ManifestJsGz;
+       PublicInbox::ManifestJsGz::response($ctx->{env}, [$ctx->{-inbox}]);
 }
 
 sub get_attach {
@@ -634,4 +655,13 @@ sub get_css ($$$) {
        [ 200, $h, [ $css ] ];
 }
 
+sub get_description {
+       my ($ctx, $inbox) = @_;
+       invalid_inbox($ctx, $inbox) || do {
+               my $d = $ctx->{-inbox}->description . "\n";
+               [ 200, [ 'Content-Length', bytes::length($d),
+                       'Content-Type', 'text/plain' ], [ $d ] ];
+       };
+}
+
 1;