]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/WwwAtomStream.pm
wwwstream: reduce blob fetch paths for ->getline
[public-inbox.git] / lib / PublicInbox / WwwAtomStream.pm
index 9ec1383dada276b101a35df7ea3809692609567e..58330922881b92cbe779d5b22b11c79457d0c8fd 100644 (file)
@@ -1,4 +1,4 @@
-# Copyright (C) 2016-2019 all contributors <meta@public-inbox.org>
+# Copyright (C) 2016-2020 all contributors <meta@public-inbox.org>
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
 #
 # Atom body stream for which yields getline+close methods
@@ -12,34 +12,102 @@ use warnings;
 use POSIX qw(strftime);
 use Digest::SHA qw(sha1_hex);
 use PublicInbox::Address;
-use PublicInbox::Hval qw(ascii_html);
-use PublicInbox::MID qw(mid_escape);
+use PublicInbox::Hval qw(ascii_html mid_href);
 use PublicInbox::MsgTime qw(msg_timestamp);
+use PublicInbox::GzipFilter qw(gzf_maybe);
+use PublicInbox::GitAsyncCat;
 
-# called by PSGI server after getline:
-sub close {}
+# called by generic PSGI server after getline,
+# and also by PublicInbox::HTTP::close
+sub close { !!delete($_[0]->{http_out}) }
 
 sub new {
        my ($class, $ctx, $cb) = @_;
-       $ctx->{emit_header} = 1;
        $ctx->{feed_base_url} = $ctx->{-inbox}->base_url($ctx->{env});
-       bless { cb => $cb || *close, ctx => $ctx }, $class;
+       $ctx->{cb} = $cb || \&close;
+       $ctx->{emit_header} = 1;
+       bless $ctx, $class;
+}
+
+# called by PublicInbox::DS::write
+sub atom_async_next {
+       my ($http) = @_; # PublicInbox::HTTP
+       atom_async_step($http->{forward});
+}
+
+# this is public-inbox-httpd-specific
+sub atom_blob_cb { # git->cat_async callback
+       my ($bref, $oid, $type, $size, $ctx) = @_;
+       my $http = $ctx->{env}->{'psgix.io'} or return; # client abort
+       my $smsg = delete $ctx->{smsg} or die 'BUG: no smsg';
+       if (!defined($oid)) {
+               # it's possible to have TOCTOU if an admin runs
+               # public-inbox-(edit|purge), just move onto the next message
+               return $http->next_step(\&atom_async_next);
+       } else {
+               $smsg->{blob} eq $oid or die "BUG: $smsg->{blob} != $oid";
+       }
+       my $buf = feed_entry($ctx, $smsg, PublicInbox::Eml->new($bref));
+       if (my $gzf = $ctx->{gzf}) {
+               $buf = $gzf->translate($buf);
+       }
+       # PublicInbox::HTTP::{Chunked,Identity}::write
+       $ctx->{http_out}->write($buf);
+
+       $http->next_step(\&atom_async_next);
+}
+
+sub atom_async_step { # this is public-inbox-httpd-specific
+       my ($ctx) = @_;
+       if (my $smsg = $ctx->{smsg} = $ctx->{cb}->($ctx)) {
+               git_async_cat($ctx->{-inbox}->git, $smsg->{blob},
+                               \&atom_blob_cb, $ctx);
+       } elsif (my $out = delete $ctx->{http_out}) {
+               if (my $gzf = delete $ctx->{gzf}) {
+                       $out->write($gzf->zflush);
+               }
+               $out->close;
+       }
 }
 
 sub response {
        my ($class, $ctx, $code, $cb) = @_;
-       [ $code, [ 'Content-Type', 'application/atom+xml' ],
-         $class->new($ctx, $cb) ]
+       my $res_hdr = [ 'Content-Type' => 'application/atom+xml' ];
+       $class->new($ctx, $cb);
+       $ctx->{gzf} = gzf_maybe($res_hdr, $ctx->{env});
+       if ($ctx->{env}->{'pi-httpd.async'}) {
+               sub {
+                       my ($wcb) = @_; # -httpd provided write callback
+                       $ctx->{http_out} = $wcb->([200, $res_hdr]);
+                       $ctx->{env}->{'psgix.io'}->{forward} = $ctx;
+                       atom_async_step($ctx); # start stepping
+               };
+       } else {
+               [ $code, $res_hdr, $ctx ];
+       }
 }
 
 # called once for each message by PSGI server
 sub getline {
        my ($self) = @_;
-       if (my $middle = $self->{cb}) {
-               my $smsg = $middle->($self->{ctx});
-               return feed_entry($self, $smsg) if $smsg;
-       }
-       delete $self->{cb} ? '</feed>' : undef;
+       my $buf = do {
+               if (my $middle = $self->{cb}) {
+                       if (my $smsg = $middle->($self)) {
+                               my $eml = $self->{-inbox}->smsg_eml($smsg) or
+                                               return '';
+                               feed_entry($self, $smsg, $eml);
+                       } else {
+                               undef;
+                       }
+               }
+       } // (delete($self->{cb}) ? '</feed>' : undef);
+
+       # gzf may be GzipFilter, `undef' or `0'
+       my $gzf = $self->{gzf} or return $buf;
+
+       return $gzf->translate($buf) if defined $buf;
+       $self->{gzf} = 0; # next call to ->getline returns $buf (== undef)
+       $gzf->translate(undef);
 }
 
 # private
@@ -71,7 +139,7 @@ sub atom_header {
        my $mid = $ctx->{mid};
        my $page_id;
        if (defined $mid) { # per-thread
-               $self_url .= mid_escape($mid).'/t.atom';
+               $self_url .= mid_href($mid).'/t.atom';
                $page_id = to_uuid("t\n".$mid)
        } elsif (defined $search_q) {
                my $query = $search_q->{'q'};
@@ -84,8 +152,6 @@ sub atom_header {
                $self_url .= 'new.atom';
                $page_id = "mailto:$ibx->{-primary_address}";
        }
-       my $mtime = (stat($ibx->{inboxdir}))[9] || time;
-
        qq(<?xml version="1.0" encoding="us-ascii"?>\n) .
        qq(<feed\nxmlns="http://www.w3.org/2005/Atom"\n) .
        qq(xmlns:thr="http://purl.org/syndication/thread/1.0">) .
@@ -94,31 +160,27 @@ sub atom_header {
                qq(\nhref="$base_url"/>) .
        qq(<link\nrel="self"\nhref="$self_url"/>) .
        qq(<id>$page_id</id>) .
-       feed_updated(gmtime($mtime));
+       feed_updated($ibx->modified);
 }
 
 # returns undef or string
 sub feed_entry {
-       my ($self, $smsg) = @_;
-       my $ctx = $self->{ctx};
-       my $mid = $smsg->mid; # may extract Message-ID from {mime}
-       my $mime = delete $smsg->{mime};
-       my $hdr = $mime->header_obj;
+       my ($ctx, $smsg, $eml) = @_;
+       my $hdr = $eml->header_obj;
+       my $mid = $smsg->{mid};
        my $irt = PublicInbox::View::in_reply_to($hdr);
        my $uuid = to_uuid($mid);
        my $base = $ctx->{feed_base_url};
        if (defined $irt) {
                my $irt_uuid = to_uuid($irt);
-               $irt = mid_escape($irt);
+               $irt = mid_href($irt);
                $irt = qq(<thr:in-reply-to\nref="$irt_uuid"\n).
                        qq(href="$base$irt/"/>);
        } else {
                $irt = '';
        }
-       my $href = $base . mid_escape($mid) . '/';
-       my $t = msg_timestamp($hdr);
-       my @t = gmtime(defined $t ? $t : time);
-       my $updated = feed_updated(@t);
+       my $href = $base . mid_href($mid) . '/';
+       my $updated = feed_updated(msg_timestamp($hdr));
 
        my $title = $hdr->header('Subject');
        $title = '(no subject)' unless defined $title && $title ne '';
@@ -140,13 +202,16 @@ sub feed_entry {
                "<id>$uuid</id>$irt" .
                qq{<content\ntype="xhtml">} .
                qq{<div\nxmlns="http://www.w3.org/1999/xhtml">} .
-               qq(<pre\nstyle="white-space:pre-wrap">) .
-               PublicInbox::View::multipart_text_as_html($mime, $href, $ctx) .
-               '</pre></div></content></entry>';
+               qq(<pre\nstyle="white-space:pre-wrap">);
+       $ctx->{obuf} = \$s;
+       $ctx->{mhref} = $href;
+       PublicInbox::View::multipart_text_as_html($eml, $ctx);
+       delete $ctx->{obuf};
+       $s .= '</pre></div></content></entry>';
 }
 
 sub feed_updated {
-       '<updated>' . strftime('%Y-%m-%dT%H:%M:%SZ', @_) . '</updated>';
+       '<updated>' . strftime('%Y-%m-%dT%H:%M:%SZ', gmtime(@_)) . '</updated>';
 }
 
 1;