]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/GzipFilter.pm
www: update internal docs
[public-inbox.git] / lib / PublicInbox / GzipFilter.pm
index 95fced053579cebfc34359138d3077a2afa19847..d72ad3c88da55779e9f2c953a63f61040a90c123 100644 (file)
 # Copyright (C) 2020 all contributors <meta@public-inbox.org>
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
-
-# Qspawn filter
+#
+# In public-inbox <=1.5.0, public-inbox-httpd favored "getline"
+# response bodies to take a "pull"-based approach to feeding
+# slow clients (as opposed to a more common "push" model).
+#
+# In newer versions, public-inbox-httpd supports a backpressure-aware
+# pull/push model which also accounts for slow git blob storage.
+# {async_next} callbacks only run when the DS {wbuf} is drained
+# {async_eml} callbacks only run when a blob arrives from git.
+#
+# We continue to support getline+close for generic PSGI servers.
 package PublicInbox::GzipFilter;
 use strict;
 use parent qw(Exporter);
-use Compress::Raw::Zlib qw(Z_FINISH Z_OK);
-our @EXPORT_OK = qw(gzip_maybe gzf_maybe);
+use Compress::Raw::Zlib qw(Z_OK);
+use PublicInbox::CompressNoop;
+use PublicInbox::Eml;
+use PublicInbox::GitAsyncCat;
+
+our @EXPORT_OK = qw(gzf_maybe);
 my %OPT = (-WindowBits => 15 + 16, -AppendOutput => 1);
 my @GZIP_HDRS = qw(Vary Accept-Encoding Content-Encoding gzip);
 
-sub new { bless {}, shift }
+sub new { bless {}, shift } # qspawn filter
 
 # for Qspawn if using $env->{'pi-httpd.async'}
 sub attach {
-       my ($self, $fh) = @_;
-       $self->{fh} = $fh;
+       my ($self, $http_out) = @_;
+       $self->{http_out} = $http_out; # PublicInbox::HTTP::{Chunked,Identity}
        $self
 }
 
-sub gzip_maybe ($$) {
+sub gz_or_noop {
        my ($res_hdr, $env) = @_;
-       return if (($env->{HTTP_ACCEPT_ENCODING}) // '') !~ /\bgzip\b/;
+       if (($env->{HTTP_ACCEPT_ENCODING} // '') =~ /\bgzip\b/) {
+               $env->{'plack.skip-deflater'} = 1;
+               push @$res_hdr, @GZIP_HDRS;
+               gzip_or_die();
+       } else {
+               PublicInbox::CompressNoop::new();
+       }
+}
 
-       my ($gz, $err) = Compress::Raw::Zlib::Deflate->new(%OPT);
-       return if $err != Z_OK;
+sub gzf_maybe ($$) { bless { gz => gz_or_noop(@_) }, __PACKAGE__ }
 
-       # in case Plack::Middleware::Deflater is loaded:
-       $env->{'plack.skip-deflater'} = 1;
+sub psgi_response {
+       my ($self, $code, $res_hdr, $next_cb, $eml_cb) = @_;
+       my $env = $self->{env};
+       $self->{gz} //= gz_or_noop($res_hdr, $env);
+       if ($env->{'pi-httpd.async'}) {
+               $self->{async_next} = $next_cb;
+               $self->{async_eml} = $eml_cb;
+               my $http = $env->{'psgix.io'}; # PublicInbox::HTTP
+               $http->{forward} = $self;
+               sub {
+                       my ($wcb) = @_; # -httpd provided write callback
+                       $self->{http_out} = $wcb->([$code, $res_hdr]);
+                       $next_cb->($http); # start stepping
+               };
+       } else { # generic PSGI code path
+               [ $code, $res_hdr, $self ];
+       }
+}
 
+sub qsp_maybe ($$) {
+       my ($res_hdr, $env) = @_;
+       return if ($env->{HTTP_ACCEPT_ENCODING} // '') !~ /\bgzip\b/;
+       my $hdr = join("\n", @$res_hdr);
+       return if $hdr !~ m!^Content-Type\n
+                               (?:(?:text/(?:html|plain))|
+                               application/atom\+xml)\b!ixsm;
+       return if $hdr =~ m!^Content-Encoding\ngzip\n!smi;
+       return if $hdr =~ m!^Content-Length\n[0-9]+\n!smi;
+       return if $hdr =~ m!^Transfer-Encoding\n!smi;
+       # in case Plack::Middleware::Deflater is loaded:
+       return if $env->{'plack.skip-deflater'}++;
        push @$res_hdr, @GZIP_HDRS;
-       $gz;
+       bless {}, __PACKAGE__;
 }
 
-sub gzf_maybe ($$) {
-       my ($res_hdr, $env) = @_;
-       my $gz = gzip_maybe($res_hdr, $env) or return 0;
-       bless { gz => $gz }, __PACKAGE__;
+sub gzip_or_die () {
+       my ($gz, $err) = Compress::Raw::Zlib::Deflate->new(%OPT);
+       $err == Z_OK or die "Deflate->new failed: $err";
+       $gz;
 }
 
 # for GetlineBody (via Qspawn) when NOT using $env->{'pi-httpd.async'}
 # Also used for ->getline callbacks
 sub translate ($$) {
-       my $self = $_[0];
+       my $self = $_[0]; # $_[1] => input
 
        # allocate the zlib context lazily here, instead of in ->new.
        # Deflate contexts are memory-intensive and this object may
        # be sitting in the Qspawn limiter queue for a while.
-       my $gz = $self->{gz} //= do {
-               my ($g, $err) = Compress::Raw::Zlib::Deflate->new(%OPT);
-               $err == Z_OK or die "Deflate->new failed: $err";
-               $g;
-       };
+       my $gz = $self->{gz} //= gzip_or_die();
        my $zbuf = delete($self->{zbuf});
        if (defined $_[1]) { # my $buf = $_[1];
                my $err = $gz->deflate($_[1], $zbuf);
@@ -61,7 +104,7 @@ sub translate ($$) {
                $self->{zbuf} = $zbuf;
                '';
        } else { # undef == EOF
-               my $err = $gz->flush($zbuf, Z_FINISH);
+               my $err = $gz->flush($zbuf);
                die "gzip->flush: $err" if $err != Z_OK;
                $zbuf;
        }
@@ -69,14 +112,60 @@ sub translate ($$) {
 
 sub write {
        # my $ret = bytes::length($_[1]); # XXX does anybody care?
-       $_[0]->{fh}->write(translate($_[0], $_[1]));
+       $_[0]->{http_out}->write(translate($_[0], $_[1]));
+}
+
+# similar to ->translate; use this when we're sure we know we have
+# more data to buffer after this
+sub zmore {
+       my $self = $_[0]; # $_[1] => input
+       my $err = $self->{gz}->deflate($_[1], $self->{zbuf});
+       die "gzip->deflate: $err" if $err != Z_OK;
+       undef;
+}
+
+# flushes and returns the final bit of gzipped data
+sub zflush ($;$) {
+       my $self = $_[0]; # $_[1] => final input (optional)
+       my $zbuf = delete $self->{zbuf};
+       my $gz = delete $self->{gz};
+       my $err;
+       if (defined $_[1]) {
+               $err = $gz->deflate($_[1], $zbuf);
+               die "gzip->deflate: $err" if $err != Z_OK;
+       }
+       $err = $gz->flush($zbuf);
+       die "gzip->flush: $err" if $err != Z_OK;
+       $zbuf;
 }
 
 sub close {
        my ($self) = @_;
-       my $fh = delete $self->{fh};
-       $fh->write(translate($self, undef));
-       $fh->close;
+       if (my $http_out = delete $self->{http_out}) {
+               $http_out->write(zflush($self));
+               $http_out->close;
+       }
+}
+
+# this is public-inbox-httpd-specific
+sub async_blob_cb { # git->cat_async callback
+       my ($bref, $oid, $type, $size, $self) = @_;
+       my $http = $self->{env}->{'psgix.io'} or return; # client abort
+       my $smsg = $self->{smsg} or die 'BUG: no smsg';
+       if (!defined($oid)) {
+               # it's possible to have TOCTOU if an admin runs
+               # public-inbox-(edit|purge), just move onto the next message
+               return $http->next_step($self->{async_next});
+       }
+       $smsg->{blob} eq $oid or die "BUG: $smsg->{blob} != $oid";
+       $self->{async_eml}->($self, PublicInbox::Eml->new($bref));
+       $http->next_step($self->{async_next});
+}
+
+sub smsg_blob {
+       my ($self, $smsg) = @_;
+       git_async_cat($self->{-inbox}->git, $smsg->{blob},
+                       \&async_blob_cb, $self);
 }
 
 1;