]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/NNTP.pm
nntp: speed up XHDR for the Message-ID case
[public-inbox.git] / lib / PublicInbox / NNTP.pm
index 807b49f897304bdac7daa16d11ef576003422546..47b03e025269ef4d53fcf331ad495eba22d6f517 100644 (file)
@@ -4,15 +4,17 @@ package PublicInbox::NNTP;
 use strict;
 use warnings;
 use base qw(Danga::Socket);
-use fields qw(nntpd article ng);
+use fields qw(nntpd article ng long_res);
 use PublicInbox::Msgmap;
 use PublicInbox::GitCatFile;
 use PublicInbox::MID qw(mid2path);
 use Email::Simple;
 use Data::Dumper qw(Dumper);
 use POSIX qw(strftime);
+use Time::HiRes qw(gettimeofday tv_interval ualarm);
 use constant {
        r501 => '501 command syntax error',
+       long_response_limit => 0xffffffff,
 };
 
 my @OVERVIEW = qw(Subject From Date Message-ID References Bytes Lines);
@@ -22,7 +24,7 @@ my %OVERVIEW = map { $_ => 1 } @OVERVIEW;
 # LISTGROUP could get pretty bad, too...
 my %DISABLED; # = map { $_ => 1 } qw(xover list_overview_fmt newnews xhdr);
 
-sub new {
+sub new ($$$) {
        my ($class, $sock, $nntpd) = @_;
        my $self = fields::new($class);
        $self->SUPER::new($sock);
@@ -32,8 +34,17 @@ sub new {
        $self;
 }
 
+sub args_ok ($$) {
+       my ($cb, $argc) = @_;
+       my $tot = prototype $cb;
+       my ($nreq, undef) = split(';', $tot);
+       $nreq = ($nreq =~ tr/$//) - 1;
+       $tot = ($tot =~ tr/$//) - 1;
+       ($argc <= $tot && $argc >= $nreq);
+}
+
 # returns 1 if we can continue, 0 if not due to buffered writes or disconnect
-sub process_line {
+sub process_line ($$) {
        my ($self, $l) = @_;
        my ($req, @args) = split(/\s+/, $l);
        $req = lc($req);
@@ -42,6 +53,7 @@ sub process_line {
                $req = $DISABLED{$req} ? undef : *{'cmd_'.$req}{CODE};
        };
        return res($self, '500 command not recognized') unless $req;
+       return res($self, r501) unless args_ok($req, scalar @args);
 
        my $res = eval { $req->($self, @args) };
        my $err = $@;
@@ -54,33 +66,28 @@ sub process_line {
        res($self, $res);
 }
 
-sub cmd_mode {
+sub cmd_mode ($$) {
        my ($self, $arg) = @_;
-       return r501 unless defined $arg;
        $arg = uc $arg;
        return r501 unless $arg eq 'READER';
        '200 reader status acknowledged';
 }
 
-sub cmd_slave {
-       my ($self, @x) = @_;
-       return r501 if @x;
-       '202 slave status noted';
-}
+sub cmd_slave ($) { '202 slave status noted' }
 
-sub cmd_xgtitle {
+sub cmd_xgtitle ($;$) {
        my ($self, $wildmat) = @_;
        more($self, '282 list of groups and descriptions follows');
        list_newsgroups($self, $wildmat);
        '.'
 }
 
-sub list_overview_fmt {
+sub list_overview_fmt ($$) {
        my ($self) = @_;
        more($self, $_ . ':') foreach @OVERVIEW;
 }
 
-sub list_active {
+sub list_active ($;$) {
        my ($self, $wildmat) = @_;
        wildmat2re($wildmat);
        foreach my $ng (values %{$self->{nntpd}->{groups}}) {
@@ -89,7 +96,7 @@ sub list_active {
        }
 }
 
-sub list_active_times {
+sub list_active_times ($;$) {
        my ($self, $wildmat) = @_;
        wildmat2re($wildmat);
        foreach my $ng (values %{$self->{nntpd}->{groups}}) {
@@ -99,7 +106,7 @@ sub list_active_times {
        }
 }
 
-sub list_newsgroups {
+sub list_newsgroups ($;$) {
        my ($self, $wildmat) = @_;
        wildmat2re($wildmat);
        foreach my $ng (values %{$self->{nntpd}->{groups}}) {
@@ -110,20 +117,21 @@ sub list_newsgroups {
 }
 
 # LIST SUBSCRIPTIONS not supported
-sub cmd_list {
-       my ($self, $arg, $wildmat, @x) = @_;
-       if (defined $arg) {
-               $arg = lc $arg;
-               $arg =~ tr/./_/;
+sub cmd_list ($;$$) {
+       my ($self, @args) = @_;
+       if (scalar @args) {
+               my $arg = shift @args;
+               $arg =~ tr/A-Z./a-z_/;
                $arg = "list_$arg";
                return '503 function not performed' if $DISABLED{$arg};
+
                $arg = eval {
                        no strict 'refs';
                        *{$arg}{CODE};
                };
-               return r501 unless $arg;
+               return r501 unless $arg && args_ok($arg, scalar @args);
                more($self, '215 information follows');
-               $arg->($self, $wildmat, @x);
+               $arg->($self, @args);
        } else {
                more($self, '215 list of newsgroups follows');
                foreach my $ng (values %{$self->{nntpd}->{groups}}) {
@@ -133,7 +141,7 @@ sub cmd_list {
        '.'
 }
 
-sub cmd_listgroup {
+sub cmd_listgroup ($;$) {
        my ($self, $group) = @_;
        if (defined $group) {
                my $res = cmd_group($self, $group);
@@ -141,16 +149,20 @@ sub cmd_listgroup {
                more($self, $res);
        }
 
-       my $ng = $self->{ng} or return '412 no newsgroup selected';
-       # Ugh this can be silly expensive for big groups
-       $ng->mm->each_id_batch(sub {
-               my ($ary) = @_;
-               more($self, join("\r\n", @$ary));
+       $self->{ng} or return '412 no newsgroup selected';
+       $self->long_response(0, long_response_limit, sub {
+               my ($i) = @_;
+               my $nr = $self->{ng}->mm->id_batch($$i, sub {
+                       my ($ary) = @_;
+                       more($self, join("\r\n", @$ary));
+               });
+
+               # -1 to adjust for implicit increment in long_response
+               $$i = $nr ? $$i + $nr - 1 : long_response_limit;
        });
-       '.'
 }
 
-sub parse_time {
+sub parse_time ($$;$) {
        my ($date, $time, $gmt) = @_;
        use Time::Local qw();
        my ($YY, $MM, $DD) = unpack('A2A2A2', $date);
@@ -172,13 +184,13 @@ sub parse_time {
        }
 }
 
-sub group_line {
+sub group_line ($$) {
        my ($self, $ng) = @_;
        my ($min, $max) = $ng->mm->minmax;
        more($self, "$ng->{name} $max $min n") if defined $min && defined $max;
 }
 
-sub cmd_newgroups {
+sub cmd_newgroups ($$$;$$) {
        my ($self, $date, $time, $gmt, $dists) = @_;
        my $ts = eval { parse_time($date, $time, $gmt) };
        return r501 if $@;
@@ -193,7 +205,7 @@ sub cmd_newgroups {
        '.'
 }
 
-sub wildmat2re {
+sub wildmat2re (;$) {
        return $_[0] = qr/.*/ if (!defined $_[0] || $_[0] eq '*');
        my %keep;
        my $salt = rand;
@@ -218,14 +230,14 @@ sub wildmat2re {
        $_[0] = qr/\A$tmp\z/;
 }
 
-sub ngpat2re {
+sub ngpat2re (;$) {
        return $_[0] = qr/\A\z/ unless defined $_[0];
        my %map = ('*' => '.*', ',' => '|');
        $_[0] =~ s!(.)!$map{$1} || "\Q$1"!ge;
        $_[0] = qr/\A(?:$_[0])\z/;
 }
 
-sub cmd_newnews {
+sub cmd_newnews ($$$$;$$) {
        my ($self, $newsgroups, $date, $time, $gmt, $dists) = @_;
        my $ts = eval { parse_time($date, $time, $gmt) };
        return r501 if $@;
@@ -233,29 +245,39 @@ sub cmd_newnews {
        my ($keep, $skip) = split('!', $newsgroups, 2);
        ngpat2re($keep);
        ngpat2re($skip);
-       $ts .= '..';
-
-       my $opts = { asc => 1, limit => 1000 };
+       my @srch;
        foreach my $ng (values %{$self->{nntpd}->{groups}}) {
                $ng->{name} =~ $keep or next;
                $ng->{name} =~ $skip and next;
                my $srch = $ng->search or next;
-               $opts->{offset} = 0;
+               push @srch, $srch;
+       };
+       return '.' unless @srch;
 
-               while (1) {
-                       my $res = $srch->query($ts, $opts);
-                       my $msgs = $res->{msgs};
-                       my $nr = scalar @$msgs or last;
+       $ts .= '..';
+       my $opts = { asc => 1, limit => 1000, offset => 0 };
+       $self->long_response(0, long_response_limit, sub {
+               my ($i) = @_;
+               my $srch = $srch[0];
+               my $res = $srch->query($ts, $opts);
+               my $msgs = $res->{msgs};
+               if (my $nr = scalar @$msgs) {
                        more($self, '<' .
                                join(">\r\n<", map { $_->mid } @$msgs ).
                                '>');
                        $opts->{offset} += $nr;
+               } else {
+                       shift @srch;
+                       if (@srch) { # continue onto next newsgroup
+                               $opts->{offset} = 0;
+                       } else { # break out of the long response.
+                               $$i = long_response_limit;
+                       }
                }
-       }
-       '.';
+       });
 }
 
-sub cmd_group {
+sub cmd_group ($$) {
        my ($self, $group) = @_;
        my $no_such = '411 no such news group';
        my $ng = $self->{nntpd}->{groups}->{$group} or return $no_such;
@@ -269,7 +291,7 @@ sub cmd_group {
        "211 $est_size $min $max $group";
 }
 
-sub article_adj {
+sub article_adj ($$) {
        my ($self, $off) = @_;
        my $ng = $self->{ng} or return '412 no newsgroup selected';
 
@@ -286,25 +308,25 @@ sub article_adj {
        "223 $n <$mid> article retrieved - request text separately";
 }
 
-sub cmd_next { article_adj($_[0], 1) }
-sub cmd_last { article_adj($_[0], -1) }
+sub cmd_next ($) { article_adj($_[0], 1) }
+sub cmd_last ($) { article_adj($_[0], -1) }
 
 # We want to encourage using email and CC-ing everybody involved to avoid
 # the single-point-of-failure a single server provides.
-sub cmd_post {
+sub cmd_post ($) {
        my ($self) = @_;
        my $ng = $self->{ng};
        $ng ? "440 mailto:$ng->{address} to post" : '440 posting not allowed'
 }
 
-sub cmd_quit {
+sub cmd_quit ($) {
        my ($self) = @_;
        res($self, '205 closing connection - goodbye!');
        $self->close;
        undef;
 }
 
-sub art_lookup {
+sub art_lookup ($$$) {
        my ($self, $art, $set_headers) = @_;
        my $ng = $self->{ng} or return '412 no newsgroup has been selected';
        my ($n, $mid);
@@ -348,7 +370,7 @@ find_mid:
        [ $n, $mid, $s ];
 }
 
-sub simple_body_write {
+sub simple_body_write ($$) {
        my ($self, $s) = @_;
        my $body = $s->body;
        $s->body_set('');
@@ -357,14 +379,14 @@ sub simple_body_write {
        '.'
 }
 
-sub header_str {
+sub header_str ($) {
        my ($s) = @_;
        my $h = $s->header_obj;
        $h->header_set('Bytes');
        $h->as_string
 }
 
-sub cmd_article {
+sub cmd_article ($$) {
        my ($self, $art) = @_;
        my $r = $self->art_lookup($art, 1);
        return $r unless ref $r;
@@ -375,7 +397,7 @@ sub cmd_article {
        simple_body_write($self, $s);
 }
 
-sub cmd_head {
+sub cmd_head ($$) {
        my ($self, $art) = @_;
        my $r = $self->art_lookup($art, 2);
        return $r unless ref $r;
@@ -385,7 +407,7 @@ sub cmd_head {
        '.'
 }
 
-sub cmd_body {
+sub cmd_body ($$) {
        my ($self, $art) = @_;
        my $r = $self->art_lookup($art, 0);
        return $r unless ref $r;
@@ -394,7 +416,7 @@ sub cmd_body {
        simple_body_write($self, $s);
 }
 
-sub cmd_stat {
+sub cmd_stat ($$) {
        my ($self, $art) = @_;
        my $r = $self->art_lookup($art, 0);
        return $r unless ref $r;
@@ -402,17 +424,17 @@ sub cmd_stat {
        "223 $n <$mid> article retrieved - request text separately";
 }
 
-sub cmd_ihave { '435 article not wanted - do not send it' }
+sub cmd_ihave ($) { '435 article not wanted - do not send it' }
 
-sub cmd_date { '111 '.strftime('%Y%m%d%H%M%S', gmtime(time)) }
+sub cmd_date ($) { '111 '.strftime('%Y%m%d%H%M%S', gmtime(time)) }
 
-sub cmd_help {
+sub cmd_help ($) {
        my ($self) = @_;
        more($self, '100 help text follows');
        '.'
 }
 
-sub get_range {
+sub get_range ($$) {
        my ($self, $range) = @_;
        my $ng = $self->{ng} or return '412 no news group has been selected';
        defined $range or return '420 No article(s) selected';
@@ -433,7 +455,7 @@ sub get_range {
        [ $beg, $end ];
 }
 
-sub xhdr {
+sub xhdr ($$) {
        my ($r, $header) = @_;
        $r = $r->[2]->header_obj->header($header);
        defined $r or return;
@@ -441,78 +463,155 @@ sub xhdr {
        $r;
 }
 
-sub cmd_xhdr {
+sub long_response ($$$$) {
+       my ($self, $beg, $end, $cb) = @_;
+       die "BUG: nested long response" if $self->{long_res};
+
+       # make sure we disable reading during a long response,
+       # clients should not be sending us stuff and making us do more
+       # work while we are stream a response to them
+       $self->watch_read(0);
+       $self->{long_res} = sub {
+               # limit our own running time for fairness with other
+               # clients and to avoid buffering too much:
+               my $yield;
+               local $SIG{ALRM} = sub { $yield = 1 };
+               ualarm(100000);
+
+               my $err;
+               do {
+                       eval { $cb->(\$beg) };
+               } until (($err = $@) || $self->{closed} || $yield ||
+                        $self->{write_buf_size} || ++$beg > $end);
+               ualarm(0);
+
+               if ($err || $self->{closed}) {
+                       $self->{long_res} = undef;
+                       warning("$err during long response") if $err;
+                       $self->watch_read(1) unless $self->{closed};
+               } elsif ($yield || $self->{write_buf_size}) {
+                       # no recursion, schedule another call ASAP
+                       # but only after all pending writes are done
+                       Danga::Socket->AddTimer(0, sub {
+                               $self->write($self->{long_res});
+                       });
+               } else { # all done!
+                       $self->{long_res} = undef;
+                       $self->watch_read(1);
+                       res($self, '.');
+               }
+       };
+       $self->{long_res}->(); # kick off!
+       undef;
+}
+
+sub xhdr_message_id ($$) { # optimize XHDR Message-ID [range] for slrnpull.
+       my ($self, $range) = @_;
+
+       my $mm = $self->{ng}->mm;
+       if (defined $range && $range =~ /\A<(.+)>\z/) { # Message-ID
+               my $n = $mm->num_for($range);
+               more($self, '221 Header follows');
+               more($self, "<$range> <$range>") if defined $n;
+               '.';
+       } else { # numeric range
+               $range = $self->{article} unless defined $range;
+               my $r = get_range($self, $range);
+               return $r unless ref $r;
+               my ($beg, $end) = @$r;
+               more($self, '221 Header follows');
+               $self->long_response($beg, $end, sub {
+                       my ($i) = @_;
+                       my $mid = $mm->mid_for($$i);
+                       more($self, "$$i <$mid>") if defined $mid;
+               });
+       }
+}
+
+sub cmd_xhdr ($$;$) {
        my ($self, $header, $range) = @_;
        defined $self->{ng} or return '412 no news group currently selected';
-       unless (defined $range) {
-               defined($range = $self->{article}) or
-                       return '420 no current article has been selected';
-       }
-       if ($range =~ /\A<(.+)>\z/) { # Message-ID
+       my $sub = $header;
+       $sub =~ tr/A-Z-/a-z_/;
+       $sub = eval {
+               no strict 'refs';
+               $sub = *{'xhdr_'.$sub}{CODE};
+       };
+       return xhdr_slow($self, $header, $range) unless defined $sub;
+       $sub->($self, $range);
+}
+
+sub xhdr_slow ($$$) {
+       my ($self, $header, $range) = @_;
+
+       if (defined $range && $range =~ /\A<(.+)>\z/) { # Message-ID
                my $r = $self->art_lookup($range, 2);
                return $r unless ref $r;
                more($self, '221 Header follows');
                if (defined($r = xhdr($r, $header))) {
                        more($self, "<$range> $r");
                }
+               '.';
        } else { # numeric range
+               $range = $self->{article} unless defined $range;
                my $r = get_range($self, $range);
                return $r unless ref $r;
                my ($beg, $end) = @$r;
                more($self, '221 Header follows');
-               foreach my $i ($beg..$end) {
-                       $r = $self->art_lookup($i, 2);
-                       next unless ref $r;
-                       defined($r = xhdr($r, $header)) or next;
-                       more($self, "$i $r");
-               }
+               $self->long_response($beg, $end, sub {
+                       my ($i) = @_;
+                       $r = $self->art_lookup($$i, 2);
+                       return unless ref $r;
+                       defined($r = xhdr($r, $header)) or return;
+                       more($self, "$$i $r");
+               });
        }
-       '.';
 }
 
-sub cmd_xover {
+sub cmd_xover ($;$) {
        my ($self, $range) = @_;
+       $range = $self->{article} unless defined $range;
        my $r = get_range($self, $range);
        return $r unless ref $r;
        my ($beg, $end) = @$r;
        more($self, "224 Overview information follows for $beg to $end");
-       foreach my $i ($beg..$end) {
-               my $r = $self->art_lookup($i, 2);
-               next unless ref $r;
+       $self->long_response($beg, $end, sub {
+               my ($i) = @_;
+               my $r = $self->art_lookup($$i, 2);
+               return unless ref $r;
                more($self, join("\t", $r->[0],
                                map {
                                        my $h = xhdr($r, $_);
                                        defined $h ? $h : '';
                                } @OVERVIEW ));
-       }
-       '.';
+       });
 }
 
-sub res {
+sub res ($$) {
        my ($self, $line) = @_;
        do_write($self, $line . "\r\n");
 }
 
-sub more {
+sub more ($$) {
        my ($self, $line) = @_;
        do_more($self, $line . "\r\n");
 }
 
-sub do_write {
+sub do_write ($$) {
        my ($self, $data) = @_;
        my $done = $self->write($data);
        die if $self->{closed};
 
        # Do not watch for readability if we have data in the queue,
        # instead re-enable watching for readability when we can
-       $self->watch_read(0) unless $done;
+       $self->watch_read(0) if (!$done || $self->{long_res});
 
        $done;
 }
 
 use constant MSG_MORE => ($^O eq 'linux') ? 0x8000 : 0;
 
-sub do_more {
+sub do_more ($$) {
        my ($self, $data) = @_;
        if (MSG_MORE && !$self->{write_buf_size}) {
                my $n = send($self->{sock}, $data, MSG_MORE);
@@ -539,7 +638,6 @@ sub event_write {
 sub event_read {
        my ($self) = @_;
        use constant LINE_MAX => 512; # RFC 977 section 2.3
-       use Time::HiRes qw(gettimeofday tv_interval);
        my $r = 1;
        my $buf = $self->read(LINE_MAX) or return $self->close;
        while ($r > 0 && $$buf =~ s/\A([^\r\n]+)\r?\n//) {