]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/WWW.pm
www: do not unescape PATH_INFO twice
[public-inbox.git] / lib / PublicInbox / WWW.pm
index 542530862600bd59a911228f2c73cbbc01558a54..62e4ca43511fc4962cbba6b59b0cdab18444fd99 100644 (file)
@@ -15,9 +15,8 @@ use strict;
 use warnings;
 use PublicInbox::Config;
 use PublicInbox::Hval;
-use URI::Escape qw(uri_escape_utf8 uri_unescape);
-use constant SSOMA_URL => '//ssoma.public-inbox.org/';
-use constant PI_URL => '//public-inbox.org/';
+use URI::Escape qw(uri_unescape);
+use PublicInbox::MID qw(mid_escape);
 require PublicInbox::Git;
 use PublicInbox::GitHTTPBackend;
 our $INBOX_RE = qr!\A/([\w\.\-]+)!;
@@ -39,15 +38,15 @@ sub run {
 
 sub call {
        my ($self, $env) = @_;
-       my $ctx = { env => $env, www => $self, pi_config => $self->{pi_config} };
+       my $ctx = { env => $env, www => $self };
 
        # we don't care about multi-value
        my %qp = map {
-               my ($k, $v) = split('=', $_, 2);
+               my ($k, $v) = split('=', uri_unescape($_), 2);
                $v = '' unless defined $v;
                $v =~ tr/+/ /;
                ($k, $v)
-       } split(/[&;]/, uri_unescape($env->{QUERY_STRING}));
+       } split(/[&;]/, $env->{QUERY_STRING});
        $ctx->{qp} = \%qp;
 
        my $path_info = $env->{PATH_INFO};
@@ -56,8 +55,7 @@ sub call {
        if ($method eq 'POST' &&
                 $path_info =~ m!$INBOX_RE/(git-upload-pack)\z!) {
                my $path = $2;
-               return (invalid_inbox($self, $ctx, $1) ||
-                       serve_git($env, $ctx->{git}, $path));
+               return invalid_inbox($ctx, $1) || serve_git($ctx, $path);
        }
        elsif ($method !~ /\AGET|HEAD\z/) {
                return r(405, 'Method Not Allowed');
@@ -67,27 +65,25 @@ sub call {
        if ($path_info eq '/') {
                r404();
        } elsif ($path_info =~ m!$INBOX_RE\z!o) {
-               invalid_inbox($self, $ctx, $1) || r301($ctx, $1);
+               invalid_inbox($ctx, $1) || r301($ctx, $1);
        } elsif ($path_info =~ m!$INBOX_RE(?:/|/index\.html)?\z!o) {
-               invalid_inbox($self, $ctx, $1) || get_index($ctx);
+               invalid_inbox($ctx, $1) || get_index($ctx);
        } elsif ($path_info =~ m!$INBOX_RE/(?:atom\.xml|new\.atom)\z!o) {
-               invalid_inbox($self, $ctx, $1) || get_atom($ctx);
+               invalid_inbox($ctx, $1) || get_atom($ctx);
        } elsif ($path_info =~ m!$INBOX_RE/new\.html\z!o) {
-               invalid_inbox($self, $ctx, $1) || get_new($ctx);
+               invalid_inbox($ctx, $1) || get_new($ctx);
        } elsif ($path_info =~ m!$INBOX_RE/
                                ($PublicInbox::GitHTTPBackend::ANY)\z!ox) {
                my $path = $2;
-               invalid_inbox($self, $ctx, $1) ||
-                       serve_git($env, $ctx->{git}, $path);
+               invalid_inbox($ctx, $1) || serve_git($ctx, $path);
        } elsif ($path_info =~ m!$INBOX_RE/([\w-]+).mbox\.gz\z!o) {
-               serve_mbox_range($self, $ctx, $1, $2);
+               serve_mbox_range($ctx, $1, $2);
        } elsif ($path_info =~ m!$INBOX_RE/$MID_RE/$END_RE\z!o) {
-               msg_page($self, $ctx, $1, $2, $3);
+               msg_page($ctx, $1, $2, $3);
 
        } elsif ($path_info =~ m!$INBOX_RE/$MID_RE/$ATTACH_RE\z!o) {
                my ($idx, $fn) = ($3, $4);
-               invalid_inbox_mid($self, $ctx, $1, $2) ||
-                       get_attach($ctx, $idx, $fn);
+               invalid_inbox_mid($ctx, $1, $2) || get_attach($ctx, $idx, $fn);
        # in case people leave off the trailing slash:
        } elsif ($path_info =~ m!$INBOX_RE/$MID_RE/(T|t)\z!o) {
                my ($inbox, $mid, $suffix) = ($1, $2, $3);
@@ -100,13 +96,15 @@ sub call {
 
        } elsif ($path_info =~ m!$INBOX_RE/$MID_RE/f/?\z!o) {
                r301($ctx, $1, $2);
+       } elsif ($path_info =~ m!$INBOX_RE/_/text(?:/(.*))?\z!o) {
+               get_text($ctx, $1, $2);
 
        # convenience redirects order matters
        } elsif ($path_info =~ m!$INBOX_RE/([^/]{2,})\z!o) {
                r301($ctx, $1, $2);
 
        } else {
-               legacy_redirects($self, $ctx, $path_info);
+               legacy_redirects($ctx, $path_info);
        }
 }
 
@@ -114,8 +112,8 @@ sub call {
 sub preload {
        require PublicInbox::Feed;
        require PublicInbox::View;
-       require PublicInbox::Thread;
-       require Email::MIME;
+       require PublicInbox::SearchThread;
+       require PublicInbox::MIME;
        require Digest::SHA;
        require POSIX;
 
@@ -142,14 +140,13 @@ sub r404 {
 sub r { [ $_[0], ['Content-Type' => 'text/plain'], [ join(' ', @_, "\n") ] ] }
 
 # returns undef if valid, array ref response if invalid
-sub invalid_inbox {
-       my ($self, $ctx, $inbox) = @_;
-       my $obj = $ctx->{pi_config}->lookup_name($inbox);
+sub invalid_inbox ($$) {
+       my ($ctx, $inbox) = @_;
+       my $www = $ctx->{www};
+       my $obj = $www->{pi_config}->lookup_name($inbox);
        if (defined $obj) {
                $ctx->{git_dir} = $obj->{mainrepo};
                $ctx->{git} = $obj->git;
-               # for PublicInbox::HTTP::weaken_task:
-               $ctx->{env}->{'pi-httpd.inbox'} = $obj;
                $ctx->{-inbox} = $obj;
                $ctx->{inbox} = $inbox;
                return;
@@ -159,16 +156,16 @@ sub invalid_inbox {
        # generation and link things intended for nntp:// to https?://,
        # so try to infer links and redirect them to the appropriate
        # list URL.
-       $self->news_www->call($ctx->{env});
+       $www->news_www->call($ctx->{env});
 }
 
 # returns undef if valid, array ref response if invalid
 sub invalid_inbox_mid {
-       my ($self, $ctx, $inbox, $mid) = @_;
-       my $ret = invalid_inbox($self, $ctx, $inbox);
+       my ($ctx, $inbox, $mid) = @_;
+       my $ret = invalid_inbox($ctx, $inbox);
        return $ret if $ret;
 
-       $ctx->{mid} = $mid = uri_unescape($mid);
+       $ctx->{mid} = $mid;
        if ($mid =~ /\A[a-f0-9]{40}\z/) {
                # this is horiffically wasteful for legacy URLs:
                if ($mid = mid2blob($ctx)) {
@@ -199,8 +196,7 @@ sub get_new {
 sub get_index {
        my ($ctx) = @_;
        require PublicInbox::Feed;
-       my $srch = searcher($ctx);
-       footer($ctx);
+       searcher($ctx);
        if ($ctx->{env}->{QUERY_STRING} =~ /(?:\A|[&;])q=/) {
                require PublicInbox::SearchView;
                PublicInbox::SearchView::sres_top_html($ctx);
@@ -229,11 +225,10 @@ sub get_mid_html {
        my $x = mid2blob($ctx) or return r404($ctx);
 
        require PublicInbox::View;
-       my $foot = footer($ctx);
-       require Email::MIME;
-       my $mime = Email::MIME->new($x);
+       require PublicInbox::MIME;
+       my $mime = PublicInbox::MIME->new($x);
        searcher($ctx);
-       PublicInbox::View::msg_html($ctx, $mime, $foot);
+       PublicInbox::View::msg_html($ctx, $mime);
 }
 
 # /$INBOX/$MESSAGE_ID/t/
@@ -245,6 +240,18 @@ sub get_thread {
        PublicInbox::View::thread_html($ctx);
 }
 
+# /$INBOX/_/text/$KEY/
+# /$INBOX/_/text/$KEY/raw
+# KEY may contain slashes
+sub get_text {
+       my ($ctx, $inbox, $key) = @_;
+       my $r404 = invalid_inbox($ctx, $inbox);
+       return $r404 if $r404;
+
+       require PublicInbox::WwwText;
+       PublicInbox::WwwText::get_text($ctx, $key);
+}
+
 sub ctx_get {
        my ($ctx, $key) = @_;
        my $val = $ctx->{$key};
@@ -252,44 +259,6 @@ sub ctx_get {
        $val;
 }
 
-sub footer {
-       my ($ctx) = @_;
-       return '' unless $ctx;
-       my $obj = $ctx->{-inbox} or return '';
-
-       # auto-generate a footer
-       chomp(my $desc = $obj->description);
-       $desc = PublicInbox::Hval::ascii_html($desc);
-
-       my $urls;
-       my @urls = @{$obj->cloneurl};
-       my %seen = map { $_ => 1 } @urls;
-       my $env = $ctx->{env};
-       my $http = $obj->base_url($env);
-       chop $http;
-       $seen{$http} or unshift @urls, $http;
-       my $ssoma_url = PublicInbox::Hval::prurl($env, SSOMA_URL);
-       if (scalar(@urls) == 1) {
-               $urls = "URL for <a\nhref=\"" . $ssoma_url .
-                       qq(">ssoma</a> or <b>git clone --mirror $urls[0]</b>);
-       } else {
-               $urls = "URLs for <a\nhref=\"" . $ssoma_url .
-                       qq(">ssoma</a> or <b>git clone --mirror</b>\n) .
-                       join("\n", map { "\tgit clone --mirror $_" } @urls);
-       }
-
-       my $addr = $obj->{-primary_address};
-       $ctx->{footer} = join("\n",
-               '- ' . $desc,
-               "A <a\nhref=\"" .
-                       PublicInbox::Hval::prurl($ctx->{env}, PI_URL) .
-                       '">public-inbox</a>, ' .
-                       'anybody may post in plain-text (not HTML):',
-               $addr,
-               $urls
-       );
-}
-
 # search support is optional, returns undef if Xapian is not installed
 # or not configured for the given GIT_DIR
 sub searcher {
@@ -332,7 +301,7 @@ sub get_thread_atom {
 }
 
 sub legacy_redirects {
-       my ($self, $ctx, $path_info) = @_;
+       my ($ctx, $path_info) = @_;
 
        # single-message pages
        if ($path_info =~ m!$INBOX_RE/m/(\S+)/\z!o) {
@@ -377,7 +346,7 @@ sub legacy_redirects {
        # some Message-IDs have slashes in them and the HTTP server
        # may try to be clever and unescape them :<
        } elsif ($path_info =~ m!$INBOX_RE/(\S+/\S+)/$END_RE\z!o) {
-               msg_page($self, $ctx, $1, $2, $3);
+               msg_page($ctx, $1, $2, $3);
 
        # in case people leave off the trailing slash:
        } elsif ($path_info =~ m!$INBOX_RE/(\S+/\S+)/(T|t)\z!o) {
@@ -385,7 +354,7 @@ sub legacy_redirects {
        } elsif ($path_info =~ m!$INBOX_RE/(\S+/\S+)/f\z!o) {
                r301($ctx, $1, $2);
        } else {
-               $self->news_www->call($ctx->{env});
+               $ctx->{www}->news_www->call($ctx->{env});
        }
 }
 
@@ -393,13 +362,13 @@ sub r301 {
        my ($ctx, $inbox, $mid, $suffix) = @_;
        my $obj = $ctx->{-inbox};
        unless ($obj) {
-               my $r404 = invalid_inbox($ctx->{www}, $ctx, $inbox);
+               my $r404 = invalid_inbox($ctx, $inbox);
                return $r404 if $r404;
                $obj = $ctx->{-inbox};
        }
        my $url = $obj->base_url($ctx->{env});
        my $qs = $ctx->{env}->{QUERY_STRING};
-       $url .= (uri_escape_utf8($mid) . '/') if (defined $mid);
+       $url .= (mid_escape($mid) . '/') if (defined $mid);
        $url .= $suffix if (defined $suffix);
        $url .= "?$qs" if $qs ne '';
 
@@ -409,9 +378,9 @@ sub r301 {
 }
 
 sub msg_page {
-       my ($self, $ctx, $inbox, $mid, $e) = @_;
+       my ($ctx, $inbox, $mid, $e) = @_;
        my $ret;
-       $ret = invalid_inbox_mid($self, $ctx, $inbox, $mid) and return $ret;
+       $ret = invalid_inbox_mid($ctx, $inbox, $mid) and return $ret;
        '' eq $e and return get_mid_html($ctx);
        'T/' eq $e and return get_thread($ctx, 1);
        't/' eq $e and return get_thread($ctx);
@@ -426,13 +395,13 @@ sub msg_page {
 }
 
 sub serve_git {
-       my ($env, $git, $path) = @_;
-       PublicInbox::GitHTTPBackend::serve($env, $git, $path);
+       my ($ctx, $path) = @_;
+       PublicInbox::GitHTTPBackend::serve($ctx->{env}, $ctx->{git}, $path);
 }
 
 sub serve_mbox_range {
-       my ($self, $ctx, $inbox, $range) = @_;
-       invalid_inbox($self, $ctx, $inbox) || eval {
+       my ($ctx, $inbox, $range) = @_;
+       invalid_inbox($ctx, $inbox) || eval {
                require PublicInbox::Mbox;
                searcher($ctx);
                PublicInbox::Mbox::emit_range($ctx, $range);
@@ -441,10 +410,10 @@ sub serve_mbox_range {
 
 sub news_www {
        my ($self) = @_;
-       my $nw = $self->{news_www};
-       return $nw if $nw;
-       require PublicInbox::NewsWWW;
-       $self->{news_www} = PublicInbox::NewsWWW->new($self->{pi_config});
+       $self->{news_www} ||= do {
+               require PublicInbox::NewsWWW;
+               PublicInbox::NewsWWW->new($self->{pi_config});
+       }
 }
 
 sub get_attach {