]> Sergey Matveev's repositories - public-inbox.git/blob - scripts/import_vger_from_mbox
scripts/import_vger_from_mbox: perform mboxrd or mboxo escaping
[public-inbox.git] / scripts / import_vger_from_mbox
1 #!/usr/bin/perl -w
2 # Copyright (C) 2016-2018 all contributors <meta@public-inbox.org>
3 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
4 use strict;
5 use warnings;
6 use Getopt::Long qw/:config gnu_getopt no_ignore_case auto_abbrev/;
7 use PublicInbox::MIME;
8 use PublicInbox::Inbox;
9 use PublicInbox::V2Writable;
10 use PublicInbox::Import;
11 my $usage = "usage: $0 NAME EMAIL DIR <MBOX\n";
12 my $dry_run;
13 my $version = 2;
14 my $variant = 'mboxrd';
15 my %opts = (
16         'n|dry-run' => \$dry_run,
17         'V|version=i' => \$version,
18         'F|format=s' => \$variant,
19 );
20 GetOptions(%opts) or die $usage;
21 if ($variant ne 'mboxrd' && $variant ne 'mboxo') {
22         die "Unsupported mbox variant: $variant\n";
23 }
24 my $name = shift or die $usage; # git
25 my $email = shift or die $usage; # git@vger.kernel.org
26 my $mainrepo = shift or die $usage; # /path/to/v2/repo
27 my $ibx = {
28         mainrepo => $mainrepo,
29         name => $name,
30         version => $version,
31         -primary_address => $email,
32 };
33 $ibx = PublicInbox::Inbox->new($ibx);
34 my $im;
35 unless ($dry_run) {
36         if ($version >= 2) {
37                 $im = PublicInbox::V2Writable->new($ibx, 1);
38         } else {
39                 system(qw(git init --bare -q), $mainrepo);
40                 my $git = PublicInbox::Git->new($mainrepo);
41                 $im = PublicInbox::Import->new($git, $name, $email, $ibx);
42         }
43 }
44 binmode STDIN;
45 my $msg = '';
46 use PublicInbox::Filter::Vger;
47 my $vger = PublicInbox::Filter::Vger->new;
48
49 sub do_add ($$) {
50         my ($im, $msg) = @_;
51         $$msg =~ s/(\r?\n)+\z/$1/s;
52         my $mime = PublicInbox::MIME->new($msg);
53         if ($variant eq 'mboxrd') {
54                 $$msg =~ s/^>(>*From )/$1/sm;
55         } elsif ($variant eq 'mboxo') {
56                 $$msg =~ s/^>From /From /sm;
57         }
58         $mime = $vger->scrub($mime);
59         return unless $im;
60         $im->add($mime) or
61                 warn "duplicate: ",
62                         $mime->header_obj->header_raw('Message-ID'), "\n";
63 }
64
65 # asctime: From example@example.com Fri Jun 23 02:56:55 2000
66 my $from_strict = qr/^From \S+ +\S+ \S+ +\S+ [^:]+:[^:]+:[^:]+ [^:]+/;
67 my $prev = undef;
68 while (defined(my $l = <STDIN>)) {
69         if ($l =~ /$from_strict/o) {
70                 if (!defined($prev) || $prev =~ /^\r?$/) {
71                         do_add($im, \$msg) if $msg;
72                         $msg = '';
73                         $prev = $l;
74                         next;
75                 }
76                 warn "W[$.] $l\n";
77         }
78         $prev = $l;
79         $msg .= $l;
80 }
81 do_add($im, \$msg) if $msg;
82 $im->done if $im;