]> Sergey Matveev's repositories - public-inbox.git/blob - scripts/import_vger_from_mbox
scripts/import_vger_from_mbox: filter out same headers as MDA
[public-inbox.git] / scripts / import_vger_from_mbox
1 #!/usr/bin/perl -w
2 # Copyright (C) 2016-2018 all contributors <meta@public-inbox.org>
3 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
4 use strict;
5 use warnings;
6 use Getopt::Long qw/:config gnu_getopt no_ignore_case auto_abbrev/;
7 use PublicInbox::MIME;
8 use PublicInbox::Inbox;
9 use PublicInbox::V2Writable;
10 use PublicInbox::Import;
11 use PublicInbox::MDA;
12 my $usage = "usage: $0 NAME EMAIL DIR <MBOX\n";
13 my $dry_run;
14 my $version = 2;
15 my $variant = 'mboxrd';
16 my %opts = (
17         'n|dry-run' => \$dry_run,
18         'V|version=i' => \$version,
19         'F|format=s' => \$variant,
20 );
21 GetOptions(%opts) or die $usage;
22 if ($variant ne 'mboxrd' && $variant ne 'mboxo') {
23         die "Unsupported mbox variant: $variant\n";
24 }
25 my $name = shift or die $usage; # git
26 my $email = shift or die $usage; # git@vger.kernel.org
27 my $mainrepo = shift or die $usage; # /path/to/v2/repo
28 my $ibx = {
29         mainrepo => $mainrepo,
30         name => $name,
31         version => $version,
32         -primary_address => $email,
33 };
34 $ibx = PublicInbox::Inbox->new($ibx);
35 my $im;
36 unless ($dry_run) {
37         if ($version >= 2) {
38                 $im = PublicInbox::V2Writable->new($ibx, 1);
39         } else {
40                 system(qw(git init --bare -q), $mainrepo);
41                 my $git = PublicInbox::Git->new($mainrepo);
42                 $im = PublicInbox::Import->new($git, $name, $email, $ibx);
43         }
44 }
45 binmode STDIN;
46 my $msg = '';
47 use PublicInbox::Filter::Vger;
48 my $vger = PublicInbox::Filter::Vger->new;
49
50 sub do_add ($$) {
51         my ($im, $msg) = @_;
52         $$msg =~ s/(\r?\n)+\z/$1/s;
53         my $mime = PublicInbox::MIME->new($msg);
54         if ($variant eq 'mboxrd') {
55                 $$msg =~ s/^>(>*From )/$1/sm;
56         } elsif ($variant eq 'mboxo') {
57                 $$msg =~ s/^>From /From /sm;
58         }
59         $mime = $vger->scrub($mime);
60         return unless $im;
61         $mime->header_set($_) foreach @PublicInbox::MDA::BAD_HEADERS;
62         $im->add($mime) or
63                 warn "duplicate: ",
64                         $mime->header_obj->header_raw('Message-ID'), "\n";
65 }
66
67 # asctime: From example@example.com Fri Jun 23 02:56:55 2000
68 my $from_strict = qr/^From \S+ +\S+ \S+ +\S+ [^:]+:[^:]+:[^:]+ [^:]+/;
69 my $prev = undef;
70 while (defined(my $l = <STDIN>)) {
71         if ($l =~ /$from_strict/o) {
72                 if (!defined($prev) || $prev =~ /^\r?$/) {
73                         do_add($im, \$msg) if $msg;
74                         $msg = '';
75                         $prev = $l;
76                         next;
77                 }
78                 warn "W[$.] $l\n";
79         }
80         $prev = $l;
81         $msg .= $l;
82 }
83 do_add($im, \$msg) if $msg;
84 $im->done if $im;