]> Sergey Matveev's repositories - public-inbox.git/blob - scripts/import_vger_from_mbox
scripts/import_vger_from_mbox: support --dry-run option
[public-inbox.git] / scripts / import_vger_from_mbox
1 #!/usr/bin/perl -w
2 # Copyright (C) 2016-2018 all contributors <meta@public-inbox.org>
3 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
4 use strict;
5 use warnings;
6 use Getopt::Long qw/:config gnu_getopt no_ignore_case auto_abbrev/;
7 use Date::Parse qw/str2time/;
8 use Email::MIME;
9 $Email::MIME::ContentType::STRICT_PARAMS = 0; # user input is imperfect
10 use PublicInbox::Git;
11 use PublicInbox::Import;
12 my $usage = "usage: $0 NAME EMAIL <MBOX\n";
13 my $dry_run;
14 my %opts = ( 'n|dry-run' => \$dry_run );
15 GetOptions(%opts) or die $usage;
16 chomp(my $git_dir = `git rev-parse --git-dir`);
17 my $git = PublicInbox::Git->new($git_dir);
18 my $name = shift or die $usage; # git
19 my $email = shift or die $usage; # git@vger.kernel.org
20 my $im = $dry_run ? undef : PublicInbox::Import->new($git, $name, $email);
21 binmode STDIN;
22 my $msg = '';
23 use PublicInbox::Filter::Vger;
24 my $vger = PublicInbox::Filter::Vger->new;
25 sub do_add ($$) {
26         my ($im, $msg) = @_;
27         $$msg =~ s/(\r?\n)+\z/$1/s;
28         $msg = Email::MIME->new($$msg);
29         $msg = $vger->scrub($msg);
30         my $hdr = $msg->header_obj;
31         my $date = $hdr->header_raw('Date');
32         if ($date) {
33                 eval { str2time($date) };
34                 if ($@) {
35                         warn "bad Date: $date in ",
36                                 $hdr->header_raw('Message-ID'), ": $@\n";
37                 }
38         } else {
39                 warn "missing Date: $date in ",
40                                 $hdr->header_raw('Message-ID'), ": $@\n";
41                 my $n = 0;
42                 foreach my $r ($hdr->header_raw('Received')) {
43                         warn "$n Received: $r\n";
44                 }
45                 warn(('-' x 72), "\n");
46         }
47         return unless $im;
48         $im->add($msg) or
49                 warn "duplicate: ",
50                         $hdr->header_raw('Message-ID'), "\n";
51 }
52
53 # asctime: From example@example.com Fri Jun 23 02:56:55 2000
54 my $from_strict = qr/^From \S+ +\S+ \S+ +\S+ [^:]+:[^:]+:[^:]+ [^:]+/;
55 my $prev = undef;
56 while (defined(my $l = <STDIN>)) {
57         if ($l =~ /$from_strict/o) {
58                 if (!defined($prev) || $prev =~ /^\r?$/) {
59                         do_add($im, \$msg) if $msg;
60                         $msg = '';
61                         $prev = $l;
62                         next;
63                 }
64                 warn "W[$.] $l\n";
65         }
66         $prev = $l;
67         $msg .= $l;
68 }
69 do_add($im, \$msg) if $msg;
70 $im->done if $im;