]> Sergey Matveev's repositories - public-inbox.git/blob - scripts/import_vger_from_mbox
v2: support Xapian + SQLite indexing
[public-inbox.git] / scripts / import_vger_from_mbox
1 #!/usr/bin/perl -w
2 # Copyright (C) 2016-2018 all contributors <meta@public-inbox.org>
3 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
4 use strict;
5 use warnings;
6 use Getopt::Long qw/:config gnu_getopt no_ignore_case auto_abbrev/;
7 use Date::Parse qw/str2time/;
8 use Email::MIME;
9 $Email::MIME::ContentType::STRICT_PARAMS = 0; # user input is imperfect
10 use PublicInbox::Inbox;
11 use PublicInbox::V2Writable;
12 my $usage = "usage: $0 NAME EMAIL DIR <MBOX\n";
13 my $dry_run;
14 my %opts = ( 'n|dry-run' => \$dry_run );
15 GetOptions(%opts) or die $usage;
16 my $name = shift or die $usage; # git
17 my $email = shift or die $usage; # git@vger.kernel.org
18 my $mainrepo = shift or die $usage; # /path/to/v2/repo
19 my $v2ibx = {
20         mainrepo => $mainrepo,
21         name => $name,
22         version => 2,
23         -primary_address => $email,
24 };
25 $v2ibx = PublicInbox::Inbox->new($v2ibx);
26 my $im = $dry_run ? undef : PublicInbox::V2Writable->new($v2ibx, 1);
27 binmode STDIN;
28 my $msg = '';
29 use PublicInbox::Filter::Vger;
30 my $vger = PublicInbox::Filter::Vger->new;
31
32 sub do_add ($$) {
33         my ($im, $msg) = @_;
34         $$msg =~ s/(\r?\n)+\z/$1/s;
35         $msg = Email::MIME->new($$msg);
36         $msg = $vger->scrub($msg);
37         return unless $im;
38         $im->add($msg) or
39                 warn "duplicate: ",
40                         $msg->header_obj->header_raw('Message-ID'), "\n";
41 }
42
43 # asctime: From example@example.com Fri Jun 23 02:56:55 2000
44 my $from_strict = qr/^From \S+ +\S+ \S+ +\S+ [^:]+:[^:]+:[^:]+ [^:]+/;
45 my $prev = undef;
46 while (defined(my $l = <STDIN>)) {
47         if ($l =~ /$from_strict/o) {
48                 if (!defined($prev) || $prev =~ /^\r?$/) {
49                         do_add($im, \$msg) if $msg;
50                         $msg = '';
51                         $prev = $l;
52                         next;
53                 }
54                 warn "W[$.] $l\n";
55         }
56         $prev = $l;
57         $msg .= $l;
58 }
59 do_add($im, \$msg) if $msg;
60 $im->done if $im;