]> Sergey Matveev's repositories - public-inbox.git/blob - t/lei_to_mail.t
lei: implement various deduplication strategies
[public-inbox.git] / t / lei_to_mail.t
1 #!perl -w
2 # Copyright (C) 2020 all contributors <meta@public-inbox.org>
3 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
4 use strict;
5 use v5.10.1;
6 use Test::More;
7 use PublicInbox::TestCommon;
8 use PublicInbox::Eml;
9 require_mods(qw(DBD::SQLite));
10 use_ok 'PublicInbox::LeiToMail';
11 my $from = "Content-Length: 10\nSubject: x\n\nFrom hell\n";
12 my $noeol = "Subject: x\n\nFrom hell";
13 my $crlf = $noeol;
14 $crlf =~ s/\n/\r\n/g;
15 my $kw = [qw(seen answered flagged)];
16 for my $mbox (qw(mboxrd mboxo mboxcl mboxcl2)) {
17         my $m = "eml2$mbox";
18         my $cb = PublicInbox::LeiToMail->can($m);
19         my $s = $cb->(PublicInbox::Eml->new($from), $kw);
20         is(substr($$s, -1, 1), "\n", "trailing LF in normal $mbox");
21         my $eml = PublicInbox::Eml->new($s);
22         is($eml->header('Status'), 'R', "Status: set by $m");
23         is($eml->header('X-Status'), 'AF', "X-Status: set by $m");
24         if ($mbox eq 'mboxcl2') {
25                 like($eml->body_raw, qr/^From /, "From not escaped $m");
26         } else {
27                 like($eml->body_raw, qr/^>From /, "From escaped once by $m");
28         }
29         my @cl = $eml->header('Content-Length');
30         if ($mbox =~ /mboxcl/) {
31                 is(scalar(@cl), 1, "$m only has one Content-Length header");
32                 is($cl[0] + length("\n"),
33                         length($eml->body_raw), "$m Content-Length matches");
34         } else {
35                 is(scalar(@cl), 0, "$m clobbered Content-Length");
36         }
37         $s = $cb->(PublicInbox::Eml->new($noeol), $kw);
38         is(substr($$s, -1, 1), "\n",
39                 "trailing LF added by $m when original lacks EOL");
40         $eml = PublicInbox::Eml->new($s);
41         if ($mbox eq 'mboxcl2') {
42                 is($eml->body_raw, "From hell\n", "From not escaped by $m");
43         } else {
44                 is($eml->body_raw, ">From hell\n", "From escaped once by $m");
45         }
46         $s = $cb->(PublicInbox::Eml->new($crlf), $kw);
47         is(substr($$s, -2, 2), "\r\n",
48                 "trailing CRLF added $m by original lacks EOL");
49         $eml = PublicInbox::Eml->new($s);
50         if ($mbox eq 'mboxcl2') {
51                 is($eml->body_raw, "From hell\r\n", "From not escaped by $m");
52         } else {
53                 is($eml->body_raw, ">From hell\r\n", "From escaped once by $m");
54         }
55         if ($mbox =~ /mboxcl/) {
56                 is($eml->header('Content-Length') + length("\r\n"),
57                         length($eml->body_raw), "$m Content-Length matches");
58         } elsif ($mbox eq 'mboxrd') {
59                 $s = $cb->($eml, $kw);
60                 $eml = PublicInbox::Eml->new($s);
61                 is($eml->body_raw,
62                         ">>From hell\r\n\r\n", "From escaped again by $m");
63         }
64 }
65
66 my ($tmpdir, $for_destroy) = tmpdir();
67 local $ENV{TMPDIR} = $tmpdir;
68 open my $err, '>>', "$tmpdir/lei.err" or BAIL_OUT $!;
69 my $lei = { 2 => $err };
70 my $buf = <<'EOM';
71 From: x@example.com
72 Subject: x
73
74 blah
75 EOM
76 my $fn = "$tmpdir/x.mbox";
77 my $orig = do {
78         my $wcb = PublicInbox::LeiToMail->write_cb("mboxcl2:$fn", $lei);
79         is(ref $wcb, 'CODE', 'write_cb returned callback');
80         ok(-f $fn && !-s _, 'empty file created');
81         $wcb->(\(my $dup = $buf), 'deadbeef', [ qw(seen) ]);
82         undef $wcb;
83         open my $fh, '<', $fn or BAIL_OUT $!;
84         my $raw = do { local $/; <$fh> };
85         like($raw, qr/^blah\n/sm, 'wrote content');
86         unlink $fn or BAIL_OUT $!;
87
88         local $lei->{opt} = { jobs => 2 };
89         $wcb = PublicInbox::LeiToMail->write_cb("mboxcl2:$fn", $lei);
90         $lei->{dedupe}->prepare_dedupe;
91         $wcb->(\($dup = $buf), 'deadbeef', [ qw(seen) ]);
92         undef $wcb;
93         open $fh, '<', $fn or BAIL_OUT $!;
94         is($raw, do { local $/; <$fh> }, 'jobs > 1');
95         $raw;
96 };
97 for my $zsfx (qw(gz bz2 xz)) { # XXX should we support zst, zz, lzo, lzma?
98         my $zsfx2cmd = PublicInbox::LeiToMail->can('zsfx2cmd');
99         SKIP: {
100                 my $cmd = eval { $zsfx2cmd->($zsfx, 0, $lei) };
101                 skip $@, 3 if $@;
102                 my $dc_cmd = eval { $zsfx2cmd->($zsfx, 1, $lei) };
103                 ok($dc_cmd, "decompressor for .$zsfx");
104                 my $f = "$fn.$zsfx";
105                 my $dst = "mboxcl2:$f";
106                 my $wcb = PublicInbox::LeiToMail->write_cb($dst, $lei);
107                 $wcb->(\(my $dup = $buf), 'deadbeef', [ qw(seen) ]);
108                 undef $wcb;
109                 my $uncompressed = xqx([@$dc_cmd, $f]);
110                 is($uncompressed, $orig, "$zsfx works unlocked");
111
112                 local $lei->{opt} = { jobs => 2 }; # for atomic writes
113                 unlink $f or BAIL_OUT "unlink $!";
114                 $wcb = PublicInbox::LeiToMail->write_cb($dst, $lei);
115                 $lei->{dedupe}->prepare_dedupe;
116                 $wcb->(\($dup = $buf), 'deadbeef', [ qw(seen) ]);
117                 undef $wcb;
118                 is(xqx([@$dc_cmd, $f]), $orig, "$zsfx matches with lock");
119         }
120 }
121
122 unlink $fn or BAIL_OUT $!;
123 if ('default deduplication uses content_hash') {
124         my $wcb = PublicInbox::LeiToMail->write_cb("mboxo:$fn", $lei);
125         $wcb->(\(my $x = $buf), 'deadbeef', []) for (1..2);
126         undef $wcb; # undef to commit changes
127         my $cmp = '';
128         open my $fh, '<', $fn or BAIL_OUT $!;
129         require PublicInbox::MboxReader;
130         PublicInbox::MboxReader->mboxo($fh, sub { $cmp .= shift->as_string });
131         is($cmp, $buf, 'only one message written');
132 }
133
134 done_testing;