]> Sergey Matveev's repositories - public-inbox.git/blobdiff - script/public-inbox-index
index: max out XAPIAN_FLUSH_THRESHOLD if using --batch-size
[public-inbox.git] / script / public-inbox-index
index cf001cc1504e219cfe384168acd6a19f0a5cf3a1..e2bca16e92510221a0f95998277be6351dcac6f8 100755 (executable)
 #!/usr/bin/perl -w
-# Copyright (C) 2015-2018 all contributors <meta@public-inbox.org>
+# Copyright (C) 2015-2020 all contributors <meta@public-inbox.org>
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
-# Basic tool to create a Xapian search index for a git repository
-# configured for public-inbox.
+# Basic tool to create a Xapian search index for a public-inbox.
 # Usage with libeatmydata <https://www.flamingspork.com/projects/libeatmydata/>
-# highly recommended: eatmydata public-inbox-index REPO_DIR
+# highly recommended: eatmydata public-inbox-index INBOX_DIR
 
 use strict;
 use warnings;
 use Getopt::Long qw(:config gnu_getopt no_ignore_case auto_abbrev);
-my $usage = "public-inbox-index REPO_DIR";
-use PublicInbox::Admin qw(resolve_repo_dir);
+my $usage = "public-inbox-index INBOX_DIR";
+use PublicInbox::Admin;
 PublicInbox::Admin::require_or_die('-index');
-require PublicInbox::Config;
+use PublicInbox::Xapcmd;
 
-my $config = eval { PublicInbox::Config->new } || eval {
-       warn "public-inbox unconfigured for serving, indexing anyways...\n";
-       undef;
-};
+my $compact_opt;
+my $opt = { quiet => -1, compact => 0, maxsize => undef, fsync => 1 };
+GetOptions($opt, qw(verbose|v+ reindex rethread compact|c+ jobs|j=i prune
+               fsync|sync! xapianonly|xapian-only
+               indexlevel|L=s maxsize|max-size=s batchsize|batch-size=s
+               sequentialshard|seq-shard|sequential-shard))
+       or die "bad command-line args\n$usage";
+die "--jobs must be >= 0\n" if defined $opt->{jobs} && $opt->{jobs} < 0;
 
-my $reindex;
-my $prune;
-my $jobs = undef;
-my $indexlevel;
-my %opts = (
-       '--reindex' => \$reindex,
-       '--jobs|j=i' => \$jobs,
-       '--prune' => \$prune,
-        'L|indexlevel=s' => \$indexlevel,
-);
-GetOptions(%opts) or die "bad command-line args\n$usage";
-die "--jobs must be positive\n" if defined $jobs && $jobs < 0;
+if ($opt->{compact}) {
+       require PublicInbox::Xapcmd;
+       PublicInbox::Xapcmd::check_compact();
+       $compact_opt = { -coarse_lock => 1, compact => 1 };
+       if (defined(my $jobs = $opt->{jobs})) {
+               $compact_opt->{jobs} = $jobs;
+       }
+}
 
-my @dirs;
+my $cfg = PublicInbox::Config->new;
+my @ibxs = PublicInbox::Admin::resolve_inboxes(\@ARGV, undef, $cfg);
+PublicInbox::Admin::require_or_die('-index');
+unless (@ibxs) { print STDERR "Usage: $usage\n"; exit 1 }
 
-if (@ARGV) {
-       @dirs = map { resolve_repo_dir($_) } @ARGV;
-} else {
-       @dirs = (resolve_repo_dir());
+my $max_size = $opt->{maxsize} // $cfg->{lc('publicInbox.indexMaxSize')};
+if (defined $max_size) {
+       PublicInbox::Admin::parse_unsigned(\$max_size) or
+               die "`publicInbox.indexMaxSize=$max_size' not parsed\n";
 }
 
-sub usage { print STDERR "Usage: $usage\n"; exit 1 }
-usage() unless @dirs;
+my $bs = $opt->{batchsize} // $cfg->{lc('publicInbox.indexBatchSize')};
+if (defined $bs) {
+       PublicInbox::Admin::parse_unsigned(\$bs) or
+               die "`publicInbox.indexBatchSize=$bs' not parsed\n";
+}
+local $PublicInbox::SearchIdx::BATCH_BYTES = $bs if defined($bs);
 
-defined($config) and $config->each_inbox(sub {
-       my ($ibx) = @_;
+# out-of-the-box builds of Xapian 1.4.x are still limited to 32-bit
+# https://getting-started-with-xapian.readthedocs.io/en/latest/concepts/indexing/limitations.html
+local $ENV{XAPIAN_FLUSH_THRESHOLD} ||= '4294967295' if defined($bs);
 
-       for my $i (0..$#dirs) {
-               next if $dirs[$i] ne $ibx->{mainrepo};
-               $dirs[$i] = $ibx;
-       }
-});
+my $s = $opt->{sequentialshard} //
+                       $cfg->{lc('publicInbox.indexSequentialShard')};
+if (defined $s) {
+       my $v = $cfg->git_bool($s);
+       defined($v) or
+               die "`publicInbox.indexSequentialShard=$s' not boolean\n";
+       $opt->{sequentialshard} = $v;
+}
 
-my @inboxes;
 my $mods = {};
-
-foreach my $dir (@dirs) {
-       my $ibx = $dir;
-       if (!ref($ibx)) {
-               unless (-d $dir) {
-                       die "$dir does not appear to be an inbox repository\n";
-               }
-               $ibx = PublicInbox::Inbox->new({
-                       mainrepo => $dir,
-                       name => 'unnamed',
-                       indexlevel => $indexlevel,
-                       version => -f "$dir/inbox.lock" ? 2 : 1,
-               });
-       } elsif (defined $indexlevel && !defined($ibx->{indexlevel})) {
-               # XXX: users can shoot themselves in the foot, with this...
-               $ibx->{indexlevel} = $indexlevel;
-       }
-       push @inboxes, $ibx;
+foreach my $ibx (@ibxs) {
+       # XXX: users can shoot themselves in the foot, with opt->{indexlevel}
+       $ibx->{indexlevel} //= $opt->{indexlevel} // ($opt->{xapianonly} ?
+                       'full' : PublicInbox::Admin::detect_indexlevel($ibx));
+       $ibx->{index_max_size} = $max_size;
        PublicInbox::Admin::scan_ibx_modules($mods, $ibx);
 }
 
 PublicInbox::Admin::require_or_die(keys %$mods);
+PublicInbox::Admin::progress_prepare($opt);
+for my $ibx (@ibxs) {
+       $ibx = PublicInbox::InboxWritable->new($ibx);
+       if ($opt->{compact} >= 2) {
+               PublicInbox::Xapcmd::run($ibx, 'compact', $compact_opt);
+       }
+       $ibx->{-no_fsync} = 1 if !$opt->{fsync};
 
-require PublicInbox::SearchIdx;
-index_inbox($_) for @inboxes;
-
-sub index_inbox {
-       my ($repo) = @_;
-       if (ref($repo) && ($repo->{version} || 1) == 2) {
-               eval { require PublicInbox::V2Writable };
-               die "v2 requirements not met: $@\n" if $@;
-               my $v2w = eval {
-                       PublicInbox::V2Writable->new($repo, {nproc=>$jobs});
-               };
-               if (defined $jobs) {
-                       if ($jobs == 0) {
-                               $v2w->{parallel} = 0;
-                       } else {
-                               my $n = $v2w->{partitions};
-                               if ($jobs != ($n + 1)) {
-                                       warn
-"Unable to respect --jobs=$jobs, inbox was created with $n partitions\n";
-                               }
-                       }
-               }
-               local $SIG{__WARN__} = sub {
-                       print STDERR $v2w->{current_info}, ': ', @_;
-               };
-               $v2w->index_sync({ reindex => $reindex, prune => $prune });
-       } else {
-               my $s = PublicInbox::SearchIdx->new($repo, 1);
-               $s->index_sync({ reindex => $reindex });
+       my $ibx_opt = $opt;
+       if (defined(my $s = $ibx->{indexsequentialshard})) {
+               defined(my $v = $cfg->git_bool($s)) or die <<EOL;
+publicInbox.$ibx->{name}.indexSequentialShard not boolean
+EOL
+               $ibx_opt = { %$opt, sequentialshard => $v };
+       }
+       PublicInbox::Admin::index_inbox($ibx, undef, $ibx_opt);
+       if ($compact_opt) {
+               local $compact_opt->{jobs} = 0 if $ibx_opt->{sequentialshard};
+               PublicInbox::Xapcmd::run($ibx, 'compact', $compact_opt);
        }
 }