]> Sergey Matveev's repositories - public-inbox.git/blobdiff - script/public-inbox-index
index: max out XAPIAN_FLUSH_THRESHOLD if using --batch-size
[public-inbox.git] / script / public-inbox-index
index 61f21d7060c345378ab1e96893e4b589968a89b5..e2bca16e92510221a0f95998277be6351dcac6f8 100755 (executable)
@@ -1,68 +1,95 @@
 #!/usr/bin/perl -w
-# Copyright (C) 2015 all contributors <meta@public-inbox.org>
-# License: AGPLv3 or later (https://www.gnu.org/licenses/agpl-3.0.txt)
-# Basic tool to create a Xapian search index for a git repository
-# configured for public-inbox.
+# Copyright (C) 2015-2020 all contributors <meta@public-inbox.org>
+# License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
+# Basic tool to create a Xapian search index for a public-inbox.
 # Usage with libeatmydata <https://www.flamingspork.com/projects/libeatmydata/>
-# highly recommended: eatmydata public-inbox-index GIT_DIR
+# highly recommended: eatmydata public-inbox-index INBOX_DIR
 
 use strict;
 use warnings;
 use Getopt::Long qw(:config gnu_getopt no_ignore_case auto_abbrev);
-my $usage = "public-inbox-index GIT_DIR";
-use PublicInbox::Config;
-eval { require PublicInbox::SearchIdx };
-if ($@) {
-       print STDERR "Search::Xapian required for $0\n";
-       exit 1;
-}
-
-my $reindex;
-my %opts = ( '--reindex' => \$reindex );
-GetOptions(%opts) or die "bad command-line args\n$usage";
+my $usage = "public-inbox-index INBOX_DIR";
+use PublicInbox::Admin;
+PublicInbox::Admin::require_or_die('-index');
+use PublicInbox::Xapcmd;
 
-my @dirs;
+my $compact_opt;
+my $opt = { quiet => -1, compact => 0, maxsize => undef, fsync => 1 };
+GetOptions($opt, qw(verbose|v+ reindex rethread compact|c+ jobs|j=i prune
+               fsync|sync! xapianonly|xapian-only
+               indexlevel|L=s maxsize|max-size=s batchsize|batch-size=s
+               sequentialshard|seq-shard|sequential-shard))
+       or die "bad command-line args\n$usage";
+die "--jobs must be >= 0\n" if defined $opt->{jobs} && $opt->{jobs} < 0;
 
-sub resolve_git_dir {
-       my ($cd) = @_;
-       my @cmd = qw(git rev-parse --git-dir);
-       my $cmd = join(' ', @cmd);
-       my $pid = open my $fh, '-|';
-       defined $pid or die "forking $cmd failed: $!\n";
-       if ($pid == 0) {
-               if (defined $cd) {
-                       chdir $cd or die "chdir $cd failed: $!\n";
-               }
-               exec @cmd;
-               die "Failed to exec $cmd: $!\n";
-       } else {
-               my $dir = eval {
-                       local $/;
-                       <$fh>;
-               };
-               close $fh or die "error in $cmd: $!\n";
-               chomp $dir;
-               return $cd if ($dir eq '.' && defined $cd);
-               $dir;
+if ($opt->{compact}) {
+       require PublicInbox::Xapcmd;
+       PublicInbox::Xapcmd::check_compact();
+       $compact_opt = { -coarse_lock => 1, compact => 1 };
+       if (defined(my $jobs = $opt->{jobs})) {
+               $compact_opt->{jobs} = $jobs;
        }
 }
 
-if (@ARGV) {
-       @dirs = map { resolve_git_dir($_) } @ARGV;
-} else {
-       @dirs = (resolve_git_dir());
+my $cfg = PublicInbox::Config->new;
+my @ibxs = PublicInbox::Admin::resolve_inboxes(\@ARGV, undef, $cfg);
+PublicInbox::Admin::require_or_die('-index');
+unless (@ibxs) { print STDERR "Usage: $usage\n"; exit 1 }
+
+my $max_size = $opt->{maxsize} // $cfg->{lc('publicInbox.indexMaxSize')};
+if (defined $max_size) {
+       PublicInbox::Admin::parse_unsigned(\$max_size) or
+               die "`publicInbox.indexMaxSize=$max_size' not parsed\n";
+}
+
+my $bs = $opt->{batchsize} // $cfg->{lc('publicInbox.indexBatchSize')};
+if (defined $bs) {
+       PublicInbox::Admin::parse_unsigned(\$bs) or
+               die "`publicInbox.indexBatchSize=$bs' not parsed\n";
 }
+local $PublicInbox::SearchIdx::BATCH_BYTES = $bs if defined($bs);
 
-sub usage { print STDERR "Usage: $usage\n"; exit 1 }
-usage() unless @dirs;
+# out-of-the-box builds of Xapian 1.4.x are still limited to 32-bit
+# https://getting-started-with-xapian.readthedocs.io/en/latest/concepts/indexing/limitations.html
+local $ENV{XAPIAN_FLUSH_THRESHOLD} ||= '4294967295' if defined($bs);
 
-foreach my $dir (@dirs) {
-       index_dir($dir);
+my $s = $opt->{sequentialshard} //
+                       $cfg->{lc('publicInbox.indexSequentialShard')};
+if (defined $s) {
+       my $v = $cfg->git_bool($s);
+       defined($v) or
+               die "`publicInbox.indexSequentialShard=$s' not boolean\n";
+       $opt->{sequentialshard} = $v;
 }
 
-sub index_dir {
-       my ($git_dir) = @_;
-       -d $git_dir or die "$git_dir does not appear to be a git repository\n";
-       my $s = PublicInbox::SearchIdx->new($git_dir, 1);
-       $s->index_sync({ reindex => $reindex });
+my $mods = {};
+foreach my $ibx (@ibxs) {
+       # XXX: users can shoot themselves in the foot, with opt->{indexlevel}
+       $ibx->{indexlevel} //= $opt->{indexlevel} // ($opt->{xapianonly} ?
+                       'full' : PublicInbox::Admin::detect_indexlevel($ibx));
+       $ibx->{index_max_size} = $max_size;
+       PublicInbox::Admin::scan_ibx_modules($mods, $ibx);
+}
+
+PublicInbox::Admin::require_or_die(keys %$mods);
+PublicInbox::Admin::progress_prepare($opt);
+for my $ibx (@ibxs) {
+       $ibx = PublicInbox::InboxWritable->new($ibx);
+       if ($opt->{compact} >= 2) {
+               PublicInbox::Xapcmd::run($ibx, 'compact', $compact_opt);
+       }
+       $ibx->{-no_fsync} = 1 if !$opt->{fsync};
+
+       my $ibx_opt = $opt;
+       if (defined(my $s = $ibx->{indexsequentialshard})) {
+               defined(my $v = $cfg->git_bool($s)) or die <<EOL;
+publicInbox.$ibx->{name}.indexSequentialShard not boolean
+EOL
+               $ibx_opt = { %$opt, sequentialshard => $v };
+       }
+       PublicInbox::Admin::index_inbox($ibx, undef, $ibx_opt);
+       if ($compact_opt) {
+               local $compact_opt->{jobs} = 0 if $ibx_opt->{sequentialshard};
+               PublicInbox::Xapcmd::run($ibx, 'compact', $compact_opt);
+       }
 }