]> Sergey Matveev's repositories - public-inbox.git/blobdiff - script/public-inbox-index
index: max out XAPIAN_FLUSH_THRESHOLD if using --batch-size
[public-inbox.git] / script / public-inbox-index
index db7ebbab6421ec2cc1b849e4259b2ac82d6d745b..e2bca16e92510221a0f95998277be6351dcac6f8 100755 (executable)
 #!/usr/bin/perl -w
-# Copyright (C) 2015-2018 all contributors <meta@public-inbox.org>
+# Copyright (C) 2015-2020 all contributors <meta@public-inbox.org>
 # License: AGPL-3.0+ <https://www.gnu.org/licenses/agpl-3.0.txt>
-# Basic tool to create a Xapian search index for a git repository
-# configured for public-inbox.
+# Basic tool to create a Xapian search index for a public-inbox.
 # Usage with libeatmydata <https://www.flamingspork.com/projects/libeatmydata/>
-# highly recommended: eatmydata public-inbox-index REPO_DIR
+# highly recommended: eatmydata public-inbox-index INBOX_DIR
 
 use strict;
 use warnings;
 use Getopt::Long qw(:config gnu_getopt no_ignore_case auto_abbrev);
-use Cwd 'abs_path';
-my $usage = "public-inbox-index REPO_DIR";
-use PublicInbox::Config;
-my $config = eval { PublicInbox::Config->new } || eval {
-       warn "public-inbox unconfigured for serving, indexing anyways...\n";
-       {}
-};
-eval { require PublicInbox::SearchIdx };
-if ($@) {
-       print STDERR "Search::Xapian required for $0\n";
-       exit 1;
-}
-
-my $reindex;
-my $prune;
-my $jobs = undef;
-my %opts = (
-       '--reindex' => \$reindex,
-       '--jobs|j=i' => \$jobs,
-       '--prune' => \$prune,
-);
-GetOptions(%opts) or die "bad command-line args\n$usage";
-die "--jobs must be positive\n" if defined $jobs && $jobs < 0;
+my $usage = "public-inbox-index INBOX_DIR";
+use PublicInbox::Admin;
+PublicInbox::Admin::require_or_die('-index');
+use PublicInbox::Xapcmd;
 
-my @dirs;
+my $compact_opt;
+my $opt = { quiet => -1, compact => 0, maxsize => undef, fsync => 1 };
+GetOptions($opt, qw(verbose|v+ reindex rethread compact|c+ jobs|j=i prune
+               fsync|sync! xapianonly|xapian-only
+               indexlevel|L=s maxsize|max-size=s batchsize|batch-size=s
+               sequentialshard|seq-shard|sequential-shard))
+       or die "bad command-line args\n$usage";
+die "--jobs must be >= 0\n" if defined $opt->{jobs} && $opt->{jobs} < 0;
 
-sub resolve_repo_dir {
-       my ($cd) = @_;
-       my $prefix = defined $cd ? $cd : './';
-       if (-d $prefix && -f "$prefix/inbox.lock") { # v2
-               return abs_path($prefix);
+if ($opt->{compact}) {
+       require PublicInbox::Xapcmd;
+       PublicInbox::Xapcmd::check_compact();
+       $compact_opt = { -coarse_lock => 1, compact => 1 };
+       if (defined(my $jobs = $opt->{jobs})) {
+               $compact_opt->{jobs} = $jobs;
        }
+}
 
-       my @cmd = qw(git rev-parse --git-dir);
-       my $cmd = join(' ', @cmd);
-       my $pid = open my $fh, '-|';
-       defined $pid or die "forking $cmd failed: $!\n";
-       if ($pid == 0) {
-               if (defined $cd) {
-                       chdir $cd or die "chdir $cd failed: $!\n";
-               }
-               exec @cmd;
-               die "Failed to exec $cmd: $!\n";
-       } else {
-               my $dir = eval {
-                       local $/;
-                       <$fh>;
-               };
-               close $fh or die "error in $cmd: $!\n";
-               chomp $dir;
-               return abs_path($cd) if ($dir eq '.' && defined $cd);
-               abs_path($dir);
-       }
+my $cfg = PublicInbox::Config->new;
+my @ibxs = PublicInbox::Admin::resolve_inboxes(\@ARGV, undef, $cfg);
+PublicInbox::Admin::require_or_die('-index');
+unless (@ibxs) { print STDERR "Usage: $usage\n"; exit 1 }
+
+my $max_size = $opt->{maxsize} // $cfg->{lc('publicInbox.indexMaxSize')};
+if (defined $max_size) {
+       PublicInbox::Admin::parse_unsigned(\$max_size) or
+               die "`publicInbox.indexMaxSize=$max_size' not parsed\n";
 }
 
-if (@ARGV) {
-       @dirs = map { resolve_repo_dir($_) } @ARGV;
-} else {
-       @dirs = (resolve_repo_dir());
+my $bs = $opt->{batchsize} // $cfg->{lc('publicInbox.indexBatchSize')};
+if (defined $bs) {
+       PublicInbox::Admin::parse_unsigned(\$bs) or
+               die "`publicInbox.indexBatchSize=$bs' not parsed\n";
 }
+local $PublicInbox::SearchIdx::BATCH_BYTES = $bs if defined($bs);
 
-sub usage { print STDERR "Usage: $usage\n"; exit 1 }
-usage() unless @dirs;
+# out-of-the-box builds of Xapian 1.4.x are still limited to 32-bit
+# https://getting-started-with-xapian.readthedocs.io/en/latest/concepts/indexing/limitations.html
+local $ENV{XAPIAN_FLUSH_THRESHOLD} ||= '4294967295' if defined($bs);
 
-foreach my $k (keys %$config) {
-       $k =~ /\Apublicinbox\.([^\.]+)\.mainrepo\z/ or next;
-       my $name = $1;
-       my $v = $config->{$k};
-       for my $i (0..$#dirs) {
-               next if $dirs[$i] ne $v;
-               my $ibx = $config->lookup_name($name);
-               $dirs[$i] = $ibx if $ibx;
-       }
+my $s = $opt->{sequentialshard} //
+                       $cfg->{lc('publicInbox.indexSequentialShard')};
+if (defined $s) {
+       my $v = $cfg->git_bool($s);
+       defined($v) or
+               die "`publicInbox.indexSequentialShard=$s' not boolean\n";
+       $opt->{sequentialshard} = $v;
 }
 
-foreach my $dir (@dirs) {
-       if (!ref($dir) && -f "$dir/inbox.lock") { # v2
-               my $ibx = { mainrepo => $dir, name => 'unnamed' };
-               $dir = PublicInbox::Inbox->new($ibx);
-       }
-       index_dir($dir);
+my $mods = {};
+foreach my $ibx (@ibxs) {
+       # XXX: users can shoot themselves in the foot, with opt->{indexlevel}
+       $ibx->{indexlevel} //= $opt->{indexlevel} // ($opt->{xapianonly} ?
+                       'full' : PublicInbox::Admin::detect_indexlevel($ibx));
+       $ibx->{index_max_size} = $max_size;
+       PublicInbox::Admin::scan_ibx_modules($mods, $ibx);
 }
 
-sub index_dir {
-       my ($repo) = @_;
-       if (!ref $repo && ! -d $repo) {
-               die "$repo does not appear to be an inbox repository\n";
+PublicInbox::Admin::require_or_die(keys %$mods);
+PublicInbox::Admin::progress_prepare($opt);
+for my $ibx (@ibxs) {
+       $ibx = PublicInbox::InboxWritable->new($ibx);
+       if ($opt->{compact} >= 2) {
+               PublicInbox::Xapcmd::run($ibx, 'compact', $compact_opt);
+       }
+       $ibx->{-no_fsync} = 1 if !$opt->{fsync};
+
+       my $ibx_opt = $opt;
+       if (defined(my $s = $ibx->{indexsequentialshard})) {
+               defined(my $v = $cfg->git_bool($s)) or die <<EOL;
+publicInbox.$ibx->{name}.indexSequentialShard not boolean
+EOL
+               $ibx_opt = { %$opt, sequentialshard => $v };
        }
-       if (ref($repo) && ($repo->{version} || 1) == 2) {
-               eval { require PublicInbox::V2Writable };
-               die "v2 requirements not met: $@\n" if $@;
-               my $v2w = eval {
-                       local $ENV{NPROC} = $jobs if $jobs;
-                       PublicInbox::V2Writable->new($repo);
-               };
-               if (defined $jobs) {
-                       if ($jobs == 0) {
-                               $v2w->{parallel} = 0;
-                       } else {
-                               my $n = $v2w->{partitions};
-                               if ($jobs != $n) {
-                                       warn
-"Unable to respect --jobs=$jobs, inbox was created with $n partitions\n";
-                               }
-                       }
-               }
-               $v2w->index_sync({ reindex => $reindex, prune => $prune });
-       } else {
-               my $s = PublicInbox::SearchIdx->new($repo, 1);
-               $s->index_sync({ reindex => $reindex });
+       PublicInbox::Admin::index_inbox($ibx, undef, $ibx_opt);
+       if ($compact_opt) {
+               local $compact_opt->{jobs} = 0 if $ibx_opt->{sequentialshard};
+               PublicInbox::Xapcmd::run($ibx, 'compact', $compact_opt);
        }
 }