]> Sergey Matveev's repositories - public-inbox.git/blobdiff - lib/PublicInbox/LeiXSearch.pm
lei q: improve --limit behavior and progress
[public-inbox.git] / lib / PublicInbox / LeiXSearch.pm
index 4583b0678f3c2e7c5f77f52deb5066c5131c23d0..584ffde902ff272e44e3a01004da4a94edba3aff 100644 (file)
@@ -110,10 +110,20 @@ sub recent {
 
 sub over {}
 
+sub _check_mset_limit ($$$) {
+       my ($lei, $desc, $mset) = @_;
+       return if defined($lei->{opt}->{limit}); # user requested limit
+       my $est = $mset->get_matches_estimated;
+       my $tot = $lei->{mset_opt}->{total};
+       $est > $tot and $lei->qerr(<<"");
+# $desc estimated matches ($est) exceeds default --limit=$tot
+
+}
+
 sub _mset_more ($$) {
        my ($mset, $mo) = @_;
        my $size = $mset->size;
-       $size >= $mo->{limit} && (($mo->{offset} += $size) < $mo->{limit});
+       $size >= $mo->{limit} && (($mo->{offset} += $size) < $mo->{total});
 }
 
 # $startq will EOF when do_augment is done augmenting and allow
@@ -182,7 +192,7 @@ sub query_one_mset { # for --threads and l2m w/o sort
        my $first_ids;
        do {
                $mset = $srch->mset($mo->{qstr}, $mo);
-               mset_progress($lei, $dir, $mset->size,
+               mset_progress($lei, $dir, $mo->{offset} + $mset->size,
                                $mset->get_matches_estimated);
                wait_startq($lei); # wait for keyword updates
                my $ids = $srch->mset_to_artnums($mset, $mo);
@@ -222,6 +232,7 @@ sub query_one_mset { # for --threads and l2m w/o sort
                        }
                }
        } while (_mset_more($mset, $mo));
+       _check_mset_limit($lei, $dir, $mset);
        if ($lss && scalar(@$first_ids)) {
                undef $stop_at;
                my $max = $first_ids->[0];
@@ -244,7 +255,7 @@ sub query_combined_mset { # non-parallel for non-"--threads" users
        my $each_smsg = $lei->{ovv}->ovv_each_smsg_cb($lei);
        do {
                $mset = $self->mset($mo->{qstr}, $mo);
-               mset_progress($lei, 'xsearch', $mset->size,
+               mset_progress($lei, 'xsearch', $mo->{offset} + $mset->size,
                                $mset->get_matches_estimated);
                wait_startq($lei); # wait for keyword updates
                for my $mitem ($mset->items) {
@@ -252,6 +263,7 @@ sub query_combined_mset { # non-parallel for non-"--threads" users
                        $each_smsg->($smsg, $mitem);
                }
        } while (_mset_more($mset, $mo));
+       _check_mset_limit($lei, 'xsearch', $mset);
        undef $each_smsg; # may commit
        $lei->{ovv}->ovv_atexit_child($lei);
 }
@@ -570,9 +582,9 @@ sub do_query {
        @$end = ();
        $self->{opt_threads} = $lei->{opt}->{threads};
        $self->{opt_sort} = $lei->{opt}->{'sort'};
-       $self->{-do_lcat} = $lei->{lcat_blob} // $lei->{lcat_fid};
+       $self->{-do_lcat} = !!(delete $lei->{lcat_todo});
        if ($l2m) {
-               $l2m->net_merge_all_done unless $lei->{auth};
+               $l2m->net_merge_all_done($lei) unless $lei->{auth};
        } else {
                start_query($self);
        }
@@ -633,7 +645,7 @@ sub _lcat2smsg { # git->cat_async callback
        }
 }
 
-sub lcat_dump {
+sub lcat_dump { # via wq_io_do
        my ($self) = @_;
        my $lei = $self->{lei};
        my $each_smsg = $lei->{ovv}->ovv_each_smsg_cb($lei);
@@ -642,18 +654,17 @@ sub lcat_dump {
                my $json_dump = $each_smsg;
                $each_smsg = sub {
                        my ($smsg) = @_;
-                       use Data::Dumper;
                        $smsg->{-json_dump} = $json_dump;
                        $git->cat_async($smsg->{blob}, \&_lcat2smsg, $smsg);
                };
        }
-       for my $oid (@{$lei->{lcat_blob} // []}) {
-               $each_smsg->({ blob => $oid, pct => 100 });
-       }
-       if (my $fids = delete $lei->{lcat_fid}) {
-               my $lms = $lei->{lse}->lms;
-               for my $fid (@$fids) {
-                       $lms->each_src({fid => $fid}, \&_lcat_i, $each_smsg);
+       my $lms;
+       for my $ent (@{$lei->{lcat_todo}}) {
+               if (ref $ent eq 'HASH') { # { fid => $fid ,.. }
+                       $lms //= $lei->{lse}->lms;
+                       $lms->each_src($ent, \&_lcat_i, $each_smsg);
+               } else { # oidhex
+                       $each_smsg->({ blob => $ent, pct => 100 });
                }
        }
        $git->async_wait_all;