From e18bf71655b8a564745dd4f307df4ce034996031 Mon Sep 17 00:00:00 2001 From: Sergey Matveev Date: Tue, 14 Dec 2021 23:15:00 +0300 Subject: [PATCH] =?utf8?q?=D0=9F=D1=80=D0=BE=D0=B1=D1=83=D1=8E=20=D0=BD?= =?utf8?q?=D0=B0=D1=87=D0=B8=D0=BD=D0=B0=D1=82=D1=8C=20=D0=B8=D1=81=D0=BF?= =?utf8?q?=D0=BE=D0=BB=D1=8C=D0=B7=D0=BE=D0=B2=D0=B0=D1=82=D1=8C=20recoll?= MIME-Version: 1.0 Content-Type: text/plain; charset=utf8 Content-Transfer-Encoding: 8bit https://www.lesbonscomptes.com/recoll/ http://www.git.stargrave.org/?p=dotfiles.git;a=commitdiff;h=cbccb5bd5071445788464f183f563cc6a79218c1 Коллега на работе в очередной раз поднял вопрос и напомнил о теме индексации и поиска информации в документах. По сути я удовлетворяюсь grep-ом в преобладающем большинстве случаев. Но к сожалению имеются PDF-ки, как минимум. Да и HTML-ки не всегда удобны для grep-а. Нашёл recoll программу. Xapian движок -- точно такой же как и в mu-helper используется (его я использую вместе с Mutt-ом), поэтому язык запросов мне уже знаком. Есть не только GUI клиенты, но и recallq CLI. Так как pdftotext у меня нет, ибо не хочу я ставить громоздкий poppler, ибо я поклонник MuPDF (f5ac4628c014cc4c9fb43f7f15c6bd5cc211d24d), то пришлось обёртку над mutool писать и переопределять вызов "декодера" PDF файлов. Делается легко. Работает отлично. HTML-ки, PDF-ки, всякие случайно попавшиеся под руку файлы словарей -- всё ест и по всему ищет. С кириллицей не обнаружил проблем. Надо осваивать это всё, а то, действительно, как в каменном веке перехожу в ~/doc, ~XXX/doc и grep-ом ищу. Когда понимаю что что-то в PDF-ках, то бывало циклом прогоняю pdftotext (ну точнее аналог), но это терпимо когда крайне редко делается. -- 2.50.0