From: Sergey Matveev Date: Tue, 14 Dec 2021 20:15:00 +0000 (+0300) Subject: Пробую начинать использовать recoll X-Git-Url: http://www.git.stargrave.org/?a=commitdiff_plain;h=e18bf71655b8a564745dd4f307df4ce034996031;p=stargrave-blog.git Пробую начинать использовать recoll https://www.lesbonscomptes.com/recoll/ http://www.git.stargrave.org/?p=dotfiles.git;a=commitdiff;h=cbccb5bd5071445788464f183f563cc6a79218c1 Коллега на работе в очередной раз поднял вопрос и напомнил о теме индексации и поиска информации в документах. По сути я удовлетворяюсь grep-ом в преобладающем большинстве случаев. Но к сожалению имеются PDF-ки, как минимум. Да и HTML-ки не всегда удобны для grep-а. Нашёл recoll программу. Xapian движок -- точно такой же как и в mu-helper используется (его я использую вместе с Mutt-ом), поэтому язык запросов мне уже знаком. Есть не только GUI клиенты, но и recallq CLI. Так как pdftotext у меня нет, ибо не хочу я ставить громоздкий poppler, ибо я поклонник MuPDF (f5ac4628c014cc4c9fb43f7f15c6bd5cc211d24d), то пришлось обёртку над mutool писать и переопределять вызов "декодера" PDF файлов. Делается легко. Работает отлично. HTML-ки, PDF-ки, всякие случайно попавшиеся под руку файлы словарей -- всё ест и по всему ищет. С кириллицей не обнаружил проблем. Надо осваивать это всё, а то, действительно, как в каменном веке перехожу в ~/doc, ~XXX/doc и grep-ом ищу. Когда понимаю что что-то в PDF-ках, то бывало циклом прогоняю pdftotext (ну точнее аналог), но это терпимо когда крайне редко делается. ---