From 0e9995bbef824bc49532cf68943a9e98b8242584 Mon Sep 17 00:00:00 2001 From: Sergey Matveev Date: Thu, 16 Dec 2021 17:10:00 +0300 Subject: [PATCH] =?utf8?q?=D0=9A=D0=BE=D0=BD=D0=B2=D0=B5=D1=80=D1=82=D0=B8?= =?utf8?q?=D1=80=D0=BE=D0=B2=D0=B0=D0=BD=D0=B8=D0=B5=20PDF=20=D0=B4=D0=BB?= =?utf8?q?=D1=8F=20recoll=20=D0=B8=20=D0=BE=D0=BF=D1=80=D0=B5=D0=B4=D0=B5?= =?utf8?q?=D0=BB=D0=B5=D0=BD=D0=B8=D1=8F=20=D1=81=D1=82=D1=80=D0=B0=D0=BD?= =?utf8?q?=D0=B8=D1=86?= MIME-Version: 1.0 Content-Type: text/plain; charset=utf8 Content-Transfer-Encoding: 8bit http://www.git.stargrave.org/?p=dotfiles.git;a=blob;f=recoll/bin/pdftotext.sh;h=1775278068da0b9d1b844a82888b8b1a0b8088f9;hb=0232bed604be77802bc76422627be707ac2c8838 Для конвертирования PDF в текст я использую mutool convert -F text утилиту. Но вот беда -- в её выводе нет информации о страницах. recoll из коробки понимает разделение на страницы если есть "^L" символ. Пока сделал хак в виде отдельного mutool info вызова для получения количества страниц и дальше для каждой страницы вызов convert-а, с выводом "^L" символа. Существенно медленнее, но пока меня не сильно смущает. -- 2.50.0