]> Sergey Matveev's repositories - stargrave-blog.git/commit
Конвертирование PDF для recoll и определения страниц
authorSergey Matveev <stargrave@stargrave.org>
Thu, 16 Dec 2021 14:10:00 +0000 (17:10 +0300)
committerSergey Matveev <stargrave@stargrave.org>
Thu, 16 Dec 2021 14:10:00 +0000 (17:10 +0300)
commit0e9995bbef824bc49532cf68943a9e98b8242584
tree4b825dc642cb6eb9a060e54bf8d69288fbee4904
parentd5670fc7a83b5161ebbb4f7b9cdaf34f3edf3a94
Конвертирование PDF для recoll и определения страниц

http://www.git.stargrave.org/?p=dotfiles.git;a=blob;f=recoll/bin/pdftotext.sh;h=1775278068da0b9d1b844a82888b8b1a0b8088f9;hb=0232bed604be77802bc76422627be707ac2c8838
Для конвертирования PDF в текст я использую mutool convert -F text
утилиту. Но вот беда -- в её выводе нет информации о страницах. recoll
из коробки понимает разделение на страницы если есть "^L" символ. Пока
сделал хак в виде отдельного mutool info вызова для получения количества
страниц и дальше для каждой страницы вызов convert-а, с выводом "^L"
символа. Существенно медленнее, но пока меня не сильно смущает.