Как я ПДФ в текст переводил.
Видимо OCRmyPDF тулза мне подходит. Пробуем $ sudo apt install ocrmypdf
Выбираем язык $ tesseract –list-langs
Ставим язык который надо $ sudo apt install tesseract-ocr-spa
$ ocrmypdf -v -l ‘spa’ old.pdf new.pdf //Ошибочка вышла и нет аутпута.
Надо -f attribute. $ ocrmypdf -v -f -l spa old.pdf new.pdf // Вместо SPA используйте язык вашего PDF.
Получил PIL.Image.DecompressionBombError: Image size (1115186111 pixels) exceeds limit of 256,000,000 pixels, could be decompression bomb DOS attack.
Пробуем --max-image-mpixels 1300 $ ocrmypdf -v -f -l spa --max-image-mpixels 1300 old.pdf new.pdf
Ставим LibreOffice draw $ sudo apt install libreoffice-draw // Заработает после перезапуска.
$ sudo apt install libreoffice-gnome libreoffice -y // Для GNOME -y значит ДА SI для любого ввода.
Пробуем поставить scribus $ sudo apt install scribus //Не хватает нужных пакетов зависимостей.
$ sudo apt install inkscape // Только для одной странички PDF
Пробуем PDF-Shuffler чтобы редактировать PDF многостраничник. $ sudo apt install pdfshuffler // Хорошая мысльиспользовать pdfshuffler для cli.