Вытащить текст из ПДФа

Как я ПДФ в текст переводил.

распознание текста из пдф with линукс and ОС|lower


ЛИНУКС. Автораспознавание текста в ПДФ

 

  1. Видимо OCRmyPDF тулза мне подходит. Пробуем $ sudo apt install ocrmypdf

  2. Выбираем язык $ tesseract –list-langs

  3. Ставим язык который надо $ sudo apt install tesseract-ocr-spa

  4. $ ocrmypdf -v -l ‘spa’ old.pdf new.pdf //Ошибочка вышла и нет аутпута.

  5. Надо -f attribute. $ ocrmypdf -v -f -l spa old.pdf new.pdf // Вместо SPA используйте язык вашего PDF.

  6. Получил PIL.Image.DecompressionBombError: Image size (1115186111 pixels) exceeds limit of 256,000,000 pixels, could be decompression bomb DOS attack.

  7. Пробуем --max-image-mpixels 1300 $ ocrmypdf -v -f -l spa --max-image-mpixels 1300 old.pdf new.pdf

 

РЕДАКТИРУЕМ PDF

  1. Ставим LibreOffice draw $ sudo apt install libreoffice-draw // Заработает после перезапуска.

  2. $ sudo apt install libreoffice-gnome libreoffice -y // Для GNOME -y значит ДА SI для любого ввода.

  3. Пробуем поставить scribus $ sudo apt install scribus //Не хватает нужных пакетов зависимостей.

  4. $ sudo apt install inkscape // Только для одной странички PDF

  5. Пробуем PDF-Shuffler чтобы редактировать PDF многостраничник. $ sudo apt install pdfshuffler // Хорошая мысльиспользовать pdfshuffler для cli.