Convertir PDF a TEXTO

Cómo traté de obtener texto del archivos pdf.

pdf a text reconocimiento with unix and SO|lower


LINUX. Reconocimiento de texto automático

 

  1. Parecido OCRmyPDF herramienta se adapta. Vamos a tratar  $ sudo apt install ocrmypdf

  2. Elegi el idioma $ tesseract –list-langs

  3. Instalar el idioma que necesitas $ sudo apt install tesseract-ocr-spa

  4. $ ocrmypdf -v -l ‘spa’ old.pdf new.pdf //Recibió el error y no salida

  5. Necesito -f attribute. $ ocrmypdf -v -f -l spa old.pdf new.pdf // En lugar de SPA usa su PDF idioma

  6. Recibi PIL.Image.DecompressionBombError: Image size (1115186111 pixels) exceeds limit of 256,000,000 pixels, could be decompression bomb DOS attack.

  7. Tratar de establecer --max-image-mpixels 1300 $ ocrmypdf -v -f -l spa --max-image-mpixels 1300 old.pdf new.pdf

 

EDITAR PDF

  1. Instalar LibreOffice draw $ sudo apt install libreoffice-draw // Comenzará después de reinicio

  2. $ sudo apt install libreoffice-gnome libreoffice -y // Por GNOME -y significa SI para cualquer entrada.

  3. Tratar de istalar scribus $ sudo apt install scribus //No tengo ninguna dependencia

  4. $ sudo apt install inkscape // Solomente para editar una página PDF

  5. Tratar de PDF-Shuffler para editar PDF multipaginado. $ sudo apt install pdfshuffler // Es una buena idea usar pdfshuffler por cli