Extraer Texto de PDF usando Python

Extraer Texto de todas las Páginas del Documento PDF

Extraer texto de un PDF no es fácil. No muchos lectores de PDF pueden extraer texto de imágenes PDF o PDFs escaneados. Pero la herramienta Aspose.PDF para Python vía C++ te permite extraer texto fácilmente de cualquier archivo PDF.

Consulta el fragmento de código y sigue los pasos para extraer texto de tu PDF:

  1. Importa la biblioteca Aspose.PDF para Python

  2. Crea un nuevo objeto extractor, que se utiliza para extraer texto e imágenes de documentos PDF.

  3. Vincula el objeto extractor a un archivo PDF, que es la fuente de la extracción.

  4. Extrae todo el texto del documento PDF y colócalo en alguna variable.

  5. Haz lo que sea, imprime el texto extraído en la consola, busca algunos fragmentos, etc.

from AsposePdfPython import *

extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)

print(text)