Extraer Texto de PDF usando Python
Contents
[
Hide
]
Extraer Texto de todas las Páginas del Documento PDF
Extraer texto de un PDF no es fácil. No muchos lectores de PDF pueden extraer texto de imágenes PDF o PDFs escaneados. Pero la herramienta Aspose.PDF para Python vía C++ te permite extraer texto fácilmente de cualquier archivo PDF.
Consulta el fragmento de código y sigue los pasos para extraer texto de tu PDF:
-
Importa la biblioteca Aspose.PDF para Python
-
Crea un nuevo objeto extractor, que se utiliza para extraer texto e imágenes de documentos PDF.
-
Vincula el objeto extractor a un archivo PDF, que es la fuente de la extracción.
-
Extrae todo el texto del documento PDF y colócalo en alguna variable.
-
Haz lo que sea, imprime el texto extraído en la consola, busca algunos fragmentos, etc.
from AsposePdfPython import *
extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)
print(text)