Extrair Texto de PDF usando Python
Contents
[
Hide
]
Extrair Texto de Todas as Páginas do Documento PDF
Extrair texto de PDF não é fácil. Não muitos leitores de PDF conseguem extrair texto de imagens PDF ou PDFs digitalizados. Mas a ferramenta Aspose.PDF para Python via C++ permite que você extraia facilmente texto de qualquer arquivo PDF.
Confira o trecho de código e siga os passos para extrair texto do seu PDF:
-
Importe a biblioteca Aspose.PDF para Python
-
Crie um novo objeto extractor, que é usado para extrair texto e imagens de documentos PDF.
-
Vincule o objeto extractor a um arquivo PDF, que é a fonte da extração.
-
Extraia todo o texto do documento PDF e coloque-o em alguma variável.
-
Faça o que quiser, imprima o texto extraído no console, faça a busca de alguns fragmentos etc.
from AsposePdfPython import *
extator = Extract()
extractor_bind_pdf(extator,"blank_pdf_document.pdf")
text = extractor_extract_text(extator)
print(text)