Extrair Texto de Todas as Páginas de um Documento PDF em Python

Extrair Texto de PDF usando Python

Para extrair texto de todas as páginas de um documento PDF usando Aspose.PDF Java para Python, simplesmente invoque o módulo ExtractTextFromAllPages.


# Abra o documento alvo
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Texto extraído com sucesso. Verifique o arquivo de saída."

Baixar Código em Execução

Baixe Extrair Texto de Todas as Páginas (Aspose.PDF) de qualquer um dos sites de codificação social mencionados abaixo:

GitHub

Adicionar Texto a um PDF Existente usando Python