Extraer Texto de Todas las Páginas de un Documento PDF en Python

Extraer Texto del PDF usando Python

Para extraer texto de todas las páginas de un documento Pdf usando Aspose.PDF Java para Python, simplemente invoca el módulo ExtractTextFromAllPages.


# Abrir el documento objetivo
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Texto extraído con éxito. Verifica el archivo de salida."

Descargar Código en Ejecución

Descarga Extraer Texto de Todas las Páginas (Aspose.PDF) de cualquiera de los sitios de codificación social mencionados a continuación:

GitHub

Agregar Texto a un PDF existente usando Python