Convertir PDF a Texto en Python
Contents
[
Hide
]
Convertir PDF a Texto
Aspose.PDF para Python soporta la conversión de un documento PDF completo y de una sola página a un archivo de texto.
Convertir documento PDF a archivo de Texto
Puede convertir un documento PDF a un archivo TXT usando la clase ‘TextDevice’.
-
Crear la ruta del archivo de entrada y salida
-
Crear una instancia de la fachada del extractor PDF con extractor_create
-
Vincular el archivo PDF al extractor con extractor_bind_pdf
-
Extrayendo el texto del archivo PDF usando extractor_extract_text
-
Escribiendo el texto extraído en el archivo de salida
-
Guardar el PDF de salida con el método ‘document.save’.
El siguiente fragmento de código explica cómo extraer los textos de todas las páginas.
from AsposePdfPython import *
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_txt.txt"
extactor = extractor_create()
extractor_bind_pdf(extactor,input_pdf)
text = extractor_extract_text(extactor)
with open(output_pdf, 'w') as f:
f.write(text)