Convertir PDF a Texto en Python

Convertir PDF a Texto

Aspose.PDF para Python soporta la conversión de un documento PDF completo y de una sola página a un archivo de texto.

Convertir documento PDF a archivo de Texto

Puede convertir un documento PDF a un archivo TXT usando la clase ‘TextDevice’.

Crear la ruta del archivo de entrada y salida
Crear una instancia de la fachada del extractor PDF con extractor_create
Vincular el archivo PDF al extractor con extractor_bind_pdf
Extrayendo el texto del archivo PDF usando extractor_extract_text
Escribiendo el texto extraído en el archivo de salida
Guardar el PDF de salida con el método ‘document.save’.

El siguiente fragmento de código explica cómo extraer los textos de todas las páginas.


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)

Convertir PDF a Diferentes Formatos de Imagen en Python