Convertir PDF a Texto en Python

Convertir PDF a Texto

Aspose.PDF para Python soporta la conversión de un documento PDF completo y de una sola página a un archivo de texto.

Convertir documento PDF a archivo de Texto

Puede convertir un documento PDF a un archivo TXT usando la clase ‘TextDevice’.

  1. Crear la ruta del archivo de entrada y salida

  2. Crear una instancia de la fachada del extractor PDF con extractor_create

  3. Vincular el archivo PDF al extractor con extractor_bind_pdf

  4. Extrayendo el texto del archivo PDF usando extractor_extract_text

  5. Escribiendo el texto extraído en el archivo de salida

  6. Guardar el PDF de salida con el método ‘document.save’.

El siguiente fragmento de código explica cómo extraer los textos de todas las páginas.


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)