Convertir PDF a TXT en Python

Convertir PDF a TXT

Aspose.PDF para Python a través de C++ admite la conversión de documentos PDF a un archivo de texto mediante los siguientes pasos:

Crear la ruta de archivo de entrada y salida
Crear una instancia de la fachada del extractor de PDF con extractor_create
Vincular el archivo PDF al extractor con extractor_bind_pdf
Extraer el texto del archivo PDF usando extractor_extract_text
Escribir el texto extraído en el archivo de salida
Guardar el PDF de salida con el método ‘document.save’.

El siguiente fragmento de código muestra cómo convertir una imagen JPG a PDF usando Python a través de C++:


    import AsposePDFPython as apCore
    import os
    import os.path

    # Creando la ruta del directorio de datos
    dataDir = os.path.join(os.getcwd(), "samples")

    # Creando la ruta del archivo de entrada
    input_file = os.path.join(dataDir, "sample.pdf")

    # Creando la ruta del archivo de salida
    output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")

    # Creando una instancia de la fachada del extractor de PDF
    extactor = apCore.facades_pdf_extractor_create()

    # Vinculando el archivo PDF al extractor
    apCore.facades_facade_bind_pdf(extactor, input_file)

    # Extrayendo el texto del archivo PDF
    text = apCore.facades_pdf_extractor_extract_text(extactor)

    # Escribiendo el texto extraído en el archivo de salida
    with open(output_file, 'w') as f:
        f.write(text)

Convertir Imagen a PDF en Python Convertir PDF a Diferentes Formatos de Imagen en Python