Convertir PDF a TXT en Python

Convertir PDF a TXT

Aspose.PDF para Python a través de C++ admite la conversión de documentos PDF a un archivo de texto mediante los siguientes pasos:

  1. Crear la ruta de archivo de entrada y salida
  2. Crear una instancia de la fachada del extractor de PDF con extractor_create
  3. Vincular el archivo PDF al extractor con extractor_bind_pdf
  4. Extraer el texto del archivo PDF usando extractor_extract_text
  5. Escribir el texto extraído en el archivo de salida
  6. Guardar el PDF de salida con el método ‘document.save’.

El siguiente fragmento de código muestra cómo convertir una imagen JPG a PDF usando Python a través de C++:


    import AsposePDFPython as apCore
    import os
    import os.path

    # Creando la ruta del directorio de datos
    dataDir = os.path.join(os.getcwd(), "samples")

    # Creando la ruta del archivo de entrada
    input_file = os.path.join(dataDir, "sample.pdf")

    # Creando la ruta del archivo de salida
    output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")

    # Creando una instancia de la fachada del extractor de PDF
    extactor = apCore.facades_pdf_extractor_create()

    # Vinculando el archivo PDF al extractor
    apCore.facades_facade_bind_pdf(extactor, input_file)

    # Extrayendo el texto del archivo PDF
    text = apCore.facades_pdf_extractor_extract_text(extactor)

    # Escribiendo el texto extraído en el archivo de salida
    with open(output_file, 'w') as f:
        f.write(text)