Convertir PDF a TXT en Python
Contents
[
Hide
]
Convertir PDF a TXT
Aspose.PDF para Python a través de C++ admite la conversión de documentos PDF a un archivo de texto mediante los siguientes pasos:
- Crear la ruta de archivo de entrada y salida
- Crear una instancia de la fachada del extractor de PDF con extractor_create
- Vincular el archivo PDF al extractor con extractor_bind_pdf
- Extraer el texto del archivo PDF usando extractor_extract_text
- Escribir el texto extraído en el archivo de salida
- Guardar el PDF de salida con el método ‘document.save’.
El siguiente fragmento de código muestra cómo convertir una imagen JPG a PDF usando Python a través de C++:
import AsposePDFPython as apCore
import os
import os.path
# Creando la ruta del directorio de datos
dataDir = os.path.join(os.getcwd(), "samples")
# Creando la ruta del archivo de entrada
input_file = os.path.join(dataDir, "sample.pdf")
# Creando la ruta del archivo de salida
output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")
# Creando una instancia de la fachada del extractor de PDF
extactor = apCore.facades_pdf_extractor_create()
# Vinculando el archivo PDF al extractor
apCore.facades_facade_bind_pdf(extactor, input_file)
# Extrayendo el texto del archivo PDF
text = apCore.facades_pdf_extractor_extract_text(extactor)
# Escribiendo el texto extraído en el archivo de salida
with open(output_file, 'w') as f:
f.write(text)