Convertir PDF a Documentos de Microsoft Word en Python
Descripción General
Este artículo explica cómo convertir PDF a Documentos de Microsoft Word usando Python. Cubre estos temas.
Formato: DOC
Formato: DOCX
Formato: Word
Conversión de PDF a DOC y DOCX en Python
Una de las características más populares es la conversión de PDF a Microsoft Word DOC, lo que facilita la gestión de contenido. Aspose.PDF para Python te permite convertir archivos PDF no solo a DOC sino también al formato DOCX, de manera fácil y eficiente.
Convertir PDF a archivo DOC (Word 97-2003)
Convierte archivos PDF al formato DOC con facilidad y control total. Aspose.PDF para Python es flexible y admite una amplia variedad de conversiones. La conversión de páginas de documentos PDF a imágenes, por ejemplo, es una característica muy popular.
Una conversión que muchos de nuestros clientes han solicitado es de PDF a DOC: convertir un archivo PDF a un documento de Microsoft Word. Los clientes desean esto porque los archivos PDF no se pueden editar fácilmente, mientras que los documentos Word sí. Algunas empresas quieren que sus usuarios puedan manipular texto, tablas e imágenes en archivos que comenzaron como PDFs.
Manteniendo viva la tradición de hacer las cosas simples y comprensibles, Aspose.PDF para Python te permite transformar un archivo PDF de origen en un archivo DOC con dos líneas de código. Para lograr esta característica, hemos introducido una enumeración llamada SaveFormat y su valor .Doc te permite guardar el archivo fuente en formato Microsoft Word.
El siguiente fragmento de código en Python muestra el proceso de convertir un archivo PDF en formato DOC.
Pasos: Convertir PDF a DOC en Python
- Crea una instancia del objeto Document con el documento PDF fuente.
- Guárdalo en formato SaveFormat llamando al método save().
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"
# Abre el documento PDF
document = ap.Document(input_pdf)
# Guarda el archivo en formato de documento MS Word
document.save(output_pdf, ap.SaveFormat.DOC)
Usando la Clase DocSaveOptions
La clase DocSaveOptions proporciona numerosas propiedades que mejoran el proceso de convertir archivos PDF a formato DOC. Entre estas propiedades, el Modo te permite especificar el modo de reconocimiento para el contenido PDF. Puedes especificar cualquier valor de la enumeración RecognitionMode para esta propiedad. Cada uno de estos valores tiene beneficios y limitaciones específicas:
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# Abrir documento PDF
document = ap.Document(input_pdf)
save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOC
# Establecer el modo de reconocimiento como Flow
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
# Establecer la proximidad horizontal como 2.5
save_options.relative_horizontal_proximity = 2.5
# Activar el valor para reconocer viñetas durante el proceso de conversión
save_options.recognize_bullets = True
# Guardar el archivo en formato de documento MS Word
document.save(output_pdf, save_options)
Intenta convertir PDF a DOC en línea
Aspose.PDF para Python te presenta una aplicación en línea gratuita “PDF a DOC”, donde puedes intentar investigar la funcionalidad y calidad con la que trabaja.
Convertir PDF a DOCX
Aspose.PDF para Python API te permite leer y convertir documentos PDF a DOCX usando Python a través de .NET. DOCX es un formato bien conocido para documentos de Microsoft Word cuya estructura se cambió de binario simple a una combinación de archivos XML y binarios. Los archivos Docx se pueden abrir con Word 2007 y versiones posteriores, pero no con las versiones anteriores de MS Word que soportan extensiones de archivo DOC.
El siguiente fragmento de código de Python muestra el proceso de conversión de un archivo PDF al formato DOCX.
Pasos: Convertir PDF a DOCX en Python
-
Crea una instancia del objeto Document con el documento PDF de origen.
-
Guárdelo en el formato SaveFormat llamando al método save().
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_docx_options.docx"
# Abrir documento PDF
document = ap.Document(input_pdf)
save_options = ap.DocSaveOptions()
save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
# Establecer el modo de reconocimiento como Flujo
save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
# Establecer la proximidad horizontal como 2.5
save_options.relative_horizontal_proximity = 2.5
# Habilitar el valor para reconocer viñetas durante el proceso de conversión
save_options.recognize_bullets = True
# Guardar el archivo en formato de documento de MS Word
document.save(output_pdf, save_options)
La clase DocSaveOptions tiene una propiedad llamada Format que ofrece la capacidad de especificar el formato del documento resultante, es decir, DOC o DOCX. Para convertir un archivo PDF a formato DOCX, por favor pase el valor Docx de la enumeración DocSaveOptions.DocFormat.
Intenta convertir PDF a DOCX en línea
Aspose.PDF para Python te presenta la aplicación gratuita en línea “PDF a Word”, donde puedes intentar investigar la funcionalidad y calidad con la que trabaja.
Ver También
Este artículo también cubre estos temas. Los códigos son los mismos que los anteriores.
Formato: Word
-
Convertidor Python PDF a Word Format: DOC
Format: DOCX