Convertir PDF a Word en Python

Convertir PDF a DOC

Una de las características más populares es la conversión de PDF a Microsoft Word DOC, lo que hace que la gestión de contenidos sea más fácil. Aspose.PDF for Python via .NET le permite convertir archivos PDF no solo a DOC sino también al formato DOCX, de manera fácil y eficiente.

Utilice la conversión a Word cuando necesite revisar texto, reutilizar contenido en flujos de trabajo de oficina, o trasladar contenido PDF a documentos editables DOC o DOCX.

El DocSaveOptions La clase proporciona numerosas propiedades que mejoran el proceso de conversión de archivos PDF a formato DOC. Entre estas propiedades, Mode le permite especificar el modo de reconocimiento para el contenido PDF. Puede especificar cualquier valor de la enumeración RecognitionMode para esta propiedad. Cada uno de estos valores tiene beneficios y limitaciones específicas:

Pasos: Convertir PDF a DOC en Python

  1. Cargue el PDF en un objeto ‘ap.Document’ object.
  2. Cree una instancia de ‘DocSaveOptions’.
  3. Establezca la propiedad format a ‘DocFormat.DOC’ para garantizar que la salida esté en formato .doc (formato Word antiguo).
  4. Guarde el PDF como un documento Word usando las opciones de guardado especificadas.
  5. Imprime un mensaje de confirmación.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOC(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a DOCX

Aspose.PDF for Python API le permite leer y convertir documentos PDF a DOCX usando Python a través de .NET. DOCX es un formato bien conocido para documentos de Microsoft Word cuya estructura cambió de binario simple a una combinación de archivos XML y binarios. Los archivos DOCX pueden abrirse con Word 2007 y versiones posteriores, pero no con las versiones anteriores de MS Word que admiten extensiones de archivo DOC.

El siguiente fragmento de código Python muestra el proceso de convertir un archivo PDF a formato DOCX.

Pasos: Convertir PDF a DOCX en Python

  1. Cargue el PDF de origen usando ‘ap.Document’.
  2. Crear una instancia de ‘DocSaveOptions’.
  3. Establezca la propiedad format en ‘DocFormat.DOC_X’ para generar un archivo .docx (formato Word moderno).
  4. Guarde el PDF como un archivo DOCX con las opciones de guardado configuradas.
  5. Imprima un mensaje de confirmación después de la conversión.
from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    document.save(outfile, save_options)

Convertir PDF a DOCX con Reconocimiento de Diseño Avanzado

Convertir un documento PDF a un archivo DOCX (Word) usando Python y Aspose.PDF con configuraciones de reconocimiento avanzadas. Utiliza el modo de flujo mejorado para preservar la estructura del documento, haciendo que la salida sea más editable y más cercana al diseño original.

from os import path
import aspose.pdf as ap
import sys

def convert_PDF_to_DOCX_advanced(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    save_options.mode = ap.DocSaveOptions.RecognitionMode.ENHANCED_FLOW
    document.save(outfile, save_options)

El DocSaveOptions class tiene una propiedad llamada Format que brinda la capacidad de especificar el formato del documento resultante, es decir, DOC o DOCX. Para convertir un archivo PDF al formato DOCX, pase el valor Docx del enumerado DocSaveOptions.DocFormat.

Conversiones relacionadas