Convertir documentos PDF a documentos de Microsoft Word en .NET

Visión general

Este artículo explica cómo convertir documentos PDF a documentos de Microsoft Word usando C#. Cubre estos temas.

Formato: DOC

Formato: DOCX

Formato: Word

El siguiente fragmento de código también funciona con la biblioteca Aspose.PDF.Drawing. El siguiente fragmento de código también funciona con la biblioteca Aspose.PDF.Drawing.

Conversión de PDF a DOC y DOCX

Una de las características más populares es la conversión de PDF a Microsoft Word DOC, lo que hace que la gestión de contenido sea más sencilla. Aspose.PDF para .NET te permite convertir archivos PDF a formato DOC y DOCX de manera rápida y eficiente.

Convertir PDF a archivo DOC (Microsoft Word 97-2003)

Convierte archivos PDF a formato DOC con facilidad y control total. Aspose.PDF para .NET es flexible y soporta una amplia variedad de conversiones. Convertir páginas de documentos PDF a imágenes, por ejemplo, es una característica muy popular.

Muchos de nuestros clientes han solicitado una conversión de PDF a DOC: convertir un archivo PDF a un documento de Microsoft Word. Los clientes desean esto porque los archivos PDF no se pueden editar fácilmente, mientras que los documentos Word sí. Algunas empresas quieren que sus usuarios puedan manipular texto, tablas e imágenes en archivos que comenzaron como PDFs.

Manteniendo viva la tradición de hacer las cosas simples y comprensibles, Aspose.PDF para .NET te permite transformar un archivo PDF fuente en un archivo DOC con solo dos líneas de código. Manteniendo viva la tradición de hacer las cosas simples y comprensibles, Aspose.PDF para .NET te permite transformar un archivo PDF fuente en un archivo DOC con dos líneas de código.

El siguiente fragmento de código C# muestra cómo convertir un archivo PDF en formato DOC.

Pasos: Convertir PDF a DOC en C#

  1. Crea una instancia del objeto Document con el documento PDF fuente.
  2. Guárdalo en formato SaveFormat.Doc llamando al método Document.Save().
public static void ConvertPDFtoWord()
{
    // Abre el documento PDF fuente
    Document pdfDocument = new Document(_dataDir + "PDFToDOC.pdf");
    // Guarda el archivo en formato de documento de MS
    pdfDocument.Save(_dataDir + "PDFToDOC_out.doc", SaveFormat.Doc);

}

Usando la clase DocSaveOptions

La clase DocSaveOptions proporciona numerosas propiedades que mejoran la conversión de archivos PDF a formato DOC. La clase DocSaveOptions proporciona numerosas propiedades que mejoran la conversión de archivos PDF a formato DOC.

  • El modo Textbox es rápido y bueno para preservar la apariencia original del archivo PDF, pero la capacidad de edición del documento resultante podría ser limitada. Cada bloque de texto visualmente agrupado en el PDF original se convierte en un cuadro de texto en el documento de salida. Esto logra una máxima similitud con el original, por lo que el documento de salida se ve bien, pero consiste enteramente en cuadros de texto, lo que podría ser editado en Microsoft Word, lo cual es bastante desafiante.
  • El modo Flow es un modo de reconocimiento completo, donde el motor realiza agrupaciones y análisis multinivel para restaurar el documento original según la intención del autor mientras produce un documento fácilmente editable.
  • Flow es el modo de reconocimiento completo, donde el motor realiza agrupamientos y análisis de múltiples niveles para restaurar el documento original según la intención del autor mientras produce un documento fácilmente editable.

La propiedad RelativeHorizontalProximity se puede utilizar para controlar la proximidad relativa entre elementos textuales. Esto significa que la distancia está normalizada por el tamaño de la fuente. Las fuentes más grandes pueden tener espacios más grandes entre sílabas y aún considerarse un todo único. Se especifica como un porcentaje del tamaño de la fuente; por ejemplo, 1 = 100%. Esto significa que dos caracteres de 12pt colocados a 12 pt de distancia están próximos.

  • RecognitionBullets se utiliza para activar el reconocimiento de viñetas durante la conversión.
public static void ConvertPDFtoWordDocAdvanced()
{
    var pdfFile = Path.Combine(_dataDir, "PDF-to-DOC.pdf");
    var docFile = Path.Combine(_dataDir, "PDF-to-DOC.doc");
    Document pdfDocument = new Document(pdfFile);
    DocSaveOptions saveOptions = new DocSaveOptions
    {
        Format = DocSaveOptions.DocFormat.Doc,
        // Establecer el modo de reconocimiento como Flow
        Mode = DocSaveOptions.RecognitionMode.Flow,
        // Establecer la proximidad horizontal como 2.5
        RelativeHorizontalProximity = 2.5f,
        // Habilitar el valor para reconocer viñetas durante el proceso de conversión
        RecognizeBullets = true
    };
    pdfDocument.Save(docFile, saveOptions);
}

Convertir PDF a DOCX (archivo Microsoft Word 2007-2021)

Aspose.PDF para .NET API te permite leer y convertir documentos PDF a DOCX usando C# y cualquier lenguaje .NET. DOCX es un formato bien conocido para documentos de Microsoft Word cuya estructura cambió de binario plano a una combinación de archivos XML y binarios. Los archivos Docx se pueden abrir con Word 2007 y versiones posteriores, pero no con versiones anteriores de MS Word, que admiten extensiones de archivo DOC.

El siguiente fragmento de código C# muestra cómo convertir un archivo PDF en formato DOCX.

Pasos: Convertir PDF a DOCX en C#

  1. Guárdalo en formato SaveFormat.DocX llamando al método Document.Save().
public static void ConvertPDFtoWord_DOCX_Format()
{
    // Abrir el documento PDF fuente
    Document pdfDocument = new Document(_dataDir + "PDFToDOC.pdf");
    // Guardar el archivo DOC resultante
    pdfDocument.Save(_dataDir + "saveOptionsOutput_out.doc", SaveFormat.DocX);
}

Convertir PDF a DOCX en Modo Mejorado

Para obtener mejores resultados de la conversión de PDF a DOCX, puedes usar el modo EnhancedFlow. La principal diferencia entre Flow y Enhanced Flow es que las tablas (tanto con bordes como sin ellos) se reconocen como tablas reales, no como texto con una imagen de fondo. También se incluye el reconocimiento de listas numeradas y muchas otras cosas menores.

public static void ConvertPDFtoWord_Advanced_DOCX_Format()
{    
    // Abrir el documento PDF fuente
    Document pdfDocument = new Document(_dataDir + "PDFToDOC.pdf");

    // Instanciar el objeto DocSaveOptions
    DocSaveOptions saveOptions = new DocSaveOptions
    {
        // Especificar el formato de salida como DOCX
        Format = DocSaveOptions.DocFormat.DocX
        // Establecer otros parámetros de DocSaveOptions
        Mode = DocSaveOptions.RecognitionMode.EnhancedFlow
    };
    // Guardar el documento en formato docx
    pdfDocument.Save("ConvertToDOCX_out.docx", saveOptions);
}

Ver También

Este artículo también cubre estos temas. Los códigos son los mismos que arriba.

Format: Word

Format: DOC

Formato: DOCX