Convertir HTML a DOCX – ejemplos de código Python
Un archivo DOCX es un documento de Microsoft Word que normalmente contiene texto, pero puede contener una amplia gama de datos, incluidas tablas, gráficos rasterizados y vectoriales, vídeos, sonidos y diagramas. El archivo DOCX es altamente editable, fácil de usar y de tamaño manejable. Este formato es popular por la variedad de opciones que ofrece a los usuarios para redactar cualquier tipo de documento.
Usar los métodos
Converter.convert_html() es la forma más común de convertir código HTML a varios formatos. Con Aspose.HTML for Python via .NET, puede convertir HTML a formato DOCX mediante programación con control total sobre una amplia gama de parámetros de conversión. En este artículo, encontrará información sobre cómo convertir HTML a DOCX usando los métodos convert_html() de la clase Converter y cómo aplicar
DocSaveOptions. Además, puede probar un convertidor HTML en línea para probar la funcionalidad Aspose.HTML y convertir HTML sobre la marcha.
Para continuar siguiendo este tutorial, instale y configure Aspose.HTML for Python via .NET en su proyecto Python. Nuestros ejemplos de código le ayudan a convertir HTML a DOCX utilizando la biblioteca Python.
Convertidor HTML en línea
Puede probar la funcionalidad de Aspose.HTML for Python via .NET API y realizar conversiones HTML en tiempo real. Cargue un archivo HTML desde su sistema local o una URL, seleccione el formato de salida deseado y ejecute el ejemplo. Se aplican las opciones de guardado predeterminadas y recibirás el archivo convertido al instante.
Convertir HTML a DOCX: ejemplos de código Python
Convertir HTML a otro formato usando el método convert_html() es una secuencia de operaciones entre las que se encuentran cargar y guardar documentos:
- Cargue un archivo HTML usando la clase HTMLDocument.
- Cree un nuevo objeto
DocSaveOptions. La clase
DocSaveOptionsproporciona numerosas propiedades que le brindan control total sobre una amplia gama de parámetros y mejoran el proceso de conversión de HTML a formato DOCX. - Utilice uno de los métodos
convert_html() para guardar HTML como un archivo DOCX. En el siguiente ejemplo, debe pasar
HTMLDocument,DocSaveOptionsy la ruta del archivo de salida al métodoconvert_html().
HTML a DOCX mediante una sola línea de código
Los métodos estáticos de la clase Converter se utilizan principalmente como la forma más sencilla de convertir un código HTML a varios formatos. ¡Puedes convertir HTML a DOCX en tu aplicación Python literalmente con una sola línea de código!
1# Convert HTML to DOCX using Python
2
3import aspose.html.saving as sav
4import aspose.html.converters as conv
5
6# Convert HTML to DOCX
7conv.Converter.convert_html("document.html", sav.DocSaveOptions(), "document.docx")Convierta HTML a DOCX usando DocSaveOptions
Repasemos el siguiente fragmento de código de Python, que muestra el proceso de conversión de HTML a DOCX con DocSaveOptions especificando:
1# Convert HTML to DOCX using Python with custom settings
2
3import os
4import aspose.html as ah
5import aspose.html.saving as sav
6import aspose.html.drawing as dr
7import aspose.html.converters as conv
8import aspose.pydrawing as pd
9
10# Setup directories and define paths
11output_dir = "output/"
12input_dir = "data/"
13os.makedirs(output_dir, exist_ok=True)
14
15document_path = os.path.join(input_dir, "document.html")
16save_path = os.path.join(output_dir, "document.docx")
17
18# Load an HTML document from a file or URL
19doc = ah.HTMLDocument(document_path)
20
21# Initialize saving options
22options = sav.DocSaveOptions()
23options.page_setup.any_page.size = dr.Size(300, 300)
24page_margin = dr.Margin(40, 40, 10, 10)
25options.page_setup.any_page.margin = page_margin
26options.document_format.DOCX
27options.font_embedding_rule.FULL
28options.css.media_type.PRINT
29options.horizontal_resolution = dr.Resolution.from_dots_per_inch(300.0)
30options.vertical_resolution = dr.Resolution.from_dots_per_inch(300.0)
31options.background_color = pd.Color.bisque
32
33# Convert HTML to DOCX
34conv.Converter.convert_html(doc, options, save_path)Convertimos un documento HTML a un archivo DOCX usando las opciones de guardar en este ejemplo. El proceso implica inicializar el documento HTML, configurar opciones de guardado personalizadas, como el formato del documento, la regla de incrustación de fuentes, color de fondo, el tipo de medio CSS y la resolución, y luego realizar la conversión. Finalmente, el archivo DOCX convertido se guarda en un directorio de salida específico.
Opciones de guardado – Clase DocSaveOptions
La clase
DocSaveOptions es una poderosa herramienta de configuración que le permite ajustar la conversión de documentos HTML al formato DOCX. Algunas propiedades de esta clase heredan propiedades de las clases base, como
DocRenderingOptions o RenderingOptions. DocSaveOptions está configurado para guardar el documento como DOCX e incluye las siguientes propiedades:
- page_setup: esta propiedad le permite definir el diseño de la página, incluido el tamaño de la página, los márgenes y otros aspectos del diseño, asegurando que el documento de salida coincida con el formato deseado.
- horizontal_resolution: esta propiedad establece u obtiene la resolución horizontal para imágenes internas en píxeles por pulgada. Por defecto, es 300 ppp. Las resoluciones más altas pueden producir una mejor calidad de renderizado pero tamaños de archivo más grandes. Esta propiedad le permite controlar las compensaciones entre calidad y tamaño de archivo.
- vertical_resolution: esta propiedad establece u obtiene la resolución vertical de las imágenes internas en píxeles por pulgada. Por defecto, es 300 ppp. Similar a
horizontal_resolution, controla la resolución vertical de los documentos, lo que afecta su claridad y tamaño general. - background_color: esta propiedad le permite establecer el color de fondo para la salida renderizada. Si no se establece, el fondo predeterminado es transparente.
- css: esta propiedad obtiene un objeto CssOptions, que se utiliza para configurar el procesamiento de propiedades CSS. Por ejemplo, la propiedad
css.media_typeespecifica diferentes estilos para diferentes tipos de medios, lo que garantiza que se apliquen las reglas CSS correctas en función de cómo se representa el documento. - font_embedding_rule: esta propiedad establece la regla para incrustar fuentes y controla si las fuentes se incrustan en el documento de salida y cómo. El valor predeterminado es
NONE. - document_format: esta propiedad establece el formato de archivo del documento de salida. El valor predeterminado es DOCX.
Descargue la biblioteca Aspose.HTML for Python via .NET para convertir exitosa, rápida y fácilmente sus documentos HTML, MHTML, EPUB, SVG y Markdown a los formatos más populares.
Puede descargar los ejemplos completos y los archivos de datos desde GitHub.
Aspose.HTML ofrece un Convertidor de HTML a DOCX en línea gratuito que convierte HTML a DOCX con alta calidad, fácil y rápido. ¡Simplemente cargue, convierta sus archivos y obtenga resultados en unos segundos!
