将 HTML 转换为 DOCX – Python 代码示例
DOCX 文件是一种 Microsoft Word 文档,通常包含文本,但也可以包含各种数据,包括表格、光栅和矢量图形、视频、声音和图表。DOCX 文件可编辑性强,易于使用,大小适中。这种格式之所以受欢迎,是因为它为用户编写任何类型的文档提供了多种选择。
使用
Converter.convert_html() 方法是将 HTML 代码转换为各种格式的最常用方法。使用 Aspose.HTML for Python via .NET,您可以通过编程将 HTML 转换为 DOCX 格式,并完全控制各种转换参数。本文将介绍如何使用 Converter 类的 convert_html() 方法将 HTML 转换为 DOCX,以及如何应用
DocSaveOptions。此外,您还可以试用在线 HTML 转换器来测试 Aspose.HTML 的功能并即时转换 HTML。
要继续学习本教程,请在您的 Python 项目中 安装并配置 Aspose.HTML for Python via .NET。我们的代码示例将帮助您使用 Python 库将 HTML 转换为 DOCX。
在线 HTML 转换器
您可以通过 .NET API 测试 Aspose.HTML for Python 的功能,并执行实时 HTML 转换。从本地系统或 URL 中加载 HTML 文件,选择所需的输出格式,然后运行示例。 应用默认保存选项,您将立即收到转换后的文件。
将 HTML 转换为 DOCX – Python 代码示例
使用 convert_html() 方法将 HTML 转换为另一种格式是一系列操作,其中包括文档加载和保存:
- 使用 HTMLDocument 类加载 HTML 文件。
- 创建一个新的
DocSaveOptions 对象。
DocSaveOptions类提供了大量属性,可让您全面控制各种参数,并改进将 HTML 转换为 DOCX 格式的过程。 - 使用
convert_html() 方法之一将 HTML 保存为 DOCX 文件。在下面的示例中,您需要将
HTMLDocument、DocSaveOptions和输出文件路径传递给convert_html()方法。
用一行代码将 HTML 转换为 DOCX
Converter 类的静态方法主要用于将 HTML 代码转换为各种格式的最简单方法。只需一行代码,您就可以在 Python 应用程序中将 HTML 转换为 DOCX!
1# Convert HTML to DOCX using Python
2
3import aspose.html.saving as sav
4import aspose.html.converters as conv
5
6# Convert HTML to DOCX
7conv.Converter.convert_html("document.html", sav.DocSaveOptions(), "document.docx")使用 DocSaveOptions 将 HTML 转换为 DOCX
让我们看看下面的 Python 代码片段,它展示了使用 DocSaveOptions 指定将 HTML 转换为 DOCX 的过程:
1# Convert HTML to DOCX using Python with custom settings
2
3import os
4import aspose.html as ah
5import aspose.html.saving as sav
6import aspose.html.drawing as dr
7import aspose.html.converters as conv
8import aspose.pydrawing as pd
9
10# Setup directories and define paths
11output_dir = "output/"
12input_dir = "data/"
13os.makedirs(output_dir, exist_ok=True)
14
15document_path = os.path.join(input_dir, "document.html")
16save_path = os.path.join(output_dir, "document.docx")
17
18# Load an HTML document from a file or URL
19doc = ah.HTMLDocument(document_path)
20
21# Initialize saving options
22options = sav.DocSaveOptions()
23options.page_setup.any_page.size = dr.Size(300, 300)
24page_margin = dr.Margin(40, 40, 10, 10)
25options.page_setup.any_page.margin = page_margin
26options.document_format.DOCX
27options.font_embedding_rule.FULL
28options.css.media_type.PRINT
29options.horizontal_resolution = dr.Resolution.from_dots_per_inch(300.0)
30options.vertical_resolution = dr.Resolution.from_dots_per_inch(300.0)
31options.background_color = pd.Color.bisque
32
33# Convert HTML to DOCX
34conv.Converter.convert_html(doc, options, save_path)在本例中,我们使用保存选项将 HTML 文档转换为 DOCX 文件。这个过程包括初始化 HTML 文档,设置自定义保存选项(如文档格式、字体嵌入规则、css 媒体类型、背景颜色和分辨率),然后执行转换。最后,将转换后的 DOCX 文件保存到指定的输出目录。
保存选项 – DocSaveOptions 类
DocSaveOptions 类是一个功能强大的配置工具,可让您对 HTML 文档转换为 DOCX 格式进行微调。该类的某些属性继承了基类的属性,如 DocRenderingOptions 或 RenderingOptions。DocSaveOptions “被配置为将文档保存为 DOCX 格式,它包括以下属性:
- page_setup – 通过该属性,您可以定义页面的布局,包括页面大小、页边距和其他布局方面,确保输出文档与所需格式相匹配。
- horizontal_resolution – 该属性设置或获取内部图像的水平分辨率,单位为每英寸像素。默认为 300 dpi。分辨率越高,渲染质量越好,但文件大小也越大。使用该属性可以控制质量和文件大小之间的权衡。
- vertical_resolution – 该属性设置或获取内部图像的垂直分辨率,单位为每英寸像素。默认为 300 dpi。与
horizontal_resolution类似,该属性控制文档的垂直分辨率,从而影响文档的清晰度和整体大小。 - background_color – 使用此属性可以设置渲染输出的背景颜色。如果未设置,默认背景色为透明色。
- css – 该属性获取一个 CssOptions 对象,用于配置 CSS 属性处理。例如,
css.media_type属性为不同的媒体类型指定了不同的样式,确保根据文档的呈现方式应用正确的 CSS 规则。 - font_embedding_rule – 该属性设置嵌入字体的规则,并控制是否以及如何在输出文档中嵌入字体。默认值为
NONE。 - document_format – 该属性设置输出文档的文件格式。默认为 DOCX。
下载 Aspose.HTML for Python via .NET 库,即可成功、快速、轻松地将 HTML、MHTML、EPUB、SVG 和 Markdown 文档转换为最流行的格式。
Aspose.HTML 提供免费的在线 HTML 到 DOCX 转换器,可将 HTML 高质量、方便快捷地转换为 DOCX。只需上传、转换您的文件,几秒钟就能得到结果!
