将 MHTML 转换为 DOCX – Python 代码示例
为了在特定任务中利用 DOCX 格式,通常需要将 MHTML 转换为 DOCX。 Aspose.HTML for Python via .NET提供了一种简单有效的方法,使用转换器类的 convert_mhtml()方法来执行这种转换。
本文将介绍如何使用 Aspose.HTML Python 库将 MHTML 转换为 DOCX 以及如何应用 DocSaveOptions。
要继续学习本教程,请在 Python 项目中 通过 .NET 安装和配置 Aspose.HTML for Python。
在线 MHTML 转换器
您可以使用 Aspose.HTML for Python 通过 .NET API 将 MHTML 实时转换为 DOCX。从本地文件系统加载 MHTML 文件,选择输出格式并运行示例。转换将在默认保存选项下进行。您将立即以单独文件的形式收到转换结果。
使用 DocSaveOptions 将 MHTML 转换为 DOCX
使用 convert_mhtml() 方法是将 MHTML 转换为各种格式的最常用方法。使用 Aspose.HTML for Python via .NET,您可以通过编程将 MHTML 转换为 DOCX 格式,并完全控制各种转换参数。
要将 MHTML 转换为指定了 DocSaveOptions 的 DOCX,应遵循以下几个步骤:
- 打开现有的 MHTML 文件。在示例中,我们使用
open()方法从指定路径的文件系统中打开并读取 MHTML。 - 创建
DocSaveOptions 类的实例。DocSaveOptions 类提供了大量属性,可让你完全控制各种参数,并改进将 MHTML 转换为 DOCX 格式的过程。在示例中,我们使用了指定 DOCX 文档页面大小的
page_setup属性、document_format和css.media_type属性。 - 使用
Converter 类的
convert_mhtml() 方法之一将 MHTML 保存为 DOCX 文件。在下面的示例中,
convert_mhtml()方法接收stream、options、输出文件路径save_path并执行转换操作。
下面的 Python 代码示例展示了如何使用 DocSaveOptions 将 MHTML 转换为 DOCX:
1# Convert MHTML to DOCX using Python with custom settings
2
3import os
4import aspose.html.converters as conv
5import aspose.html.saving as sav
6import aspose.html.drawing as dr
7
8# Setup directories and define paths
9output_dir = "output/"
10input_dir = "data/"
11os.makedirs(output_dir, exist_ok=True)
12
13document_path = os.path.join(input_dir, "document.mht")
14save_path = os.path.join(output_dir, "document.docx")
15
16# Open an existing MHTML file for reading
17with open(document_path, "rb") as stream:
18
19 # Create an instance of DocSaveOptions
20 options = sav.DocSaveOptions()
21 options.page_setup.any_page.size = dr.Size(1000, 800)
22 options.document_format.DOCX
23 options.css.media_type.SCREEN
24
25 # Convert MHTML to DOCX
26 conv.Converter.convert_mhtml(stream, options, save_path)保存选项 – DocSaveOptions 类
Aspose.HTML for Python via .NET 允许使用默认或自定义保存选项将 MHTML 转换为 DOCX。 DocSaveOptions 类被配置为将文档保存为 DOCX,它包括以下属性:
- page_setup – 通过该属性,您可以定义页面的布局,包括页面大小、页边距和其他布局方面,确保输出文档符合所需的格式。
- document_format – 该属性设置输出文档的文件格式。默认为 DOCX。
- horizontal_resolution – 该属性设置或获取内部图像的水平分辨率,单位为每英寸像素。默认为 300 dpi。分辨率越高,渲染质量越好,但文件大小也越大。使用该属性可以控制质量和文件大小之间的权衡。
- vertical_resolution – 该属性设置或获取内部图像的垂直分辨率,单位为每英寸像素。默认为 300 dpi。与
horizontal_resolution类似,该属性控制文档的垂直分辨率,从而影响文档的清晰度和整体大小。 - background_color – 使用此属性可以设置渲染输出的背景颜色。如果未设置,默认背景色为透明色。
- css – 该属性获取一个 CssOptions 对象,用于配置 CSS 属性处理。例如,
css.media_type属性为不同的媒体类型指定了不同的样式,确保根据文档的呈现方式应用正确的 CSS 规则。 - font_embedding_rule – 该属性设置嵌入字体的规则,并控制输出文档中是否以及如何嵌入字体。默认值为
NONE。
该类的某些属性继承了基类的属性,如 DocRenderingOptions 或 RenderingOptions。
下载 Aspose.HTML for Python via .NET 库,即可成功、快速、轻松地将 HTML、MHTML、EPUB、SVG 和 Markdown 文档转换为最流行的格式。
Aspose.HTML 提供免费的在线 MHTML 到 DOCX 转换器,可将 MHTML 转换为高质量的 DOCX 文件,简单快捷。只需上传、转换您的文件,几秒钟就能得到结果!
