Конвертировать HTML в DOCX – примеры кода Python
Файл DOCX – это документ Microsoft Word, который обычно содержит текст, но может содержать широкий спектр данных, включая таблицы, растровую и векторную графику, видео, звуки и диаграммы. Файл DOCX легко редактируется, прост в использовании и имеет управляемый размер. Этот формат популярен благодаря множеству возможностей, которые он предлагает пользователям для написания документов любого типа.
Использование методов
Converter.convert_html() – наиболее распространенный способ преобразования HTML-кода в различные форматы. С помощью Aspose.HTML for Python via .NET вы можете программно конвертировать HTML в формат DOCX с полным контролем над широким диапазоном параметров преобразования. В этой статье вы найдете информацию о том, как преобразовать HTML в DOCX с помощью методов convert_html()
класса Converter и как применить
DocSaveOptions. Кроме того, вы можете попробовать онлайн-конвертер HTML, чтобы протестировать функциональность Aspose.HTML и конвертировать HTML на лету.
Чтобы продолжить работу с этим руководством, установите и настройте Aspose.HTML for Python via .NET в своем проекте Python. Наши примеры кода помогут вам конвертировать HTML в DOCX с помощью библиотеки Python.
Онлайн-конвертер HTML
Вы можете протестировать функциональность Aspose.HTML for Python via .NET API и выполнить преобразования HTML в реальном времени. Загрузите HTML-файл из локальной системы или URL-адреса, выберите желаемый выходной формат и запустите пример. Параметры сохранения по умолчанию применяются, и вы мгновенно получите преобразованный файл.
Конвертировать HTML в DOCX – примеры кода Python
Преобразование HTML в другой формат с помощью метода convert_html() представляет собой последовательность операций, среди которых загрузка и сохранение документа:
- Загрузите HTML-файл, используя класс HTMLDocument.
- Создайте новый объект DocSaveOptions. Класс DocSaveOptions предоставляет множество свойств, которые дают вам полный контроль над широким диапазоном параметров и улучшают процесс преобразования HTML в формат DOCX.
- Используйте один из методов convert_html(), чтобы сохранить HTML в виде файла DOCX. В следующем примере вам необходимо передать HTMLDocument, DocSaveOptions и путь к выходному файлу методу Convert_html().
HTML в DOCX с помощью одной строки кода
Статические методы класса Converter в основном используются как самый простой способ конвертировать HTML-код в различные форматы. Вы можете конвертировать HTML в DOCX в своем приложении Python буквально с помощью одной строки кода!
1# Convert HTML to DOCX using Python
2
3import aspose.html.saving as sav
4import aspose.html.converters as conv
5
6# Convert HTML to DOCX
7conv.Converter.convert_html("document.html", sav.DocSaveOptions(), "document.docx")
Конвертировать HTML to DOCX с указанием DocSaveOptions
Давайте рассмотрим следующий фрагмент кода Python, который демонстрирует процесс преобразования HTML в DOCX с указанием DocSaveOptions
:
1# Convert HTML to DOCX using Python with custom settings
2
3import os
4import aspose.html as ah
5import aspose.html.saving as sav
6import aspose.html.drawing as dr
7import aspose.html.converters as conv
8import aspose.pydrawing as pd
9
10# Setup directories and define paths
11output_dir = "output/"
12input_dir = "data/"
13os.makedirs(output_dir, exist_ok=True)
14
15document_path = os.path.join(input_dir, "document.html")
16save_path = os.path.join(output_dir, "document.docx")
17
18# Load an HTML document from a file or URL
19doc = ah.HTMLDocument(document_path)
20
21# Initialize saving options
22options = sav.DocSaveOptions()
23options.page_setup.any_page.size = dr.Size(300, 300)
24page_margin = dr.Margin(40, 40, 10, 10)
25options.page_setup.any_page.margin = page_margin
26options.document_format.DOCX
27options.font_embedding_rule.FULL
28options.css.media_type.PRINT
29options.horizontal_resolution = dr.Resolution.from_dots_per_inch(300.0)
30options.vertical_resolution = dr.Resolution.from_dots_per_inch(300.0)
31options.background_color = pd.Color.bisque
32
33# Convert HTML to DOCX
34conv.Converter.convert_html(doc, options, save_path)
В этом примере мы конвертируем HTML-документ в файл DOCX, используя параметры сохранения. Этот процесс включает в себя инициализацию HTML-документа, настройку пользовательских параметров сохранения, таких как формат документа, правило внедрения шрифта, css media_type, цвет фона и разрешение, а затем выполнение преобразования. Наконец, преобразованный файл DOCX сохраняется в указанном выходном каталоге.
Параметры сохранения – класс DocSaveOptions
Класс
DocSaveOptions – это мощный инструмент настройки, позволяющий точно настроить преобразование HTML-документов в формат DOCX. Некоторые свойства этого класса наследуют свойства базовых классов, например
DocRenderingOptions или RenderingOptions. DocSaveOptions
настроен на сохранение документа в формате DOCX и включает в себя следующие свойства:
- page_setup – это свойство позволяет вам определить макет страницы, включая размер страницы, поля и другие аспекты макета, гарантируя, что выходной документ соответствует желаемому формату.
- horizontal_resolution – это свойство устанавливает или получает горизонтальное разрешение для внутренних изображений в пикселях на дюйм. По умолчанию это 300 dpi. Более высокие разрешения могут обеспечить лучшее качество рендеринга, но больший размер файлов. Это свойство позволяет вам контролировать компромисс между качеством и размером файла.
- vertical_resolution – это свойство устанавливает или получает вертикальное разрешение для изображений в пикселях на дюйм. По умолчанию это 300 dpi. Подобно
horizontal_resolution
, он управляет вертикальным разрешением документов, влияя на их четкость и общий размер. - background_color – это свойство позволяет вам установить цвет фона для отображаемого вывода. Если не установлено, фон по умолчанию является прозрачным.
- css – это свойство получает объект CssOptions, который используется для настройки обработки свойств CSS. Например, свойство
css.media_type
определяет разные стили для разных типов мультимедиа, гарантируя применение правильных правил CSS в зависимости от того, как отображается документ. - font_embedding_rule – это свойство устанавливает правило встраивания шрифтов и контролирует, будут ли и каким образом шрифты внедряться в выходной документ. Значение по умолчанию –
NONE
. - document_format – это свойство устанавливает формат файла выходного документа. По умолчанию – DOCX.
Загрузите библиотеку Aspose.HTML for Python via .NET, чтобы успешно, быстро и легко конвертировать документы HTML, MHTML, EPUB, SVG и Markdown в самые популярные форматы.
Вы можете загрузить полные примеры и файлы данных с GitHub.
Aspose.HTML предлагает бесплатный онлайн Конвертер HTML в DOCX, который конвертирует HTML в DOCX с высоким качеством, просто и быстро. Просто загрузите, конвертируйте файлы и получите результаты через несколько секунд!