Преобразование документа в HTML, MHTML или EPUB

Документы в форматах HTML и MHTML также очень популярны и могут использоваться на любой веб-платформе. По этой причине преобразование документов в HTML и MHTML является важной особенностью. Aspose.Words.

EPUB (сокращение от “Электронная публикация”) - это формат на основе HTML, обычно используемый для распространения электронных книг. Данный формат полностью поддерживается в Aspose.Words Экспорт электронных книг, совместимых с большинством устройств чтения.

Преобразовать документ

Для простого преобразования в HTML, MHTML или EPUB save Используется метод перегрузок. Вы можете сохранить документ в файл или поток и явно установить формат сохранения выходного документа или определить его из расширения имени файла.

Следующий пример показывает, как конвертировать DOCX в HTML с указанием формата сохранения:

# Load the document from disk.
doc = aw.Document(dataDir + "Test File.docx")

# Save the document into HTML.
doc.save(dataDir + "Document", aw.SaveFormat.HTML)

Чтобы конвертировать документ в MHTML или EPUB, используйте SaveFormat.MHTML или SaveFormat.EPUB соответственно.

Преобразуйте документ с информацией о кругосветном пути

HTML-формат не поддерживает многих Microsoft Word Если нам нужно восстановить модель документа как можно ближе к оригиналу, нам нужно сохранить дополнительную информацию в HTML-файле. Такую информацию еще называют “информацией круглого пути”. Для этой цели, Aspose.Words предоставляет возможность экспортировать информацию в оба конца при сохранении в HTML, MHTML или EPUB с использованием Export_roundtrip_информация собственность. Сохранение информации в оба конца позволяет восстановить свойства документа, такие как вкладки, комментарии, заголовки и нижние колонтитулы во время загрузки документов перечисленных форматов обратно в Document объект.

Значение по умолчанию является True для HTML и False для MHTML и EPUB:

  • Когда True, информация в оба конца экспортируется как - aw - * CSS свойства соответствующих элементов HTML
  • Когда False, нет информации о кругообороте, которая должна быть выведена в созданные файлы

Следующий пример кода показывает, как экспортировать информацию в оба конца при преобразовании документа из DOCX в HTML:

Укажите параметры сохранения при конвертации в HTML

Aspose.Words позволяет конвертировать документ Word в HTML, используя опции сохранения по умолчанию или на заказ. Несколько примеров пользовательских вариантов сохранения описаны ниже.

Укажите папку для экономии ресурсов

Использовать Aspose.Words Мы можем указать физическую папку, где все ресурсы, такие как изображения, шрифты и внешний CSS, сохраняются при преобразовании документа в HTML. По умолчанию это пустая строка.

Определяя resource_folder Собственность - это самый простой способ установить папку, где должны быть написаны все ресурсы. Можно использовать индивидуальные свойства, такие как: fonts_folder который сохраняет шрифты в указанной папке и images_folder который сохраняет изображения в указанную папку. Когда определен относительный путь, fonts_folder и images_folder ссылаться на папку, где находится сборка кода, resource_folder и css_style_sheet_file_name Обратитесь к выходной папке, где находится HTML-документ.

В этом примере, resource_folder Укажите относительный путь. Этот путь относится к выходной папке, где сохраняется HTML-документ. Значение этого resource_folder_alias Собственность используется для создания URL-адресов для всех ресурсов.

Следующий пример кода показывает, как работать с этими свойствами:

Используя resource_folder_alias Собственность, мы также можем указать название папки, используемой для построения URI всех ресурсов, записанных в HTML-документ. Это самый простой способ определить, как должны быть созданы URI для всех файлов ресурсов. Та же информация может быть указана для изображений и шрифтов отдельно. images_folder_alias и fonts_folder_alias свойств соответственно.

Отдельного имущества для CSS нет. Поведение этого fonts_folder, fonts_folder_alias, images_folder, images_folder_alias и css_style_sheet_file_name Свойства не меняются. Обратите внимание, что css_style_sheet_file_name Собственность используется как для указания имени папки, так и имени файла.

Экспортная база 64 Ресурсы кодирования шрифтов

Aspose.Words Это дает возможность определить, должны ли ресурсы шрифта быть встроены в HTML в кодировке Base64. Чтобы сделать это, используйте export_fonts_as_base64 Собственность – это расширение export_font_resources собственность. По умолчанию его ценность False, Шрифты пишутся в отдельные файлы. Но если этот вариант будет True, Шрифты будут встроены в CSS документа в кодировке Base64. The export_fonts_as_base64 Свойство влияет только на формат HTML и не влияет на EPUB и MHTML.

Следующий пример кода показывает, как экспортировать шрифты с кодом Base64 в HTML:

Укажите параметры сохранения при конвертации в EPUB

Aspose.Words позволяет конвертировать документ Word в формат EPUB с использованием опций сохранения по умолчанию или на заказ. Вы можете указать несколько вариантов, передав пример HtmlSaveOptions к save метод.

Следующий пример кода показывает, как конвертировать документ Word в EPUB с указанием некоторых пользовательских опций сохранения:

# Load the document from disk.
doc = aw.Document(docs_base.my_dir + "Rendering.docx")

# Create a new instance of HtmlSaveOptions. This object allows us to set options that control
# How the output document is saved.
saveOptions = aw.saving.HtmlSaveOptions()

# Specify the desired encoding.
saveOptions.encoding = "utf-8"

# Specify at what elements to split the internal HTML at. This creates a new HTML within the EPUB 
# which allows you to limit the size of each HTML part. This is useful for readers which cannot read 
# HTML files greater than a certain size e.g 300kb.
saveOptions.document_split_criteria = aw.saving.DocumentSplitCriteria.HEADING_PARAGRAPH

# Specify that we want to export document properties.
saveOptions.export_document_properties = True

# Specify that we want to save in EPUB format.
saveOptions.save_format = aw.SaveFormat.EPUB

# Export the document as an EPUB file.
doc.save(docs_base.artifacts_dir + "Document.EpubConversion_out.epub", saveOptions)