Конвертировать HTML в DOCX | С#

Файл DOCX представляет собой документ Microsoft Word, который обычно содержит текст, но может содержать широкий спектр данных, включая таблицы, растровую и векторную графику, видео, звуки и диаграммы. Файл DOCX легко редактируется, прост в использовании и имеет удобный размер. Этот формат популярен из-за множества вариантов, которые он предлагает пользователям для написания документов любого типа. Этот формат файла является одним из наиболее широко используемых и доступен во многих программах.

Использование методов Converter.ConvertHTML() является наиболее распространенным способом преобразования HTML-кода в различные форматы. С помощью Aspose.HTML вы можете программно конвертировать HTML в формат DOCX с полным контролем над широким диапазоном параметров конвертации. В этой статье вы найдете информацию о том, как преобразовать HTML в DOCX с помощью методов ConvertHTML() класса Converter и как применить DocSaveOptions и параметры ICreateStreamProvider.

Онлайн HTML Конвертер

Вы можете проверить функциональность Aspose.HTML API и конвертировать HTML в режиме реального времени. Пожалуйста, загрузите HTML из локальной файловой системы, выберите выходной формат и запустите пример. В примере параметры сохранения установлены по умолчанию. Вы сразу получите результат в виде отдельного файла.

                
            

Если вы хотите программно преобразовать HTML в DOCX, давайте рассмотрим следующие примеры кода C#.

HTML в DOCX одной строкой кода

Статические методы класса Converter в основном используются как самый простой способ преобразования HTML-кода в различные форматы. Вы можете преобразовать HTML в DOCX в своем приложении C# буквально с помощью одной строки кода!

1// Invoke the ConvertHTML() method to convert HTML to DOCX
2Converter.ConvertHTML(@"<h1>Convert HTML to DOCX!</h1>", ".", new DocSaveOptions(), Path.Combine(OutputDir, "convert-with-single-line.docx"));

Конвертировать HTML в DOCX

Преобразование файла в другой формат методом ConvertHTML() представляет собой последовательность операций, среди которых загрузка и сохранение документа:

  1. Загрузите файл HTML с помощью класса HTMLDocument.
  2. Создайте новый объект DocSaveOptions.
  3. Используйте метод ConvertHTML() класса Converter для сохранения HTML в виде файла DOCX. Вам необходимо передать HTMLDocument, DocSaveOptions и путь к выходному файлу методу ConvertHTML() для преобразования HTML в DOCX.

Просмотрите следующий фрагмент кода C#, в котором показан процесс преобразования HTML в DOCX с использованием Aspose.HTML for .NET.

 1// Prepare a path to a source HTML file
 2string documentPath = Path.Combine(DataDir, "canvas.html");
 3
 4// Prepare a path to save the converted file 
 5string savePath = Path.Combine(OutputDir, "canvas-output.docx");
 6
 7// Initialize an HTML document from the file
 8using var document = new HTMLDocument(documentPath);
 9
10// Initialize DocSaveOptions 
11var options = new DocSaveOptions();
12
13// Convert HTML to DOCX
14Converter.ConvertHTML(document, options, savePath);

Вы можете скачать полные примеры и файлы данных с GitHub.

Параметры Сохранения

Aspose.HTML позволяет конвертировать HTML в DOCX, используя стандартные или пользовательские параметры сохранения. Использование DocSaveOptions позволяет настроить процесс рендеринга; вы можете указать размер страницы, поля, разрешение, CSS и т. д.

PropertyDescription
FontEmbeddingRuleThis property gets or sets the font embedding rule. Available values are Full and None. The default value is None.
CssGets a CssOptions object which is used for configuration of CSS properties processing.
DocumentFormatThis property gets or sets the file format of the output document. The default value is DOCX.
PageSetupThis property gets a page setup object and uses it for configuration output page-set.
HorizontalResolutionSets horizontal resolution for output images in pixels per inch. The default value is 300 dpi.
VerticalResolutionSets vertical resolution for output images in pixels per inch. The default value is 300 dpi.

Чтобы узнать больше о DocSaveOptions, прочитайте статьи раздела Конвертеры тонкой настройки.

Конвертировать HTML в DOCX с использованием DocSaveOptions

Чтобы преобразовать HTML в DOCX с указанием DocSaveOptions, необходимо выполнить несколько шагов:

  1. Загрузите файл HTML с помощью одного из конструкторов HTMLDocument() класса HTMLDocument.
  2. Создайте новый объект DocSaveOptions. Конструктор DocSaveOptions() инициализирует экземпляр класса DocSaveOptions, который передается методу ConvertHTML().
  3. Используйте метод ConvertHTML() класса Converter для сохранения HTML в виде файла DOCX. Вам необходимо передать HTMLDocument, DocSaveOptions и путь к выходному файлу методу ConvertHTML() для преобразования HTML в DOCX.

В следующем примере показано, как использовать DocSaveOptions и создать файл DOCX с настраиваемыми параметрами сохранения:

 1// Prepare a path to a source HTML file
 2string documentPath = Path.Combine(DataDir, "canvas.html");
 3
 4// Prepare a path to save the converted file 
 5string savePath = Path.Combine(OutputDir, "canvas-output-options.docx");
 6
 7// Initialize an HTML document from the file
 8using var document = new HTMLDocument(documentPath);
 9
10// Initialize DocSaveOptions. Set up the page-size 600x400 pixels and margins
11var options = new DocSaveOptions();
12options.PageSetup.AnyPage = new Page(new Aspose.Html.Drawing.Size(600, 400), new Margin(10, 10, 10, 10));
13
14// Convert HTML to DOCX
15Converter.ConvertHTML(document, options, savePath);

Класс DocSaveOptions предоставляет множество свойств, которые дают вам полный контроль над широким спектром параметров и улучшают процесс преобразования HTML в формат DOCX. В приведенном выше примере мы используем свойство PageSetup, которое указывает размер страницы документа DOCX.

Output Stream Providers

Если требуется сохранять файлы в удаленном хранилище (например, в облаке, базе данных и т. д.), вы можете реализовать ICreateStreamProvider для ручного управления процессом создания файла. Этот интерфейс разработан как объект обратного вызова для создания потока в начале документа/страницы (в зависимости от выходного формата) и освобождения ранее созданного потока после рендеринга документа/страницы.

Aspose.HTML for .NET предоставляет различные типы выходных форматов для операций рендеринга. Некоторые из этих форматов создают один выходной файл (например, PDF, XPS), другие создают несколько файлов (форматы изображений JPG, PNG и т. д.).

В приведенном ниже примере показано, как реализовать и использовать собственный MemoryStreamProvider в приложении:

 1class MemoryStreamProvider : Aspose.Html.IO.ICreateStreamProvider
 2{
 3    // List of MemoryStream objects created during the document rendering
 4    public List<MemoryStream> Streams { get; } = new List<MemoryStream>();
 5
 6    public Stream GetStream(string name, string extension)
 7    {
 8        // This method is called when only one output stream is required, for instance for XPS, PDF or TIFF formats
 9        MemoryStream result = new MemoryStream();
10        Streams.Add(result);
11        return result;
12    }
13
14    public Stream GetStream(string name, string extension, int page)
15    {
16        // This method is called when the creation of multiple output streams are required. For instance, during the rendering HTML to list of image files (JPG, PNG, etc.)
17        MemoryStream result = new MemoryStream();
18        Streams.Add(result);
19        return result;
20    }
21
22    public void ReleaseStream(Stream stream)
23    {
24        // Here you can release the stream filled with data and, for instance, flush it to the hard-drive
25    }
26
27    public void Dispose()
28    {
29        // Releasing resources
30        foreach (var stream in Streams)
31            stream.Dispose();
32    }
33}

Следующий фрагмент кода демонстрирует, как преобразовать HTML-файл в DOCX-файл с использованием потока памяти.

 1// Create an instance of MemoryStreamProvider
 2using var streamProvider = new MemoryStreamProvider();
 3
 4// Initialize an HTML document
 5using var document = new HTMLDocument(@"<h1>Convert HTML to DOCX File Format!</h1>", ".");
 6
 7// Convert HTML to DOCX using the MemoryStreamProvider
 8Converter.ConvertHTML(document, new DocSaveOptions(), streamProvider);
 9
10// Get access to the memory stream that contains the result data
11var memory = streamProvider.Streams.First();
12memory.Seek(0, SeekOrigin.Begin);
13
14// Flush the result data to the output file
15using (FileStream fs = File.Create(Path.Combine(OutputDir, "stream-provider.docx")))
16{
17    memory.CopyTo(fs);
18}

Загрузите нашу библиотеку Aspose.HTML for .NET, которая позволит вам успешно, быстро и легко конвертировать HTML, MHTML, EPUB, SVG и Markdown документы в самые популярные форматы.

Aspose.HTML предлагает бесплатный онлайн Конвертер HTML в DOCX, который конвертирует HTML в DOCX с высоким качеством, легко и быстро. Просто загрузите, конвертируйте свои файлы и получите результат за несколько секунд!

Text “Конвертер HTML в DOCX”

Subscribe to Aspose Product Updates

Get monthly newsletters & offers directly delivered to your mailbox.