HTML in DOCX konvertieren – Python-Codebeispiele
Eine DOCX-Datei ist ein Microsoft Word-Dokument, das in der Regel Text enthält, aber auch eine Vielzahl von Daten wie Tabellen, Raster- und Vektorgrafiken, Videos, Sounds und Diagramme enthalten kann. Die DOCX-Datei ist in hohem Maße bearbeitbar, einfach zu verwenden und von der Größe her überschaubar. Dieses Format ist sehr beliebt, weil es den Benutzern eine Vielzahl von Möglichkeiten bietet, jede Art von Dokumenten zu erstellen.
Die Verwendung der Methoden
Converter.convert_html() ist der gängigste Weg, um HTML-Code in verschiedene Formate zu konvertieren. Mit Aspose.HTML for Python via .NET können Sie HTML in das DOCX-Format programmatisch konvertieren, wobei Sie die volle Kontrolle über eine breite Palette von Konvertierungsparametern haben. In diesem Artikel finden Sie Informationen darüber, wie Sie HTML in DOCX konvertieren können, indem Sie die Methoden convert_html()
der Klasse Converter verwenden und wie Sie
DocSaveOptions anwenden. Außerdem können Sie einen Online-HTML-Konverter ausprobieren, um die Aspose.HTML-Funktionalität zu testen und HTML on the fly zu konvertieren.
Um mit diesem Tutorial fortzufahren, installieren und konfigurieren Sie Aspose.HTML for Python via .NET in Ihrem Python-Projekt. Unsere Code-Beispiele helfen Ihnen bei der Umwandlung von HTML in DOCX mit der Python-Bibliothek.
Online HTML-Konverter
Sie können die Funktionalität von Aspose.HTML for Python über die .NET API testen und HTML-Konvertierungen in Echtzeit durchführen. Laden Sie eine HTML-Datei von Ihrem lokalen System oder einer URL, wählen Sie das gewünschte Ausgabeformat und führen Sie das Beispiel aus. die Standard-Speicheroptionen werden angewendet, und Sie erhalten die konvertierte Datei sofort.
HTML in DOCX konvertieren – Python-Codebeispiele
Die Konvertierung von HTML in ein anderes Format mit der Methode convert_html() ist eine Abfolge von Operationen, darunter das Laden und Speichern von Dokumenten:
- Laden Sie eine HTML-Datei mit Hilfe der Klasse HTMLDocument.
- Erstellen Sie ein neues
DocSaveOptions Objekt. Die Klasse
DocSaveOptions
bietet zahlreiche Eigenschaften, die Ihnen die volle Kontrolle über eine Vielzahl von Parametern geben und den Prozess der Konvertierung von HTML in das DOCX-Format verbessern. - Verwenden Sie eine der Methoden
convert_html(), um HTML als DOCX-Datei zu speichern. Im folgenden Beispiel müssen Sie
HTMLDocument
,DocSaveOptions
und den Pfad zur Ausgabedatei an die Methodeconvert_html()
übergeben.
HTML zu DOCX mit einer einzigen Codezeile
Die statischen Methoden der Klasse Converter dienen in erster Linie als einfachste Möglichkeit, einen HTML-Code in verschiedene Formate zu konvertieren. Sie können HTML in Ihrer Python-Anwendung buchstäblich mit einer einzigen Code-Zeile in DOCX umwandeln!
1from aspose.html import *
2from aspose.html.converters import *
3from aspose.html.saving import *
4
5# Convert HTML to DOCX
6Converter.convert_html("document.html", DocSaveOptions(), "document.docx")
HTML in DOCX konvertieren mit DocSaveOptions
Schauen wir uns den folgenden Python-Codeausschnitt an, der den Prozess der Konvertierung von HTML in DOCX mit der Angabe von DocSaveOptions
zeigt:
1import os
2from aspose.html import *
3from aspose.html.saving import *
4from aspose.html.drawing import *
5from aspose.html.converters import *
6from aspose.html.rendering.doc import *
7
8# Setup directories and define paths
9output_dir = "output/"
10input_dir = "data/"
11if not os.path.exists(output_dir):
12 os.makedirs(output_dir)
13
14document_path = os.path.join(input_dir, "document.html")
15save_path = os.path.join(output_dir, "output1.docx")
16
17# Initialize an HTML document from the file
18document = HTMLDocument(document_path)
19
20# Initialize DocSaveOptions
21options = DocSaveOptions()
22
23# Customize save options for DOCX
24options.document_format.DOCX
25options.font_embedding_rule.FULL
26options.css.media_type.PRINT
27options.horizontal_resolution = Resolution.from_dots_per_inch(96.0)
28options.vertical_resolution = Resolution.from_dots_per_inch(96.0)
29
30# Convert HTML to DOCX
31Converter.convert_html(document, options, save_path)
32
33print(f"HTML document converted to DOCX successfully and saved to {save_path}")
In diesem Beispiel wird ein HTML-Dokument mithilfe von Speicheroptionen in eine DOCX-Datei konvertiert. Der Prozess umfasst die Initialisierung des HTML-Dokuments, das Festlegen von benutzerdefinierten Speicheroptionen wie Dokumentformat, Schrifteinbettungsregel, css media_type und Auflösung sowie die Durchführung der Konvertierung. Schließlich wird die konvertierte DOCX-Datei in einem bestimmten Ausgabeverzeichnis gespeichert.
Speicheroptionen – Klasse DocSaveOptions
Die Klasse DocSaveOptions ist ein leistungsfähiges Konfigurationswerkzeug, mit dem Sie die Konvertierung von HTML-Dokumenten in das DOCX-Format feinabstimmen können. Einige Eigenschaften dieser Klasse erben Eigenschaften von Basisklassen, wie DocRenderingOptions oder RenderingOptions. docSaveOptions" ist so konfiguriert, dass das Dokument im DOCX-Format gespeichert wird und enthält die folgenden Eigenschaften:
- page_setup – Mit dieser Eigenschaft können Sie das Layout der Seite definieren, einschließlich Seitengröße, Ränder und andere Layoutaspekte, um sicherzustellen, dass das Ausgabedokument dem gewünschten Format entspricht.
- horizontal_resolution – Mit dieser Eigenschaft wird die horizontale Auflösung für interne Bilder in Pixeln pro Zoll festgelegt oder abgerufen. Standardmäßig beträgt sie 300 dpi. Höhere Auflösungen können eine bessere Rendering-Qualität, aber größere Dateigrößen erzeugen. Mit dieser Eigenschaft können Sie den Kompromiss zwischen Qualität und Dateigröße steuern.
- vertical_resolution – Diese Eigenschaft legt die vertikale Auflösung für interne Bilder in Pixeln pro Zoll fest oder ruft sie ab. Standardmäßig beträgt sie 300 dpi. Ähnlich wie bei
horizontal_resolution
wird damit die vertikale Auflösung von Dokumenten gesteuert, was sich auf deren Klarheit und Gesamtgröße auswirkt. - background_color – Mit dieser Eigenschaft können Sie die Hintergrundfarbe für die gerenderte Ausgabe festlegen. Ist sie nicht gesetzt, ist der Hintergrund standardmäßig transparent.
- css – Diese Eigenschaft ruft ein CssOptions-Objekt ab, das zur Konfiguration der Verarbeitung von CSS-Eigenschaften verwendet wird. Die Eigenschaft
css.media_type
legt beispielsweise unterschiedliche Stile für verschiedene Medientypen fest und stellt sicher, dass die richtigen CSS-Regeln je nach Art der Darstellung des Dokuments angewendet werden. - font_embedding_rule – Diese Eigenschaft legt die Regel für die Einbettung von Schriftarten fest und steuert, ob und wie Schriftarten in das Ausgabedokument eingebettet werden. Der Standardwert ist
NONE
. - document_format – Diese Eigenschaft legt das Dateiformat des Ausgabedokuments fest. Die Vorgabe ist DOCX.
Laden Sie die Bibliothek Aspose.HTML for Python via .NET herunter, um Ihre HTML-, MHTML-, EPUB-, SVG- und Markdown-Dokumente erfolgreich, schnell und einfach in die gängigsten Formate zu konvertieren.
Aspose.HTML bietet einen kostenlosen Online- HTML zu DOCX Konverter, der HTML in DOCX mit hoher Qualität, einfach und schnell konvertiert. Einfach hochladen, Ihre Dateien konvertieren und in wenigen Sekunden Ergebnisse erhalten!