HTML in DOCX konvertieren – Python-Codebeispiele
Eine DOCX-Datei ist ein Microsoft Word-Dokument, das in der Regel Text enthält, aber auch eine Vielzahl von Daten wie Tabellen, Raster- und Vektorgrafiken, Videos, Sounds und Diagramme enthalten kann. Die DOCX-Datei ist in hohem Maße bearbeitbar, einfach zu verwenden und von der Größe her überschaubar. Dieses Format ist sehr beliebt, weil es den Benutzern eine Vielzahl von Möglichkeiten bietet, jede Art von Dokumenten zu erstellen.
Die Verwendung der Methoden
Converter.convert_html() ist der gängigste Weg, um HTML-Code in verschiedene Formate zu konvertieren. Mit Aspose.HTML for Python via .NET können Sie HTML in das DOCX-Format programmatisch konvertieren, wobei Sie die volle Kontrolle über eine breite Palette von Konvertierungsparametern haben. In diesem Artikel finden Sie Informationen darüber, wie Sie HTML in DOCX konvertieren können, indem Sie die Methoden convert_html() der Klasse Converter verwenden und wie Sie
DocSaveOptions anwenden. Außerdem können Sie einen Online-HTML-Konverter ausprobieren, um die Aspose.HTML-Funktionalität zu testen und HTML on the fly zu konvertieren.
Um mit diesem Tutorial fortzufahren, installieren und konfigurieren Sie Aspose.HTML for Python via .NET in Ihrem Python-Projekt. Unsere Code-Beispiele helfen Ihnen bei der Umwandlung von HTML in DOCX mit der Python-Bibliothek.
Online HTML-Konverter
Sie können die Funktionalität von Aspose.HTML for Python über die .NET API testen und HTML-Konvertierungen in Echtzeit durchführen. Laden Sie eine HTML-Datei von Ihrem lokalen System oder einer URL, wählen Sie das gewünschte Ausgabeformat und führen Sie das Beispiel aus. die Standard-Speicheroptionen werden angewendet, und Sie erhalten die konvertierte Datei sofort.
HTML in DOCX konvertieren – Python-Codebeispiele
Die Konvertierung von HTML in ein anderes Format mit der Methode convert_html() ist eine Abfolge von Operationen, darunter das Laden und Speichern von Dokumenten:
- Laden Sie eine HTML-Datei mit Hilfe der Klasse HTMLDocument.
- Erstellen Sie ein neues
DocSaveOptions Objekt. Die Klasse
DocSaveOptionsbietet zahlreiche Eigenschaften, die Ihnen die volle Kontrolle über eine Vielzahl von Parametern geben und den Prozess der Konvertierung von HTML in das DOCX-Format verbessern. - Verwenden Sie eine der Methoden
convert_html(), um HTML als DOCX-Datei zu speichern. Im folgenden Beispiel müssen Sie
HTMLDocument,DocSaveOptionsund den Pfad zur Ausgabedatei an die Methodeconvert_html()übergeben.
HTML zu DOCX mit einer einzigen Codezeile
Die statischen Methoden der Klasse Converter dienen in erster Linie als einfachste Möglichkeit, einen HTML-Code in verschiedene Formate zu konvertieren. Sie können HTML in Ihrer Python-Anwendung buchstäblich mit einer einzigen Code-Zeile in DOCX umwandeln!
1# Convert HTML to DOCX using Python
2
3import aspose.html.saving as sav
4import aspose.html.converters as conv
5
6# Convert HTML to DOCX
7conv.Converter.convert_html("document.html", sav.DocSaveOptions(), "document.docx")HTML in DOCX konvertieren mit DocSaveOptions
Schauen wir uns den folgenden Python-Codeausschnitt an, der den Prozess der Konvertierung von HTML in DOCX mit der Angabe von DocSaveOptions zeigt:
1# Convert HTML to DOCX using Python with custom settings
2
3import os
4import aspose.html as ah
5import aspose.html.saving as sav
6import aspose.html.drawing as dr
7import aspose.html.converters as conv
8import aspose.pydrawing as pd
9
10# Setup directories and define paths
11output_dir = "output/"
12input_dir = "data/"
13os.makedirs(output_dir, exist_ok=True)
14
15document_path = os.path.join(input_dir, "document.html")
16save_path = os.path.join(output_dir, "document.docx")
17
18# Load an HTML document from a file or URL
19doc = ah.HTMLDocument(document_path)
20
21# Initialize saving options
22options = sav.DocSaveOptions()
23options.page_setup.any_page.size = dr.Size(300, 300)
24page_margin = dr.Margin(40, 40, 10, 10)
25options.page_setup.any_page.margin = page_margin
26options.document_format.DOCX
27options.font_embedding_rule.FULL
28options.css.media_type.PRINT
29options.horizontal_resolution = dr.Resolution.from_dots_per_inch(300.0)
30options.vertical_resolution = dr.Resolution.from_dots_per_inch(300.0)
31options.background_color = pd.Color.bisque
32
33# Convert HTML to DOCX
34conv.Converter.convert_html(doc, options, save_path)In diesem Beispiel wird ein HTML-Dokument mithilfe von Speicheroptionen in eine DOCX-Datei konvertiert. Der Prozess umfasst die Initialisierung des HTML-Dokuments, das Festlegen von benutzerdefinierten Speicheroptionen wie Dokumentformat, Schrifteinbettungsregel, Hintergrundfarbe, css media_type und Auflösung sowie die Durchführung der Konvertierung. Schließlich wird die konvertierte DOCX-Datei in einem bestimmten Ausgabeverzeichnis gespeichert.
Speicheroptionen – Klasse DocSaveOptions
Die Klasse DocSaveOptions ist ein leistungsfähiges Konfigurationswerkzeug, mit dem Sie die Konvertierung von HTML-Dokumenten in das DOCX-Format feinabstimmen können. Einige Eigenschaften dieser Klasse erben Eigenschaften von Basisklassen, wie DocRenderingOptions oder RenderingOptions. docSaveOptions" ist so konfiguriert, dass das Dokument im DOCX-Format gespeichert wird und enthält die folgenden Eigenschaften:
- page_setup – Mit dieser Eigenschaft können Sie das Layout der Seite definieren, einschließlich Seitengröße, Ränder und andere Layoutaspekte, um sicherzustellen, dass das Ausgabedokument dem gewünschten Format entspricht.
- horizontal_resolution – Mit dieser Eigenschaft wird die horizontale Auflösung für interne Bilder in Pixeln pro Zoll festgelegt oder abgerufen. Standardmäßig beträgt sie 300 dpi. Höhere Auflösungen können eine bessere Rendering-Qualität, aber größere Dateigrößen erzeugen. Mit dieser Eigenschaft können Sie den Kompromiss zwischen Qualität und Dateigröße steuern.
- vertical_resolution – Diese Eigenschaft legt die vertikale Auflösung für interne Bilder in Pixeln pro Zoll fest oder ruft sie ab. Standardmäßig beträgt sie 300 dpi. Ähnlich wie bei
horizontal_resolutionwird damit die vertikale Auflösung von Dokumenten gesteuert, was sich auf deren Klarheit und Gesamtgröße auswirkt. - background_color – Mit dieser Eigenschaft können Sie die Hintergrundfarbe für die gerenderte Ausgabe festlegen. Ist sie nicht gesetzt, ist der Hintergrund standardmäßig transparent.
- css – Diese Eigenschaft ruft ein CssOptions-Objekt ab, das zur Konfiguration der Verarbeitung von CSS-Eigenschaften verwendet wird. Die Eigenschaft
css.media_typelegt beispielsweise unterschiedliche Stile für verschiedene Medientypen fest und stellt sicher, dass die richtigen CSS-Regeln je nach Art der Darstellung des Dokuments angewendet werden. - font_embedding_rule – Diese Eigenschaft legt die Regel für die Einbettung von Schriftarten fest und steuert, ob und wie Schriftarten in das Ausgabedokument eingebettet werden. Der Standardwert ist
NONE. - document_format – Diese Eigenschaft legt das Dateiformat des Ausgabedokuments fest. Die Vorgabe ist DOCX.
Laden Sie die Bibliothek Aspose.HTML for Python via .NET herunter, um Ihre HTML-, MHTML-, EPUB-, SVG- und Markdown-Dokumente erfolgreich, schnell und einfach in die gängigsten Formate zu konvertieren.
Aspose.HTML bietet einen kostenlosen Online- HTML zu DOCX Konverter, der HTML in DOCX mit hoher Qualität, einfach und schnell konvertiert. Einfach hochladen, Ihre Dateien konvertieren und in wenigen Sekunden Ergebnisse erhalten!
