Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
In diesem Artikel wird untersucht, wie man mit Aspose.HTML for Python via .NET verschiedene Arten von Bildern aus Websites extrahieren kann. Durch den Einsatz der Python-Bibliothek können Sie Bilder effizient von einer Website herunterladen, ohne sie manuell suchen zu müssen. Entdecken Sie, wie Sie den Prozess der Bildextraktion automatisieren und Ihren Arbeitsablauf optimieren können. Beginnen wir mit der programmgesteuerten Extraktion von Bildern!
Die meisten Bilder in einem HTML-Dokument werden durch das Element <img> dargestellt. Hier ist ein Beispiel für die Verwendung von Aspose.HTML for Python via .NET, um Bilder zu finden, die durch dieses Element angegeben werden. Um also Bilder von einer Website herunterzuladen, sollten Sie die folgenden Schritte ausführen:
<img>-Elemente abzurufen. Diese Methode gibt eine Sammlung aller im HTML-Dokument gefundenen <img>-Elemente zurück.<img>-Elemente iterieren und mit der Methode
get_attribute(“src”) auf ihr src-Attribut zugreifen. Speichern Sie diese URLs in einem Set, um sicherzustellen, dass es keine Duplikate gibt.HTMLDocument, um sicherzustellen, dass sie für Anfragen korrekt formatiert sind. 1# Extract images from website using Python
2
3import os
4import aspose.html as ah
5import aspose.html.net as ahnet
6
7# Prepare output directory
8output_dir = "output/"
9os.makedirs(output_dir, exist_ok=True)
10
11# Open HTML document from URL
12with ah.HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-color/") as doc:
13 # Collect all <img> elements
14 images = doc.get_elements_by_tag_name("img")
15
16 # Get distinct relative image URLs
17 urls = set(img.get_attribute("src") for img in images)
18
19 # Create absolute image URLs
20 abs_urls = [ah.Url(url, doc.base_uri) for url in urls]
21
22 for url in abs_urls:
23 # Create a network request
24 request = ahnet.RequestMessage(url)
25
26 # Send request
27 response = doc.context.network.send(request)
28
29 # Check if successful
30 if response.is_success:
31 # Extract file name
32 file_name = os.path.basename(url.pathname)
33
34 # Save image locally
35 with open(os.path.join(output_dir, file_name), "wb") as f:
36 f.write(response.content.read_as_byte_array())Hinweis: Bevor Sie gespeicherte Bilder für kommerzielle Zwecke verwenden, müssen Sie unbedingt die Urheberrechtsgesetze beachten und eine entsprechende Genehmigung einholen. Wir unterstützen keine Datenextraktion und keine Verwendung von Dateien anderer Personen für kommerzielle Zwecke ohne deren Zustimmung.
Icons sind eine Art von Bildern in HTML-Dokumenten, die mit <link>-Elementen mit dem rel-Attribut auf icon gesetzt werden. Schauen wir uns an, wie man mit Aspose.HTML for Python via .NET Icons aus Webseiten extrahiert:
HTMLDocument(Url), um eine Instanz der Klasse
HTMLDocument zu erstellen, und übergeben Sie ihm die URL der Website, aus der Sie Symbole extrahieren möchten.<link> Elemente zu sammeln.rel aus einem HTML-Element abzurufen. Filtern Sie diese Elemente, um nur diejenigen zu erhalten, bei denen das Attribut rel gleich icon ist, die normalerweise zur Definition von Symbolen verwendet werden.href aus jedem Icon-Link, um die relativen URLs zu erhalten. Konvertieren Sie diese relativen URLs in absolute URLs, indem Sie den Basis-URI des Dokuments verwenden. 1# Extract icons from website using Python
2
3import os
4import aspose.html as ah
5import aspose.html.net as ahnet
6
7# Define output directory
8output_dir = "output/icons/"
9os.makedirs(output_dir, exist_ok=True)
10
11# Open a document you want to extract icons from
12document = ah.HTMLDocument("https://docs.aspose.com/html/python-net/")
13
14# Collect all <link> elements
15links = document.get_elements_by_tag_name("link")
16
17# Leave only "icon" elements
18icons = [link for link in links if link.get_attribute("rel") == "icon"]
19
20# Create a distinct collection of relative icon URLs
21urls = {icon.get_attribute("href") for icon in icons}
22
23# Create absolute icon URLs
24abs_urls = [ah.Url(url, document.base_uri) for url in urls]
25
26for url in abs_urls:
27 # Create a request message
28 request = ahnet.RequestMessage(url)
29
30 # Extract icon
31 response = document.context.network.send(request)
32
33 # Check whether the response is successful
34 if response.is_success:
35 # Save icon to a local file system
36 file_path = os.path.join(output_dir, os.path.basename(url.pathname))
37 with open(file_path, 'wb') as file:
38 file.write(response.content.read_as_byte_array())Sie können diese Python-Beispiele verwenden, um die Extraktion aller Bilder aus einer Website zu automatisieren. Dies ist wertvoll für verschiedene Aufgaben wie Archivierung, Recherche, Analyse von Webinhalten oder jede andere persönliche Anwendung. Es eignet sich auch hervorragend für Webdesigner und Entwickler, die Bilder von Websites abrufen möchten.
Laden Sie die Bibliothek Aspose.HTML for Python via .NET herunter, um Ihre HTML-Dokumente erfolgreich, schnell und einfach zu bearbeiten. Die Python-Bibliothek kann HTML-Dokumente erstellen, ändern, Daten extrahieren, konvertieren und rendern, ohne dass externe Software erforderlich ist. Sie unterstützt gängige Dateiformate wie EPUB, MHTML, XML, SVG und Markdown und kann in die Dateiformate PDF, DOCX, XPS und Image rendern.
Aspose.HTML bietet HTML-Webanwendungen, eine Online-Sammlung von kostenlosen Konvertern, Zusammenführungen, SEO-Tools, HTML-Code-Generatoren, URL-Tools, Web-Zugänglichkeitsprüfungen und mehr. Die Anwendungen funktionieren auf allen Betriebssystemen mit einem Webbrowser und erfordern keine zusätzliche Softwareinstallation. Konvertieren, verschmelzen, kodieren, generieren Sie HTML-Code, extrahieren Sie Daten aus dem Web oder analysieren Sie Webseiten für SEO, wo immer Sie sind. Nutzen Sie unsere Sammlung von HTML-Webanwendungen, um alltägliche Aufgaben zu erledigen und Ihre Arbeitsabläufe fehlerfrei zu gestalten!
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.