Extraer imágenes de un sitio web – Ejemplos Java

Si eres desarrollador web, diseñador gráfico, investigador, periodista, estudiante o simplemente estás trabajando en un proyecto personal, probablemente necesites imágenes y la capacidad de recopilarlas de sitios web. Guardar imágenes manualmente -copiando cada URL y descargándolas una a una- puede llevar mucho tiempo y ser ineficaz. Sin embargo, puede utilizar la biblioteca Aspose.HTML for Java library para automatizar este proceso y extraer imágenes de un sitio web mediante programación.

En este artículo se explica cómo extraer diferentes tipos de imágenes de un sitio web mediante programación utilizando Java. Con Aspose.HTML for Java, puede crear fácilmente una herramienta que analice una página HTML, identifique las fuentes de las imágenes y las descargue. Se trata de una potente solución para cualquiera que necesite recopilar imágenes para su análisis, archivo o creación de contenidos, sin la molestia de hacerlo manualmente.

Extraer imágenes de un sitio web

La mayoría de las imágenes de un documento HTML se representan mediante el elemento <img>. El siguiente fragmento de código demuestra cómo utilizar Aspose.HTML for Java para encontrar imágenes especificadas por este elemento. Por lo tanto, para descargar imágenes de un sitio web, debe seguir los siguientes pasos:

Utilice el constructor HTMLDocument(Url) para crear una instancia de HTMLDocument pasando la URL de la página web que desea procesar.

Llama al método getElementsByTagName(“img”) para recuperar todos los elementos <img> del documento. El método devuelve una colección de elementos <img> presentes en la página.

Recorre los elementos <img> y utiliza el método getAttribute(“src”) para obtener el valor del atributo src de cada imagen. Cada src se añade al conjunto urls.

Utilice la clase Url junto con la propiedad BaseURI del documento para convertir las rutas relativas de las imágenes en URLs absolutas.

Para cada URL de imagen absoluta, cree una petición utilizando el constructor RequestMessage(url) y envíela utilizando document.getContext().getNetwork().send(request). Esto devuelve un ResponseMessage.

Si la respuesta indica éxito, extraiga los datos de la imagen usando response.getContent().readAsByteArray() y guárdelos en su sistema de archivos local usando FileHelper.writeAllBytes().

 1// Extract images from website using Java
 2
 3// Open a document you want to download images from
 4final HTMLDocument document = new HTMLDocument("https://docs.aspose.com/svg/net/drawing-basics/svg-shapes/");
 5
 6// Collect all <img> elements
 7HTMLCollection images = document.getElementsByTagName("img");
 8
 9// Create a distinct collection of relative image URLs
10Iterator<Element> iterator = images.iterator();
11java.util.Set<String> urls = new HashSet<>();
12for (Element e : images) {
13    urls.add(e.getAttribute("src"));
14}
15
16// Create absolute image URLs
17java.util.List<Url> absUrls = urls.stream()
18        .map(src -> new Url(src, document.getBaseURI()))
19        .collect(Collectors.toList());
20
21// foreach to while statements conversion
22for (Url url : absUrls) {
23    // Create an image request message
24    final RequestMessage request = new RequestMessage(url);
25
26    // Extract image
27    final ResponseMessage response = document.getContext().getNetwork().send(request);
28
29    // Check whether a response is successful
30    if (response.isSuccess()) {
31        String[] split = url.getPathname().split("/");
32        String path = split[split.length - 1];
33
34        // Save file to a local file system
35        FileHelper.writeAllBytes($o(path), response.getContent().readAsByteArray());
36    }
37}

Example_ExtractImagesFromWebsite.java hosted with ❤ by GitHub

Esta solución sencilla y eficaz le permite automatizar el proceso de extracción de imágenes, ahorrándole un tiempo muy valioso.

Nota: Respete siempre las leyes de derechos de autor y asegúrese de que dispone de los permisos o licencias necesarios antes de utilizar las imágenes guardadas con fines comerciales. No apoyamos la extracción y el uso de contenidos de fuentes de terceros con fines comerciales sin la debida autorización.

Extraer iconos de un sitio web

Los iconos en los documentos HTML se definen normalmente utilizando elementos <link> con el atributo rel="icon". Para extraer iconos de un sitio web utilizando Aspose.HTML for Java, siga estos pasos:

Cargue la página web utilizando el constructor HTMLDocument(Url), pasando la URL del sitio web que desea analizar.

Utilice el método getElementsByTagName(“link”) para recoger todos los elementos <link> del documento.

Filtre los resultados para incluir sólo los elementos en los que el atributo rel esté configurado como "icon", ya que éstos definen los enlaces de icono.

Extrae las URL relativas llamando a getAttribute(“href”) en cada elemento <link> filtrado.

Crear URLs absolutas de iconos utilizando la clase Url y el método getBaseURI() de HTMLDocument.

Envía una petición para cada icono utilizando la clase RequestMessage y el método document.getContext().getNetwork().send().

Compruebe la respuesta, y si tiene éxito, guarde el icono localmente usando FileHelper.writeAllBytes(). Como resultado, todos los iconos del sitio web referenciados en el HTML serán descargados y guardados en su sistema de archivos local.

 1// Download icons from website using Java
 2
 3// Open a document you want to download icons from
 4final HTMLDocument document = new HTMLDocument("https://docs.aspose.com/html/net/message-handlers/");
 5
 6// Collect all <link> elements
 7HTMLCollection links = document.getElementsByTagName("link");
 8
 9// Leave only "icon" elements
10java.util.Set<Element> icons = new HashSet<>();
11for (Element link : links) {
12    if ("icon".equals(link.getAttribute("rel"))) {
13        icons.add(link);
14    }
15}
16
17// Create a distinct collection of relative icon URLs
18java.util.Set<String> urls = new HashSet<>();
19for (Element icon : icons) {
20    urls.add(icon.getAttribute("href"));
21}
22
23// Create absolute image URLs
24java.util.List<Url> absUrls = urls.stream()
25        .map(src -> new Url(src, document.getBaseURI()))
26        .collect(Collectors.toList());
27
28// foreach to while statements conversion
29for (Url url : absUrls) {
30    // Create a downloading request
31    final RequestMessage request = new RequestMessage(url);
32
33    // Extract icon
34    final ResponseMessage response = document.getContext().getNetwork().send(request);
35
36    // Check whether a response is successful
37    if (response.isSuccess()) {
38        String[] split = url.getPathname().split("/");
39        String path = split[split.length - 1];
40
41        // Save file to a local file system
42        FileHelper.writeAllBytes($o(path), response.getContent().readAsByteArray());
43    }
44}

Example_ExtractIconsFromWebsite.java hosted with ❤ by GitHub

Puede utilizar estos ejemplos Java para automatizar la extracción de todas las imágenes de un sitio web, lo que puede ser útil para tareas como archivar, investigar, analizar contenido web o cualquier otra aplicación de uso personal. Además, esto es ideal para diseñadores y desarrolladores web que deseen extraer imágenes de sitios sin bucear en el código fuente.

Aspose.HTML ofrece un conjunto de Aplicaciones Web HTML gratuitas en línea, que incluyen conversores, fusiones, herramientas SEO, generadores de código HTML, utilidades URL y mucho más. Estas herramientas basadas en navegador funcionan en cualquier sistema operativo y no requieren instalación de software adicional. Si necesita convertir o combinar archivos, extraer datos web, generar código HTML o analizar páginas para SEO, puede hacerlo todo directamente en la web. Agilice sus tareas diarias y aumente su productividad con nuestras sencillas aplicaciones web HTML, en cualquier momento y lugar.

Analyzing your prompt, please hold on...

An error occurred while retrieving the results. Please refresh the page and try again.