Navigation HTML à l'aide d'Aspose.HTML for Java

Dans cet article, vous apprendrez à naviguer dans un document HTML et à effectuer une inspection détaillée de ses éléments à l’aide de l’API Aspose.HTML for Java. Vous pouvez facilement créer votre propre application pour analyser, collecter ou extraire des informations à partir de documents HTML puisque notre API fournit un ensemble d’outils puissants pour naviguer dans le document à l’aide d’un sélecteur CSS, d’une requête XPath ou de filtres personnalisés.

Il existe de nombreuses façons de naviguer en HTML. La liste suivante montre la manière la plus simple d’accéder à tous les éléments du DOM en utilisant la classe Node :

Property	Description
FirstChild	Accessing this attribute of an element must return a reference to the first child node.
LastChild	Accessing this attribute of an element must return a reference to the last child node
NextSibling	Accessing this attribute of an element must return a reference to the sibling node of that element which most immediately follows that element.
PreviousSibling	Accessing this attribute of an element must return a reference to the sibling node of that element which most immediately precedes that element.
ChildNodes	Returns a list that contains all children of that element.

En utilisant les propriétés mentionnées, vous pouvez naviguer dans un document HTML comme suit :

 1// Navigate the HTML DOM using Java
 2
 3// Prepare HTML code
 4String html_code = "<span>Hello,</span> <span>World!</span>";
 5
 6// Initialize a document from the prepared code
 7HTMLDocument document = new HTMLDocument(html_code, ".");
 8
 9// Get the reference to the first child (first <span>) of the document body
10Element element = document.getBody().getFirstElementChild();
11System.out.println(element.getTextContent());
12// @output: Hello,
13
14// Get the reference to the second <span> element
15element = element.getNextElementSibling();
16System.out.println(element.getTextContent());
17// @output: World!

Example_NavigateThroughHtml.java hosted with ❤ by GitHub

Pour les scénarios plus complexes, lorsque vous avez besoin de trouver un nœud en fonction d’un modèle spécifique (par exemple, obtenir la liste des en-têtes, des liens, etc.), vous pouvez utiliser un objet spécialisé TreeWalker ou NodeIterator avec une implémentation Filter personnalisée.

L’exemple suivant montre comment implémenter votre propre NodeFilter pour ignorer tous les éléments à l’exception des images :

 1// Create custom NodeFilter to accept only image elements in Java
 2
 3public static class OnlyImageFilter extends NodeFilter {
 4    @Override
 5    public short acceptNode(Node n) {
 6        // The current filter skips all elements, except IMG elements
 7        return "img".equals(n.getLocalName())
 8                ? FILTER_ACCEPT
 9                : FILTER_SKIP;
10    }
11}

Example_CustomNodeFilterForImageElements.java hosted with ❤ by GitHub

Une fois que vous avez mis en place un filtre, vous pouvez utiliser la navigation HTML comme suit :

 1// Filter HTML elements using TreeWalker and custom NodeFilter in Aspose.HTML for Java
 2
 3// Prepare HTML code
 4String code = "    < p > Hello, </p >\n" +
 5        "    <img src = 'image1.png' >\n" +
 6        "    <img src = 'image2.png' >\n" +
 7        "    <p > World ! </p >\n";
 8
 9// Initialize a document based on the prepared code
10HTMLDocument document = new HTMLDocument(code, ".");
11
12// To start HTML navigation, we need to create an instance of TreeWalker
13// The specified parameters mean that it starts walking from the root of the document, iterating all nodes, and using our custom implementation of the filter
14ITreeWalker iterator = document.createTreeWalker(document, NodeFilter.SHOW_ALL, new NodeFilterUsageExample.OnlyImageFilter());
15// Use
16while (iterator.nextNode() != null) {
17    // Since we are using our own filter, the current node will always be an instance of the HTMLImageElement
18    // So, we don't need the additional validations here
19    HTMLImageElement image = (HTMLImageElement) iterator.getCurrentNode();
20
21    System.out.println(image.getSrc());
22    // @output: image1.png
23    // @output: image2.png
24}

Example_TraverseHtmlDocumentUsingTreeWalker.java hosted with ❤ by GitHub

XPath

L’alternative au HTML Navigation est le XML Path Language. La syntaxe des expressions XPath est assez simple et, ce qui est plus important, elle est facile à lire et à prendre en charge.

L’exemple suivant montre comment utiliser les requêtes XPath dans l’API Aspose.HTML for Java :

 1// Select HTML elements using XPath expression in Aspose.HTML for Java
 2
 3// Prepare HTML code
 4String code = "< div class='happy' >\n" +
 5        "        <div >\n" +
 6        "            <span > Hello! </span >\n" +
 7        "        </div >\n" +
 8        "    </div >\n" +
 9        "    <p class='happy' >\n" +
10        "        <span > World! </span >\n" +
11        "    </p >\n";
12
13// Initialize a document based on the prepared code
14HTMLDocument document = new HTMLDocument(code, ".");
15
16// Here, we evaluate the XPath expression where we select all child <span> elements from elements whose 'class' attribute equals to 'happy'
17IXPathResult result = document.evaluate("//*[@class='happy']//span",
18        document,
19        null,
20        XPathResultType.Any,
21        null
22);
23
24// Iterate over the resulted nodes
25for (Node node; (node = result.iterateNext()) != null; ) {
26    System.out.println(node.getTextContent());
27    // @output: Hello!
28    // @output: World!
29}

Example_SelectHtmlElementsUsingXPath.java hosted with ❤ by GitHub

Sélecteur CSS

Outre HTML Navigation et XPath, vous pouvez utiliser CSS Selector API qui est également pris en charge par notre bibliothèque. Cette API est conçue pour créer un modèle de recherche afin de faire correspondre les éléments d’une arborescence de documents sur la base de la syntaxe des CSS Selectors.

 1// Select HTML elements using CSS selector querySelectorAll method in Aspose.HTML for Java
 2
 3// Prepare HTML code
 4String code = "< div class='happy' >\n" +
 5        "        <div >\n" +
 6        "            <span > Hello, </span >\n" +
 7        "        </div >\n" +
 8        "    </div >\n" +
 9        "    <p class='happy' >\n" +
10        "        <span > World ! </span >\n" +
11        "    </p >\n";
12
13// Initialize a document based on the prepared code
14HTMLDocument document = new HTMLDocument(code, ".");
15
16// Here, we create a CSS Selector that extracts all elements whose 'class' attribute equals to 'happy' and their child SPAN elements
17NodeList elements = document.querySelectorAll(".happy span");
18
19// Iterate over the resulted list of elements
20elements.forEach(element -> {
21    System.out.println(((HTMLElement) element).getInnerHTML());
22    // @output: Hello,
23    // @output: World!
24});

Example_SelectHtmlElementsUsingCssSelector.java hosted with ❤ by GitHub

Aspose.HTML propose AI Keyword Extractor, un outil basé sur l’intelligence artificielle qui permet d’extraire des mots-clés à partir de pages Web, de texte brut ou de fichiers. Cette application vous aide à identifier rapidement les sujets et les tendances clés pour l’optimisation des sites Web, l’analyse des concurrents ou le résumé de documents volumineux. Il suffit de coller le texte ou l’URL, de sélectionner les paramètres et de cliquer sur “Extraire” pour obtenir des mots-clés précis et significatifs en quelques secondes. Idéal pour améliorer la visibilité sur les moteurs de recherche, cibler le contenu et prendre des décisions fondées sur des données.

Extraction des données Site web en HTML

Analyzing your prompt, please hold on...

An error occurred while retrieving the results. Please refresh the page and try again.