Extraire le contenu entre les nœuds d'un document

Lorsque vous travaillez avec des documents, il est important de pouvoir extraire facilement le contenu d’une plage spécifique au sein d’un document. Cependant, le contenu peut être constitué d’éléments complexes tels que des paragraphes, des tableaux, des images, etc.

Quel que soit le contenu à extraire, la méthode d’extraction de ce contenu sera toujours déterminée par les nœuds sélectionnés pour extraire le contenu. Il peut s’agir de corps de texte entiers ou de simples passages de texte.

Il existe de nombreuses situations possibles et donc de nombreux types de nœuds différents à prendre en compte lors de l’extraction de contenu. Par exemple, vous souhaiterez peut-être extraire du contenu entre:

Deux paragraphes spécifiques
Des séquences de texte spécifiques
Champs de différents types, tels que les champs de fusion
Plages de début et de fin d’un signet ou d’un commentaire
Divers corps de texte contenus dans des sections distinctes

Dans certaines situations, vous devrez peut-être même combiner différents types de nœuds, comme extraire du contenu entre un paragraphe et un champ, ou entre une exécution et un signet.

Cet article fournit l’implémentation du code pour extraire du texte entre différents nœuds, ainsi que des exemples de scénarios courants.

Ces exemples ne sont que quelques démonstrations des nombreuses possibilités. Nous prévoyons que la fonctionnalité d’extraction de texte fasse partie du API public à l’avenir, et aucun code supplémentaire ne sera requis. En attendant, n’hésitez pas à poster vos demandes concernant cette fonctionnalité sur le Forum Aspose.Words.

Pourquoi extraire du contenu

Souvent, l’objectif de l’extraction du contenu est de le dupliquer ou de l’enregistrer séparément dans un nouveau document. Par exemple, vous pouvez extraire du contenu et:

Copiez-le dans un document séparé
Convertir une partie spécifique d’un document en PDF ou en image
Dupliquer le contenu du document plusieurs fois
Travailler avec du contenu extrait séparé du reste du document

Cela peut être facilement réalisé en utilisant Aspose.Words et l’implémentation du code ci-dessous.

Algorithme d’extraction de contenu

Le code de cette section aborde toutes les situations possibles décrites ci-dessus avec une méthode généralisée et réutilisable. Les grandes lignes de cette technique impliquent:

Rassembler les nœuds qui dictent la zone de contenu qui sera extraite de votre document. La récupération de ces nœuds est gérée par l’utilisateur dans son code, en fonction de ce qu’il souhaite extraire.
Passer ces nœuds à la méthode ExtractContent fournie ci-dessous. Vous devez également passer un paramètre booléen qui indique si ces nœuds, faisant office de marqueurs, doivent être inclus ou non dans l’extraction.
Récupération d’une liste de contenu cloné (nœuds copiés) spécifié pour être extrait. Vous pouvez utiliser cette liste de nœuds de n’importe quelle manière applicable, par exemple en créant un nouveau document contenant uniquement le contenu sélectionné.

Comment extraire du contenu

Pour extraire le contenu de votre document, vous devez appeler la méthode extrait_content ci-dessous et transmettre les paramètres appropriés. La base sous-jacente de cette méthode consiste à rechercher des nœuds au niveau des blocs (paragraphes et tableaux) et à les cloner pour créer des copies identiques. Si les nœuds marqueurs transmis sont au niveau du bloc, la méthode peut simplement copier le contenu à ce niveau et l’ajouter au tableau.

Cependant, si les nœuds marqueurs sont en ligne (un enfant d’un paragraphe), la situation devient alors plus complexe, car il est nécessaire de diviser le paragraphe au niveau du nœud en ligne, qu’il s’agisse d’une exécution, de champs de signet, etc. Le contenu des nœuds parents clonés n’est pas présent entre les marqueurs est supprimé. Ce processus est utilisé pour garantir que les nœuds en ligne conserveront toujours la mise en forme du paragraphe parent. La méthode exécutera également des vérifications sur les nœuds passés en paramètres et lèvera une exception si l’un des nœuds n’est pas valide. Les paramètres à passer à cette méthode sont:

noeud de démarrage et nœud de fin. Les deux premiers paramètres sont les nœuds qui définissent respectivement où l’extraction du contenu doit commencer et se terminer. Ces nœuds peuvent être à la fois au niveau bloc (Paragraph, Table ou au niveau inline (par exemple Run, FieldStart, BookmarkStart etc.):
1. Pour transmettre un champ, vous devez transmettre l’objet FieldStart correspondant.
2. Pour transmettre les signets, les nœuds BookmarkStart et BookmarkEnd doivent être transmis.
3. Pour transmettre des commentaires, les nœuds CommentRangeStart et CommentRangeEnd doivent être utilisés.
est inclusif. Définit si les marqueurs sont inclus dans l’extraction ou non. Si cette option est définie sur false et que le même nœud ou des nœuds consécutifs sont transmis, alors une liste vide sera renvoyée:
1. Si un nœud FieldStart est transmis, cette option définit si le champ entier doit être inclus ou exclu.
2. Si un nœud BookmarkStart ou BookmarkEnd est passé, cette option définit si le signet est inclus ou simplement le contenu entre la plage du signet.
3. Si un nœud CommentRangeStart ou CommentRangeEnd est transmis, cette option définit si le commentaire lui-même doit être inclus ou uniquement le contenu de la plage de commentaires.

La mise en œuvre de la méthode extrait_content, vous pouvez trouver ici. Cette méthode sera évoquée dans les scénarios de cet article.

Nous définirons également une méthode personnalisée pour générer facilement un document à partir des nœuds extraits. Cette méthode est utilisée dans de nombreux scénarios ci-dessous et crée simplement un nouveau document et y importe le contenu extrait.

L’exemple de code suivant montre comment prendre une liste de nœuds et les insérer dans un nouveau document:

Extraire le contenu entre les paragraphes

Cela montre comment utiliser la méthode ci-dessus pour extraire le contenu entre des paragraphes spécifiques. Dans ce cas, nous souhaitons extraire le corps de la lettre trouvée dans la première moitié du document. Nous pouvons dire que cela se situe entre le 7ème et le 11ème paragraphe.

Le code ci-dessous accomplit cette tâche. Les paragraphes appropriés sont extraits à l’aide de la méthode CompositeNode.get_child sur le document et en passant les indices spécifiés. Nous transmettons ensuite ces nœuds à la méthode extrait_content et déclarons qu’ils doivent être inclus dans l’extraction. Cette méthode renverra le contenu copié entre ces nœuds qui sera ensuite inséré dans un nouveau document.

L’exemple de code suivant montre comment extraire le contenu entre des paragraphes spécifiques à l’aide de la méthode extrait_content ci-dessus: