Inhoud tussen knooppunten uitpakken in een document

Bij het werken met documenten is het belangrijk om inhoud binnen een document gemakkelijk uit een specifiek bereik te halen. De inhoud kan echter bestaan uit complexe elementen zoals paragrafen, tabellen, afbeeldingen, enz.

Ongeacht welke inhoud moet worden gewonnen, de methode om dat gehalte te extraheren zal altijd worden bepaald door welke knooppunten worden geselecteerd om het gehalte tussen te extraheren. Dit kunnen hele tekstlichamen zijn of eenvoudige tekstruns.

Er zijn veel mogelijke situaties en daarom veel verschillende knooppunttypes te overwegen bij het extraheren van inhoud. U zou bijvoorbeeld inhoud tussen:

Twee specifieke paragrafen
Specifieke teksten
Velden van verschillende soorten, zoals merge velden
Begin en eindbereik van een bladwijzer of commentaar
Diverse teksten in afzonderlijke afdelingen

In sommige situaties kan het zelfs nodig zijn om verschillende knooppunttypes te combineren, zoals het extraheren van inhoud tussen een alinea en een veld, of tussen een run en een bladwijzer.

Dit artikel biedt de code implementatie voor het extraheren van tekst tussen verschillende knooppunten, evenals voorbeelden van gemeenschappelijke scenario’s.

Deze voorbeelden zijn slechts enkele demonstraties van de vele mogelijkheden. We zijn van plan om de tekst extractie functionaliteit deel uit te maken van het publiek API in de toekomst, en er zal geen extra code nodig zijn. In de tussentijd, voel je vrij om uw verzoeken over deze functionaliteit op de Aspose.Words forum.

Waarom inhoud uitpakken

Vaak is het doel van het extraheren van de inhoud om het apart te dupliceren of op te slaan in een nieuw document. U kunt bijvoorbeeld inhoud extraheren en:

Kopieer het in een apart document
Een bepaald deel van een document omzetten naar PDF of afbeelding
De inhoud in het document vele malen dupliceren
Werk met uitgepakte inhoud gescheiden van de rest van het document

Dit kan gemakkelijk worden bereikt met behulp van Aspose.Words en de implementatie van de code hieronder.

Algoritme voor het extraheren van inhoud

De code in deze sectie behandelt alle hierboven beschreven situaties met één algemene en herbruikbare methode. De algemene opzet van deze techniek omvat:

Het verzamelen van de knooppunten die het gebied van inhoud dicteren dat uit uw document zal worden gehaald. Het ophalen van deze knooppunten wordt behandeld door de gebruiker in hun code, gebaseerd op wat ze willen worden verwijderd.
Deze knooppunten doorgeven aan de ExtractContent de hieronder beschreven methode. U moet ook een booleaanse parameter doorgeven die aangeeft of deze knooppunten, die als markers fungeren, al dan niet in de extractie moeten worden opgenomen.
Het ophalen van een lijst van gekloonde inhoud (gekopieerde knooppunten) die moet worden uitgepakt. U kunt deze lijst van knooppunten op elke toepasselijke manier gebruiken, bijvoorbeeld door een nieuw document aan te maken dat alleen de geselecteerde inhoud bevat.

Hoe de inhoud uit te pakken

Om de inhoud uit uw document te halen moet u de inhoud uitpakken methode hieronder en geef de juiste parameters. De onderliggende basis van deze methode omvat het vinden van blokniveauknooppunten (paragrafen en tabellen) en het klonen ervan om identieke kopieën te maken. Als de aangegeven knooppunten blokniveau zijn dan is de methode in staat om gewoon de inhoud op dat niveau te kopiëren en toe te voegen aan de array.

Maar als de marker knooppunten zijn inline (een kind van een paragraaf) dan wordt de situatie complexer, omdat het nodig is om de paragraaf op de inline knooppunt te splitsen, of het nu een run, bladwijzer velden etc. Inhoud in de gekloonde oudernodes die niet aanwezig zijn tussen de markers wordt verwijderd. Dit proces wordt gebruikt om ervoor te zorgen dat de inline-knooppunten de opmaak van de alinea van de moeder blijven behouden. De methode zal ook controles uitvoeren op de knooppunten doorgegeven als parameters en gooit een uitzondering als beide knooppunten ongeldig is. De parameters die aan deze methode moeten worden doorgegeven zijn:

startNode en eindNode. De eerste twee parameters zijn de knooppunten die bepalen waar de extractie van de inhoud begint en eindigt op respectievelijk. Deze knooppunten kunnen zowel blokniveau (Paragraph, Table of inlineniveau (bv. Run, FieldStart, BookmarkStart enz.):
1. Om een veld te passeren moet je de bijbehorende FieldStart object.
2. Om bladwijzers te passeren, de BookmarkStart en BookmarkEnd Knooppunten moeten worden doorgegeven.
3. Om opmerkingen door te geven, de CommentRangeStart en CommentRangeEnd knooppunten moeten worden gebruikt.
isInclusief. Bepaalt of de markeringen al dan niet in de extractie zijn opgenomen. Als deze optie ingesteld is false en dezelfde knoop of opeenvolgende knooppunten worden doorgegeven, dan wordt een lege lijst teruggegeven:
1. FieldStart knooppunt wordt doorgegeven dan deze optie definieert of het hele veld moet worden opgenomen of uitgesloten.
2. BookmarkStart of BookmarkEnd node is doorgegeven, deze optie definieert of de bladwijzer is opgenomen of alleen de inhoud tussen de bladwijzer range.
3. CommentRangeStart of CommentRangeEnd node is doorgegeven, deze optie definieert of het commentaar zelf moet worden opgenomen of alleen de inhoud in het commentaarbereik.

De uitvoering van de inhoud uitpakken methode kunt u vinden Hier. Deze methode zal in de scenario’s in dit artikel worden genoemd.

We zullen ook een aangepaste methode definiëren om gemakkelijk een document te genereren van uitgepakte knooppunten. Deze methode wordt gebruikt in veel van de scenario’s hieronder en maakt gewoon een nieuw document en importeert de gewonnen inhoud in het.

Het volgende voorbeeld van code laat zien hoe je een lijst van knooppunten neemt en ze in een nieuw document invoegt:

Inhoud tussen alinea’s uitpakken

Dit toont aan hoe de hierboven beschreven methode moet worden gebruikt om het gehalte tussen specifieke alinea’s te extraheren. In dit geval willen we de inhoud van de brief uit de eerste helft van het document halen. Wij zien dat dit tussen de 7e en de 11e paragraaf ligt.

De onderstaande code voert deze taak uit. De desbetreffende alinea’s worden met behulp van de CompositeNode.get_child methode op het document en het doorgeven van de gespecificeerde indices. Vervolgens geven we deze knooppunten door aan de inhoud uitpakken methode en vermelden dat deze in de extractie moeten worden opgenomen. Deze methode zal de gekopieerde inhoud tussen deze knooppunten teruggeven die vervolgens in een nieuw document worden ingevoegd.

Het volgende voorbeeld van de code laat zien hoe de inhoud tussen specifieke paragrafen met behulp van de inhoud uitpakken methode hierboven: