Inhoud tussen knooppunten uitpakken in een document

Bij het werken met documenten is het belangrijk om inhoud binnen een document gemakkelijk uit een specifiek bereik te halen. De inhoud kan echter bestaan uit complexe elementen zoals paragrafen, tabellen, afbeeldingen, enz.

Ongeacht welke inhoud moet worden gewonnen, de methode om dat gehalte te extraheren zal altijd worden bepaald door welke knooppunten worden geselecteerd om het gehalte tussen te extraheren. Dit kunnen hele tekstlichamen zijn of eenvoudige tekstruns.

Er zijn veel mogelijke situaties en daarom veel verschillende knooppunttypes te overwegen bij het extraheren van inhoud. U zou bijvoorbeeld inhoud tussen:

  • Twee specifieke paragrafen
  • Specifieke teksten
  • Velden van verschillende soorten, zoals merge velden
  • Begin en eindbereik van een bladwijzer of commentaar
  • Diverse teksten in afzonderlijke afdelingen

In sommige situaties kan het zelfs nodig zijn om verschillende knooppunttypes te combineren, zoals het extraheren van inhoud tussen een alinea en een veld, of tussen een run en een bladwijzer.

Dit artikel biedt de code implementatie voor het extraheren van tekst tussen verschillende knooppunten, evenals voorbeelden van gemeenschappelijke scenario’s.

Waarom inhoud uitpakken

Vaak is het doel van het extraheren van de inhoud om het apart te dupliceren of op te slaan in een nieuw document. U kunt bijvoorbeeld inhoud extraheren en:

  • Kopieer het in een apart document
  • Een bepaald deel van een document omzetten naar PDF of afbeelding
  • De inhoud in het document vele malen dupliceren
  • Werk met uitgepakte inhoud gescheiden van de rest van het document

Dit kan gemakkelijk worden bereikt met behulp van Aspose.Words en de implementatie van de code hieronder.

Algoritme voor het extraheren van inhoud

De code in deze sectie behandelt alle hierboven beschreven situaties met één algemene en herbruikbare methode. De algemene opzet van deze techniek omvat:

  1. Het verzamelen van de knooppunten die het gebied van inhoud dicteren dat uit uw document zal worden gehaald. Het ophalen van deze knooppunten wordt behandeld door de gebruiker in hun code, gebaseerd op wat ze willen worden verwijderd.
  2. Deze knooppunten doorgeven aan de ExtractContent de hieronder beschreven methode. U moet ook een booleaanse parameter doorgeven die aangeeft of deze knooppunten, die als markers fungeren, al dan niet in de extractie moeten worden opgenomen.
  3. Het ophalen van een lijst van gekloonde inhoud (gekopieerde knooppunten) die moet worden uitgepakt. U kunt deze lijst van knooppunten op elke toepasselijke manier gebruiken, bijvoorbeeld door een nieuw document aan te maken dat alleen de geselecteerde inhoud bevat.

Hoe de inhoud uit te pakken

Om de inhoud uit uw document te halen moet u de inhoud uitpakken methode hieronder en geef de juiste parameters. De onderliggende basis van deze methode omvat het vinden van blokniveauknooppunten (paragrafen en tabellen) en het klonen ervan om identieke kopieën te maken. Als de aangegeven knooppunten blokniveau zijn dan is de methode in staat om gewoon de inhoud op dat niveau te kopiëren en toe te voegen aan de array.

Maar als de marker knooppunten zijn inline (een kind van een paragraaf) dan wordt de situatie complexer, omdat het nodig is om de paragraaf op de inline knooppunt te splitsen, of het nu een run, bladwijzer velden etc. Inhoud in de gekloonde oudernodes die niet aanwezig zijn tussen de markers wordt verwijderd. Dit proces wordt gebruikt om ervoor te zorgen dat de inline-knooppunten de opmaak van de alinea van de moeder blijven behouden. De methode zal ook controles uitvoeren op de knooppunten doorgegeven als parameters en gooit een uitzondering als beide knooppunten ongeldig is. De parameters die aan deze methode moeten worden doorgegeven zijn:

  1. startNode en eindNode. De eerste twee parameters zijn de knooppunten die bepalen waar de extractie van de inhoud begint en eindigt op respectievelijk. Deze knooppunten kunnen zowel blokniveau (Paragraph, Table of inlineniveau (bv. Run, FieldStart, BookmarkStart enz.):
    1. Om een veld te passeren moet je de bijbehorende FieldStart object.
    2. Om bladwijzers te passeren, de BookmarkStart en BookmarkEnd Knooppunten moeten worden doorgegeven.
    3. Om opmerkingen door te geven, de CommentRangeStart en CommentRangeEnd knooppunten moeten worden gebruikt.
  2. isInclusief. Bepaalt of de markeringen al dan niet in de extractie zijn opgenomen. Als deze optie ingesteld is false en dezelfde knoop of opeenvolgende knooppunten worden doorgegeven, dan wordt een lege lijst teruggegeven:
    1. FieldStart knooppunt wordt doorgegeven dan deze optie definieert of het hele veld moet worden opgenomen of uitgesloten.
    2. BookmarkStart of BookmarkEnd node is doorgegeven, deze optie definieert of de bladwijzer is opgenomen of alleen de inhoud tussen de bladwijzer range.
    3. CommentRangeStart of CommentRangeEnd node is doorgegeven, deze optie definieert of het commentaar zelf moet worden opgenomen of alleen de inhoud in het commentaarbereik.

De uitvoering van de inhoud uitpakken methode kunt u vinden Hier. Deze methode zal in de scenario’s in dit artikel worden genoemd.

We zullen ook een aangepaste methode definiëren om gemakkelijk een document te genereren van uitgepakte knooppunten. Deze methode wordt gebruikt in veel van de scenario’s hieronder en maakt gewoon een nieuw document en importeert de gewonnen inhoud in het.

Het volgende voorbeeld van code laat zien hoe je een lijst van knooppunten neemt en ze in een nieuw document invoegt:

Inhoud tussen alinea’s uitpakken

Dit toont aan hoe de hierboven beschreven methode moet worden gebruikt om het gehalte tussen specifieke alinea’s te extraheren. In dit geval willen we de inhoud van de brief uit de eerste helft van het document halen. Wij zien dat dit tussen de 7e en de 11e paragraaf ligt.

De onderstaande code voert deze taak uit. De desbetreffende alinea’s worden met behulp van de CompositeNode.get_child methode op het document en het doorgeven van de gespecificeerde indices. Vervolgens geven we deze knooppunten door aan de inhoud uitpakken methode en vermelden dat deze in de extractie moeten worden opgenomen. Deze methode zal de gekopieerde inhoud tussen deze knooppunten teruggeven die vervolgens in een nieuw document worden ingevoegd.

Het volgende voorbeeld van de code laat zien hoe de inhoud tussen specifieke paragrafen met behulp van de inhoud uitpakken methode hierboven:

Inhoud uitpakken tussen verschillende soorten nodes

We kunnen inhoud extraheren tussen combinaties van blokniveau of inline knooppunten. In dit scenario hieronder zullen we de inhoud tussen de eerste alinea en de tabel in het tweede deel inclusief extraheren. We krijgen de markers knooppunten door te bellen Body.first_paragraph en CompositeNode.get_child methode op het tweede deel van het document om de juiste Paragraph en Table knooppunten. Voor een lichte variatie laten we in plaats daarvan dupliceren de inhoud en plaats het onder het origineel.

Het volgende voorbeeld van code laat zien hoe de inhoud tussen een alinea en een tabel met behulp van de inhoud uitpakken methode:

Inhoud tussen alinea’s uitpakken Gebaseerd op stijl

Het kan nodig zijn om de inhoud te extraheren tussen paragrafen van dezelfde of andere stijl, zoals tussen paragrafen gemarkeerd met kopstijlen.

De onderstaande code laat zien hoe dit te bereiken. Het is een eenvoudig voorbeeld dat de inhoud zal extraheren tussen de eerste instantie van de “Heading 1” en “Header 3” stijlen zonder ook de rubrieken te extraheren. Om dit te doen zetten we de laatste parameter op false, waarin staat dat de markerknooppunten niet mogen worden opgenomen.

Bij een correcte implementatie moet dit in een lus worden uitgevoerd om inhoud tussen alle paragrafen van deze stijlen uit het document te halen. De gewonnen inhoud wordt gekopieerd naar een nieuw document.

Het volgende voorbeeld van code laat zien hoe inhoud te extraheren tussen paragrafen met specifieke stijlen met behulp van de inhoud uitpakken methode:

Inhoud uitpakken tussen specifieke knoppen

U kunt inhoud extraheren tussen inline knooppunten zoals een Run Ook. Runs van verschillende paragrafen kan worden doorgegeven als markers. De onderstaande code laat zien hoe je een specifieke tekst tussen dezelfde Paragraph Node.

Het volgende voorbeeld van code laat zien hoe je inhoud tussen specifieke runs van dezelfde paragraaf met behulp van de inhoud uitpakken methode:

Inhoud met een veld uitpakken

Om een veld als marker te gebruiken, de FieldStart knooppunt moet worden doorgegeven. De laatste parameter van de inhoud uitpakken methode zal bepalen of het gehele veld moet worden opgenomen of niet. Laten we de inhoud uitpakken tussen het “FullName” en een paragraaf in het document. Wij gebruiken de DocumentBuilder.move_to_merge_field methode van DocumentBuilder Klasse. Dit zal de FieldStart knooppunt van de naam van het merge-veld doorgegeven aan het.

In ons geval laten we de laatste parameter die aan de inhoud uitpakken methode om False het veld van de extractie uitsluiten. We zullen de gewonnen inhoud naar PDF teruggeven.

Het volgende voorbeeld van code laat zien hoe inhoud tussen een specifiek veld en paragraaf in het document te extraheren met behulp van de inhoud uitpakken methode:

Inhoud uit een bladwijzer halen

In een document wordt de inhoud die wordt gedefinieerd binnen een bladwijzer ingekapseld door de BookmarkStart en BookmarkEnd knooppunten. Inhoud gevonden tussen deze twee knooppunten vormen de bladwijzer. U kunt een van deze knooppunten doorgeven als een markeerder, zelfs die van verschillende bladwijzers, zolang de startmarkering verschijnt voor de eindmarkering in het document. We zullen deze inhoud uitpakken in een nieuw document met de onderstaande code. De isInclusief parameter optie laat zien hoe de bladwijzer te behouden of weggooien.

Het volgende voorbeeld van code laat zien hoe u de inhoud waarnaar een bladwijzer verwijst kunt uitpakken met behulp van de inhoud uitpakken methode:

Inhoud uit een opmerking halen

Er is een opmerking gemaakt over de CommentRangeStart, CommentRangeEnd en Comment knooppunten. Al deze knopen zijn inline. De eerste twee nodes inkapselen de inhoud in het document dat wordt verwezen door het commentaar, zoals te zien in de screenshot hieronder. De Comment knooppunt zelf is een InlineStory die alinea’s en runs kunnen bevatten. Het vertegenwoordigt de boodschap van het commentaar als een commentaar zeepbel in het beoordelingspaneel. Aangezien dit knooppunt inline is en een afstammeling van een lichaam kun je ook de inhoud uit deze boodschap halen.

Het commentaar bevat de titel, eerste alinea en de tabel in het tweede deel. Laten we deze opmerking uitpakken in een nieuw document. De isInclusief optie dicteert als het commentaar zelf wordt gehouden of weggegooid.

Het volgende code voorbeeld laat zien hoe dit te doen:

Hoe alleen tekst uitpakken

De manieren om tekst uit het document op te halen zijn:

  • Gebruik Document.save om als platte tekst op te slaan in een bestand of stream
  • Gebruik Node.to_string en de SaveFormat.TEXT parameter. Intern slaat dit als tekst op in een geheugenstroom en geeft het resulterende tekenreeks terug
  • Gebruik Node.get_text tekst met alles ophalen Microsoft Word controle karakters inclusief veldcodes

Node.get_text en Node.to_string gebruiken

A Word-document kan controle karakters die speciale elementen zoals veld, einde van cel, einde van sectie, enz. aan te duiden bevatten. De volledige lijst van mogelijke Word control tekens wordt gedefinieerd in de ControlChar Klasse. De Node.get_text methode geeft tekst terug met alle controle karakter tekens aanwezig in het knooppunt.

Bellen to_string geeft de platte tekst van het document alleen terug zonder controletekens. Voor meer informatie over exporteren als platte tekst zie Gebruik SaveFormat.TEXT

Het volgende voorbeeld toont het verschil tussen het aanroepen van de get_text en to_string methoden op een knooppunt:

Gebruik SaveFormat.Text

Dit voorbeeld slaat het document als volgt op:

  • Filtreert veldtekens en veldcodes, vorm, voetnoot, endnote en commentaarverwijzingen
  • Vervangt einde van paragraaf ControlChar.Cr tekens met ControlChar.CrLf combinaties
  • Gebruikt UTF8 codering

Het volgende voorbeeld van code laat zien hoe u een document in TXT-formaat kunt opslaan:

Afbeeldingen uit vormen halen

Het kan nodig zijn om documentafbeeldingen uit te pakken om enkele taken uit te voeren. Aspose.Words laat je dit ook doen.

Het volgende voorbeeld van code laat zien hoe je afbeeldingen uit een document haalt: