Extrahieren Sie Inhalte zwischen Knoten in einem Dokument

Bei der Arbeit mit Dokumenten ist es wichtig, Inhalte aus einem bestimmten Bereich innerhalb eines Dokuments einfach extrahieren zu können. Der Inhalt kann jedoch aus komplexen Elementen wie Absätzen, Tabellen, Bildern usw. bestehen.

Unabhängig davon, welche Inhalte extrahiert werden müssen, wird die Methode zum Extrahieren dieser Inhalte immer davon bestimmt, welche Knoten zum Extrahieren von Inhalten ausgewählt werden. Dabei kann es sich um ganze Textkörper oder einfache Textläufe handeln.

Es gibt viele mögliche Situationen und daher viele verschiedene Knotentypen, die beim Extrahieren von Inhalten berücksichtigt werden müssen. Beispielsweise möchten Sie möglicherweise Inhalte zwischen Folgendem extrahieren:

Zwei spezifische Absätze
Spezifische Textabschnitte
Felder verschiedener Art, z. B. Zusammenführungsfelder
Start- und Endbereiche eines Lesezeichens oder Kommentars
Verschiedene Textteile in separaten Abschnitten

In einigen Situationen müssen Sie möglicherweise sogar verschiedene Knotentypen kombinieren, z. B. beim Extrahieren von Inhalten zwischen einem Absatz und einem Feld oder zwischen einem Lauf und einem Lesezeichen.

Dieser Artikel stellt die Code-Implementierung zum Extrahieren von Text zwischen verschiedenen Knoten sowie Beispiele für gängige Szenarios bereit.

Diese Beispiele sind nur einige Beispiele der vielen Möglichkeiten. Wir planen, dass die Textextraktionsfunktion in Zukunft Teil des öffentlichen API sein wird und kein zusätzlicher Code erforderlich sein wird. In der Zwischenzeit können Sie Ihre Anfragen zu dieser Funktionalität gerne im Aspose.Words-Forum posten.

Warum Inhalte extrahieren?

Das Ziel beim Extrahieren des Inhalts besteht häufig darin, ihn zu duplizieren oder separat in einem neuen Dokument zu speichern. Sie können beispielsweise Inhalte extrahieren und:

Kopieren Sie es in ein separates Dokument
Konvertieren Sie einen bestimmten Teil eines Dokuments in PDF oder Bild
Den Inhalt des Dokuments mehrmals duplizieren
Arbeiten Sie mit extrahierten Inhalten getrennt vom Rest des Dokuments

Dies kann leicht mit Aspose.Words und der folgenden Code-Implementierung erreicht werden.

Algorithmus zum Extrahieren von Inhalten

Der Code in diesem Abschnitt behandelt alle oben beschriebenen möglichen Situationen mit einer verallgemeinerten und wiederverwendbaren Methode. Der allgemeine Überblick über diese Technik umfasst:

Sammeln Sie die Knoten, die den Inhaltsbereich bestimmen, der aus Ihrem Dokument extrahiert wird. Das Abrufen dieser Knoten erfolgt durch den Benutzer in seinem Code, basierend auf dem, was er extrahieren möchte.
Übergabe dieser Knoten an die unten bereitgestellte ExtractContent-Methode. Sie müssen außerdem einen booleschen Parameter übergeben, der angibt, ob diese Knoten, die als Marker fungieren, in die Extraktion einbezogen werden sollen oder nicht.
Abrufen einer Liste geklonter Inhalte (kopierte Knoten), die extrahiert werden sollen. Sie können diese Knotenliste auf beliebige Weise verwenden, beispielsweise zum Erstellen eines neuen Dokuments, das nur den ausgewählten Inhalt enthält.

So extrahieren Sie Inhalte

Um den Inhalt aus Ihrem Dokument zu extrahieren, müssen Sie die unten stehende extract_content-Methode aufrufen und die entsprechenden Parameter übergeben. Die zugrunde liegende Grundlage dieser Methode besteht darin, Knoten auf Blockebene (Absätze und Tabellen) zu finden und sie zu klonen, um identische Kopien zu erstellen. Wenn die übergebenen Markierungsknoten auf Blockebene liegen, kann die Methode den Inhalt auf dieser Ebene einfach kopieren und dem Array hinzufügen.

Wenn die Markierungsknoten jedoch inline sind (ein untergeordnetes Element eines Absatzes), wird die Situation komplexer, da der Absatz am Inline-Knoten geteilt werden muss, sei es ein Lauf, Lesezeichenfelder usw. Inhalte in den geklonten übergeordneten Knoten sind nicht vorhanden Der zwischen den Markierungen vorhandene Wert wird entfernt. Dieser Prozess wird verwendet, um sicherzustellen, dass die Inline-Knoten weiterhin die Formatierung des übergeordneten Absatzes beibehalten. Die Methode führt außerdem Prüfungen für die als Parameter übergebenen Knoten durch und löst eine Ausnahme aus, wenn einer der Knoten ungültig ist. Die an diese Methode zu übergebenden Parameter sind:

startNode und endNode. Die ersten beiden Parameter sind die Knoten, die definieren, wo die Extraktion des Inhalts beginnen bzw. enden soll. Diese Knoten können sowohl auf Blockebene (Paragraph, Table) als auch auf Inline-Ebene (z. B. Run, FieldStart, BookmarkStart usw.) sein:
1. Um ein Feld zu übergeben, müssen Sie das entsprechende FieldStart-Objekt übergeben.
2. Um Lesezeichen zu übergeben, sollten die BookmarkStart- und BookmarkEnd-Knoten übergeben werden.
3. Zur Übergabe von Kommentaren sollten die Knoten CommentRangeStart und CommentRangeEnd verwendet werden.
istInklusive. Legt fest, ob die Marker in die Extraktion einbezogen werden oder nicht. Wenn diese Option auf false gesetzt ist und derselbe Knoten oder aufeinanderfolgende Knoten übergeben werden, wird eine leere Liste zurückgegeben:
1. Wenn ein FieldStart-Knoten übergeben wird, definiert diese Option, ob das gesamte Feld eingeschlossen oder ausgeschlossen werden soll.
2. Wenn ein BookmarkStart- oder BookmarkEnd-Knoten übergeben wird, definiert diese Option, ob das Lesezeichen enthalten ist oder nur der Inhalt zwischen dem Lesezeichenbereich.
3. Wenn ein CommentRangeStart- oder CommentRangeEnd-Knoten übergeben wird, definiert diese Option, ob der Kommentar selbst oder nur der Inhalt im Kommentarbereich enthalten sein soll.

Die Implementierung der extract_content-Methode finden Sie in Hier. Auf diese Methode wird in den Szenarien in diesem Artikel Bezug genommen.

Wir werden außerdem eine benutzerdefinierte Methode definieren, um auf einfache Weise ein Dokument aus extrahierten Knoten zu generieren. Diese Methode wird in vielen der unten aufgeführten Szenarien verwendet und erstellt einfach ein neues Dokument und importiert den extrahierten Inhalt darin.

Das folgende Codebeispiel zeigt, wie eine Liste von Knoten in ein neues Dokument eingefügt wird:

Extrahieren Sie Inhalte zwischen Absätzen

Dies zeigt, wie Sie mit der oben beschriebenen Methode Inhalte zwischen bestimmten Absätzen extrahieren. In diesem Fall möchten wir den Textkörper des Briefes extrahieren, der sich in der ersten Hälfte des Dokuments befindet. Wir können erkennen, dass dies zwischen dem 7. und 11. Absatz liegt.

Der folgende Code führt diese Aufgabe aus. Die entsprechenden Absätze werden mithilfe der CompositeNode.get_child-Methode aus dem Dokument extrahiert und die angegebenen Indizes übergeben. Anschließend übergeben wir diese Knoten an die extract_content-Methode und geben an, dass diese in die Extraktion einbezogen werden sollen. Diese Methode gibt den kopierten Inhalt zwischen diesen Knoten zurück, der dann in ein neues Dokument eingefügt wird.

Das folgende Codebeispiel zeigt, wie Sie den Inhalt zwischen bestimmten Absätzen mithilfe der oben genannten extract_content-Methode extrahieren: