Aspose.Words Document Object Model (DOM)
Aspose.Words Document Object Model (DOM) to reprezentacja dokumentu Word w pamięci. Aspose.Words DOM umożliwia programowe odczytywanie, manipulowanie i modyfikowanie zawartości i formatowania dokumentu programu Word.
W tej sekcji opisano główne klasy Aspose.Words DOM i ich relacje. Korzystając z klas Aspose.Words DOM, można uzyskać programowy dostęp do elementów dokumentu i formatowania.
Utwórz drzewo obiektów Document
Kiedy dokument jest wczytywany do Aspose.Words DOM, budowane jest drzewo obiektów, a różne typy elementów dokumentu źródłowego mają własne obiekty drzewa DOM o różnych właściwościach.
Zbuduj drzewo węzłów dokumentów
Kiedy Aspose.Words wczytuje dokument Word do pamięci, tworzy obiekty różnych typów, które reprezentują różne elementy dokumentu. Każdy ciąg tekstu, akapitu, tabeli lub sekcji jest węzłem i nawet sam dokument jest węzłem. Aspose.Words definiuje klasę dla każdego typu węzła dokumentu.
Drzewo dokumentów w Aspose.Words jest zgodne ze złożonym wzorcem projektowym:
- Wszystkie klasy węzłów ostatecznie wywodzą się z klasy Node, która jest klasą bazową w formacie Aspose.Words Document Object Model.
- Węzły, które mogą zawierać inne węzły, na przykład Section lub Paragraph, wywodzą się z klasy CompositeNode, która z kolei wywodzi się z klasy Node.
Poniższy diagram przedstawia dziedziczenie pomiędzy klasami węzłów Aspose.Words Document Object Model (DOM). Nazwy klas abstrakcyjnych podano kursywą.
Spójrzmy na przykład. Poniższy obraz przedstawia dokument Microsoft Word z różnymi typami treści.
Podczas wczytywania powyższego dokumentu do Aspose.Words DOM tworzone jest drzewo obiektów, jak pokazano na schemacie poniżej.
Document, Section, Paragraph, Table, Shape, Run i wszystkie inne elipsy na diagramie to obiekty Aspose.Words reprezentujące elementy dokumentu Word.
Zdobądź plik {#get-a-node-type} typu Node
Chociaż klasa Node jest wystarczająca do rozróżnienia różnych węzłów, Aspose.Words udostępnia wyliczenie NodeType w celu uproszczenia niektórych zadań API, takich jak wybieranie węzłów określonego typu.
Typ każdego węzła można uzyskać za pomocą właściwości Node.node_type. Ta właściwość zwraca wartość wyliczenia NodeType. Na przykład węzeł akapitu reprezentowany przez klasę Paragraph zwraca NodeType.PARAGRAPH, a węzeł tabeli reprezentowany przez klasę Table zwraca NodeType.TABLE.
Poniższy przykład pokazuje, jak uzyskać typ węzła za pomocą wyliczenia NodeType:
Nawigacja po drzewie dokumentów
Aspose.Words reprezentuje dokument jako drzewo węzłów, które umożliwia nawigację pomiędzy węzłami. W tej sekcji opisano, jak eksplorować i poruszać się po drzewie dokumentów w Aspose.Words.
Po otwarciu zaprezentowanego wcześniej przykładowego dokumentu w Eksploratorze dokumentów drzewo węzłów wygląda dokładnie tak, jak jest reprezentowane w Aspose.Words.
Relacje węzłów dokumentu
Węzły w drzewie mają między sobą relacje:
- Węzeł zawierający inny węzeł to parent.
- Węzeł zawarty w węźle nadrzędnym to child. Węzły podrzędne tego samego rodzica to węzły sibling.
- Węzeł root jest zawsze węzłem Document.
Węzły, które mogą zawierać inne węzły, wywodzą się z klasy CompositeNode, a wszystkie węzły ostatecznie wywodzą się z klasy Node. Te dwie klasy podstawowe zapewniają wspólne metody i właściwości do nawigacji i modyfikacji struktury drzewa.
Poniższy diagram obiektów UML przedstawia kilka węzłów przykładowego dokumentu i ich wzajemne relacje poprzez właściwości nadrzędne, podrzędne i równorzędne:
Dokument jest właścicielem węzła
Węzeł zawsze należy do konkretnego dokumentu, nawet jeśli został właśnie utworzony lub usunięty z drzewa, ponieważ istotne struktury całego dokumentu, takie jak style i listy, są przechowywane w węźle Document. Na przykład nie jest możliwe utworzenie Paragraph bez Document, ponieważ każdy akapit ma przypisany styl, który jest zdefiniowany globalnie dla dokumentu. Reguła ta jest używana podczas tworzenia nowych węzłów. Dodanie nowego Paragraph bezpośrednio do DOM wymaga przekazania obiektu dokumentu do konstruktora.
Tworząc nowy akapit przy użyciu DocumentBuilder, konstruktor zawsze ma powiązaną z nim klasę Document poprzez właściwość DocumentBuilder.document.
Poniższy przykład kodu pokazuje, że podczas tworzenia dowolnego węzła zawsze zdefiniowany jest dokument, który będzie właścicielem węzła:
Węzeł nadrzędny
Każdy węzeł ma rodzica określonego przez właściwość parent_node. Węzeł nie ma węzła nadrzędnego, tzn. parent_node to None w następujących przypadkach:
- Węzeł został właśnie utworzony i nie został jeszcze dodany do drzewa.
- Węzeł został usunięty z drzewa.
- To jest główny węzeł Document, który zawsze ma węzeł nadrzędny Brak.
Możesz usunąć węzeł z jego rodzica, wywołując metodę Node.remove. Poniższy przykładowy kod pokazuje, jak uzyskać dostęp do węzła nadrzędnego:
Węzły podrzędne
Najbardziej efektywnym sposobem uzyskania dostępu do węzłów podrzędnych CompositeNode jest użycie właściwości first_child i last_child, które zwracają odpowiednio pierwszy i ostatni węzeł podrzędny. Jeśli nie ma żadnych węzłów podrzędnych, te właściwości zwracają None.
CompositeNode udostępnia także kolekcję get_child_nodes umożliwiającą indeksowany lub wyliczeniowy dostęp do węzłów podrzędnych. Metoda get_child_nodes zwraca aktualną kolekcję węzłów, co oznacza, że przy każdej zmianie dokumentu, na przykład po usunięciu lub dodaniu węzłów, kolekcja get_child_nodes jest automatycznie aktualizowana.
Jeśli węzeł nie ma dziecka, metoda get_child_nodes zwraca pustą kolekcję. Możesz sprawdzić, czy CompositeNode zawiera jakiekolwiek węzły podrzędne, korzystając z właściwości has_child_nodes.
Poniższy przykład kodu pokazuje, jak wyliczyć bezpośrednie węzły podrzędne CompositeNode przy użyciu modułu wyliczającego dostarczonego przez kolekcję get_child_nodes:
Węzły rodzeństwa
Można uzyskać węzeł bezpośrednio poprzedzający lub następujący po określonym węźle, korzystając odpowiednio z właściwości previous_sibling i next_sibling. Jeśli węzeł jest ostatnim dzieckiem swojego rodzica, wówczas właściwością next_sibling jest None. I odwrotnie, jeśli węzeł jest pierwszym dzieckiem swojego rodzica, właściwością previous_sibling jest None.
Poniższy przykład kodu pokazuje, jak efektywnie odwiedzać wszystkie bezpośrednie i pośrednie węzły podrzędne węzła złożonego:
Wpisany dostęp do węzłów podrzędnych i nadrzędnych
Do tej pory omówiliśmy właściwości zwracające jeden z typów bazowych – Node lub CompositeNode. Czasami jednak zdarzają się sytuacje, w których może być konieczne rzutowanie wartości na konkretną klasę węzła, taką jak Run lub Paragraph. Oznacza to, że nie można całkowicie odejść od odlewania podczas pracy z plikiem Aspose.Words DOM, który jest złożony.
Aby zmniejszyć potrzebę rzutowania, większość klas Aspose.Words udostępnia właściwości i kolekcje zapewniające dostęp o jednoznacznie określonym typie. Istnieją trzy podstawowe wzorce dostępu wpisywanego:
- Węzeł nadrzędny udostępnia wpisane właściwości pierwszy_XXX i ostatni_XXX. Na przykład Document ma właściwości first_section i last_section. Podobnie Table ma właściwości takie jak first_row, last_row i inne.
- Węzeł nadrzędny udostępnia wpisaną kolekcję węzłów podrzędnych, takich jak Document.sections, Body.paragraphs i inne.
- Węzeł podrzędny zapewnia dostęp do swojego rodzica za pomocą wpisania, taki jak Run.parent_paragraph, Paragraph.parent_section i inne.
Wpisane właściwości to jedynie przydatne skróty, które czasami zapewniają łatwiejszy dostęp niż właściwości ogólne odziedziczone z Node.parent_node i CompositeNode.first_child.
Poniższy przykład kodu pokazuje, jak używać wpisanych właściwości w celu uzyskania dostępu do węzłów drzewa dokumentu: