Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
Podczas pracy z dokumentami ważna jest możliwość łatwego wyodrębnienia treści z określonego zakresu w dokumencie. Treść może jednak składać się ze skomplikowanych elementów, takich jak akapity, tabele, obrazy itp.
Niezależnie od tego, jaka treść ma zostać wyodrębniona, metoda wyodrębnienia tej treści będzie zawsze określona na podstawie tego, które węzły zostaną wybrane, pomiędzy którymi ma zostać wyodrębniona treść. Mogą to być całe treści tekstowe lub proste ciągi tekstowe.
Istnieje wiele możliwych sytuacji, a zatem wiele różnych typów węzłów, które należy wziąć pod uwagę podczas wyodrębniania treści. Na przykład możesz chcieć wyodrębnić zawartość pomiędzy:
W niektórych sytuacjach może być nawet konieczne połączenie różnych typów węzłów, na przykład wyodrębnienie treści między akapitem a polem lub między uruchomieniem a zakładką.
W tym artykule przedstawiono implementację kodu służącą do wyodrębniania tekstu między różnymi węzłami, a także przykłady typowych scenariuszy.
Często celem wyodrębnienia treści jest powielenie jej lub osobne zapisanie w nowym dokumencie. Można na przykład wyodrębnić treść i:
Można to łatwo osiągnąć za pomocą Aspose.Words i poniższej implementacji kodu.
Kod w tej sekcji odnosi się do wszystkich możliwych sytuacji opisanych powyżej za pomocą jednej uogólnionej metody wielokrotnego użytku. Ogólny zarys tej techniki obejmuje:
Aby wyodrębnić treść z dokumentu należy wywołać poniższą metodę ekstrakt_zawartość i przekazać odpowiednie parametry. Podstawą tej metody jest znajdowanie węzłów na poziomie bloków (akapitów i tabel) i klonowanie ich w celu utworzenia identycznych kopii. Jeśli przekazane węzły znaczników są na poziomie bloków, metoda może po prostu skopiować zawartość na tym poziomie i dodać ją do tablicy.
Jeśli jednak węzły znaczników są wbudowane (potomek akapitu), sytuacja staje się bardziej złożona, ponieważ konieczne jest podzielenie akapitu w węźle wbudowanym, niezależnie od tego, czy jest to przebieg, pola zakładek itp. Treść w sklonowanych węzłach nadrzędnych nie obecny pomiędzy znacznikami jest usuwany. Proces ten ma na celu zapewnienie, że węzły wbudowane nadal zachowają formatowanie akapitu nadrzędnego. Metoda przeprowadzi również sprawdzenie węzłów przekazanych jako parametry i zgłosi wyjątek, jeśli którykolwiek z węzłów jest nieprawidłowy. Parametry, które należy przekazać do tej metody to:
Implementację metody ekstrakt_zawartość można znaleźć w Tutaj. Ta metoda zostanie omówiona w scenariuszach w tym artykule.
Zdefiniujemy również niestandardową metodę łatwego generowania dokumentu z wyodrębnionych węzłów. Ta metoda jest używana w wielu poniższych scenariuszach i polega po prostu na utworzeniu nowego dokumentu i zaimportowaniu do niego wyodrębnionej zawartości.
Poniższy przykład kodu pokazuje, jak pobrać listę węzłów i wstawić je do nowego dokumentu:
To pokazuje, jak użyć powyższej metody do wyodrębnienia treści pomiędzy określonymi akapitami. W tym przypadku chcemy wyodrębnić treść listu znajdującą się w pierwszej połowie dokumentu. Możemy powiedzieć, że jest to pomiędzy akapitem 7 a 11.
Poniższy kod realizuje to zadanie. Odpowiednie akapity są wyodrębniane z dokumentu metodą CompositeNode.get_child i przekazują określone indeksy. Następnie przekazujemy te węzły do metody ekstrakt_zawartość i stwierdzamy, że mają one zostać uwzględnione w ekstrakcji. Ta metoda zwróci skopiowaną treść pomiędzy tymi węzłami, która zostanie następnie wstawiona do nowego dokumentu.
Poniższy przykład kodu pokazuje, jak wyodrębnić treść pomiędzy określonymi akapitami przy użyciu powyższej metody ekstrakt_zawartość:
Możemy wyodrębnić treść pomiędzy dowolną kombinacją poziomów blokowych lub węzłów wbudowanych. W poniższym scenariuszu wyodrębnimy zawartość pomiędzy pierwszym akapitem a tabelą w drugiej sekcji włącznie. Węzły znaczników uzyskujemy wywołując metody Body.first_paragraph i CompositeNode.get_child w drugiej części dokumentu w celu pobrania odpowiednich węzłów Paragraph i Table. Aby uzyskać niewielką odmianę, zduplikujmy treść i wstawmy ją pod oryginałem.
Poniższy przykład kodu pokazuje, jak wyodrębnić zawartość między akapitem a tabelą przy użyciu metody ekstrakt_zawartość:
Może zaistnieć potrzeba wyodrębnienia treści pomiędzy akapitami o tym samym lub innym stylu, na przykład pomiędzy akapitami oznaczonymi stylami nagłówków.
Poniższy kod pokazuje, jak to osiągnąć. Jest to prosty przykład, który wyodrębni zawartość pomiędzy pierwszym wystąpieniem stylów “Nagłówek 1” i “Nagłówek 3” bez wyodrębniania również nagłówków. Aby to zrobić, ustawiamy ostatni parametr na false, co określa, że węzły znaczników nie powinny być uwzględniane.
W prawidłowej implementacji powinno to zostać uruchomione w pętli, aby wyodrębnić zawartość pomiędzy wszystkimi akapitami tych stylów z dokumentu. Wyodrębniona treść jest kopiowana do nowego dokumentu.
Poniższy przykład kodu pokazuje, jak wyodrębnić treść pomiędzy akapitami o określonych stylach przy użyciu metody ekstrakt_zawartość:
Możesz także wyodrębnić zawartość pomiędzy węzłami wbudowanymi, takimi jak Run. Jako znaczniki można przekazywać przebiegi z różnych akapitów. Poniższy kod pokazuje, jak wyodrębnić określony tekst pomiędzy tym samym węzłem Paragraph.
Poniższy przykład kodu pokazuje, jak wyodrębnić treść pomiędzy określonymi ciągami tego samego akapitu przy użyciu metody ekstrakt_zawartość:
Aby użyć pola jako znacznika, należy przekazać węzeł FieldStart. Ostatni parametr metody ekstrakt_zawartość określa, czy ma zostać uwzględnione całe pole, czy nie. Wyodrębnijmy treść pomiędzy polem scalania “Imię i nazwisko” a akapitem w dokumencie. Używamy metody DocumentBuilder.move_to_merge_field klasy DocumentBuilder. Spowoduje to zwrócenie węzła FieldStart z przekazanej mu nazwy pola scalania.
W naszym przypadku ustawmy ostatni parametr przekazywany do metody ekstrakt_zawartość na False, aby wykluczyć pole z ekstrakcji. Wyodrębnioną treść wyrenderujemy do formatu PDF.
Poniższy przykład kodu pokazuje, jak wyodrębnić treść pomiędzy określonym polem a akapitem w dokumencie przy użyciu metody ekstrakt_zawartość:
W dokumencie treść zdefiniowana w zakładce jest hermetyzowana przez węzły BookmarkStart i BookmarkEnd. Treść znaleziona pomiędzy tymi dwoma węzłami tworzy zakładkę. Możesz przekazać którykolwiek z tych węzłów jako dowolny znacznik, nawet z różnych zakładek, pod warunkiem, że znacznik początkowy pojawi się przed znacznikiem końcowym w dokumencie. Wyodrębnimy tę treść do nowego dokumentu, korzystając z poniższego kodu. Opcja parametru jest inkluzywny pokazuje, jak zachować lub odrzucić zakładkę.
Poniższy przykład kodu pokazuje, jak wyodrębnić treść odwołującą się do zakładki przy użyciu metody ekstrakt_zawartość:
Komentarz składa się z węzłów CommentRangeStart, CommentRangeEnd i Comment. Wszystkie te węzły są wbudowane. Pierwsze dwa węzły hermetyzują treść dokumentu, do której odwołuje się komentarz, jak widać na zrzucie ekranu poniżej. Sam węzeł Comment jest plikiem InlineStory, który może zawierać akapity i przebiegi. Reprezentuje treść komentarza widzianą jako dymek komentarza w okienku recenzji. Ponieważ ten węzeł jest wbudowany i jest potomkiem treści, możesz także wyodrębnić treść z wnętrza tej wiadomości.
Komentarz obejmuje nagłówek, pierwszy akapit i tabelę w drugiej sekcji. Wyodrębnijmy ten komentarz do nowego dokumentu. Opcja jest inkluzywny określa, czy sam komentarz ma zostać zachowany, czy odrzucony.
Poniższy przykład kodu pokazuje, jak to zrobić:
Sposoby pobierania tekstu z dokumentu to:
Dokument programu Word może zawierać znaki sterujące, które oznaczają elementy specjalne, takie jak pole, koniec komórki, koniec sekcji itp. Pełna lista możliwych znaków sterujących programu Word jest zdefiniowana w klasie ControlChar. Metoda Node.get_text zwraca tekst zawierający wszystkie znaki sterujące występujące w węźle.
Wywołanie to_string zwraca tylko reprezentację dokumentu w postaci zwykłego tekstu, bez znaków kontrolnych. Aby uzyskać więcej informacji na temat eksportowania jako zwykły tekst, zobacz Korzystanie z formatu SaveFormat.TEXT
Poniższy przykład kodu pokazuje różnicę pomiędzy wywoływaniem metod get_text i to_string w węźle:
SaveFormat.TextW tym przykładzie dokument zapisuje się w następujący sposób:
Poniższy przykład kodu pokazuje, jak zapisać dokument w formacie TXT:
Wykonanie niektórych zadań może wymagać wyodrębnienia obrazów dokumentów. Aspose.Words pozwala również to zrobić.
Poniższy przykład kodu pokazuje, jak wyodrębnić obrazy z dokumentu:
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.