Obsah výpisu mezi uzely v dokumentu

Při práci s dokumenty je důležité být schopen snadno extrahovat obsah z určitého rozsahu v dokumentu. Obsah se však může skládat ze složitých prvků, jako jsou odstavce, tabulky, obrázky atd.

Bez ohledu na to, jaký obsah je třeba extrahovat, bude metoda extrahování tohoto obsahu vždy určena tím, které uzly jsou vybrány pro extrahování obsahu mezi. Mohou to být celé textové těla nebo jednoduché textové runy.

Existuje mnoho možných situací, a proto mnoho různých typů uzlů zvážit při získávání obsahu. Například, možná budete chtít extrahovat obsah mezi:

Dva konkrétní odstavce
Specifické průběhy textu
Pole různých typů, jako například pole sloučení
Spustit a ukončit rozsah záložky nebo komentář
Různé části textu obsažené v oddělených sekcích

V některých situacích můžete dokonce potřebovat kombinovat různé typy uzlů, jako je například získávání obsahu mezi odstavcem a polem, nebo mezi spuštěním a záložkou.

Tento článek poskytuje implementaci kódu pro získávání textu mezi různými uzly, stejně jako příklady běžných scénářů.

Tyto příklady jsou jen několika ukázkami mnoha možností. Plánujeme, aby funkce extrakce textu byla součástí veřejnosti API v budoucnu a žádný další kód nebude nutný. Mezitím, neváhejte umístit své požadavky týkající se této funkce na Aspose.Words fórum.

Proč obsah výpisu

Často je cílem výpisu obsahu duplikovat nebo uložit samostatně v novém dokumentu. Například můžete extrahovat obsah a:

Zkopírujte to do samostatného dokumentu
Převést určitou část dokumentu na PDF nebo obrázek
Duplikovat obsah v dokumentu mnohokrát
Práce s extrahovaným obsahem odděleně od zbytku dokumentu

Toho lze snadno dosáhnout použitím Aspose.Words a provádění kódu níže.

Extrakční obsah Algoritmus

Kód v tomto oddíle řeší všechny výše popsané možné situace jednou zobecněnou a opakovaněnou metodou. Obecný přehled této techniky zahrnuje:

Shromažďování uzlů, které diktují obsah, který bude extrahován z vašeho dokumentu. Získávání těchto uzlů je řízeno uživatelem v jejich kódu, na základě toho, co chtějí být extrahovány.
Předání těchto uzlů ExtractContent metoda uvedená níže. Musíte také projít boolean parametr, který uvádí, zda tyto uzly, působící jako markery, by měly být zahrnuty do extrakce nebo ne.
Získávání seznamu klonovaného obsahu (kopírovaných uzlů), který má být extrahován. Tento seznam uzlů můžete použít jakýmkoliv způsobem, například vytvoření nového dokumentu obsahujícího pouze vybraný obsah.

Jak extrahovat obsah

Chcete-li získat obsah z vašeho dokumentu musíte volat extract_content metoda níže a předat příslušné parametry. Základem této metody je nalezení uzlů na úrovni bloků (odstavce a tabulky) a jejich klonování k vytvoření stejných kopií. Pokud jsou prošlé značkovací uzly blokovou úrovní, pak je metoda schopna obsah na této úrovni jednoduše zkopírovat a přidat do pole.

Pokud jsou však markerové uzly inline (dítě odstavce) pak se situace stává složitější, protože je nutné rozdělit odstavec v inline uzlu, ať už je to run, záložková pole atd. Obsah klonovaných mateřských uzlů, které nejsou mezi markery přítomny, se odstraní. Tento proces se používá k zajištění toho, aby inline uzly stále zachovaly formátování základního odstavce. Metoda bude také provádět kontroly uzlů, které prošly jako parametry, a hodit výjimku, pokud je buď uzel neplatný. Parametry, které mají být předány této metodě, jsou:

startNode a endNode. Prvními dvěma parametry jsou uzly, které definují, kde má být extrakce obsahu zahájena, resp. skončit. Tyto uzly mohou být oba blok úrovně (Paragraph, Table nebo inline úroveň (např. Run, FieldStart, BookmarkStart atd.:
1. Chcete-li projít pole byste měli projít odpovídající FieldStart objekt.
2. Chcete-li projít záložky, BookmarkStart a BookmarkEnd Uzel by měl projít.
3. Chcete-li předat připomínky, CommentRangeStart a CommentRangeEnd Měly by být použity uzly.
isInkluzivní. Určuje, zda jsou značky zahrnuty do extrakce nebo nikoli. Pokud je tato volba nastavena false a projdou stejným uzlem nebo po sobě jdoucími uzly, poté bude vrácen prázdný seznam:
1. Pokud a FieldStart Uzel je schválen pak tato volba definuje, zda má být celé pole zahrnuto nebo vyloučeno.
2. Pokud a BookmarkStart nebo BookmarkEnd Uzel je předán, tato volba definuje, zda je záložka zahrnuta nebo pouze obsah mezi záložek rozsah.
3. Pokud a CommentRangeStart nebo CommentRangeEnd Uzel je předán, tato volba definuje, zda má být komentář sám o sobě zahrnut nebo pouze obsah v rozsahu komentáře.

Provádění extract_content metoda, kterou můžete najít Tady. Tato metoda bude uvedena ve scénářích uvedených v tomto článku.

Budeme také definovat vlastní metodu snadno generovat dokument z extrahovaných uzlů. Tato metoda se používá v mnoha níže uvedených scénářích a jednoduše vytváří nový dokument a do něj dováží extrahovaný obsah.

Následující příklad kódu ukazuje, jak vzít seznam uzlů a vloží je do nového dokumentu:

Obsah výpisu mezi odstavci

To ukazuje, jak použít výše uvedenou metodu k získání obsahu mezi konkrétními odstavci. V tomto případě chceme získat tělo dopisu nalezeného v první polovině dokumentu. Můžeme říci, že to je mezi 7. a 11. odstavec.

Tento úkol plní následující kód. Příslušné odstavce jsou extrahovány pomocí CompositeNode.get_child metoda na dokumentu a předávání stanovených indexů. Pak předáme tyto uzly do extract_content metoda a uvést, že jsou zahrnuty do extrakce. Tato metoda vrátí zkopírovaný obsah mezi tyto uzly, které jsou pak vloženy do nového dokumentu.

Následující příklad kódu ukazuje, jak extrahovat obsah mezi konkrétními odstavci pomocí extract_content metoda výše: