Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
Při práci s dokumenty je důležité být schopen snadno extrahovat obsah z určitého rozsahu v dokumentu. Obsah se však může skládat ze složitých prvků, jako jsou odstavce, tabulky, obrázky atd.
Bez ohledu na to, jaký obsah je třeba extrahovat, bude metoda extrahování tohoto obsahu vždy určena tím, které uzly jsou vybrány pro extrahování obsahu mezi. Mohou to být celé textové těla nebo jednoduché textové runy.
Existuje mnoho možných situací, a proto mnoho různých typů uzlů zvážit při získávání obsahu. Například, možná budete chtít extrahovat obsah mezi:
V některých situacích můžete dokonce potřebovat kombinovat různé typy uzlů, jako je například získávání obsahu mezi odstavcem a polem, nebo mezi spuštěním a záložkou.
Tento článek poskytuje implementaci kódu pro získávání textu mezi různými uzly, stejně jako příklady běžných scénářů.
Často je cílem výpisu obsahu duplikovat nebo uložit samostatně v novém dokumentu. Například můžete extrahovat obsah a:
Toho lze snadno dosáhnout použitím Aspose.Words a provádění kódu níže.
Kód v tomto oddíle řeší všechny výše popsané možné situace jednou zobecněnou a opakovaněnou metodou. Obecný přehled této techniky zahrnuje:
Chcete-li získat obsah z vašeho dokumentu musíte volat ExtractContent metoda níže a předat příslušné parametry. Základem této metody je nalezení uzlů na úrovni bloků (odstavce a tabulky) a jejich klonování k vytvoření stejných kopií. Pokud jsou prošlé značkovací uzly blokovou úrovní, pak je metoda schopna obsah na této úrovni jednoduše zkopírovat a přidat do pole.
Pokud jsou však markerové uzly inline (dítě odstavce) pak se situace stává složitější, protože je nutné rozdělit odstavec v inline uzlu, ať už je to run, záložková pole atd. Obsah klonovaných mateřských uzlů, které nejsou mezi markery přítomny, se odstraní. Tento proces se používá k zajištění toho, aby inline uzly stále zachovaly formátování základního odstavce. Metoda bude také provádět kontroly uzlů, které prošly jako parametry, a hodit výjimku, pokud je buď uzel neplatný. Parametry, které mají být předány této metodě, jsou:
Provádění ExtractContent metoda, kterou můžete najít n Aspose.Words GitHub. Tato metoda bude uvedena ve scénářích uvedených v tomto článku.
Budeme také definovat vlastní metodu snadno generovat dokument z extrahovaných uzlů. Tato metoda se používá v mnoha níže uvedených scénářích a jednoduše vytváří nový dokument a do něj dováží extrahovaný obsah.
Následující příklad kódu ukazuje, jak vzít seznam uzlů a vloží je do nového dokumentu:
To ukazuje, jak použít výše uvedenou metodu k získání obsahu mezi konkrétními odstavci. V tomto případě chceme získat tělo dopisu nalezeného v první polovině dokumentu. Můžeme říci, že to je mezi 7. a 11. odstavec.
Tento úkol plní následující kód. Příslušné odstavce jsou extrahovány pomocí GetChild metoda na dokumentu a předávání stanovených indexů. Pak předáme tyto uzly do ExtractContent metoda a uvést, že jsou zahrnuty do extrakce. Tato metoda vrátí zkopírovaný obsah mezi tyto uzly, které jsou pak vloženy do nového dokumentu.
Následující příklad kódu ukazuje, jak extrahovat obsah mezi konkrétními odstavci pomocí ExtractContent metoda výše:
Můžeme extrahovat obsah mezi libovolnými kombinacemi úrovně bloku nebo inline uzlů. V tomto scénáři níže budeme extrahovat obsah mezi prvním odstavcem a tabulkou v druhé části včetně. Získáme markery uzlů voláním FirstParagraph a GetChild metody druhého oddílu dokumentu pro získání vhodného Paragraph a Table uzly. Pro malou variaci nechť místo toho zdvojí obsah a vloží jej pod originál.
Následující příklad kódu ukazuje, jak extrahovat obsah mezi odstavcem a tabulkou pomocí ExtractContent metoda:
Možná budete muset extrahovat obsah mezi odstavci stejného nebo odlišného stylu, například mezi odstavci označenými stylem záhlaví. Níže uvedený kód ukazuje, jak toho dosáhnout. Jedná se o jednoduchý příklad, který bude extrahovat obsah mezi prvními stupni ¶Heading 1¶ a ¶Header 3¶ styly, aniž by také extrahoval položky. K tomu nastavíme poslední parametr na false, která stanoví, že by neměly být zahrnuty značky.
Ve správném provedení by se to mělo spustit ve smyčce k získání obsahu mezi všemi odstavci těchto stylů z dokumentu. Extrahovaný obsah je zkopírován do nového dokumentu.
Následující příklad kódu ukazuje, jak extrahovat obsah mezi odstavci se specifickými styly pomocí ExtractContent metoda:
Můžete extrahovat obsah mezi inline uzly, jako je Run Taky. Runs z různých odstavců lze předat jako markery. Níže uvedený kód ukazuje, jak extrahovat konkrétní text mezi stejným Paragraph Uzel.
Následující příklad kódu ukazuje, jak extrahovat obsah mezi konkrétními kroky téhož odstavce pomocí ExtractContent metoda:
K použití pole jako značky, FieldStart Uzel by měl být předán. Poslední parametr k ExtractContent metoda definuje, zda má být celé pole zahrnuto nebo nikoli. Nechť extrahují obsah mezi polem sloučení FullName a odstavcem v dokumentu. Používáme MoveToMergeField způsob DocumentBuilder třída. Tohle vrátí FieldStart Uzel z názvu pole sloučení přešel na něj.
V našem případě nechte nastavit poslední parametr, který byl předán ExtractContent metoda k false vyloučit pole z těžby. Získáme extrahovaný obsah do PDF.
Následující příklad kódu ukazuje, jak extrahovat obsah mezi konkrétním polem a odstavcem v dokumentu pomocí ExtractContent metoda:
V dokumentu je obsah definovaný v záložce zapouzdřen BookmarkStart a záložekEnd uzly. Obsah nalezený mezi těmito dvěma uzly tvoří záložku. Můžete předat některý z těchto uzlů jako jakýkoli marker, a to i ty z různých záložek, pokud se počáteční značka objeví před koncovou značkou v dokumentu. Tento obsah budeme extrahovat do nového dokumentu pomocí níže uvedeného kódu. • IsInclusive volba parametru ukazuje, jak záložku uchovávat nebo vyřadit.
Následující příklad kódu ukazuje, jak extrahovat obsah odkazovaný na záložku pomocí ExtractContent metoda:
Komentář se skládá z KomentářRangeStart, KomentářRangeEnd a Komentář uzly. Všechny tyto uzly jsou inline. První dva uzly zapoutají obsah v dokumentu, na který odkazuje komentář, jak je vidět v screenshotu níže.
• Comment Uzel samotný je InlineStory který může obsahovat odstavce a běží. Představuje poselství komentáře, jak je vnímáno jako bublina komentáře v přehledové tabuli. Protože tento uzel je inline a potomek těla můžete také extrahovat obsah zevnitř této zprávy.
V komentáři je uveden nadpis, první odstavec a tabulka ve druhém oddíle. Nechť tuto poznámku extrahují do nového dokumentu. • IsInclusive možnost diktuje, zda je komentář sám o sobě zachován nebo vyřazen.
Následující příklad kódu ukazuje, jak to udělat:
Použijte DocumentVisitor třída k provedení tohoto scénáře využití. Tato třída odpovídá známému designu návštěvníka. S DocumentVisitor , můžete definovat a provádět vlastní operace, které vyžadují počet nad stromem dokumentu.
DocumentVisitor poskytuje soubor VisitXXX metody, které se používají, pokud se nachází určitý dokumentový prvek (noda). Například: VisitParagraphStart se volá, když se najde začátek textového odstavce a VisitParagraphEnd volá, když je nalezen konec textového odstavce. Každý DocumentVisitor.VisitXXX metoda přijímá odpovídající objekt, se kterým se setká, takže jej můžete použít podle potřeby (řekněme načíst formátování), např. obojí DocumentVisitor.VisitParagraphStart a DocumentVisitor.VisitParagraphEnd přijmout Paragraph objekt.
Každý DocumentVisitor.VisitXXX metoda vrací a VisitorAction hodnota, která kontroluje počet uzlů. Můžete požádat buď pokračovat v výčtu, přeskočit aktuální uzel (ale pokračovat v výčtu), nebo zastavit počet uzlů.
To jsou kroky, které byste měli sledovat programově určit a extrahovat různé části dokumentu:
DocumentVisitor poskytuje výchozí implementace pro všechny DocumentVisitor.VisitXXX metody. Díky tomu je snazší vytvořit nové návštěvníky dokumentů, protože pouze metody potřebné pro konkrétního návštěvníka je třeba přepsat. Není nutné překračovat všechny metody návštěvníků.
Následující příklad ukazuje, jak použít vzor Návštěvníka k přidání nových operací do Aspose.Words model objektu. V tomto případě vytvoříme jednoduchý konvertor dokumentu do textového formátu:
Způsoby, jak získat text z dokumentu jsou:
Node.GetText a Node.ToStringA Slovní dokument může obsahovat kontrolní znaky, které označují zvláštní prvky jako pole, konec buňky, konec sekce atd. Úplný seznam možných znaků Word control je definován v ControlChar třída. • Node.GetText metoda vrací text se všemi znaky ovládacího znaku přítomnými v uzlu.
Volání ToString vrací prostý text zobrazující dokument pouze bez kontrolních znaků. Další informace o vývozu jako prostý text viz následující oddíl “Using SaveFormat.Text”.
Následující příklad kódu ukazuje rozdíl mezi voláním GetText a ToString metody na uzel:
SaveFormat.TextTento příklad uloží dokument takto:
Následující příklad kódu ukazuje, jak uložit dokument ve formátu TXT:
Možná budete muset extrahovat obrázky dokumentů, abyste mohli plnit některé úkoly. Aspose.Words umožňuje vám to také udělat.
Následující příklad kódu ukazuje, jak extrahovat obrázky z dokumentu:
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.