Obsah výpisu mezi uzely v dokumentu

Při práci s dokumenty je důležité být schopen snadno extrahovat obsah z určitého rozsahu v dokumentu. Obsah se však může skládat ze složitých prvků, jako jsou odstavce, tabulky, obrázky atd.

Bez ohledu na to, jaký obsah je třeba extrahovat, bude metoda extrahování tohoto obsahu vždy určena tím, které uzly jsou vybrány pro extrahování obsahu mezi. Mohou to být celé textové těla nebo jednoduché textové runy.

Existuje mnoho možných situací, a proto mnoho různých typů uzlů zvážit při získávání obsahu. Například, možná budete chtít extrahovat obsah mezi:

Dva konkrétní odstavce
Specifické průběhy textu
Pole různých typů, jako například pole sloučení
Spustit a ukončit rozsah záložky nebo komentář
Různé části textu obsažené v oddělených sekcích

V některých situacích můžete dokonce potřebovat kombinovat různé typy uzlů, jako je například získávání obsahu mezi odstavcem a polem, nebo mezi spuštěním a záložkou.

Tento článek poskytuje implementaci kódu pro získávání textu mezi různými uzly, stejně jako příklady běžných scénářů.

Tyto příklady jsou jen několika ukázkami mnoha možností. Plánujeme, aby funkce extrakce textu byla součástí veřejnosti API v budoucnu a žádný další kód nebude nutný. Mezitím, neváhejte umístit své požadavky týkající se této funkce na Aspose.Words fórum.

Proč obsah výpisu

Často je cílem výpisu obsahu duplikovat nebo uložit samostatně v novém dokumentu. Například můžete extrahovat obsah a:

Zkopírujte to do samostatného dokumentu
Převést určitou část dokumentu na PDF nebo obrázek
Duplikovat obsah v dokumentu mnohokrát
Práce s extrahovaným obsahem odděleně od zbytku dokumentu

Toho lze snadno dosáhnout použitím Aspose.Words a provádění kódu níže.

Extrakční obsah Algoritmus

Kód v tomto oddíle řeší všechny výše popsané možné situace jednou zobecněnou a opakovaněnou metodou. Obecný přehled této techniky zahrnuje:

Shromažďování uzlů, které diktují obsah, který bude extrahován z vašeho dokumentu. Získávání těchto uzlů je řízeno uživatelem v jejich kódu, na základě toho, co chtějí být extrahovány.
Předání těchto uzlů ExtractContent metoda uvedená níže. Musíte také projít boolean parametr, který uvádí, zda tyto uzly, působící jako markery, by měly být zahrnuty do extrakce nebo ne.
Získávání seznamu klonovaného obsahu (kopírovaných uzlů), který má být extrahován. Tento seznam uzlů můžete použít jakýmkoliv způsobem, například vytvoření nového dokumentu obsahujícího pouze vybraný obsah.

Jak extrahovat obsah

Chcete-li získat obsah z vašeho dokumentu musíte volat extract_content metoda níže a předat příslušné parametry. Základem této metody je nalezení uzlů na úrovni bloků (odstavce a tabulky) a jejich klonování k vytvoření stejných kopií. Pokud jsou prošlé značkovací uzly blokovou úrovní, pak je metoda schopna obsah na této úrovni jednoduše zkopírovat a přidat do pole.

Pokud jsou však markerové uzly inline (dítě odstavce) pak se situace stává složitější, protože je nutné rozdělit odstavec v inline uzlu, ať už je to run, záložková pole atd. Obsah klonovaných mateřských uzlů, které nejsou mezi markery přítomny, se odstraní. Tento proces se používá k zajištění toho, aby inline uzly stále zachovaly formátování základního odstavce. Metoda bude také provádět kontroly uzlů, které prošly jako parametry, a hodit výjimku, pokud je buď uzel neplatný. Parametry, které mají být předány této metodě, jsou:

startNode a endNode. Prvními dvěma parametry jsou uzly, které definují, kde má být extrakce obsahu zahájena, resp. skončit. Tyto uzly mohou být oba blok úrovně (Paragraph, Table nebo inline úroveň (např. Run, FieldStart, BookmarkStart atd.:
1. Chcete-li projít pole byste měli projít odpovídající FieldStart objekt.
2. Chcete-li projít záložky, BookmarkStart a BookmarkEnd Uzel by měl projít.
3. Chcete-li předat připomínky, CommentRangeStart a CommentRangeEnd Měly by být použity uzly.
isInkluzivní. Určuje, zda jsou značky zahrnuty do extrakce nebo nikoli. Pokud je tato volba nastavena false a projdou stejným uzlem nebo po sobě jdoucími uzly, poté bude vrácen prázdný seznam:
1. Pokud a FieldStart Uzel je schválen pak tato volba definuje, zda má být celé pole zahrnuto nebo vyloučeno.
2. Pokud a BookmarkStart nebo BookmarkEnd Uzel je předán, tato volba definuje, zda je záložka zahrnuta nebo pouze obsah mezi záložek rozsah.
3. Pokud a CommentRangeStart nebo CommentRangeEnd Uzel je předán, tato volba definuje, zda má být komentář sám o sobě zahrnut nebo pouze obsah v rozsahu komentáře.

Provádění extract_content metoda, kterou můžete najít Tady. Tato metoda bude uvedena ve scénářích uvedených v tomto článku.

Budeme také definovat vlastní metodu snadno generovat dokument z extrahovaných uzlů. Tato metoda se používá v mnoha níže uvedených scénářích a jednoduše vytváří nový dokument a do něj dováží extrahovaný obsah.

Následující příklad kódu ukazuje, jak vzít seznam uzlů a vloží je do nového dokumentu:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	@staticmethod
	def generate_document(src_doc: aw.Document, nodes):

	dst_doc = aw.Document()
	# Remove the first paragraph from the empty document.
	dst_doc.first_section.body.remove_all_children()

	# Import each node from the list into the new document. Keep the original formatting of the node.
	importer = aw.NodeImporter(src_doc, dst_doc, aw.ImportFormatMode.KEEP_SOURCE_FORMATTING)
	for node in nodes:
	import_node = importer.import_node(node, True)
	dst_doc.first_section.body.append_child(import_node)

	return dst_doc

view raw generate-document.py hosted with ❤ by GitHub

Obsah výpisu mezi odstavci

To ukazuje, jak použít výše uvedenou metodu k získání obsahu mezi konkrétními odstavci. V tomto případě chceme získat tělo dopisu nalezeného v první polovině dokumentu. Můžeme říci, že to je mezi 7. a 11. odstavec.

Tento úkol plní následující kód. Příslušné odstavce jsou extrahovány pomocí CompositeNode.get_child metoda na dokumentu a předávání stanovených indexů. Pak předáme tyto uzly do extract_content metoda a uvést, že jsou zahrnuty do extrakce. Tato metoda vrátí zkopírovaný obsah mezi tyto uzly, které jsou pak vloženy do nového dokumentu.

Následující příklad kódu ukazuje, jak extrahovat obsah mezi konkrétními odstavci pomocí extract_content metoda výše:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	start_para = doc.first_section.body.get_child(aw.NodeType.PARAGRAPH, 6, True).as_paragraph()
	end_para = doc.first_section.body.get_child(aw.NodeType.PARAGRAPH, 10, True).as_paragraph()
	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para, end_para, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_paragraphs.docx")

view raw extract-content-between-paragraphs.py hosted with ❤ by GitHub

Soubor vzorku tohoto příkladu si můžete stáhnout z Aspose.Words GitHub.

Obsah výpisu mezi různými typy uzlů

Můžeme extrahovat obsah mezi libovolnými kombinacemi úrovně bloku nebo inline uzlů. V tomto scénáři níže budeme extrahovat obsah mezi prvním odstavcem a tabulkou v druhé části včetně. Získáme značky uzlů voláním Body.first_paragraph a CompositeNode.get_child způsob, jakým lze získat příslušné údaje o druhém oddíle dokumentu Paragraph a Table uzly. Pro malou variaci nechť místo toho zdvojí obsah a vloží jej pod originál.

Následující příklad kódu ukazuje, jak extrahovat obsah mezi odstavcem a tabulkou pomocí extract_content metoda:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	start_para = doc.last_section.get_child(aw.NodeType.PARAGRAPH, 2, True).as_paragraph()
	end_table = doc.last_section.get_child(aw.NodeType.TABLE, 0, True).as_table()
	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para, end_table, True)

	# Let's reverse the array to make inserting the content back into the document easier.
	extracted_nodes.reverse()
	for extracted_node in extracted_nodes:
	end_table.parent_node.insert_after(extracted_node, end_table)

	doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_block_level_nodes.docx")

view raw extract-content-between-block-level-nodes.py hosted with ❤ by GitHub

Soubor vzorku tohoto příkladu si můžete stáhnout z Aspose.Words GitHub.

Obsah výpisu mezi odstavci Na základě stylu

Možná budete muset extrahovat obsah mezi odstavci stejného nebo odlišného stylu, například mezi odstavci označenými stylem záhlaví.

Níže uvedený kód ukazuje, jak toho dosáhnout. Jedná se o jednoduchý příklad, který bude extrahovat obsah mezi prvními stupni ¶Heading 1¶ a ¶Header 3¶ styly, aniž by také extrahoval položky. K tomu nastavíme poslední parametr na false, která stanoví, že by neměly být zahrnuty značky.

Ve správném provedení by se to mělo spustit ve smyčce k získání obsahu mezi všemi odstavci těchto stylů z dokumentu. Extrahovaný obsah je zkopírován do nového dokumentu.

Následující příklad kódu ukazuje, jak extrahovat obsah mezi odstavci se specifickými styly pomocí extract_content metoda:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	# Gather a list of the paragraphs using the respective heading styles.
	paras_style_heading1 = self.paragraphs_by_style_name(doc, "Heading 1")
	paras_style_heading3 = self.paragraphs_by_style_name(doc, "Heading 3")

	# Use the first instance of the paragraphs with those styles.
	start_para1 = paras_style_heading1[0]
	end_para1 = paras_style_heading3[0]

	# Extract the content between these nodes in the document. Don't include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para1, end_para1, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_paragraph_styles.docx")

view raw extract-content-between-paragraph-styles.py hosted with ❤ by GitHub

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	@staticmethod
	def paragraphs_by_style_name(doc: aw.Document, style_name: str):

	# Create an array to collect paragraphs of the specified style.
	paragraphs_with_style = []
	paragraphs = doc.get_child_nodes(aw.NodeType.PARAGRAPH, True)

	# Look through all paragraphs to find those with the specified style.
	for paragraph in paragraphs:
	paragraph = paragraph.as_paragraph()
	if paragraph.paragraph_format.style.name == style_name:
	paragraphs_with_style.append(paragraph)

	return paragraphs_with_style

view raw paragraphs-by-style-name.py hosted with ❤ by GitHub

Soubor vzorku tohoto příkladu si můžete stáhnout z Aspose.Words GitHub.

Obsah výpisu mezi konkrétními výsledky

Můžete extrahovat obsah mezi inline uzly, jako je Run Taky. Běhy z různých odstavců mohou být předány jako značky. Níže uvedený kód ukazuje, jak extrahovat konkrétní text mezi stejným Paragraph Uzel.

Následující příklad kódu ukazuje, jak extrahovat obsah mezi konkrétními kroky téhož odstavce pomocí extract_content metoda:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	para = doc.get_child(aw.NodeType.PARAGRAPH, 7, True).as_paragraph()
	start_run = para.runs[1]
	end_run = para.runs[4]

	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_run, end_run, True)
	for extracted_node in extracted_nodes:
	print(extracted_node.to_string(aw.SaveFormat.TEXT))

view raw extract-content-between-runs.py hosted with ❤ by GitHub

Soubor vzorku tohoto příkladu si můžete stáhnout z Aspose.Words GitHub.

Obsah výpisu pomocí pole

K použití pole jako značky, FieldStart Uzel by měl být předán. Poslední parametr k extract_content metoda definuje, zda má být celé pole zahrnuto nebo nikoli. Nechť extrahují obsah mezi polem sloučení FullName a odstavcem v dokumentu. Používáme DocumentBuilder.move_to_merge_field způsob DocumentBuilder třída. Tohle vrátí FieldStart Uzel z názvu pole sloučení přešel na něj.

V našem případě nechte nastavit poslední parametr, který byl předán extract_content metoda k False vyloučit pole z těžby. Získáme extrahovaný obsah do PDF.

Následující příklad kódu ukazuje, jak extrahovat obsah mezi konkrétním polem a odstavcem v dokumentu pomocí extract_content metoda:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")
	builder = aw.DocumentBuilder(doc)
	# Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	# We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder.move_to_merge_field("Fullname", False, False)

	# The builder cursor should be positioned at the start of the field.
	start_field = builder.current_node.as_field_start()
	end_para = doc.first_section.get_child(aw.NodeType.PARAGRAPH, 5, True).as_paragraph()
	# Extract the content between these nodes in the document. Don't include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_field, end_para, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_using_field.docx")

view raw extract-content-using-field.py hosted with ❤ by GitHub

Soubor vzorku tohoto příkladu si můžete stáhnout z Aspose.Words GitHub.

Extrahovat obsah ze záložky

V dokumentu je obsah definovaný v záložce zapouzdřen BookmarkStart a BookmarkEnd uzly. Obsah nalezený mezi těmito dvěma uzly tvoří záložku. Můžete předat některý z těchto uzlů jako jakýkoli marker, a to i ty z různých záložek, pokud se počáteční značka objeví před koncovou značkou v dokumentu. Tento obsah budeme extrahovat do nového dokumentu pomocí níže uvedeného kódu. • isInkluzivní volba parametru ukazuje, jak záložku uchovávat nebo vyřadit.

Následující příklad kódu ukazuje, jak extrahovat obsah odkazovaný na záložku pomocí extract_content metoda:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	bookmark = doc.range.bookmarks.get_by_name("Bookmark1")
	bookmark_start = bookmark.bookmark_start
	bookmark_end = bookmark.bookmark_end

	# Firstly, extract the content between these nodes, including the bookmark.
	extracted_nodes_inclusive = helper.ExtractContentHelper.extract_content(bookmark_start, bookmark_end, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_inclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_bookmark.including_bookmark.docx")

	# Secondly, extract the content between these nodes this time without including the bookmark.
	extracted_nodes_exclusive = helper.ExtractContentHelper.extract_content(bookmark_start, bookmark_end, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_exclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_bookmark.without_bookmark.docx")

view raw extract-content-between-bookmark.py hosted with ❤ by GitHub

Soubor vzorku tohoto příkladu si můžete stáhnout z Aspose.Words GitHub.

Obsah výpisu z komentáře

Komentář se skládá z CommentRangeStart, CommentRangeEnd a Comment uzly. Všechny tyto uzly jsou inline. První dva uzly zapoutají obsah v dokumentu, na který odkazuje komentář, jak je vidět v screenshotu níže. • Comment Uzel samotný je InlineStory který může obsahovat odstavce a běží. Představuje poselství komentáře, jak je vnímáno jako bublina komentáře v přehledové tabuli. Protože tento uzel je inline a potomek těla můžete také extrahovat obsah zevnitř této zprávy.

V komentáři je uveden nadpis, první odstavec a tabulka ve druhém oddíle. Nechť tuto poznámku extrahují do nového dokumentu. • isInkluzivní možnost diktuje, zda je komentář sám o sobě zachován nebo vyřazen.

Následující příklad kódu ukazuje, jak to udělat:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	comment_start = doc.get_child(aw.NodeType.COMMENT_RANGE_START, 0, True).as_comment_range_start()
	comment_end = doc.get_child(aw.NodeType.COMMENT_RANGE_END, 0, True).as_comment_range_end()

	# Firstly, extract the content between these nodes including the comment as well.
	extracted_nodes_inclusive = helper.ExtractContentHelper.extract_content(comment_start, comment_end, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_inclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_comment_range.including_comment.docx")

	# Secondly, extract the content between these nodes without the comment.
	extracted_nodes_exclusive = helper.ExtractContentHelper.extract_content(comment_start, comment_end, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_exclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_comment_range.without_comment.docx")

view raw extract-content-between-comment-range.py hosted with ❤ by GitHub

Soubor vzorku tohoto příkladu si můžete stáhnout z Aspose.Words GitHub.

Jak extrahovat pouze text

Způsoby, jak získat text z dokumentu jsou:

Použít Document.save uložit jako prostý text do souboru nebo streamu
Použít Node.to_string a projít SaveFormat.TEXT parametr. Interně to vyvolá uložení textu do paměti a vrací výsledný řetězec
Použít Node.get_text získat text se všemi Microsoft Word kontrolní znaky včetně kódů polí

Použití Node.get_text a Node.to_string

A Slovní dokument může obsahovat kontrolní znaky, které označují zvláštní prvky jako pole, konec buňky, konec sekce atd. Úplný seznam možných znaků Word control je definován v ControlChar třída. • Node.get_text metoda vrací text se všemi znaky ovládacího znaku přítomnými v uzlu.

Volání to_string vrací prostý text zobrazující dokument pouze bez kontrolních znaků. Další informace o vývozu jako prostý text viz Using SaveFormat.TEXT

Následující příklad kódu ukazuje rozdíl mezi voláním get_text a to_string metody na uzel:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document()
	builder = aw.DocumentBuilder(doc)

	builder.insert_field("MERGEFIELD Field")

	# When converted to text it will not retrieve fields code or special characters,
	# but will still contain some natural formatting characters such as paragraph markers etc.
	# This is the same as "viewing" the document as if it was opened in a text editor.
	print("ToString() Result: " + doc.to_string(aw.SaveFormat.TEXT))

view raw simple-extract-text.py hosted with ❤ by GitHub

Použití `SaveFormat.Text`

Tento příklad uloží dokument takto:

Filtruje znaky pole a kódy pole, tvar, poznámka pod čarou, poznámka pod čarou a poznámky
nahrazuje konec odstavce ControlChar.Cr Znaky s ControlChar.CrLf kombinace
Používá kódování UTF8

Následující příklad kódu ukazuje, jak uložit dokument ve formátu TXT:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Document.docx")
	doc.save(ARTIFACTS_DIR + "BaseConversions.docx_to_txt.txt")

view raw docx-to-txt.py hosted with ❤ by GitHub

Extrahovat obrázky z tvarů

Možná budete muset extrahovat obrázky dokumentů, abyste mohli plnit některé úkoly. Aspose.Words umožňuje vám to také udělat.

Následující příklad kódu ukazuje, jak extrahovat obrázky z dokumentu:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Images.docx")

	shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
	image_index = 0

	for shape in shapes:
	shape = shape.as_shape()
	if shape.has_image:
	image_extension = aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)
	image_file_name = "Image.ExportImages." + str(image_index) + image_extension

	# Note, if you have only an image (not a shape with a text and the image),
	# you can use shape.get_shape_renderer().save(...) method to save the image.
	shape.image_data.save(ARTIFACTS_DIR + image_file_name)
	image_index += 1

view raw extract-images.py hosted with ❤ by GitHub

Práce s rozsahy v Python Práce s hlavičkami a patkami

Obsah výpisu mezi uzely v dokumentu

Proč obsah výpisu

Extrakční obsah Algoritmus

Jak extrahovat obsah

Obsah výpisu mezi odstavci

Obsah výpisu mezi různými typy uzlů

Obsah výpisu mezi odstavci Na základě stylu

Obsah výpisu mezi konkrétními výsledky

Obsah výpisu pomocí pole

Extrahovat obsah ze záložky

Obsah výpisu z komentáře

Jak extrahovat pouze text

Použití Node.get_text a Node.to_string

Použití SaveFormat.Text

Extrahovat obrázky z tvarů

Použití `SaveFormat.Text`