แยกเนื้อหาระหว่างโหนดในเอกสาร

เมื่อทำงานกับเอกสาร สิ่งสำคัญคือต้องสามารถดึงเนื้อหาจากช่วงเฉพาะภายในเอกสารได้อย่างง่ายดาย อย่างไรก็ตาม เนื้อหาอาจประกอบด้วยองค์ประกอบที่ซับซ้อน เช่น ย่อหน้า ตาราง รูปภาพ ฯลฯ

ไม่ว่าเนื้อหาใดจะต้องถูกแยกออกมา วิธีการแยกเนื้อหานั้นจะถูกกำหนดโดยโหนดใดที่ถูกเลือกเพื่อแยกเนื้อหาระหว่างนั้นเสมอ สิ่งเหล่านี้อาจเป็นเนื้อหาข้อความทั้งหมดหรือการเรียกใช้ข้อความธรรมดา

มีสถานการณ์ที่เป็นไปได้มากมาย ดังนั้นโหนดประเภทต่างๆ มากมายที่ต้องพิจารณาเมื่อแยกเนื้อหา ตัวอย่างเช่น คุณอาจต้องการแยกเนื้อหาระหว่าง:

สองย่อหน้าเฉพาะ
การเรียกใช้ข้อความเฉพาะ
ช่องประเภทต่างๆ เช่น ช่องรวม
ช่วงเริ่มต้นและสิ้นสุดของบุ๊กมาร์กหรือความคิดเห็น
เนื้อหาข้อความต่าง ๆ ที่อยู่ในส่วนแยกกัน

ในบางสถานการณ์ คุณอาจต้องรวมประเภทโหนดที่แตกต่างกัน เช่น แยกเนื้อหาระหว่างย่อหน้าและช่อง หรือระหว่างการเรียกใช้และบุ๊กมาร์ก

บทความนี้ให้ข้อมูลการใช้งานโค้ดสำหรับการแยกข้อความระหว่างโหนดต่างๆ รวมถึงตัวอย่างของสถานการณ์ทั่วไป

ตัวอย่างเหล่านี้เป็นเพียงตัวอย่างเล็กๆ น้อยๆ ของความเป็นไปได้ต่างๆ มากมาย เราวางแผนให้ฟังก์ชันการแยกข้อความเป็นส่วนหนึ่งของ API สาธารณะในอนาคต และไม่จำเป็นต้องใช้รหัสเพิ่มเติม ในระหว่างนี้ โปรดโพสต์คำขอของคุณเกี่ยวกับฟังก์ชันการทำงานนี้บน ฟอรัม Aspose.Words ได้

ทำไมต้องแยกเนื้อหา

บ่อยครั้งที่เป้าหมายในการแยกเนื้อหาคือการทำซ้ำหรือบันทึกแยกกันในเอกสารใหม่ ตัวอย่างเช่น คุณสามารถแยกเนื้อหาและ:

คัดลอกลงในเอกสารแยกต่างหาก
แปลงส่วนเฉพาะของเอกสารเป็น PDF หรือรูปภาพ
ทำซ้ำเนื้อหาในเอกสารหลายครั้ง
ทำงานกับเนื้อหาที่แยกออกจากส่วนที่เหลือของเอกสาร

ซึ่งสามารถทำได้ง่ายๆ โดยใช้ Aspose.Words และการติดตั้งโค้ดด้านล่าง

การแยกอัลกอริทึมเนื้อหา

รหัสในส่วนนี้กล่าวถึงสถานการณ์ที่เป็นไปได้ทั้งหมดที่อธิบายไว้ข้างต้นด้วยวิธีทั่วไปและนำมาใช้ซ้ำได้วิธีเดียว โครงร่างทั่วไปของเทคนิคนี้เกี่ยวข้องกับ:

รวบรวมโหนดที่กำหนดพื้นที่ของเนื้อหาที่จะแยกออกจากเอกสารของคุณ ผู้ใช้จะจัดการการดึงโหนดเหล่านี้ในโค้ดของพวกเขา โดยขึ้นอยู่กับสิ่งที่พวกเขาต้องการแยกออก
การส่งโหนดเหล่านี้ไปยังวิธี ExtractContent ที่ระบุไว้ด้านล่าง คุณต้องส่งพารามิเตอร์บูลีนซึ่งระบุว่าโหนดเหล่านี้ซึ่งทำหน้าที่เป็นเครื่องหมาย ควรรวมอยู่ในการแยกข้อมูลหรือไม่
การดึงรายการเนื้อหาที่โคลน (โหนดที่คัดลอก) ที่ระบุให้แยกออก คุณสามารถใช้รายการโหนดนี้ในลักษณะที่เกี่ยวข้องได้ เช่น การสร้างเอกสารใหม่ที่มีเฉพาะเนื้อหาที่เลือก

วิธีแยกเนื้อหา

หากต้องการแยกเนื้อหาออกจากเอกสารของคุณ คุณต้องเรียกใช้เมธอด แยก_เนื้อหา ด้านล่างและส่งพารามิเตอร์ที่เหมาะสม พื้นฐานพื้นฐานของวิธีนี้เกี่ยวข้องกับการค้นหาโหนดระดับบล็อก (ย่อหน้าและตาราง) และทำการโคลนเพื่อสร้างสำเนาที่เหมือนกัน หากโหนดเครื่องหมายที่ส่งผ่านเป็นระดับบล็อก วิธีการก็สามารถคัดลอกเนื้อหาในระดับนั้นและเพิ่มลงในอาร์เรย์ได้

อย่างไรก็ตาม หากโหนดมาร์กเกอร์เป็นแบบอินไลน์ (ลูกของย่อหน้า) สถานการณ์จะซับซ้อนมากขึ้น เนื่องจากจำเป็นต้องแยกย่อหน้าที่โหนดอินไลน์ ไม่ว่าจะเป็นการรัน ฟิลด์บุ๊กมาร์ก ฯลฯ เนื้อหาในโหนดพาเรนต์ที่ถูกโคลนไม่ ที่อยู่ระหว่างเครื่องหมายจะถูกลบออก กระบวนการนี้ใช้เพื่อให้แน่ใจว่าโหนดแบบอินไลน์จะยังคงรูปแบบของย่อหน้าหลักไว้ วิธีการนี้จะเรียกใช้การตรวจสอบโหนดที่ส่งผ่านเป็นพารามิเตอร์และส่งข้อยกเว้นหากโหนดใดโหนดหนึ่งไม่ถูกต้อง พารามิเตอร์ที่จะส่งไปยังวิธีนี้คือ:

startNode และ endNode พารามิเตอร์สองตัวแรกคือโหนดที่กำหนดว่าการแยกเนื้อหาจะเริ่มต้นและสิ้นสุดที่ใดตามลำดับ โหนดเหล่านี้สามารถเป็นได้ทั้งระดับบล็อก (Paragraph, Table หรือระดับอินไลน์ (เช่น Run, FieldStart, BookmarkStart เป็นต้น):
1. หากต้องการส่งผ่านฟิลด์ คุณควรส่งออบเจ็กต์ FieldStart ที่เกี่ยวข้อง
2. หากต้องการส่งผ่านบุ๊กมาร์ก ควรส่งโหนด BookmarkStart และ BookmarkEnd
3. ในการแสดงความคิดเห็น ควรใช้โหนด CommentRangeStart และ CommentRangeEnd
เป็นแบบรวม. กำหนดว่าเครื่องหมายถูกรวมไว้ในการแตกข้อมูลหรือไม่ หากตัวเลือกนี้ถูกตั้งค่าเป็น false และส่งโหนดเดียวกันหรือโหนดต่อเนื่องกัน รายการว่างจะถูกส่งกลับ:
1. หากโหนด FieldStart ถูกส่งผ่าน ตัวเลือกนี้จะกำหนดว่าจะต้องรวมหรือยกเว้นฟิลด์ทั้งหมดหรือไม่
2. หากส่งผ่านโหนด BookmarkStart หรือ BookmarkEnd ตัวเลือกนี้จะกำหนดว่ารวมบุ๊กมาร์กไว้หรือเพียงเนื้อหาระหว่างช่วงบุ๊กมาร์ก
3. หากส่งโหนด CommentRangeStart หรือ CommentRangeEnd ตัวเลือกนี้จะกำหนดว่าจะต้องรวมความคิดเห็นนั้นไว้หรือเพียงเนื้อหาในช่วงความคิดเห็น

การดำเนินการตามวิธี แยก_เนื้อหา คุณสามารถค้นหา ที่นี่ วิธีการนี้จะอ้างอิงถึงในสถานการณ์สมมติในบทความนี้

นอกจากนี้เรายังจะกำหนดวิธีการแบบกำหนดเองเพื่อสร้างเอกสารจากโหนดที่แยกออกมาได้อย่างง่ายดาย วิธีการนี้ใช้ในหลายสถานการณ์ด้านล่าง และเพียงสร้างเอกสารใหม่และนำเข้าเนื้อหาที่แยกออกมาลงไป

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีนำรายการโหนดและแทรกลงในเอกสารใหม่:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	@staticmethod
	def generate_document(src_doc: aw.Document, nodes):

	dst_doc = aw.Document()
	# Remove the first paragraph from the empty document.
	dst_doc.first_section.body.remove_all_children()

	# Import each node from the list into the new document. Keep the original formatting of the node.
	importer = aw.NodeImporter(src_doc, dst_doc, aw.ImportFormatMode.KEEP_SOURCE_FORMATTING)
	for node in nodes:
	import_node = importer.import_node(node, True)
	dst_doc.first_section.body.append_child(import_node)

	return dst_doc

view raw generate-document.py hosted with ❤ by GitHub

แยกเนื้อหาระหว่างย่อหน้า

สิ่งนี้สาธิตวิธีการใช้วิธีการด้านบนเพื่อแยกเนื้อหาระหว่างย่อหน้าเฉพาะ ในกรณีนี้ เราต้องการแยกเนื้อหาของตัวอักษรที่พบในครึ่งแรกของเอกสาร เราบอกได้เลยว่าอยู่ระหว่างย่อหน้าที่ 7 ถึงย่อหน้าที่ 11

รหัสด้านล่างทำให้งานนี้สำเร็จ ย่อหน้าที่เหมาะสมจะถูกแยกออกมาโดยใช้วิธี CompositeNode.get_child ในเอกสารและส่งผ่านดัชนีที่ระบุ จากนั้นเราจะส่งโหนดเหล่านี้ไปยังวิธี แยก_เนื้อหา และระบุว่าจะต้องรวมสิ่งเหล่านี้ไว้ในการแตกข้อมูล วิธีนี้จะส่งคืนเนื้อหาที่คัดลอกระหว่างโหนดเหล่านี้ซึ่งจะถูกแทรกลงในเอกสารใหม่

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแยกเนื้อหาระหว่างย่อหน้าเฉพาะโดยใช้วิธี แยก_เนื้อหา ด้านบน:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	start_para = doc.first_section.body.get_child(aw.NodeType.PARAGRAPH, 6, True).as_paragraph()
	end_para = doc.first_section.body.get_child(aw.NodeType.PARAGRAPH, 10, True).as_paragraph()
	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para, end_para, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_paragraphs.docx")

view raw extract-content-between-paragraphs.py hosted with ❤ by GitHub

คุณสามารถดาวน์โหลดไฟล์ตัวอย่างของตัวอย่างนี้ได้จาก Aspose.Words GitHub

แยกเนื้อหาระหว่างโหนดประเภทต่างๆ

เราสามารถแยกเนื้อหาระหว่างการรวมกันของระดับบล็อกหรือโหนดแบบอินไลน์ ในสถานการณ์ด้านล่างนี้ เราจะแยกเนื้อหาระหว่างย่อหน้าแรกและตารางในส่วนที่สองให้ครบถ้วน เราได้รับโหนดเครื่องหมายโดยการเรียกวิธี Body.first_paragraph และ CompositeNode.get_child ในส่วนที่สองของเอกสารเพื่อดึงข้อมูลโหนด Paragraph และ Table ที่เหมาะสม หากต้องการรูปแบบเล็กน้อย ให้ทำซ้ำเนื้อหาและแทรกไว้ด้านล่างของต้นฉบับแทน

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแยกเนื้อหาระหว่างย่อหน้าและตารางโดยใช้วิธี แยก_เนื้อหา:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	start_para = doc.last_section.get_child(aw.NodeType.PARAGRAPH, 2, True).as_paragraph()
	end_table = doc.last_section.get_child(aw.NodeType.TABLE, 0, True).as_table()
	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para, end_table, True)

	# Let's reverse the array to make inserting the content back into the document easier.
	extracted_nodes.reverse()
	for extracted_node in extracted_nodes:
	end_table.parent_node.insert_after(extracted_node, end_table)

	doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_block_level_nodes.docx")

view raw extract-content-between-block-level-nodes.py hosted with ❤ by GitHub

คุณสามารถดาวน์โหลดไฟล์ตัวอย่างของตัวอย่างนี้ได้จาก Aspose.Words GitHub

แยกเนื้อหาระหว่างย่อหน้าตามสไตล์

คุณอาจต้องแยกเนื้อหาระหว่างย่อหน้าที่มีสไตล์เดียวกันหรือต่างกัน เช่น ระหว่างย่อหน้าที่ทำเครื่องหมายด้วยสไตล์หัวเรื่อง

รหัสด้านล่างแสดงวิธีการบรรลุเป้าหมายนี้ เป็นตัวอย่างง่ายๆ ซึ่งจะแยกเนื้อหาระหว่างอินสแตนซ์แรกของสไตล์ “ส่วนหัว 1” และ “ส่วนหัว 3” โดยไม่ต้องแยกส่วนหัวด้วย ในการดำเนินการนี้ เราตั้งค่าพารามิเตอร์สุดท้ายเป็น false ซึ่งระบุว่าไม่ควรรวมโหนดเครื่องหมายไว้ด้วย

ในการใช้งานที่เหมาะสม ควรรันแบบวนซ้ำเพื่อแยกเนื้อหาระหว่างย่อหน้าทั้งหมดของสไตล์เหล่านี้ออกจากเอกสาร เนื้อหาที่แยกออกมาจะถูกคัดลอกไปยังเอกสารใหม่

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแยกเนื้อหาระหว่างย่อหน้าด้วยสไตล์เฉพาะโดยใช้วิธี แยก_เนื้อหา:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	# Gather a list of the paragraphs using the respective heading styles.
	paras_style_heading1 = self.paragraphs_by_style_name(doc, "Heading 1")
	paras_style_heading3 = self.paragraphs_by_style_name(doc, "Heading 3")

	# Use the first instance of the paragraphs with those styles.
	start_para1 = paras_style_heading1[0]
	end_para1 = paras_style_heading3[0]

	# Extract the content between these nodes in the document. Don't include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para1, end_para1, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_paragraph_styles.docx")

view raw extract-content-between-paragraph-styles.py hosted with ❤ by GitHub

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	@staticmethod
	def paragraphs_by_style_name(doc: aw.Document, style_name: str):

	# Create an array to collect paragraphs of the specified style.
	paragraphs_with_style = []
	paragraphs = doc.get_child_nodes(aw.NodeType.PARAGRAPH, True)

	# Look through all paragraphs to find those with the specified style.
	for paragraph in paragraphs:
	paragraph = paragraph.as_paragraph()
	if paragraph.paragraph_format.style.name == style_name:
	paragraphs_with_style.append(paragraph)

	return paragraphs_with_style

view raw paragraphs-by-style-name.py hosted with ❤ by GitHub

คุณสามารถดาวน์โหลดไฟล์ตัวอย่างของตัวอย่างนี้ได้จาก Aspose.Words GitHub

แยกเนื้อหาระหว่างการรันเฉพาะ

คุณสามารถแยกเนื้อหาระหว่างโหนดอินไลน์ เช่น Run ได้เช่นกัน การเรียกใช้จากย่อหน้าต่างๆ สามารถส่งผ่านเป็นเครื่องหมายได้ รหัสด้านล่างแสดงวิธีการแยกข้อความเฉพาะระหว่างโหนด Paragraph เดียวกัน

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแยกเนื้อหาระหว่างการรันเฉพาะของย่อหน้าเดียวกันโดยใช้วิธี แยก_เนื้อหา:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	para = doc.get_child(aw.NodeType.PARAGRAPH, 7, True).as_paragraph()
	start_run = para.runs[1]
	end_run = para.runs[4]

	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_run, end_run, True)
	for extracted_node in extracted_nodes:
	print(extracted_node.to_string(aw.SaveFormat.TEXT))

view raw extract-content-between-runs.py hosted with ❤ by GitHub

คุณสามารถดาวน์โหลดไฟล์ตัวอย่างของตัวอย่างนี้ได้จาก Aspose.Words GitHub

แยกเนื้อหาโดยใช้ฟิลด์

หากต้องการใช้ช่องเป็นเครื่องหมาย ควรส่งโหนด FieldStart พารามิเตอร์สุดท้ายของเมธอด แยก_เนื้อหา จะกำหนดว่าจะรวมฟิลด์ทั้งหมดหรือไม่ มาแยกเนื้อหาระหว่างช่องผสาน “FullName” และย่อหน้าในเอกสารกัน เราใช้วิธี DocumentBuilder.move_to_merge_field ของคลาส DocumentBuilder สิ่งนี้จะส่งคืนโหนด FieldStart จากชื่อของฟิลด์ผสานที่ส่งผ่านไป

ในกรณีของเรา ให้ตั้งค่าพารามิเตอร์สุดท้ายที่ส่งไปยังวิธี แยก_เนื้อหา เป็น False เพื่อแยกฟิลด์ออกจากการแยกข้อมูล เราจะแสดงเนื้อหาที่แยกออกมาเป็น PDF

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแยกเนื้อหาระหว่างเขตข้อมูลเฉพาะและย่อหน้าในเอกสารโดยใช้วิธี แยก_เนื้อหา:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")
	builder = aw.DocumentBuilder(doc)
	# Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	# We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder.move_to_merge_field("Fullname", False, False)

	# The builder cursor should be positioned at the start of the field.
	start_field = builder.current_node.as_field_start()
	end_para = doc.first_section.get_child(aw.NodeType.PARAGRAPH, 5, True).as_paragraph()
	# Extract the content between these nodes in the document. Don't include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_field, end_para, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_using_field.docx")

view raw extract-content-using-field.py hosted with ❤ by GitHub

คุณสามารถดาวน์โหลดไฟล์ตัวอย่างของตัวอย่างนี้ได้จาก Aspose.Words GitHub

แยกเนื้อหาออกจากบุ๊กมาร์ก

ในเอกสาร เนื้อหาที่กำหนดไว้ภายในบุ๊กมาร์กจะถูกห่อหุ้มด้วยโหนด BookmarkStart และ BookmarkEnd เนื้อหาที่พบระหว่างสองโหนดนี้ประกอบขึ้นเป็นบุ๊กมาร์ก คุณสามารถส่งโหนดใดโหนดหนึ่งเหล่านี้เป็นเครื่องหมายใดก็ได้ แม้แต่โหนดจากบุ๊กมาร์กต่างๆ ก็ตาม ตราบใดที่เครื่องหมายเริ่มต้นปรากฏก่อนเครื่องหมายสิ้นสุดในเอกสาร เราจะแยกเนื้อหานี้ออกเป็นเอกสารใหม่โดยใช้โค้ดด้านล่าง ตัวเลือกพารามิเตอร์ เป็นแบบรวม แสดงวิธีเก็บหรือละทิ้งบุ๊กมาร์ก

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีแยกเนื้อหาที่อ้างอิงบุ๊กมาร์กโดยใช้วิธี แยก_เนื้อหา:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	bookmark = doc.range.bookmarks.get_by_name("Bookmark1")
	bookmark_start = bookmark.bookmark_start
	bookmark_end = bookmark.bookmark_end

	# Firstly, extract the content between these nodes, including the bookmark.
	extracted_nodes_inclusive = helper.ExtractContentHelper.extract_content(bookmark_start, bookmark_end, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_inclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_bookmark.including_bookmark.docx")

	# Secondly, extract the content between these nodes this time without including the bookmark.
	extracted_nodes_exclusive = helper.ExtractContentHelper.extract_content(bookmark_start, bookmark_end, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_exclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_bookmark.without_bookmark.docx")

view raw extract-content-between-bookmark.py hosted with ❤ by GitHub

คุณสามารถดาวน์โหลดไฟล์ตัวอย่างของตัวอย่างนี้ได้จาก Aspose.Words GitHub

แยกเนื้อหาออกจากความคิดเห็น

ความคิดเห็นประกอบด้วยโหนด CommentRangeStart, CommentRangeEnd และ Comment โหนดทั้งหมดเหล่านี้เป็นแบบอินไลน์ สองโหนดแรกสรุปเนื้อหาในเอกสารซึ่งมีการอ้างอิงโดยความคิดเห็น ดังที่เห็นในภาพหน้าจอด้านล่าง โหนด Comment นั้นเป็น InlineStory ที่สามารถประกอบด้วยย่อหน้าและเรียกใช้ได้ โดยจะแสดงข้อความของความคิดเห็นตามที่เห็นเป็นกรอบความคิดเห็นในบานหน้าต่างบทวิจารณ์ เนื่องจากโหนดนี้เป็นแบบอินไลน์และสืบทอดจากเนื้อหา คุณจึงสามารถแยกเนื้อหาจากภายในข้อความนี้ได้เช่นกัน

ความคิดเห็นจะสรุปส่วนหัว ย่อหน้าแรก และตารางในส่วนที่สอง มาแยกความคิดเห็นนี้ออกเป็นเอกสารใหม่ ตัวเลือก เป็นแบบรวม กำหนดว่าความคิดเห็นนั้นจะถูกเก็บไว้หรือละทิ้ง

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการทำเช่นนี้:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	comment_start = doc.get_child(aw.NodeType.COMMENT_RANGE_START, 0, True).as_comment_range_start()
	comment_end = doc.get_child(aw.NodeType.COMMENT_RANGE_END, 0, True).as_comment_range_end()

	# Firstly, extract the content between these nodes including the comment as well.
	extracted_nodes_inclusive = helper.ExtractContentHelper.extract_content(comment_start, comment_end, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_inclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_comment_range.including_comment.docx")

	# Secondly, extract the content between these nodes without the comment.
	extracted_nodes_exclusive = helper.ExtractContentHelper.extract_content(comment_start, comment_end, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_exclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_comment_range.without_comment.docx")

view raw extract-content-between-comment-range.py hosted with ❤ by GitHub

คุณสามารถดาวน์โหลดไฟล์ตัวอย่างของตัวอย่างนี้ได้จาก Aspose.Words GitHub

วิธีการแยกข้อความเท่านั้น

วิธีดึงข้อความจากเอกสารคือ:

ใช้ Document.save เพื่อบันทึกเป็นข้อความธรรมดาลงในไฟล์หรือสตรีม
ใช้ Node.to_string และส่งพารามิเตอร์ SaveFormat.TEXT ภายใน สิ่งนี้จะเรียกใช้การบันทึกเป็นข้อความลงในสตรีมหน่วยความจำและส่งกลับสตริงผลลัพธ์
ใช้ Node.get_text เพื่อดึงข้อความที่มีอักขระควบคุม Microsoft Word ทั้งหมดรวมถึงโค้ดฟิลด์

การใช้ Node.get_text และ Node.to_string

เอกสาร Word สามารถประกอบด้วยอักขระควบคุมที่กำหนดองค์ประกอบพิเศษ เช่น ฟิลด์ ส่วนท้ายของเซลล์ ส่วนท้ายของส่วน เป็นต้น รายการอักขระควบคุม Word ที่เป็นไปได้ทั้งหมดถูกกำหนดไว้ในคลาส ControlChar วิธีการ Node.get_text ส่งคืนข้อความที่มีอักขระควบคุมทั้งหมดอยู่ในโหนด

การเรียก to_string จะส่งกลับการแสดงข้อความธรรมดาของเอกสารโดยไม่มีอักขระควบคุมเท่านั้น สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการส่งออกเป็นข้อความธรรมดา โปรดดูการใช้ SaveFormat.TEXT

ตัวอย่างโค้ดต่อไปนี้แสดงความแตกต่างระหว่างการเรียกเมธอด get_text และ to_string บนโหนด:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document()
	builder = aw.DocumentBuilder(doc)

	builder.insert_field("MERGEFIELD Field")

	# When converted to text it will not retrieve fields code or special characters,
	# but will still contain some natural formatting characters such as paragraph markers etc.
	# This is the same as "viewing" the document as if it was opened in a text editor.
	print("ToString() Result: " + doc.to_string(aw.SaveFormat.TEXT))

view raw simple-extract-text.py hosted with ❤ by GitHub

การใช้ `SaveFormat.Text`

ตัวอย่างนี้จะบันทึกเอกสารดังต่อไปนี้:

กรองอักขระฟิลด์และรหัสฟิลด์ รูปร่าง เชิงอรรถ อ้างอิงท้ายเรื่อง และการอ้างอิงความคิดเห็น
แทนที่อักขระ ControlChar.Cr ที่ส่วนท้ายของย่อหน้าด้วยชุดค่าผสม ControlChar.CrLf
ใช้การเข้ารหัส UTF8

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการบันทึกเอกสารในรูปแบบ TXT:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Document.docx")
	doc.save(ARTIFACTS_DIR + "BaseConversions.docx_to_txt.txt")

view raw docx-to-txt.py hosted with ❤ by GitHub

แยกรูปภาพออกจากรูปร่าง

คุณอาจต้องแยกรูปภาพเอกสารเพื่อทำงานบางอย่าง Aspose.Words ให้คุณทำเช่นนี้ได้เช่นกัน

ตัวอย่างโค้ดต่อไปนี้แสดงวิธีการแยกรูปภาพจากเอกสาร:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Images.docx")

	shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
	image_index = 0

	for shape in shapes:
	shape = shape.as_shape()
	if shape.has_image:
	image_extension = aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)
	image_file_name = "Image.ExportImages." + str(image_index) + image_extension

	# Note, if you have only an image (not a shape with a text and the image),
	# you can use shape.get_shape_renderer().save(...) method to save the image.
	shape.image_data.save(ARTIFACTS_DIR + image_file_name)
	image_index += 1

view raw extract-images.py hosted with ❤ by GitHub

การทำงานกับช่วงใน Python การทำงานกับส่วนหัวและส่วนท้าย

แยกเนื้อหาระหว่างโหนดในเอกสาร

ทำไมต้องแยกเนื้อหา

การแยกอัลกอริทึมเนื้อหา

วิธีแยกเนื้อหา

แยกเนื้อหาระหว่างย่อหน้า

แยกเนื้อหาระหว่างโหนดประเภทต่างๆ

แยกเนื้อหาระหว่างย่อหน้าตามสไตล์

แยกเนื้อหาระหว่างการรันเฉพาะ

แยกเนื้อหาโดยใช้ฟิลด์

แยกเนื้อหาออกจากบุ๊กมาร์ก

แยกเนื้อหาออกจากความคิดเห็น

วิธีการแยกข้อความเท่านั้น

การใช้ Node.get_text และ Node.to_string

การใช้ SaveFormat.Text

แยกรูปภาพออกจากรูปร่าง

การใช้ `SaveFormat.Text`