Извлечение содержимого между узлами документа

При работе с документами важно иметь возможность легко извлекать содержимое из определенного диапазона в документе. Однако содержимое может состоять из сложных элементов, таких как абзацы, таблицы, изображения и т.д.

Независимо от того, какой контент необходимо извлечь, метод извлечения этого контента всегда будет определяться тем, какие узлы выбраны для извлечения содержимого между ними. Это могут быть целые текстовые фрагменты или простые текстовые фрагменты.

Существует множество возможных ситуаций и, следовательно, множество различных типов узлов, которые следует учитывать при извлечении содержимого. Например, вы можете захотеть извлечь содержимое между:

Два конкретных пункта
Конкретные фрагменты текста
Поля различных типов, такие как поля слияния
Начальный и конечный диапазоны закладки или комментария
Различные тексты, содержащиеся в отдельных разделах

В некоторых ситуациях вам может даже потребоваться объединить различные типы узлов, например, для извлечения содержимого из абзаца и поля или из запуска и закладки.

В этой статье приводится реализация кода для извлечения текста между различными узлами, а также примеры распространенных сценариев.

Эти примеры - всего лишь несколько демонстраций множества возможностей. В будущем мы планируем, что функция извлечения текста станет частью общедоступного API, и никакого дополнительного кода не потребуется. А пока не стесняйтесь оставлять свои пожелания относительно этой функции на форуме Aspose.Words.

Зачем извлекать контент

Часто целью извлечения содержимого является дублирование или сохранение его отдельно в новом документе. Например, вы можете извлечь содержимое и:

Скопируйте его в отдельный документ
Преобразование определенной части документа в формат PDF или изображения
Дублируйте содержимое документа много раз
Работайте с извлеченным содержимым отдельно от остальной части документа

Этого можно легко достичь, используя Aspose.Words и приведенную ниже реализацию кода.

Алгоритм извлечения содержимого

Приведенный в этом разделе код рассматривает все возможные ситуации, описанные выше, с помощью одного обобщенного метода, который можно использовать повторно. В общих чертах этот метод включает:

Выбор узлов, которые определяют область содержимого, которая будет извлечена из вашего документа. Поиск этих узлов осуществляется пользователем в его коде в зависимости от того, что он хочет извлечь.
Передаем эти узлы методу ExtractContent, представленному ниже. Вы также должны передать логический параметр, который указывает, должны ли эти узлы, действующие как маркеры, быть включены в извлечение или нет.
Получение списка клонированного содержимого (скопированных узлов), указанного для извлечения. Вы можете использовать этот список узлов любым подходящим способом, например, создать новый документ, содержащий только выбранное содержимое.

Как извлечь контент

Чтобы извлечь содержимое из вашего документа, вам необходимо вызвать метод ExtractContent, описанный ниже, и передать соответствующие параметры. В основе этого метода лежит поиск узлов на уровне блоков (абзацев и таблиц) и их клонирование для создания идентичных копий. Если переданные узлы-маркеры находятся на уровне блоков, то метод может просто скопировать содержимое на этом уровне и добавить его в массив.

Однако, если узлы-маркеры являются встроенными (дочерними по отношению к абзацу), ситуация становится более сложной, поскольку необходимо разделить абзац на встроенном узле, будь то прогон, поля закладок и т.д. Содержимое в клонированных родительских узлах, отсутствующее между маркерами, удаляется. Этот процесс используется для обеспечения того, чтобы встроенные узлы сохраняли форматирование родительского абзаца. Метод также выполняет проверку узлов, переданных в качестве параметров, и генерирует исключение, если какой-либо из узлов является недопустимым. В этот метод передаются следующие параметры:

StartNode и EndNode. Первые два параметра - это узлы, которые определяют, где должно начинаться и заканчиваться извлечение содержимого соответственно. Эти узлы могут быть как на уровне блоков (абзац, таблица), так и на встроенном уровне (например, Run, FieldStart, BookmarkStart и т.д.).:
1. Чтобы передать поле, вы должны передать соответствующий объект FieldStart.
2. Чтобы передать закладки, необходимо передать узлы BookmarkStart и BookmarkEnd.
3. Для передачи комментариев следует использовать узлы CommentRangeStart и CommentRangeEnd.
IsInclusive. Определяет, будут ли маркеры включены в извлечение или нет. Если для этого параметра установлено значение false и передается один и тот же узел или последовательные узлы, то будет возвращен пустой список:
1. Если передан узел FieldStart, то этот параметр определяет, следует ли включать или исключать все поле целиком.
2. Если передан узел BookmarkStart или BookmarkEnd, этот параметр определяет, включена ли закладка или только содержимое между диапазонами закладок.
3. Если передан узел CommentRangeStart или CommentRangeEnd, этот параметр определяет, должен ли быть включен сам комментарий или только содержимое в диапазоне комментариев.

Реализацию метода ExtractContent вы можете найти здесь. Этот метод будет описан в сценариях, описанных в этой статье.

Мы также определим пользовательский метод, позволяющий легко создавать документ из извлеченных узлов. Этот метод используется во многих сценариях, описанных ниже, и просто создает новый документ и импортирует в него извлеченное содержимое.

В следующем примере кода показано, как взять список узлов и вставить их в новый документ.

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	static SharedPtr<Document> GenerateDocument(SharedPtr<Document> srcDoc, SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> nodes)
	{
	auto dstDoc = MakeObject<Document>();
	// Remove the first paragraph from the empty document.
	dstDoc->get_FirstSection()->get_Body()->RemoveAllChildren();

	// Import each node from the list into the new document. Keep the original formatting of the node.
	auto importer = MakeObject<NodeImporter>(srcDoc, dstDoc, ImportFormatMode::KeepSourceFormatting);
	for (const auto& node : nodes)
	{
	SharedPtr<Node> importNode = importer->ImportNode(node, true);
	dstDoc->get_FirstSection()->get_Body()->AppendChild(importNode);
	}

	return dstDoc;
	}

view raw generate-document.h hosted with ❤ by GitHub

Извлекайте содержимое между абзацами

Это демонстрирует, как использовать описанный выше метод для извлечения содержимого между конкретными абзацами. В данном случае мы хотим извлечь текст письма, найденного в первой половине документа. Мы можем сказать, что оно находится между 7-м и 11-м абзацами.

Приведенный ниже код выполняет эту задачу. Соответствующие абзацы извлекаются с использованием метода GetChild в документе и с передачей указанных индексов. Затем мы передаем эти узлы методу ExtractContent и указываем, что они должны быть включены в извлечение. Этот метод вернет скопированное содержимое между этими узлами, которое затем будет вставлено в новый документ.

В следующем примере кода показано, как извлечь содержимое между определенными абзацами, используя метод ExtractContent, описанный выше:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto startPara = System::ExplicitCast<Paragraph>(doc->get_FirstSection()->get_Body()->GetChild(NodeType::Paragraph, 6, true));
	auto endPara = System::ExplicitCast<Paragraph>(doc->get_FirstSection()->get_Body()->GetChild(NodeType::Paragraph, 10, true));
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startPara, endPara, true);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodes);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenParagraphs.docx");

view raw extract-content-between-paragraphs.h hosted with ❤ by GitHub

Извлекать содержимое между различными типами узлов

Мы можем извлекать содержимое между любыми комбинациями узлов на уровне блоков или встроенных узлов. В приведенном ниже сценарии мы будем извлекать содержимое между первым абзацем и таблицей во втором разделе включительно. Мы получаем узлы маркеров, вызывая методы Body.FirstParagraph и GetChild во втором разделе документа, чтобы получить соответствующие узлы абзаца и таблицы. Для небольшого изменения давайте вместо этого продублируем содержимое и вставим его под оригинал.

В следующем примере кода показано, как извлечь содержимое из абзаца и таблицы с помощью метода ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto startPara = System::ExplicitCast<Paragraph>(doc->get_LastSection()->GetChild(NodeType::Paragraph, 2, true));
	auto endTable = System::ExplicitCast<Table>(doc->get_LastSection()->GetChild(NodeType::Table, 0, true));
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startPara, endTable, true);

	// Let's reverse the array to make inserting the content back into the document easier.
	extractedNodes->Reverse();
	for (SharedPtr<Node> extractedNode : extractedNodes)
	// Insert the last node from the reversed list.
	endTable->get_ParentNode()->InsertAfter(extractedNode, endTable);

	doc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenBlockLevelNodes.docx");

view raw extract-content-between-block-level-nodes.h hosted with ❤ by GitHub

Извлекайте содержимое из абзацев в зависимости от стиля

Возможно, вам потребуется извлечь содержимое из абзацев одного и того же или разных стилей, например, из абзацев, помеченных стилями заголовков. Приведенный ниже код показывает, как этого добиться. Это простой пример, который позволяет извлечь содержимое между первым экземпляром стилей “Heading 1” и “Header 3” без извлечения заголовков. Для этого мы устанавливаем последнему параметру значение false, которое указывает, что узлы-маркеры не должны включаться.

При правильной реализации это должно выполняться в цикле для извлечения содержимого между всеми абзацами этих стилей из документа. Извлеченное содержимое копируется в новый документ.

В следующем примере кода показано, как извлекать содержимое между абзацами с определенными стилями, используя метод ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	// Gather a list of the paragraphs using the respective heading styles.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> parasStyleHeading1 = ParagraphsByStyleName(doc, u"Heading 1");
	SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> parasStyleHeading3 = ParagraphsByStyleName(doc, u"Heading 3");

	// Use the first instance of the paragraphs with those styles.
	SharedPtr<Node> startPara1 = parasStyleHeading1->idx_get(0);
	SharedPtr<Node> endPara1 = parasStyleHeading3->idx_get(0);

	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startPara1, endPara1, false);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodes);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenParagraphStyles.docx");

view raw extract-content-between-paragraph-styles.h hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	static SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> ParagraphsByStyleName(SharedPtr<Document> doc, System::String styleName)
	{
	// Create an array to collect paragraphs of the specified style.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> paragraphsWithStyle =
	MakeObject<System::Collections::Generic::List<SharedPtr<Paragraph>>>();

	SharedPtr<NodeCollection> paragraphs = doc->GetChildNodes(NodeType::Paragraph, true);

	// Look through all paragraphs to find those with the specified style.
	for (const auto& paragraph : System::IterateOver<Paragraph>(paragraphs))
	{
	if (paragraph->get_ParagraphFormat()->get_Style()->get_Name() == styleName)
	{
	paragraphsWithStyle->Add(paragraph);
	}
	}

	return paragraphsWithStyle;
	}

view raw paragraphs-by-style-name.h hosted with ❤ by GitHub

Извлекайте содержимое Между Определенными Запусками

Вы также можете извлекать содержимое между встроенными узлами, такими как Run. В качестве маркеров можно использовать Runs из разных абзацев. В приведенном ниже коде показано, как извлекать определенный текст из одного и того же узла Paragraph.

В следующем примере кода показано, как извлекать содержимое между конкретными запусками одного и того же абзаца, используя метод ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto para = System::ExplicitCast<Paragraph>(doc->GetChild(NodeType::Paragraph, 7, true));
	SharedPtr<Run> startRun = para->get_Runs()->idx_get(1);
	SharedPtr<Run> endRun = para->get_Runs()->idx_get(4);

	// Extract the content between these nodes in the document. Include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startRun, endRun, true);

	for (SharedPtr<Node> extractedNode : extractedNodes)
	std::cout << extractedNode->ToString(SaveFormat::Text) << std::endl;

view raw extract-content-between-runs.h hosted with ❤ by GitHub

Извлекать содержимое с помощью поля

Чтобы использовать поле в качестве маркера, необходимо передать узел FieldStart. Последний параметр метода ExtractContent определяет, следует ли включать все поле целиком или нет. Давайте извлекем содержимое из поля слияния “Полное имя” и абзаца в документе. Мы используем метод MoveToMergeField класса DocumentBuilder. Это вернет узел FieldStart из переданного ему поля name of merge.

В нашем случае давайте установим для последнего параметра, переданного методу ExtractContent, значение false, чтобы исключить поле из извлечения. Мы преобразуем извлеченный контент в PDF.

В следующем примере кода показано, как извлечь содержимое из определенного поля и абзаца в документе, используя метод ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");
	auto builder = MakeObject<DocumentBuilder>(doc);

	// Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	// We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder->MoveToMergeField(u"Fullname", false, false);

	// The builder cursor should be positioned at the start of the field.
	auto startField = System::ExplicitCast<FieldStart>(builder->get_CurrentNode());
	auto endPara = System::ExplicitCast<Paragraph>(doc->get_FirstSection()->GetChild(NodeType::Paragraph, 5, true));

	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startField, endPara, false);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodes);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentUsingField.docx");

view raw extract-content-using-field.h hosted with ❤ by GitHub

Извлечение содержимого из закладки

В документе содержимое, определенное в закладке, инкапсулируется узлами BookmarkStart и BookmarkEnd. Содержимое, находящееся между этими двумя узлами, составляет закладку. Вы можете использовать любой из этих узлов в качестве любого маркера, даже из разных закладок, при условии, что начальный маркер отображается перед конечным маркером в документе. Мы извлекем это содержимое в новый документ, используя приведенный ниже код. Параметр IsInclusive показывает, как сохранить или удалить закладку.

В следующем примере кода показано, как извлечь содержимое, на которое ссылается закладка, используя метод ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	SharedPtr<Bookmark> bookmark = doc->get_Range()->get_Bookmarks()->idx_get(u"Bookmark1");
	SharedPtr<BookmarkStart> bookmarkStart = bookmark->get_BookmarkStart();
	SharedPtr<BookmarkEnd> bookmarkEnd = bookmark->get_BookmarkEnd();

	// Firstly, extract the content between these nodes, including the bookmark.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesInclusive =
	ExtractContentHelper::ExtractContent(bookmarkStart, bookmarkEnd, true);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesInclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenBookmark.IncludingBookmark.docx");

	// Secondly, extract the content between these nodes this time without including the bookmark.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesExclusive =
	ExtractContentHelper::ExtractContent(bookmarkStart, bookmarkEnd, false);

	dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesExclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenBookmark.WithoutBookmark.docx");

view raw extract-content-between-bookmark.h hosted with ❤ by GitHub

Извлекать содержимое из комментария

Комментарий состоит из узлов CommentRangeStart, CommentRangeEnd и Comment. Все эти узлы являются встроенными. Первые два узла содержат содержимое документа, на который ссылается комментарий, как показано на скриншоте ниже.

Сам узел Comment представляет собой встроенную историю, которая может содержать абзацы и фрагменты текста. Он представляет сообщение комментария, отображаемое в виде пузырька комментариев на панели предварительного просмотра. Поскольку этот узел является встроенным и является потомком тела, вы также можете извлечь содержимое из этого сообщения.

Комментарий содержит заголовок, первый абзац и таблицу во втором разделе. Давайте перенесем этот комментарий в новый документ. Параметр IsInclusive определяет, следует ли сохранить сам комментарий или удалить его.

В следующем примере кода показано, как это сделать:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto commentStart = System::ExplicitCast<CommentRangeStart>(doc->GetChild(NodeType::CommentRangeStart, 0, true));
	auto commentEnd = System::ExplicitCast<CommentRangeEnd>(doc->GetChild(NodeType::CommentRangeEnd, 0, true));

	// Firstly, extract the content between these nodes including the comment as well.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesInclusive =
	ExtractContentHelper::ExtractContent(commentStart, commentEnd, true);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesInclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenCommentRange.IncludingComment.docx");

	// Secondly, extract the content between these nodes without the comment.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesExclusive =
	ExtractContentHelper::ExtractContent(commentStart, commentEnd, false);

	dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesExclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenCommentRange.WithoutComment.docx");

view raw extract-content-between-comment-range.h hosted with ❤ by GitHub

Как извлечь контент с помощью DocumentVisitor

Используйте класс DocumentVisitor для реализации этого сценария использования. Этот класс соответствует хорошо известному шаблону оформления посетителей. С помощью DocumentVisitor, вы можете определять и выполнять пользовательские операции, которые требуют перечисления в дереве документа.

Посетитель документа

Каждый метод DocumentVisitor.VisitXXX возвращает значение VisitorAction, которое управляет перечислением узлов. Вы можете запросить либо продолжить перечисление, пропустить текущий узел (но продолжить перечисление), либо остановить перечисление узлов.

Вот шаги, которые вы должны выполнить, чтобы программно определить и извлечь различные части документа:

Создайте класс, производный от DocumentVisitor
Переопределите и предоставьте реализации для некоторых или всех методов DocumentVisitor.VisitXXX для выполнения некоторых пользовательских операций
Вызовите Node.Accept на узле, с которого вы хотите начать перечисление. Например, если вы хотите перечислить весь документ, используйте Document.Accept

Посетитель документа

В этом примере показано, как использовать шаблон посетителя для добавления новых операций в объектную модель Aspose.Words. В данном случае мы создаем простой конвертер документов в текстовый формат:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto convertToPlainText = MakeObject<ExtractContent::ConvertDocToTxt>();
	// Note that every node in the object model has the accept method so the visiting
	// can be executed not only for the whole document, but for any node in the document.
	doc->Accept(convertToPlainText);

	// Once the visiting is complete, we can retrieve the result of the operation,
	// That in this example, has accumulated in the visitor.
	std::cout << convertToPlainText->GetText() << std::endl;

view raw extract-content-using-document-visitor.h hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	/// <summary>
	/// Simple implementation of saving a document in the plain text format. Implemented as a Visitor.
	/// </summary>
	class ConvertDocToTxt : public DocumentVisitor
	{
	public:
	ConvertDocToTxt() : mIsSkipText(false)
	{
	mIsSkipText = false;
	mBuilder = MakeObject<System::Text::StringBuilder>();
	}

	/// <summary>
	/// Gets the plain text of the document that was accumulated by the visitor.
	/// </summary>
	String GetText()
	{
	return mBuilder->ToString();
	}

	/// <summary>
	/// Called when a Run node is encountered in the document.
	/// </summary>
	VisitorAction VisitRun(SharedPtr<Run> run) override
	{
	AppendText(run->get_Text());
	// Let the visitor continue visiting other nodes.
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a FieldStart node is encountered in the document.
	/// </summary>
	VisitorAction VisitFieldStart(SharedPtr<FieldStart> fieldStart) override
	{
	ASPOSE_UNUSED(fieldStart);
	// In Microsoft Word, a field code (such as "MERGEFIELD FieldName") follows
	// after a field start character. We want to skip field codes and output field.
	// Result only, therefore we use a flag to suspend the output while inside a field code.
	// Note this is a very simplistic implementation and will not work very well.
	// If you have nested fields in a document.
	mIsSkipText = true;
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a FieldSeparator node is encountered in the document.
	/// </summary>
	VisitorAction VisitFieldSeparator(SharedPtr<FieldSeparator> fieldSeparator) override
	{
	ASPOSE_UNUSED(fieldSeparator);
	// Once reached a field separator node, we enable the output because we are
	// now entering the field result nodes.
	mIsSkipText = false;
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a FieldEnd node is encountered in the document.
	/// </summary>
	VisitorAction VisitFieldEnd(SharedPtr<FieldEnd> fieldEnd) override
	{
	ASPOSE_UNUSED(fieldEnd);
	// Make sure we enable the output when reached a field end because some fields
	// do not have field separator and do not have field result.
	mIsSkipText = false;
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when visiting of a Paragraph node is ended in the document.
	/// </summary>
	VisitorAction VisitParagraphEnd(SharedPtr<Paragraph> paragraph) override
	{
	ASPOSE_UNUSED(paragraph);
	// When outputting to plain text we output Cr+Lf characters.
	AppendText(ControlChar::CrLf());
	return VisitorAction::Continue;
	}

	VisitorAction VisitBodyStart(SharedPtr<Body> body) override
	{
	ASPOSE_UNUSED(body);
	// We can detect beginning and end of all composite nodes such as Section, Body,
	// Table, Paragraph etc and provide custom handling for them.
	mBuilder->Append(u"* Body Started *\r\n");
	return VisitorAction::Continue;
	}

	VisitorAction VisitBodyEnd(SharedPtr<Body> body) override
	{
	ASPOSE_UNUSED(body);
	mBuilder->Append(u"* Body Ended *\r\n");
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a HeaderFooter node is encountered in the document.
	/// </summary>
	VisitorAction VisitHeaderFooterStart(SharedPtr<HeaderFooter> headerFooter) override
	{
	ASPOSE_UNUSED(headerFooter);
	// Returning this value from a visitor method causes visiting of this
	// Node to stop and move on to visiting the next sibling node
	// The net effect in this example is that the text of headers and footers
	// Is not included in the resulting output
	return VisitorAction::SkipThisNode;
	}

	private:
	SharedPtr<System::Text::StringBuilder> mBuilder;
	bool mIsSkipText;

	/// <summary>
	/// Adds text to the current output. Honors the enabled/disabled output flag.
	/// </summary>
	void AppendText(String text)
	{
	if (!mIsSkipText)
	{
	mBuilder->Append(text);
	}
	}
	};

view raw convert-doc-to-txt.h hosted with ❤ by GitHub

Вы можете скачать примерный файл этого примера с Aspose.Words GitHub.

Как извлечь только текст

Существуют следующие способы извлечения текста из документа:

Используйте Document.Save с SaveFormat.Text для сохранения в виде обычного текста в файл или поток
Используйте Node.ToString и передайте параметр SaveFormat.Text. Внутренне это вызывает функцию сохранения в виде текста в потоке памяти и возвращает результирующую строку
Используйте Node.GetText для извлечения текста со всеми управляющими символами Microsoft Word, включая коды полей
Реализуйте пользовательский параметр DocumentVisitor для выполнения индивидуального извлечения

Используя `Node.GetText` и `Node.ToString`

Документ Word может содержать управляющие символы, которые обозначают специальные элементы, такие как поле, конец ячейки, конец раздела и т.д. Полный список возможных управляющих символов Word определен в классе ControlChar. Метод Node.GetText возвращает текст со всеми управляющими символами, присутствующими в узле.

Вызов ToString возвращает только текстовое представление документа без управляющих символов.

В следующем примере кода показана разница между вызовом методов GetText и ToString на узле:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>();
	auto builder = MakeObject<DocumentBuilder>(doc);

	builder->InsertField(u"MERGEFIELD Field");

	// When converted to text it will not retrieve fields code or special characters,
	// but will still contain some natural formatting characters such as paragraph markers etc.
	// This is the same as "viewing" the document as if it was opened in a text editor.
	std::cout << (String(u"ToString() Result: ") + doc->ToString(SaveFormat::Text)) << std::endl;

view raw simple-extract-text.h hosted with ❤ by GitHub

Используя `SaveFormat.Text`

В этом примере документ сохраняется следующим образом:

Отфильтровывает символы полей и коды полей, форму, сноски, концевые примечания и ссылки на комментарии
Заменяет символы конца абзаца ControlChar.Cr комбинациями ControlChar.CrLf
Использует кодировку UTF8

В следующем примере кода показано, как сохранить документ в формате TXT:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Document.docx");
	doc->Save(ArtifactsDir + u"BaseConversions.DocxToTxt.txt");

view raw docx-to-txt.h hosted with ❤ by GitHub

Извлечение изображений из фигур

Для выполнения некоторых задач вам может потребоваться извлечь изображения из документов. Aspose.Words это также позволяет это сделать.

В следующем примере кода показано, как извлекать изображения из документа:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Images.docx");

	SharedPtr<NodeCollection> shapes = doc->GetChildNodes(NodeType::Shape, true);
	int imageIndex = 0;

	for (const auto& shape : System::IterateOver<Shape>(shapes))
	{
	if (shape->get_HasImage())
	{
	String imageFileName =
	String::Format(u"Image.ExportImages.{0}_{1}", imageIndex, FileFormatUtil::ImageTypeToExtension(shape->get_ImageData()->get_ImageType()));

	// Note, if you have only an image (not a shape with a text and the image),
	// you can use shape->GetShapeRenderer()->Save(...) method to save the image.
	shape->get_ImageData()->Save(ArtifactsDir + imageFileName);
	imageIndex++;
	}
	}

view raw extract-images.h hosted with ❤ by GitHub

Работа с диапазонами в C++ Работа с верхними и нижними колонтитулами в C++