Извлечение контента между узлами в документе

При работе с документами важно уметь легко извлекать контент из определенного диапазона в документе. Однако содержание может состоять из сложных элементов, таких как абзацы, таблицы, изображения и т.д.

Независимо от того, какой контент необходимо извлечь, способ извлечения этого контента всегда будет определяться тем, какие узлы выбраны для извлечения контента между ними. Это могут быть целые текстовые тела или простые текстовые строки.

Существует множество возможных ситуаций и, следовательно, множество различных типов узлов, которые следует учитывать при извлечении контента. Например, вы можете извлечь контент между:

Два конкретных пункта
Конкретные прогоны текста
Поля различных типов, такие как поля слияния
Стартовый и конечный диапазоны закладки или комментария
Различные тексты, содержащиеся в отдельных разделах

В некоторых ситуациях вам может даже потребоваться комбинировать различные типы узлов, такие как извлечение контента между абзацем и полем или между прогоном и закладкой.

В данной статье представлена реализация кода для извлечения текста между различными узлами, а также примеры общих сценариев.

Эти примеры являются лишь несколькими примерами многочисленных возможностей. Мы планируем, что функция извлечения текста будет частью общественности. API В будущем никакого дополнительного кода не потребуется. В то же время, не стесняйтесь размещать свои запросы относительно этой функциональности на веб-сайте. Aspose.Words форум.

Зачем извлекать контент

Часто целью извлечения контента является дублирование или сохранение его отдельно в новом документе. Например, вы можете извлечь контент и:

Копировать его в отдельный документ
Преобразование определенной части документа в PDF или изображение
многократно дублировать содержание документа
Работа с извлеченным контентом отдельно от остальной части документа

Это может быть легко достигнуто с помощью Aspose.Words и реализация кода ниже.

Алгоритм извлечения контента

Код в этом разделе рассматривает все возможные ситуации, описанные выше, с помощью одного обобщенного и многоразового метода. Общий контур этой техники включает в себя:

Сбор узлов, которые диктуют область контента, который будет извлечен из вашего документа. Получение этих узлов обрабатывается пользователем в его коде, исходя из того, что он хочет извлечь.
Передача этих узлов в ExtractContent Метод, представленный ниже. Вы также должны пройти булевой параметр, который указывает, должны ли эти узлы, действующие как маркеры, быть включены в экстракцию или нет.
Получение списка клонированного содержимого (копированных узлов), указанного для извлечения. Вы можете использовать этот список узлов любым применимым способом, например, создавая новый документ, содержащий только выбранный контент.

Как извлечь контент

Чтобы извлечь контент из вашего документа, вам нужно позвонить в ExtractContent ниже и пройти соответствующие параметры. Основой этого метода является поиск узлов уровня блоков (параграфов и таблиц) и их клонирование для создания идентичных копий. Если пропускаемые маркерные узлы являются уровнями блоков, то способ может просто скопировать содержимое на этом уровне и добавить его в массив.

Однако если маркерные узлы являются встроенными (ребенок абзаца), то ситуация становится более сложной, так как необходимо разделить абзац на встроенный узел, будь то прогон, поля закладок и т.д. Содержание в клонированных родительских узлах, не присутствующих между маркерами, удаляется. Этот процесс используется для обеспечения того, чтобы встроенные узлы по-прежнему сохраняли форматирование исходного абзаца. Метод также запускает проверки на узлах, прошедших в качестве параметров, и делает исключение, если любой из узлов недействителен. Параметры, которые должны быть переданы этому методу:

StartNode и EndNode. Первые два параметра - это узлы, которые определяют, где начинается и заканчивается извлечение содержимого соответственно. Эти узлы могут быть как на уровне блоков.Paragraph , Table) или рядный уровень (например Run , FieldStart , BookmarkStart и т.д 1.Для прохождения поля необходимо пройти соответствующее FieldStart объект
1. чтобы передать закладки, BookmarkStart и BookmarkEnd Узлы должны быть пропущены 1.Для передачи комментариев, CommentRangeStart и CommentRangeEnd Узлы должны использоваться
IsInclusive. Определяет, включены ли маркеры в экстракцию или нет. Если эта опция установлена false и один и тот же узел или последовательные узлы проходят, затем возвращается пустой список: 1.Если а FieldStart Узел передается, затем эта опция определяет, должно ли быть включено или исключено все поле 1.Если а BookmarkStart или BookmarkEnd Узел передается, этот вариант определяет, включена ли закладка или только содержимое между диапазоном закладок. 1.Если а CommentRangeStart или CommentRangeEnd Узел передается, этот параметр определяет, должен ли быть включен сам комментарий или только контент в диапазоне комментариев.

Осуществление этого ExtractContent Метод, который вы можете найти на Aspose.Words GitHub. Этот метод будет упомянут в сценариях в этой статье.

Мы также определим пользовательский метод для легкого создания документа из извлеченных узлов. Этот метод используется во многих сценариях ниже и просто создает новый документ и импортирует в него добытый контент.

Следующий пример кода показывает, как взять список узлов и вставить их в новый документ:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	public static Document GenerateDocument(Document srcDoc, List<Node> nodes)
	{
	Document dstDoc = new Document();
	// Remove the first paragraph from the empty document.
	dstDoc.FirstSection.Body.RemoveAllChildren();

	// Import each node from the list into the new document. Keep the original formatting of the node.
	NodeImporter importer = new NodeImporter(srcDoc, dstDoc, ImportFormatMode.KeepSourceFormatting);
	foreach (Node node in nodes)
	{
	Node importNode = importer.ImportNode(node, true);
	dstDoc.FirstSection.Body.AppendChild(importNode);
	}

	return dstDoc;
	}

view raw generate-document.cs hosted with ❤ by GitHub

Содержание между абзацами

Это показывает, как использовать метод выше для извлечения содержимого между конкретными абзацами. В этом случае мы хотим извлечь тело письма, найденное в первой половине документа. Можно сказать, что это между 7-м и 11-м абзацем.

Приведенный ниже код позволяет выполнить эту задачу. Соответствующие пункты извлекаются с использованием GetChild метод на документе и прохождение указанных индексов. Затем мы передаем эти узлы в ExtractContent Способ и состояние, что они должны быть включены в экстракцию. Этот метод возвращает скопированное содержимое между этими узлами, которые затем вставляются в новый документ.

Следующий пример кода показывает, как извлечь содержимое между конкретными абзацами, используя ExtractContent метод выше:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");

	Paragraph startPara = (Paragraph) doc.FirstSection.Body.GetChild(NodeType.Paragraph, 6, true);
	Paragraph endPara = (Paragraph) doc.FirstSection.Body.GetChild(NodeType.Paragraph, 10, true);
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	List<Node> extractedNodes = ExtractContentHelper.ExtractContent(startPara, endPara, true);

	Document dstDoc = ExtractContentHelper.GenerateDocument(doc, extractedNodes);
	dstDoc.Save(ArtifactsDir + "ExtractContent.ExtractContentBetweenParagraphs.docx");

view raw extract-content-between-paragraphs.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Извлечение контента между различными типами узлов

Мы можем извлекать контент между любыми комбинациями уровней блоков или встроенных узлов. В этом сценарии ниже мы будем извлекать содержание между первым абзацем и таблицей во втором разделе включительно. Мы получаем узлы маркеров, вызывая FirstParagraph и GetChild методы, описанные во втором разделе документа, для получения соответствующего Paragraph и Table Узлы. Для небольшого изменения давайте вместо этого продублируем контент и вставим его ниже оригинала.

Следующий пример кода показывает, как извлечь содержимое между абзацем и таблицей, используя ExtractContent метод:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");

	Paragraph startPara = (Paragraph) doc.LastSection.GetChild(NodeType.Paragraph, 2, true);
	Table endTable = (Table) doc.LastSection.GetChild(NodeType.Table, 0, true);
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	List<Node> extractedNodes = ExtractContentHelper.ExtractContent(startPara, endTable, true);

	// Let's reverse the array to make inserting the content back into the document easier.
	extractedNodes.Reverse();
	foreach (Node extractedNode in extractedNodes)
	endTable.ParentNode.InsertAfter(extractedNode, endTable);

	doc.Save(ArtifactsDir + "ExtractContent.ExtractContentBetweenBlockLevelNodes.docx");

view raw extract-content-between-block-level-nodes.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Содержание между абзацами Основано на стиле

Вам может потребоваться извлечь содержимое между абзацами одного и того же или другого стиля, например, между абзацами, помеченными стилями заголовков. Приведенный ниже код показывает, как этого добиться. Это простой пример, который будет извлекать содержимое между первым экземпляром стилей “Голова 1” и “Голова 3”, не извлекая заголовки. Для этого мы установили последний параметр false, который указывает, что маркерные узлы не должны быть включены.

В правильной реализации это должно быть запущено в цикле для извлечения содержимого между всеми абзацами этих стилей из документа. Извлеченный контент копируется в новый документ.

Следующий пример кода показывает, как извлекать контент между абзацами с использованием определенных стилей. ExtractContent метод:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");

	// Gather a list of the paragraphs using the respective heading styles.
	List<Paragraph> parasStyleHeading1 = ParagraphsByStyleName(doc, "Heading 1");
	List<Paragraph> parasStyleHeading3 = ParagraphsByStyleName(doc, "Heading 3");

	// Use the first instance of the paragraphs with those styles.
	Node startPara = parasStyleHeading1[0];
	Node endPara = parasStyleHeading3[0];

	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	List<Node> extractedNodes = ExtractContentHelper.ExtractContent(startPara, endPara, false);

	Document dstDoc = ExtractContentHelper.GenerateDocument(doc, extractedNodes);
	dstDoc.Save(ArtifactsDir + "ExtractContent.ExtractContentBetweenParagraphStyles.docx");

view raw extract-content-between-paragraph-styles.cs hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	public List<Paragraph> ParagraphsByStyleName(Document doc, string styleName)
	{
	// Create an array to collect paragraphs of the specified style.
	List<Paragraph> paragraphsWithStyle = new List<Paragraph>();
	NodeCollection paragraphs = doc.GetChildNodes(NodeType.Paragraph, true);

	// Look through all paragraphs to find those with the specified style.
	foreach (Paragraph paragraph in paragraphs)
	{
	if (paragraph.ParagraphFormat.Style.Name == styleName)
	paragraphsWithStyle.Add(paragraph);
	}

	return paragraphsWithStyle;
	}

view raw paragraphs-by-style-name.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Извлечение контента между конкретными пробегами

Вы можете извлекать контент между встроенными узлами, такими как Run И тоже. Runs Из разных абзацев могут быть пропущены как маркеры. В приведенном ниже коде показано, как извлечь конкретный текст между ними. Paragraph Узел.

Следующий пример кода показывает, как извлекать контент между конкретными прогонами одного и того же абзаца, используя ExtractContent метод:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");

	Paragraph para = (Paragraph) doc.GetChild(NodeType.Paragraph, 7, true);
	Run startRun = para.Runs[1];
	Run endRun = para.Runs[4];

	// Extract the content between these nodes in the document. Include these markers in the extraction.
	List<Node> extractedNodes = ExtractContentHelper.ExtractContent(startRun, endRun, true);
	foreach (Node extractedNode in extractedNodes)
	Console.WriteLine(extractedNode.ToString(SaveFormat.Text));

view raw extract-content-between-runs.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Извлечение контента с помощью поля

Чтобы использовать поле в качестве маркера, FieldStart Узел должен быть пропущен. Последний параметр для ExtractContent Метод определяет, будет ли включено все поле или нет. Выделим содержание между полем слияния “Полное имя” и абзацем в документе. Мы используем MoveToMergeField метод DocumentBuilder класс. Это вернет обратно FieldStart Узел от названия поля слияния перешел к нему.

В нашем случае давайте установим последний параметр, переданный ExtractContent метод для false исключить поле из добычи. Мы переведем извлеченный контент в PDF.

Следующий пример кода показывает, как извлечь содержимое между конкретным полем и абзацем в документе, используя ExtractContent метод:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");
	DocumentBuilder builder = new DocumentBuilder(doc);
	// Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	// We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder.MoveToMergeField("Fullname", false, false);

	// The builder cursor should be positioned at the start of the field.
	FieldStart startField = (FieldStart) builder.CurrentNode;
	Paragraph endPara = (Paragraph) doc.FirstSection.GetChild(NodeType.Paragraph, 5, true);
	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	List<Node> extractedNodes = ExtractContentHelper.ExtractContent(startField, endPara, false);

	Document dstDoc = ExtractContentHelper.GenerateDocument(doc, extractedNodes);
	dstDoc.Save(ArtifactsDir + "ExtractContent.ExtractContentUsingField.docx");

view raw extract-content-using-field.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Извлечение контента из закладки

В документе содержание, которое определено в закладке, инкапсулируется BookmarkStart и узлы BookmarkEnd. Содержание, найденное между этими двумя узлами, составляет закладку. Вы можете передать любой из этих узлов в качестве любого маркера, даже из разных закладок, если начальный маркер появляется перед конечным маркером в документе. Мы будем извлекать этот контент в новый документ, используя код ниже. The IsInclusive Параметр опции показывает, как сохранить или отбросить закладку.

Следующий пример кода показывает, как извлечь контент, на который ссылается закладка, используя ExtractContent метод:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");

	Bookmark bookmark = doc.Range.Bookmarks["Bookmark1"];
	BookmarkStart bookmarkStart = bookmark.BookmarkStart;
	BookmarkEnd bookmarkEnd = bookmark.BookmarkEnd;

	// Firstly, extract the content between these nodes, including the bookmark.
	List<Node> extractedNodesInclusive = ExtractContentHelper.ExtractContent(bookmarkStart, bookmarkEnd, true);

	Document dstDoc = ExtractContentHelper.GenerateDocument(doc, extractedNodesInclusive);
	dstDoc.Save(ArtifactsDir + "ExtractContent.ExtractContentBetweenBookmark.IncludingBookmark.docx");

	// Secondly, extract the content between these nodes this time without including the bookmark.
	List<Node> extractedNodesExclusive = ExtractContentHelper.ExtractContent(bookmarkStart, bookmarkEnd, false);

	dstDoc = ExtractContentHelper.GenerateDocument(doc, extractedNodesExclusive);
	dstDoc.Save(ArtifactsDir + "ExtractContent.ExtractContentBetweenBookmark.WithoutBookmark.docx");

view raw extract-content-between-bookmark.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Извлечение контента из комментария

Комментарий состоит из узлов CommentRangeStart, CommentRangeEnd и Comment. Все эти узлы являются встроенными. Первые два узла инкапсулируют содержание в документе, на которое ссылается комментарий, как видно на скриншоте ниже.

The Comment Сам по себе узел является InlineStory может содержать абзацы и строки. Он представляет собой сообщение комментария, рассматриваемое как пузырь комментариев в панели обзора. Поскольку этот узел является встроенным и потомком тела, вы также можете извлечь содержимое из этого сообщения.

Комментарий содержит заголовок, первый абзац и таблицу во втором разделе. Давайте добавим этот комментарий в новый документ. The IsInclusive Опция диктует, сохраняется или отбрасывается сам комментарий.

Следующий пример кода показывает, как это сделать:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");

	CommentRangeStart commentStart = (CommentRangeStart) doc.GetChild(NodeType.CommentRangeStart, 0, true);
	CommentRangeEnd commentEnd = (CommentRangeEnd) doc.GetChild(NodeType.CommentRangeEnd, 0, true);

	// Firstly, extract the content between these nodes including the comment as well.
	List<Node> extractedNodesInclusive = ExtractContentHelper.ExtractContent(commentStart, commentEnd, true);

	Document dstDoc = ExtractContentHelper.GenerateDocument(doc, extractedNodesInclusive);
	dstDoc.Save(ArtifactsDir + "ExtractContent.ExtractContentBetweenCommentRange.IncludingComment.docx");

	// Secondly, extract the content between these nodes without the comment.
	List<Node> extractedNodesExclusive = ExtractContentHelper.ExtractContent(commentStart, commentEnd, false);

	dstDoc = ExtractContentHelper.GenerateDocument(doc, extractedNodesExclusive);
	dstDoc.Save(ArtifactsDir + "ExtractContent.ExtractContentBetweenCommentRange.WithoutComment.docx");

view raw extract-content-between-comment-range.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Как извлечь контент с помощью DocumentVisitor

Используйте DocumentVisitor Класс для реализации этого сценария использования. Этот класс соответствует известному шаблону дизайна посетителя. с DocumentVisitor , Вы можете определять и выполнять пользовательские операции, которые требуют перечисления по дереву документов.

DocumentVisitor Предоставляет набор из VisitXXX Методы, которые используются при встрече с конкретным элементом документа (узлом). Например, VisitParagraphStart Называется, когда найдено начало абзаца текста и VisitParagraphEnd Называется при обнаружении конца текстового абзаца. Каждый DocumentVisitor.VisitXXX метод принимает соответствующий объект, с которым он сталкивается, чтобы вы могли использовать его по мере необходимости (например, восстановить форматирование), например, оба DocumentVisitor.VisitParagraphStart и DocumentVisitor.VisitParagraphEnd принять Paragraph объект.

Каждый DocumentVisitor.VisitXXX Способ возвращает VisitorAction значение, которое контролирует перечисление узлов. Вы можете запросить либо продолжить перечисление, пропустить текущий узел (но продолжить перечисление), либо остановить перечисление узлов.

Вот шаги, которым вы должны следовать, чтобы программно определить и извлечь различные части документа:

Создать класс, полученный из DocumentVisitor
отменять и обеспечивать реализацию для некоторых или всех DocumentVisitor.VisitXXX Способы выполнения некоторых пользовательских операций
Звони. Node.Accept на узле, с которого вы хотите начать перечисление, например, если вы хотите перечислить весь документ, используйте Document.Accept

DocumentVisitor обеспечивает реализацию по умолчанию для всех DocumentVisitor.VisitXXX методы. Это облегчает создание новых посетителей документов, поскольку только методы, необходимые для конкретного посетителя, должны быть отменены. Нет необходимости переопределять все методы посетителей.

Следующий пример показывает, как использовать шаблон посетителя для добавления новых операций в систему. Aspose.Words объектная модель. В этом случае мы создаем простой конвертер документов в текстовый формат:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Extract content.docx");

	ConvertDocToTxt convertToPlainText = new ConvertDocToTxt();
	// Note that every node in the object model has the accept method so the visiting
	// can be executed not only for the whole document, but for any node in the document.
	doc.Accept(convertToPlainText);

	// Once the visiting is complete, we can retrieve the result of the operation,
	// That in this example, has accumulated in the visitor.
	Console.WriteLine(convertToPlainText.GetText());

view raw extract-content-using-document-visitor.cs hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	/// <summary>
	/// Simple implementation of saving a document in the plain text format. Implemented as a Visitor.
	/// </summary>
	internal class ConvertDocToTxt : DocumentVisitor
	{
	public ConvertDocToTxt()
	{
	mIsSkipText = false;
	mBuilder = new StringBuilder();
	}

	/// <summary>
	/// Gets the plain text of the document that was accumulated by the visitor.
	/// </summary>
	public string GetText()
	{
	return mBuilder.ToString();
	}

	/// <summary>
	/// Called when a Run node is encountered in the document.
	/// </summary>
	public override VisitorAction VisitRun(Run run)
	{
	AppendText(run.Text);
	// Let the visitor continue visiting other nodes.
	return VisitorAction.Continue;
	}

	/// <summary>
	/// Called when a FieldStart node is encountered in the document.
	/// </summary>
	public override VisitorAction VisitFieldStart(FieldStart fieldStart)
	{
	// In Microsoft Word, a field code (such as "MERGEFIELD FieldName") follows
	// after a field start character. We want to skip field codes and output field.
	// Result only, therefore we use a flag to suspend the output while inside a field code.
	// Note this is a very simplistic implementation and will not work very well.
	// If you have nested fields in a document.
	mIsSkipText = true;
	return VisitorAction.Continue;
	}

	/// <summary>
	/// Called when a FieldSeparator node is encountered in the document.
	/// </summary>
	public override VisitorAction VisitFieldSeparator(FieldSeparator fieldSeparator)
	{
	// Once reached a field separator node, we enable the output because we are
	// now entering the field result nodes.
	mIsSkipText = false;
	return VisitorAction.Continue;
	}

	/// <summary>
	/// Called when a FieldEnd node is encountered in the document.
	/// </summary>
	public override VisitorAction VisitFieldEnd(FieldEnd fieldEnd)
	{
	// Make sure we enable the output when reached a field end because some fields
	// do not have field separator and do not have field result.
	mIsSkipText = false;
	return VisitorAction.Continue;
	}

	/// <summary>
	/// Called when visiting of a Paragraph node is ended in the document.
	/// </summary>
	public override VisitorAction VisitParagraphEnd(Paragraph paragraph)
	{
	// When outputting to plain text we output Cr+Lf characters.
	AppendText(ControlChar.CrLf);
	return VisitorAction.Continue;
	}

	public override VisitorAction VisitBodyStart(Body body)
	{
	// We can detect beginning and end of all composite nodes such as Section, Body,
	// Table, Paragraph etc and provide custom handling for them.
	mBuilder.Append("* Body Started *\r\n");
	return VisitorAction.Continue;
	}

	public override VisitorAction VisitBodyEnd(Body body)
	{
	mBuilder.Append("* Body Ended *\r\n");
	return VisitorAction.Continue;
	}

	/// <summary>
	/// Called when a HeaderFooter node is encountered in the document.
	/// </summary>
	public override VisitorAction VisitHeaderFooterStart(HeaderFooter headerFooter)
	{
	// Returning this value from a visitor method causes visiting of this
	// Node to stop and move on to visiting the next sibling node
	// The net effect in this example is that the text of headers and footers
	// Is not included in the resulting output
	return VisitorAction.SkipThisNode;
	}

	/// <summary>
	/// Adds text to the current output. Honors the enabled/disabled output flag.
	/// </summary>
	private void AppendText(string text)
	{
	if (!mIsSkipText)
	mBuilder.Append(text);
	}

	private readonly StringBuilder mBuilder;
	private bool mIsSkipText;
	}

view raw convert-doc-to-txt.cs hosted with ❤ by GitHub

Вы можете скачать образец файла этого примера из Aspose.Words GitHub.

Как извлечь только текст

Способы извлечения текста из документа:

Используйте Document.Save с SaveFormat.Text сохранить как простой текст в файл или поток
Используйте Node.ToString и передать SaveFormat.Text параметр. Внутренне это вызывает сохранение в виде текста в поток памяти и возвращает полученную строку
Используйте Node.GetText Восстановить текст со всеми Microsoft Word Управляющие символы, включая полевые коды
Внедрить обычай DocumentVisitor для выполнения индивидуальной экстракции

Использовать `Node.GetText` и `Node.ToString`

А. Документ Word может содержать управляющие символы, которые обозначают специальные элементы, такие как поле, конец ячейки, конец секции и т.д. Полный список возможных символов управления Словом определен в ControlChar класс. The Node.GetText Способ возвращает текст со всеми символами управляющего характера, присутствующими в узле.

Звонить ToString возвращает простое текстовое представление документа только без управляющих символов. Для получения дополнительной информации об экспорте в виде простого текста см. следующий раздел “Использование SaveFormat.Text.

Следующий пример кода показывает разницу между вызовом GetText и ToString методы на узле:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document();
	DocumentBuilder builder = new DocumentBuilder(doc);

	builder.InsertField("MERGEFIELD Field");

	// When converted to text it will not retrieve fields code or special characters,
	// but will still contain some natural formatting characters such as paragraph markers etc.
	// This is the same as "viewing" the document as if it was opened in a text editor.
	Console.WriteLine("Convert to text result: " + doc.ToString(SaveFormat.Text));

view raw simple-extract-text.cs hosted with ❤ by GitHub

Использовать `SaveFormat.Text`

Этот пример сохраняет документ следующим образом:

Фильтры полевых символов и полевых кодов, формы, сноски, сноски и ссылки на комментарии
Заменяет конец пункта ControlChar.Cr персонажей с ControlChar.CrLf комбинации
Использование кодирования UTF8

Следующий пример кода показывает, как сохранить документ в формате TXT:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Document.docx");
	doc.Save(ArtifactsDir + "BaseConversions.DocxToTxt.txt");

view raw docx-to-txt.cs hosted with ❤ by GitHub

Извлечение изображений из форм

Вам может потребоваться извлечь изображения документов для выполнения некоторых задач. Aspose.Words Это также позволяет вам сделать это.

Следующий пример кода показывает, как извлечь изображения из документа:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-.NET.git.
	Document doc = new Document(MyDir + "Images.docx");

	NodeCollection shapes = doc.GetChildNodes(NodeType.Shape, true);
	int imageIndex = 0;

	foreach (Shape shape in shapes)
	{
	if (shape.HasImage)
	{
	string imageFileName =
	$"Image.ExportImages.{imageIndex}_{FileFormatUtil.ImageTypeToExtension(shape.ImageData.ImageType)}";

	// Note, if you have only an image (not a shape with a text and the image),
	// you can use shape.GetShapeRenderer().Save(...) method to save the image.
	shape.ImageData.Save(ArtifactsDir + imageFileName);
	imageIndex++;
	}
	}

view raw extract-images.cs hosted with ❤ by GitHub

Работа с диапазонами в C# Работа с заголовками и футерами в C#

Извлечение контента между узлами в документе

Зачем извлекать контент

Алгоритм извлечения контента

Как извлечь контент

Содержание между абзацами

Извлечение контента между различными типами узлов

Содержание между абзацами Основано на стиле

Извлечение контента между конкретными пробегами

Извлечение контента с помощью поля

Извлечение контента из закладки

Извлечение контента из комментария

Как извлечь контент с помощью DocumentVisitor

Как извлечь только текст

Использовать Node.GetText и Node.ToString

Использовать SaveFormat.Text

Извлечение изображений из форм

Использовать `Node.GetText` и `Node.ToString`

Использовать `SaveFormat.Text`