提取文档中节点之间的内容

处理文档时，能够轻松地从文档中的特定范围中提取内容非常重要。然而，内容可能由复杂的元素组成，例如段落、表格、图像等。

无论需要提取什么内容，提取该内容的方法始终取决于选择哪些节点来提取其间的内容。这些可以是整个文本主体或简单的文本流。

有许多可能的情况，因此在提取内容时需要考虑许多不同的节点类型。例如，您可能想要提取以下内容之间的内容：

两个特定段落
特定的文本运行
各种类型的字段，例如合并字段
书签或评论的开始和结束范围
不同部分中包含的各种文本主体

在某些情况下，您甚至可能需要组合不同的节点类型，例如提取段落和字段之间，或者运行和书签之间的内容。

本文提供了在不同节点之间提取文本的代码实现，以及常见场景的示例。

这些示例只是多种可能性的几个演示。我们计划将来将文本提取功能纳入公共 API 的一部分，并且不需要额外的代码。同时，请随时在 Aspose.Words论坛上发布有关此功能的请求。

为什么提取内容

通常，提取内容的目标是将其复制或单独保存在新文档中。例如，您可以提取内容并：

将其复制到单独的文档中
将文档的特定部分转换为 PDF 或图像
多次重复文档中的内容
与文档的其余部分分开处理提取的内容

使用 Aspose.Words 和下面的代码实现可以轻松实现这一点。

提取内容算法

本节中的代码使用一种通用且可重用的方法解决了上述所有可能的情况。该技术的总体轮廓包括：

收集指示将从文档中提取的内容区域的节点。检索这些节点是由用户根据他们想要提取的内容在其代码中处理的。
将这些节点传递给下面提供的 ExtractContent 方法。您还必须传递一个布尔参数，该参数指示这些充当标记的节点是否应包含在提取中。
检索指定要提取的克隆内容（复制节点）的列表。您可以以任何适用的方式使用此节点列表，例如，创建仅包含所选内容的新文档。

如何提取内容

要从文档中提取内容，您需要调用下面的 提取内容 方法并传递适当的参数。该方法的基本原理涉及查找块级节点（段落和表格）并克隆它们以创建相同的副本。如果传递的标记节点是块级别的，则该方法能够简单地复制该级别上的内容并将其添加到数组中。

但是，如果标记节点是内联的（段落的子节点），则情况会变得更加复杂，因为有必要在内联节点处拆分段落，无论是运行、书签字段等。克隆的父节点中的内容不会标记之间存在的内容被删除。此过程用于确保内联节点仍保留父段落的格式。该方法还将对作为参数传递的节点进行检查，如果任一节点无效，则抛出异常。要传递给该方法的参数是：

1.起始节点和 结束节点。前两个参数是分别定义内容提取的开始和结束位置的节点。这些节点可以是块级（Paragraph、Table 或内联级（例如 Run、FieldStart、BookmarkStart 等））：

要传递字段，您应该传递相应的 FieldStart 对象。
传递书签，需要传递BookmarkStart和BookmarkEnd节点。
传递评论需要使用CommentRangeStart和CommentRangeEnd节点。 1.是包容性的。定义标记是否包含在提取中。如果该选项设置为false并且传递相同的节点或连续的节点，那么将返回一个空列表：
如果传递 FieldStart 节点，则此选项定义是否包含或排除整个字段。
如果传递 BookmarkStart 或 BookmarkEnd 节点，则此选项定义是否包含书签或仅包含书签范围之间的内容。
如果传递 CommentRangeStart 或 CommentRangeEnd 节点，则此选项定义是否包含注释本身或仅包含注释范围内的内容。

提取内容方法的实现你可以找到这里。本文的场景中会用到该方法。

我们还将定义一个自定义方法来轻松地从提取的节点生成文档。此方法在下面的许多场景中都会使用，只需创建一个新文档并将提取的内容导入其中即可。

以下代码示例演示如何获取节点列表并将它们插入到新文档中：

提取段落之间的内容

这演示了如何使用上述方法提取特定段落之间的内容。在本例中，我们想要提取文档前半部分中找到的信件正文。我们可以看出这是在第7段和第11段之间。

下面的代码完成了这个任务。使用文档上的 CompositeNode.get_child 方法并传递指定的索引来提取适当的段落。然后，我们将这些节点传递给 提取内容 方法，并声明这些节点将包含在提取中。此方法将返回这些节点之间复制的内容，然后将其插入到新文档中。

以下代码示例展示了如何使用上面的 提取内容 方法提取特定段落之间的内容：