从PDF中提取段落

以段落形式从PDF文档中提取文本

我们可以通过搜索特定文本（使用“纯文本”或“正则表达式”）从单个页面或整个文档中获取PDF文档中的文本，或者我们可以获取单个页面、页面范围或整个文档的完整文本。然而，在某些情况下，您需要从 PDF 文档中提取段落或以段落形式的文本。我们已实现了在 PDF 文档页面的文本中搜索部分和段落的功能。我们引入了 ParagraphAbsorber 类（类似于 TextFragmentAbsorber 和 TextAbsorber），可以用来从 PDF 文档中提取段落。您可以通过以下两种方式使用 ParagraphAbsorber：

使用C++从所有PDF页面提取文本