从PDF中提取段落
Contents
[
Hide
]
以段落形式从PDF文档中提取文本
我们可以通过搜索特定文本(使用“纯文本”或“正则表达式”)从单个页面或整个文档中获取PDF文档中的文本,或者我们可以获取单个页面、页面范围或整个文档的完整文本。 然而,在某些情况下,您需要从 PDF 文档中提取段落或以段落形式的文本。我们已实现了在 PDF 文档页面的文本中搜索部分和段落的功能。我们引入了 ParagraphAbsorber 类(类似于 TextFragmentAbsorber 和 TextAbsorber),可以用来从 PDF 文档中提取段落。您可以通过以下两种方式使用 ParagraphAbsorber: