使用 Python 从 PDF 中提取文本
Contents
[
Hide
]
从 PDF 文档的所有页面提取文本
从 PDF 中提取文本并不容易。许多 PDF 阅读器无法从 PDF 图像或扫描的 PDF 中提取文本。但是,Aspose.PDF for Python via C++ 工具可以轻松地从所有 PDF 文件中提取文本。
查看代码片段并按照以下步骤从 PDF 中提取文本:
-
导入 Aspose.PDF for Python 库
-
创建一个新的提取器对象,用于从 PDF 文档中提取文本和图像。
-
将提取器对象绑定到 PDF 文件,该文件是提取的来源。
-
从 PDF 文档中提取所有文本并将其放入某个变量中。
-
做任何事情,将提取的文本打印到控制台,搜索一些片段等
from AsposePdfPython import *
extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)
print(text)