使用 Python 从 PDF 中提取文本
Contents
 [
      
        Hide
      ]
    从 PDF 文档的所有页面提取文本
从 PDF 中提取文本并不容易。许多 PDF 阅读器无法从 PDF 图像或扫描的 PDF 中提取文本。但是,Aspose.PDF for Python via C++ 工具可以轻松地从所有 PDF 文件中提取文本。
查看代码片段并按照以下步骤从 PDF 中提取文本:
- 
导入 Aspose.PDF for Python 库 
- 
创建一个新的提取器对象,用于从 PDF 文档中提取文本和图像。 
- 
将提取器对象绑定到 PDF 文件,该文件是提取的来源。 
- 
从 PDF 文档中提取所有文本并将其放入某个变量中。 
- 
做任何事情,将提取的文本打印到控制台,搜索一些片段等 
from AsposePdfPython import *
extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)
print(text)