将PDF转换为文本在Python中
Contents
[
Hide
]
将PDF转换为文本
Aspose.PDF for Python 支持将整个PDF文档和单个页面转换为文本文件。
将PDF文档转换为文本文件
您可以使用 ‘TextDevice’ 类将PDF文档转换为TXT文件。
-
创建输入和输出文件路径
-
使用 extractor_create 创建PDF提取器外观的实例
-
使用 extractor_bind_pdf 将PDF文件绑定到提取器
-
使用 extractor_extract_text 从 PDF 文件中提取文本
-
将提取的文本写入输出文件
-
使用 ‘document.save’ 方法保存输出 PDF。
以下代码片段说明如何从所有页面中提取文本。
from AsposePdfPython import *
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_txt.txt"
extactor = extractor_create()
extractor_bind_pdf(extactor,input_pdf)
text = extractor_extract_text(extactor)
with open(output_pdf, 'w') as f:
f.write(text)