PythonでPDFをテキストに変換する
Contents
[
Hide
]
PDFをテキストに変換
Aspose.PDF for Pythonは、PDFドキュメント全体および単一ページをテキストファイルに変換することをサポートしています。
PDFドキュメントをテキストファイルに変換
‘TextDevice’クラスを使用してPDFドキュメントをTXTファイルに変換できます。
-
入力ファイルと出力ファイルのパスを作成
-
PDF抽出ファサードのインスタンスをextractor_createで作成
-
PDFファイルをextractor_bind_pdfで抽出器にバインド
-
extractor_extract_textを使用してPDFファイルからテキストを抽出する
-
抽出されたテキストを書き出しファイルに書き込む
-
‘document.save’メソッドで出力PDFを保存する
以下のコードスニペットは、すべてのページからテキストを抽出する方法を説明しています。
from AsposePdfPython import *
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_txt.txt"
extactor = extractor_create()
extractor_bind_pdf(extactor,input_pdf)
text = extractor_extract_text(extactor)
with open(output_pdf, 'w') as f:
f.write(text)