PythonでPDFをテキストに変換する

PDFをテキストに変換

Aspose.PDF for Pythonは、PDFドキュメント全体および単一ページをテキストファイルに変換することをサポートしています。

PDFドキュメントをテキストファイルに変換

‘TextDevice’クラスを使用してPDFドキュメントをTXTファイルに変換できます。

入力ファイルと出力ファイルのパスを作成
PDF抽出ファサードのインスタンスをextractor_createで作成
PDFファイルをextractor_bind_pdfで抽出器にバインド
extractor_extract_textを使用してPDFファイルからテキストを抽出する
抽出されたテキストを書き出しファイルに書き込む
‘document.save’メソッドで出力PDFを保存する

以下のコードスニペットは、すべてのページからテキストを抽出する方法を説明しています。


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)

PythonでPDFを異なる画像フォーマットに変換