PythonでPDFをテキストに変換する

PDFをテキストに変換

Aspose.PDF for Pythonは、PDFドキュメント全体および単一ページをテキストファイルに変換することをサポートしています。

PDFドキュメントをテキストファイルに変換

‘TextDevice’クラスを使用してPDFドキュメントをTXTファイルに変換できます。

  1. 入力ファイルと出力ファイルのパスを作成

  2. PDF抽出ファサードのインスタンスをextractor_createで作成

  3. PDFファイルをextractor_bind_pdfで抽出器にバインド

  4. extractor_extract_textを使用してPDFファイルからテキストを抽出する

  5. 抽出されたテキストを書き出しファイルに書き込む

  6. ‘document.save’メソッドで出力PDFを保存する

以下のコードスニペットは、すべてのページからテキストを抽出する方法を説明しています。


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)