PythonでPDFドキュメントのすべてのページからテキストを抽出

Pythonを使用してPDFからテキストを抽出

Aspose.PDF Java for Pythonを使用して、PDFドキュメントのすべてのページからテキストを抽出するには、単にExtractTextFromAllPagesモジュールを呼び出します。


# 対象のドキュメントを開く
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "テキストが正常に抽出されました。出力ファイルを確認してください。"

実行コードをダウンロード

以下のいずれかのソーシャルコーディングサイトから、Extract Text From All the Pages (Aspose.PDF) をダウンロードしてください:

GitHub

既存のPDFにテキストを追加するPython