RubyでPDFドキュメントのすべてのページからテキストを抽出する
Contents
[
Hide
]
Aspose.PDF - すべてのページからテキストを抽出する
Aspose.PDF Java for Rubyを使用してPDFドキュメントのすべてのページからテキストを抽出するには、単にExtractTextFromAllPagesモジュールを呼び出します。
Rubyコード
# ドキュメントディレクトリへのパス。
data_dir = File.dirname(File.dirname(File.dirname(File.dirname(__FILE__)))) + '/data/'
# ターゲットドキュメントを開く
pdf = Rjb::import('com.aspose.pdf.Document').new(data_dir + 'input1.pdf')
# テキストを抽出するためのTextAbsorberオブジェクトを作成
text_absorber = Rjb::import('com.aspose.pdf.TextAbsorber').new
# すべてのページに対してアブソーバを適用
pdf.getPages().accept(text_absorber)
# ドキュメントの特定のページからテキストを抽出するには、accept(..)メソッドに対して特定のページをそのインデックスを使用して指定する必要があります。
# 特定のPDFページに対してアブソーバを適用
# pdfDocument.getPages().get_Item(1).accept(textAbsorber);
# 抽出されたテキストを取得
extracted_text = text_absorber.getText()
# ライターを作成しファイルを開く
writer = Rjb::import('java.io.FileWriter').new(Rjb::import('java.io.File').new(data_dir + "extracted_text.out.txt"))
writer.write(extracted_text)
# ファイルにテキストの行を書き込む
# tw.WriteLine(extractedText);
# ストリームを閉じる
writer.close()
puts "テキストが正常に抽出されました。出力ファイルを確認してください。"
コードのダウンロード
すべてのページからテキストを抽出 (Aspose.PDF) を以下のいずれかのソーシャルコーディングサイトからダウンロードしてください: