PHPでPDFドキュメントのすべてのページからテキストを抽出する

Aspose.PDF - すべてのページからテキストを抽出

Aspose.PDF Java for PHPを使用してPDFドキュメントのすべてのページからテキストを抽出するには、単にExtractTextFromAllPagesモジュールを呼び出します。 PHPコード


# ターゲットドキュメントを開く
$pdf = new Document($dataDir . 'input1.pdf');

# テキストを抽出するためのTextAbsorberオブジェクトを作成する
$text_absorber = new TextAbsorber();

# 全ページに対してアブソーバーを受け入れる
$pdf->getPages()->accept($text_absorber);

# ドキュメントの特定のページからテキストを抽出するためには、accept(..)メソッドに対してそのインデックスを使用して特定のページを指定する必要があります。
# 特定のPDFページに対してアブソーバーを受け入れる
# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# 抽出されたテキストを取得
$extracted_text = $text_absorber->getText();

# ライターを作成し、ファイルを開く
$writer = new FileWriter(new File($dataDir . "extracted_text.out.txt"));
$writer->write($extracted_text);
# ファイルにテキストの行を書き込む
# tw.WriteLine(extractedText);
# ストリームを閉じる
$writer->close();

print "テキストが正常に抽出されました。出力ファイルを確認してください。" . PHP_EOL;

コードのダウンロード

任意の以下のソーシャルコーディングサイトからすべてのページからテキストを抽出する (Aspose.PDF) をダウンロードしてください: