PHPでPDFドキュメントのすべてのページからテキストを抽出する
Contents
[
Hide
]
Aspose.PDF - すべてのページからテキストを抽出
Aspose.PDF Java for PHPを使用してPDFドキュメントのすべてのページからテキストを抽出するには、単にExtractTextFromAllPagesモジュールを呼び出します。 PHPコード
# ターゲットドキュメントを開く
$pdf = new Document($dataDir . 'input1.pdf');
# テキストを抽出するためのTextAbsorberオブジェクトを作成する
$text_absorber = new TextAbsorber();
# 全ページに対してアブソーバーを受け入れる
$pdf->getPages()->accept($text_absorber);
# ドキュメントの特定のページからテキストを抽出するためには、accept(..)メソッドに対してそのインデックスを使用して特定のページを指定する必要があります。
# 特定のPDFページに対してアブソーバーを受け入れる
# pdfDocument.getPages().get_Item(1).accept(textAbsorber);
# 抽出されたテキストを取得
$extracted_text = $text_absorber->getText();
# ライターを作成し、ファイルを開く
$writer = new FileWriter(new File($dataDir . "extracted_text.out.txt"));
$writer->write($extracted_text);
# ファイルにテキストの行を書き込む
# tw.WriteLine(extractedText);
# ストリームを閉じる
$writer->close();
print "テキストが正常に抽出されました。出力ファイルを確認してください。" . PHP_EOL;
コードのダウンロード
任意の以下のソーシャルコーディングサイトからすべてのページからテキストを抽出する (Aspose.PDF) をダウンロードしてください: