PDFファイルから生のテキストを抽出する
Contents
[
Hide
]
PDF文書のすべてのページからテキストを抽出する
PDF文書からテキストを抽出することは一般的な要求です。この例では、Aspose.PDF for PHPがPDF文書のすべてのページからテキストを抽出する方法を示します。 すべてのPDFページからテキストを抽出するには:
-
TextAbsorberクラスのオブジェクトを作成します。
-
TextAbsorber クラスはドキュメントからテキストを吸収し、getText() メソッドで返します。
次のコードスニペットは、PDFドキュメントのすべてのページからテキストを抽出する方法を示しています。
// 入力PDFファイルから新しいDocumentオブジェクトを作成します。
$document = new Document($inputFile);
// ドキュメントからテキストを抽出するための新しいTextAbsorberオブジェクトを作成します。
$textAbsorber = new TextAbsorber();
// ドキュメントからテキストを抽出します。
$textAbsorber->visit($document);
// 抽出されたテキストの内容を取得します。
$content = $textAbsorber->getText();
// 抽出されたテキストを出力ファイルに保存します。
file_put_contents($outputFile, $content);