PDFファイルから生のテキストを抽出する

PDF文書のすべてのページからテキストを抽出する

PDF文書からテキストを抽出することは一般的な要求です。この例では、Aspose.PDF for PHPがPDF文書のすべてのページからテキストを抽出する方法を示します。 すべてのPDFページからテキストを抽出するには:

  1. TextAbsorberクラスのオブジェクトを作成します。

  2. Document クラスを使用してPDFを開き、Pages コレクションの Accept メソッドを呼び出します。

  3. TextAbsorber クラスはドキュメントからテキストを吸収し、getText() メソッドで返します。

次のコードスニペットは、PDFドキュメントのすべてのページからテキストを抽出する方法を示しています。


    // 入力PDFファイルから新しいDocumentオブジェクトを作成します。
    $document = new Document($inputFile);

    // ドキュメントからテキストを抽出するための新しいTextAbsorberオブジェクトを作成します。
    $textAbsorber = new TextAbsorber();

    // ドキュメントからテキストを抽出します。
    $textAbsorber->visit($document);

    // 抽出されたテキストの内容を取得します。
    $content = $textAbsorber->getText();

    // 抽出されたテキストを出力ファイルに保存します。
    file_put_contents($outputFile, $content);