从PDF文件中提取原始文本

从PDF文档的所有页面提取文本

从PDF文档中提取文本是一个常见需求。在此示例中,您将看到Aspose.PDF for PHP如何允许从PDF文档的所有页面提取文本。 要从所有PDF页面提取文本:

  1. 创建一个 TextAbsorber 类的对象。

  2. 使用 Document 类打开 PDF,并调用 Pages 集合的 Accept 方法。

  3. TextAbsorber 类从文档中吸收文本并在 getText() 方法 中返回。

以下代码片段向您展示如何从 PDF 文档的所有页面中提取文本。


    // 从输入 PDF 文件创建一个新的 Document 对象。
    $document = new Document($inputFile);

    // 创建一个新的 TextAbsorber 对象以从文档中提取文本。
    $textAbsorber = new TextAbsorber();

    // 从文档中提取文本。
    $textAbsorber->visit($document);

    // 获取提取的文本内容。
    $content = $textAbsorber->getText();

    // 将提取的文本保存到输出文件。
    file_put_contents($outputFile, $content);