从PDF文件中提取原始文本

从PDF文档的所有页面提取文本

从PDF文档中提取文本是一个常见需求。在此示例中，您将看到Aspose.PDF for PHP如何允许从PDF文档的所有页面提取文本。要从所有PDF页面提取文本：

创建一个 TextAbsorber 类的对象。
使用 Document 类打开 PDF，并调用 Pages 集合的 Accept 方法。
TextAbsorber 类从文档中吸收文本并在 getText() 方法中返回。

以下代码片段向您展示如何从 PDF 文档的所有页面中提取文本。


    // 从输入 PDF 文件创建一个新的 Document 对象。
    $document = new Document($inputFile);

    // 创建一个新的 TextAbsorber 对象以从文档中提取文本。
    $textAbsorber = new TextAbsorber();

    // 从文档中提取文本。
    $textAbsorber->visit($document);

    // 获取提取的文本内容。
    $content = $textAbsorber->getText();

    // 将提取的文本保存到输出文件。
    file_put_contents($outputFile, $content);

从PDF中提取段落