从PDF文件中提取原始文本
Contents
[
Hide
]
从PDF文档的所有页面提取文本
从PDF文档中提取文本是一个常见需求。在此示例中,您将看到Aspose.PDF for PHP如何允许从PDF文档的所有页面提取文本。 要从所有PDF页面提取文本:
-
创建一个 TextAbsorber 类的对象。
-
TextAbsorber 类从文档中吸收文本并在 getText() 方法 中返回。
以下代码片段向您展示如何从 PDF 文档的所有页面中提取文本。
// 从输入 PDF 文件创建一个新的 Document 对象。
$document = new Document($inputFile);
// 创建一个新的 TextAbsorber 对象以从文档中提取文本。
$textAbsorber = new TextAbsorber();
// 从文档中提取文本。
$textAbsorber->visit($document);
// 获取提取的文本内容。
$content = $textAbsorber->getText();
// 将提取的文本保存到输出文件。
file_put_contents($outputFile, $content);