Извлечение сырого текста из PDF файла
Contents
[
Hide
]
Извлечение текста со всех страниц PDF документа
Извлечение текста из PDF документа является обычной задачей. В этом примере вы увидите, как Aspose.PDF для PHP позволяет извлекать текст со всех страниц PDF документа. Чтобы извлечь текст со всех страниц PDF:
-
Создайте объект класса TextAbsorber.
-
Откройте PDF, используя класс Document и вызовите метод Accept коллекции Pages.
-
Класс TextAbsorber извлекает текст из документа и возвращает его в методе getText().
Следующий фрагмент кода показывает, как извлечь текст со всех страниц PDF-документа.
// Создайте новый объект Document из входного PDF-файла.
$document = new Document($inputFile);
// Создайте новый объект TextAbsorber для извлечения текста из документа.
$textAbsorber = new TextAbsorber();
// Извлеките текст из документа.
$textAbsorber->visit($document);
// Получите извлеченное текстовое содержимое.
$content = $textAbsorber->getText();
// Сохраните извлеченный текст в выходной файл.
file_put_contents($outputFile, $content);