Извлечение сырого текста из PDF файла

Извлечение текста со всех страниц PDF документа

Извлечение текста из PDF документа является обычной задачей. В этом примере вы увидите, как Aspose.PDF для PHP позволяет извлекать текст со всех страниц PDF документа. Чтобы извлечь текст со всех страниц PDF:

  1. Создайте объект класса TextAbsorber.

  2. Откройте PDF, используя класс Document и вызовите метод Accept коллекции Pages.

  3. Класс TextAbsorber извлекает текст из документа и возвращает его в методе getText().

Следующий фрагмент кода показывает, как извлечь текст со всех страниц PDF-документа.


    // Создайте новый объект Document из входного PDF-файла.
    $document = new Document($inputFile);

    // Создайте новый объект TextAbsorber для извлечения текста из документа.
    $textAbsorber = new TextAbsorber();

    // Извлеките текст из документа.
    $textAbsorber->visit($document);

    // Получите извлеченное текстовое содержимое.
    $content = $textAbsorber->getText();

    // Сохраните извлеченный текст в выходной файл.
    file_put_contents($outputFile, $content);