Извлечение текста со всех страниц PDF-документа на PHP

Aspose.PDF - Извлечение текста со всех страниц

Чтобы извлечь текст со всех страниц PDF-документа с использованием Aspose.PDF Java for PHP, просто вызовите модуль ExtractTextFromAllPages. Код PHP


# Открыть целевой документ
$pdf = new Document($dataDir . 'input1.pdf');

# создать объект TextAbsorber для извлечения текста
$text_absorber = new TextAbsorber();

# применить абсорбер для всех страниц
$pdf->getPages()->accept($text_absorber);

# Чтобы извлечь текст с конкретной страницы документа, нам нужно указать конкретную страницу, используя ее индекс в методе accept(..).
# применить абсорбер для конкретной страницы PDF
# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# получить извлеченный текст
$extracted_text = $text_absorber->getText();

# создать писатель и открыть файл
$writer = new FileWriter(new File($dataDir . "extracted_text.out.txt"));
$writer->write($extracted_text);
# записать строку текста в файл
# tw.WriteLine(extractedText);
# закрыть поток
$writer->close();

print "Текст успешно извлечен. Проверьте выходной файл." . PHP_EOL;

Загрузка выполняемого кода

Скачайте Извлечение текста со всех страниц (Aspose.PDF) с любого из указанных ниже сайтов социального программирования:

GitHub

Добавить текст в существующий PDF файл на PHP