Извлечение текста со всех страниц PDF-документа на Python

Извлечение текста из PDF с помощью Python

Чтобы извлечь текст со всех страниц PDF-документа с использованием Aspose.PDF Java for Python, просто вызовите модуль ExtractTextFromAllPages.


# Открыть целевой документ
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Текст успешно извлечен. Проверьте выходной файл."

Скачать выполняемый код

Скачайте Извлечение текста со всех страниц (Aspose.PDF) с любого из указанных ниже сайтов социального кодирования:

GitHub

Добавление текста в существующий PDF с использованием Python