Извлечение текста из PDF с помощью Python
Contents
[
Hide
]
Извлечение текста со всех страниц PDF документа
Извлечение текста из PDF не является простой задачей. Не многие PDF-читалки могут извлекать текст из PDF-изображений или сканированных PDF. Но инструмент Aspose.PDF for Python via C++ позволяет легко извлекать текст из всех PDF-файлов.
Посмотрите на фрагмент кода и следуйте шагам для извлечения текста из вашего PDF:
-
Импортируйте библиотеку Aspose.PDF для Python
-
Создайте новый объект извлекателя, который используется для извлечения текста и изображений из PDF-документов.
-
Привяжите объект извлекателя к PDF-файлу, который является источником извлечения.
-
Извлеките весь текст из PDF-документа и поместите его в какую-либо переменную.
-
Делайте что угодно, выводите извлеченный текст в консоль, ищите некоторые фрагменты и т.д.
from AsposePdfPython import *
extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)
print(text)