استخراج النص من PDF باستخدام بايثون

استخراج النص من جميع صفحات مستند PDF

استخراج النص من PDF ليس بالأمر السهل. لا تستطيع العديد من برامج قراءة PDF استخراج النص من صور PDF أو ملفات PDF الممسوحة ضوئيًا. لكن أداة Aspose.PDF for Python via C++ تتيح لك استخراج النص بسهولة من جميع ملفات PDF.

تحقق من مقتطف الشيفرة واتبع الخطوات لاستخراج النص من PDF الخاص بك:

  1. استيراد مكتبة Aspose.PDF لبايثون

  2. إنشاء كائن مستخرج جديد، والذي يستخدم لاستخراج النصوص والصور من مستندات PDF.

  3. ربط كائن المستخرج بملف PDF، وهو مصدر الاستخراج.

  4. استخراج جميع النصوص من مستند PDF ووضعه في بعض المتغيرات.

  5. افعل ما تريد، اطبع النص المستخرج إلى وحدة التحكم، ابحث عن بعض الأجزاء إلخ

from AsposePdfPython import *

extactor = Extract()
extractor_bind_pdf(extactor,"blank_pdf_document.pdf")
text = extractor_extract_text(extactor)

print(text)