استخراج النص من جميع صفحات مستند PDF في بايثون

استخراج النص من PDF باستخدام بايثون

لاستخراج النص من جميع صفحات مستند PDF باستخدام Aspose.PDF Java for Python، ببساطة قم باستدعاء وحدة ExtractTextFromAllPages.


# فتح المستند الهدف
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "تم استخراج النص بنجاح. تحقق من ملف الإخراج."

تحميل الكود القابل للتنفيذ

قم بتحميل استخراج النص من جميع الصفحات (Aspose.PDF) من أي من مواقع البرمجة الاجتماعية المذكورة أدناه:

GitHub

إضافة نص إلى ملف PDF موجود باستخدام Python