تحويل PDF إلى نص في بايثون

تحويل PDF إلى نص

يدعم Aspose.PDF for Python تحويل مستند PDF بالكامل وصفحة واحدة إلى ملف نصي.

تحويل مستند PDF إلى ملف نصي

يمكنك تحويل مستند PDF إلى ملف TXT باستخدام فئة ‘TextDevice’.

  1. إنشاء مسار الملف المدخلات والمخرجات

  2. إنشاء مثيل لواجهة استخراج PDF باستخدام extractor_create

  3. ربط ملف PDF بالمستخرج باستخدام extractor_bind_pdf

  4. استخراج النص من ملف PDF باستخدام extractor_extract_text

  5. كتابة النص المستخرج إلى ملف الإخراج

  6. حفظ ملف PDF الناتج باستخدام طريقة ‘document.save’.

يوضح مقتطف الشيفرة التالي كيفية استخراج النصوص من جميع الصفحات.


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)