تحويل PDF إلى TXT باستخدام بايثون

تحويل PDF إلى TXT

تدعم مكتبة Aspose.PDF for Python عبر C++ تحويل مستندات PDF إلى ملفات نصية عبر الخطوات التالية:

  1. إنشاء مسار ملف الإدخال والإخراج
  2. إنشاء مثيل لواجهة استخراج PDF باستخدام extractor_create
  3. ربط ملف PDF بالمستخرج باستخدام extractor_bind_pdf
  4. استخراج النص من ملف PDF باستخدام extractor_extract_text
  5. كتابة النص المستخرج إلى ملف الإخراج
  6. حفظ ملف PDF الناتج باستخدام طريقة ‘document.save’.

يظهر مقطع الكود أدناه كيفية تحويل صورة JPG إلى PDF باستخدام بايثون عبر C++:


    import AsposePDFPython as apCore
    import os
    import os.path

    # إنشاء مسار دليل البيانات
    dataDir = os.path.join(os.getcwd(), "samples")

    # إنشاء مسار الملف المدخل
    input_file = os.path.join(dataDir, "sample.pdf")

    # إنشاء مسار الملف المخرج
    output_file = os.path.join(dataDir, "results", "pdf-to-txt.txt")

    # إنشاء مثيل من واجهة استخراج PDF
    extactor = apCore.facades_pdf_extractor_create()

    # ربط ملف PDF مع المستخرج
    apCore.facades_facade_bind_pdf(extactor, input_file)

    # استخراج النص من ملف PDF
    text = apCore.facades_pdf_extractor_extract_text(extactor)

    # كتابة النص المستخرج إلى الملف المخرج
    with open(output_file, 'w') as f:
        f.write(text)