استخراج النص الخام من ملف PDF

استخراج النص من جميع صفحات مستند PDF

استخراج النص من مستند PDF هو متطلب شائع. في هذا المثال، ستتعلم كيف يتيح لك Aspose.PDF for PHP استخراج النص من جميع صفحات مستند PDF. لاستخراج النص من جميع صفحات PDF:

  1. قم بإنشاء كائن من فئة TextAbsorber.

  2. افتح ملف PDF باستخدام فئة Document واستدعِ طريقة Accept من مجموعة Pages.

  3. تقوم فئة TextAbsorber بامتصاص النص من المستند وتعيده في طريقة getText().

يُظهر لك مقطع الشيفرة التالي كيفية استخراج النص من جميع صفحات مستند PDF.


    // قم بإنشاء كائن Document جديد من ملف PDF المدخل.
    $document = new Document($inputFile);

    // قم بإنشاء كائن TextAbsorber جديد لاستخراج النص من المستند.
    $textAbsorber = new TextAbsorber();

    // استخراج النص من المستند.
    $textAbsorber->visit($document);

    // الحصول على محتوى النص المستخرج.
    $content = $textAbsorber->getText();

    // حفظ النص المستخرج إلى الملف الناتج.
    file_put_contents($outputFile, $content);