استخراج النص من جميع صفحات مستند PDF باستخدام روبي

Aspose.PDF - استخراج النص من جميع الصفحات

لاستخراج النص من جميع صفحات مستند PDF باستخدام Aspose.PDF Java for Ruby، ببساطة قم باستدعاء وحدة ExtractTextFromAllPages.

كود روبي

# المسار إلى دليل المستندات.

data_dir = File.dirname(File.dirname(File.dirname(File.dirname(__FILE__)))) + '/data/'

# افتح المستند المستهدف

pdf = Rjb::import('com.aspose.pdf.Document').new(data_dir + 'input1.pdf')

# إنشاء كائن TextAbsorber لاستخراج النص

text_absorber = Rjb::import('com.aspose.pdf.TextAbsorber').new

# قبول المستخرج لجميع الصفحات

pdf.getPages().accept(text_absorber)

# من أجل استخراج النص من صفحة معينة في المستند، نحتاج إلى تحديد الصفحة المعينة باستخدام فهرسها مقابل طريقة accept(..).

# قبول المستخرج لصفحة PDF معينة

# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# الحصول على النص المستخرج

extracted_text = text_absorber.getText()

# إنشاء كاتب وفتح الملف

writer = Rjb::import('java.io.FileWriter').new(Rjb::import('java.io.File').new(data_dir + "extracted_text.out.txt"))

writer.write(extracted_text)

# كتابة سطر من النص إلى الملف

# tw.WriteLine(extractedText);

# إغلاق التدفق

writer.close()

puts "تم استخراج النص بنجاح. تحقق من ملف الإخراج."

تحميل الكود الجاري

قم بتنزيل استخراج النص من جميع الصفحات (Aspose.PDF) من أي من مواقع البرمجة الاجتماعية المذكورة أدناه:

GitHub

إضافة نص إلى ملف PDF موجود في روبي