استخراج النص من PDF في Node.js

استخراج النص من مستند PDF

استخراج النص من مستند PDF هو مهمة شائعة ومفيدة للغاية. يخدم استخراج النص من ملفات PDF مجموعة متنوعة من الأغراض، بدءًا من تحسين البحث والتوافر إلى تمكين التحليل وأتمتة البيانات في مجالات مختلفة مثل الأعمال والبحث وإدارة المعلومات.

في حال كنت ترغب في استخراج النص من مستند PDF، يمكنك استخدام وظيفة AsposePdfExtractText. يرجى الاطلاع على مقتطف الشفرة التالي لاستخراج النص من ملف PDF باستخدام Node.js عبر C++.

تحقق من مقتطفات الشفرة واتبع الخطوات لاستخراج النص من ملف PDF الخاص بك:

CommonJS:

  1. استدعِ require واستورد وحدة asposepdfnodejs كمتغير AsposePdf.
  2. حدد اسم ملف الـ PDF الذي سيتم استخراج النص منه.
  3. استدعِ AsposePdf كـ Promise ونفذ العملية لاستخراج النص. احصل على الكائن إذا نجحت العملية.
  4. استدعِ الدالة AsposePdfExtractText.
  5. يتم تخزين النص المستخرج في كائن JSON. لذلك، إذا كان ‘json.errorCode’ يساوي 0، يتم عرض النص المستخرج باستخدام console.log. إذا كان معامل json.errorCode لا يساوي 0 وبناءً على ذلك، يظهر خطأ في ملفك، ستكون معلومات الخطأ موجودة في ‘json.errorText’.

  const AsposePdf = require('asposepdfnodejs');
  const pdf_file = 'Aspose.pdf';
  AsposePdf().then(AsposePdfModule => {
      /*استخراج النص من ملف PDF*/
      const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
      console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
  });

ECMAScript/ES6:

  1. استيراد وحدة asposepdfnodejs.
  2. تحديد اسم ملف PDF الذي سيتم استخراج النص منه.
  3. تهيئة وحدة AsposePdf. استلام الكائن إذا تم بنجاح.
  4. استدعاء الدالة AsposePdfExtractText.
  5. يتم تخزين النص المستخرج في كائن JSON. وبالتالي، إذا كان ‘json.errorCode’ يساوي 0، يتم عرض النص المستخرج باستخدام console.log. إذا كانت قيمة json.errorCode لا تساوي 0 وظهرت بالتالي خطأ في ملفك، سيتم تضمين معلومات الخطأ في ‘json.errorText’.

  import AsposePdf from 'asposepdfnodejs';
  const AsposePdfModule = await AsposePdf();
  const pdf_file = 'Aspose.pdf';
  /*استخراج النص من ملف PDF*/
  const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
  console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);