Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
عند العمل مع المستندات، من المهم أن تكون قادرًا على استخراج المحتوى بسهولة من نطاق معين داخل المستند. ومع ذلك، قد يتكون المحتوى من عناصر معقدة مثل الفقرات والجداول والصور وما إلى ذلك.
بغض النظر عن المحتوى الذي يجب استخراجه، سيتم دائمًا تحديد طريقة استخراج هذا المحتوى من خلال العقد التي يتم تحديدها لاستخراج المحتوى بينها. يمكن أن تكون هذه نصوصًا كاملة أو تشغيلات نصية بسيطة.
هناك العديد من المواقف المحتملة، وبالتالي هناك العديد من أنواع العقد المختلفة التي يجب مراعاتها عند استخراج المحتوى. على سبيل المثال، قد ترغب في استخراج المحتوى بين:
في بعض المواقف، قد تحتاج حتى إلى دمج أنواع العقد المختلفة، مثل استخراج المحتوى بين فقرة وحقل، أو بين التشغيل والإشارة المرجعية.
توفر هذه المقالة تطبيق التعليمات البرمجية لاستخراج النص بين العقد المختلفة، بالإضافة إلى أمثلة للسيناريوهات الشائعة.
غالبًا ما يكون الهدف من استخراج المحتوى هو نسخه أو حفظه بشكل منفصل في مستند جديد. على سبيل المثال، يمكنك استخراج المحتوى و:
يمكن تحقيق ذلك بسهولة باستخدام Aspose.Words وتنفيذ التعليمات البرمجية أدناه.
يعالج الكود الموجود في هذا القسم جميع المواقف المحتملة الموضحة أعلاه بطريقة واحدة معممة وقابلة لإعادة الاستخدام. يتضمن المخطط العام لهذه التقنية ما يلي:
لاستخراج المحتوى من مستندك، يجب عليك استدعاء طريقة extract_content أدناه وتمرير المعلمات المناسبة. يتضمن الأساس الأساسي لهذه الطريقة العثور على العقد على مستوى الكتلة (الفقرات والجداول) واستنساخها لإنشاء نسخ متطابقة. إذا كانت عقد العلامة التي تم تمريرها هي مستوى الكتلة، فستكون الطريقة قادرة ببساطة على نسخ المحتوى على هذا المستوى وإضافته إلى المصفوفة.
ومع ذلك، إذا كانت عقد العلامة مضمنة (فرع من فقرة) يصبح الوضع أكثر تعقيدًا، لأنه من الضروري تقسيم الفقرة في العقدة المضمنة، سواء كان ذلك تشغيلًا أو حقول إشارة مرجعية وما إلى ذلك. المحتوى في العقد الأصلية المستنسخة لا تتم إزالة الموجودة بين العلامات. يتم استخدام هذه العملية للتأكد من أن العقد المضمنة ستظل تحتفظ بتنسيق الفقرة الأصلية. ستقوم الطريقة أيضًا بإجراء عمليات فحص على العقد التي تم تمريرها كمعلمات وطرح استثناءً إذا كانت أي من العقدتين غير صالحة. المعلمات التي سيتم تمريرها إلى هذه الطريقة هي:
تنفيذ طريقة extract_content يمكنك العثور على هنا. سيتم الإشارة إلى هذا الأسلوب في السيناريوهات الموجودة في هذه المقالة.
سنحدد أيضًا طريقة مخصصة لإنشاء مستند بسهولة من العقد المستخرجة. يتم استخدام هذه الطريقة في العديد من السيناريوهات أدناه وتقوم ببساطة بإنشاء مستند جديد واستيراد المحتوى المستخرج إليه.
يوضح مثال التعليمات البرمجية التالي كيفية أخذ قائمة العقد وإدراجها في مستند جديد:
يوضح هذا كيفية استخدام الطريقة المذكورة أعلاه لاستخراج المحتوى بين فقرات محددة. في هذه الحالة، نريد استخراج نص الرسالة الموجودة في النصف الأول من المستند. يمكننا أن نقول أن هذا يقع بين الفقرة السابعة والحادية عشرة.
الكود أدناه ينجز هذه المهمة. يتم استخراج الفقرات المناسبة باستخدام طريقة CompositeNode.get_child في المستند وتمرير الفهارس المحددة. نقوم بعد ذلك بتمرير هذه العقد إلى طريقة extract_content ونذكر أنه سيتم تضمينها في الاستخراج. ستعيد هذه الطريقة المحتوى المنسوخ بين هذه العقد والتي يتم إدراجها بعد ذلك في مستند جديد.
يوضح مثال الكود التالي كيفية استخراج المحتوى بين فقرات محددة باستخدام طريقة extract_content أعلاه:
يمكننا استخراج المحتوى بين أي مجموعات من مستوى الكتلة أو العقد المضمنة. في هذا السيناريو أدناه سنقوم باستخراج المحتوى بين الفقرة الأولى والجدول في القسم الثاني بشكل شامل. نحصل على عقد العلامات عن طريق استدعاء أسلوب Body.first_paragraph وCompositeNode.get_child في القسم الثاني من المستند لاسترداد عقد Paragraph وTable المناسبة. للحصول على اختلاف طفيف، دعنا نكرر المحتوى وندرجه أسفل النص الأصلي.
يوضح مثال التعليمات البرمجية التالي كيفية استخراج المحتوى بين الفقرة والجدول باستخدام طريقة extract_content:
قد تحتاج إلى استخراج المحتوى بين الفقرات التي لها نفس النمط أو نمط مختلف، مثل الفقرات المميزة بأنماط العناوين.
يوضح الكود أدناه كيفية تحقيق ذلك. إنه مثال بسيط سيستخرج المحتوى بين المثال الأول لأنماط “العنوان 1” و"العنوان 3" دون استخراج العناوين أيضًا. للقيام بذلك، قمنا بتعيين المعلمة الأخيرة على false، والتي تحدد أنه لا ينبغي تضمين عقد العلامة.
في التنفيذ الصحيح، يجب تشغيل هذا في حلقة لاستخراج المحتوى بين جميع فقرات هذه الأنماط من المستند. يتم نسخ المحتوى المستخرج إلى مستند جديد.
يوضح مثال التعليمات البرمجية التالي كيفية استخراج المحتوى بين الفقرات بأنماط محددة باستخدام طريقة extract_content:
يمكنك استخراج المحتوى بين العقد المضمنة مثل Run أيضًا. يمكن تمرير عمليات التشغيل من فقرات مختلفة كعلامات. يوضح الكود أدناه كيفية استخراج نص محدد بين نفس عقدة Paragraph.
يوضح مثال التعليمات البرمجية التالي كيفية استخراج المحتوى بين عمليات تشغيل محددة لنفس الفقرة باستخدام طريقة extract_content:
لاستخدام حقل كعلامة، يجب تمرير عقدة FieldStart. ستحدد المعلمة الأخيرة لطريقة extract_content ما إذا كان سيتم تضمين الحقل بأكمله أم لا. لنستخرج المحتوى بين حقل الدمج “الاسم الكامل” وفقرة في المستند. نحن نستخدم طريقة DocumentBuilder.move_to_merge_field لفئة DocumentBuilder. سيؤدي هذا إلى إرجاع عقدة FieldStart من اسم حقل الدمج الذي تم تمريره إليها.
في حالتنا، لنقم بتعيين المعلمة الأخيرة التي تم تمريرها إلى طريقة extract_content على False لاستبعاد الحقل من الاستخراج. سنقوم بتحويل المحتوى المستخرج إلى PDF.
يوضح مثال التعليمات البرمجية التالي كيفية استخراج المحتوى بين حقل معين وفقرة معينة في المستند باستخدام طريقة extract_content:
في المستند، يتم تغليف المحتوى المحدد داخل الإشارة المرجعية بواسطة عقدتي BookmarkStart وBookmarkEnd. يشكل المحتوى الموجود بين هاتين العقدتين الإشارة المرجعية. يمكنك تمرير أي من هذه العقد كأي علامة، حتى تلك من إشارات مرجعية مختلفة، طالما أن علامة البداية تظهر قبل علامة النهاية في المستند. سنقوم باستخراج هذا المحتوى في مستند جديد باستخدام الكود أدناه. يعرض خيار معلمة شامل كيفية الاحتفاظ بالإشارة المرجعية أو تجاهلها.
يوضح مثال التعليمات البرمجية التالي كيفية استخراج المحتوى المشار إليه بإشارة مرجعية باستخدام طريقة extract_content:
يتكون التعليق من عقد CommentRangeStart وCommentRangeEnd وComment. كل هذه العقد مضمنة. تقوم العقدتان الأوليتان بتغليف المحتوى الموجود في المستند المشار إليه بواسطة التعليق، كما هو موضح في لقطة الشاشة أدناه. عقدة Comment نفسها عبارة عن InlineStory يمكن أن تحتوي على فقرات وعمليات تشغيل. وهو يمثل رسالة التعليق كما تظهر على شكل فقاعة تعليق في جزء المراجعة. وبما أن هذه العقدة مضمّنة ومتحدرة من نص، يمكنك أيضًا استخراج المحتوى من داخل هذه الرسالة أيضًا.
يتضمن التعليق العنوان والفقرة الأولى والجدول في القسم الثاني. لنستخرج هذا التعليق في مستند جديد. يحدد خيار شامل ما إذا كان سيتم الاحتفاظ بالتعليق نفسه أو تجاهله.
يوضح مثال التعليمات البرمجية التالي كيفية القيام بذلك:
طرق استرداد النص من المستند هي:
يمكن أن يحتوي مستند Word على أحرف تحكم تحدد عناصر خاصة مثل الحقل ونهاية الخلية ونهاية القسم وما إلى ذلك. ويتم تعريف القائمة الكاملة لأحرف التحكم في Word المحتملة في فئة ControlChar. تقوم طريقة Node.get_text بإرجاع نص يحتوي على كافة أحرف التحكم الموجودة في العقدة.
يؤدي استدعاء to_string إلى إرجاع تمثيل النص العادي للمستند فقط بدون أحرف التحكم. لمزيد من المعلومات حول التصدير كنص عادي، راجع استخدام SaveFormat.TEXT
يوضح مثال التعليمات البرمجية التالي الفرق بين استدعاء طريقتي get_text وto_string على العقدة:
SaveFormat.Textيحفظ هذا المثال المستند كما يلي:
يوضح مثال التعليمات البرمجية التالي كيفية حفظ مستند بتنسيق TXT:
قد تحتاج إلى استخراج صور المستندات لأداء بعض المهام. يتيح لك Aspose.Words القيام بذلك أيضًا.
يوضح مثال التعليمات البرمجية التالي كيفية استخراج الصور من مستند:
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.