تكامل إضافات الذكاء الاصطناعي
تكامل إضافات الذكاء الاصطناعي
يلخص هذا المستند ثلاثة أدوات معالجة المستندات المدعومة بالذكاء الاصطناعي—MarkItDown، Marker، و Docling—ويبرز ميزاتها المشتركة من حيث الذكاء الاصطناعي وتكاملها مع Aspose.Cells لـ Python via .NET من خلال الإضافات.
1. Common AI Features
1.1 Multi-format Document Parsing and Structured Representation
All three projects support parsing multiple document formats, including PDF, DOCX, PPTX, XLSX, HTML, etc., and converting them into structured formats (Markdown, JSON, or HTML) suitable for AI processing.
- MarkItDown: Converts documents into Markdown format, easily integrated with LLMs and text analysis pipelines.
- Marker: Supports Markdown, JSON, and HTML output while preserving tables, formulas, and other content.
- Docling: Provides a unified
DoclingDocumentrepresentation, supporting multi-format document parsing and structured export.
1.2 Integration with Generative AI Frameworks
All three tools support integration with generative AI frameworks to enhance document processing capabilities:
- MarkItDown: Integrates with Azure OpenAI to improve document and image processing.
- Marker: Supports leveraging large language model (LLM) technology to improve the accuracy of document processing.
- Docling: Compatible with frameworks like LangChain, LlamaIndex, and Haystack for agentic AI applications.
2. دمج إضافة Aspose.Cells لـ Python via .NET
لدمج بيانات Excel مع أدوات معالجة المستندات المدعومة بالذكاء الاصطناعي، طورنا إضافات مخصصة لكل أداة:
| الإضافة | المستودع | الوظيفة |
|---|---|---|
| إضافة MarkItDown | markitdown-aspose-cells-plugin | تحويل ملفات Excel إلى صيغة ماركداون. |
| إضافة Marker | marker plugin | تحويل ملفات Excel إلى صيغ يدعمها Marker (ماركداون، JSON، أو HTML)، مع الاستفادة من وضع LLM الخاص بـ Marker لتحسين الجدول. |
| إضافة Docling | docling plugin | تحويل ملفات Excel إلى كائنات DoclingDocument، ثم تصديرها إلى JSON أو Markdown أو HTML للتحليل متعدد الوسائط. |
2.1 مزايا الإضافة
- تحويل Excel بسرعة: يحول بسرعة محتوى Excel إلى صيغة ماركداون أو JSON أو HTML لمعالجة الذكاء الاصطناعي.
- الحفاظ على معلومات الجدول والتنسيق: يحافظ بشكل أساسي على بيانات الجدول الأصلية لضمان سلامة البيانات.
- متوافق مع أدوات الذكاء الاصطناعي: يمكن استخدامه مباشرة كمدخلات لـ MarkItDown، Marker، أو Docling، مع الاستفادة من ميزات التحليل المتقدمة.
- سهولة التثبيت: يتطلب فقط تثبيت Aspose.Cells لـ Python via .NET (aspsoe-cells-python) واتباع تعليمات README في أدلة الإضافة.
3. Installation and Usage
3.1 MarkItDown Plugin
Install the plugin from the current directory:
pip install -e .
تحقق من التثبيت:
markitdown --list-plugins
تحويل ملف XLSX باستخدام الملحق:
markitdown --use-plugins test.xlsx
3.2 ملحق العلامة التجارية
ستحتاج إلى بايثون 3.10+ و PyTorch.
pip install marker-pdf
للملفات غير PDF، قم بتثبيت الاعتمادات الكاملة:
pip install marker-pdf[full]
تحويل ملف واحد:
marker_single /path/to/test.xlsx
marker_single /path/to/test.xlsx --output_format html
3.3 ملحق Docling
تثبيت Docling:
pip install -e .
تحويل ملفات Excel إلى صيغ مختلفة:
docling /path/test.xlsx --to html
docling /path/test.xlsx --to md
docling /path/test.xlsx --to json
توفر المستندات مزيدًا من تعليمات التثبيت المفصلة.
3.4 تعيين ترخيص Aspose
قبل استخدام Aspose.Cells في أي ملحق، قم بتعيين الترخيص:
ويندوز (PowerShell):
$env:ASPOSE_LICENSE_PATH = "C:\path\to\license"
ويندوز (CMD):
set ASPOSE_LICENSE_PATH=C:\path\to\license
أنظمة المستندات المبنية على Unix:
export ASPOSE_LICENSE_PATH="/path/to/license"
4. ملخص
ميزات الذكاء الاصطناعي:
تشترك الأدوات الثلاث في مزايا مشتركة في تحليل المستندات بالذكاء الاصطناعي، والإخراج المنسق، ودعم الوسائط المتعددة، والتكامل مع أُطُر الذكاء الاصطناعي التوليدي.
ملحقات Aspose.Cells:
تمكين تحويل سلس لبيانات Excel إلى Markdown أو JSON أو HTML، مع الحفاظ على الجداول والصيغ ودمجها مباشرة مع MarkItDown أو Marker أو Docling.
حالات الاستخدام:
مثالي لمعالجة المستندات الذكية، وبناء قواعد المعرفة، وأنظمة RAG، وتحليل التقارير، وتحويل المستندات الأكاديمية، وغيرها من سير العمل المدفوعة بالذكاء الاصطناعي.