Intégration du plugin AI
Intégration du plugin AI
Ce document résume trois outils de traitement de documents alimentés par l’IA—MarkItDown, Marker, et Docling—mettant en évidence leurs fonctionnalités communes d’IA et leur intégration avec Aspose.Cells pour Python via .NET via des plugins.
1. Common AI Features
1.1 Multi-format Document Parsing and Structured Representation
All three projects support parsing multiple document formats, including PDF, DOCX, PPTX, XLSX, HTML, etc., and converting them into structured formats (Markdown, JSON, or HTML) suitable for AI processing.
- MarkItDown: Converts documents into Markdown format, easily integrated with LLMs and text analysis pipelines.
- Marker: Supports Markdown, JSON, and HTML output while preserving tables, formulas, and other content.
- Docling: Provides a unified
DoclingDocumentrepresentation, supporting multi-format document parsing and structured export.
1.2 Integration with Generative AI Frameworks
All three tools support integration with generative AI frameworks to enhance document processing capabilities:
- MarkItDown: Integrates with Azure OpenAI to improve document and image processing.
- Marker: Supports leveraging large language model (LLM) technology to improve the accuracy of document processing.
- Docling: Compatible with frameworks like LangChain, LlamaIndex, and Haystack for agentic AI applications.
2. Intégration du plugin Aspose.Cells pour Python via .NET
Pour combiner les données Excel avec ces outils de traitement de documents AI, nous avons développé des plugins dédiés pour chaque outil :
| Plugin | Dépôt | Fonctionnalité |
|---|---|---|
| Plugin MarkItDown | markitdown-aspose-cells-plugin | Convertit les fichiers Excel en format Markdown. |
| Plugin Marker | marker plugin | Convertit les fichiers Excel en formats supportés par Marker (Markdown, JSON ou HTML), en utilisant le mode LLM de Marker pour une meilleure table. |
| Plugin Docling | docling plugin | Convertit les fichiers Excel en objets DoclingDocument, puis exporte en Markdown, JSON ou HTML pour une analyse multimodale. |
2.1 Avantages du plugin
- Conversion Excel Rapide : Convertit rapidement le contenu Excel en Markdown, JSON ou HTML pour le traitement par l’IA.
- Préservation des Informations de Table et de Format : Conserve essentiellement les données de la table originale pour assurer l’intégrité des données.
- Compatible avec les Outils d’IA : Peut être directement utilisé comme entrée pour MarkItDown, Marker ou Docling, en tirant parti de fonctionnalités avancées de parsing.
- Installation Facile : Nécessite simplement l’installation supplémentaire d’Aspose.Cells pour Python via .NET(aspsoe-cells-python) et suivre les instructions du README dans les répertoires des plugins.
3. Installation and Usage
3.1 MarkItDown Plugin
Install the plugin from the current directory:
pip install -e .
Vérifier l’installation :
markitdown --list-plugins
Convertir un fichier XLSX en utilisant le plugin :
markitdown --use-plugins test.xlsx
3.2 Plugin Marker
Vous aurez besoin de Python 3.10+ et PyTorch.
pip install marker-pdf
Pour les documents non-PDF, installez toutes les dépendances :
pip install marker-pdf[full]
Convertir un seul fichier :
marker_single /path/to/test.xlsx
marker_single /path/to/test.xlsx --output_format html
3.3 Plugin Docling
Installer Docling :
pip install -e .
Convertir les fichiers Excel en différents formats :
docling /path/test.xlsx --to html
docling /path/test.xlsx --to md
docling /path/test.xlsx --to json
Des instructions d’installation plus détaillées sont disponibles dans la documentation.
3.4 Définir la licence Aspose
Avant d’utiliser Aspose.Cells dans un plugin, configurez la licence :
Windows (PowerShell) :
$env:ASPOSE_LICENSE_PATH = "C:\path\to\license"
Windows (CMD) :
set ASPOSE_LICENSE_PATH=C:\path\to\license
Systèmes Unix :
export ASPOSE_LICENSE_PATH="/path/to/license"
4. Résumé
Fonctionnalités IA :
Les trois outils partagent des avantages communs dans l’analyse de documents IA, sortie structurée, support multimodal, et intégration avec des frameworks d’IA générative.
Plugins Aspose.Cells :
Permet la conversion transparente des données Excel en Markdown, JSON ou HTML, en conservant les tableaux, formules et une intégration directe avec MarkItDown, Marker ou Docling.
Cas d’utilisation :
Idéal pour le traitement intelligent de documents, la construction de bases de connaissances, les systèmes RAG, l’analyse de rapports, la conversion de documents académiques et autres workflows basés sur l’IA.