Integración de Plugins de IA
Integración de Plugins de IA
Este documento resume tres herramientas de procesamiento de documentos impulsadas por IA—MarkItDown, Marker y Docling—destacando sus características comunes de IA y su integración con Aspose.Cells for Python via .NET a través de plugins.
1. Common AI Features
1.1 Multi-format Document Parsing and Structured Representation
All three projects support parsing multiple document formats, including PDF, DOCX, PPTX, XLSX, HTML, etc., and converting them into structured formats (Markdown, JSON, or HTML) suitable for AI processing.
- MarkItDown: Converts documents into Markdown format, easily integrated with LLMs and text analysis pipelines.
- Marker: Supports Markdown, JSON, and HTML output while preserving tables, formulas, and other content.
- Docling: Provides a unified
DoclingDocumentrepresentation, supporting multi-format document parsing and structured export.
1.2 Integration with Generative AI Frameworks
All three tools support integration with generative AI frameworks to enhance document processing capabilities:
- MarkItDown: Integrates with Azure OpenAI to improve document and image processing.
- Marker: Supports leveraging large language model (LLM) technology to improve the accuracy of document processing.
- Docling: Compatible with frameworks like LangChain, LlamaIndex, and Haystack for agentic AI applications.
2. Integración del Plugin Aspose.Cells para Python via .NET
Para combinar datos de Excel con estas herramientas de procesamiento de documentos de IA, desarrollamos plugins dedicados para cada herramienta:
| Plugin | Repositorio | Funcionalidad |
|---|---|---|
| Plugin MarkItDown | markitdown-aspose-cells-plugin | Convierte archivos Excel a formato Markdown. |
| Plugin Marker | marker plugin | Convierte archivos Excel en formatos compatibles con Marker (Markdown, JSON o HTML), aprovechando el modo LLM de Marker para mejorar las tablas. |
| Plugin Docling | docling plugin | Convierte archivos Excel en objetos DoclingDocument, y luego exporta en Markdown, JSON o HTML para análisis multimodal. |
2.1 Ventajas del plugin
- Conversión rápida de Excel: Convierte rápidamente el contenido de Excel en Markdown, JSON o HTML para procesamiento de IA.
- Preservar información de tablas y formatos: Preserva básicamente los datos originales de las tablas para garantizar la integridad de los datos.
- Compatible con herramientas de IA: Puede usarse directamente como entrada para MarkItDown, Marker o Docling, aprovechando sus funciones avanzadas de análisis.
- Instalación sencilla: Solo requiere la instalación adicional de Aspose.Cells para Python via .NET (aspsoe-cells-python) y seguir las instrucciones del README en los directorios de plugins.
3. Installation and Usage
3.1 MarkItDown Plugin
Install the plugin from the current directory:
pip install -e .
Verificar la instalación:
markitdown --list-plugins
Convertir un archivo XLSX usando el plugin:
markitdown --use-plugins test.xlsx
Plugin de Marcador 3.2
Necesitarás Python 3.10+ y PyTorch.
pip install marker-pdf
Para documentos que no sean PDF, instala todas las dependencias:
pip install marker-pdf[full]
Convierte un solo archivo:
marker_single /path/to/test.xlsx
marker_single /path/to/test.xlsx --output_format html
Plugin Docling 3.3
Instalar Docling:
pip install -e .
Convertir archivos de Excel a diferentes formatos:
docling /path/test.xlsx --to html
docling /path/test.xlsx --to md
docling /path/test.xlsx --to json
Hay instrucciones de instalación más detalladas disponibles en la documentación.
3.4 Configurar Licencia Aspose
Antes de usar Aspose.Cells en cualquier plugin, configura la licencia:
Windows (PowerShell):
$env:ASPOSE_LICENSE_PATH = "C:\path\to\license"
Windows (CMD):
set ASPOSE_LICENSE_PATH=C:\path\to\license
Sistemas basados en Unix:
export ASPOSE_LICENSE_PATH="/path/to/license"
4. Resumen
Funciones de IA:
Las tres herramientas comparten ventajas comunes en el análisis de documentos con IA, salida estructurada, soporte multimodal e integración con marcos de IA generativa.
Plugins de Aspose.Cells:
Permite una conversión fluida de datos de Excel a Markdown, JSON o HTML, conservando tablas, fórmulas e integrándose directamente con MarkItDown, Marker o Docling.
Casos de Uso:
Ideal para procesamiento inteligente de documentos, construcción de bases de conocimiento, sistemas RAG, análisis de informes, conversión de documentos académicos y otros flujos de trabajo impulsados por IA.