Интеграция AI плагина
Интеграция AI-плагина
Этот документ подытоживает три инструмента обработки документов на базе ИИ — MarkItDown, Marker и Docling, выделяя их общие функции ИИ и их интеграцию с Aspose.Cells для Python via .NET через плагины.
1. Common AI Features
1.1 Multi-format Document Parsing and Structured Representation
All three projects support parsing multiple document formats, including PDF, DOCX, PPTX, XLSX, HTML, etc., and converting them into structured formats (Markdown, JSON, or HTML) suitable for AI processing.
- MarkItDown: Converts documents into Markdown format, easily integrated with LLMs and text analysis pipelines.
- Marker: Supports Markdown, JSON, and HTML output while preserving tables, formulas, and other content.
- Docling: Provides a unified
DoclingDocumentrepresentation, supporting multi-format document parsing and structured export.
1.2 Integration with Generative AI Frameworks
All three tools support integration with generative AI frameworks to enhance document processing capabilities:
- MarkItDown: Integrates with Azure OpenAI to improve document and image processing.
- Marker: Supports leveraging large language model (LLM) technology to improve the accuracy of document processing.
- Docling: Compatible with frameworks like LangChain, LlamaIndex, and Haystack for agentic AI applications.
2. Интеграция плагина Aspose.Cells для Python via .NET
Чтобы объединить данные Excel с этими инструментами обработки документов на базе ИИ, мы разработали специально предназначенные плагины для каждого инструмента:
| Плагин | Репозиторий | Функциональность |
|---|---|---|
| Плагин MarkItDown | markitdown-aspose-cells-plugin | Преобразует файлы Excel в формат Markdown. |
| Плагин Marker | marker plugin | Преобразует файлы Excel в поддерживаемые Marker форматы (Markdown, JSON или HTML), используя режим LLM Marker для улучшенной таблицы. |
| Плагин Docling | docling plugin | Преобразует файлы Excel в объекты DoclingDocument, затем экспортирует в Markdown, JSON или HTML для многомодального анализа. |
2.1 Преимущества плагина
- Быстрое преобразование Excel: Быстро преобразует содержимое Excel в Markdown, JSON или HTML для обработки ИИ.
- Сохранение информации о таблицах и форматировании: В основном сохраняет исходные данные таблицы для обеспечения целостности данных.
- Совместимость с инструментами ИИ: Может быть использован непосредственно как входные данные для MarkItDown, Marker или Docling, используя расширенные функции парсинга.
- Легкая установка: Требует только дополнительной установки Aspose.Cells для Python via .NET(aspsoe-cells-python) и следовать инструкциям README в каталогах плагинов.
3. Installation and Usage
3.1 MarkItDown Plugin
Install the plugin from the current directory:
pip install -e .
Проверьте установку:
markitdown --list-plugins
Конвертация файла XLSX с помощью плагина:
markitdown --use-plugins test.xlsx
Плагин Marker 3.2
Вам понадобится Python 3.10+ и PyTorch.
pip install marker-pdf
Для документов без PDF установите все зависимости:
pip install marker-pdf[full]
Конвертировать один файл:
marker_single /path/to/test.xlsx
marker_single /path/to/test.xlsx --output_format html
Плагин Docling 3.3
Установите Docling:
pip install -e .
Конвертация Excel-файлов в разные форматы:
docling /path/test.xlsx --to html
docling /path/test.xlsx --to md
docling /path/test.xlsx --to json
Более подробных инструкций по установке доступно в документации.
3.4 Настройка лицензии Aspose
Перед использованием Aspose.Cells в любом плагине установите лицензию:
Windows (PowerShell):
$env:ASPOSE_LICENSE_PATH = "C:\path\to\license"
Windows (CMD):
set ASPOSE_LICENSE_PATH=C:\path\to\license
Системы на базе Unix:
export ASPOSE_LICENSE_PATH="/path/to/license"
4. Итоги
Возможности AI:
Три инструмента обладают общими преимуществами в распознавании AI-документов, структурированном выводе, мультимодальной поддержке и интеграции с генеративными AI-фреймворками.
Плагины Aspose.Cells:
Обеспечивают плавную конвертацию данных Excel в Markdown, JSON или HTML, сохраняя таблицы, формулы и интеграцию с MarkItDown, Marker или Docling.
Примеры использования:
Идеально подходит для обработки интеллектуальных документов, построения базы знаний, систем RAG, анализа отчетов, преобразования академических документов и других рабочих процессов на базе ИИ.