Как извлечь текст из PPT, PPTX и ODP с помощью Aspose.Slides

Введение

Aspose.Slides предоставляет мощный, высокоуровневый API для извлечения текста из файлов презентаций, включая PPT, PPTX и ODP. В отличие от Open XML SDK, который поддерживает только PPTX и требует сложного парсинга XML, Aspose.Slides упрощает извлечение текста, позволяя сосредоточиться на интеграции извлечённого содержимого в ваш рабочий процесс.

Быстрое извлечение текста с помощью PresentationFactory.Instance.GetPresentationText

Для извлечения текста из презентации Aspose.Slides API предлагает статический метод PresentationFactory.Instance.GetPresentationText. Он включает несколько перегрузок для работы с файлом презентации или потоком данных, захватывая текст из слайдов, мастер‑слайдов, макетов, заметок и комментариев. Извлечённый текст доступен через интерфейс IPresentationText.

Пример использования:

string filePath = "presentation.pptx";
TextExtractionArrangingMode mode = TextExtractionArrangingMode.Unarranged;

IPresentationText presentationText = PresentationFactory.Instance.GetPresentationText(filePath, mode);
ISlideText[] slideTexts = presentationText.SlidesText;

foreach (var slideText in slideTexts)
{
    Console.WriteLine("Slide Text: " + slideText.Text);
    Console.WriteLine("Notes Text: " + slideText.NotesText);
    Console.WriteLine("Comments Text: " + slideText.CommentsText);
}

Режимы работы GetPresentationText

Метод GetPresentationText в PresentationFactory позволяет точно настроить извлечение текста с помощью параметра TextExtractionArrangingMode, который управляет организацией текста в результате.

Доступные режимы

  • TextExtractionArrangingMode.Unarranged – Извлекает текст свободным образом, игнорируя оригинальное расположение слайда.
  • TextExtractionArrangingMode.Arranged – Сохраняет порядок текста согласно его размещению на каждом слайде.

Пример использования:

TextExtractionArrangingMode mode = TextExtractionArrangingMode.Arranged;
IPresentationText presentationText = PresentationFactory.Instance.GetPresentationText("presentation.pptx", mode);
ISlideText[] slideTexts = presentationText.SlidesText;

foreach (var slideText in slideTexts)
{
    Console.WriteLine("Slide Text (preserving order): " + slideText.Text);
}

Ключевые преимущества методов PresentationFactory

  • No Need to Load Entire Presentations: Минимизирует потребление памяти и ускоряет обработку.
  • Optimized for Large Files: Эффективно работает даже с большими презентациями, быстро извлекая текст.
  • Retrieves Notes and Comments: Включает пользовательские аннотации для полного охвата содержания.
  • Ideal for Indexing and Content Analysis: Идеально подходит для корпоративных систем, требующих автоматической обработки и обогащения данных.
  • Office-Independent: Работает без установленного Microsoft PowerPoint, предлагая полностью автономное решение.
  • Multi-Format Support: Бесшовно поддерживает PPT, PPTX и ODP.
  • Flexible, Powerful API: Предоставляет гибкие методы для структурированного извлечения текста.
  • Complete Slide Coverage: Извлекает текст из макетов, мастер‑слайдов, обычных слайдов, фонов, заметок диктора и комментариев.
  • Cross-Platform Compatibility: Работает на Windows, Linux, macOS, а также в облачных средах.
  • High Performance and Scalability: Подходит для SaaS applications и крупномасштабных корпоративных внедрений.

Поддерживаемые операционные системы

Aspose.Slides работает на различных операционных системах:

  • Windows (например, Windows 7, 8, 10, 11 и серверные редакции)
  • Linux (различные дистрибутивы, включая Ubuntu, Debian, Fedora, CentOS и др.)
  • macOS (включая современные версии, такие как 10.15 Catalina и более новые)

Поддерживаемые языки программирования

Aspose.Slides интегрируется с несколькими платформами и языками:

  • C# – Основная поддержка через Aspose.Slides for .NET.
  • Java – Полнофункциональный API доступен в Aspose.Slides for Java.
  • C++ – Используйте Aspose.Slides для приложений на C++ с критически важной производительностью.
  • Python via .NET – Интегрируйте возможности Aspose.Slides с помощью .NET‑интероперабельности.
  • Other .NET-Compatible Languages – Используйте библиотеку в любой среде, поддерживаемой .NET.

Заключение

Aspose.Slides предоставляет полное извлечение текста для презентаций PowerPoint и OpenDocument, поддерживая разнообразные форматы файлов, интуитивную структуру текста и простую реализацию по сравнению с Open XML SDK. От слайдов и заметок до содержимого шаблонов, Aspose.Slides — это высокоэффективное, богатое функциями решение для извлечения и управления текстом презентаций.