Text Extractor
У вас есть PDF документ, из которого вам нужно программно извлечь текст? С помощью Aspose.PDF для .NET вы можете легко выполнить эту задачу, используя класс TextExtractor. В этой статье мы рассмотрим основные шаги создания приложения для извлечения текста на .NET, включая создание объекта TextExtractor, добавление источника данных и выполнение процесса извлечения текста.
Предварительные условия
Вам понадобится следующее:
- Visual Studio 2019 или более поздняя версия
- Aspose.PDF для .NET 24.1 или более поздняя версия
- Образец PDF файла
Кроме того, ознакомьтесь с классом TextExtractorOptions
и его функциональными возможностями. Подробную информацию можно найти в справочнике API Aspose.PDF.
Теперь давайте перейдем к коду и изучим, как извлечь текст из PDF документа. Теперь давайте погрузимся в код и исследуем, как извлечь текст из PDF документа.
Обзор кода
Следующий код демонстрирует возможности извлечения текста. Давайте рассмотрим ключевые шаги:
1. Создание объекта TextExtractor
Код начинается с создания нового экземпляра класса TextExtractor
. Этот класс предоставляет методы для извлечения текста из PDF документов.
using TextExtractor extractor = new();
2. Добавление источника данных
Затем создается FileDataSource
для входного PDF файла. Это файл, из которого будет извлечен текст.
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));
3. Создание TextExtractorOptions
Создается объект TextExtractorOptions
для настройки процесса извлечения текста. В опции добавляется источник входного файла.
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);
4. Запуск процесса извлечения текста
Затем вызывается метод Process
объекта TextExtractor
, передающий настроенные опции.
Метод Process
затем вызывается для объекта TextExtractor
, передавая настроенные опции.
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
Console.WriteLine(results[0]);
Ниже вы можете увидеть полный код:
using Aspose.Pdf.Plugins;
// ...
// Создаем новый экземпляр TextExtractor.
using TextExtractor extractor = new();
// Создаем FileDataSource для входного PDF файла.
FileDataSource fileSource = new(Path.Combine(@"C:\Samples\", "sample.pdf"));
// Создаем TextExtractorOptions.
TextExtractorOptions textExtractorOptions = new();
textExtractorOptions.AddInput(fileSource);
// Обрабатываем извлечение текста.
var resultContainer = extractor.Process(textExtractorOptions);
var results = resultContainer.ResultCollection;
// Печатаем извлеченный текст.
Console.WriteLine(results[0]);
```