Извлечение текста со всех страниц PDF-документа на Ruby

Aspose.PDF - Извлечение текста со всех страниц

Чтобы извлечь текст со всех страниц PDF-документа с использованием Aspose.PDF Java для Ruby, просто вызовите модуль ExtractTextFromAllPages.

Код на Ruby

# Путь к каталогу документов.

data_dir = File.dirname(File.dirname(File.dirname(File.dirname(__FILE__)))) + '/data/'

# Открыть целевой документ

pdf = Rjb::import('com.aspose.pdf.Document').new(data_dir + 'input1.pdf')

# создать объект TextAbsorber для извлечения текста

text_absorber = Rjb::import('com.aspose.pdf.TextAbsorber').new

# применить абсорбер ко всем страницам

pdf.getPages().accept(text_absorber)

# Чтобы извлечь текст с конкретной страницы документа, необходимо указать конкретную страницу, используя ее индекс в методе accept(..).

# применить абсорбер к конкретной странице PDF

# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# получить извлеченный текст

extracted_text = text_absorber.getText()

# создать писателя и открыть файл

writer = Rjb::import('java.io.FileWriter').new(Rjb::import('java.io.File').new(data_dir + "extracted_text.out.txt"))

writer.write(extracted_text)

# записать строку текста в файл

# tw.WriteLine(extractedText);

# закрыть поток

writer.close()

puts "Текст успешно извлечен. Проверьте выходной файл."

Скачать Исполняемый Код

Скачайте Извлечение Текста Со Всех Страниц (Aspose.PDF) с любого из нижеупомянутых сайтов социального кодирования:

GitHub

Добавление текста в существующий PDF файл на Ruby