Extraer Texto de Todas las Páginas de un Documento PDF en Ruby

Aspose.PDF - Extraer Texto de Todas las Páginas

Para extraer texto de todas las páginas de un documento PDF usando Aspose.PDF Java para Ruby, simplemente invoque el módulo ExtractTextFromAllPages.

Código Ruby

# La ruta al directorio de documentos.

data_dir = File.dirname(File.dirname(File.dirname(File.dirname(__FILE__)))) + '/data/'

# Abrir el documento objetivo

pdf = Rjb::import('com.aspose.pdf.Document').new(data_dir + 'input1.pdf')

# crear un objeto TextAbsorber para extraer texto

text_absorber = Rjb::import('com.aspose.pdf.TextAbsorber').new

# aceptar el absorber para todas las páginas

pdf.getPages().accept(text_absorber)

# Para extraer texto de una página específica del documento, necesitamos especificar la página particular utilizando su índice contra el método accept(..).

# aceptar el absorber para una página particular del PDF

# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# obtener el texto extraído

extracted_text = text_absorber.getText()

# crear un escritor y abrir el archivo

writer = Rjb::import('java.io.FileWriter').new(Rjb::import('java.io.File').new(data_dir + "extracted_text.out.txt"))

writer.write(extracted_text)

# escribir una línea de texto en el archivo

# tw.WriteLine(extractedText);

# cerrar el flujo

writer.close()

puts "Texto extraído exitosamente. Verifique el archivo de salida."

Descargar Código en Ejecución

Descargar Extraer Texto de Todas las Páginas (Aspose.PDF) desde cualquiera de los sitios sociales de codificación mencionados a continuación:

GitHub

Agregar Texto a un archivo PDF existente en Ruby