Extraire le texte de toutes les pages d'un document PDF en Ruby

Aspose.PDF - Extraire le texte de toutes les pages

Pour extraire le texte de toutes les pages d’un document PDF en utilisant Aspose.PDF Java pour Ruby, il suffit d’invoquer le module ExtractTextFromAllPages.

Code Ruby

# Le chemin vers le répertoire des documents.

data_dir = File.dirname(File.dirname(File.dirname(File.dirname(__FILE__)))) + '/data/'

# Ouvrir le document cible

pdf = Rjb::import('com.aspose.pdf.Document').new(data_dir + 'input1.pdf')

# créer un objet TextAbsorber pour extraire le texte

text_absorber = Rjb::import('com.aspose.pdf.TextAbsorber').new

# accepter l'absorbeur pour toutes les pages

pdf.getPages().accept(text_absorber)

# Afin d'extraire le texte d'une page spécifique du document, nous devons spécifier la page particulière en utilisant son index contre la méthode accept(..).

# accepter l'absorbeur pour une page PDF particulière

# pdfDocument.getPages().get_Item(1).accept(textAbsorber);

# obtenir le texte extrait

extracted_text = text_absorber.getText()

# créer un écrivain et ouvrir le fichier

writer = Rjb::import('java.io.FileWriter').new(Rjb::import('java.io.File').new(data_dir + "extracted_text.out.txt"))

writer.write(extracted_text)

# écrire une ligne de texte dans le fichier

# tw.WriteLine(extractedText);

# fermer le flux

writer.close()

puts "Texte extrait avec succès. Vérifiez le fichier de sortie."

Télécharger le Code Exécutable

Téléchargez Extraire le Texte de Toutes les Pages (Aspose.PDF) depuis l’un des sites de codage social mentionnés ci-dessous :

GitHub

Ajouter du texte à un fichier PDF existant en Ruby