Extraire le Texte de Toutes les Pages d'un Document PDF en Python

Extraire le Texte d’un PDF en utilisant Python

Pour extraire le texte de toutes les pages d’un document PDF en utilisant Aspose.PDF Java pour Python, il suffit d’invoquer le module ExtractTextFromAllPages.


# Ouvrir le document cible
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Texte extrait avec succès. Vérifiez le fichier de sortie."

Télécharger le Code Exécuté

Téléchargez Extraire le Texte de Toutes les Pages (Aspose.PDF) à partir de l’un des sites de codage social mentionnés ci-dessous :

GitHub

Ajouter du texte à un PDF existant avec Python