Extraire des images du PDF à l'aide de Python

Utiliser Document pour ouvrir le PDF, puis accéder aux ressources de la page afin de récupérer un XImage objet et l’enregistrer comme un fichier distinct. Cette approche est utile lorsque vous devez réutiliser des images, inspecter les ressources extraites, ou créer des flux de travail de traitement d’images à partir du contenu PDF.

Ouvrez le PDF en tant que Document.
Accédez à la ressource d’image depuis la page cible.
Récupérer le requis XImage à partir de la collection d’images de la page.
Enregistrez l’image extraite dans un fichier de sortie.


    import aspose.pdf as apdf
    from io import FileIO
    from os import path

    path_infile = path.join(self.dataDir, infile)
    path_outfile = path.join(self.dataDir, outfile)

    document = apdf.Document(path_infile)
    xImage = document.pages[1].resources.images[1]
    with FileIO(path_outfile, "w") as output_image:
        xImage.save(output_image)

Extraire du texte d'un PDF avec Python Extraire les polices du PDF via Python