Extraer imágenes de PDF usando Python

Usar Documento para abrir el PDF, luego acceder a los recursos de la página para recuperar una XImage objeto y guárdelo como un archivo separado. Este enfoque es útil cuando necesita reutilizar imágenes, inspeccionar los recursos extraídos o crear flujos de trabajo de procesamiento de imágenes a partir del contenido PDF.

Abra el PDF como un Document.
Acceda al recurso de imagen de la página objetivo.
Recuperar lo requerido XImage de la colección de imágenes de la página.
Guarde la imagen extraída en un archivo de salida.


    import aspose.pdf as apdf
    from io import FileIO
    from os import path

    path_infile = path.join(self.dataDir, infile)
    path_outfile = path.join(self.dataDir, outfile)

    document = apdf.Document(path_infile)
    xImage = document.pages[1].resources.images[1]
    with FileIO(path_outfile, "w") as output_image:
        xImage.save(output_image)

Extraer texto de PDF usando Python Extraer fuentes de PDF mediante Python