Extrair imagens de PDF usando Python

Usar Document para abrir o PDF, então acessar os recursos da página para recuperar um XImage objeto e salvá-lo como um arquivo separado. Essa abordagem é útil quando você precisa reutilizar imagens, inspecionar ativos extraídos ou criar fluxos de trabalho de processamento de imagens a partir do conteúdo PDF.

Abra o PDF como um Document.
Acesse o recurso de imagem da página de destino.
Recuperar o necessário XImage da coleção de imagens da página.
Salve a imagem extraída em um arquivo de saída.


    import aspose.pdf as apdf
    from io import FileIO
    from os import path

    path_infile = path.join(self.dataDir, infile)
    path_outfile = path.join(self.dataDir, outfile)

    document = apdf.Document(path_infile)
    xImage = document.pages[1].resources.images[1]
    with FileIO(path_outfile, "w") as output_image:
        xImage.save(output_image)

Extrair texto de PDF usando Python Extrair fontes de PDF via Python