Extrair imagens de PDF usando Python

Contents
[ ]

Usar Document para abrir o PDF, então acessar os recursos da página para recuperar um XImage objeto e salvá-lo como um arquivo separado. Essa abordagem é útil quando você precisa reutilizar imagens, inspecionar ativos extraídos ou criar fluxos de trabalho de processamento de imagens a partir do conteúdo PDF.

  1. Abra o PDF como um Document.
  2. Acesse o recurso de imagem da página de destino.
  3. Recuperar o necessário XImage da coleção de imagens da página.
  4. Salve a imagem extraída em um arquivo de saída.

    import aspose.pdf as apdf
    from io import FileIO
    from os import path

    path_infile = path.join(self.dataDir, infile)
    path_outfile = path.join(self.dataDir, outfile)

    document = apdf.Document(path_infile)
    xImage = document.pages[1].resources.images[1]
    with FileIO(path_outfile, "w") as output_image:
        xImage.save(output_image)