Python を使用して PDF から画像を抽出する

使用文書 PDF を開き、ページリソースにアクセスして PDF を取得します XImage オブジェクトを作成し、別のファイルとして保存します。この方法は、画像を再利用したり、抽出したアセットを検査したり、PDF コンテンツから画像処理ワークフローを構築したりする必要がある場合に役立ちます。

PDF をとして開く Document.
ターゲットページから画像リソースにアクセスします。
必要なものを取得する XImage ページ画像コレクションから。
抽出したイメージを出力ファイルに保存します。


    import aspose.pdf as apdf
    from io import FileIO
    from os import path

    path_infile = path.join(self.dataDir, infile)
    path_outfile = path.join(self.dataDir, outfile)

    document = apdf.Document(path_infile)
    xImage = document.pages[1].resources.images[1]
    with FileIO(path_outfile, "w") as output_image:
        xImage.save(output_image)

Python を使用して PDF からテキストを抽出する Python 経由で PDF からフォントを抽出