从 PDF 中提取图像

PDF 文档中的每一页都包含资源（图像、表单和字体）。我们可以通过调用来访问这些资源 getResources 方法。类资源包含 XImageCollection 并且我们可以通过调用获取图像列表 getImages 方法。

因此，要从页面提取图像，我们需要获取对页面的引用，然后是页面资源，最后是图像集合。例如，我们可以通过索引提取特定图像。

图像的索引返回一个 XImage 对象。此对象提供一个保存方法，可用于保存提取的图像。以下代码片段展示了如何从 PDF 文件中提取图像。

public void extractImage () {
       // Open document
       try {
           document=new Document(inputStream);
       } catch (Exception e) {
           resultMessage.setText(e.getMessage());
           return;
       }

       com.aspose.pdf.Page page=document.getPages().get_Item(1);
       com.aspose.pdf.XImageCollection xImageCollection=page.getResources().getImages();
       // Extract a particular image
       com.aspose.pdf.XImage xImage=xImageCollection.get_Item(1);
       File file=new File(fileStorage, "extracted-image.jpeg");
       try {
           java.io.FileOutputStream outputImage=new java.io.FileOutputStream(file.toString());
           // Save output image
           xImage.save(outputImage, ImageType.getJpeg());
           outputImage.close();
       } catch (java.io.IOException e) {
           resultMessage.setText(e.getMessage());
           return;
       }
       resultMessage.
         }

从 PDF 中提取文本从 PDF 中提取表格数据