在 Python 中将 PDF 转换为 Excel

在 Python 中将 PDF 转换为 Excel

Aspose.PDF for Python via .NET 支持从 Python 代码将 PDF 文件转换为 Excel 和其他电子表格格式。

当您需要将 PDF 转换为 XLS、XLSX、CSV 或 ODS 进行表格提取、报告复用、排序、过滤或下游分析时,请使用此页面。在 PDF 转 Excel 转换过程中,单个 PDF 页面可以渲染为 Excel 工作表。

第一个示例将 PDF 文件转换为 Spreadsheet 2003 XML 格式。后面的章节展示了 XLSX、XLSM、CSV、ODS,以及单工作表输出。

以下代码片段展示了使用 Aspose.PDF for Python via .NET 将 PDF 文件转换为 XLS 或 XLSX 格式的过程。

步骤:将 PDF 文件转换为 Excel(XML 电子表格 2003)格式

  1. 加载 PDF 文档。
  2. 使用设置 Excel 保存选项 Excel保存选项.
  3. 保存已转换的文件。
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_spread_sheet2003(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

在 Python 中将 PDF 转换为 XLSX

步骤:将 PDF 文件转换为 XLSX 格式(Excel 2007+)

  1. 加载 PDF 文档。
  2. 使用设置 Excel 保存选项 Excel保存选项.
  3. 保存已转换的文件。
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

将 PDF 转换为 XLSX 并进行列控制

在将 PDF 转换为 Excel 格式时,可以在输出文件的第一列添加一个空列。使用 insert_blank_column_at_first 选项的 ExcelSaveOptions 用于控制此行为的类。其默认值是 true.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_control_column(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.insert_blank_column_at_first = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

将 PDF 转换为单个 Excel 工作表

Aspose.PDF for Python via .NET 展示了如何将 PDF 转换为 Excel (.xlsx) 文件,并启用了 ‘minimize_the_number_of_worksheets’ 选项。

步骤:在 Python 中将 PDF 转换为单个工作表的 XLS 或 XLSX

  1. 加载 PDF 文档。
  2. 使用设置 Excel 保存选项 Excel保存选项.
  3. ‘minimize_the_number_of_worksheets’ 选项通过将 PDF 页面合并到更少的工作表中来减少 Excel 工作表的数量(例如,如果可能的话,整个文档使用一个工作表)。
  4. 保存已转换的文件。
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_single_excel_worksheet(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.minimize_the_number_of_worksheets = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

将 PDF 转换为 Excel 2007 宏启用文件 (XLSM)

此 Python 示例展示了如何将 PDF 文件转换为 XLSM 格式的 Excel 文件(Excel 宏启用工作簿)。

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_macro(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSM
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

转换为其他电子表格格式

将 PDF 转换为 CSV

‘convert_pdf_to_excel_2007_csv’ 函数执行与之前相同的操作,但这次目标格式是 CSV(逗号分隔值),而不是 XLSM。

步骤:在 Python 中将 PDF 转换为 CSV

  1. 创建实例 文档 包含源 PDF 文档的对象。
  2. 创建实例 Excel保存选项 使用 ExcelSaveOptions.ExcelFormat.CSV
  3. 通过调用将其保存为 CSV 格式 save()* 方法并传递它 Excel保存选项.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_csv(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.CSV
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

将 PDF 转换为 ODS

步骤:在Python中将PDF转换为ODS

  1. 创建实例 文档 包含源 PDF 文档的对象。
  2. 创建实例 Excel保存选项 使用 ExcelSaveOptions.ExcelFormat.ODS
  3. 通过调用将其保存为 ODS 格式 save() 方法和传递它 Excel保存选项.

转换为 ODS 格式的方式与所有其他格式相同。

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_ods(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.ODS
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

相关转换