使用Python将PDF转换为Excel

概述

本文解释了如何使用Python将PDF转换为Excel格式。它涵盖了以下主题。

格式: XLS

格式: XLSX

格式: Excel

格式: CSV

格式: ODS

通过 Python 进行 PDF 转换为 EXCEL

Aspose.PDF for Python via .NET 支持将 PDF 文件转换为 Excel 和 CSV 格式的功能。

Aspose.PDF for Python via .NET 是一个 PDF 操作组件,我们引入了一项功能,可以将 PDF 文件渲染为 Excel 工作簿(XLSX 文件)。在此转换过程中,PDF 文件的各个页面被转换为 Excel 工作表。

以下代码片段展示了如何使用 Aspose.PDF for Python via .NET 将 PDF 文件转换为 XLS 或 XLSX 格式的过程。

步骤:在 Python 中将 PDF 转换为 XLS

  1. 使用源 PDF 文档创建 Document 对象的实例。
  2. 创建 ExcelSaveOptions 的实例。
  3. 通过调用 Document.Save() 方法并传递 ExcelSaveOptions,指定 .xls 扩展名 将其保存为 XLS 格式。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"
    # 打开 PDF 文档
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

    # 将文件保存为 MS Excel 格式
    document.save(output_pdf, save_option)

步骤:在 Python 中将 PDF 转换为 XLSX

  1. 使用源 PDF 文档创建 Document 对象的实例。
  2. 创建 ExcelSaveOptions 的实例。
  3. 调用 save() 方法并传递 ExcelSaveOptions,将其保存为 XLSX 格式并指定 .xlsx 扩展名

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"
    # 打开 PDF 文档
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()

    # 将文件保存为 MS Excel 格式
    document.save(output_pdf, save_option)

将 PDF 转换为具有控制列的 XLS

当将 PDF 转换为 XLS 格式时,空白列作为第一列添加到输出文件中。 在 ‘ExcelSaveOptions class’ 中,InsertBlankColumnAtFirst 选项用于控制此列。其默认值为 true。


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"
    # 打开 PDF 文档
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.insert_blank_column_at_first = True

    # 将文件保存为 MS Excel 格式
    document.save(output_pdf, save_option)

将 PDF 转换为单个 Excel 工作表

将包含大量页面的 PDF 文件导出为 XLS 时,每页都会导出到 Excel 文件中的不同工作表。这是因为 MinimizeTheNumberOfWorksheets 属性默认设置为 false。为了确保所有页面都导出到输出 Excel 文件中的一个工作表,请将 MinimizeTheNumberOfWorksheets 属性设置为 true。

步骤:在 Python 中将 PDF 转换为 XLS 或 XLSX 单个工作表

  1. 创建一个 Document 对象的实例,使用源 PDF 文档。
  2. 创建一个 ExcelSaveOptions 的实例,设置 MinimizeTheNumberOfWorksheets = true
  3. 调用 save() 方法并传递 ExcelSaveOptions,将其保存为具有单个工作表的 XLSXLSX 格式。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "many_pages.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"
    # 打开 PDF 文档
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.minimize_the_number_of_worksheets = True

    # 将文件保存为 MS Excel 格式
    document.save(output_pdf, save_option)

转换为其他电子表格格式

转换为 CSV

转换为 CSV 格式的操作与上述方法相同。你需要做的就是设置适当的格式。

步骤:在 Python 中将 PDF 转换为 CSV

  1. 使用源 PDF 文档创建 Document 对象的实例。
  2. 创建 ExcelSaveOptions 的实例,并设置 Format = ExcelSaveOptions.ExcelFormat.CSV
  3. 通过调用 save() 方法并传递 ExcelSaveOptions,将其保存为 CSV 格式。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_csv.csv"
    # 打开 PDF 文档
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.CSV

    # 保存文件
    document.save(output_pdf, save_option)

转换为 ODS

步骤:在 Python 中将 PDF 转换为 ODS

  1. 使用源 PDF 文档创建 Document 对象的实例。
  2. 使用 Format = ExcelSaveOptions.ExcelFormat.ODS 创建 ExcelSaveOptions 的实例。
  3. 通过调用 save() 方法并传递 ExcelSaveOptions 将其保存为 ODS 格式。

转换为 ODS 格式的过程与其他格式相同。


    import aspose.pdf as ap
    
    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_ods.ods"
    # 打开 PDF 文档
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.ODS

    # 保存文件
    document.save(output_pdf, save_option)

另请参阅

本文还涵盖这些主题。代码与上面相同。

格式Excel

格式XLS

格式XLSX

格式: CSV

格式: ODS