使用Python将PDF转换为Excel
概述
本文解释了如何使用Python将PDF转换为Excel格式。它涵盖了以下主题。
格式: XLS
格式: XLSX
格式: Excel
格式: CSV
格式: ODS
通过 Python 进行 PDF 转换为 EXCEL
Aspose.PDF for Python via .NET 支持将 PDF 文件转换为 Excel 和 CSV 格式的功能。
Aspose.PDF for Python via .NET 是一个 PDF 操作组件,我们引入了一项功能,可以将 PDF 文件渲染为 Excel 工作簿(XLSX 文件)。在此转换过程中,PDF 文件的各个页面被转换为 Excel 工作表。
以下代码片段展示了如何使用 Aspose.PDF for Python via .NET 将 PDF 文件转换为 XLS 或 XLSX 格式的过程。
- 使用源 PDF 文档创建 Document 对象的实例。
- 创建 ExcelSaveOptions 的实例。
- 通过调用 Document.Save() 方法并传递 ExcelSaveOptions,指定 .xls 扩展名 将其保存为 XLS 格式。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"
# 打开 PDF 文档
document = ap.Document(input_pdf)
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
# 将文件保存为 MS Excel 格式
document.save(output_pdf, save_option)
- 使用源 PDF 文档创建 Document 对象的实例。
- 创建 ExcelSaveOptions 的实例。
- 调用 save() 方法并传递 ExcelSaveOptions,将其保存为 XLSX 格式并指定 .xlsx 扩展名。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"
# 打开 PDF 文档
document = ap.Document(input_pdf)
save_option = ap.ExcelSaveOptions()
# 将文件保存为 MS Excel 格式
document.save(output_pdf, save_option)
将 PDF 转换为具有控制列的 XLS
当将 PDF 转换为 XLS 格式时,空白列作为第一列添加到输出文件中。 在 ‘ExcelSaveOptions class’ 中,InsertBlankColumnAtFirst 选项用于控制此列。其默认值为 true。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"
# 打开 PDF 文档
document = ap.Document(input_pdf)
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.insert_blank_column_at_first = True
# 将文件保存为 MS Excel 格式
document.save(output_pdf, save_option)
将 PDF 转换为单个 Excel 工作表
将包含大量页面的 PDF 文件导出为 XLS 时,每页都会导出到 Excel 文件中的不同工作表。这是因为 MinimizeTheNumberOfWorksheets 属性默认设置为 false。为了确保所有页面都导出到输出 Excel 文件中的一个工作表,请将 MinimizeTheNumberOfWorksheets 属性设置为 true。
步骤:在 Python 中将 PDF 转换为 XLS 或 XLSX 单个工作表
- 创建一个 Document 对象的实例,使用源 PDF 文档。
- 创建一个 ExcelSaveOptions 的实例,设置 MinimizeTheNumberOfWorksheets = true。
- 调用 save() 方法并传递 ExcelSaveOptions,将其保存为具有单个工作表的 XLS 或 XLSX 格式。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "many_pages.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"
# 打开 PDF 文档
document = ap.Document(input_pdf)
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
save_option.minimize_the_number_of_worksheets = True
# 将文件保存为 MS Excel 格式
document.save(output_pdf, save_option)
转换为其他电子表格格式
转换为 CSV
转换为 CSV 格式的操作与上述方法相同。你需要做的就是设置适当的格式。
- 使用源 PDF 文档创建 Document 对象的实例。
- 创建 ExcelSaveOptions 的实例,并设置 Format = ExcelSaveOptions.ExcelFormat.CSV。
- 通过调用 save() 方法并传递 ExcelSaveOptions,将其保存为 CSV 格式。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_csv.csv"
# 打开 PDF 文档
document = ap.Document(input_pdf)
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.CSV
# 保存文件
document.save(output_pdf, save_option)
转换为 ODS
- 使用源 PDF 文档创建 Document 对象的实例。
- 使用 Format = ExcelSaveOptions.ExcelFormat.ODS 创建 ExcelSaveOptions 的实例。
- 通过调用 save() 方法并传递 ExcelSaveOptions 将其保存为 ODS 格式。
转换为 ODS 格式的过程与其他格式相同。
import aspose.pdf as ap
input_pdf = DIR_INPUT + "sample.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_ods.ods"
# 打开 PDF 文档
document = ap.Document(input_pdf)
save_option = ap.ExcelSaveOptions()
save_option.format = ap.ExcelSaveOptions.ExcelFormat.ODS
# 保存文件
document.save(output_pdf, save_option)
另请参阅
本文还涵盖这些主题。代码与上面相同。
格式:Excel
- Python PDF 到 Excel 代码
- Python PDF 到 Excel API
- Python PDF 到 Excel 编程
- Python PDF 到 Excel 库
- Python 将 PDF 保存为 Excel
- Python 从 PDF 生成 Excel
- Python 从 PDF 创建 Excel
- Python PDF 到 Excel 转换器
格式:XLS
- Python PDF 到 XLS 代码
- Python PDF 到 XLS API
- Python PDF 到 XLS 编程
- Python PDF 到 XLS 库
- Python 将 PDF 保存为 XLS
- Python 从 PDF 生成 XLS
- Python 从 PDF 创建 XLS
- Python PDF 到 XLS 转换器
格式:XLSX
- Python PDF 到 XLSX 代码
- Python PDF to XLSX API
- Python PDF to XLSX Programmatically
- Python PDF to XLSX Library
- Python Save PDF as XLSX
- Python Generate XLSX from PDF
- Python Create XLSX from PDF
- Python PDF to XLSX Converter
格式: CSV
- Python PDF to CSV Code
- Python PDF to CSV API
- Python PDF to CSV Programmatically
- Python PDF to CSV Library
- Python Save PDF as CSV
- Python Generate CSV from PDF
- Python Create CSV from PDF
- Python PDF to CSV Converter
格式: ODS