Преобразование PDF в Excel на Python

Обзор

Эта статья объясняет, как преобразовать PDF в форматы Excel с использованием Python. Она охватывает следующие темы.

Формат: XLS

Формат: XLSX

Формат: Excel

Формат: CSV

Формат: ODS

Конвертация PDF в EXCEL с помощью Python

Aspose.PDF for Python via .NET поддерживает возможность конвертации PDF файлов в форматы Excel и CSV.

Aspose.PDF for Python via .NET — это компонент для работы с PDF, мы внедрили функцию, которая преобразует PDF файл в рабочую книгу Excel (файлы XLSX). Во время этой конвертации отдельные страницы PDF файла преобразуются в листы Excel.

Следующий фрагмент кода показывает процесс преобразования PDF файла в формат XLS или XLSX с использованием Aspose.PDF для Python через .NET.

Шаги: Конвертация PDF в XLS на Python

  1. Создайте экземпляр объекта Document с исходным PDF документом.
  2. Создайте экземпляр ExcelSaveOptions.
  3. Сохраните в формате XLS, указав расширение .xls с помощью вызова метода Document.Save() и передачи ему ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"
    # Открыть PDF документ
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

    # Сохранить файл в формате MS Excel
    document.save(output_pdf, save_option)

Шаги: Преобразование PDF в XLSX на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Создайте экземпляр ExcelSaveOptions.
  3. Сохраните его в формате XLSX, указав расширение .xlsx, вызвав метод save() и передав ему ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"
    # Открыть PDF-документ
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()

    # Сохранить файл в формате MS Excel
    document.save(output_pdf, save_option)

Преобразование PDF в XLS с управлением колонкой

При преобразовании PDF в формат XLS в выходной файл добавляется пустая колонка в качестве первой колонки. В классе ‘ExcelSaveOptions’ опция InsertBlankColumnAtFirst используется для управления этим столбцом. Значение по умолчанию — true.


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"
    # Открыть PDF документ
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.insert_blank_column_at_first = True

    # Сохранить файл в формате MS Excel
    document.save(output_pdf, save_option)

Конвертировать PDF в один лист Excel

При экспорте PDF файла с большим количеством страниц в XLS, каждая страница экспортируется на отдельный лист в файле Excel. Это происходит потому, что свойство MinimizeTheNumberOfWorksheets по умолчанию установлено в false. Чтобы все страницы были экспортированы на один лист в выходном файле Excel, установите свойство MinimizeTheNumberOfWorksheets в true.

Шаги: Конвертировать PDF в один лист XLS или XLSX в Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Создайте экземпляр ExcelSaveOptions с MinimizeTheNumberOfWorksheets = true.
  3. Сохраните его в формате XLS или XLSX с одним листом, вызвав метод save() и передав ему ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "many_pages.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"
    # Открыть PDF-документ
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.minimize_the_number_of_worksheets = True

    # Сохранить файл в формате MS Excel
    document.save(output_pdf, save_option)

Конвертация в другие форматы электронных таблиц

Конвертация в CSV

Конвертация в формат CSV выполняется так же, как и выше. Все, что нужно - установить соответствующий формат.

Шаги: Конвертация PDF в CSV на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Создайте экземпляр ExcelSaveOptions с Format = ExcelSaveOptions.ExcelFormat.CSV
  3. Сохраните его в формате CSV, вызвав метод save() и передав ему ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_csv.csv"
    # Открыть PDF-документ
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.CSV

    # Сохранить файл
    document.save(output_pdf, save_option)

Преобразование в ODS

Шаги: Преобразование PDF в ODS на Python

  1. Создайте экземпляр объекта Document с исходным PDF-документом.
  2. Создайте экземпляр ExcelSaveOptions с Format = ExcelSaveOptions.ExcelFormat.ODS
  3. Сохраните в формате ODS, вызвав метод save() и передав в него ExcelSaveOptions.

Преобразование в формат ODS выполняется так же, как и во все остальные форматы.


    import aspose.pdf as ap
    
    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_ods.ods"
    # Открыть PDF-документ
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.ODS

    # Сохранить файл
    document.save(output_pdf, save_option)

См. также

Эта статья также охватывает следующие темы. Коды такие же, как и выше.

Формат: Excel

Формат: XLS

Формат: XLSX

Формат: CSV

Формат: ODS