Конвертировать PDF в Excel с помощью Python

Конвертировать PDF в Excel с помощью Python

Aspose.PDF for Python via .NET поддерживает конвертирование PDF‑файлов в Excel и другие форматы электронных таблиц из кода Python.

Используйте эту страницу, когда нужно конвертировать PDF в XLS, XLSX, CSV или ODS для извлечения таблиц, повторного использования отчётов, сортировки, фильтрации или последующего анализа. При конвертации PDF в Excel отдельные страницы PDF могут быть отображены как листы Excel.

Первый пример преобразует PDF‑файл в формат Spreadsheet 2003 XML. В последующих разделах показаны форматы XLSX, XLSM, CSV, ODS и вывод в виде одного листа.

Следующий фрагмент кода показывает процесс преобразования PDF‑файла в формат XLS или XLSX с помощью Aspose.PDF for Python via .NET.

Шаги: Преобразовать файл PDF в формат Excel (XML Spreadsheet 2003)

  1. Загрузите PDF‑документ.
  2. Настройте параметры сохранения Excel, используя ПараметрыСохраненияExcel.
  3. Сохраните преобразованный файл.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_spread_sheet2003(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразовать PDF в XLSX с помощью Python

Шаги: Преобразовать файл PDF в формат XLSX (Excel 2007+)

  1. Загрузите PDF‑документ.
  2. Настройте параметры сохранения Excel, используя ПараметрыСохраненияExcel.
  3. Сохраните преобразованный файл.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Конвертировать PDF в XLSX с управлением столбцами

При конвертации PDF в формат Excel в выходной файл может быть добавлена пустая колонка в качестве первой колонки. Используйте insert_blank_column_at_first вариант ExcelSaveOptions класс для управления этим поведением. Его значение по умолчанию — true.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_control_column(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.insert_blank_column_at_first = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразовать PDF в один лист Excel

Aspose.PDF for Python via .NET показывает, как преобразовать PDF в файл Excel (.xlsx) с включённой опцией ‘minimize_the_number_of_worksheets’.

Шаги: Конвертировать PDF в XLS или XLSX в один лист в Python

  1. Загрузите PDF‑документ.
  2. Настройте параметры сохранения Excel, используя ПараметрыСохраненияExcel.
  3. Опция ‘minimize_the_number_of_worksheets’ уменьшает количество листов Excel, объединяя страницы PDF в меньшее число листов (например, один лист для всего документа, если это возможно).
  4. Сохраните преобразованный файл.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_single_excel_worksheet(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.minimize_the_number_of_worksheets = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразовать PDF в Excel 2007 с поддержкой макросов (XLSM)

Этот пример на Python показывает, как преобразовать файл PDF в файл Excel в формате XLSM (рабочая книга Excel с поддержкой макросов).

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_macro(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSM
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразовать в другие форматы электронных таблиц

Преобразовать PDF в CSV

Функция ‘convert_pdf_to_excel_2007_csv’ выполняет ту же операцию, что и ранее, но на этот раз целевой формат — CSV (Comma-Separated Values), а не XLSM.

Шаги: конвертировать PDF в CSV в Python

  1. Создайте экземпляр Документ объект с исходным PDF документом.
  2. Создайте экземпляр ПараметрыСохраненияExcel с ExcelSaveOptions.ExcelFormat.CSV
  3. Сохраните его в формате CSV, вызвав save()* метод и его передачу ПараметрыСохраненияExcel.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_csv(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.CSV
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразовать PDF в ODS

Шаги: Конвертировать PDF в ODS в Python

  1. Создайте экземпляр Документ объект с исходным PDF документом.
  2. Создайте экземпляр ПараметрыСохраненияExcel с ExcelSaveOptions.ExcelFormat.ODS
  3. Сохраните его в формате ODS, вызвав save() метод и передача его ПараметрыСохраненияExcel.

Конвертация в формат ODS выполняется так же, как и все остальные форматы.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_ods(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.ODS
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Связанные преобразования