Конвертировать PDF в Excel с помощью Python

Преобразование PDF в Excel (Spreadsheet 2003 XML)

Aspose.PDF for Python via .NET поддерживает возможность конвертации PDF‑файлов в форматы Excel и CSV.

Aspose.PDF for Python via .NET — это компонент для работы с PDF, мы внедрили функцию, которая преобразует PDF‑файл в рабочую книгу Excel (файлы XLSX). Во время этого преобразования отдельные страницы PDF‑файла конвертируются в листы Excel.

Используйте эту страницу, когда вам необходимо извлекать содержимое PDF, ориентированное на таблицы или в виде отчётов, в форматы таблиц для сортировки, фильтрации или последующего анализа.

Следующий фрагмент кода демонстрирует процесс преобразования PDF‑файла в формат XLS или XLSX с помощью Aspose.PDF for Python via .NET.

Шаги: Преобразовать PDF‑файл в формат Excel (XML Spreadsheet 2003)

  1. Загрузите PDF‑документ.
  2. Настройте параметры сохранения Excel с помощью ExcelSaveOptions.
  3. Сохраните конвертированный файл.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_spread_sheet2003(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в Excel 2007+ (XLSX)

Шаги: Конвертировать PDF‑файл в формат XLSX (Excel 2007+)

  1. Создайте экземпляр Document объект с исходным PDF-документом.
  2. Создайте экземпляр ExcelSaveOptions с ExcelSaveOptions.ExcelFormat.ODS
  3. Сохраните его в формат ODS, вызвав save() метод и его передача ExcelSaveOptions.

Преобразование в формат ODS выполняется так же, как и все остальные форматы.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в XLS с контролем столбца

При конвертации PDF в формат XLS в выходной файл добавляется пустой столбец в качестве первого столбца. Опция ‘insert_blank_column_at_first’ в классе ‘ExcelSaveOptions’ используется для управления этим столбцом. Ее значение по умолчанию — true.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_control_column(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.insert_blank_column_at_first = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в один лист Excel

Aspose.PDF for Python via .NET демонстрирует, как конвертировать PDF в файл Excel (.xlsx), с включённым параметром ’minimize_the_number_of_worksheets’.

Шаги: Преобразовать PDF в XLS или XLSX в один лист с помощью Python

  1. Загрузите PDF‑документ.
  2. Настройте параметры сохранения Excel с помощью ExcelSaveOptions.
  3. Опция ‘minimize_the_number_of_worksheets’ уменьшает количество листов Excel, объединяя страницы PDF в меньшее число листов (например, один лист для всего документа, если это возможно).
  4. Сохранить преобразованный файл.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_single_excel_worksheet(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.minimize_the_number_of_worksheets = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в Excel 2007 с поддержкой макросов (XLSM)

Этот пример на Python показывает, как преобразовать файл PDF в файл Excel в формате XLSM (рабочая книга Excel с поддержкой макросов).

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_macro(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSM
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование в другие форматы электронных таблиц

Преобразование PDF в CSV

Функция ‘convert_pdf_to_excel_2007_csv’ выполняет ту же операцию, что и раньше, но на этот раз целевой формат — CSV (значения, разделённые запятыми) вместо XLSM.

Шаги: Конвертировать PDF в CSV в Python

  1. Создать экземпляр Document объект с исходным PDF документом.
  2. Создать экземпляр ExcelSaveOptions с ExcelSaveOptions.ExcelFormat.CSV
  3. Сохраните его в формате CSV, вызвав save()* метод и его передача ExcelSaveOptions.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_csv(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.CSV
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Преобразование PDF в ODS

Шаги: Преобразовать PDF в ODS в Python

  1. Создать экземпляр Document объект с исходным PDF документом.
  2. Создать экземпляр ExcelSaveOptions с ExcelSaveOptions.ExcelFormat.ODS
  3. Сохраните его в формат ODS, вызывая save() метод и передача его ExcelSaveOptions.

Преобразование в формат ODS происходит так же, как и все остальные форматы.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_ods(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.ODS
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Связанные преобразования