PythonでPDFをExcelに変換

概要

この記事では、Pythonを使用してPDFをExcel形式に変換する方法を説明します。次のトピックをカバーしています。

フォーマット: XLS

フォーマット: XLSX

フォーマット: Excel

フォーマット: CSV

フォーマット: ODS

PDFをPython経由でEXCELに変換

Aspose.PDF for Python via .NETは、PDFファイルをExcelおよびCSV形式に変換する機能をサポートしています。

Aspose.PDF for Python via .NETはPDF操作コンポーネントであり、PDFファイルをExcelワークブック(XLSXファイル)にレンダリングする機能を導入しました。この変換中に、PDFファイルの個々のページがExcelワークシートに変換されます。

次のコードスニペットは、Aspose.PDF for Python via .NETを使用してPDFファイルをXLSまたはXLSX形式に変換するプロセスを示しています。

手順: PythonでPDFをXLSに変換する

  1. ソースPDFドキュメントでDocumentオブジェクトのインスタンスを作成します。
  2. ExcelSaveOptionsのインスタンスを作成します。
  3. Document.Save()メソッドを呼び出し、ExcelSaveOptionsを渡して、.xls拡張子を指定してXLS形式で保存します。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"
    # PDFドキュメントを開く
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

    # ファイルをMS Excel形式で保存
    document.save(output_pdf, save_option)

ステップ: PythonでPDFをXLSXに変換する

  1. ソースPDFドキュメントでDocumentオブジェクトのインスタンスを作成します。
  2. ExcelSaveOptionsのインスタンスを作成します。
  3. save()メソッドを呼び出し、ExcelSaveOptionsを渡すことで、.xlsx拡張子を指定してXLSX形式で保存します。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"
    # PDFドキュメントを開く
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()

    # ファイルをMS Excel形式で保存
    document.save(output_pdf, save_option)

PDFをXLSに変換し、列を制御する

PDFをXLS形式に変換すると、最初の列として空白の列が出力ファイルに追加されます。 ‘ExcelSaveOptions クラス’ の InsertBlankColumnAtFirst オプションは、この列を制御するために使用されます。デフォルト値は true です。


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"
    # PDF ドキュメントを開く
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.insert_blank_column_at_first = True

    # ファイルを MS Excel 形式で保存
    document.save(output_pdf, save_option)

PDF を単一の Excel ワークシートに変換

多くのページを含む PDF ファイルを XLS にエクスポートする際、各ページは Excel ファイルの異なるシートにエクスポートされます。これは、MinimizeTheNumberOfWorksheets プロパティがデフォルトで false に設定されているためです。出力 Excel ファイルで全てのページを一つのシートにエクスポートするには、MinimizeTheNumberOfWorksheets プロパティを true に設定します。

手順: Python で PDF を XLS または XLSX 単一ワークシートに変換

  1. ソースPDFドキュメントでDocumentオブジェクトのインスタンスを作成します。
  2. MinimizeTheNumberOfWorksheets = trueを使用してExcelSaveOptionsのインスタンスを作成します。
  3. save()メソッドを呼び出し、ExcelSaveOptionsを渡すことで、単一のワークシートを持つXLSまたはXLSX形式で保存します。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "many_pages.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"
    # PDFドキュメントを開く
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.minimize_the_number_of_worksheets = True

    # ファイルをMS Excel形式で保存
    document.save(output_pdf, save_option)

他のスプレッドシート形式に変換

CSVに変換

CSV形式への変換は、上記と同じ方法で行われます。必要なのは適切な形式を設定することです。

手順: PDFをPythonでCSVに変換

  1. ソースPDFドキュメントを持つDocumentオブジェクトのインスタンスを作成します。
  2. Format = ExcelSaveOptions.ExcelFormat.CSVを使用して、ExcelSaveOptionsのインスタンスを作成します。
  3. save()*メソッドを呼び出し、ExcelSaveOptionsを渡すことで、CSV形式に保存します。

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_csv.csv"
    # PDFドキュメントを開く
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.CSV

    # ファイルを保存
    document.save(output_pdf, save_option)

ODSに変換

手順: PDFをPythonでODSに変換

  1. ソースPDFドキュメントを持つDocumentオブジェクトのインスタンスを作成します。
  2. ExcelSaveOptionsのインスタンスをFormat = ExcelSaveOptions.ExcelFormat.ODSで作成します。
  3. ExcelSaveOptionsを渡してsave()メソッドを呼び出し、ODS形式で保存します。

ODS形式への変換は、他のすべての形式と同じ方法で行われます。


    import aspose.pdf as ap
    
    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_ods.ods"
    # PDFドキュメントを開く
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.ODS

    # ファイルを保存する
    document.save(output_pdf, save_option)

See Also

この記事では、これらのトピックについても説明します。コードは上記と同じです。

Format: Excel

Format: XLS

Format: XLSX

フォーマット: CSV

フォーマット: ODS