Converter PDF para Excel em Python

Visão Geral

Este artigo explica como converter PDF para formatos Excel usando Python. Ele abrange os seguintes tópicos.

Formato: XLS

Formato: XLSX

Formato: Excel

Formato: CSV

Formato: ODS

Conversão de PDF para EXCEL via Python

Aspose.PDF para Python via .NET suporta o recurso de conversão de arquivos PDF para formatos Excel e CSV.

Aspose.PDF para Python via .NET é um componente de manipulação de PDF, introduzimos um recurso que renderiza o arquivo PDF para uma planilha Excel (arquivos XLSX). Durante essa conversão, as páginas individuais do arquivo PDF são convertidas em planilhas do Excel.

O trecho de código a seguir mostra o processo de conversão de um arquivo PDF para o formato XLS ou XLSX com Aspose.PDF para Python via .NET.

Passos: Converter PDF para XLS em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions.
  3. Salve no formato XLS especificando a extensão .xls chamando o método Document.Save() e passando ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

    # Salve o arquivo no formato MS Excel
    document.save(output_pdf, save_option)

Passos: Converter PDF para XLSX em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions.
  3. Salve no formato XLSX especificando a extensão .xlsx chamando o método save() e passando ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"
    # Abra o documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()

    # Salve o arquivo no formato MS Excel
    document.save(output_pdf, save_option)

Converter PDF para XLS com controle de Coluna

Ao converter um PDF para o formato XLS, uma coluna em branco é adicionada ao arquivo de saída como primeira coluna. O uso da opção InsertBlankColumnAtFirst na classe ‘ExcelSaveOptions’ é utilizado para controlar esta coluna. Seu valor padrão é verdadeiro.


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.insert_blank_column_at_first = True

    # Salvar o arquivo no formato MS Excel
    document.save(output_pdf, save_option)

Converter PDF para uma Única Planilha do Excel

Ao exportar um arquivo PDF com muitas páginas para XLS, cada página é exportada para uma planilha diferente no arquivo do Excel. Isso ocorre porque a propriedade MinimizeTheNumberOfWorksheets é definida como falsa por padrão. Para garantir que todas as páginas sejam exportadas para uma única planilha no arquivo Excel de saída, defina a propriedade MinimizeTheNumberOfWorksheets como verdadeira.

Passos: Converter PDF para XLS ou XLSX em uma Única Planilha no Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions com MinimizeTheNumberOfWorksheets = true.
  3. Salve no formato XLS ou XLSX com uma única planilha chamando o método save() e passando ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "many_pages.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"
    # Abra o documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.minimize_the_number_of_worksheets = True

    # Salve o arquivo no formato MS Excel
    document.save(output_pdf, save_option)

Converter para outros formatos de planilha

Converter para CSV

A conversão para o formato CSV é realizada da mesma forma que acima. Tudo o que você precisa - definir o formato apropriado.

Passos: Converter PDF para CSV em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions com Format = ExcelSaveOptions.ExcelFormat.CSV
  3. Salve no formato CSV chamando o método save() e passando ExcelSaveOptions.

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_csv.csv"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.CSV

    # Salvar o arquivo
    document.save(output_pdf, save_option)

Converter para ODS

Passos: Converter PDF para ODS em Python

  1. Crie uma instância do objeto Document com o documento PDF de origem.
  2. Crie uma instância de ExcelSaveOptions com Format = ExcelSaveOptions.ExcelFormat.ODS
  3. Salve no formato ODS chamando o método save() e passando ExcelSaveOptions.

A conversão para o formato ODS é realizada da mesma forma que todos os outros formatos.


    import aspose.pdf as ap
    
    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_ods.ods"
    # Abra o documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.ODS

    # Salve o arquivo
    document.save(output_pdf, save_option)

Veja Também

Este artigo também aborda esses tópicos. Os códigos são os mesmos que acima.

Formato: Excel

Formato: XLS

Formato: XLSX

Format: CSV

Format: ODS