Convertir PDF a Excel en Python

Resumen

Este artículo explica cómo convertir PDF a formatos Excel usando Python. Cubre los siguientes temas.

Formato: XLS

Formato: XLSX

Formato: Excel

Formato: CSV

Formato: ODS

Conversión de PDF a EXCEL mediante Python

Aspose.PDF para Python a través de .NET soporta la función de convertir archivos PDF a formatos Excel y CSV.

Aspose.PDF para Python a través de .NET es un componente de manipulación de PDF, hemos introducido una función que convierte el archivo PDF a un libro de Excel (archivos XLSX). Durante esta conversión, las páginas individuales del archivo PDF se convierten en hojas de cálculo de Excel.

Intenta convertir PDF a Excel en línea

Aspose.PDF te presenta la aplicación gratuita en línea “PDF a XLSX”, donde puedes intentar investigar la funcionalidad y la calidad con la que trabaja.

El siguiente fragmento de código muestra el proceso para convertir un archivo PDF al formato XLS o XLSX con Aspose.PDF para Python a través de .NET.

Pasos: Convertir PDF a XLS en Python

Cree una instancia del objeto Document con el documento PDF de origen.
Cree una instancia de ExcelSaveOptions.
Guárdelo en formato XLS especificando la extensión .xls llamando al método Document.Save() y pasándole ExcelSaveOptions.


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xls.xls"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003

    # Guardar el archivo en formato MS Excel
    document.save(output_pdf, save_option)

Pasos: Convertir PDF a XLSX en Python

Cree una instancia del objeto Document con el documento PDF de origen.
Cree una instancia de ExcelSaveOptions.
Guárdelo en formato XLSX especificando la extensión .xlsx llamando al método save() y pasándole ExcelSaveOptions.


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_xlsx.xlsx"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()

    # Guardar el archivo en formato MS Excel
    document.save(output_pdf, save_option)

Convertir PDF a XLS con control de Columna

Al convertir un PDF a formato XLS, se añade una columna en blanco al archivo de salida como primera columna. La opción InsertBlankColumnAtFirst en la clase ‘ExcelSaveOptions’ se utiliza para controlar esta columna. Su valor predeterminado es verdadero.


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_with_control_column.xls"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.insert_blank_column_at_first = True

    # Guardar el archivo en formato MS Excel
    document.save(output_pdf, save_option)

Convertir PDF a una sola hoja de cálculo de Excel

Al exportar un archivo PDF con muchas páginas a XLS, cada página se exporta a una hoja diferente en el archivo Excel. Esto se debe a que la propiedad MinimizeTheNumberOfWorksheets está configurada como falsa por defecto. Para asegurarse de que todas las páginas se exporten a una sola hoja en el archivo Excel de salida, configure la propiedad MinimizeTheNumberOfWorksheets como verdadera.

Pasos: Convertir PDF a una sola hoja de cálculo XLS o XLSX en Python

Crear una instancia del objeto Document con el documento PDF de origen.
Crear una instancia de ExcelSaveOptions con MinimizeTheNumberOfWorksheets = true.
Guardarlo en formato XLS o XLSX teniendo una sola hoja de cálculo llamando al método save() y pasándole ExcelSaveOptions.


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "many_pages.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_xlsx_single_excel_worksheet.xls"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    save_option.minimize_the_number_of_worksheets = True

    # Guardar el archivo en formato MS Excel
    document.save(output_pdf, save_option)

Convertir a otros formatos de hoja de cálculo

Convertir a CSV

La conversión al formato CSV se realiza de la misma manera que arriba. Todo lo que necesitas es establecer el formato apropiado.

Pasos: Convertir PDF a CSV en Python

Crea una instancia del objeto Document con el documento PDF de origen.
Crea una instancia de ExcelSaveOptions con Format = ExcelSaveOptions.ExcelFormat.CSV
Guárdalo en formato CSV llamando al método save() y pasándole ExcelSaveOptions.


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_csv.csv"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.CSV

    # Guardar el archivo
    document.save(output_pdf, save_option)

Convertir a ODS

Pasos: Convertir PDF a ODS en Python

Crear una instancia del objeto Document con el documento PDF de origen.
Crear una instancia de ExcelSaveOptions con Format = ExcelSaveOptions.ExcelFormat.ODS
Guardarlo en formato ODS llamando al método save() y pasándole ExcelSaveOptions.

La conversión al formato ODS se realiza de la misma manera que todos los demás formatos.


    import aspose.pdf as ap
    
    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_ods.ods"
    # Abrir documento PDF
    document = ap.Document(input_pdf)

    save_option = ap.ExcelSaveOptions()
    save_option.format = ap.ExcelSaveOptions.ExcelFormat.ODS

    # Guardar el archivo
    document.save(output_pdf, save_option)

Ver También

Este artículo también cubre estos temas. Los códigos son los mismos que arriba.

Formato: Excel

Formato: XLS

Formato: XLSX

Formato: CSV

Formato: ODS

Convertir PDF a Documentos de Microsoft Word en Python Convertir PDF a PowerPoint en Python