Convertir PDF a Excel en Python

Convertir PDF a Excel en Python

Aspose.PDF for Python via .NET soporta la conversión de archivos PDF a Excel y otros formatos de hoja de cálculo desde código Python.

Utilice esta página cuando necesite convertir un PDF a XLS, XLSX, CSV u ODS para extracción de tablas, reutilización de informes, ordenación, filtrado o análisis posterior. Durante la conversión de PDF a Excel, las páginas individuales del PDF pueden renderizarse como hojas de cálculo de Excel.

El primer ejemplo convierte un archivo PDF al formato XML de Spreadsheet 2003. Las secciones posteriores muestran XLSX, XLSM, CSV, ODS y salida de una sola hoja de cálculo.

El siguiente fragmento de código muestra el proceso para convertir un archivo PDF a formato XLS o XLSX con Aspose.PDF for Python via .NET.

Pasos: Convertir un archivo PDF al formato Excel (XML Spreadsheet 2003)

  1. Cargar el documento PDF.
  2. Configurar opciones de guardado de Excel usando ExcelSaveOptions.
  3. Guarda el archivo convertido.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_spread_sheet2003(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a XLSX en Python

Pasos: Convertir un archivo PDF al formato XLSX (Excel 2007+)

  1. Cargar el documento PDF.
  2. Configurar opciones de guardado de Excel usando ExcelSaveOptions.
  3. Guarda el archivo convertido.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a XLSX con control de columnas

Al convertir un PDF a un formato Excel, se puede añadir una columna en blanco como la primera columna en el archivo de salida. Use el insert_blank_column_at_first opción del ExcelSaveOptions clase para controlar este comportamiento. Su valor predeterminado es true.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_control_column(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.insert_blank_column_at_first = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a una sola hoja de Excel

Aspose.PDF for Python via .NET muestra cómo convertir un PDF a un archivo Excel (.xlsx), con la opción ‘minimize_the_number_of_worksheets’ habilitada.

Pasos: Convertir PDF a XLS o XLSX en una sola hoja de cálculo en Python

  1. Cargar el documento PDF.
  2. Configurar opciones de guardado de Excel usando ExcelSaveOptions.
  3. La opción ‘minimize_the_number_of_worksheets’ reduce el número de hojas de Excel al combinar páginas PDF en menos hojas de cálculo (p.ej., una hoja de cálculo para todo el documento si es posible).
  4. Guarda el archivo convertido.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_single_excel_worksheet(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.minimize_the_number_of_worksheets = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a Excel 2007 con macros (XLSM)

Este ejemplo de Python muestra cómo convertir un archivo PDF en un archivo de Excel en formato XLSM (Libro de Excel con macros habilitadas).

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_macro(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSM
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir a otros formatos de hoja de cálculo

Convertir PDF a CSV

La función ‘convert_pdf_to_excel_2007_csv’ realiza la misma operación que antes, pero esta vez el formato de destino es CSV (Valores Separados por Comas) en lugar de XLSM.

Pasos: Convertir PDF a CSV en Python

  1. Crear una instancia de Documento objeto con el documento PDF de origen.
  2. Crear una instancia de ExcelSaveOptions con ExcelSaveOptions.ExcelFormat.CSV
  3. Guárdalo en formato CSV llamando save()* método y pasándolo ExcelSaveOptions.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_csv(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.CSV
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a ODS

Pasos: Convertir PDF a ODS en Python

  1. Crear una instancia de Documento objeto con el documento PDF de origen.
  2. Crear una instancia de ExcelSaveOptions con ExcelSaveOptions.ExcelFormat.ODS
  3. Guárdalo en formato ODS llamando save() método y pasándolo ExcelSaveOptions.

La conversión al formato ODS se realiza de la misma manera que todos los demás formatos.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_ods(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.ODS
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Conversiones relacionadas