Convertir PDF a Excel en Python

Convertir PDF a Excel (XML de hoja de cálculo 2003)

Aspose.PDF for Python via .NET soporta la función de convertir archivos PDF a formatos Excel y CSV.

Aspose.PDF for Python via .NET es un componente de manipulación de PDF, hemos introducido una función que renderiza archivos PDF a libros de Excel (archivos XLSX). Durante esta conversión, las páginas individuales del archivo PDF se convierten en hojas de cálculo de Excel.

Utilice esta página cuando necesite extraer contenido PDF orientado a tablas o al estilo de informes a formatos de hoja de cálculo para ordenar, filtrar o realizar análisis posteriores.

El siguiente fragmento de código muestra el proceso para convertir un archivo PDF a formato XLS o XLSX con Aspose.PDF for Python via .NET.

Pasos: Convertir un archivo PDF a un formato Excel (XML Spreadsheet 2003)

  1. Cargar el documento PDF.
  2. Configurar opciones de guardado de Excel usando ExcelSaveOptions.
  3. Guarda el archivo convertido.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_spread_sheet2003(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XML_SPREAD_SHEET2003
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a Excel 2007+ (XLSX)

Pasos: Convertir un archivo PDF a formato XLSX (Excel 2007+)

  1. Cargar el documento PDF.
  2. Configurar opciones de guardado de Excel usando ExcelSaveOptions.
  3. Guarda el archivo convertido.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a XLS con columna de control

Al convertir un PDF a formato XLS, se agrega una columna en blanco al archivo de salida como primera columna. En la clase ‘ExcelSaveOptions’ la opción ‘insert_blank_column_at_first’ se utiliza para controlar esta columna. Su valor predeterminado es true.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_control_column(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.insert_blank_column_at_first = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a una sola hoja de Excel

Aspose.PDF for Python via .NET muestra cómo convertir un PDF a un archivo de Excel (.xlsx), con la opción ‘minimize_the_number_of_worksheets’ habilitada.

Pasos: Convertir PDF a XLS o XLSX en una sola hoja de cálculo en Python

  1. Cargar el documento PDF.
  2. Configurar opciones de guardado de Excel usando ExcelSaveOptions.
  3. La opción ‘minimize_the_number_of_worksheets’ reduce la cantidad de hojas de Excel al combinar páginas PDF en menos hojas de cálculo (p., ej., una hoja de cálculo para todo el documento si es posible).
  4. Guarda el archivo convertido.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_single_excel_worksheet(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSX
    save_options.minimize_the_number_of_worksheets = True
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a Excel 2007 con macros habilitadas (XLSM)

Este ejemplo en Python muestra cómo convertir un archivo PDF en un archivo Excel en formato XLSM (Libro de Excel con macros habilitadas).

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_macro(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.XLSM
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir a otros formatos de hoja de cálculo

Convertir PDF a CSV

La función ‘convert_pdf_to_excel_2007_csv’ realiza la misma operación que antes, pero esta vez el formato de destino es CSV (Valores separados por comas) en lugar de XLSM.

Pasos: Convertir PDF a CSV en Python

  1. Crear una instancia de Documento objeto con el documento PDF de origen.
  2. Crear una instancia de ExcelSaveOptions con ExcelSaveOptions.ExcelFormat.CSV
  3. Guárdalo en formato CSV llamando save()* método y pasándolo ExcelSaveOptions.
from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_excel_2007_csv(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.CSV
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Convertir PDF a ODS

Pasos: Convertir PDF a ODS en Python

  1. Crear una instancia de Documento objeto con el documento PDF de origen.
  2. Crear una instancia de ExcelSaveOptions con ExcelSaveOptions.ExcelFormat.ODS
  3. Guárdelo en formato ODS llamando save() método y pasarlo ExcelSaveOptions.

La conversión al formato ODS se realiza de la misma manera que todos los demás formatos.

from os import path
import aspose.pdf as ap
import sys

def convert_pdf_to_ods(infile, outfile):
    document = ap.Document(infile)
    save_options = ap.ExcelSaveOptions()
    save_options.format = ap.ExcelSaveOptions.ExcelFormat.ODS
    document.save(outfile, save_options)

    print(infile + " converted into " + outfile)

Conversiones relacionadas