Convertir PDF en Excel en Python

Aperçu

Cet article explique comment convertir un PDF en formats Excel en utilisant Python. Il couvre les sujets suivants.

Format: XLS

Format: XLSX

Format: Excel

Format: CSV

Format: ODS

Conversion PDF en EXCEL via Python

Aspose.PDF pour Python via .NET prend en charge la fonctionnalité de conversion des fichiers PDF aux formats Excel et CSV.

Aspose.PDF pour Python via Java est un composant de manipulation de PDF, nous avons introduit une fonctionnalité qui rend le fichier PDF en classeur Excel (fichiers XLSX). Pendant cette conversion, les pages individuelles du fichier PDF sont converties en feuilles de calcul Excel.

Le code suivant montre le processus de conversion d’un fichier PDF en format XLS ou XLSX avec Aspose.PDF pour Python via Java.

Étapes : Convertir PDF en XLS en Python

  1. Créez une instance de l’objet Document avec le document PDF source.
  2. Créez une instance de ExcelSaveOptions.
  3. Enregistrez-le au format XLS en spécifiant l’extension .xls en appelant la méthode Document.Save() et en lui passant ExcelSaveOptions.



from asposepdf import Api


# initialiser la licence
documentName = "testdata/license/Aspose.PDF.PythonviaJava.lic"
licenseObject = Api.License()
licenseObject.setLicense(documentName)

# conversion à partir d'un tableau d'octets
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result1.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)

# conversion à partir d'un fichier
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result2.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)


# conversion à partir d'un tableau d'octets
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result3.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

# conversion à partir d'un fichier
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result4.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

Étapes : Convertir PDF en XLSX en Python

  1. Créez une instance de l’objet Document avec le document PDF source.
  2. Créez une instance de ExcelSaveOptions.
  3. Enregistrez-le au format XLSX en spécifiant l’extension .xlsx en appelant la méthode Document.Save() et en lui passant ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
doc.save(documentOutName, save_option)

Convertir PDF en XLS avec contrôle de colonne

Lors de la conversion d’un PDF en format XLS, une colonne vide est ajoutée au fichier de sortie comme première colonne. Le ‘option InsertBlankColumnAtFirst’ dans la classe ‘ExcelSaveOptions’ est utilisée pour contrôler cette colonne. Sa valeur par défaut est true.


from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._insertBlankColumnAtFirst = True
doc.save(documentOutName, save_option)

Convertir un PDF en une seule feuille de calcul Excel

Lors de l’exportation d’un fichier PDF avec beaucoup de pages en XLS, chaque page est exportée vers une feuille différente dans le fichier Excel. Cela est dû au fait que la propriété MinimizeTheNumberOfWorksheets est définie sur false par défaut. Pour s’assurer que toutes les pages sont exportées vers une seule feuille dans le fichier Excel de sortie, définissez la propriété MinimizeTheNumberOfWorksheets sur true.

Étapes : Convertir un PDF en une seule feuille de calcul XLS ou XLSX en Python

  1. Créez une instance de l’objet Document avec le document PDF source.
  2. Créez une instance de ExcelSaveOptions avec MinimizeTheNumberOfWorksheets = True.
  3. Enregistrez-le au format XLS ou XLSX ayant une seule feuille de calcul en appelant la méthode Document.Save() et en lui passant ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._minimizeTheNumberOfWorksheets = True
# Enregistrez le fichier au format MS Excel
doc.save(documentOutName, save_option)

Convertir vers d’autres formats de feuille de calcul

Convertir en CSV

La conversion au format CSV s’effectue de la même manière que ci-dessus. Tout ce dont vous avez besoin - définir le format approprié.

Étapes : Convertir un PDF en CSV en Python

  1. Créez une instance de l’objet Document avec le document PDF source.
  2. Créez une instance de ExcelSaveOptions avec Format = ExcelSaveOptions.ExcelFormat.CSV
  3. Enregistrez-le au format CSV en appelant la méthode Document.Save() et en lui passant ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.csv"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.CSV
doc.save(documentOutName, save_option)

Convertir en ODS

Étapes : Convertir PDF en ODS en Python

  1. Créez une instance de l’objet Document avec le document PDF source.
  2. Créez une instance de ExcelSaveOptions avec Format = ExcelSaveOptions.ExcelFormat.ODS
  3. Enregistrez-le au format ODS en appelant la méthode Document.Save() et en passant ExcelSaveOptions.

La conversion au format ODS s’effectue de la même manière que tous les autres formats.


from asposepdf import Api

documentName = "../../testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "../../testout/result1.ods"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.ODS
doc.save(documentOutName, save_option)

Voir Aussi

Cet article couvre également ces sujets. Les codes sont identiques à ceux ci-dessus.

Format: Excel

Format: XLS

Format: XLSX

Format: CSV

Format: ODS