Mengonversi PDF ke Excel di Python

Ikhtisar

Artikel ini menjelaskan cara mengonversi PDF ke format Excel menggunakan Python. Ini mencakup topik berikut.

Format: XLS

Format: XLSX

Format: Excel

Format: CSV

Format: ODS

Konversi PDF ke EXCEL melalui Python

Aspose.PDF untuk Python melalui .NET mendukung fitur mengonversi file PDF ke Excel, dan format CSV.

Aspose.PDF untuk Python melalui Java adalah komponen manipulasi PDF, kami telah memperkenalkan fitur yang merender file PDF ke buku kerja Excel (file XLSX). Selama konversi ini, halaman individu dari file PDF diubah menjadi lembar kerja Excel.

Cuplikan kode berikut menunjukkan proses konversi file PDF ke format XLS atau XLSX dengan Aspose.PDF untuk Python via Java.

Langkah-langkah: Mengonversi PDF ke XLS di Python

  1. Buat instance objek Document dengan dokumen PDF sumber.
  2. Buat instance ExcelSaveOptions.
  3. Simpan ke format XLS dengan menentukan ekstensi .xls dengan memanggil metode Document.Save() dan melewatkan ExcelSaveOptions.



from asposepdf import Api


# inisialisasi lisensi
documentName = "testdata/license/Aspose.PDF.PythonviaJava.lic"
licenseObject = Api.License()
licenseObject.setLicense(documentName)

# konversi dari array byte
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result1.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)

# konversi dari file
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result2.xls"
doc.save(documentOutName, Api.SaveFormat.Excel)


# konversi dari array byte
documentName = "testdata/source.pdf"
with open(documentName, "rb") as file:
    byte_array = file.read()
doc = Api.Document(byte_array)
documentOutName = "testout/result3.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

# konversi dari file
documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result4.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
doc.save(documentOutName, Api.SaveFormat.Excel)

Langkah-langkah: Mengonversi PDF ke XLSX dalam Python

  1. Buat instance dari objek Document dengan dokumen PDF sumber.
  2. Buat instance dari ExcelSaveOptions.
  3. Simpan ke format XLSX dengan menentukan ekstensi .xlsx dengan memanggil metode Document.Save() dan meneruskannya ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
doc.save(documentOutName, save_option)

Konversi PDF ke XLS dengan kontrol Kolom

Saat mengonversi PDF ke format XLS, kolom kosong ditambahkan ke file keluaran sebagai kolom pertama. Opsi InsertBlankColumnAtFirst dalam ‘kelas ExcelSaveOptions’ digunakan untuk mengontrol kolom ini. Nilai defaultnya adalah true.


from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xlsx"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._insertBlankColumnAtFirst = True
doc.save(documentOutName, save_option)

Konversi PDF ke Satu Lembar Kerja Excel

Saat mengekspor file PDF dengan banyak halaman ke XLS, setiap halaman diekspor ke lembar yang berbeda dalam file Excel. Ini karena properti MinimizeTheNumberOfWorksheets diatur ke false secara default. Untuk memastikan bahwa semua halaman diekspor ke satu lembar dalam file Excel keluaran, atur properti MinimizeTheNumberOfWorksheets ke true.

Langkah-langkah: Konversi PDF ke Lembar Kerja XLS atau XLSX Tunggal di Python

  1. Buat sebuah instance dari objek Document dengan dokumen PDF sumber.
  2. Buat sebuah instance dari ExcelSaveOptions dengan MinimizeTheNumberOfWorksheets = True.
  3. Simpan ke format XLS atau XLSX dengan lembar kerja tunggal dengan memanggil metode Document.Save() dan melewatkannya ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.xls"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.XMLSpreadSheet2003
save_option._minimizeTheNumberOfWorksheets = True
# Simpan file ke dalam format MS Excel
doc.save(documentOutName, save_option)

Konversi ke format spreadsheet lainnya

Konversi ke CSV

Konversi ke format CSV dilakukan dengan cara yang sama seperti di atas. Yang perlu Anda lakukan - tetapkan format yang sesuai.

Langkah-langkah: Konversi PDF ke CSV di Python

  1. Buat instance objek Document dengan dokumen PDF sumber.
  2. Buat instance dari ExcelSaveOptions dengan Format = ExcelSaveOptions.ExcelFormat.CSV
  3. Simpan ke format CSV dengan memanggil metode Document.Save() dan melewatkannya ExcelSaveOptions.

from asposepdf import Api

documentName = "testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/result.csv"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.CSV
doc.save(documentOutName, save_option)

Konversi ke ODS

Langkah-langkah: Konversi PDF ke ODS di Python

  1. Buat instance dari objek Document dengan dokumen PDF sumber.
  2. Buat instance dari ExcelSaveOptions dengan Format = ExcelSaveOptions.ExcelFormat.ODS
  3. Simpan ke format ODS dengan memanggil metode Document.Save() dan meneruskannya ExcelSaveOptions.

Konversi ke format ODS dilakukan dengan cara yang sama seperti semua format lainnya.


from asposepdf import Api

documentName = "../../testdata/source.pdf"
doc = Api.Document(documentName)
documentOutName = "../../testout/result1.ods"
save_option = Api.ExcelSaveOptions()
save_option._format = Api.ExcelSaveOptions.ExcelFormat.ODS
doc.save(documentOutName, save_option)

Lihat Juga

Artikel ini juga mencakup topik-topik ini. Kode-kodenya sama seperti di atas.

Format: Excel

Format: XLS

Format: XLSX

Format: CSV

Format: ODS