Mengonversi PDF ke Dokumen Microsoft Word dalam Python

Gambaran Umum

Artikel ini menjelaskan cara mengonversi PDF ke Dokumen Microsoft Word menggunakan Python. Ini mencakup topik-topik berikut.

Format: DOC

Format: DOCX

Format: Word

Konversi PDF ke DOC dan DOCX Python

Salah satu fitur paling populer adalah konversi PDF ke Microsoft Word DOC, yang memudahkan pengelolaan konten. Aspose.PDF untuk Python memungkinkan Anda mengkonversi file PDF tidak hanya ke DOC tetapi juga ke format DOCX, dengan mudah dan efisien.

Konversi PDF ke file DOC (Word 97-2003)

Konversi file PDF ke format DOC dengan mudah dan kontrol penuh. Aspose.PDF untuk Python adalah fleksibel dan mendukung berbagai macam konversi. Mengonversi halaman dari dokumen PDF ke gambar, misalnya, adalah fitur yang sangat populer.

Salah satu konversi yang banyak diminta oleh pelanggan kami adalah PDF ke DOC: mengonversi file PDF ke dokumen Microsoft Word. Pelanggan menginginkan ini karena file PDF tidak dapat dengan mudah diedit, sedangkan dokumen Word dapat. Beberapa perusahaan menginginkan agar pengguna mereka dapat memanipulasi teks, tabel, dan gambar dalam file yang dimulai sebagai PDF.

Menjaga tradisi membuat segala sesuatu menjadi sederhana dan dapat dipahami, Aspose.PDF untuk Python memungkinkan Anda mengubah file PDF sumber menjadi file DOC dengan dua baris kode. Untuk menyelesaikan fitur ini, kami telah memperkenalkan enumerasi bernama SaveFormat dan nilainya .Doc memungkinkan Anda menyimpan file sumber ke format Microsoft Word.

Cuplikan kode Python berikut menunjukkan proses mengonversi file PDF ke format DOC.

Langkah-langkah: Mengonversi PDF ke DOC dalam Python

  1. Buat instance objek Document dengan dokumen PDF sumber.
  2. Simpan ke format SaveFormat.Doc dengan memanggil metode Document.Save().

from asposepdf import Api

documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)

Menggunakan Kelas DocSaveOptions

Kelas DocSaveOptions menyediakan berbagai properti yang meningkatkan proses konversi file PDF ke format DOC. Di antara properti ini, Mode memungkinkan Anda untuk menentukan mode pengenalan untuk konten PDF. Anda dapat menentukan nilai apa pun dari enumerasi RecognitionMode untuk properti ini. Masing-masing nilai ini memiliki manfaat dan keterbatasan spesifik:


from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# Buka dokumen PDF
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# Atur mode pengenalan sebagai Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Atur kedekatan Horizontal sebagai 2.5
save_options.relative_horizontal_proximity = 2.5
# Aktifkan nilai untuk mengenali bullet selama proses konversi
save_options.recognize_bullets = True

# Simpan file ke format dokumen MS Word
document.save(output_pdf, save_options)

Mengkonversi PDF ke DOCX

Aspose.PDF untuk API Python memungkinkan Anda membaca dan mengkonversi dokumen PDF ke DOCX menggunakan Python via .NET. DOCX adalah format yang terkenal untuk dokumen Microsoft Word yang strukturnya diubah dari biner biasa menjadi kombinasi file XML dan biner. File Docx dapat dibuka dengan Word 2007 dan versi lateral tetapi tidak dengan versi MS Word sebelumnya yang mendukung ekstensi file DOC.

Cuplikan kode Python berikut menunjukkan proses mengkonversi file PDF menjadi format DOCX.

Langkah-langkah: Mengkonversi PDF ke DOCX dalam Python

  1. Buat instance objek Document dengan dokumen PDF sumber.

  2. Simpan ke format SaveFormat.DocX dengan memanggil metode Document.Save().



from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# Buka dokumen PDF
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# Atur mode pengenalan sebagai Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# Atur kedekatan horizontal sebagai 2.5
save_options.relative_horizontal_proximity = 2.5
# Aktifkan nilai untuk mengenali bullet selama proses konversi
save_options.recognize_bullets = True

# Simpan file ke dalam format dokumen MS Word
document.save(output_pdf, save_options)

Kelas DocSaveOptions memiliki properti bernama Format yang menyediakan kemampuan untuk menentukan format dokumen hasil, yaitu, DOC atau DOCX. Untuk mengonversi file PDF ke format DOCX, silakan gunakan nilai Docx dari enumerasi DocSaveOptions.DocFormat.

Lihat Juga

Artikel ini juga mencakup topik-topik ini. Kodenya sama seperti di atas.

Format: Word

Format: DOCX