Mengonversi PDF ke Dokumen Microsoft Word dalam Python

Ikhtisar

Artikel ini menjelaskan bagaimana mengonversi PDF ke Dokumen Microsoft Word menggunakan Python. Artikel ini mencakup topik-topik berikut.

Format: DOC

Format: DOCX

Format: Word

Konversi PDF ke DOC dan DOCX dengan Python

Salah satu fitur paling populer adalah konversi PDF ke Microsoft Word DOC, yang memudahkan pengelolaan konten. Aspose.PDF untuk Python memungkinkan Anda mengkonversi file PDF tidak hanya ke DOC tetapi juga ke format DOCX, dengan mudah dan efisien.

Konversi PDF ke file DOC (Word 97-2003)

Konversi file PDF ke format DOC dengan mudah dan kendali penuh. Aspose.PDF untuk Python fleksibel dan mendukung berbagai macam konversi. Konversi halaman dari dokumen PDF ke gambar, misalnya, adalah fitur yang sangat populer.

Sebuah konversi yang banyak diminta oleh pelanggan kami adalah PDF ke DOC: mengkonversi file PDF menjadi dokumen Microsoft Word. Pelanggan menginginkan ini karena file PDF tidak dapat dengan mudah diedit, sedangkan dokumen Word dapat. Beberapa perusahaan ingin pengguna mereka dapat memanipulasi teks, tabel, dan gambar dalam file yang awalnya berupa PDF.

Menjaga tradisi membuat segala sesuatu menjadi sederhana dan mudah dimengerti, Aspose.PDF untuk Python memungkinkan Anda mengubah file PDF sumber menjadi file DOC dengan dua baris kode. Untuk mencapai fitur ini, kami telah memperkenalkan enumerasi bernama SaveFormat dan nilainya .Doc memungkinkan Anda menyimpan file sumber ke format Microsoft Word.

Cuplikan kode Python berikut menunjukkan proses mengonversi file PDF menjadi format DOC.

Langkah-langkah: Konversi PDF ke DOC dalam Python

  1. Buat instance objek Document dengan dokumen PDF sumber.
  2. Simpan ke format SaveFormat dengan memanggil metode save().

    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc.doc"
    # Buka dokumen PDF
    document = ap.Document(input_pdf)
    # Simpan file ke dalam format dokumen MS Word
    document.save(output_pdf, ap.SaveFormat.DOC)

Menggunakan Kelas DocSaveOptions

Kelas DocSaveOptions menyediakan banyak properti yang meningkatkan proses konversi file PDF ke format DOC. Di antara properti-properti ini, Mode memungkinkan Anda untuk menentukan mode pengenalan untuk konten PDF. Anda dapat menentukan nilai apa pun dari enumerasi RecognitionMode untuk properti ini. Masing-masing nilai ini memiliki manfaat dan keterbatasan tertentu:


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
    # Buka dokumen PDF
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC
    # Atur mode pengenalan sebagai Flow
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # Atur kedekatan horizontal sebagai 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Aktifkan nilai untuk mengenali bullet selama proses konversi
    save_options.recognize_bullets = True

    # Simpan file ke dalam format dokumen MS Word
    document.save(output_pdf, save_options)

Konversi PDF ke DOCX

Aspose.PDF untuk Python API memungkinkan Anda membaca dan mengonversi dokumen PDF ke DOCX menggunakan Python via .NET. DOCX adalah format terkenal untuk dokumen Microsoft Word yang strukturnya diubah dari biner biasa menjadi kombinasi file XML dan biner. File DOCX dapat dibuka dengan Word 2007 dan versi lateral tetapi tidak dengan versi MS Word sebelumnya yang mendukung ekstensi file DOC.

Cuplikan kode Python berikut menunjukkan proses konversi file PDF menjadi format DOCX.

Langkah-langkah: Konversi PDF ke DOCX dalam Python

  1. Buat instance objek Document dengan dokumen PDF sumber.

  2. Simpan ke format SaveFormat dengan memanggil metode save().


    import aspose.pdf as ap

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf = DIR_OUTPUT + "convert_pdf_to_docx_options.docx"
    # Buka dokumen PDF
    document = ap.Document(input_pdf)

    save_options = ap.DocSaveOptions()
    save_options.format = ap.DocSaveOptions.DocFormat.DOC_X
    # Atur mode pengenalan sebagai Flow
    save_options.mode = ap.DocSaveOptions.RecognitionMode.FLOW
    # Atur kedekatan horizontal sebagai 2.5
    save_options.relative_horizontal_proximity = 2.5
    # Aktifkan nilai untuk mengenali peluru selama proses konversi
    save_options.recognize_bullets = True

    # Simpan file ke dalam format dokumen MS Word
    document.save(output_pdf, save_options)

Kelas DocSaveOptions memiliki properti bernama Format yang menyediakan kemampuan untuk menentukan format dokumen hasil, yaitu DOC atau DOCX. Untuk mengonversi file PDF ke format DOCX, harap lewati nilai Docx dari enumerasi DocSaveOptions.DocFormat.

Lihat Juga

Artikel ini juga mencakup topik-topik ini. Kode-kodenya sama seperti di atas.

Format: Word

Format: DOCX