Mengonversi PDF ke Dokumen Microsoft Word dalam .NET

Overview

Artikel ini menjelaskan cara mengonversi PDF ke Dokumen Microsoft Word menggunakan C#. Topik-topik yang dibahas adalah sebagai berikut.

Format: DOC

Format: DOCX

Format: Word

Potongan kode berikut juga berfungsi dengan pustaka Aspose.PDF.Drawing. Potongan kode berikut ini juga bekerja dengan perpustakaan Aspose.PDF.Drawing.

Konversi PDF ke DOC dan DOCX

Salah satu fitur yang paling populer adalah konversi PDF ke Microsoft Word DOC, yang membuat pengelolaan konten menjadi lebih mudah. Aspose.PDF for .NET memungkinkan Anda untuk mengonversi file PDF ke format DOC dan DOCX dengan cepat dan efisien.

Konversi PDF ke DOC (file Microsoft Word 97-2003)

Konversikan file PDF ke format DOC dengan mudah dan kontrol penuh. Aspose.PDF for .NET sangat fleksibel dan mendukung berbagai macam konversi. Mengonversi halaman dari dokumen PDF ke gambar, misalnya, adalah fitur yang sangat populer.

Banyak pelanggan kami telah meminta konversi dari PDF ke DOC: mengonversi file PDF menjadi dokumen Microsoft Word. Pelanggan menginginkan ini karena file PDF tidak mudah untuk diedit, sedangkan dokumen Word dapat. Beberapa perusahaan ingin penggunanya dapat memanipulasi teks, tabel, dan gambar dalam file yang awalnya adalah PDF.

Mempertahankan tradisi membuat segala sesuatu menjadi sederhana dan mudah dipahami, Aspose.PDF for .NET memungkinkan Anda mengubah file PDF sumber menjadi file DOC dengan dua baris kode. Memelihara tradisi membuat segalanya menjadi sederhana dan mudah dimengerti, Aspose.PDF untuk .NET memungkinkan Anda mengubah file PDF sumber menjadi file DOC hanya dengan dua baris kode.

Potongan kode C# berikut menunjukkan cara mengonversi file PDF ke format DOC.

Langkah: Mengonversi PDF ke DOC dalam C#

  1. Buat sebuah instance dari objek Document dengan dokumen PDF sumber.
  2. Simpan ke format SaveFormat.Doc dengan memanggil metode Document.Save().
public static void ConvertPDFtoWord()
{
    // Buka dokumen PDF sumber
    Document pdfDocument = new Document(_dataDir + "PDFToDOC.pdf");
    // Simpan file ke format dokumen MS
    pdfDocument.Save(_dataDir + "PDFToDOC_out.doc", SaveFormat.Doc);

}

Menggunakan Kelas DocSaveOptions

Kelas DocSaveOptions menyediakan banyak properti yang meningkatkan konversi file PDF ke format DOC. Kelas DocSaveOptions menyediakan berbagai properti yang meningkatkan konversi file PDF ke format DOC.

  • Mode Textbox cepat dan baik untuk mempertahankan tampilan asli dari file PDF, namun kemampuan edit dokumen hasilnya bisa terbatas. Setiap blok teks yang secara visual dikelompokkan dalam PDF asli dikonversi menjadi kotak teks dalam dokumen hasil. Ini mencapai kemiripan maksimal dengan asli, sehingga dokumen hasil terlihat bagus, tetapi seluruhnya terdiri dari kotak teks, yang bisa diedit di Microsoft Word, yang cukup menantang.
  • Mode Flow adalah mode pengenalan penuh, di mana mesin melakukan pengelompokan dan analisis multi-level untuk mengembalikan dokumen asli sesuai dengan maksud penulis sambil menghasilkan dokumen yang mudah diedit.
  • Flow adalah mode pengenalan penuh, di mana mesin melakukan pengelompokan dan analisis multi-level untuk mengembalikan dokumen asli sesuai dengan maksud penulis sambil menghasilkan dokumen yang mudah diedit.

Properti RelativeHorizontalProximity dapat digunakan untuk mengontrol kedekatan relatif antara elemen teks. Ini berarti bahwa jarak dinormalkan oleh ukuran font. Font yang lebih besar mungkin memiliki spasi yang lebih besar antara suku kata dan masih dianggap sebagai satu kesatuan. Ini ditentukan sebagai persentase dari ukuran font; misalnya, 1 = 100%. Ini berarti dua karakter 12pt yang ditempatkan 12 pt terpisah adalah berdekatan.

public static void ConvertPDFtoWordDocAdvanced()
{
    var pdfFile = Path.Combine(_dataDir, "PDF-to-DOC.pdf");
    var docFile = Path.Combine(_dataDir, "PDF-to-DOC.doc");
    Document pdfDocument = new Document(pdfFile);
    DocSaveOptions saveOptions = new DocSaveOptions
    {
        Format = DocSaveOptions.DocFormat.Doc,
        // Atur mode pengenalan sebagai Flow
        Mode = DocSaveOptions.RecognitionMode.Flow,
        // Atur kedekatan Horizontal sebagai 2.5
        RelativeHorizontalProximity = 2.5f,
        // Aktifkan nilai untuk mengenali bullet selama proses konversi
        RecognizeBullets = true
    };
    pdfDocument.Save(docFile, saveOptions);
}

Konversi PDF ke DOCX (file Microsoft Word 2007-2021)

Aspose.PDF untuk API .NET memungkinkan Anda membaca dan mengonversi dokumen PDF ke DOCX menggunakan C# dan bahasa .NET lainnya. DOCX adalah format yang dikenal untuk dokumen Microsoft Word yang strukturnya diubah dari biner murni menjadi kombinasi file XML dan biner. File docx dapat dibuka dengan Word 2007 dan versi lebih baru tetapi tidak dengan versi sebelumnya dari MS Word, yang mendukung ekstensi file DOC.

Potongan kode C# berikut menunjukkan mengonversi file PDF ke format DOCX.

Langkah-langkah: Mengonversi PDF ke DOCX di C#

  1. Simpan dalam format SaveFormat.DocX dengan memanggil metode Document.Save().
public static void ConvertPDFtoWord_DOCX_Format()
{
    // Buka dokumen PDF sumber
    Document pdfDocument = new Document(_dataDir + "PDFToDOC.pdf");
    // Simpan file DOC hasil
    pdfDocument.Save(_dataDir + "saveOptionsOutput_out.doc", SaveFormat.DocX);
}

Konversi PDF ke DOCX dalam Mode Tingkat Lanjut

Untuk mendapatkan hasil yang lebih baik dari konversi PDF ke DOCX, Anda dapat menggunakan mode EnhancedFlow. Perbedaan utama antara Flow dan Enhanced Flow adalah bahwa tabel (baik dengan dan tanpa batas) dikenali sebagai tabel nyata, bukan sebagai teks dengan gambar di latar belakang. Ada juga pengenalan daftar bernomor dan banyak hal kecil lainnya.

public static void ConvertPDFtoWord_Advanced_DOCX_Format()
{    
    // Buka dokumen PDF sumber
    Document pdfDocument = new Document(_dataDir + "PDFToDOC.pdf");

    // Buat objek DocSaveOptions
    DocSaveOptions saveOptions = new DocSaveOptions
    {
        // Tentukan format keluaran sebagai DOCX
        Format = DocSaveOptions.DocFormat.DocX
        // Atur parameter DocSaveOptions lainnya
        Mode = DocSaveOptions.RecognitionMode.EnhancedFlow
    };
    // Simpan dokumen dalam format docx
    pdfDocument.Save("ConvertToDOCX_out.docx", saveOptions);
}

Lihat Juga

Artikel ini juga membahas topik-topik berikut. Kode-kodenya sama seperti di atas.

Format: Word

Format: DOC

Format: DOCX