Mengonversi PDF ke Dokumen Microsoft Word di .NET

Ikhtisar

Artikel ini menjelaskan cara mengonversi PDF ke Dokumen Microsoft Word menggunakan C#. Ini mencakup topik-topik berikut.

Format: DOC

Format: DOCX

Format: Word

Potongan kode berikut juga bekerja dengan pustaka Aspose.PDF.Drawing.

Konversi PDF ke DOC dan DOCX

Salah satu fitur paling populer adalah konversi PDF ke Microsoft Word DOC, yang membuat manajemen konten menjadi lebih mudah. Aspose.PDF for .NET memungkinkan Anda untuk mengonversi file PDF ke format DOC dan DOCX dengan cepat dan efisien.

Mengonversi PDF ke file DOC (Microsoft Word 97-2003)

Mengonversi file PDF ke format DOC dengan mudah dan kontrol penuh. Aspose.PDF for .NET fleksibel dan mendukung berbagai konversi. Mengonversi halaman dari dokumen PDF ke gambar, misalnya, adalah fitur yang sangat populer.

Banyak pelanggan kami telah meminta konversi dari PDF ke DOC: mengonversi file PDF ke dokumen Microsoft Word. Pelanggan menginginkan ini karena file PDF tidak dapat diedit dengan mudah, sedangkan dokumen Word dapat. Beberapa perusahaan ingin pengguna mereka dapat memanipulasi teks, tabel, dan gambar dalam file yang berasal dari PDF.

Dengan mempertahankan tradisi membuat hal-hal sederhana dan dapat dipahami, Aspose.PDF for .NET memungkinkan Anda untuk mengubah file PDF sumber menjadi file DOC dengan dua baris kode. Untuk mencapai fitur ini, kami telah memperkenalkan enumerasi bernama SaveFormat dan nilainya .Doc memungkinkan Anda menyimpan file sumber ke format Microsoft Word.

Potongan kode C# berikut menunjukkan cara mengonversi file PDF menjadi format DOC.

Langkah: Mengonversi PDF ke DOC di C#

  1. Buat instance objek Document dengan dokumen PDF sumber.
  2. Simpan ke format SaveFormat.Doc dengan memanggil metode Document.Save().
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoWord()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    usnig (var document = new Aspose.Pdf.Document(dataDir + "PDFToDOC.pdf"))
    {
        // Save the file into MS document format
        document.Save(dataDir + "PDFToDOC_out.doc", SaveFormat.Doc);
    }
}

Menggunakan Kelas DocSaveOptions

Kelas DocSaveOptions menyediakan banyak properti yang meningkatkan konversi file PDF ke format DOC. Di antara properti ini, Mode memungkinkan Anda untuk menentukan mode pengenalan untuk konten PDF. Anda dapat memilih nilai apa pun dari enumerasi RecognitionMode untuk properti ini. Setiap nilai ini memiliki manfaat dan batasan tertentu:

  • Mode Textbox cepat dan baik untuk mempertahankan tampilan asli file PDF, tetapi kemampuan edit dokumen yang dihasilkan bisa terbatas. Setiap blok teks yang dikelompokkan secara visual dalam PDF asli diubah menjadi kotak teks dalam dokumen keluaran. Ini mencapai kemiripan maksimal dengan yang asli, sehingga dokumen keluaran terlihat baik, tetapi sepenuhnya terdiri dari kotak teks, yang dapat diedit di Microsoft Word, yang cukup menantang.
  • Flow adalah mode pengenalan penuh, di mana mesin melakukan pengelompokan dan analisis multi-level untuk mengembalikan dokumen asli sesuai dengan niat penulis sambil menghasilkan dokumen yang mudah diedit. Batasannya adalah dokumen keluaran mungkin terlihat berbeda dari yang asli.

Properti RelativeHorizontalProximity dapat digunakan untuk mengontrol kedekatan relatif antara elemen teks. Ini berarti bahwa jarak dinormalkan berdasarkan ukuran font. Font yang lebih besar mungkin memiliki ruang yang lebih besar antara suku kata dan masih dianggap sebagai satu kesatuan. Ini ditentukan sebagai persentase dari ukuran font; misalnya, 1 = 100%. Ini berarti bahwa dua karakter 12pt yang ditempatkan 12 pt terpisah adalah proximal.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoWordDocAdvanced()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDF-to-DOC.pdf"))
    {
        var saveOptions = new Aspose.Pdf.DocSaveOptions
        {
            // Set format to save MS document
            Format = Aspose.Pdf.DocSaveOptions.DocFormat.Doc,
            // Set the recognition mode as Flow
            Mode = Aspose.Pdf.DocSaveOptions.RecognitionMode.Flow,
            // Set the Horizontal proximity as 2.5
            RelativeHorizontalProximity = 2.5f,
            // Enable the value to recognize bullets during the conversion process
            RecognizeBullets = true
        };
        // Save the file into MS document with save options
        document.Save(dataDir + "PDFtoDOC_out.doc", saveOptions);
    }
}

Mengonversi PDF ke file DOCX (Microsoft Word 2007-2024)

API Aspose.PDF for .NET memungkinkan Anda membaca dan mengonversi dokumen PDF ke DOCX menggunakan C# dan bahasa .NET lainnya. DOCX adalah format yang dikenal untuk dokumen Microsoft Word yang strukturnya diubah dari biner biasa menjadi kombinasi file XML dan biner. File Docx dapat dibuka dengan Word 2007 dan versi yang lebih baru tetapi tidak dengan versi MS Word yang lebih lama, yang mendukung ekstensi file DOC.

Potongan kode C# berikut menunjukkan cara mengonversi file PDF menjadi format DOCX.

Langkah: Mengonversi PDF ke DOCX di C#

  1. Buat instance objek Document dengan dokumen PDF sumber.
  2. Simpan ke format SaveFormat.DocX dengan memanggil metode Document.Save().
// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoWord_DOCX_Format()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToDOC.pdf"))
    {
        // Save the file into MS document format
        document.Save(dataDir + "PDFtoDOC_out.docx", SaveFormat.DocX);
    }
}

Mengonversi PDF ke DOCX dalam Mode Ditingkatkan

Untuk mendapatkan hasil yang lebih baik dari konversi PDF ke DOCX, Anda dapat menggunakan mode EnhancedFlow. Perbedaan utama antara Flow dan Enhanced Flow adalah bahwa tabel (baik dengan maupun tanpa batas) dikenali sebagai tabel nyata, bukan sebagai teks dengan gambar di latar belakang. Ada juga pengenalan daftar bernomor dan banyak hal kecil lainnya.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoWord_Advanced_DOCX_Format()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();
    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToDOC.pdf"))
    {
        // Instantiate DocSaveOptions object
        DocSaveOptions saveOptions = new Aspose.Pdf.DocSaveOptions
        {
            // Set format to save MS document
            Format = Aspose.Pdf.DocSaveOptions.DocFormat.DocX,
            // Set the recognition mode as EnhancedFlow
            Mode = Aspose.Pdf.DocSaveOptions.RecognitionMode.EnhancedFlow
        };

        // Save the file into MS document format
        document.Save(dataDir + "PDFToDOC_out.docx", saveOptions);
    }
}

Lihat Juga

Artikel ini juga mencakup topik-topik berikut. Kode-kode sama seperti di atas.

Format: Word

Format: DOC

Format: DOCX