Mengonversi PDF ke EPUB, LaTeX, Teks, XPS di C#

Mengonversi PDF ke EPUB

EPUB adalah standar e-book gratis dan terbuka dari International Digital Publishing Forum (IDPF). File memiliki ekstensi .epub. EPUB dirancang untuk konten yang dapat mengalir, yang berarti bahwa pembaca EPUB dapat mengoptimalkan teks untuk perangkat tampilan tertentu. EPUB juga mendukung konten dengan tata letak tetap. Format ini dimaksudkan sebagai satu format yang dapat digunakan penerbit dan rumah konversi secara internal, serta untuk distribusi dan penjualan. Ini menggantikan standar Open eBook.

Potongan kode berikut juga bekerja dengan pustaka Aspose.PDF.Drawing.

Aspose.PDF for .NET juga mendukung fitur untuk mengonversi dokumen PDF ke format EPUB. Aspose.PDF for .NET memiliki kelas bernama EpubSaveOptions yang dapat digunakan sebagai argumen kedua untuk metode Document.Save(..), untuk menghasilkan file EPUB. Silakan coba menggunakan potongan kode berikut untuk memenuhi kebutuhan ini dengan C#.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoEPUB()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToEPUB.pdf"))
    {
        // Instantiate Epub Save options
        EpubSaveOptions options = new EpubSaveOptions();
        // Specify the layout for contents
        options.ContentRecognitionMode = EpubSaveOptions.RecognitionMode.Flow;

        // Save ePUB document
        document.Save(dataDir + "PDFToEPUB_out.epub", options);
    }
}

Mengonversi PDF ke LaTeX/TeX

Aspose.PDF for .NET mendukung mengonversi PDF ke LaTeX/TeX. Format file LaTeX adalah format file teks dengan markup khusus dan digunakan dalam sistem persiapan dokumen berbasis TeX untuk penyetelan berkualitas tinggi.

Untuk mengonversi file PDF ke TeX, Aspose.PDF memiliki kelas LaTeXSaveOptions yang menyediakan properti OutDirectoryPath untuk menyimpan gambar sementara selama proses konversi.

Potongan kode berikut menunjukkan proses mengonversi file PDF menjadi format TEX dengan C#.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoTeX()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToTeX.pdf"))
    {
        // Instantiate LaTex save option          
        LaTeXSaveOptions saveOptions = new LaTeXSaveOptions();

        // Specify the output directory
        string pathToOutputDirectory = dataDir;

        // Set the output directory path for save option object
        saveOptions.OutDirectoryPath = pathToOutputDirectory;

        // Save PDF document into LaTex format           
        document.Save(dataDir + "PDFToTeX_out.tex", saveOptions);
    }
}

Mengonversi PDF ke Teks

Aspose.PDF for .NET mendukung mengonversi seluruh dokumen PDF dan halaman tunggal ke file Teks.

Mengonversi seluruh dokumen PDF ke file Teks

Anda dapat mengonversi dokumen PDF ke file TXT menggunakan metode Visit dari kelas TextAbsorber.

Potongan kode berikut menjelaskan cara mengekstrak teks dari semua halaman.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoTXT()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "demo.pdf"))
    {
        var ta = new Aspose.Pdf.Text.TextAbsorber();
        ta.Visit(document);

        // Save the extracted text in text file
        File.WriteAllText(dataDir + "input_Text_Extracted_out.txt",ta.Text);
    }
}

Mengonversi halaman PDF ke file teks

Anda dapat mengonversi dokumen PDF ke file TXT dengan Aspose.PDF for .NET. Anda harus menggunakan metode Visit dari kelas TextAbsorber untuk menyelesaikan tugas ini.

Potongan kode berikut menjelaskan cara mengekstrak teks dari halaman tertentu.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoTXT()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "demo.pdf"))
    {
        var ta = new Aspose.Pdf.Text.TextAbsorber();
        var pages = new [] {1, 3, 4};
        foreach (var page in pages)
        {
            ta.Visit(document.Pages[page]);
        }
    
        // Save the extracted text in text file
        File.WriteAllText(dataDir + "input_Text_Extracted_out.txt", ta.Text);
    }
}

Mengonversi PDF ke XPS

Aspose.PDF for .NET memberikan kemungkinan untuk mengonversi file PDF ke format XPS. Mari kita coba menggunakan potongan kode yang disajikan untuk mengonversi file PDF ke format XPS dengan C#.

Tipe file XPS terutama terkait dengan Spesifikasi Kertas XML oleh Microsoft Corporation. Spesifikasi Kertas XML (XPS), sebelumnya bernama Metro dan mencakup konsep pemasaran Jalur Cetak Generasi Berikutnya (NGPP), adalah inisiatif Microsoft untuk mengintegrasikan pembuatan dan tampilan dokumen ke dalam sistem operasi Windows.

Untuk mengonversi file PDF ke XPS, Aspose.PDF memiliki kelas XpsSaveOptions yang digunakan sebagai argumen kedua untuk metode Document.Save(..) untuk menghasilkan file XPS.

Sejak rilis 24.2, Aspose.PDF telah menerapkan konversi PDF yang Dapat Dicari ke XPS sambil menjaga Teks Dapat Dipilih di XPS yang dihasilkan. Untuk mempertahankan teks, perlu untuk mengatur properti XpsSaveOptions.SaveTransparentTexts ke true.

Potongan kode berikut menunjukkan proses mengonversi file PDF menjadi format XPS.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoXPS()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    using (var document = new Aspose.Pdf.Document(dataDir + "demo.pdf"))
    {
        var xpsOptions = new XpsSaveOptions
        {
            SaveTransparentTexts = true
        };

        // Save XPS document
        document.Save(dataDir + "PDFtoXPS_out.xps", xpsOptions);
    }
}

Mengonversi PDF ke Markdown

Aspose.PDF for .NET memberikan kemungkinan untuk mengonversi file PDF ke format MD. Mari kita coba menggunakan potongan kode yang disajikan untuk mengonversi file PDF ke format MD dengan C#.

Markdown adalah bahasa markup ringan yang dirancang untuk mewakili format teks biasa dengan maksimum keterbacaan manusia dan keterbacaan mesin untuk bahasa penerbitan yang lebih maju.

Optimalkan penggunaan gambar dengan konverter PDF ke Markdown

Anda dapat memperhatikan bahwa di direktori dengan gambar, jumlah gambar lebih sedikit daripada jumlah gambar dalam file PDF.

Karena file markdown tidak dapat mengatur ukuran gambar, tanpa opsi MarkdownSaveOptions.UseImageHtmlTag, jenis gambar yang sama dengan ukuran berbeda disimpan sebagai berbeda.

Untuk opsi yang diaktifkan MarkdownSaveOptions.UseImageHtmlTag akan menyimpan gambar unik, yang diskalakan dalam dokumen dengan tag img.

Kode membuka dokumen PDF, mengonfigurasi parameter untuk mengonversinya menjadi file Markdown (menyimpan gambar apa pun di folder bernama “images”), dan menyimpan file Markdown yang dihasilkan di jalur output yang ditentukan.

Potongan kode berikut menunjukkan proses mengonversi file PDF menjadi format MD.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ConvertPDFtoMarkup()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "demo.pdf"))
    {
        // Create an instance of MarkdownSaveOptions to configure the Markdown export settings
        var saveOptions = new MarkdownSaveOptions()
        {
            // Set to false to prevent the use of HTML <img> tags for images in the Markdown output
            UseImageHtmlTag = false
        }
        
        // Specify the directory name where resources (like images) will be stored
        saveOptions.ResourcesDirectoryName = "images";

        // Save PDF document in Markdown format to the specified output file path using the defined save options   
        document.Save(dataDir + "PDFtoMarkup_out.md", saveOptions);
    }
}

Mengonversi PDF ke MobiXml

MobiXML adalah format eBook populer, dirancang untuk digunakan di platform seluler. Potongan kode berikut menjelaskan cara mengonversi dokumen PDF ke file MobiXML.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET      
private static void ConvertPdfToMobiXml()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "PDFToXML.pdf"))
    {
        // Save PDF document in XML format
        document.Save(dataDir + "PDFToXML_out.xml", Aspose.Pdf.SaveFormat.MobiXml);
    }
}