Ekstrak Teks SuperScripts dan SubScripts dari PDF

Ekstrak Teks SuperScripts dan SubScripts

Mengekstrak teks dari dokumen PDF adalah hal yang umum. Namun, dalam teks tersebut, ketika diekstrak, SuperScripts dan SubScripts yang terkandung di dalamnya, yang khas untuk dokumen teknis dan artikel, mungkin tidak ditampilkan. SubScript atau SuperScript adalah karakter, angka, atau huruf yang ditempatkan di bawah atau di atas garis teks biasa. Biasanya lebih kecil dari sisa teks.

SubScripts dan SuperScripts paling sering digunakan dalam rumus, ekspresi matematis, dan spesifikasi senyawa kimia. Sangat sulit untuk mengeditnya ketika bisa ada banyak dari mereka dalam satu bagian teks. Dalam salah satu rilis terbaru, pustaka Aspose.PDF for .NET menambahkan dukungan untuk mengekstrak teks SuperScripts dan SubScripts dari PDF.

Gunakan kelas TextFragmentAbsorber dan Anda sudah bisa melakukan apa saja dengan teks yang ditemukan, yaitu, Anda bisa menggunakan seluruh teks. Cobalah cuplikan kode berikut:

Cuplikan kode berikut juga bekerja dengan pustaka Aspose.PDF.Drawing.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractSuperScriptsAndSubScripts()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "SuperScriptExample.pdf"))
    {
        // Create an absorber
        var absorber = new Aspose.Pdf.Text.TextFragmentAbsorber();
        document.Pages[1].Accept(absorber);
        using (StreamWriter writer = new StreamWriter(dataDir + "SuperScriptExample_out.txt"))
        {
            // Write the extracted text in text file
            writer.WriteLine(absorber.Text);
        }
    }
}

Atau gunakan TextFragments secara terpisah dan lakukan berbagai manipulasi dengan mereka, misalnya, urutkan berdasarkan koordinat atau berdasarkan ukuran.

Cuplikan kode berikut juga bekerja dengan pustaka Aspose.PDF.Drawing.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void ExtractSuperScriptsAndSubScriptsWithTextFragments()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "SuperScriptExample.pdf"))
    {
        // Create an absorber
        var absorber = new Aspose.Pdf.Text.TextFragmentAbsorber();
        document.Pages[1].Accept(absorber);
        using (StreamWriter writer = new StreamWriter(dataDir + "SuperScriptExample_out.txt"))
        {
            foreach (var textFragment in absorber.TextFragments)
            {
                // Write the extracted text in text file
                writer.Write(textFragment.Text);
            }

        }
    }
}