Extract Text from PDF File

Contents
[ ]

Dalam artikel ini, kita akan melihat detail tentang cara mengekstrak teks dari file PDF. Semua fitur ekstraksi ini disediakan di satu tempat, dalam kelas PdfExtractor. Kita akan melihat bagaimana menggunakan fitur-fitur ini dalam kode kita.

Kelas PdfExtractor menyediakan tiga jenis kemampuan ekstraksi. Ketiga kategori ini adalah Teks, Gambar, dan Lampiran. Untuk melakukan ekstraksi di bawah masing-masing dari ketiga kategori ini, PdfExtractor menyediakan berbagai metode yang bekerja sama untuk memberikan output akhir kepada Anda.

Sebagai contoh, untuk mengekstrak teks Anda dapat menggunakan tiga metode yaitu. ExtractText, GetText, HasNextPageText dan GetNextPageText.


```csharp
public static void ExtractText()
{
    bool WholeText = true;
    // Membuat objek dari kelas PdfExtractor
    PdfExtractor pdfExtractor = new PdfExtractor();

    // Mengikat PDF input
    pdfExtractor.BindPdf(_dataDir + "sample.pdf");

    // ExtractText
    pdfExtractor.ExtractText();

    if (!WholeText)
    {
        pdfExtractor.GetText(_dataDir + "sample.txt");
    }
    else
    {
        // Mengekstrak teks ke dalam file terpisah
        int pageNumber = 1;
        while (pdfExtractor.HasNextPageText())
        {
            pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
            pageNumber++;
        }
    }
}

Untuk Mengekstrak Mode Ekstraksi Teks gunakan kode berikut:

public static void ExtractTextExtractonMode()
{
    bool WholeText = true;
    // Buat objek dari kelas PdfExtractor
    PdfExtractor pdfExtractor = new PdfExtractor();

    // Mengikat PDF input
    pdfExtractor.BindPdf(_dataDir + "sample.pdf");

    // EkstraksiTeks
    // pdfExtractor.ExtractTextMode = 0; //mode murni
    pdfExtractor.ExtractTextMode = 1; //mode mentah
    pdfExtractor.ExtractText();


    if (!WholeText)
    {
        pdfExtractor.GetText(_dataDir + "sample.txt");
    }
    else
    {
        // Mengekstrak teks ke dalam file terpisah
        int pageNumber = 1;
        while (pdfExtractor.HasNextPageText())
        {
            pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
            pageNumber++;
        }
    }
}