Extract Text from PDF File
Contents
[
Hide
]
Dalam artikel ini, kita akan melihat detail tentang cara mengekstrak teks dari file PDF. Semua fitur ekstraksi ini disediakan di satu tempat, dalam kelas PdfExtractor. Kita akan melihat bagaimana menggunakan fitur-fitur ini dalam kode kita.
Kelas PdfExtractor menyediakan tiga jenis kemampuan ekstraksi. Ketiga kategori ini adalah Teks, Gambar, dan Lampiran. Untuk melakukan ekstraksi di bawah masing-masing dari ketiga kategori ini, PdfExtractor menyediakan berbagai metode yang bekerja sama untuk memberikan output akhir kepada Anda.
Sebagai contoh, untuk mengekstrak teks Anda dapat menggunakan tiga metode yaitu. ExtractText, GetText, HasNextPageText dan GetNextPageText.
```csharp
public static void ExtractText()
{
bool WholeText = true;
// Membuat objek dari kelas PdfExtractor
PdfExtractor pdfExtractor = new PdfExtractor();
// Mengikat PDF input
pdfExtractor.BindPdf(_dataDir + "sample.pdf");
// ExtractText
pdfExtractor.ExtractText();
if (!WholeText)
{
pdfExtractor.GetText(_dataDir + "sample.txt");
}
else
{
// Mengekstrak teks ke dalam file terpisah
int pageNumber = 1;
while (pdfExtractor.HasNextPageText())
{
pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
pageNumber++;
}
}
}
Untuk Mengekstrak Mode Ekstraksi Teks gunakan kode berikut:
public static void ExtractTextExtractonMode()
{
bool WholeText = true;
// Buat objek dari kelas PdfExtractor
PdfExtractor pdfExtractor = new PdfExtractor();
// Mengikat PDF input
pdfExtractor.BindPdf(_dataDir + "sample.pdf");
// EkstraksiTeks
// pdfExtractor.ExtractTextMode = 0; //mode murni
pdfExtractor.ExtractTextMode = 1; //mode mentah
pdfExtractor.ExtractText();
if (!WholeText)
{
pdfExtractor.GetText(_dataDir + "sample.txt");
}
else
{
// Mengekstrak teks ke dalam file terpisah
int pageNumber = 1;
while (pdfExtractor.HasNextPageText())
{
pdfExtractor.GetNextPageText($"{_dataDir}\\sample{pageNumber:D3}.txt");
pageNumber++;
}
}
}