Temukan apakah PDF berisi gambar atau teks
Contents
[
Hide
]
Latar Belakang
File PDF dapat berisi teks dan gambar. Terkadang, pengguna mungkin perlu mencari tahu apakah file PDF hanya berisi teks, atau hanya berisi gambar. Kita juga dapat menemukan apakah file tersebut berisi keduanya atau tidak sama sekali.
Cuplikan kode berikut menunjukkan kepada Anda cara memenuhi kebutuhan ini.
public static void CheckIfPdfContainsTextOrImages()
{
// Membuat objek memoryStream untuk menyimpan teks yang diekstraksi dari Dokumen
MemoryStream ms = new MemoryStream();
// Membuat objek PdfExtractor
PdfExtractor extractor = new PdfExtractor();
// Menghubungkan dokumen PDF input ke extractor
extractor.BindPdf(_dataDir + "FilledForm.pdf");
// Mengekstraksi teks dari dokumen PDF input
extractor.ExtractText();
// Menyimpan teks yang diekstraksi ke file teks
extractor.GetText(ms);
// Memeriksa apakah panjang MemoryStream lebih besar atau sama dengan 1
bool containsText = ms.Length >= 1;
// Mengekstraksi gambar dari dokumen PDF input
extractor.ExtractImage();
// Memanggil metode HasNextImage dalam loop while. Ketika gambar selesai, loop akan keluar
bool containsImage = extractor.HasNextImage();
// Sekarang mencari tahu apakah PDF ini hanya teks atau hanya gambar
if (containsText && !containsImage)
Console.WriteLine("PDF hanya berisi teks");
else if (!containsText && containsImage)
Console.WriteLine("PDF hanya berisi gambar");
else if (containsText && containsImage)
Console.WriteLine("PDF berisi teks dan gambar");
else if (!containsText && !containsImage)
Console.WriteLine("PDF tidak berisi teks maupun gambar");
}