استخراج النص من PDF باستخدام OCR في C#

نظرة عامة

يقرأ استخراج النص العادي طبقة النص في مستند PDF. عندما تكون الصفحة صورة ممسوحة ضوئيًا أو لا تحتوي على نص قابل للتحديد، فإن فئات مثل TextFragmentAbsorber لا تُرجع أي شيء، لأنه لا يوجد نص لقراءته.

في هذه الحالات، يوفر Aspose.PDF for .NET فئة OcrTextAbsorber (مساحة الاسم Aspose.Pdf.Ocr). تتعرف على النص العادي في صفحات أي مستند PDF باستخدام OCR (التعرف الضوئي على الحروف) وتُرجعه كسلسلة نصية. وهي تتبع نمط Aspose.PDF القياسي absorber/visitor، لذا تتصل بنفس نقاط الدخول Accept مثل بقية الـ absorbers.

التعرف على النص في صفحة PDF واحدة

أنشئ OcrTextAbsorber، واستدعِ طريقة Accept الخاصة بالصفحة، ثم اقرأ النتيجة من خاصية Text. استدعاء absorber.Visit(page) مكافئ مباشر لـ page.Accept(absorber).

.NET Core 3.1

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextOnPage()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "input.pdf"))
    {
        // Create OCR text absorber
        var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber();

        // Recognize text on the first page
        document.Pages[1].Accept(absorber);

        // Get the recognized text
        string pageText = absorber.Text;
    }
}

.NET 8

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextOnPage()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Open PDF document
    using var document = new Aspose.Pdf.Document(dataDir + "input.pdf");

    // Create OCR text absorber
    var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber();

    // Recognize text on the first page
    document.Pages[1].Accept(absorber);

    // Get the recognized text
    string pageText = absorber.Text;
}

التعرف على النص في مستند PDF بالكامل

استدعِ طريقة Accept الخاصة بمجموعة Pages للتعرف على كل صفحة. يتم دمج النص المتعرف عليه لكل صفحة باستخدام فاصل الصفحات من الخيارات.

.NET Core 3.1

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextInDocument()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "input.pdf"))
    {
        // Create OCR text absorber
        var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber();

        // Recognize text on every page; page texts are joined with the page separator
        document.Pages.Accept(absorber);

        // Get the recognized text
        string text = absorber.Text;
    }
}

.NET 8

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextInDocument()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Open PDF document
    using var document = new Aspose.Pdf.Document(dataDir + "input.pdf");

    // Create OCR text absorber
    var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber();

    // Recognize text on every page; page texts are joined with the page separator
    document.Pages.Accept(absorber);

    // Get the recognized text
    string text = absorber.Text;
}

تكوين خيارات التعرف

يتم تكوين التعرف باستخدام كائن OcrTextRecognitionOptions يُمرَّر إلى المُنشئ. تتوفر الخيارات نفسها أيضًا بعد الإنشاء عبر خاصية Options الخاصة بالـ absorber، ويؤثر تغييرها على استدعاء التعرف التالي.

العضو	الافتراضي	المعنى	التحقق
`Language`	`OcrLanguage.English`	لغة التعرف.	—
`Resolution`	`300`	دقة التعرف، بوحدة DPI. النطاق العملي ~200–600. القيم الأعلى تستهلك ذاكرة/معالجًا أكثر مع تحسّن طفيف في الدقة.	يطرح `ArgumentOutOfRangeException` إذا كان `<= 0`.
`PageSeparator`	`"\n\n"`	يُدرج بين النص المتعرف عليه للصفحات المتتالية (وليس قبل الصفحة الأولى). `string.Empty` يدمج الصفحات بدون فاصل.	يطرح `ArgumentNullException` إذا تم تعيينه إلى `null`.

.NET Core 3.1

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextWithOptions()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "input.pdf"))
    {
        // Configure recognition options
        var options = new Aspose.Pdf.Ocr.OcrTextRecognitionOptions();
        options.Language = Aspose.Pdf.Ocr.OcrLanguage.Russian;
        options.Resolution = 400;          // higher DPI for small or low-quality text
        options.PageSeparator = "\n---\n"; // custom separator between pages

        // Create OCR text absorber with the options
        var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber(options);
        document.Pages.Accept(absorber);

        // Get the recognized text
        string text = absorber.Text;
    }
}

.NET 8

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextWithOptions()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Open PDF document
    using var document = new Aspose.Pdf.Document(dataDir + "input.pdf");

    // Configure recognition options
    var options = new Aspose.Pdf.Ocr.OcrTextRecognitionOptions();
    options.Language = Aspose.Pdf.Ocr.OcrLanguage.Russian;
    options.Resolution = 400;          // higher DPI for small or low-quality text
    options.PageSeparator = "\n---\n"; // custom separator between pages

    // Create OCR text absorber with the options
    var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber(options);
    document.Pages.Accept(absorber);

    // Get the recognized text
    string text = absorber.Text;
}

الكشف التلقائي عن اللغة

عندما تكون لغة المستند غير معروفة، عيّن Language إلى OcrLanguage.Auto لاكتشافها تلقائيًا. تُحدَّد لغة التعرف باستخدام تعداد OcrLanguage، الذي يدعم الإنجليزية (الافتراضية)، والعربية، والصينية، والفرنسية، والألمانية، والإندونيسية، والإيطالية، واليابانية، والكازاخية، والكورية، والبولندية، والبرتغالية، والروسية، والإسبانية، والأوكرانية، وAuto.

.NET Core 3.1

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextWithAutoLanguage()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Configure recognition options with automatic language detection
    var options = new Aspose.Pdf.Ocr.OcrTextRecognitionOptions();
    options.Language = Aspose.Pdf.Ocr.OcrLanguage.Auto; // detect the language automatically

    // Create OCR text absorber with the options
    var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber(options);

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "input.pdf"))
    {
        document.Pages.Accept(absorber);

        // Get the recognized text
        string text = absorber.Text;
    }
}

.NET 8

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void RecognizeTextWithAutoLanguage()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_Text();

    // Configure recognition options with automatic language detection
    var options = new Aspose.Pdf.Ocr.OcrTextRecognitionOptions();
    options.Language = Aspose.Pdf.Ocr.OcrLanguage.Auto; // detect the language automatically

    // Create OCR text absorber with the options
    var absorber = new Aspose.Pdf.Ocr.OcrTextAbsorber(options);

    // Open PDF document
    using var document = new Aspose.Pdf.Document(dataDir + "input.pdf");
    document.Pages.Accept(absorber);

    // Get the recognized text
    string text = absorber.Text;
}

كيفية إرجاع نتائج التعرف

يتم استبدال Text وليس تجميعه. كل استدعاء لـ Accept/Visit يستبدل Text بنتيجة ذلك الاستدعاء؛ اقرأه بعد كل استدعاء للاحتفاظ بنتائج متعددة. يكون string.Empty قبل الاستدعاء الأول وللمستند الذي لا يحتوي على صفحات.
دمج عدة صفحات. يتم ربط نص كل صفحة باستخدام Options.PageSeparator (الافتراضي "\n\n")؛ ولا يُضاف فاصل قبل الصفحة الأولى. string.Empty يدمج الصفحات بدون فاصل.
الدقة. 300 DPI هي القيمة الافتراضية والنقطة المثلى عمليًا؛ و~200–600 هو النطاق المفيد.

استخراج نصوص SuperScripts و SubScripts من PDF