Извлечение изображений из PDF и распознавание штрих-кодов

PDF документы обычно состоят из текста, изображений, таблиц, вложений, графиков, аннотаций и других связанных объектов. Бывают случаи, когда штрих-коды встроены в PDF файл, и некоторые клиенты требуют идентифицировать штрих-коды, присутствующие в PDF файле. В следующей статье объясняются шаги по извлечению изображений из страниц PDF и идентификации штрих-кодов внутри них.

Согласно модели объектов документа Aspose.PDF for .NET, PDF файл содержит одну или несколько страниц, где каждая страница содержит коллекцию изображений, форм и шрифтов в объекте ресурсов. Таким образом, чтобы извлечь изображения из PDF файла, мы будем проходить через отдельные страницы PDF файла, получать коллекцию изображений с конкретной страницы и сохранять их в объекте MemoryStream для дальнейшей обработки с помощью класса BarCodeReader из Aspose.BarCodeRecognition.

// For complete examples and data files, visit https://github.com/aspose-pdf/Aspose.PDF-for-.NET
private static void IdentifyBarcodes()
{
    // The path to the documents directory
    var dataDir = RunExamples.GetDataDir_AsposePdf_DocumentConversion();

    // Open PDF document
    using (var document = new Aspose.Pdf.Document(dataDir + "IdentifyBarcodes.pdf"))
    {
        // Traverse through individual pages of PDF file
        for (int pageCount = 1; pageCount <= document.Pages.Count; pageCount++)
        {
            // Traverse through each image extracted from PDF pages
            foreach (var xImage in document.Pages[pageCount].Resources.Images)
            {
                using (var imageStream = new MemoryStream())
                {
                    // Save PDF document image
                    xImage.Save(imageStream, System.Drawing.Imaging.ImageFormat.Jpeg);
        
                    // Set the stream position to the begining of Stream
                    imageStream.Position = 0;
        
                    // Instantiate BarCodeReader object
                    var barcodeReader = new Aspose.BarCodeRecognition.BarCodeReader(imageStream, Aspose.BarCodeRecognition.BarCodeReadType.Code39Extended);
        
                    while (barcodeReader.Read())
                    {
                        // Get BarCode text from BarCode image
                        var code = barcodeReader.GetCodeText();
        
                        // Write the BarCode text to Console output
                        Console.WriteLine("BARCODE : " + code);
                    }
        
                    // Close BarCodeReader object to release the Image file
                    barcodeReader.Close();
                }
            }
        }
    }
}

Для получения дополнительной информации по темам, рассмотренным в этой статье, посетите следующие ссылки:

Преобразование страниц PDF в изображения и распознавание штрих-кодов