Алгоритм распознавания образов. Как Google будет распознавать и ранжировать изображения в ближайшем будущем? Предмет и задачи обработки и распознавания цифровых изображений

Nokia 21.03.2019

Nokia

Что такое технология распознавания изображений? Распознавание изображений (некоторые также называют «компьютерным зрением») это технология, которая создана получать, обрабатывать, анализировать, и понимать изображения реального мира, с целью предоставить цифровую или символьную информацию. Что вы сказали? Не беспокойтесь. Мы понимаем, что это сложно. Позвольте перефразировать: когда вы загружаете свою фотографию, или фотографию ваших друзей на Facebook, все лица будут распознаны и пользователи будут автоматически отмечены: это и называется распознаванием изображений. Хорошо, это звучит намного понятнее Прекрасно! Потому что сейчас будет еще сложнее… Компьютерное зрение – очень широкая область компьютерных наук, так как сюда вовлечено множество аспектов, таких как машинное обучение, интеллектуальный анализ данных, расширение базы знаний, распознавание шаблонов, и другие. Исследования в данной области привели к технологиям, которые имитируют человеческое зрение. И для того, чтобы создать программное обеспечение, способное видеть, вам для начала понадобится пара линз. Что вы имеете в виду? Я имею в виду, что для того, чтобы обработать изображение, вам для начала нужно его снять с помощью камеры. Затем, программное обеспечение извлекает из него необходимую информацию, и после этого, совершает действия, основываясь на полученных данных. До недавних пор, цифровые камеры были неприлично дорогими, имели очень низкое разрешение, и распознавание изображений было невозможно совершать в режиме реального времени. Но с приходом мобильных телефонов и высокоскоростных камер, возможности стали безграничны. Например, знали ли вы, что несколько лет назад Японская компания создала робота, который мог играть в «камень, ножницы, бумага» и побеждать в 10 из 10 случаях. Это невозможно… Я так не думаю. Вот ссылка на это видео. Робот использует высокоскоростные камеры для распознавания движения руки человека. Анализируя шаблоны движения руки со скоростью 500 кадров в секунду, робот способен немедленно реагировать в ответ, и в результате выигрывать. Чтобы этого добиться, камера захватывает изображение очертаний руки, формирует объект и отравляет информацию программному обеспечению, которое распознает шаблон и генерирует реакцию робота в ответ. Объект руки человека формируется 60 мс, и затем робот выполняет все вышеперечисленное за 1 мс. Хорошо, но я думал, что речь пойдет о мобильных … Не беспокойтесь, мы дойдем и до этого. Одной из самых вызывающих и перспективных областей является обработка и распознавание изображений для имитации человеческого зрения: восприятия изображения, обработки и дальнейшей реакции. Это именно то, что делает робот на предыдущем примере: он воспринимает изображение путем захвата картинки, понимает, что делает человек, и реагирует, выполняя ответный ход. Конечно, мы, разработчики программного обеспечения, более заинтересованы в той части программы, где происходит распознавание шаблона. Так как же воспринимающая часть на самом деле работает? Ответ весьма прост - «математика». Самое важное направление в алгоритмах распознавания шаблонов - вероятностная классификация. Когда изображение сравнивается с набором других сохраненных изображений, задается значение (вероятность) для каждого другого изображения, с которым оно совпадает. Комбинируя несколько алгоритмов вероятностных классификаций, которые применяются к тому же набору изображений, называемых «ансамблем», предоставляется итоговая оценка для каждого изображения, которая затем используется программой для предположения, на какие изображение это похоже. Как вы могли представить, это довольно сложно для мобильного устройства. Вы можете подумать, что мощность процессора является проблемой. Так и есть! И самое тонкое место - база данных изображений, с которыми сравнивается оригинал. На примере робота, о котором уже говорилось, Вы можете иметь только ограниченное количество изображений (камень, ножницы, бумага), с которыми можно работать, но в примере с распознаванием изображений в Facebook, невозможно сохранять лица каждого человека, кто зарегистрирован в социальной сети на мобильном устройстве (это не совсем тот способ, по которому работает данная функция; Facebook сохраняет уникальный хэш для каждого человека, используя определенные характеристики лица как основу, но пример был предоставлен исключительно для того, чтоб объяснить идею). Чтоб решить эту и другие проблемы, распознавание изображений обычно выполняется на стороне сервера, где процессорная мощность, либо место для хранения данных не представляет проблем. Мобильные устройства могут просто отправлять изображение, и нейронная сеть или оборудование обработают запрос. Одну минуту! Я видел, как это работает на мобильных устройствах без соединения с интернетом Да, но тут только часть правды. Мобильному устройству все еще необходимо отправлять изображения на сервер, также как и серверу необходимо хранить их. Как только изображения окажутся там, сервер обработает изображение, сгенерирует намного меньший хэш, и вернет обратно в приложение. И затем, к примеру, вы можете зайти в режим полета и увидеть изображение на камере телефона, сравнение будет сделано в режиме оффлайн. Спасибо за все эти объяснения. Теперь поговорим о деле А, так вы хотите знать, как применить распознавание изображений на деле? Конечно, для вас не станет сюрпризом, что у распознавания изображений есть потенциал произвести революцию во всем мире. В области здравоохранения, например, IBM начали использовать технологию распознавания изображений для обработки большого количества медицинских данных. Это может помочь врачам диагностировать болезни быстрее и с большей точностью. Baidu разработали прототип DuLight: продукт для распознавания объектов, который поможет слепым «видеть» с помощью снимков всего, что их окружает и передавая обработанные данные через наушник. Однако, на продукцию в области искусственного интеллекта обычно налагаются этические и законодательные ограничения. Возьмем, к примеру, автомобильную индустрию и беспилотные автомобили от Google. Технология готова, но предстоит еще долгий процесс, прежде чем эти машины появятся на рынке. Хорошо, но я не планирую строить беспилотный автомобиль – что может технология распознавания изображений дать моему бизнесу? Честно говоря, многое! Существует множество мелкомасштабных методов применения технологии распознавания изображений для получения преимуществ. Так как мы говорим о мобильных устройствах, давайте рассмотрим некоторые примеры использования технологии распознавания изображений в мобильной связи. Одним из крупнейших игроков в этой области является Blippar: платформа для визуального обнаружения, которая позволяет пользователям сканировать объекты и получать их описание, что делает физический мир интерактивным игровым полем. Для любителей растений существует LeafSnap, для любителей вина - Delectable. Но существуют и такие маркетинговые компании, такие как Makeup Genius, TrackMyMaccas, и SnapFindShop, на которые стоит взглянуть. Эти брэнды применяют распознавание изображений для изучения социального обмена и привлечения пользователей. Так вы говорите, что технология распознавания изображений может помочь мне привлечь клиентов? Так как мы говорим о мобильных технологиях, слово «привлечение» так или иначе, всплыло бы в течение разговора. Мир приложений вращается вокруг привлечения пользователей: если вы не преуспели в этом, то есть шанс, что пользователь просто никогда не вернется к использованию вашего приложения. Распознавание изображений даст вашему приложению огромные возможности для расширения, поскольку технология позволит Вам выйти за пределы мобильного устройства в физический мир пользователя. Ваше приложение сможет предоставить что-то более материальное, что позволит создать сильную эмоциональную связь. И так как эмоции тесно связаны с памятью, у вас есть шанс создать незабываемое впечатление о Вашем бизнесе. http://www.softacom.ru/ru_imagesrecognition

РАСПОЗНАВАНИЕ НЕДЕФОРМИРУЕМЫХ ТРЕХМЕРНЫХ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ ПО КОНТУРАМ

Студент 545 гр. кафедры системного программирования СПбГУ, nikolai. *****@***com

Аннотация

В данной работе будет дано сравнение известных методов распознавания трехмерных объектов по контурам и предложен новый метод, успешно применяющийся в задаче распознавания автомобилей. Данный метод устойчив к небольшим изменениям изображения объекта, таким как небольшие повороты и небольшие изменения в масштабе. В этом методе трехмерные объекты представляются конечным набором образцов, с которыми считается схожесть входного изображения. Метод основан на ориентациях градиентов изображения, поэтому слабо зависит от освещенности объекта. Преимуществом этого подхода также является возможность использование внутренних и частичных контуров.

Введение

Задача распознавания объектов возникает во многих сферах, например, в медицинских приложениях для распознавания типа кости на рентгене, или в криминалистической сфере для сличения объекта на изображении с объектом из базы данных , например распознавание лиц или машин.

Существующие методы рассматривают на два типа изменений модели: недеформирующие изменения и деформирующие. Первый вид изменений предполагает вращение, сдвиг и масштабирование модели, а второй – еще и деформации самой модели, таких как, например, изменение позы человеческого тела или мимики.

Предлагаемый ниже метод предполагает нахождение объекта при недеформирующих изменениях. Для этого из входного изображения изучаемого объекта извлекается его контур, затем находятся особые точки контура, используя которые находится контур из базы контуров, построенных по трехмерным моделям.

Существующие решения

Задача распознавания объекта по его контуру в общем виде решается либо параметризацией контура и дальнейшим подсчетом функции схожести по двум параметризацией, либо подсчетом некоторого дескриптора контура (например, набор гистограмм) и сравнивая уже их.

В подходе Belongie и др. вводятся контексты формы контура и сравниваются уже они . Выбирается равномерно n точек контура, из каждой точки пускаются отрезки во все остальные точки выборки и строится гистограмма по направлениям и длинам этих отрезков. Набор всех таких гистограмм и является контекстом формы контура. Сравнение двух контуров проходит накладыванием одного набора на другой со всевозможными смещениями, находя наилучший поворот одного контура к другому. Сложность этого подхода O(n3).

Подход Sebastian и др. основан на редакционном расстоянии, введенном ранее для строк . Для каждой точки контура известно расстояние заранее определенной точки (начала контура) и кривизна в данной точке. При сравнении двух контуров функция схожести считается путем накладывания одного контура на другой и подсчетом разницы кривизны с возможностью выбрасывания кусков контуров с начислением штрафов.

Для сравнения контуров также можно использовать понятие граф шоков, как в подходе Macrini и др. . По контуру строится его скелет в виде дерева как набор точек равноудаленных от пар точек контура. Узлами этого дерева и являются шоки, они бывают разных типов и силы. Сравнивая уже эти графы, можно сравнить сами контуры.

Вышеописанные методы могут помочь определить является ли изучаемый контур контуром самолета или молотка, но ими сложно различить схожие контуры недеформируемых объектов. Поэтому необходимо, что-то более зависящее от необычных точек контура и сильнее характеризующее конкретный объект. Плюс есть необходимость использовать внутренние контуры.

Предлагаемый подход

На входном изображении объекта, полученном с помощью камеры с известными параметрами без дисторсии, необходимо сначала выделить контур объекта, используя градиент изображения. Затем из точек контура оставить только особые и запомнить лишь направление градиента в этих точках. Затем отфильтровать некоторым способом полученные точки и уже их использовать при сравнении контуров.

Выделение контуров

Для выделения контуров использовался градиент изображения, посчитанный с помощью оператора Собеля. Обычно для этого используют яркость изображения в градациях серого, но для получения более явных и полных контуров используется такой метод: считаем градиент в каждой точке для трёх каналов отдельно и записываем как итог градиент с максимальной нормой.

https://pandia.ru/text/78/196/images/image002_10.png" width="198" height="207 src=">

Выделение особых точек

Среди точек полученного градиента изображения оставляем только те, норма градиента в которых больше определенного порога, таким образом, получая точки контура. Для этих точек градиента оставим только угол между направлением градиента и осью Ох. Если угол α больше π, то запишем вместо него α - π, потому что градиент может быть направлен в противоположные стороны при различных фонах. Отказ от использования информации о норме градиента позволяет использовать точки контура, находящиеся в тени, тем же образом, каким точки контура в освещенной части объекта. Далее бинаризуем посчитанные углы в n бинов, то есть если угол α,: 0 < α < π / n, тогда он попадает в первый бин, а если α,: π / n < α < π * 2 / n, тогда во второй и так далее. Затем из точек удаляем те, для которых неверно, что направление в этой точке является самым частым направлением в некоторой небольшой окрестности точки. Это обеспечивает локальную сонаправленность точек контура и чистит контур от шума. Оставшиеся точки (направление и координаты) и будут использоваться для сравнения двух контуров

Создание базы по трехмерным моделям

База контуров объектов используется для нахождения на входном изображении объекта и его ракурса. По некоторому набору трехмерных моделей генерируются их изображения в различных ракурсах и в разных масштабах. Затем на этих изображениях детектируются контуры и выделяются особые точки, описанным выше способом. Эти результаты можно сохранить для дальнейшего переиспользования. Так же можно поделить эту базу на группы в зависимости от размеров контуров в пикселях.

Рис. 3 Пример трехмерной модели в ракурсе повернутом по оси Оу на 20 градусов и по оси Ох на 10 градусов от фронтального.

Функция схожести и ее подсчет

Назовем каждый контур из базы образцом модели в некотором ракурсе и масштабе. Сдвинем координаты точек в образцах так, чтобы абсцисса самой левой точки была нулем, а ордината самой верхней точки была тоже нулём. Тогда для входного изображения I в точке с и образца T можно ввести функцию схожести

где P – это множество точек образца, О – изображение, соответствующее образцу, ori(O, r) – бинаризованое направление градиента изображения О в точке r. Функция основана на работе Steger и подобная использовалась в работе Farhan . Проблема состоит в том, что такая функция совершенно не устойчива к изменениям, поэтому для каждой точки образца необходимо рассматривать некоторую окрестность R (например, квадрат 7х7 пикселей) вокруг прикладываемой точки:

DIV_ADBLOCK454">

0 " style="border-collapse:collapse;border:none">

Результат теста на размытие зависит от размера ядра размытия и его силы. Чем больше – тем ниже процент. При преграждении процент распознавания зависит от того какая часть объекта перекрыта (много ли на ней точек контура).

Рис. 4 График схожести тестового примера по базе (по осям – углы вращения по х и по у). Он показывает, что в области правильного ракурса явный пик функции, который можно найти быстрее, чем перебором всех ракурсов.

Литература

1. Belongie, S.; Malik, J.; Puzicha, J., "Shape matching and object recognition using shape contexts," Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.24, no.4, pp.509,522, Apr 2002

2. Sebastian, T. B.; Klein, P. N.; Kimia, B. B., "On aligning curves," Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.25, no.1, pp.116,125, Jan. 2003

3. Macrini, D.; Shokoufandeh, A.; Dickinson, S.; Siddiqi, K.; Zucker, S., "View-based 3-D object recognition using shock graphs," Pattern Recognition, 2002. Proceedings. 16th International Conference on , vol.3, no., pp.24,28 vol.3, 2002

4. Farhan U.; Shun"ichi K.; Satoru I., “Object Search Using Orientation Code Matching”, IAPR Workshop on Machine Vision Applications, Nov. 28-30, 2000

5. C. Steger, “Occlusion Clutter, and Illumination Invariant Object Recognition,” in International Archives of Photogrammetry and Remote Sensing, 2002.

Задача распознавания сводится к селекции (выделению) заданных для вскрытия объектов среди других обнаруженных объектов естественного и искусственного происхождения. В задачу распознавания входит также определение класса и типа выделенных объектов и их функционального состояния. Особенно важной и ответственной задачей при принятии решения является распознавание специальных ложных целей (надувных макетов, уголковых отражателей и т.п.), а также объектов по принадлежности свой - чужой.

Повышение эффективности решения задачи распознавания объектов достигается двумя путями:

повышением информативности используемых распознавательных признаков (характеристик) объекта;

формированием в РСА новых распознавательных признаков заданных объектов.

Обычно критерием выбора распознавательных признаков и методов повышения их эффективности является принцип разумной достаточности, так как формирование новых и повышение характеристик используемых признаков требует перераспределения (расходования) располагаемых ресурсов (вычислительных, энергетических, временных) РСА, которые всегда ограничены критическими технологиями и тактическими требованиями.

Быстрое развитие технологий РСА позволяет использовать распознавательные признаки все более широкого класса. Далее анализируются основные распознавательные признаки объектов при их наблюдении РСА.

Характерные размеры РЛИ объекта. К характерным размерам объекта относятся его длина, ширина, высота, площадь и объем, определяемые числом элементов разрешения в РЛИ объекта. Дополнительным признаком является форма РЛИ объекта.

Рассмотрим методику расчета вероятности распознавания цели на примере использования площади объекта в качестве распознавательного признака. Вероятность распознавания целей определяется многими факторами:

ансамблем распознаваемых целей;

априорными сведениями о классе наблюдаемых целей;

свойствами выбранных распознавательных признаков;

алгоритмом принятия решения о классе цели.

В качестве ансамбля распознаваемых целей принимается набор типовых целей. При этом каждый раз при определении вероятности распознавания целей предполагается наличие двух целей с наиболее близкими параметрами, т.е. наихудший случай. Кроме того, полагаем, что априорные сведения о наличии той или иной цели отсутствуют, т.е. наличие двух близких по параметрам целей равновероятно.

такая точность достигается с запасом.

О классе цели №2.

Пиксела), одинаковых заданных потерях при ошибках классификации первого и второго рода, отсутствии потерь при точных решениях и одинаковых априорных вероятностях появления целей каждого класса значение площади раздела равно:

правильной классификации первой цели равна:

то

Площади изображения цели можно аппроксимировать гауссовой кривой:

при наблюдении первой цели определяется интегралом вероятности:

- нормированное граничное значение разделения

площади первой цели относительно второй.

для различных нормированных значений границы раздела

вероятность распознавания будет равна 0,7.

на характерном размере изображения. В табл. 7.4 даны значения требуемой разрешающей способности РСА для обнаружения и распознавания типовых объектов при наблюдении их РЛИ опытным оператором.

В настоящее время достигнута разрешающая способность 0,3x0,3 м, а в отдельных

экспериментах даже 0,1x0,1 м,

что позволяет распознавать малоразмерные цели, имеющие размеры единицы метров.

Решение задачи селекции ложных целей, имеющих такие же характерные размеры, как и заданные цели, требует привлечения дополнительных распознавательных признаков.

Амплитудный портрет объекта. Амплитудный портрет - это детальное изображение объекта в виде распределения ЭПР объекта по элементам разрешения РЛИ. В качестве распознавательных признаков используются статистические характеристики ЭПР.

Среднее значение ЭПР, полученное усреднением реализации амплитуды РЛИ за несколько обзоров, характеризует распределение отражающей способности объекта по элементам разрешения.

Корреляционная функция характеризует взаимосвязь амплитуд РЛИ как в разрешаемом элементе от обзора к обзору, так и между элементами. Рассматриваются также законы распределения плотности вероятности амплитуд РЛИ.

Трудностью использования этих признаков является получение банка данных для заданного класса (типов) объектов, что требует больших экспериментальных работ. Рассматривается также возможность расчета на ЭВМ статистических характеристик РЛИ объектов.

Поляризационные портреты объекта. В настоящее время при распознавании объекта используются в основном однополяризационные функции отражения, когда излучаемая и принимаемая электромагнитная волна имеет одну и ту же поляризацию (ГГ или ВВ). Развитие техники антенн-поляриметров дало возможность формировать полную поляризационную матрицу функции отражения объекта. При этом РЛИ объекта, полученные при различных поляризациях, несут информацию о конструкции и структуре материала объекта. Так, значительно отличаются РЛИ объектов естественного и искусственного происхождения в зависимости от поляризации, а также у специальных ложных целей.

Основной проблемой при создании полнополяриметрической РСА является значительное усложнение аппаратной и программной (алгоритмической) частей. Фактически работают параллельно четыре канала приема сигнала и обработки данных. Также весьма сложной задачей является определение (в основном экспериментальное) поляризационной матрицы функции отражения объектов для различных условий наблюдения.

Трехмерный портрет объекта. Обычно РЛИ объекта формируется в виде плоской картины в проекции на земную поверхность. В то же время значительная информация о классе и типе объекта заключена в высоте объекта. Кроме естественного изменения высоты земной поверхности (рельефа местности), РСА позволяет получать изображение микрорельефа объекта, т.е. изменение рельефа местности, связанное с наличием вскрываемого объекта (капониры, карьеры, отдельные сооружения, техника и т.п.).

Угол визирования (в радианах). Так, при угле визирования в 6° объект высотой Ь = 10 м дает тень длиной 100 м.

При средних и больших углах визирования, а также при сложном характере рельефа Земли в районе объекта метод радиолокационных теней не работает. Поэтому для измерения высоты объекта используют угломерный способ с помощью реальной антенны РСА. Чем больше размер антенны, тем выше точность измерения высоты. Для упрощения конструкции антенны обычно используют две разнесенных в угломестной плоскости антенны (интерферометр). Разность фаз сигналов одного и того же разрешаемого по дальности и азимуту элемента объекта, принимаемых антеннами интерферометра, пропорциональна высоте объекта. По этой информации строится трехмерный портрет объекта.

Основным направлением развития таких интерферометрических РСА является повышение точности измерения высоты. Для этого увеличивают разнос антенн. Так, в экспериментальных РСА получена точность измерения высоты рельефа местности 0,3 м с дискретностью изображения 1...3 м.

Для уменьшения влияния растительности, покрывающей объекты, интерферометрическая РСА может работать в дециметровом диапазоне.

Рассматриваются также сверхширокополосные системы в диапазонах 215...900 МГц и 100...600 МГц, которые могут работать в двух поддиапазонах дециметровом и метровом - с полосой частот 100 МГц. На малых дальностях (единицы километров) обеспечивается высокое разрешение по азимуту и дальности, что позволяет получать детальные изображения объектов в различных диапазонах волн.

Динамический портрет объекта. Движение объекта и его отдельных частей является одним из самых важных распознавательных признаков, который лежит в основе не только распознавания класса и типа, но и функционального состояния объекта.

Задача формирования динамического портрета отдельных сосредоточенных объектов, наблюдаемых на фоне подстилающей поверхности, решается на различных уровнях.

В первом случае используется режим СДЦ, который позволяет селектировать движущиеся объекты по их радиальной скорости. Основное направление развития режима СДЦ - снижение минимальной радиальной скорости цели, при которой принимается решение о движении объекта. В настоящее время считается возможным обнаружение целей, движущихся со скоростью 1...2 м/с. При этом для подавления сигнала неподвижного фона используют антенну-интерферометр с двумя разнесенными вдоль линии пути фазовыми центрами.

В режиме СДЦ осуществляется не только селекция, но и измерение радиальной составляющей скорости и азимута объектов. Для этого используется пространственно-временная обработка сигналов, при которой необходима антенна с тремя и более фазовыми центрами. При одновременном формировании изображений движущихся и неподвижных объектов число необходимых фазовых центров возрастает. Возможно также одновременное измерение тангенциальной и радиальной составляющих скорости объекта при точности измерения порядка 2.. .3 м/с.

При распознавании движущегося (вращающегося) объекта возможно получение детального РЛИ методами обратного (инверсного) синтезирования. При этом даже небольшое изменение угла наблюдения объекта (угол поворота объекта относительно линии объект - РСА) или его отдельных элементов позволяет получить высокое разрешение. Например, при изменении угла на 3° возможно разрешение в плоскости поворота, равное 5... 10 длинам волн.

Вторым основным направлением использования динамического портрета является определение функционального состояния объекта. Боевая работа (стрельба, пуск ракет), а также маневрирование, движение отдельных частей объекта, работа двигателя вызывают пространственно-временную модуляцию функции отражения объекта и соответственно траекторного сигнала РСА. Обнаружение и определение параметров этой модуляции позволяет распознавать объект (класс, тип, ложная цель) и судить о его функциональном состоянии.

В случае распределенного объекта (например, водной поверхности) имеется возможность формирования динамического (частотного, фазового) портрета поверхности. Так, скоростной портрет морской поверхности (радиальная скорость движения морской поверхности в координатах дальность - азимут) позволяет определять степень регулярного волнения, турбулентности различного рода, течения. Скоростной портрет позволяет обнаруживать и распознавать морские объекты по их следам на морской поверхности, определять степень волнения в интересах судовождения и участки загрязнения (экология, следы катастроф).

Важным распознавательным признаком являются также конфигурация и взаимное перемещение группы объектов, что требует точного измерения координат и вектора скорости всех объектов в группе.

Селекция ложных целей. Проблема селекции (выделения) среди обнаруженных объектов специально созданных ложных целей (ЛЦ), схожих по ряду распознавательных признаков с заданными объектами, является одной из наиболее сложных.

Методы создания ЛЦ непрерывно совершенствуются. На первом этапе в качестве ЛЦ использовались уголковые отражатели с ЭПР, равной ЭПР объекта. С ростом разрешающей способности потребовались более сложные по конфигурации ЛЦ, которые стали повторять геометрический образ объекта (например, надувные макеты), что определяло сходство РЛИ объекта и ложной цели. Буксируемые (движущиеся) ЛЦ повторяют динамику движения объекта.

Основным направлением решения задачи селекции ЛЦ является увеличение числа распознавательных признаков объекта, формируемых РСА. Чем больше распознавательных признаков используется в РСА, тем сложнее имитировать функцию отражения, схожую с функцией отражения объекта. В этом плане эффективно использование поляризационных и частотных различий функции отражения.

Режимы формирования поляризационных, трехмерных и динамических портретов будут рассмотрены в дальнейших разделах.

Обязательный курс для студентов 3 курса каф. ММП , читается в 6 семестре
Обязательный курс для студентов 1 курса магистратуры каф. АСВК , читается в 2 семестре
Лекции - 32 часа
Форма контроля - экзамен
Автор программы: профессор Местецкий Л.М.
Лектор: профессор Местецкий Л.М.

Аннотация

Основу курса составляют математические методы распознавания образов, используемые для анализа и классификации изображений в системах компьютерного зрения. Отличительные особенности методов распознавания для этого класса задач определяются структурой исходных данных – цифровых изображений в виде матриц цвета и яркости точек. Эти особенности сказываются в основном на специфике генерации признаковых описаний объектов, а также специфике построения метрики в пространстве образов.

В первую часть курса (18 часов) входят вопросы преобразования изображений различного типа с целью генерации признаковых описаний. Вначале изучаются методы точечной, пространственной геометрической, алгебраической и межкадровой обработки изображений. Далее рассматриваются методы генерации признаков на основе разложения изображений по базисным функциям (преобразование Карунена-Лоева, дискретное преобразование Фурье, вейвлет-разложение), статистического анализа текстуры изображений, а также анализа формы изображений (построение границ, скелетов, преобразование Хафа).

Во второй части курса (8 часов) рассматриваются методы построения метрик для сравнения изображений (сравнение спектральных разложений, наложение и выравнивание образов).

В последнюю часть курса (6 часов) входят вопросы применения изученных методов в прикладных задачах компьютерного зрения. Рассматриваются задачи распознавания текстов в изображениях документов, задачи биометрической идентификации личности по текстуре радужной оболочки глаза, по форме ладони, отпечатка пальца, профиля лица. Далее изучаются применения к распознаванию динамических объектов в наблюдаемых сценах для распознавания поз и жестов.

Предмет и задачи обработки и распознавания цифровых изображений

Растровые устройства получения и воспроизведения изображений (камеры, сканеры, дисплеи, принтеры), оцифровка изображений. Модели изображений. Задачи обработки, анализа и классификации изображений. Прикладные системы, программное обеспечение.

Точечные методы обработки изображений

Гистограммы интенсивности. Преобразования на основе анализа гистограмм интенсивности. Точечные преобразования (просветление, негативное изображение, бинаризация, псевдораскрашивание).

Пространственные методы обработки изображений

Пространственная частота изображения. Свертка изображения. Построение фильтров: низкочастотные, полосные и высокочастотные фильтры. Усиление края, методы Лапласа, Робертса, Кирша и Собеля, методы сдвига и разности, метод направленного градиента.

Геометрические и алгебраические методы обработки изображений

Алгебраические преобразования (сложение, вычитание изображений). Геометрические преобразования (монохромная интерполяция, аффинные и нелинейные преобразования).

Методы межкадровой обработки изображений

Геометрия нескольких проекций. Стереозрение. Определение движения объекта.

Анализ изображений на основе разложения по базисным функциям

Базисные вектора и базисные матрицы. Разложение Карунена-Лоева. Дискретное преобразование Фурье. Косинусное преобразование. Непрерывное и дискретное вейвлетные преобразования. Вейвлетное разложение. Вейвлетная селекция.

Статистические методы анализа текстур

Региональные признаки. Методы измерения текстур, основанные на статистиках первого порядка. Методы измерения текстур, основанные на статистиках второго порядка.

Методы анализа формы изображений

Концепции формы. Сегментация, выделение формы. Представление формы. Характеристики формы и их измерение. Скелетизация. Преобразование Хафа. Бинарная математическая морфология. Эрозия и дилатация. Морфологические алгоритмы на дискретных бинарных изображениях.

Метрики для измерения сходства изображений

Сравнение спектральных разложений. Классификация методом сравнения с эталоном. Сходство, основанное на поиске оптимального пути. Принцип оптимальности Беллмана и динамическое программирование. «Беспризнаковое» распознавание.

Распознавание текстов по изображениям документов

Сегментация документов и текстов. Выравнивание текстов. Распознавание печатных символов. Распознавание рукописных текстов.

Биометрическая идентификация на основе распознавания изображений

Классификацияи радужных оболочек глаза методом Даугмана. Классификация силуэтов ладоней методом сравнеия гибких объектов. Метод выделения особых точек в папиллярном узоре.

Распознавание динамических сцен

Распознавание жестов. Распознавание мимики. Распознавание поз.

Самостоятельная работа студента

Вычислительный практикум по обработке и классификации изображений

Задание 1. Тема: Изучение и освоение методов обработки и сегментации изображений. Разработать и реализовать программу для работы с изображений фишек игрового набора Тантрикс.

Задание 1, PDF

Задание 2. Тема: Изучение и освоение методов классификации формы изображений. Разработать и реализовать программу для классификации изображений ладоней. »

Каждый объект можно охарактеризовать набором некоторых признаков. Количество признаков зависит от сложности самого объекта. Точность подбора признаков будет влиять на эффективность распознавания объекта, который описывается этим набором.

Рассмотрим пример распознавания простых объектов на основе набора признаков. При реализации метода в качестве основных будем использовать две функции bwlabel и imfeature, которые встроены в приложение Image Processing Toolbox.

Сначала считаем исходное тестовое изображение в рабочее пространство Matlab

L=imread("test_image.bmp");

и визуализируем его

Figure, imshow(L);

Сделаем некоторые замечания относительно исходного изображения. В нашем случае исходные данные представлены бинарным изображением. Это несколько упрощает нашу задачу, поскольку основной акцент в этом примере сделан на распознавание объектов. Однако при решении задач распознавания на основе реальных изображений, в большинстве случаев, важной является задача преобразования исходного изображения в бинарное. Качество решения этой задачи во многом определяет эффективность дальнейшего распознавания.

Функции bwlabel и imfeature в качестве исходных данных используют полутоновые двумерные изображения. Поскольку изображение test_image.bmp было сформировано как бинарное, но сохранено в формате bmp, то из трехмерной матрицы изображения L, которая содержит три идентичных цветовых шара, необходимо выделить один из шаров, например, первый.

L=L(:,:,1);

Такого же результата можно достичь, используя функцию rgb2gray. Таким образом, матрица L представляет бинарное двумерное изображение.

Для дальнейших расчетов определим размеры этого изображения

Size(L);

Далее необходимо локализировать, т.е. определить расположение объектов на изображении. Для этого будем использовать функцию bwlabel, которая ищет на бинарном изображении связные области пикселей объектов и создает матрицу, каждый элемент которой равен номеру объекта, которому принадлежит соответствующий пиксель исходного изображения. Параметр num дополнительно возвращает количество объектов, найденных на исходном бинарном изображении.

Bwlabel(L,8);

Кроме того, в функции bwlabel указывается еще один параметр – значение связности.

Далее приступаем к вычислению признаков объектов, которые отмечены в матрице номеров объектов L. Рассмотрим этот вопрос более подробно. Значения признаков возвращаются в массиве структур feats. Как было отмечено ранее, при распознавании объектов могут использоваться любые наборы признаков.

В рамках этого примера применим наиболее наглядный статистический подход к классификации объектов на основе морфометрических признаков. К основным морфометрическим признакам относятся коэффициенты формы:

‘solidity’ – коэффициент выпуклости: равен отношению площади к выпуклой площади объекта. Представляется числом в диапазоне (0,1].
‘extent’ – коэффициент заполнения: равен отношению площади объекта к площади ограничивающего прямоугольника. Представляется числом в диапазоне (0,1].
‘eccentricity’ – эксцентриситет эллипса с главными моментами инерции, равными главным моментам инерции объекта. Представляется числом в диапазоне (0,1].

Поскольку в данном примере используется тестовое изображение объектов простой формы, то из перечисленных признаков в программной реализации будем использовать только коэффициент заполнения ‘extent’. Как было сказана ранее, параметр ‘extent’ определяется отношением площади объекта к площади ограничивающего прямоугольника. Для круга этот параметр будет равен , а для квадрата – 1. Но эти данные приведены для случая, когда круг и квадрат имеют идеальную форму. Если форма круга или квадрата искажена, то значения параметра ‘extent’ также могут отличаться от приведенных выше значений. Поэтому коэффициенты формы могут вычисляться с некоторой погрешностью. Таким образом, вводя некоторую погрешность в коэффициент формы, допускаются некоторые ее искажения. Причем значение погрешности пропорционально степени искажения. Однако слишком большое значение погрешности может привести к неправильному распознаванию объектов.

Дополнительно также будем определять центр масс объекта с помощью опции ‘centroid’.

Feats=imfeature(L,"Centroid","Extent",8);

Перепишем значения признаков из массива структур feats в отдельные массивы:

Extent=zeros(num); CentX=zeros(num); CentY=zeros(num); for i=1:1:num; Extent(i)=feats(i).Extent; CentX(i)=feats(i).Centroid(1); CentY(i)=feats(i).Centroid(2); end;

Также в рамках этого примера реализуем следующее. Для наглядности, каждый распознанный объект будет подписан. Для реализации этого возможны различные подходы. Один самых простых – это помещать около распознанного объекта изображение с его названием. Для этого прежде нужно сформировать изображения с названиями объектов и считать их в рабочее пространство Matlab. Поскольку на тестовом изображении присутствуют только круги и квадраты, то сформирует и считаем соответствующие изображения.

Krug=imread("krug.bmp"); Kvadrat=imread("kvadrat.bmp"); d=0.15; % погрешность коэффициента формы for i=1:num; L(round(CentY(i)):round(CentY(i))+1,round(CentX(i)):round(CentX(i))+1)=0; if (abs(Extent(i)-0.7822)

Представим результат распознавания