Мультиагентный подход в реконструкции текстуры на изображениях


Цитировать

Полный текст

Аннотация

Рассматривается процесс разработки и применения мультиагентной системы для реконструкции текстуры фонового пространства изображения при удалении объектов. Рассматривается общая проблематика процедуры фото- и видеореконструкции, а также области ее применения. Проводится анализ существующих методов восстановления пропусков в больших массивах данных. Предлагается решение на основе одного из распространенных методов кластерного анализа - особой самоорганизующейся нейронной сети. Приводится поэтапный алгоритм обучения карт Кохонена: инициализация карты, выбор механизма отбора узлов, смещение смежных узлов в зависимости от функции соседства, определение меры обучения и переобучения сети, шаги грубой и тонкой подстройки. Разработан адаптированный алгоритм обучения и восстановления данных изображения на основе карт Кохонена. Введены механизм инициализации карты, структура обучающих векторов, методика выбора нейрона-победителя, функции соседства. Рассматривается принцип мультикартирования и применение кооперативного решения задачи на основе мультиагентного подхода. Расширен алгоритм мультиагентного решения на основе предварительной сегментации для определения смежных областей. Разработана архитектура мультиагентной системы, определено поведение отдельных агентов, спроектированы коммуникационные каналы для взаимодействия агентов. Реализована мультиагентная система восстановления текстуры на изображения. Представлены результаты экспериментов. Эксперименты были проведены на базе эталонных изображений для поиска объектов интереса (CBIR database). Приведены оценки эффективности выбранных параметров мультикартирования. Оценка оптимального количества карт при мультикартировании проведена на основе процента покрытия палитры исходного изображения. Представлены показатели точности и быстродействия агентного механизма для подсистем обучения и реконструкции, на основании которых можно сделать выводы об эффективности предлагаемой методики. Оценка точности проведена при помощи метрик SSIM, MSE, PSNR, а также при помощи методики попиксельного сравнения. Оценка быстродействия проведена для различных конфигураций мультиагентной системы с целью определения самой эффективной из них.

Полный текст

Введение. На сегодняшний день существует множество систем, в которых реализованы различные алгоритмы обработки изображений. Предварительная обработка изображений для решения прикладных задач является неотъемлемым этапом работы таких систем. Одной из важных задач предварительной обработки является удаление объектов и восстановление фонового пространства, располагающегося за ними. Выполнение данного этапа позволяет исключить из последующего анализа объекты, лежащие вне области интереса. При удалении некоторого объекта из изображения важно сохранить общую однородность фонового пространства, чтобы исключить возможные ложные срабатывания последующих алгоритмов обработки данных изображения. Подобная техника широко применяется при фотосъемке в процессе ретуши и общей корректировки композиции, а также в различных системах наблюдения и учета для более детальной фокусировки на определенной группе объектов интереса [1-3]. Для решения задачи восстановления фона существует множество подходов, многие из которых базируются на принципах статистического и кластерного анализа. Изображение в контексте подобных подходов рассматривается как огромный набор статистически упорядоченных данных. Группы пикселей связаны между собой, и на основе существующих алгоритмов возможно восстановление пикселя фоновой подложки путем статистического и кластерного анализа всего изображения в целом либо окружающих пикселей данной группы [4]. Высокую эффективность для восстановления данных имеют методы, построенные на основе кластерного подхода, например, карты Кохонена. Карты Кохонена. Карты Кохонена, или самообучающиеся карты (Self-organizing Map - SOM) Кохо- нена, - это нейросетевая архитектура для автоматической кластеризации (классификации без учителя), в которой учитывается информация о взаимном расположении нейронов, которые образуют решетку [5-7]. Сигнал в такую нейросеть поступает сразу на все нейроны, а веса соответствующих синапсов интерпретируются как координаты положения узла, и выходной сигнал формируется по принципу «победитель забирает все», т. е. ненулевой выходной сигнал имеет нейрон, ближайший (в смысле весов синапсов) к подаваемому на вход объекту. В процессе обучения веса синапсов настраиваются таким образом, чтобы узлы решетки «располагались» в местах локальных сгущений данных, т. е. описывали кластерную структуру облака данных, с другой стороны, связи между нейронами соответствуют отношениям соседства между соответствующими кластерами в пространстве признаков. Изначально SOM представляет собой сетку из узлов, соединенных между собой связями. Кохонен рассматривал два варианта соединения узлов - прямоугольная и гексагональная сетки. Отличие состоит в том, что в прямоугольной сетке каждый узел соединен с четырьмя соседними узлами, а в гексагональной - с шестью ближайшими узлами. Таким образом, для двух таких сеток процесс построения SOM отличается лишь тем, где перебираются ближайшие к данному узлу соседи [8; 9]. Начальное положение сетки выбирается произвольным образом. Основными вариантами являются вариант случайного начального расположения узлов в пространстве и вариант расположения узлов в плоскости. После инициализации расположения узлов они начинают перемещаться в пространстве согласно следующему алгоритму: 1. Случайным образом выбирается точка данных x. 2. Определяется ближайший к x узел карты mj (Best Matching Unit - BMU). Данный шаг определяется формулой (1): W H M (t) = min(min(d (x(t), mij (t)))), (1) i=0 j=0 j где t - итерация обучения; W - ширина карты; H - высота карты; x(t) - обучающий вектор; mij (t) - нейрон карты в позиции (ij); d - функция сравнения двух векторов. 3. Этот узел перемещается на заданный шаг по направлению к x. Однако он перемещается не один, а увлекает за собой определенное количество ближайших узлов из некоторой окрестности на карте. Например, если радиус окрестности равен 1, то вместе с ближайшим узлом mj по направлению к x двигаются 4 его соседа по карте в случае прямоугольной сетки и 6 соседей в случае гексагональной сетки. Изменение веса узла происходит по следующей рекуррентной формуле: шг (t) = шг (t -1) + ha (t) • (x(t) - шг (t -1)), (2) где t - итерация обучения; (t) - значение функции соседства; x(t) - обучающий вектор; hci - нейронкарты. 4. Алгоритм повторяется определенное число итераций. На первом этапе число итераций выбирается порядка тысячи, на втором - десятки тысяч (число шагов может сильно изменяться в зависимости от задачи). Итогом работы алгоритма обучения является обученная карта, т. е. будут определены веса всех нейронов. Также возможен вариант обучения сразу нескольких (3) (4) (5) (11) (9) (10) h( p) = h( p) = карт и выбор лучшей карты по определенным критериям. Мультиагентный подход. Для эффективного решения задачи требуется механизм, позволяющий, с одной стороны, обеспечивать распределенное решение задачи восстановления текстуры, с другой стороны, получать оптимальные результаты точности в сравнении с базовым алгоритмом. Мультиагентный подход позволяет решить выше обозначенные проблемы. Агентом является все, что может рассматриваться как воспринимающее свою среду с помощью датчиков и воздействующее на эту среду с помощью исполнительных механизмов [10]. Решение задачи одним агентом на основе инженерии знаний представляет собой точку зрения классического искусственного интеллекта, согласно которой агент (например, интеллектуальная система), обладая глобальным видением проблемы, имеет все необходимые способности, знания и ресурсы для ее решения. Напротив, при создании многоагентных или мультиагентных систем (МАС) предполагается, что отдельный агент может иметь лишь частичное представление о задаче и способен решить лишь некоторую ее подзадачу. Поэтому для решения сколько-нибудь сложной проблемы, как правило, требуется взаимодействие агентов, которое неотделимо от формирования МАС. В МАС задачи распределены между агентами, каждый из которых рассматривается как член группы или организации. Распределение задач предполагает назначение ролей каждому из агентов, определение меры его ответственности и требований к опыту [11-13]. Предлагаемый механизм решения задачи реконструкции фона изображения. Предлагаемый алгоритм реконструкции фона на изображении на основе карт Кохонена состоит из двух основных этапов: обучение карты и восстановление пропусков в векторах данных. Для успешного выполнения данных этапов необходимо определить следующие аспекты и компоненты процесса: 1. Механизм преобразования изображения в массив векторов данных. Одним из наиболее эффективных вариантов является механизм разбиения изображения на блоки определенной аналитиком размерности и формирования на основе пикселей блока его векторного представления. При этом поврежденные пиксели не должны учитываться при формировании вектора данных [14-16]. Вектор признаков строится по формулам юг- (х, y) = P[l + i © S, t + i + S], l = x-|_S/2j , t = y-|_S/2j , где S - размер блока пикселей; P[i, j] - пиксель, расположенный в i-м столбце и j-й строке на изображении; х, у - координаты, для которых строится вектор. При использовании представленного выше метода построения векторов необходимо учитывать следующие ограничения, заданные формулами [S/ 2j < х < W-|_S/2j , (6) |_S/2j<у <H-|_S/2j, (7) где S - размер блока пикселей; W - ширина изображения; H - высота изображения. Данные условия вводятся в силу того, что размер рассматриваемого блока больше одного пикселя и, соответственно, количество таких блоков будет меньше, чем количество пикселей в изображении. Дополнительно накладывается условие, что S должно быть четным для более точного описания окружности пикселя, а именно, для симметричности окружности пикселя. 2. Механизм инициализации карты. Двумя наиболее распространенными вариантами являются инициализация случайными значениями и инициализация стартовыми блоками. 3. Одним из этапов обучения карты Кохонена является этап грубой настройки, для него требуется выполнить выбор наиболее информативных векторов данных. Обычно для этого выбираются максимально не похожие друг на друга векторы данных. 4. Мера расстояния между входным обучающим вектором (или вектором данных при восстановлении) и узлом карты, необходимая для выбора нейрона- победителя. Обычно определяется как расстояние между векторами и рассчитывается по формуле (8): dj =jz (xk - wjk )2 , (8) V k=1 где xk - k-е значение вектора входных данных; wijk - k-е значение вектора весов нейрона из i-й и j-й позиции карты; S - размерность вектора весов. 5. Для эффективного обучения карты необходимо определить используемую функцию соседства. Самыми распространенными являются следующие функции: Гаусса (Gaus, формула расчета (9)), «французская шляпа» (FrenchHat, формула расчета (10)) и дискретная (Discrete, формула расчета (11)): 2 p h(p, t) = e20 (t\ 1,| p\ < a -3, a < Ip| < 3a, 0,|p| > 3a. 1, |p\ <1, 2, 1<| p| <2, 4, 2 <1 p| <3, j, 3 <1 p| <4, где p - расстояние между узлами карты; t - номер итерации; a - заранее определенная константа (обычно a = 2). 6. Критерии останова обучения или параметры скорости обучения нейронной сети. Основными критериями выступают максимальное количество итераций, при котором система считается обученной, и минимальная точность, рассчитываемая как сумма средних изменений весов в итерации обучения. Определение данных компонентов, аспектов и настроек позволяет адаптировать технологию восстановления пропусков в данных для решения прикладной задачи реконструкции поврежденного изображения. Решение задачи восстановления фона изображения за удаляемым объектом состоит из двух основных этапов: обучение карты Кохонена и восстановление фона по обученной карте. Эффективность реконструкции «пропусков» на стыке нескольких текстур увеличивается при восстановлении каждой смежной текстуры по отдельно обученной карте. Для этого требуется еще один дополнительный шаг сегментации исходного изображения. Система состоит из двух основных блоков: блок обучения и блок восстановления. Данное разделение на блоки позволяет определить основные классы подзадач для решения общей задачи системы. При анализе функциональных требований и проектировании будущей системы был сделан выбор в виде следующей модификации классического варианта решения задачи восстановления фона изображения по карте Кохонена: для увеличения точности получаемых результатов предлагается использование мультикартирования, т. е. построение сразу нескольких карт; затем на этапе восстановления параллельно восстанавливать изображение по нескольким картам с выбором оптимального значения для каждого пикселя. С точки зрения мультиагентного подхода архитектура системы изображена на рис. 1. Заключение. Экспериментальный программный продукт позволил провести исследование предложенной архитектуры в части точности и быстродействия решения задачи. Результаты реконструкции текстуры фона изображения представлены на рис. 2. Для проведения экспериментальных исследований были выбраны 100 изображений различной сложности и размерности из базы эталонных изображений CBIR database (http://www.cs.washington.edu/). Данные файлы были объединены в группы по 10 изображений для удобства проведения тестов и интерпретации результатов. На первом этапе исследования осуществлялся поиск оптимального количества карт (рис. 3). По результатам проведенных исследований можно сделать следующий вывод: одна обученная карта Кохонена в большинстве случаев не покрывает 50 % палитры исходного изображения, поэтому мультикартирование является оптимальным механизмом для восстановления. Четыре карты являются оптимальным количеством карт, так как позволяют достигать более 92 % покрытия палитры без существенной потери производительности системы как в случае 8 карт. Результаты точности реконструкции приведены на рис. 4. По результатам исследования точности восстановления можно сделать вывод, что многоагентная конфигурация алгоритма восстановления позволяет добиться лучших результатов. На менее сложных изображениях результаты многоагентной и одноагентной конфигурации близки, однако с увеличением размерности и структурной сложности изображений прирост точности становится заметен. Результаты исследования быстродействия алгоритмов представлены на рис. 5. По результатам исследования быстродействия алгоритмов системы видно, что мультиагентный подход позволяет добиться увеличения быстродействия алгоритмов. Оптимальным числом агентов для системы является четыре, так как позволяет добиться почти 100 %-ого ускорения алгоритмов в сравнении с одноагентным подходом. Однако дальнейшее увеличение числа агентов отрицательно сказывается на системе, так как увеличиваются затраты на коммуникацию агентов. Агенг-оператор Интерфейсный агент Блок обучения Блок восстановления Обучающий агент В осстанавливающии агент Обучающий агент В осстанавливающии Обучающий агент агент 1 1 1 ^ В оссганавливающий 1 агент Рис. 1. Архитектура мультиагентной системы по восстановлению текстуры а б в г Рис. 3. Результаты поиска оптимального количества карт а б в г Рис. 2. Результаты реконструкции текстуры фона изображения: а - исходное изображение; б - сегментированное изображение; в - восстановленное изображение; г - восстановленное изображение с предварительной сегментацией Рис. 4. Результаты оценки точности алгоритма восстановления: а - по метрике MSE; б - по метрике PSNR; в - по метрике SSIM; г - по проценту точно восстановленных пикселей а б Рис. 5. Результаты исследования быстродействия алгоритмов системы: а - алгоритм обучения; б - алгоритм восстановления Таким образом, проведенные исследования показали, что комбинирование методов кластерного анализа, классических приемов обработки изображений, а также мультиагентного подхода позволяет решить задачу реконструкции фона изображения. Выявлено, что мультиагентный подход не только не уменьшил точность работы системы, но и позволил добиться незначительного увеличения данного показателя. Кроме этого, механизм распределенного решения задачи позволил достичь 90-110 % увеличения быстродействия системы в сравнении с одноагентной системой.
×

Об авторах

Андрей Николаевич Болгов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: anbolgov@gmail.com
аспирант 660014, г. Красноярск, просп. им. газеты «Красноярский рабочий», 31

Список литературы

  1. Форсайт Д. А., Понс Дж. Компьютерное зрение. Современный подход М. : Вильямс, 2004. 928 с.
  2. Фаворская М. Н., Петухов Н. Ю. Распознавание природных объектов на аэрофотоснимках с применением нейронных сетей // Автометрия, 2011. Т. 47, № 3. С. 34-40.
  3. Kohonen T. Self-Organizing Maps. New York : Springer Series in Information Sciences, 2001. 501 p.
  4. Рассел С., Норвиг П. Искусственный интеллект: современный подход : пер. с англ. М. : Вильямс, 2006. 1408 с.
  5. Andreas L., Pericles A. Agent intelligence through data mining Munchen : Technische Universitat Munchen, 2008. 215 p.
  6. Болгов А. Н. Использование карт Кохонена для восстановления фоновой текстуры на изображении // Техническое зрение в системах управления - 2014 : материалы науч.-техн. конф. М., 2014. С. 437.
  7. Литтл Р. Дж. А., Рубин Д. Б. Статистический анализ данных с пропусками М. : Финансы и статистика, 1991. 430 с.
  8. Smigiel E. Self-Organizing Maps and Ancient Documents // Proceeding 6th International Workshop on Document Analysis Systems VI - DAS. 2004. Pp. 125-134.
  9. Abonyi J., Feil B. Cluster Analysis for Data Mining and System Identification. Oxford : Blackwell, 2007. 320 p.
  10. Serra J. Image analysis and mathematical morphology London : Academic Press Inc., 1982. 610 p.
  11. Nisbet R., Elder J., Miner G. Handbook of Statistical Analysis and Data Mining Applications London : Academic Press Inc., 2009. 864 p.
  12. Image Quality Statistics and Their Use in Stegana- lysis and Compression / I. Avcibas [et al.]. Istanbul : Bogazigi University, 2001. P. 211-218.
  13. Szeliski R. Computer Vision Algorithms and Applications. Berlin : Springer, 2011. 812 p.
  14. Datta R., Joshi D., Wang J. Z. Image retrieval: Ideas, influences, and trends of the new age // ACM Computing Surveys. 2008. Vol. 40. P. 1-60.
  15. Horton N. J., Lipsitz S. R. Multiple Imputation in Practice: Comparison of Software Packages for Regression Models with Missing Variables // The American Statistician, 2001. Vol. 55. P. 244-254.
  16. Shamir A., Avidan S. Seam carving for content- aware image resizing // Proceeding SIGGRAPH '07 ACM SIGGRAPH 2007 papers. New York : ACM, 2007. P. 341-350.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Болгов А.Н., 2014

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах