ОЦЕНКА КАЧЕСТВА МАЛЫХ ВЫБОРОК БИОМЕТРИЧЕСКИХ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ ДИФФЕРЕНЦИАЛЬНОГО ВАРИАНТА СТАТИСТИЧЕСКОГО КРИТЕРИЯ СРЕДНЕГО ГЕОМЕТРИЧЕСКОГО


Цитировать

Полный текст

Аннотация

Одним из наиболее популярных при статистическом анализе данных является критерий Пирсона. Критерию хи-квадрат Пирсона полностью посвящена первая часть рекомендации Госстандарта, тогда как все остальные критерии описаны во второй части рекомендаций. Целью является оценка мощностей двух вариантов статистических критериев среднего геометрического от эмпирической и теоретической функций вероятности. Исследуется мощность критерия Крамера - фон Мизеса, созданного в 1928 г., и критерия среднего геометрического, предложенного в 2014 г. Сравнение осуществляется для малых тестовых выборок, характерных для биометрических данных. Предложено воспользоваться средствами имитационного моделирования и численно получить оценку мощности сравниваемых критериев в точке равновероятных ошибок первого и второго рода. Применена логарифмическая шкала сравнительной оценки мощностей, в которой зависимости сравниваемых мощностей от числа опытов в обучающей выборке близки к линейным. Показано, что предложенный ранее статистический критерий среднего геометрического сравниваемых функций вероятности уступает по мощности своему дифференциальному аналогу. Наибольшей мощностью подавления шумов квантования обладает критерий, построенный как среднее геометрическое сравниваемых плотностей функций вероятности. Рассматриваемые критерии в их многомерном варианте исполнения способны работать на предельно малых выборках биометрических данных от 11 до 21 примера одного биометрического образа.

Полный текст

Введение. Информационное общество предполагает активное использование интернет-ресурсов. Государственные и частные структуры создают на своих сайтах личные кабинеты пользователей. К сожалению, существующая практика парольной защиты доступа к личным кабинетам обладает существенными уязвимостями. Пользователи не способны запоминать длинные случайные пароли. Владелец информационного ресурса не может быть уверен в том, что к личному электронному кабинету получил доступ именно его хозяин. Пароль может быть перехвачен программной закладкой, также не составляет проблемы подменить IP-адрес интернет-пользователя. Для усиления защиты доступа к электронным кабинетам в настоящее время разрабатываются технологии биометрической аутентификации личности путем преобразования личных биометрических данных человека в его криптографический ключ или длинный случайный пароль доступа. Используются такие биометрические образы, как рисунок отпечатка пальца [1], рисунок радужной оболочки глаза [2], голосовой пароль [3], рукописный пароль [4], рисунок кровеносных сосудов глазного дна или ладони руки [5]. Естественно, что преобразователи «биометрия-код» не могут быть идеальными и имеют вероятности ошибок первого и второго рода. Возникает необходимость тестирования ошибок первого и второго рода на реальных биометрических данных. Кроме того, при настройке «нечетких экстракторов» [1-3] и при обучении нейросетевых преобразователей [4; 5] необходимо контролировать отсутствие в биометрических данных грубых ошибок. По сути дела, на небольшом числе примеров биометрического образа необходимо контролировать показатель близости распределения биометрических данных к многомерному нормальному закону [6]. Формально для этой цели может быть использован классический одномерный критерий хи-квадрат Пирсона, однако такой подход далек от оптимального. В рамках данной статьи мы попытаемся доказать, что контроль нормальных плотностей распределения биометрических данных выгоднее осуществлять статистическим критерием Крамера - фон Мизеса. Мощность критерия Крамера - фон Мизеса на малых выборках примеров биометрических данных оказывается существенно выше, чем мощность аналогичного критерия хи-квадрат. Появление шумов квантования при статистической обработке малых выборок. Рассмотрим простейшую ситуацию, когда тестовая или обучающая выборка представлены 9 примерами образа «свой». Из-за того, что непрерывная функция вероятности первого биометрического параметра - малой выборки, мы вынуждены описывать ее ступенчатой монотонно возрастающей функцией , как это показано в левой части рис. 1. Для того, чтобы построить ступенчатое монотонно возрастающее приближение необходимо осуществить сортировку биометрических данных по их возрастанию: для (1) где n - размер тестовой выборки или число квантов приближения монотонной функции вероятности. В этом случае монотонно возрастающая ступенчатая функция будет описываться следующим кусочно-постоянным приближением: (2) Ошибка приближения или шум квантования находятся как разность непрерывной функции вероятности и ее ступенчатого приближения: (3) В нижней части рис. 1 отображены функции ошибки квантования или шумы квантования, возникающие из-за малых тестовых выборок. Рис. 1. Эффекты квантования непрерывной вероятности распределения значений и непрерывной плотности распределения значений путем их представления 9 примерами, порождающие шум ошибки квантования В контексте вышеизложенного, статистический критерий Колмогорова-Смирнова [7] следует рассматривать как поиск максимального значения модуля ошибки приближения: (4) или выбор наибольшего из локальных максимумов шума квантования. С этих же позиций статистический критерий Крамера - фон Мизеса [7] является оценкой стандартного отклонения шума квантования непрерывной функции вероятности: (5) если выполняется условие нулевого математического ожидания шума квантования . Следует подчеркнуть, что статистический критерий Колмогорова-Смирнова (4) всегда имеет меньшую мощность в сравнении с критерием Крамера - фон Мизеса (5). Критерий Колмогорова-Смирнова (4) точечный, а критерий Крамера - фон Мизеса (5) интегральный. Очевидно, что с ростом размеров тестовой выборки n оба этих статистических критерия набирают мощность оценок, однако оценка по интегральному критерию всегда оказывается надежнее, чем оценка по точечному критерию. При интегрировании шумы квантования подавляются, при точечных оценках они усиливаются. В этом отношении все интегральные статистические критерии представляют значительный интерес как исходный генетический материал для создания более мощных статистических критериев высокой размерности. На сегодняшний день известно достаточно много статистических критериев, часть из которых приведена в таблице. Следует подчеркнуть, что на практике наиболее часто используется критерий хи-квадрат Пирсона, созданный им в 1900 г. [8]. Популярность этого статистического критерия обусловлена тем, что Пирсон построил аналитическое описание хи-квадрат плотностей распределения значений. Опираясь на это аналитическое описание, разработаны таблицы доверительных вероятностей для оценки уровня достоверности той или иной статистической гипотезы для критерия хи-квардат. На сегодняшний день критерий хи-квадрат следует рассматривать как эталон при исследовании мощности других критериев. Примеры статистических критериев с указанием года их создания № Название критерия и год создания Формула критерия 1 Критерий хи-квадрат или один из вариантов критерия Пирсона 1900 г. 2 Критерий Крамера - фон Мизеса 1928 г. 3 Критерий Колмогорова-Смирнова 1933 г. 4 Критерий Смирнова - Крамера - фон Мизеса 1936 г. 5 Критерий Джини 1941 г. 6 Критерий Андерсона-Дарлинга 1952 г. 7 Критерий Ватсона 1961 г. 8 Критерий Фроцини 1978 г. 9 Дифференциальный вариант критерия Джини 2006 г. [6] 10 Критерий среднего геометрического 2014 г. [7] В частности, необходимо для всех широко применяемых на данный момент статистических критериев [9] дать оценку их мощность по отношению к мощности классического и наиболее часто используемого критерия хи-квадрат. В рамках данной статьи мы попытаемся дать относительные оценки мощности для вариантов относительно нового критерия среднего геометрического сравниваемых между собой теоретической и эмпирической функций вероятности. Использование критерия хи-квадрат как фактического эталона мощности для других критериев. Следует отметить, что оценка мощности критерия хи-квадрат во многом остается субъективной. В частности, это связано с тем, что уровень доверительной вероятности принимаемых решений выбирает сам исследователь. Исключим эту неопределенность. Далее будем судить о качестве принимаемых решений по точке равновероятных ошибок первого и второго рода P1 = P2 = PEE. Еще одной неопределенностью является то, какой закон распределения выбран как теоретический и какой закон выбран как экспериментальный. Будем рассматривать ситуацию, когда выбран нормальный закон распределения как теоретический, и экспериментальный закон распределения также является нормальным. Как альтернативу будем использовать в качестве экспериментального закона равномерный закон, проверяя его на гипотезу нормальности. Результаты численного эксперимента отражены на рис. 2. На рис. 2 видно, что для выборок из 15 примеров равновероятная ошибка составляет PEE = 0,272, если же объем тестовой выборки увеличить до 30 примеров, то равновероятная ошибка падает до величины PEE = 0,194. С увеличением объема тестовой выборки в 2 раза происходит снижение примерно в раз вероятности появления ошибок. На практике удобно пользоваться логарифмической шкалой значений равновероятных ошибок. При логарифмическом представлении данных мощность критерия хи-квадрат хорошо описывается ломаными прямыми из-за того, что при росте числа примеров в обучающей выборке обычно увеличивают число столбцов в гистограмме. Для того, чтобы уйти от этого эффекта, будем использовать гистограмму, состоящую из 6 столбцов для выборки, изменяющейся в пределах от 9 до 144 примеров. Данные о мощности критерия хи-квадрат отображены в верхней части рис. 3 в виде утолщенной линии. На рис. 3 видно, что при одинаковом числе столбцов гистограммы в логарифмическом масштабе происходит линейное уменьшение вероятности ошибок, т. е. эталонная мощность критерия хи-квадрт хорошо описывается следующим приближением: (6) Дифференциальный вариант критерия среднего геометрического от сравниваемых между собой функций плотности вероятности. Критерий среднего геометрического (строка 10 таблицы) был предложен в 2014 г. [10] и более подробно был исследован в 2015 г. [11; 12]. Хронологии создания статистических критериев приходится уделять серьезное внимание в силу того, что давно созданные статистические критерии, размещенные в верхней части таблицы, хорошо изучены. Рассматривать их как альтернативу критерию хи-квадрат не следует. Иначе обстоит дело со статистическими критериями, созданными недавно. Они практически не исследованы и вполне могут быть использованы как генетический материал при синтезе новых критериев существенно более мощных, чем критерий хи-квадрат Пирсона. На рис. 3 видно, что мощность критерия среднего геометрического (sg) хуже мощности критерия хи-квадрат на выборках объемом до 30 опытов. При выборках более 30 опытов критерия ситуация обратная, мощность sg критерия выше мощности критерия хи-квадрат. Мощность критерия среднего геометрического описывается следующим приближением: (7) Рис. 2. Результаты численного эксперимента по оценки мощности критерия хи-квадрат для выборок, состоящих из 15 и 30 примеров при одинаковом числе столбцов гистограммы Рис. 3. Эталонная мощность критерия хи-квадрат (толстая линия) в логарифмической шкале равновероятных ошибок: sg - критерий среднего геометрического; dsg -дифференциальный вариант критерия среднего геометрического Следует подчеркнуть, что критерий среднего геометрического можно усилить, если перейти к его дифференциальному аналогу: (8) где - теоретическая вероятность попадания в i-й столбец гистограммы; - экспериментально полученная вероятность попадания в i-й столбец гистограммы. Дифференциальный вариант критерия среднего геометрического описывается более круто падающей линией в логарифмическом масштабе для гистограмм с 6 столбцами: (9) Многомерные обобщения критериев среднего геометрического. Казалось бы, что критерии среднего геометрического бесполезны для биометрии, так как работают хуже критерия хи-квадрат на выборках объемом менее 30 опытов. На самом деле это не так. Дело в том, что все биометрические данные многомерны. Так, в среде моделирования «БиоНейроАвтограф» [13] осуществляется учет 416 биометрических параметров. Каждый биометрический параметр - это один из коэффициентов двухмерного преобразования Фурье от пары функций X(t), Y(t). Формально мы можем рассматривать вектор из 416 биометрических параметров вместо одного биометрического параметра . Каждый из биометрических параметров будет иметь свои статистические моменты, для построения многомерного критерия среднего геометрического необходимо осуществить центрирование и нормирование всех биометрических параметров: (10) где - математическое ожидание биометрического параметра; - стандартное отклонение биометрического параметра. После нормирования и центрирования следует объединить в одну группу все биометрические данные путем их простой конкатенации: (11) Если у нас имеется n примеров биометрического образа, то, объединив их между собой конкатенацией, мы получим тестовую выборку размером . Это обстоятельство позволяет обойти проблему тестирования качества биометрических образов на малых выборках. Так, при использовании всего одного примера n = 1 416-мерный анализ биометрического образа по критерию дифференциального среднего геометрического (8) должен давать одинаковые значения ошибок первого и второго рода на уровне PEE = 0,00000000031 (вычисление выполнено по приближенной формуле (9)). Этот пример показывает, что 416-мерный статистический анализ биометрических данных по критерию dsg эффективнее 416-мерного критерия хи-квадрат (6) примерно в 300 000 раз. То есть при использовании 416-мерного критерия хи-квадрат придется использовать 300 000 примеров вместо 1-го примера при применении критерия dsg. Естественно, что эта приближенная оценка выигрыша, она построена на том, что оба сравниваемых многомерных критерия должны быть одинаково чувствительны к уровню коррелированности биометрических данных. Тем не менее, выигрыш от перехода к многомерной статистической обработке биометрических данных значителен. Этот эффект отмечается как для критерия хи-квадрат [14], так и для рассмотренных в данной статье критериев среднего геометрического. Заключение. Каждый из статистических критериев является некоторым нелинейным цифровым фильтром, который давит шумы квантования. Увеличивая размерность цифрового фильтра (размерность статистического критерия), мы естественно увеличиваем его мощность. В итоге, мы можем снизить выборку примеров до предельно малого значения в 1 пример. Многомерные статистические критерии должны оставаться работоспособными даже на выборках из одного или двух примеров, если их ранее кто-то настроил, применив выборку из 20 примеров исследуемого биометрического образа. То есть при многомерном статистическом анализе биометрических данных мы имеем примерно ту же ситуацию, что и при многомерном нейросетевом анализе [15]. Настройку многомерных статистических критериев приходится осуществлять на выборке примерно из 20 примеров, а решение по качеству можно принимать по каждому примеру отдельно. Видимо многомерный статистический анализ с использованием различных статистических критериев и нейросетевой статистический анализ являются близкими по эффективности инструментами. Тем не менее, между ними существует значительная разница: как работают искусственные нейронные сети понять трудно, как осуществляется синтез и настройка многомерных статистических критериев - понятно. В рамках данной статьи мы попытались показать, что оптимизация многомерных статистических критериев вполне возможна.
×

Об авторах

А. И. Иванов

Пензенский государственный университет

Email: ivan@pniei.penza.ru
Российская Федерация, 440026, г. Пенза, ул. Красная, 40

К. А. Перфилов

Пензенский государственный университет

Российская Федерация, 440026, г. Пенза, ул. Красная, 40

Е. А. Малыгина

Пензенский государственный университет

Российская Федерация, 440026, г. Пенза, ул. Красная, 40

Список литературы

  1. Ramírez-Ruiz J. Keys Generation Using FingerCodes // Advances in Artificial Intelligence. IBERAMIA-SBIA. 2006 (LNCS 4140). P. 178-187.
  2. Monrose F. Cryptographic key generation from voice // Proc. IEEE Symp. on Security and Privacy. 2001. P. 57.
  3. Feng Hao. Crypto with Biometrics Effectively // IEEE Transactions on Computers. 2006. Vol. 55, №. 9. P. 23.
  4. Язов Ю. К., Волчихин В. И., Иванов А. И. Нейросетевая защита персональных биометрических данных. М. : Радиотехника, 2012. C. 157.
  5. Технология использования больших нейронных сетей для преобразования нечетких биометрических данных в код ключа доступа : монография / Б. С. Ахметов [и др.]. Алматы : Изд-во LEM, 2014. C. 144.
  6. Быстрые алгоритмы тестирования нейросетевых механизмов биометрико-криптографической защиты информации / А. Ю. Малыгин [и др.]. Пенза : Изд-во Пензенского гос. ун-та, 2006. C. 161.
  7. Кобзарь А. И. Прикладная математическая статистика для инженеров и научных работников. М. : ФИЗМАТЛИТ, 2006. C. 816.
  8. Р 50.1.033-2001. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Ч. 1. Критерии типа хи-квадрат / Госстандарт России. М., 2001. C. 140.
  9. Р 50.1.037-2002. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Ч. 2. Непараметрические критерии / Госстандарт России. М., 2002. C. 123.
  10. Серикова Н. И., Иванов А. И., Качалин С. В. Биометрическая статистика: «сглаживание» гистограмм, построенных на малой обучающей выборке // Вестник СибГАУ. 2014. № 3(55). C. 146-150.
  11. Использование среднего геометрического, ожидаемой и наблюдаемой функций вероятности как статистического критерия оценки качества биометрических данных / Б. С. Ахметов [и др.] // Надежность и качество 2015 : ХХ Междунар. симпозиум. Пенза : Изд-во Пензенского гос. ун-та, 2015. Т. 2. C. 281-283.
  12. Перфилов К. А., Иванов А. И., Проценко Е. Д. Расширение многообразия статистических критериев, используемых при проверке гипотез распределения значений биометрических данных // Европейский союз ученых 2015. № 13, ч. 5. C. 9-12.
  13. Иванов А. И., Захаров О. С. Среда моделирования «БиоНейроАвтограф». Программный продукт создан лабораторией биометрических и нейросетевых технологий, размещен на сайте АО «ПНИЭИ» [Электронный ресурс]. URL: http://пниэи.рф/activity/science/ noc.htm (дата обращения: 10.02.2015).
  14. Уменьшение влияния размера образа в связи с переходом на многомерный статистический анализ биометрических данных / В. И. Волчихин [и др.] // Известия высших учебных заведений. Поволжский регион. Технические науки. 2015. № 1. C. 50-59.
  15. Оценка рисков высоконадежной биометрии : монография / Б. С. Ахметов [и др.]. Алматы : Из-во КазНТУ им. К. И. Сатпаева, 2014. C. 108.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Иванов А.И., Перфилов К.А., Малыгина Е.А., 2016

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах