Identification Algorithm Faces and Criminal Actions
- Authors: Hadi N.M.1
-
Affiliations:
- Russian Technological University MIREA
- Issue: Vol 9, No 3 (2022)
- Pages: 19-31
- Section: Articles
- URL: https://journals.eco-vector.com/2313-223X/article/view/529852
- DOI: https://doi.org/10.33693/2313-223X-2022-9-3-19-31
- ID: 529852
Cite item
Full Text
Abstract
Currently, there are a number of unresolved problems in the identification of images. If a person is wearing something on their face, such as a mask or glasses, or at some point part of the face is covered by clothing, hair or an object, then the video surveillance system may lose sight of the person. Identification deteriorates significantly, and recognition of a person occurs only after some time. The purpose of this work is to improve the existing methods of recognition. The paper proposes an algorithm based on the multi-cascade method and the object detection method. This algorithm is able to identify a person by the actions of a criminal nature and by the face by highlighting some parts of the face in the form of squares and rectangles using the computer vision library. As a result of testing, the algorithm showed high detection accuracy using a GPU with 16 GB of video memory.
Full Text
Введение Задача выделения лица человека в естественной или искусственной обстановке и последующей идентификации всегда находилась в ряду самых приоритетных задач для исследователей, работающих в области систем машинного зрения и искусственного интеллекта. Тем не менее, множество исследований, проводящихся в ведущих научных центрах всего мира в течение нескольких десятилетий, так и не привело к созданию реально работающих систем компьютерного зрения, способных обнаруживать и распознавать человека в любых условиях. Несмотря на близость задач и методов, используемых при разработке альтернативных систем биометрической идентификации человека таких как идентификация по отпечатку пальца или по изображению радужной оболочки, системы идентификации по изображению лица существенно уступают вышеперечисленным системам. Серьезной проблемой, стоящей перед системами компьютерного зрения, является большая изменчивость визуальных образов, связанная с изменениями освещенности, окраски, масштабов, ракурсов наблюдения. Кроме того, люди имеют привычку ходить по улицам и в помещении одетыми, что приводит к существенной изменчивости изображений одного и того же человека. Решение этой проблемы лежит в правильном выборе описания объектов, для обнаружения и распознавания которых создается система. Описание объекта должно учитывать его наиболее характерные особенности и быть достаточно представительным, чтобы отличать данный объект от остальных элементов окружающей сцены. За последнее время было создано множество алгоритмов, благодаря которым качество распознавания лиц становилось лучше, такие как: иерархическая пирамида сетей разнообразного внимания (ИПСРВ) [2], где предлагается пирамида разнообразного внимания для автоматического и адаптивного изучения многомасштабных разнообразных локальных представлений. Суть этого алгоритма состоит в том, чтобы модели [3; 4] могли сосредоточиться на различных локальных участках и генерировать разнообразные локальные особенности. Также существует такой алгоритм, как каноническое представление лиц сверточной нейронной сети (КПЛ-СНС) [5], основанный на контролируемом автокодировщике, который может отображать расхождение между исходным и целевым доменами, встречающимися в сценарии распознавания для неподвижного видео. Были также созданы глубокие сверточные нейронные сети с использованием триплетных потерь [9], такие как: магистральный ответвленный набор глубоких сверточных нейронных сетей (МОН-СНС) [6], где извлекаются дополнительные характеристики из целостных изображений лица, а также участков лица вокруг ориентиров через магистральные и ответвленные сети соответственно, и сеть Haarnet [7] с симбиозом GoogleNet [8], которая эффективно изучает целостное представление лица, в то время как ветви изучают больше локальных и асимметричных черт, связанных с позой или особыми чертами лица, посредством особенностей, подобных Хаару. В первом параграфе происходит сравнение нейросетевых систем, и на основе результатов делается вывод, какой алгоритм необходимо использовать. Во втором параграфе происходит обзор алгоритмов на основе мультикаскадного метода и метода детектировании объектов. В третьем параграфе происходит разработка нейросетевой системы в инструментарии Kaggle. В четвертом параграфе проводится тестирование с использованием видеокарты на 16 Гб видеопамяти. 1. Сравнение нейросетвых систем Производительность вышеупомянутых систем распознавания лиц на основе видео оценивается с использованием набора данных Cox Face DB [10]. Этот набор данных специально собран для приложений, использующих видеонаблюдение. Данный набор данных состоит из высококачественных неподвижных лиц, снятых с помощью фотоаппаратов в контролируемых условиях и видео низкого качества, снятых с разных видеокамер в неконтролируемых условиях. Пример фото и видео продемонстрирован на рис. 1. Рис. 1. Пример качественного эталонного неподвижного изображения и случайного некачественного видеоизображения соответствующего человека, снятого фотоаппаратом и тремя видеокамерами [Huang, 2015] Fig. 1. An example of a good quality reference still image and a random low quality video image of the corresponding person captured by a camera and three video cameras [Huang, 2015] 1.1. Эталонное неподвижное изображение [Reference still image] Системы оцениваются в соответствии с экспериментальным протоколом, предложенным в [10], где области интереса (ОИ) каждого пробного видео сравнивается с ОИ эталонных неподвижных изображений, и распознавание Rank-1 сообщается как точность распознавания лиц. Поскольку для систем распознавания лиц на основе видео часто требуются обработка в реальном времени, также следует учитывать вычислительную сложность таких систем. В этом отношении сложность можно определить по количеству операций (чтобы сопоставить ОИ пробного видео с ОИ эталонного неподвижного изображения), количеству сетевых параметров и слоев. Чтобы подтвердить качество классификации систем видеонаблюдения на базе нейронной сети для работы в реальном времени, в табл. 1 представлены результаты, показывающие качество классификации каждой нейронной сети и ее вычислительную сложность. Таблица 1 Распознавание Rank-1 и вычислительная сложность систем распознавания лиц на основе видео из набора данных Cox Face DB [Bashbaghi, 2018] [Rank-1 recognition and computational complexity of video-based face recognition systems from the Cox Face DB [Bashbaghi, 2018]] Система распознавания лиц [Face system recognition] Rank-1 распознавание [Rank-1 recognition] Вычислительная сложность [Computational complexity] Операции [Operations] Параметры, млн [Parameters, mn] Слои [Layers] ИСПРВ [HPDA] 92,35 ± 0,7 7,2 млрд [bn] 24,7 94 КПЛ-СНС [CFR-CNN] 87,29 ± 0,9 3,75 млн [mn] 1,2 7 МОН-СНС [TBE-CNN] 90,61 ± 0,6 12,8 млрд [bn] 46,4 144 Haarnet 91,40 ± 1,0 3,5 млрд [bn] 13,1 56 Из табл. 1 видно, что ИСПРВ, МОН-СНС и HaarNet обеспечивают наивысший уровень точности среди рассмотренных алгоритмов. Хотя КПЛ-СНС не может превзойти эти архитектуры, данная архитектура может достичь удовлетворительных результатов со значительно меньшей вычислительной сложностью. Более того, количество рабочих параметров и уровней сети являются ключевыми факторами при разработке глубоких СНС, которые могут значительно влиять на сходимость и время обучения. Учитывая эти критерии, КПЛ-СНС имеет самую низкую сложность конструкции, и, следовательно, кратчайшее время сходимости. Из полученных результатов, делается вывод, что в качестве алгоритма необходимо использовать метод, основанный на каскадах. Одним из самых популярных и надежных методов является мультикаскадный метод. 2. Обзор алгоритмов по созданию нейросетевой системы 2.1. Распознавание людей по действиям преступного характера Одна из важнейших задач видеонаблюдения - обнаружение аномальных событий, таких как дорожно-транспортные происшествия, преступления или незаконные действия. Как правило, аномальные события происходят редко по сравнению с нормальной деятельностью. Таким образом, для сокращения затрат труда и времени разработка интеллектуальных алгоритмов компьютерного зрения для автоматического обнаружения аномалий в видео является насущной необходимостью. В [12] цель практической системы обнаружения аномалий - своевременно сигнализировать об активности, которая отклоняется от нормальных шаблонов, и определить временное окно возникающей аномалии. Следовательно, обнаружение аномалий можно рассматривать как анализ видео, который отфильтровывает аномалии из нормальных шаблонов. Как только аномалия обнаружена, она может быть далее отнесена к одному из конкретных видов деятельности с использованием методов классификации. Структурная схема обнаружения аномалий представлена на рис. 2. Предлагаемый подход начинается с разделения видеонаблюдения на фиксированное количество сегментов во время обучения. Эти сегменты образуют экземпляры. Используя как положительные (аномальные), так и отрицательные (нормальные) пакеты, обучается модель обнаружения аномалий с использованием на выбор одной из 8 моделей нейросетей. 2.2. Идентификатор распознавания лиц Каскадный детектор лица, предложенный Виолой и Джонсоном [13], использует признаки Хаара и AdaBoost для обучения каскадных классификаторов, достигая хороших результатов с эффективностью в реальном времени. Тем не менее значительное количество работ [14; 15; 16] показывают, что производительность этого детектора будет значительно снижена в реальных приложениях с большими визуальными вариациями человеческих лиц даже с более продвинутыми признаками и классификаторами. Поэтому предлагается метод мультизадачной каскадной сверточной сети (МЗКСС). Нейронная сеть, основанная на МЗКСС, состоит из трех этапов. На первом этапе сеть быстро генерирует окна-кандидаты через неглубокую СНС. Затем сеть использует более сложную СНС, чтобы отклонить большое количество окон и уточнить нужное. Наконец, сеть использует более мощную СНС для уточнения результатов и вывода пяти местоположений лицевых ориентиров. Пример обнаружения лица показан на рис. 3. Рис. 3. Конвейер каскадной структуры, включающей трехуровневую МЗКСС [Zhang, 2016] Fig. 3. Pipeline cascading structure including three-level MTCNN [Zhang, 2016] Во-первых, окна-кандидаты создаются через сеть быстрого предложения (P-Net). Во-вторых, уточняются кандидаты на следующем этапе через сеть уточнений (R-Net). В-третьих, выходная сеть (O-Net) генерирует окончательную ограничивающую рамку и местоположения ориентиров лица. В первой фазе используется полностью сверточная сеть, называемая P-Net, чтобы получить окно лица кандидата и его регрессионный вектор ограничительной рамки. Затем кандидаты калибруются на основе оцененного вектора регрессии ограничивающего прямоугольника. После этого используется NMS для объединения сильно перекрывающихся кандидатов. Во второй фазе все кандидаты отправляются в другую СНС, называемой R-Net, которая дополнительно отклоняет большое количество неправильных кандидатов, использует регрессию ограничивающего прямоугольника для выполнения калибровки и выполняет NMS. Третья фаза аналогична второй, но на этой фазе цель состоит в том, чтобы идентифицировать более контролируемые области лица. В [18] разработано несколько СНС для распознавания лиц. Однако их производительность может быть ограничена следующими факторами: некоторым фильтрам в сверточном слое не хватает распределения, что может ограничивать их способность к различию; по сравнению с другими многокласcовыми задачами обнаружения и классификации обнаружение лиц является сложной задачей двоичной классификации, поэтому для каждого слоя может потребоваться меньше фильтров. С этой целью уменьшается количество фильтров и заменяется фильтр 5 × 5 на фильтр 3 × 3, чтобы уменьшить количество вычислений и увеличить глубину для повышения производительности. Благодаря этим улучшениям можно получить лучшую производительность с меньшим временем выполнения по сравнению с предыдущей архитектурой в [18]. Архитектура СНС показана на рис. 4. Для данной СНС применятеся PReLU [19] как нелинейная функция активации после свертки и полностью связанных слоев (за исключением выходного слоя). Используются три задачи для обучения детектора СНС: классификация лица / не лица, регрессия ограничительной рамки и позиционирование ориентиров лица. Цели обучения сформулированы как два типа задач классификации. Для каждого образца xi используются потери перекрестной энтропии: (1) где pi - вероятность того, что выборка xi, сгенерированная сетью, является лицом; yi - ярлык истины. Рис. 4. Архитектура P-Net, R-Net и O-Net: MP - операция подвыборки; Conv - свертка [Zhang, 2016] Fig. 4. P-Net, R-Net and O-Net architecture: MP - subfetch operation; Conv - convolution [Zhang, 2016] Для каждого окна-кандидата прогнозируется его смещение от ближайших координатов (т.е. слева, сверху, высоты и ширины ограничивающего прямоугольника). Цель обучения выражается в виде проблемы регрессии. Используется евклидова потеря для каждого образца xi: (2) где ŷi - цель регрессии, полученная из сети; yi - абсолютно истинная координата, это 4-мерный вектор. Подобно задаче регрессии ограничительной рамки, обнаружение ориентиров лица сформулировано как проблема регрессии, и минимизируется евклидова потеря: (3) где ŷi - координаты лицевого ориентира, полученные из сети; yi - точная координата для i-го образца, 10-мерный вектор, у которого пять ориентиров на лице, включающие левый глаз, правый глаз, нос, левый угол рта и правый угол рта. Некоторые функции потерь не используются (т.е. уравнения (1)-(3)). Например, для выборок в фоновой области рассчитываются только Lidet, а две другие потери устанавливаются в 0. Это может быть достигнуто непосредственно с помощью индикатора типа выборки. Тогда общая цель обучения может быть выражена как: (4) где N - количество обучающих образцов; αj указывает на важность задачи. Используется (αdet = 1, αbox = 0,5, αlandmark = 0,5) в P-Net и R-Net, в то время как (αdet = 1, αbox = 0,5, αlandmark = 1) в O-Net, чтобы получить более точные данные лицевых ориентиров. βij ϵ {0, 1} является индикатором типа выборки. В этом случае необходимо использовать произвольный градиентный спуск для обучения этих СНС. В отличие от традиционного интеллектуального анализа сложных образцов после первоначального обучения классификаторов, выполняется интерактивный анализ сложных образцов в задачах классификации лиц/нелиц, чтобы приспособиться к процессу обучения. В каждой мини-партии сортируются рассчитанные потери при прямом распространении из всех образцов и выбираются верхние 70% из них в качестве сложных образцов. Затем рассчитывается только градиент этих сложных образцов при обратном распространении. Это означает, что игнорируются простые образцы, которые не очень полезны для усиления детектора во время обучения. 3. Разработка нейросетевой системы Для создания нейросетевой системы необходимо объединить 2 нейросети: нейросеть, определяющая преступные действия и нейросеть, определяющая человека по лицу. Алгоритм данной нейросетевой системы изображен на рис. 5 Сперва берется набор данных Violence and Non-Violence Dataset, в котором содержится около 11 тысяч изображений. Все видео разбиты на стопкадры. Затем происходит определение изображений по классам, есть ли там насилие, или отсутствует. После определения по классам выбирается одна из 8 моделей нейросетей для распознавания возможного насилия, в данной работе для примера выбирается модель MobilenetV2. После выбора нейросети происходит настройка скорости обучения. По окончанию обучения выводятся результаты о потерях и точности классификации при определении сцен насилия. После определения сцен насилия происходит распознавание людей по лицу, и выводится информация об итоговой классификации изображений. На рис. 6 изображено, как работает архитектура распознавания лиц в нейросетевой системе, распознающей сцены насилия. В заранее классифированной сцене, где присутствует насилие, происходит классификация лиц, затем делается регресссия ограничительной рамки, то есть каждого окна-кандидата прогнозируется его смещение от ближайших координатов. После позиционируются ориентиры лица, чтобы при идентификации выделялись отличительные черты лица в виде квадратов и прямоугольников. В конце идет обучение с несколькими источниками и онлайн-добыча сложных образцов. Выбирается набор данных из архива под названием 5 Celebrity Faces Dataset. На рис. 7 распаковывается архив с данными. Рис. 5. Алгоритм нейросетевой системы, определяющей сцены насилия с методом распознавания человека по лицу Fig. 5. Algorithm of a neural network system that determines scenes of violence with the method of recognizing a person by face Рис. 6. Алгоритм архитектуры распознавания лиц Fig. 6. Algorithm of the architecture of face recognition Рис. 7. Архив данных 5 Celebrity Faces Dataset Fig. 7. Data Archive 5 Celebrity Faces Dataset Риc. 8. Импорт лица Fig. 8. Face import Рис. 9. Распознавание лица по ключевым особенностям Fig. 9. Facial recognition by key features После чего можно начать тренировать нейронную сеть на разных лицах. На рис. 8 импортируется лицо знаменитости. Помимо самого определения местоположения лица прописываются ключевые особенности, такие как глаза, нос и рот. На рис. 9 изображено распознавание лица по ключевым особенностям. Для тренировки нейросети можно взять изображение другой знаменитости. На риc. 10 для дальнейшего обучения убирается лишний фон, чтобы акцент делался исключительно на лице. После проведенной операции загружается лицо, с которым будет сопоставляться человек и совершенно другое лицо для дальнейшей проверки правильного распознавания. После загрузки лиц используется метод вложений, используемый для представления дискретных переменных в виде непрерывных векторов, и после этого похожие вектора. Если схожесть векторов больше 0,5, то лица совпадают, а если меньше - не совпадают. На рис. 11, 12 изображены результаты обучения нейроной сети на лицах из рис. 10. Рис. 10. Загрузка лиц для распознавания без заднего фона Fig. 10. Loading faces for recognition without a background Рис. 11. Результат сравнения первого изображения со вторым Fig.11. The result of comparing the first image with the second Рис. 12. Результат сравнения второго изображения с третьим Fig. 12. The result of comparing the second image with the third 4. Тестирование разработанной системы Для тестирования применяется набор данных Violence and Non-Violence Dataset. Тестирование будет проводится в иструментарии Kaggle. Предоставленная бесплатная виртуальная машина имеет следующую конфигурацию: двухъядерный процессор Intel Xeon с частотой 2 ГГц; 13 Гб оперативной памяти; видеокарта Nvidia Tesla P-100 с 16 Гб видеопамяти с версией драйверов 450.119.04 с частотой 1,32 ГГц; жесткий диск на 73 Гб. После запуска (рис. 13) будут выводиться изображения с насилием и без насилия. В табл. 2 показано нахождение изображений, принадлежащих к двум классам. Таблица 2 Нахождение изображений, принадлежащих к двум классам [Finding images that belong to two classes] Found 9957 images belonging to 2 classes Found 1106 images belonging to 2 classes На рис. 14 показано обучение модели после вывода изображений на примере MobilenetV2. На рис. 15 изображены потеря обучения и валидации, а также точность обучения и валидации. Из рисунка можно сделать вывод, что лучшая эпоха во время обучения и валидации является 8 эпоха. В табл. 3 внесены данные о точности и потери при обучении. Таблица 3 Модель метрик после обучения [Model metrics after training] Метрика [Metric] Значение [Value] Потеря [Loss] 0,14213 Точность [Accuracy] 0,97830 Итоговая точность после обучения составила 97,83%. Далее на рис. 16 показано, какие входные данные подаются, к какому возможному классу они относятся, к какому классу они на самом деле относятся и вероятность этого. Далее на рис. 17 показан вывод ошибок по классам на тестовой выборке. После вывода ошибок по классам (рис. 18) создается матрица ошибок определения сцен насилия в изображениях. Рис. 13. Изображения с определением насилия Fig. 13. Images with a definition of violence По итогу (рис. 19) составляется отчет о классификации нейросетевой модели с распознаванием лиц в сценах насилия. В табл. 4 показана модель метрик после обучения. Таблица 4 Модель метрик после обучения [Model metrics after training] Метрика [Metric] Значение [Value] Потеря [Loss] 0,16718 Точность [Accuracy] 0,96713 По результатам, приведенном выше, итоговая точность классификации после обучения составляет 96,713%. Заключение По итогам в этой работе рассмотрены актуальные на данный момент алгоритмы распознавания лиц на основе нейронных сетей, такие как: иерархическая пирамида сетей разнообразного внимания, глубокие сверточные нейросети с использованием автокодировщика и глубокие сверточные нейросети с использованием триплетных потерь, проведено исследование принципов построения нейросетевых систем и сравнение алгоритмов. Разработан алгоритм, основанный на мультикаскадном методе и методе детектирования объектов, который определяет человека по действиям преступного характера и по лицу за счет выделения некоторых частей лица в виде квадратов и прямоугольников. Рис. 14. Обучение модели Fig.14. Model Training Рис. 15. Потеря обучения и валидации, точность обучения и валидации Fig. 15. Training and validation loss, training and validation accuracy Рис. 16. Вероятность принадлежности к определенному классу Fig. 16. Probability of belonging to a particular class Рис. 17. Ошибки по классам на тестовой выборке Fig. 17. Errors by class on test set Рис. 18. Матрица ошибок Fig. 18. Confusion matrix Спроектирована нейросетевая система с использованием библиотеки компьютерного зрения и протестирована с использованием наборов данных лиц и наборов данных по действиям преступного характера в инструментарии Kaggle. Рис. 19. Отчет о классификации Fig. 19. Classification report При создании нейросетевой системы стоит учитывать, что необходим графический ускоритель GPU с объемом видеопамяти минимум 16 Гб. Процессор и видеоускоритель были нагружены на 98%, а объем использованной видеопамяти составлял 15,8 Гб из 16. Данную разработку можно применить для выявления насилия в общественных местах, таких как школы, парки, скверы, остановочные пункты общественного транспорта и т.д.×
About the authors
Namir Mohamed Hadi
Russian Technological University MIREA
Email: namir.1998@gmail.com
graduate Moscow, Russian Federation
References
- Isolation and recognition of faces [Electronic resource] URL: http://wiki.technicalvision.ru/index.php/Выделение_и_распознавание_лиц (data of accesses: 20.06.2022).
- Wang Q., Wu T., Zheng T., Guo G. Hierarchical pyramid diverse attention networks for face recognition [Electronic resource]. URL: https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_Hierarchical_Pyramid_Diverse_Attention_Networks_for_Face_Recognition_CVPR_2020_paper.pdf (data of accesses: 20.06.2022).
- Wang Q., Guo G. LS-CNN Characterizing local patches at multiple scales for face recognition // IEEE Transactions on Information Forensics and Security. 2020. No. 15. Pp. 1640-1653.
- Hu J., Shen L., Sun G. Squeeze-and-excitation networks [Electronic resource]. URL: https://arxiv.org/pdf/1709.01507.pdf (data of accesses: 22.06.2022).
- Parchami M., Bashbaghi S., Granger E., Sayed S. Using deep autoencoders to learn robust domain-invariant representations for still-to-video face recognition [Electronic resource]. URL: https://www.researchgate.net/publication/317951983_Using_Deep_Autoencoders_to_Learn_Robust_Domain-Invariant_Representations_for_Still-to-Video_Face_Recognition (data of accesses: 23.06.2022). @
- Ding C., Tao D. Trunk-branch ensemble convolutional neural networks for video-based face recognition [Electronic resource]. URL: https://arxiv.org/pdf/1607.05427.pdf (data of accesses: 23.06.2022).
- Parchami M., Bashbaghi S., Granger E. Video-based face recognition using ensemble of haar-like deep convolutional neural networks [Electronic resource]. URL: https://www.researchgate.net/publication/314115143_Video-Based_Face_Recognition_Using_Ensemble_of_Haar-Like_Deep_Convolutional_Neural_Networks (data of accesses: 25.06.2022).
- Szegedy C., Liu W., Jia Y. et al. Going deeper with convolutions [Electronic resource]. URL: https://arxiv.org/pdf/1409.4842.pdf (data of accesses: 25.06.2022).
- Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering [Electronic resource]. URL: https://arxiv.org/pdf/1503.03832.pdf (data of accesses: 26.06.2022).
- Huang Z., Shan S., Wang R. et al. A benchmark and comparative study of video-based face recognition on cox face database // IP IEEE Trans. 2015. No. 24. Pp. 5967-5981.
- Bashbaghi S., Granger E., Sabourin R., Parchami M. Deep learning architectures for face recognition in video surveillance [Electronic resource]. URL: https://arxiv.org/pdf/1802.09990.pdf (data of accesses: 27.06.2022).
- Sultani W., Chen C., Shah M. Real-world anomaly detection in surveillance videos [Electronic resource]. URL: https://arxiv.org/pdf/1801.04264.pdf (data of accesses: 27.06.2022).
- Azarov D. Viola-Jones face recognition method [Electronic resource]. URL: https://oxozle.com/2015/04/11/method-raspoznavaniya-lic-violy-dzhonsa-viola-jones/ (data of accesses: 27.06.2022).
- Yang B., Yan J., Lei Z., Li S. Z. Aggregate channel features for multi-view face detection [Electronic resource]. URL: https://arxiv.org/pdf/1407.4023.pdf (data of accesses: 27.06.2022).
- Pham M.T., Gao Y., Hoang V.D.D., Cham T.J. Fast polygonal integration and its application in extending haar-like features to improve object detection [Electronic resource]. URL: https://www.researchgate.net/publication/221362661_Fast_Polygonal_Integration_and_Its_Application_in_Extending_Haarlike_Features_to_Improve_Object_Detection (data of accesses: 27.06.2022).
- Zhu Q., Yeh M.C., Cheng K.T., Avidan S. Fast human detection using a cascade of histograms of oriented gradients [Electronic resource]. URL: https://www.merl.com/publications/docs/TR2006-068.pdf (data of accesses: 28.06.22).
- Zhang K., Zhang Z., Li Z. Joint face detection and alignment using multi-task cascaded convolutional networks [Electronic resource]. URL: https://kpzhang93.github.io/MTCNN_face_detection_alignment/paper/spl.pdf (data of accesses: 28.06.22).
- Li H., Lin Z., Shen X., Brandt J., Hua G. A convolutional neural network cascade for face detection [Electronic resource]. URL: https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_A_Convolutional_Neural_2015_CVPR_paper.pdf (data of accesses: 28.06.2022).
- PReLU [Электронный ресурс]. URL: https://congyuzhou.medium.com/prelu-e0bc339d9c01 (дата обращения 28.06.2022).
Supplementary files
