The influence of CNN architecture, image size and quality to object detection model on histological specimens
- Authors: Fedosova N.V.1, Berchenko G.N.1, Shugaeva O.B.1, Mashoshin D.V.1, Kochan M.G.1
-
Affiliations:
- Priorov National Medical Research Center of Traumatology and Orthopedics
- Issue: Vol 31, No 4 (2024)
- Pages: 751-758
- Section: SCIENTIFIC REVIEWS
- Submitted: 15.10.2024
- Accepted: 25.10.2024
- Published: 25.12.2024
- URL: https://journals.eco-vector.com/0869-8678/article/view/637087
- DOI: https://doi.org/10.17816/vto637087
- ID: 637087
Cite item
Full Text
Abstract
Improving convolutional neural network (CNN) quality for object search in histology scans is a long-standing problem that essentially involves selecting the best CNN architecture and creating a high-quality dataset. The efficacy of object detection algorithms is determined by numerous factors, including image quality, image size, and the search object. The primary aim of this study was to identify published studies on the impact of various image characteristics in a training sample and CNN architecture on the quality of a created model. Literature published in the last 5 years was reviewed, which addressed data pre-processing, methodology, requirements to images included in datasets, image preparation for CNN model development, and architecture selection. At the time of the study, there were no requirements to image size, and there was no data on the ratio of object size to image size for the best model performance. Moreover, the selection of neural network architecture is lacking in transparency and algorithmization. In the majority of cases, researchers recommend architectures that they have developed or used themselves, without explaining the reasons and selection criteria or comparing them to alternative options. All these factors significantly complicate the development of CNN models for medical image processing. This paper presents a brief overview of publications that address image preparation for datasets, as well as a potential approach to CNN architecture selection.
Full Text
ВВЕДЕНИЕ
Несмотря на то, что разработки математических моделей нейронных сетей для обнаружения объектов активно проводятся в различных областях уже много лет, сведений о методах подготовки данных для этих моделей относительно немного. Тем не менее хорошо известно, что на производительность и точность математических алгоритмов обнаружения объектов влияют многочисленные факторы, относящиеся к самим исходным данным, такие как качество изображения, размер объекта и размер изображения. Игнорирование этих факторов приводит к многочисленным ложным срабатываниям, ненахождению искомых объектов и, как следствие, плохим метрикам модели и снижению общей точности вычислений. Обнаружение мелких объектов на крупных изображениях также представляет собой значительную проблему для математических алгоритмов, поскольку сопряжено с рядом трудностей при их обнаружении, локализации и выделении из окружения. Значительное влияние на производительность алгоритмов обнаружения объектов оказывает окклюзия (англ. occlusion, от лат. occlusion — «сокрытие») — частичное или полное сокрытие объекта другим объектом. Это связано с тем, что окклюзия может затруднить алгоритм обнаружения и распознавания искомых объектов, а также определение их положения и ориентации на изображении. Мы обнаружили, что разработанные нами модели демонстрировали различную точность при поиске объектов на изображениях разных размеров и слайдах, выполненных при разных степенях увеличения микроскопа. Очень маленькие объекты на изображении могут быть труднообнаружимыми, так как признаки, используемые алгоритмом обнаружения объектов, могут быть слишком малы или слишком похожи на фон, чтобы быть различимыми. С другой стороны, очень большие объекты на изображении могут быть легче обнаружимыми, так как признаки, применяемые алгоритмом обнаружения объектов, будут более заметными. Размер объектов также может влиять на масштабную инвариантность алгоритма обнаружения объектов, которая относится к его способности обнаруживать объекты разных размеров на изображении. В идеальном случае алгоритм обнаружения объектов должен быть способен выявлять объекты разных размеров с одинаковой точностью независимо от их размера на изображении. Однако на практике многие алгоритмы обнаружения объектов испытывают трудности при выявлении мелких объектов и могут испытывать трудности при обнаружении объектов разных размеров на одном и том же изображении. В своей работе мы сосредоточились на поиске информации о вопросах предварительной подготовки исходных данных, включая размер объекта на изображении, размер самого изображения, критерии качества и, как следствие, разработке рекомендаций по подготовке датасета. Поэтому мы приводим обзор исследований, посвящённых вопросам предварительной обработки данных, которые имеют практическую ценность при подготовке медицинских изображений для создания моделей свёрточных нейронных сетей (CNN).
В процессе поиска требований к изображениям для создания модели CNN с целью поиска объектов на гистологических слайдах авторы проанализировали научные исследования за последние годы, посвящённые подготовке и обработке изображений для использования их в процессе обучения модели. Особое внимание уделялось вопросам размеров изображений и размеров искомых объектов.
МЕТОДОЛОГИЯ ПОИСКА ИСТОЧНИКОВ
В связи с отсутствием систематизированных баз исследований по данному направлению в качестве методологии поиска использовался поиск общедоступных материалов в сети Интернет на русском и английском языках по ключевым словам «neural network», «mathematical model», «artificial intelligence», «machine learning» и др.
В процессе сбора и анализа материалов было проанализировано более 100 статей и сайтов на тему искусственного интеллекта. Наиболее заинтересовавшие нас и соответствующие исследуемой проблематике проанализированы и указаны в тексте нашей статьи, а также в ссылках раздела «Список литературы».
ОБСУЖДЕНИЕ
Предварительная обработка данных является важным этапом в процессе получения исходного набора изображений для исследования (датасета). Цель предварительной обработки данных — улучшить качество данных и сделать их более подходящими для конкретной задачи создания датасета. Нами проведён анализ литературы, посвящённой предварительной обработке изображений для использования их в процессе обучения модели CNN. Обобщая проанализированную информацию, авторы [1, 2] выделяют общие шаги предварительной обработки данных.
- Очистка данных: выявление и исправление ошибок и/или несоответствий в данных, таких как пропущенные значения, выбросы и дубликаты. Для очистки данных могут использоваться различные методы, такие как подстановка, удаление и преобразование.
- Интеграция данных: объединение данных из нескольких источников для создания единого набора данных. Интеграция данных может быть сложной, поскольку требует обработки данных с различными форматами, структурами и семантикой. Для интеграции данных можно использовать такие методы, как связывание записей и слияние данных.
- Преобразование данных: преобразование данных в подходящий формат для анализа. Распространённые методы, используемые при преобразовании данных, включают нормализацию, стандартизацию и дискретизацию. Нормализация используется для масштабирования данных до общего диапазона, в то время как стандартизация применяется для преобразования данных с нулевым средним и единичной дисперсией.
- Сокращение данных: уменьшение размера набора данных с сохранением важной информации. Сокращение данных может быть достигнуто с помощью таких методов, как выбор и извлечение признаков. Выбор признаков подразумевает выбор подмножества соответствующих признаков из набора данных, в то время как извлечение признаков подразумевает преобразование данных в пространство меньшей размерности с сохранением важной информации.
- Дискретизация данных: разделение непрерывных данных на дискретные категории или интервалы. Дискретизация часто используется в алгоритмах интеллектуального анализа данных и машинного обучения, которым требуются категориальные данные. Дискретизация может быть достигнута с помощью таких методов, как биннинг (англ. binning — технология объединения соседних пикселей) равной ширины, биннинг равной частоты и кластеризация.
- Нормализация данных: масштабирование данных до общего диапазона, например от 0 до 1 или от -1 до 1. Нормализация часто используется для обработки данных с различными единицами и шкалами. Распространённые методы нормализации включают нормализацию min-max, нормализацию z-оценки и десятичное масштабирование.
Предварительная обработка данных играет решающую роль в обеспечении качества данных и точности результатов анализа. Конкретные шаги, связанные с предварительной обработкой данных, могут различаться в зависимости от характера данных и целей анализа. Выполнение этих шагов позволяет повысить эффективность процесса анализа данных и точность результатов.
Влияние качества изображения, окклюзии изображения и различных размеров объектов на обнаружение объектов изучалось различными исследователями, и есть несколько связанных работ по этой теме. Влияние качества изображения на обнаружение объектов с использованием изображений БПЛА исследовано в работе T. Li и соавт. [3]. Авторы показывают, что качество изображения может оказывать значительное влияние на точность обнаружения и что определённые типы ухудшения изображения, такие как затенение, могут создавать проблемы при обучении моделей CNN. В работе A. Rius и соавт. [4] представлено исследование осуществимости альтиметрии ледяного покрова с использованием сигналов GNSS L-диапазона. Авторы рассматривают три различных механизма поверхностного рассеяния на поверхности моря и ледяном покрове, объёмное рассеяние на льду при наличии больших изменений в наклонах отражающей поверхности.
В работе J. Yan и соавт. [5] исследуется обнаружение объектов в видео. Модель использует временную информацию и рассуждения об окклюзии для повышения точности обнаружения в динамических сценах с окклюзией. Многозадачная обучающая структура, способная одновременно оценивать геометрию сцены и семантику при обработке окклюзии в сцене, представлена в работе A. Kendall и соавт. [6]. Метод деокклюзии перекрытого текста с использованием свёрточных нейронных сетей, способный улучшить обнаружение и точность распознавания текста в закрытых сценах, показан в исследовании W. Chen и соавт. [7]. Модель R-CNN с учётом окклюзии для обнаружения пешеходов в многолюдных сценах использует предложения областей с учётом окклюзии и рассуждения об окклюзии для улучшения производительности обнаружения в многолюдных сценах [8]. Более быстрой является свёрточная нейронная сеть на основе областей (Faster R-CNN) для обнаружения объектов. Авторы продемонстрировали, что их метод способен обнаруживать объекты разных размеров с высокой точностью [9]. Метод обнаружения одиночных выстрелов, называемый SSD, способен обнаруживать объекты в разных масштабах. Авторы показывают, что их метод является высокоточным и эффективным, как заявлено в исследованиях W. Liu и соавт. [10] и J. Redmon и соавт. [11]. Метод однократного обнаружения лиц, который является масштабно-инвариантным и может обнаруживать лица разных размеров с высокой точностью, предложен в исследовании S. Zhang и соавт. [12].
В работе A. Kumar и соавт. [13] показана модель, созданная на базе архитектуры YOLOv3 для обнаружения объектов и способная находить объекты в разных масштабах. Авторы показывают, что их метод достигает самой современной точности и является высокоэффективным. Авторы собрали данные из Kaggle [14] для проведения экспериментов на изображениях низкого качества. Для исследования было использовано 240 изображений поездов и 120 тестовых изображений. Каждое изображение имеет файл .xml, в котором указаны местоположение и название объекта. В этом наборе данных каждое изображение содержит один объект. У нас есть яблоки, апельсины и бананы — всего три типа изображений объектов в наборе данных.
A. Kumar и соавт. [13] использовали оценку Gaussian Blur и оценку Box Blur для определения качества изображений по фактору Blur и оценку Gaussian Noise для определения качества изображений по фактору Noise. Применяя три типа алгоритмов для определения качества изображений, авторы получили представление о двух типах качества изображений.
В исследовании [13] были сгенерированы скрытые изображения с помощью DALL-E для проведения эксперимента. Авторы сгенерировали в общей сложности 60 изображений из DALL-E, которые содержат яблоки, апельсины и бананы в качестве объектов, а затем, используя технику дополнения изображений, создали в общей сложности 210 изображений. Из 210 изображений 140 являются тренировочными данными, а 70 — тестовыми данными. Всего в исследовании использовалось три типа скрытых изображений. Первый тип — это 30% скрытых изображений, где 30% любых объектов покрыто другими объектами. Второй тип — это 50% скрытых изображений, где 50% любого объекта покрыто другими объектами. И последний тип — 70% скрытых изображений, где 70% любого объекта покрыто другими объектами.
В работе [13] использовали изображения разного размера в каждом изображении и одинакового размера в каждом изображении из Kaggle [14] и добавляли эти два типа данных для проведения эксперимента. В общей сложности в эксперименте использовалось 470 данных, из которых 300 данных предназначены для обучения и 170 — для тестирования. Из 470 изображений 220 содержали несколько объектов одинакового размера, а 250 изображений — несколько объектов разных размеров. Исследователи [13] создали различные виды комбинаций наборов данных для проведения эксперимента, например «половина обучающих данных содержит несколько объектов разного размера на изображении, а половина данных содержит несколько похожих видов объектов на изображении в наборе данных».
Качество изображения является важным аспектом цифровой обработки изображений и оказывает значительное влияние на точность и производительность систем компьютерного зрения. В проводимом эксперименте [13] авторы оценивали качество изображений с помощью свёрточной нейронной сети и сравнивали результаты с классическими методами.
- Сбор данных: использовался набор данных из 360 изображений с разным уровнем качества (хорошее, среднее и плохое). Затем были созданы различные виды наборов данных из этого набора данных для эксперимента.
- Предварительная обработка: изображения были предварительно обработаны, чтобы гарантировать, что они имеют одинаковый размер и формат.
- Традиционный метод оценки качества: в исследовании использовали оценку размытия Гаусса, оценку размытия по рамке и оценку шума Гаусса для расчёта качества изображений.
- Обучение модели CNN: модель CNN обучалась на наборе данных, который имеет категориальную перекрёстную энтропию в качестве функции потерь и использует Adam в качестве оптимизатора.
В ходе исследования производились оценка производительности модели CNN и сравнение её прогнозов с хорошим качеством данных.
Эксперимент по влиянию качества изображения на производительность свёрточной нейронной сети продемонстрировал, что качество изображений, используемых для обучения и вывода, может существенно влиять на точность и достоверность модели. Результаты показали, что по мере снижения качества изображений производительность CNN снижается. Это подчёркивает важность учёта качества изображения при проектировании систем компьютерного зрения и обучении моделей CNN.
В статье Yu Hao и соавт. [15] авторы проводят комплексное исследование для оценки того, как качество изображения (с точки зрения пространственного и амплитудного разрешения) и расстояние между объектами на изображении влияют на точность обнаружения. Учитывая, что существующие модели обнаружения объектов, как правило, не оптимизированы для изображений в большом диапазоне пространственных разрешений, авторы рассматривают в качестве наиболее перспективного новый вариант модели YOLOv5, который адаптивно выбирает наиболее эффективную метаархитектуру (включая количество шкал признаков и, соответственно, количество головок обнаружения) в соответствии с пространственным разрешением входного изображения. Авторы доказывают, что эта адаптивная к разрешению модель (RA-YOLO) обеспечивает хороший компромисс между точностью обнаружения и вычислительной сложностью, достигая хороших результатов в большом диапазоне пространственных разрешений по сравнению с общим YOLOv5, при этом получая более высокую скорость вывода. Используя архитектуру модели RA-YOLO на смешанном наборе данных разрешения, авторы оценили влияние пространственного разрешения и сжатия (воздействующего на амплитудное разрешение) на точность обнаружения. В работе показано, что высокое пространственное разрешение имеет решающее значение для достижения высокой средней точности обнаружения в широком диапазоне размеров объектов (на который влияют как физический размер объекта, так и расстояние объекта от камеры). Авторы также показывают, что использование изображений высокого разрешения может существенно расширить надёжный диапазон обнаружения объектов. Ожидается, что аналогичные результаты будут справедливы для медицинских изображений и что применение изображений более высокого разрешения (например, более 2000 пикселей) может ещё больше расширить диапазон. Это говорит о том, что использование изображений высокого разрешения критически важно для приложений, которые требуют надёжного обнаружения объектов, таких как медицинские изображения.
Проводимый эксперимент даёт представление о влиянии размера объекта на производительность и эффективность работы свёрточных нейронных сетей. Результаты этого эксперимента можно использовать для повышения надёжности систем компьютерного зрения к изменениям размера объектов и повышения точности распознавания объектов в реальных сценариях. Можно сказать, что несколько объектов разного размера на изображении оказывают отрицательное влияние на обнаружение объектов. По сути, это снижает точность, поскольку потери происходят в сторону увеличения.
Сложность математических алгоритмов, используемых при создании математических моделей CNN, приводит к необходимости применять предварительную обработку данных для снижения искажений. Примеры использования алгоритмических методов для обработки данных приведены в работе E. Seker и соавт. [16]. В том числе алгоритмы предварительной подготовки применяют исследователи при обработке медицинских данных [17].
ЗАКЛЮЧЕНИЕ
Качество изображения, размер объекта и окклюзия могут значительно влиять на эффективность обнаружения объектов. Различные исследования показали, что методы обнаружения объектов могут быть чувствительны к факторам качества изображения, таким как шум, размытость и артефакты сжатия, что способно привести к снижению точности и увеличению ложных срабатываний. Размер объекта является ещё одним важным фактором, который может влиять на эффективность обнаружения, поскольку объекты в разных масштабах требуют разных уровней представления признаков и могут быть более трудными для обнаружения. Окклюзия является ещё одной сложной проблемой обнаружения объектов, поскольку частично или полностью закрытые объекты могут быть трудными для обнаружения и классификации.
С целью решения этих проблем исследователи разработали различные методы для улучшения эффективности обнаружения объектов при ухудшении качества изображения, изменении размера объекта и окклюзии. Некоторые из этих методов включают дополнение данных, многозадачное обучение, механизмы внимания и передовые сетевые архитектуры.
В целом, хотя обнаружение объектов является достаточно сложной и нелинейной задачей, авторы текущих исследований активно работают над устранением влияния вышеперечисленных факторов на эффективность обнаружения и разработкой более надёжных и точных методов обнаружения объектов в реальных сценариях.
ДОПОЛНИТЕЛЬНО
Вклад авторов. Все авторы подтверждают соответствие своего авторства международным критериям ICMJE (все авторы внесли существенный вклад в разработку концепции, проведение исследования и подготовку статьи, прочли и одобрили финальную версию перед публикацией).
Источник финансирования. Работа выполнена в рамках реализации научно-исследовательской работы по государственному заданию, РК № 124040100041-5, «Разработка математической модели нейронной сети для системы поддержки принятия решения врачом-патологоанатомом в диагностике заболеваний опорно-двигательного аппарата».
Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с проведённым исследованием и публикацией настоящей статьи.
ADDITIONAL INFO
Autor contribution. All authors confirm that their authorship meets the international ICMJE criteria (all authors have made a significant contribution to the development of the concept, research and preparation of the article, read and approved the final version before publication).
Funding source. The work was carried out within the framework of realization of the research work under the state assignment “Devel-opment of a mathematical model of neural network for the system of support of decision making by a pathologist in the diagnosis of diseases of the musculoskeletal system” (RК No 124040100041-5).
Competing interests. The authors declare that they have no competing interests.
About the authors
Nina V. Fedosova
Priorov National Medical Research Center of Traumatology and Orthopedics
Email: hard_sign@mail.ru
ORCID iD: 0000-0002-0829-9188
SPIN-code: 5380-3194
MS
Russian Federation, 10 Priorova str., 127299 MoscowGennadiy N. Berchenko
Priorov National Medical Research Center of Traumatology and Orthopedics
Author for correspondence.
Email: berchenko@cito-bone.ru
ORCID iD: 0000-0002-7920-0552
SPIN-code: 3367-2493
MD, Dr. Sci. (Medicine), professor
Russian Federation, 10 Priorova str., 127299 MoscowOlga B. Shugaeva
Priorov National Medical Research Center of Traumatology and Orthopedics
Email: Olga.schugaeva2013@yandex.ru
ORCID iD: 0000-0002-0778-5109
Russian Federation, 10 Priorova str., 127299 Moscow
Dmitriy V. Mashoshin
Priorov National Medical Research Center of Traumatology and Orthopedics
Email: dima_mash@mail.ru
ORCID iD: 0009-0003-5442-5055
SPIN-code: 5981-4084
Russian Federation, 10 Priorova str., 127299 Moscow
Mikhail G. Kochan
Priorov National Medical Research Center of Traumatology and Orthopedics
Email: mk_system@mail.ru
ORCID iD: 0009-0002-0699-1370
Russian Federation, 10 Priorova str., 127299 Moscow
References
- Hort M, Chen Z, Zhang JM, Harman M, Sarro F. Bias Mitigation for Machine Learning Classifiers: A Comprehensive Survey. ACM Journal on Responsible Computing. 2024;1(2):1–52. doi: 10.1145/3631326
- Kamiran F, Toon C. Data preprocessing techniques for classification without discrimination. Knowledge and Information Systems. 2012;33(1):1–33. doi: 10.1007/s10115-011-0463-8
- Li T, Chen K-S, Jin M. Analysis and simulation on imaging performance of backward and forward bistatic synthetic aperture radar. Remote Sensing. 2018;10(11):1676. doi: 10.3390/rs10111676
- Rius A, Cardellach E, Fabra F, et al. Feasibility of GNSS-R ice sheet altimetry in greenland using TDS-1. Remote Sensing. 2017;9(7):742. doi: 10.3390/rs9070742
- Yan J, Liu X, Wang X. Object detection in videos with tubelet proposal networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. Р. 727–735. doi: 10.1109/cvpr.2017.101
- Kendall A, Gal Y, Cipolla R. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In: Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. Р. 7482–7491. doi: 10.1109/cvpr.2018.00781
- Chen W, Daneau S, Mannan F, Heide F. Steady-state nonline- of-sight imaging. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019. Р. 6790–6799. doi: 10.1109/cvpr.2019.00695
- Kaneyasu H, Etter SB, Sakai T, Sigrist M. Evolution of the filamentary 3-Kelvin phase in Pb-Ru-Sr2RuO4 Josephson junctions. Physical Review B. 2015;92(13):134515. doi: 10.1103/physrevb.92.134515
- Ren S, He K, Girshick R, Sun J. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015;28. doi: 10.1109/tpami.2016.2577031
- Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector. In: Computer Vision–ECCV. Part I. Springer; 2016. Р. 21–37. doi: 10.1007/978-3-319-46448-0_2
- Redmon J, Farhadi A. YOLOv3: An incremental improvement. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. doi: 10.1109/cvpr.2017.690
- Zhang S, Zhu X, Lei Z, et al. S3FD: Single shot scale-invariant face detector. In: IEEE international conference on computer vision. 2017. Р. 192–201. doi: 10.1109/iccv.2017.30
- Kumar A, Mital U, Gajera A, Varanasi S, Patra D. Empirical Study of the Impact of Image Quality, Object size, and Occlusion to Object Detection [Internet]. EasyChair Preprint 9786. 2023. Available from: https://easychair.org/publications/preprint/Wf1V
- Buyukkinaci M. Fruit images for object detection [Internet]. Available from: https://www.kaggle.com/datasets/mbkinaci/fruit-images-for-objectdetection
- Hao Y, Pei H, Lyu Y, et al. Understanding the Impact of Image Quality and Distance of Objects to Object Detection Performance. NYU Multimedia and Visual Computing Lab. 2022. doi: 10.48550/arXiv.2209.08237
- Seker E, Talburt JR, Greer ML. Preprocessing to Address Bias in Healthcare Data. Studies in Health Technology and Informatics. 2022;294:327–331. doi: 10.3233/shti220468
- Celis LE, Keswani V, Vishnoi N. Data preprocessing to mitigate bias: A maximum entropy-based approach. In: International Conference on Machine Learning, PMLR. 2020. Р. 1349–1359. doi: 10.1201/9781003055129-6
Supplementary files

