Исследование эффективности программ автоматизированной диагностики меланомы кожи с применением технологий искусственного интеллекта
- Авторы: Сергеев В.Ю.1, Сергеев Ю.Ю.1, Тамразова О.Б.2, Никитаев В.Г.3, Проничев А.Н.3, Сергеева М.А.4
-
Учреждения:
- ФГБУ ДПО «Центральная государственная медицинская академия» Управления делами Президента Российской Федерации
- ФГАОУ ВО «Российский университет дружбы народов»
- ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ»
- ФГАОУ ВО «Первый Московский государственный медицинский университет имени И.М. Сеченова» Минздрава России (Сеченовский Университет)
- Выпуск: Том 23, № 5 (2020)
- Страницы: 288-292
- Раздел: ДЕРМАТООНКОЛОГИЯ
- Статья получена: 01.12.2020
- Статья опубликована: 15.10.2020
- URL: https://rjsvd.com/1560-9588/article/view/52794
- DOI: https://doi.org/10.17816/dv52794
- ID: 52794
Цитировать
Полный текст
Аннотация
АКТУАЛЬНОСТЬ. Исследование продолжает ряд публикаций, посвящённых эффективности машинного распознавания дерматоскопических изображений меланомы кожи. В некоторых работах отечественных и зарубежных авторов сообщается о достижении высокой чувствительности и специфичности автоматизированной диагностики опухолей кожи. Существенные различия публикуемых данных могут быть результатом как применения разных алгоритмов, так и использования разных групп новообразований кожи для расчёта показателей точности.
МАТЕРИАЛЫ И МЕТОДЫ. Сравнивали точность диагностики меланомы кожи двумя автоматизированными системами искусственного интеллекта.
РЕЗУЛЬТАТЫ. Алгоритм на основе свёрточной нейронной сети улучшил общую точность диагностики на 7% по сравнению с алгоритмом без глубокого обучения, при этом показатель точности составил 78%. Предоставлен исходный набор из 100 использованных дерматоскопических изображений для самостоятельной оценки применимости полученных данных при знакомстве с имеющимися системами искусственного интеллекта.
ЗАКЛЮЧЕНИЕ. Обозначены главные недостатки и возможные пути совершенствования автоматизированной диагностики опухолей кожи на основе цифровой дерматоскопии.
Полный текст
Актуальность
Международные исследования сообщают о возможности достижения высокой точности в автоматизированной диагностике меланомы кожи по цифровым дерматоскопическим изображениями с помощью программ искусственного интеллекта на основе глубокого машинного обучения.
В 2018 г. отечественные исследователи, используя архитектуру нейросети Inception V3, сообщали о 91% точности обученной ими модели [1]. В том же году H. Haenssle и соавт. [2] обучили и проверили точность модели Inception, предложенной C. Szegedy и соавт. [3] в 2016 г. На используемой для её проверки выборке из 100 изображений (меланомы кожи – 15%, всего злокачественных новообразований – 40%) специфичность составила 63,8%, чувствительность – 95%.
Основанная на последней работе коммерческая система искусственного интеллекта Moleanalyzer Pro (FotoFinder, Германия) представлена рядом публикаций [4–6]. Авторы изучали способность Moleanalyzer Pro распознавать злокачественные новообразования кожи в различных группах дерматоскопических изображений. На той же выборке из 100 новообразований специфичность составила 76,7% при чувствительности 95%. В группах «меланома» (n = 36) и «комбинированный невус» (n = 36) специфичность составила 78,8% при чувствительности 97,1%. В группах поверхностно-распространяющихся меланом, лентиго-меланом и узловых меланом (по 30 меланом и 100 доброкачественных новообразований в каждой группе) специфичность составила не менее 65%, чувствительность – не менее 93,3%. Отмечались меньшая чувствительность для образований акральной локализации (ладони и стопы – 83,3%, подногтевая локализация – 53,3%), а также низкая специфичность алгоритма для новообразований на слизистых оболочках – 38%.
В многоцентровом исследовании 2019 г. [7] на материале из 1150 дерматоскопических изображений новообразований кожи, в том числе 125 (11%) меланом, подобным алгоритмом была достигнута специ-фичность 78,1% при чувствительности 95%. Авторы также оценили эффективность предшествующих алгоритмов машинного обучения, получив значения специфичности и чувствительности для модели логистичес-кой регрессии равные 87,04 и 76,36% соответственно.
Совместная китайско-американская работа [8] показала специфичность 85,64% при чувствительности 94,36% для алгоритма на основе нейронной сети Google Inception V3 и выборки из 2200 дерматоскопических изображений, в том числе 564 (26%) меланом кожи.
В совместном канадско-новозеландском исследовании 2020 г. [9], включавшем 209 новообразований, в том числе 59 (28%) меланом кожи, Moleanalyzer Pro показал специфичность на уровне 78,8% при чувствительности 88,1%.
Разнящиеся данные о диагностической точности любой системы искусственного интеллекта подчеркивают необходимость дополнительных исследований, включая формирование эталонной репрезентативной выборки, для уточнения условий её применимости в клинической практике. Отсутствие доступа к наборам изображений, участвующих в проверке авторами разработанных ими алгоритмов, осложняет оценку публикуемых данных. Теоретическая возможность внедрения в практику уже доступных систем обостряет вопрос доверия к ним. В настоящее время существующие программные решения для персональных компьютеров (FotoFinder AI Score: платная подписка) и мобильных устройств («Про родинки»: бесплатно; handyscope 3 App: платная услуга) предупреждают пользователя о статистическом характере результатов работы алгоритмов и снимают с себя ответственность за установление диагноза.
Цель исследования – изучить показатели чувствительности и специфичности доступных авторам двух автоматизированных систем диагностики злокачественных новообразований кожи на собственной и открытой для доступа специалистов выборке дерматоскопических изображений.
Материал и методы
В исследование включены 100 дерматоскопический изображений новообразований кожи, полученных с помощью цифрового дерматоскопа РДС-2, из них 21 меланома, 63 меланоцитарных невуса, 13 себорейных кератом, 3 дерматофибромы.
В группу меланоцитарных невусов вошли 33 диспластических невуса, 23 случая веретеноклеточных невусов (невусы Спитц и Рида), 5 обычных приобретённых невусов, 1 комбинированный и 1 рецидивный невус. Себорейные кератомы были представлены очагами с незначительным или умеренным гиперкератозом, имитирующими меланоцитарные образования, а также случаями лихеноидного кератоза. Дерматофибромы имели различные модели строения, в том числе с неравномерным характером окрашивания и отсутствием центральной белёсой области.
В группу меланом включены 8 опухолей in situ, толщина инвазивных меланом по Бреслоу в среднем составила 0,8 мм. Преобладающая гистологическая разновидность меланомы – поверхностно распространяющаяся форма 14 (66,7%), среди остальных – 2 спитцоидные (9,5%), 2 лентигомеланомы (9,5%), по одному случаю лентигинозной, невоидной и неклассифицируемой форм меланомы.
Средний наибольший поперечный размер среди всех доброкачественных новообразований составил 5,6 ± 2,1 мм, среди меланом – 6,0 ± 2,4 мм. U-критерий Манна–Уитни указывал на недостоверность различий поперечных размеров новообразований в этих двух группах (p = 0,531).
Все новообразования оценивали опытные врачи-дерматовенерологи, эксперты в области дерматоонкологии путём определения общей дерматоскопической модели строения образования. Новообразования, которые расценивались как подозрительные на первом приёме или в ходе динамического наблюдения, иссекались. Все выявленные меланомы кожи были подтверждены морфологически. Выборка используемых дерматоскопических изображений была опубликована на Национальном сервере дерматологии «Дерматология в России» и доступна зарегистрированным специалистам по ссылке: http://www.dermatology.ru/artificial_intelligence
Для автоматизированной обработки каждого изображения применяли российский программный комплекс автоматизированной диагностики (ПКАД) [10, 11], использующий классификатор без применения глубокого машинного обучения и Moleanalyzer Pro на основе свёрточной нейронной сети через приложение handyscope 3 App и интернет-платформу hub.fotofinder.de
Оба алгоритма давали числовую оценку каждого изображения от 0 до 1. Верным автоматизированным терапевтическим решением (истинно положительным результатом) для меланомы, а также невусов Спитц и Рида, имитирующих меланому (в том числе показавших отрицательную дерматоскопическую динамику), считались значения в Moleanalyzer Pro от 0,5 («злокачественная опухоль» по шкале разработчика) и выше, а в ПКАД – 1,0 (наибольшее сходство с меланомой по сравнению с другими группами изображений). Для отдельного расчёта точности автоматизированной диагностики только по морфологически подтверждённым меланомам новообразования, имитирующие меланому (12 изображений невусов Спитц и Рида из 23), учитывались как доброкачественные новообразования.
Статистическую обработку данных проводили с помощью программного обеспечения SPSS Statistics.
Результаты
По итогам работы ПКАД на всей выборке число истинно положительных результатов составило 25, ложноотрицательных – 11, истинно отрицательных – 49, ложноположительных – 15. Чувствительность ПКАД составила 69,4%, специфичность – 76,6%, общая точность – 74%. При применении программы Moleanalyzer Pro для изучения тех же дерматоскопических изображений были получены следующие результаты: число истинно положительных результатов – 22, ложноотрицательных – 14, истинно отрицательных – 53, ложноположительных – 11. Чувствительность Moleanalyzer Pro составила 61,1%, спе-цифичность – 82,8%, общая точность – 75,3%.
Отдельный расчёт ПКАД по морфологически подтверждённым меланомам, при котором эксцизия невусов Спитц и Рида, имитирующих меланому кожи, считалась ошибочной, был следующим: истинно положительные результаты (выявленные меланомы) – 16, ложноотрицательные (пропущенные меланомы) – 5, истинно отрицательные – 55, ложноположительные – 24. Чувствительность составила 76,2%, специфичность – 69,6%, общая точность – 71%. Итоги работы Moleanalyzer Pro следующие: истинно положительных результатов (выявленные меланомы) – 16, ложноотрицательных (пропущенные меланомы) – 5, истинно отрицательных – 62, ложноположительных – 17, чувствительность составила 76,2%, специфичность – 78,5%, общая точность – 78%.
После исключения невусов Спитц и Рида из выборки (n = 77) было отмечено, что для ПКАД число истинно положительных результатов составило 16, ложноотрицательных – 5, истинно отрицательных – 42, ложноположительных – 14. Чувствительность ПКАД в этой выборке составила 76,2%, специфичность – 75%, общая точность – 75,3%. Для Moleanalyzer Pro на этой же выборке истинно положительных результатов было 16, ложноотрицательных – 5, истинно отрицательных – 46, ложноположительных – 10. На этот раз чувствительность Moleanalyzer Pro составила 76,2%, специфичность – 82,1%, общая точность – 80,5%.
Размер изученной в настоящей работе выборки и доля злокачественных новообразований в целом соответствовали приведённым зарубежным исследованиям. При включении в выборку образований, зачастую сложных для диагностики (в настоящем исследовании – невусов Спитц и Рида), точность автоматизированных алгоритмов падала. Данные приведённых литературных источников подтверждают решающее значение набора новообразований, на котором был применён искусственный интеллект, для получения тех или иных показателей точности алгоритма. Это обстоятельство важно учитывать до внедрения машинного распознавания в клиническую практику.
Полученные значения чувствительности и специфичности алгоритма с «искусственным интеллектом» Moleanalyzer Pro хорошо согласовывались с данными, полученными MacLellan. Автоматизированная диагностика на основе глубокого обучения смогла улучшить общую точность диагностики не более чем на 7%, при этом показатель точности составил 78%. Традиционный алгоритм, применённый в ПКАД, показал результаты, соответствующие данным литературы для подобных систем классификации [8].
Требуется дальнейшие совершенствование моделей цифровой обработки изображений новообразований кожи. На текущем этапе развития одним из направлений может стать специализация алгоритмов распознавания, направленных на эффективную работу с определёнными видами или выборками опухолей кожи.
Вместе с тем состояние нейронной сети после глубокого обучения на большом массиве данных невозможно представить в доступном исследователю виде, так же как и указать те видимые признаки, на основе которых машинный алгоритм принимает клинически значимое для врача решение по предложенному цифровому изображению. Таким образом, даже достигнутая точность распознавания образов меланомы, превышающая 90%, не сможет оказать помощь врачу, затрудняющемуся в дифференциальной диагностике, а лишь подменить его, показав лучшие результаты на выборке, сходной с той, что использовалась во время обучения.
Проблемой является непонимание врачом алгоритма работы нейросети. Нейросетевая система становится для него «чёрным ящиком», что не может не сказаться на уровне доверия врача к результатам работы нейросетевой системы.
Создание иных моделей цифровой обработки изображений на основе принципов, изложенных нами ранее [12, 13], позволит использовать «искусственный интеллект» в клинической, научно-исследовательской и учебной работе, а также в области телемедицины.
Об авторах
Василий Юрьевич Сергеев
ФГБУ ДПО «Центральная государственная медицинская академия» Управления делами Президента Российской Федерации
Автор, ответственный за переписку.
Email: vasesergeevu@gmail.com
ORCID iD: 0000-0001-8487-137X
кандидат медицинских наук, доцент кафедры дерматовенерологии и косметологии
Россия, МоскваЮ. Ю. Сергеев
ФГБУ ДПО «Центральная государственная медицинская академия» Управления делами Президента Российской Федерации
Email: vasesergeevu@gmail.com
ORCID iD: 0000-0002-4193-1579
Россия, Москва
О. Б. Тамразова
ФГАОУ ВО «Российский университет дружбы народов»
Email: vasesergeevu@gmail.com
ORCID iD: 0000-0003-3261-6718
Россия, Москва
В. Г. Никитаев
ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ»
Email: vasesergeevu@gmail.com
ORCID iD: 0000-0002-4349-3023
Россия, Москва
А. Н. Проничев
ФГАОУ ВО «Национальный исследовательский ядерный университет «МИФИ»
Email: vasesergeevu@gmail.com
ORCID iD: 0000-0003-0443-8504
Россия, Москва
М. А. Сергеева
ФГАОУ ВО «Первый Московский государственный медицинский университет имени И.М. Сеченова» Минздрава России (Сеченовский Университет)
Email: vasesergeevu@gmail.com
ORCID iD: 0000-0003-0292-5878
Россия, Москва
Список литературы
- Мелерзанов А.В., Гаврилов Д.А. Диагностика меланомы кожи с помощью сверточных нейронных сетей глубокого обучения // Врач. 2018;29(6):31-3. doi: 10.29296/25877305-2018-06-06.
- Haenssle H.A., Fink C., Schneiderbauer R., Toberer F., Buhl T., Blum A., et al. Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists. Ann Oncol. 2018;29(8):1836-42. doi: 10.1093/annonc/mdy166.
- Szegedy C., Vanhoucke V., Ioffe S., Shlens J., Wojna Z. Rethinking the Inception Architecture for Computer Vision. 2016. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016;2818-26. doi: 10.1109/CVPR.2016.308.
- Haenssle H.A., Fink C., Toberer F., Winkler J., Stolz W., Deinlein T., et al. Man against machine reloaded: performance of a market-approved convolutional neural network in classifying a broad spectrum of skin lesions in comparison with 96 dermatologists working under less artificial conditions. Ann Oncol. 2020;31(1):137-43. doi: 10.1016/j.annonc.2019.10.013.
- Fink C., Blum A., Buhl T., Mitteldorf C., Hofmann-Wellenhof R., Deinlein T., et al. Diagnostic performance of a deep learning convolutional neural network in the differentiation of combined naevi and melanomas. J Eur Acad Dermatol Venereol. 2020;34(6):1355-61. doi: 10.1111/jdv.16165.
- Winkler J.K., Sies K., Fink C., Toberer F., Enk A., Deinlein T., et al. Melanoma recognition by a deep learning convolutional neural network-performance in different melanoma subtypes and localisations. Eur J Cancer. 2020;127:21-9. doi: 10.1016/j.ejca.2019.11.020.
- Phillips M., Marsden H., Jaffe W., Matin R.N., Wali G.N., Greenhalgh J., et al. Assessment of accuracy of an artificial intelligence algorithm to detect melanoma in images of skin lesions. JAMA Netw Open. 2019;2(10):e1913436. doi: 10.1001/jamanetworkopen.2019.13436.
- Cui X., Wei R., Gong L., Qi R., Zhao Z., Chen H., et al. Assessing the effectiveness of artificial intelligence methods for melanoma: A retrospective review. JAAD. 2019;81(5):1176-80. doi: 10.1016/j.jaad.2019.06.042.
- MacLellan A.N., Price E.L., Publicover-Brouwer P., Matheson K., Ly T.Y., Pasternak S., et al. The Use of Non-Invasive Imaging Techniques in the Diagnosis of Melanoma: A Prospective Diagnostic Accuracy Study. J Am Acad Dermatol. 2020:S0190-9622(20)30559-4. doi: 10.1016/j.jaad.2020.04.019.
- Sergeeva M., Sergeev V. On the Russian advances in global teledermoscopy. Oral and Poster Presentations from the XII International Congress of Dermatology April 18-22, 2017. Buenos Aires, Argentina. Abst. 0241. Inter J Dermatol. 2017;56:1268-9. doi: 10.1111/ijd.13720.
- Neretin E.Yu., Sergeev V.Yu. Use of machine vision in the dermatoscopic diagnosis of melanoma. Dermatol Pract Concept. 2015;5(2):137-270.
- Сергеев В.Ю., Сергеев Ю.Ю., Тамразова О.Б., Никитаев В.Г., Проничев А.Н. Вопросы внедрения современных методов автоматизированной диагностики новообразований кожи в клиническую практику // Медицинский алфавит. 2020;(6):76-8. doi: 10.33667/2078-5631-2020-6-76-78.
- Сергеев В.Ю., Сергеев Ю.Ю., Тамразова О.Б., Никитаев В.Г., Проничев А.Н. Автоматизированная диагностика новообразований в дерматологии с применением дистанционных технологий // Медицинская техника. 2019;(3):32-3.
Дополнительные файлы
