THE CONCEPT OF USING BIG DATA TECHNOLOGY IN MODERN MEDICINE



Cite item

Full Text

Abstract

Actual problems of Big Data collection and retrieval in medicine are considered, the role and significance of large data for modern medicine are illustrated based on a review of domestic and foreign works in this area. New concept and structure of large data processing system in medicine is advanced. The main idea of this system is the integration and coherence of theoretical knowledge about man and the environment with knowledge obtained as a result of the experimental data analysis in various diagnostic and prognostic tasks in medicine. The necessity of implementing such a system in the Military Medical Academy Scientific Research Centre is substantiated (2 figs, bibliography: 21 refs).

Full Text

Сегодня термин «большие данные» (англ. - «Big Data») приобрел большую популярность и активно используется в различных сферах. Однозначного понимания содержания этого термина до сих пор не существует. Однако все определения сводятся к тому, что большие данные - это технология анализа данных, направленная на извлечение полезных новых знаний из таких объемов данных, с которыми не справляется человек. Анализ литературы показывает, что большим данным кроме их большого объема присущи два основополагающих признака: 1. Объединение данных из разнообразных источников может быть осуществлено при интегрировании различных баз данных, наблюдений или измерений, цифровых архивов медицинских изображений, скрининга населения на основе телемедицинской системы, Интернета и т. п. 2. Появление необходимости использования для анализа таких данных сложных и принципиально новых методов. В современной медицине наблюдается постоянный рост размеров цифровых архивов медицинских учреждений, что обусловлено большей доступностью сложного диагностического оборудования [1]. Например, среднестатистическое отделение радиологии в настоящее время производит несколько терабайтов данных в год [2], которые помещаются в соответствующие базы данных [3]. Вместе с тем применение Big Data за рубежом не столь широко распространено, как может показаться. В частности, большинство публикаций в PubMed посвящено рассмотрению возможностей применения Big Data в аналитике и практически не касается проблематики сбора необходимых для проведения этой аналитики больших данных. Исключение составляют такие области, как лечение рака и анализ цифровых изображений при диагностике заболеваний. Это можно объяснить в первом случае тем, что раковые заболевания изучаются давно и собрано большое количество корректных и структурированных данных, а во втором случае - появлением в последние годы мощных методов глубокого обучения (Deep Learning), с помощью которых можно выделить диагностические признаки на изображениях без их предварительной разметки [4, 5]. Несколько слов об используемой терминологии. Широко используется термин «наука о данных» (англ. Data Science), который обозначает дисциплину, изучающую проблемы анализа, обработки и представления информации в цифровой форме. Таким образом, «добыча информации» (англ. Data Mining) - это анализ данных с целью выявления закономерностей, включая «машинное обучение» (англ. Machine Learning); т. е. методы выделения закономерностей в данных с помощью обучения по примерам оказываются подобластью Data Science. Направления и практика применения методов анализа данных в медицине представлены в обзорных статьях [6, 7] и в монографии [8]. Директор Института геномики в нью-йоркском медицинском центре Mount Sinai доктор Эрик Шадт отмечает, что сегодня основные ограничения медицины и фармацевтической индустрии связаны с недостаточным пониманием биологической природы болезней. Аналитика больших данных в медицине прежде всего должна агрегировать всю возможную информацию о том, что может влиять на болезнь, - от ДНК, продуктов межклеточного обмена, микроорганизмов, тканей, органов до целых экосистем, считает он. Только так можно построить предсказательные модели, которые будут реально работать, совершенствоваться, - в том числе с помощью алгоритмов машинного обучения, - и смогут помочь индивидуальным пациентам [9]. Одним из первых примеров обработки больших данных в истории медицины считается расшифровка генома человека [9]. Декодировать его начали в 2000 г., на расшифровку 3 млрд знаков ушло 10 лет. Уже в 2015 г. геном человека мог быть расшифрован компьютером за один день. В Университете Джона Хопкинса (США) разработана система Oncospace, в которой хранятся 3Dснимки опухолей и истории болезни нескольких тысяч пациентов, страдавших от рака шеи, головы, предстательной или поджелудочной желез [10]. Oncospace позволяет повысить эффективность и безопасность программ лучевой терапии [10]. В Минске на базе корпоративной телекоммуникационной сети медицинских учреждений функционирует распределенная телемедицинская система реального времени по цифровой флюорографии для раннего выявления заболеваний легкого (туберкулез, рак) [2]. Калифорнийский университет для отделений интенсивной терапии местных больниц опробовал систему аналитики больших данных, которая в режиме реального времени отслеживает и агрегирует данные о жизненных показателях пациентов и предсказывает возможное развитие сепсиса у пациента [10]. В работе Uneno Y. et al. представлено шесть адаптивных моделей предсказания исхода заболевания раком у пациентов, проходящих химиотерапию [11]. Для 5 тыс. пациентов (2004-2014 гг.) собраны данные результатов их обследований, полученные в 115 тыс. моментов времени, а также 3,5 млн лабораторных показателей. Точность предсказания для 6 мес составляет 71% и для 1 мес - 85%. В статье Kharat et al. рассмотрены будущие возможности применения многомерной анатомии [12]. Mikkelsen et al. описали программную систему для анализа данных магнитно-резонансной спектроскопии, полученных из 24 источников [13]. Система CBIR позволяет осуществлять поиск сходных изображений на основе содержания заданного изображения без его предварительной разметки [4]. Тормозом в применении Big Data, безусловно, являются (и у нас, и за рубежом) неструктурированные и не качественно собранные данные. В России проблема прежде всего со сбором информации. В российских медучреждениях пока нет глобальной программы работы с большими данными, в подавляющем большинстве медучреждений отрасли даже самое высокотехнологичное диагностическое оборудование не подключено к Интернету, не собирает, не накапливает и не анализирует данные обо всем потоке проходящих через него пациентов [9]. Прослеживаются публикации только о возможных путях построения таких систем. Также развиваются проекты с анализом данных небольшого объема. Так, А. Бекмачев и др. описывают портативный кардиомонитор «CardioQVARK», обеспечивающий дистанционный сбор однородной обезличенной информации о здоровье его пользователей: антропологические показатели, общее состояние здоровья, наличие заболеваний, курс лекарств, ЭКГ-записи с комментариями [14]. Т. М. Смирнова и др. описывают компьютерную систему психофизиологического мониторинга «СОПР-мониторинг» [15]. В работе Molodchenko A., Khachumov V. предложена система оценки отклонений от плана лечения пациента на основе базы данных примеров лечения пациентов для разных заболеваний и применения методов машинного обучения [16]. Учитывая вышесказанное, целями применения технологии больших данных в медицине являются: 1. Создание максимально полных реестров медицинских данных, обменивающихся между собой информацией, объединение баз данных, информационных систем различных клиник и регионов. 2. Обеспечение персонифицированного лечения пациентов на основе электронных историй болезни. 3. Прогнозирование возможных «волн» заболеваний, диагностика трудных случаев, выявление закономерных связей в данных, расширение медицинских знаний. 4. Оптимизация затрат медицинских учреждений на лечебные мероприятия. Достижение этих целей должно основываться как на фундаментальных теоретических медицинских знаниях, так и на понимании методологии использования больших данных в медицине. На наш взгляд, извлечение и обработка больших данных в медицине должны основываться на взаимосвязи следующих концептуальных блоков, отражающих содержательную основу экспериментальных исследований, извлечения знаний из данных и принятия решений в медицине (рис. 1): - моделирование человека (на базе существующих теорий); - моделирование условий (среды обитания) (на базе существующих теорий); - экспериментальные исследования с привлечением добровольцев в различных условиях среды (натуральных и смоделированных); - анализ экспериментальных данных. оделирование человека и моделирование среды обитания всегда основано на теоретических знаниях, воплощенных в соотношениях, формулах, константах, стандартах. Однако при анализе данных в процессе извлечения знаний могут быть получены соотношения, уточняющие эти теоретические знания. Для этого в представленной схеме используется обратная связь от блока анализа экспериментальных данных к блокам моделирования человека и среды и, при подтверждении правомерности уточнений моделей, также и от блоков моделирования к блокам существующих теорий. Включение блоков моделирования, существующих теорий и обратных связей к ним нам кажется важным, так как исследователи должны абсолютно точно понимать, на основе каких теоретических положений проводятся эксперименты, досконально знать конкретные используемые модели, их достоинства и ограничения, а также не только иметь возможность уточнять модели, но и, вероятно, углублять и расширять теоретические знания. Экспериментальные исследования человека в различных условиях среды предполагают обеспечение современной измерительной аппаратурой, средствами регистрации и хранения данных, фиксации используемых моделей, ведения протоколов экспериментов и визуализации самого испытуемого. Для эффективной работы с данными должны использоваться системы управления базами данных, обеспечивающие полноценный сбор, преобразование, хранение и анализ этих данных. Собственно, только при соблюдении этого условия мы и приходим к понятию «большие данные». Кроме того, необходимо проводить преобразования данных в форматы, совместимые с теми, которые обычно врачи используют в повседневной профессиональной деятельности. Блок анализа экспериментальных данных предполагает наличие и использование современных алгоритмов анализа данных различной природы: временных последовательностей, текстовых комментариев, записей в базе данных, многоканальных сигналов измерительной аппаратуры, изображений, результатов исследований и т. д. Диагностика и прогнозирование должны быть основаны на достаточно широко применяемых и известных методах машинного обучения (как логических, так и статистических) и более широко - на методах Data Mining, включающих алгоритмы преобразования измерительных сигналов (оцифровывание, очистка от шумов, дискретизация, шкалирование, кластеризация, фильтрация и т. д.). Практическая реализация вышеприведенного подхода предполагает создание систем сбора и анализа медицинских больших данных. Архитектура такой системы представлена на рис. 2 и повторяет типовую архитектуру систем бизнес-аналитики [17, 18]. Она содержит компоненты сбора данных, а также компоненты их хранения и обработки. Компоненты сбора данных включают средства управления данными, определяющими то, как нужно получать их из разнообразных медицинских источников и управлять ими, и инструменты и процессы трансформации, описывающие то, как извлекать, очищать, передавать данные и загружать их в корпоративное хранилище данных. Корпоративное хранилище данных является ключевым компонентом такой системы и представляет собой место, где организуется и хранится для дальнейшего пользования вся собираемая информация [19]. Обработка данных состоит в применении современных методов математического анализа данных с целью извлечения знаний из собранных данных и презентации этих знаний пользователям [20, 21]. Круг задач, решаемых такой системой, должен охватывать диагностику и прогнозирование различных состояний пациента (обследуемого) во времени, предполагая эффективную оценку текущего состояния человека (здорового и больного) и прогнозирование его возможных состояний при изменении условий среды и при различных условиях работы и жизни. В качестве наиболее достижимых результатов применения такой системы могут выступать следующие: - оценка взаимосвязанности показателей, характеризующих состояние человека (его физиологических систем и органов) и динамически изменяемых условий среды обитания (реальной или моделируемой) (популяционная и персонализированная); - оценка взаимосвязанности состояния среды, рабочей нагрузки и физиологических особенностей конкретного человека; - ранняя диагностика заболеваний на основе сбора временных данных о здоровье и особенностях человека; - прогнозирование работоспособности человека в заданный период времени и при данном фактическом его состоянии; - прогнозирование индивидуальных поведенческих реакций на условия окружающей среды; - имитационное моделирование в медицине, т. е. разработка методов диагностики и прогнозирования на основе использования математических моделей, а не данных с реальных людей. В научно-исследовательском отделе (НИО) (обитаемости) научно-исследовательского центра (НИЦ) Военно-медицинской академии имени С. М. Кирова за период 2001-2017 гг. создан научный и инженерный задел для создания информационно-технической системы, реализующей рассмотренную выше концепцию использования технологии больших данных в медицине [18-21]. Этот задел реализуется в виде аппаратно-программного комплекса сбора, обработки и хранения научных данных НИО (обитаемости) НИЦ в многопрофильной клинике академии.
×

About the authors

A. V. Yakovlev

S. M. Kirov Military Medical Academy of the Russian Defense Ministry

Saint Petersburg, Russia

K. A. Naydenova

S. M. Kirov Military Medical Academy of the Russian Defense Ministry

Saint Petersburg, Russia

References

  1. Partik B., Schaefer-Prokop С. Digital radiology in chest imaging. In: Hruby W., ed. Digital Evolution in Radiology. Vienna: Springer-Verlag; 2001: 189-203.
  2. Anishchenko V. V., Van’kevich P. E., Kovalev V. A. The use of digital scanning devices and advanced telemedicine and innovative technologies in the diagnosis of lung diseases. Minsk: OIPI NAN Belarusi; 2010. 136. Russian@@Анищенко В. В., Ванькевич П. Е., Ковалев В. А., Куцан Н. В., Лапицкий В. А., Линев В. Н. Применение цифровых сканирующих аппаратов и передовые телемедицинские инновационные технологии в диагностике заболеваний легких. Минск: ОИПИ НАН Беларуси; 2010. 136.
  3. Kovalev V. A. Big data database in medicine: database of X-ray images to meet the challenges of diagnosis, treatment and research. In:Using BIG DATA to optimize business and information technologye. Minsk: BSUIR; 2015: 66-71. Russian@@Ковалев В. А. Большие данные в медицине: база данных рентгеновских изображений для решения задач диагностики, лечения и проведения научных исследований. В сб.: Использование BIG DATA для оптимизации бизнеса и информационных технологий. Минск: БГУИР; 2015: 66-71.
  4. Banerjee S. J., Azharuddin M., Sen D., Savale S., Datta H., Dasgupta A. K., Roy S. Using complex networks towards information retrieval and diagnostics in multidimensional imaging. Scientific Reports. 2015; 5: 1-13. doi: 10.1038/srep17271
  5. Gudfellou Ya., Bendgio I., Kurvil A. Deep Learning. Cambridge: MIT Press; 2017. 652. Russian@@Гудфеллоу Я., Бенджио И., Курвиль А. Глубокое обучение. Кембридж: MIT Press; 2017. 652.
  6. Lavrač N. Machine learning for Data Mining in Medicine. In: Horn W., ed. AIMDM’99, LNAI 1620. Berlin; Heidelberg: Springer-Verlag; 1999: 47-62. Available at: https://link.springer. com/chapter/10.1007/3-540-48720-4_4 (accessed 01.03.2017).
  7. Deo R. K. Machine Learning in Medicine. Circulation. 2015; (20): 1920-1930. Available at: http://circ.ahajournals. org/content/132/20/1920.long (accessed 01.03.2017).
  8. Zagoruyko N. G. Cognitive analysis of data. Novosibirsk: Geo; 2013. 183. Russian@@Загоруйко Н. Г. Когнитивный анализ данных. Новосибирск: Гео; 2013. 183.
  9. Big Data in medicine: current situation and prospects. Available at: https://medaboutme.ru/zdorove/publikacii/ stati/sovety_vracha/big_data_v_meditsine_tekushchaya_ situatsiya_i_perspektivy (accessed 31.05.2017). Russian@@Big Data в медицине: текущая ситуация и перспективы. Доступен по: https://medaboutme.ru/zdorove/publikacii/ stati/sovety_vracha/big_data_v_meditsine_tekushchaya_ situatsiya_i_perspektivy (дата обращения 31.05.2017).
  10. Trifirò G., Sultana J., Bate A. From Big Data to Smart Data for Pharmacovigilance: The Role of Healthcare Databases and Other Emerging Sources. Drag Saf. 2017: Aug 24. doi: 10.1007/s40264-017-0592-4
  11. Uneno Y., Taneishi K., Kanai M., Okamoto K., Yamamoto Y., Yoshioka A., Hiramoto S., Nozaki A., Nishikawa Y., Yamaguchi D., Tomono T., Nakatsui M., Baba M., Morita T., Matsumoto S., Kuroda T., Okuno Y., Muto M. Development & validation of a set of six adaptable prognosis prediction (SAP) models based on time-series real-world big data analysis for patients with cancer receiving chemotherapy: A multicenter case crossover study. PLos One. 2017; 12 (8): e0183291.
  12. Kharat A. T., Singhal S. A peek into the future of radiology using big data applications. Indian J. Radiol. Imaging. 2017; 27 (2): 241-8.
  13. Mikkelsen M., Barker P. B., Bhattacharyya P. K., Brix M. K., Buur P. F., Cecil K. M., Chan K. L., Chen D. Y., Craven A. R., Cuypers K., Dacko M., Duncan N. W., Dydak U., Edmondson D. A., Ende G., Ersland L., Gao F., Greenhouse I., Harris A. D., He N., Heba S., Hoggard N., Hsu T. W., Jansen J. F. A., Kangarlu A., Lange T., Lebel R. M., Li Y., Lin C. E., Liou J. K. Big GABA: Edited MR spectroscopy at 24 research sites. Neuroimage. 2017; 159: 32-45. doi: 10.1016/j.neuroimage
  14. Bekmachev A.Experience of creation and application of mHealth systems based on portable heart-monitor CardioQVARK. DAMDID/RCDL’2016 “Analytics and data management in the areas of dataintensive using. Ershovo; 2016: 247-52. Russian@@Бекмачев А., Садовский С., Сунцова О. Опыт создания и применения mHealth системы на базе портативного кардиомонитора CardioQVARK. DAMDID/RCDL’2016 «Аналитика и управление данными в областях с интенсивным использованием данных». Ершово; 2016: 247-52.
  15. Vinokhodova A. G. The use of “SOPR-monitoring” computer assessing methods for evaluating human work-capacity in the course of space flight factor modelling. Aerospace and Ecological Medicine. 2007; 41 (6): 48-52. Russian@@Виноходова А. Г., Смирнова Т. М., Быстрицкая А. Ф., Крутько В. Н. Использование компьютерных методов оценки «СОПРмониторинг» для оценки работоспособности при моделировании факторов космического полета. Авиакосмическая и экологическая медицина. 2007; 41 (6): 48-52.
  16. Molodchenko A., Khachumov V. Using DTM method for estimation of deviation of care process from care plan. Data Analytics and Management in Data Intensive Domains (DAMDID/RCDL’2016): Proceedings of the XVIII International Conference. Ershovo, 2016: 242-6. Available at: http:// ceur-ws.org/Vol-1752/ (accessed 03.10.17).
  17. Davenport T. H., Harris J. G. Competing on Analytics: The New Science of Winning. Boston, Mass.: Harvard Business School Press; 2007.
  18. Yakovlev A. V. Business Intelligence in Corporate Governance and Business Processes Management. In: Diagnostic test approaches to machine learning and commonsense reasoning systems. Naidenova X., Ignatov D., eds. N. Y.: IGI Global; 2013: 249-69.
  19. Yakovlev A. Ontology as a tool for systematizing knowledge about measuring equipment to monitor the functional state of soldiers. In: Actual problems of protection and safety. Vol. 7. P. 1. 2016: 400-3. Russian@@Яковлев А., Найденова К. Онтология как инструмент систематизации знаний об измерительной аппаратуре для мониторинга функционального состояния организма военнослужащих. В сб.: Актуальные проблемы защиты и безопасности. Т. 7. Ч. 1. 2016: 400-3.
  20. Naidenova Х. A., Ivanov V. V., Yakovlev A. V. Discretization features with continuous scales when extracting conceptual knowledge from experimental data. In: “KII-2004”. Vol. 1. Moscow: Fizmatlit; Tver: TGTU Publ.; 2004: 145-153. Russian@@Найденова К. А., Иванов В. В., Яковлев А. В. Дискретизация признаков с непрерывными шкалами при извлечении концептуальных знаний из экспериментальных данных. В сб.: «КИИ-2004». Т. 1. М.: Физматлит; Тверь: Изд-во ТГТУ; 2004: 145-53.
  21. Naidenova Х. A., Ivanov V. V., Yakovlev A. V. Discretization of Numerical Attributes and Extraction of Concept Knowledge from Data. In: Advances in Data Mining and Knowledge Discovery: Abstracts of Conference “Mathematical Methods for Learning”. Italy: Como; 2004: 54.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2018 Yakovlev A.V., Naydenova K.A.

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 77760 от 10.02.2020.


This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies