A New Era of Bioinformatics
- Authors: Aksenova A.Y., Zhuk A., Stepchenkova E., Semenikhin V.A., Langovoy M.А.
- Section: Problems in genetic education
- Submitted: 15.10.2024
- Accepted: 05.03.2025
- Published: 30.06.2025
- URL: https://journals.eco-vector.com/ecolgenet/article/view/637074
- DOI: https://doi.org/10.17816/ecogen637074
- ID: 637074
Cite item
Abstract
Bioinformatics is a rapidly growing discipline at the interface of biology, computer science, and mathematics. Recent scientific and technological advances in biological and biomedical sciences have led to a rapid increase in data generation. The analysis and interpretation of such data requires powerful computational tools and specialists with deep expertise in various fields, including molecular biology, genetics, programming, and mathematics. Currently, machine learning and deep learning methods are being rapidly integrated into various fields of biology and medicine, significantly transforming bioinformatic solutions and marking the advent of a new era in bioinformatics. The development of new algorithms and efficient data analysis methods using artificial intelligence (AI) forms the foundation for the future growth of this field. In this context, the demand for specialists capable of bridging the gap between biological and mathematical disciplines continues to grow, necessitating the adaptation of educational programs. This article reviews recent trends in bioinformatics, including the development of multi-omics approaches and the use of AI, and highlights the importance of multidisciplinary education with advanced training in mathematics and statistics to prepare a new generation of scientists capable of driving innovation in this dynamic field.
Full Text
ПРЕДМЕТ И ЗАДАЧИ БИОИНФОРМАТИКИ, ЕЕ ЗНАЧЕНИЕ ДЛЯ МЕДИЦИНЫ, ФУНДАМЕНТАЛЬНОЙ И ПРИКЛАДНОЙ БИОЛОГИИ
Биоинформатика — это междисциплинарная область, объединяющая биологические науки, математику, статистику и компьютерные технологии для сбора, хранения, анализа и интерпретации биологических и биомедицинских данных. Это интенсивно развивающаяся область, которая включает в себя разработку и применение алгоритмов и вычислительных инструментов для анализа биологической информации, особенно в таких областях, как геномика, транскритомика, протеомика, а также структурная и системная биология. Современная эра в биологии характеризуется лавинообразным накоплением огромного объема данных, генерируемых с помощью таких передовых методов, как секвенирование следующего поколения (NGS, Next Generation Sequencing) и секвенирование третьего поколения (TGS, Third Generation Sequencing), методов структурной биологии и масс-спектрометрии. Данные, получаемые с помощью таких методов, зачастую слишком объемны и сложны, чтобы ими можно было оперировать традиционными методами. Вместе с тем в огромных массивах таких данных кроется тайна организации жизни на молекулярном уровне: они дают ключ к пониманию сложных биологических процессов, определяющих организацию и функционирование живых систем, от регуляции экспрессии генов и взаимодействия белков, до организации сложных внутриклеточных структур и межклеточных взаимодействий. Развитие вычислительных методов играет ключевую роль в расшифровке таких сложных систем, а также в исследовании фундаментальных принципов, управляющих жизнью. Продвижение исследований в таких областях, как персонализированная медицина, разработка лекарств, системная биология и сельскохозяйственные науки, в настоящее время невозможно без активного развития и внедрения биоинформатических методов для анализа и интерпретации больших объемов данных [1–8].
Развитие биоинформатики в значительной степени было обусловлено развитием технологий высокопроизводительного секвенирования, которые становятся все более доступными и интегрируются в рутинную клиническую практику. Технологический прогресс в совокупности со снижением стоимости секвенирования и расширением сфер его применения в различных областях, привел к бурному росту использования этих технологий. Ожидается, что в ближайшем будущем технологии NGS и TGS начнут играть ключевую роль в формировании здравоохранения и станут стандартом для биомедицинских исследований.
В клинической диагностике и персонализированной медицине по всему миру наблюдается активный рост исследований, базирующихся на секвенировании полных геномов или целевых участков ДНК (включая экзомы и панели отдельных генов), а также секвенировании транскриптомов, причем эти методы становятся все более доступными для широкого круга исследователей и клинических лабораторий [9, 10]. Возможности NGS позволяют получить беспрецедентное представление о генетических вариациях в популяциях людей, исследовать механизмы наследственных заболеваний и механизмы развития рака [11, 12]. Полногеномные исследования ассоциаций (GWAS) с использованием данных NGS или данных, полученных с помощью гибридизации на микрочипах, позволяют выявлять корреляции между генетическими вариантами и признаками или заболеваниями [13, 14]. Все это в совокупности позволяет выявлять специфические молекулярные маркеры различных заболеваний и учитывать их совокупность, что дает возможность проводить лечение с учетом индивидуальных особенностей пациентов [15]. Кроме того, NGS способствует развитию неинвазивных диагностических подходов, таких как жидкостная биопсия, которая позволяет отслеживать прогрессирование заболевания и ответ на лечение, и неинвазивное пренатальное тестирование (NIPT) [16–18]. Помимо этого, NGS играет принципиальную роль в разработке персонализированной иммунотерапии онкологических заболеваний (вакцины от рака), базирующейся на выявлении неоантигенов, экспрессируемых в опухолях [19–21]. Такой подход не только обеспечивает максимальное терапевтическое воздействие на раковые клетки, но и минимизирует потенциальные побочные эффекты, связанные с более широкими иммунотерапевтическими методами, которые могут затрагивать здоровые клетки. В дополнение к этому, развитие таких технологий, как Chromium (10x Genomics), C1 (Fluidigm) и Seek One (Seek Gene Biotechnology), позволило параллельно получать данные секвенирования для тысяч одиночных клеток (scDNA-seq и scRNA-seq) [22]. Таким образом, этот подход повышает разрешение генетических тестов до уровня анализа отдельных клеток, что позволяет исследовать гетерогенность клеточных популяций и выявлять уникальные события, возникающие в отдельных клетках. Другие методы, такие как ChIP-seq, ATAC-seq и Methyl-seq, и их различные комбинации с другими омиксными технологиями, позволяют изучать регуляцию экспрессии генов, динамику хроматина и различные эпигенетические механизмы [23–27]. Специализированные методы NGS внедряются в клиническую практику по мере накопления данных и подтверждения клинической значимости тех или иных механизмов в развитии заболеваний [15, 28, 29]. Молекулярные механизмы развития заболеваний становятся намного понятней на генетическом и эпигенетическом уровне благодаря расширяющимся возможностям методов секвенирования генома и анализа данных, что открывает путь к новой эре точной медицины и продлению жизни человека. Новая сборка генома человека T2T-CHM13, представляющая собой непрерывную последовательность генома человека, без пробелов, включая ранее неизученные регионы, такие как центромеры и теломеры [30, 31], дала новый виток развитию методов анализа генома, включающих изучение функциональной роли повторяющихся последовательностей и поиска различных структурных вариантов. Благодаря интенсивному развитию этой области во всем мире наблюдается взрывной рост объемов собираемых омиксных данных. В частности, крупные центры анализа геномных данных генерируют десятки и сотни терабайт новых данных в сутки. Ожидается, что уже в 2025 году объем накопленных в мире геномных данных превысит масштабы таких гигантов ИТ-индустрии как Youtube и Twitter [32–34].
Биоинформатика играет важнейшую роль в изучении структурно-функциональных свойств белков и пептидов. Достижения в области масс-спектрометрии и других протеомных методов позволяют генерировать сложные массивы данных о взаимодействиях и модификациях белков, изучать их структуру [35–37]. Интерпретация этих данных помогает исследователям изучать различные белковые комплексы и понять сложные сети взаимодействий между белками, а также белками и нуклеиновыми кислотами внутри клеток [38–42]. Эта информация является ключевой для разработки новых лекарств, изучения механизмов заболеваний и выявления биомаркеров [43–48]. Cистемная биология, работающая на более высоком уровне, объединяет различные слои биологических данных (геномика, транскриптомика, протеомика, метаболомика) для создания комплексных моделей биологических систем. Инструменты биоинформатики незаменимы для моделирования этих сложных систем и предсказания их поведения в различных условиях.
По мере накопления данных были созданы обширные и многофункциональные биологические базы данных, такие как сервисы NCBI, который содержит различные базы и инструменты анализа данных (https://www.ncbi.nlm.nih.gov/), ресурс UCSC genome browser, позволяющий как визуализировать геномы, так и содержит различные инструменты анализа (https://genome.ucsc.edu/) [49], Ensembl [50], EMBL-EBI (https://www.ebi.ac.uk/) [51], UniProt [52], Protein Data Bank [53], KEGG [54], Enzyme Database (BRENDA) [55], Эти и многие другие ресурсы биоинформатики используют для аннотирования геномов, изучения функций генов и их регуляции, отслеживания функций белков, метаболических путях и генетических взаимодействиях, а также позволяет проводить перекрестное сопоставление биологической информации из различных источников и выявлять новые закономерности.
В последнее время наблюдается активный рост использования методов машинного обучения (ML) для обнаружения закономерностей в сложных данных NGS для решения различных проблем фармакогеномики и онкогенетики [56]. На переднем крае науки находятся технологии искусственного интеллекта (ИИ), который является мощным инструментом для повышения точности и скорости интерпретации данных. Интеграция методов машинного обучения и ИИ облегчает извлечение значимой информации и, таким образом, революционизирует анализ омиксных данных, позволяя выявлять новые генетические варианты, значимые для течения болезни, прогнозировать риск развития заболеваний и обнаруживать новые биомаркеры, что способствует развитию персонализированной медицины и ускоряет разработку подходов для целевой терапии. Например, алгоритмы на основе ИИ в настоящее время незаменимы для масштабного поиска новых лекарственных мишеней и диагностических инструментов. Соответственно, многие фармацевтические компании переходят на повсеместное использование методов ИИ в обработке и анализе биомедицинских данных.
ЗНАЧЕНИЕ ФУНДАМЕНТАЛЬНЫХ МАТЕМАТИЧЕСКИХ ЗНАНИЙ ДЛЯ ПОДГОТОВКИ ВЫСОКОКВАЛИФИЦИРОВАННЫХ БИОИНФОРМАТИКОВ
По мере роста значимости биоинформатики растет и спрос на квалифицированных специалистов, способных преодолеть разрыв между биологией и наукой о данных. Фармацевтическая и биотехнологическая отрасли нуждаются в специалистах, способных интерпретировать геномные, транскриптомные и протеомные данные, а также изучать структуры биомолекул для разработки лекарств и точной медицины. Академическим институтам и исследовательским лабораториям также требуются биоинформатики для реализации научных проектов и управления все более сложными массивами данных. Большинство биологических исследований сегодня опираются на биоинформатические инструменты для выявления биомаркеров, анализа данных высокопроизводительного секвенирования и моделирования механизмов заболеваний.
Междисциплинарный характер биоинформатики создает уникальные образовательные проблемы, что подчеркивает необходимость развития специализированных программ обучения. В частности, в подготовке биоинформатика решающее значение играет не только знание основ молекулярной биологии, но и хорошее математическое образование. Это обусловлено тем, что для анализа биологических данных используются различные статистические и вычислительные методы. Достоверность анализа, равно как и количество значимой информации, извлекаемой из сложных биологических данных, зависит от умения и правильности применения тех или иных математических алгоритмов и программых инструментов. Глубокое понимание математики, особенно в таких областях, как статистика, теория вероятностей, линейная алгебра, комбинаторика и теория графов, необходимо для моделирования биологических систем, управления большими массивами данных и разработки прогностических моделей.
Сложность биологических данных также требует знаний в области машинного обучения, визуализации данных и программирования. Программирование решений научно-исследовательских задач обычно осуществляется на таких языках, как Python, R и SQL, в то время как для более масштабных проектов (в том числе в области коммерческого биоинформатического программного обеспечения) могут требоваться, к примеру, C/С++, Java, или даже специализированные языки программирования. Биоинформатическая подготовка также стандартно включает в себя знакомство с облачными вычислительными платформами для хранения и обработки данных. Образование в области биоинформатики должно учитывать все это, сочетая теоретическую подготовку с практическими занятиями по анализу данных, изучению передовых алгоритмов для интерпретации омиксных данных и разработке программного обеспечения. Это обусловлено тем, что одной из важнейших задач биоинформатики является разработка новых алгоритмических решений для обработки и анализа биологических данных, а также оптимизация этих процессов.
Быстрый темп технологических изменений в биоинформатике требует постоянного обучения и подготовки. Это означает, что специалисты в этой области должны учиться всю жизнь, чтобы успевать овладевать новыми инструментами, методами и методиками, такими как подходы глубокого обучения для анализа омиксных данных или достижения в области квантовых вычислений. Образовательные программы в области биоинформатики должны развиваться вместе с этими тенденциями, чтобы выпускники обладали самыми современными навыками. Интеграция искусственного интеллекта и машинного обучения в биоинформатику ускоряется. Технологии ИИ особенно успешно используются для анализа больших и сложных массивов данных в таких приложениях как геномный анализ, секвенирование транскриптомов одиночных клеток, пространственная транскриптомика и мультиомиксные технологии [57–61]. Глубокое машинное обучение в настоящее время незаменимо для поиска новых лекарств, протеомного анализа и изучения структуры белков [62, 63]. AlphaFold2 (и новая версия AlphaFold3, ставшая доступной для академических институтов в ноябре 2024 года), разработанный компанией DeepMind, произвел революцию в предсказании структуры белков, достигнув поразительной точности в определении 3D-структур по аминокислотным последовательностям. Для предсказания структуры белков AlphaFold2 и AlphaFold3 используют методы глубокого обучения, в частности нейронные сети, обучаясь на больших массивах данных об известных белковых структурах [64–68]. Признание инновационности и значимости такого подхода подчеркивается тем, что за разработку алгоритмов AlphaFold2 Демису Хассабису и Джону Джамперу присуждена Нобелевская премия по химии в 2024 г. Дэвид Бейкер, внесший значительный вклад в компьютерный дизайн белковых молекул, разделил с ними награду [69, 70].
Нейронные сети также показали определенную эффективность в разработке экспериментов по редактированию генома с использованием CRISPR/Cas9 [71–73]. По мере того, как подобные инструменты будут все шире использоваться в медицине, сельском хозяйстве и экологии, биоинформатики будут играть решающую роль в обеспечении безопасного и эффективного применения этих технологий.
Увеличение объема и усложнение массивов данных неизбежно повышает спрос на специалистов, владеющих методами машинного обучения и глубокого обучения. Эта тенденция четко прослеживается в области персонализированной медицины, где модели машинного обучения могут помочь подобрать лечение на основе уникального геномного профиля пациента [74–79]. Несомненно, что мультиомиксные подходы, плотно интегрирующие данные геномики, транскриптомики, протеомики и метаболомики, потребуют разработки новых вычислительных инструментов и методов биоинформатики для интерпретации этих сложных наборов данных и поиска значимых биологических связей. Инструментарий биоинформатики становится все более продвинутым и математически сложным и глубокое понимание математических концепций и статистических методов начинает играть первостепенную роль в подготовке новых кадров. Программы биоинформатической подготовки в ВУЗах должны уделять все больше внимания математике и статистике, чтобы вооружить студентов основополагающими навыками, необходимыми для работы в условиях растущей сложности этой области.
Нельзя не упомянуть также и тот факт, что два наиболее популярных метода машинного обучения последних 30-ти лет, а именно глубокие нейросети и SVM (Support Vector Machines, метод опорных векторов), были изначально предложены и разработаны в 1960-е годы советскими специалистами по прикладной математике и математической статистике. Упомянем здесь только основополагающие работы по первым обучающимся нейросетям [80], первым глубоким нейросетям [81], и распознаванию образов [82]. Классические, строго обоснованные, математические методы решения задач, долго сохраняют свою актуальность. К примеру, в основе обучения современных больших нейросетей и больших языковых моделей, лежат принципы теории оптимального управления, разработанные в 1950-е годы группой Л.С. Понтрягина [83], и метод обратного распространения ошибки А.И. Галушкина [84]. Применяя и развивая эти методы, Джеффри Хинтон получил свои результаты в области обучения глубоких нейросетей, за которые был удостоен Нобелевской премии по физике 2024 года.
ЗАКЛЮЧЕНИЕ
В заключение следует отметить, что образование в области биоинформатики открывает путь к полноценной карьере с разнообразными возможностями в области академических и прикладных исследований, биотехнологической промышленности, здравоохранения и предпринимательства. Будущее биоинформатики невероятно перспективно, и, по мере накопления данных и появления новых задач, биоинформатики будут продолжать вносить ключевой вклад в научный прогресс. Исключительно важно, чтобы образовательная система адекватно реагировала на изменяющиеся потребности в высококвалифицированных специалистах в этой области. Вслед за новой эрой биоинформатики, характеризующейся ростом применения методов машинного и глубокого машинного обучения в различных областях биологии и медицины, новая эра должна наступить и в образовательной сфере. Мы рекомендуем студентам нематематических специальностей, планирующим специализацию в области биоинформатики, систематически повышать свою квалификацию и уровень владения классическими математическими инструментами, в особенности в таких дисциплинах как линейная алгебра, дискретная математика, теория вероятностей и статистика. Университетам следует акцентировать внимание на математической составляющей учебных программ по биоинформатике, привлекая соответствующих экспертов к процессу преподавания.
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ
Вклад авторов. А. Ю. Аксенова — концепция и дизайн манускрипта, сбор и обработка литературных данных, написание текста, внесение окончательной правки; А.С. Жук — анализ литературных данных, написание текста, внесение окончательной правки; Е.И. Степченкова — анализ литературных данных, написание текста, внесение окончательной правки; В.А. Семенихин — анализ литературных данных, написание текста, внесение промежуточных правок; М.А. Ланговой — сбор и обработка литературных данных, написание текста, внесение окончательной правки.
Источник финансирования. Работа выполнена при поддержке Санкт-Петербургского государственного университета (проект № 125021902561-6).
Благодарности. Авторы благодарят РЦ РМиКТ и РЦ «Биобанк» СПбГУ. Авторы благодарны Кириллу Владимировичу Волкову за критические замечания, высказанные при подготовке рукописи.
Раскрытие потенциального конфликта интересов авторов. Авторы заявляют об отсутствии потенциального конфликта интересов, требующего раскрытия в данной статье.
About the authors
Anna Yu. Aksenova
Author for correspondence.
Email: a.aksenova@spbu.ru
ORCID iD: 0000-0002-1601-1615
SPIN-code: 4914-7675
Scopus Author ID: 7004702797
ResearcherId: O-8309-2015
PhD
Russian FederationAnna Zhuk
Email: ania.zhuk@gmail.com
ORCID iD: 0000-0001-8683-9533
SPIN-code: 2223-5306
Scopus Author ID: 54953157500
ResearcherId: N-5270-2015
PhD
Russian FederationElena Stepchenkova
Email: stepchenkova@gmail.com
ORCID iD: 0000-0002-5854-8701
SPIN-code: 9121-7483
Scopus Author ID: 8862552900
ResearcherId: F-9931-2014
https://www.researchgate.net/profile/Elena_Stepchenkova
PhD
Russian FederationViacheslav A. Semenikhin
Email: vasemenikhin@hse.ru
ORCID iD: 0000-0001-6923-0363
SPIN-code: 2251-5652
Scopus Author ID: 58845267200
ResearcherId: GYU-8712-2022
Russian Federation
Mikhail А. Langovoy
Email: mikhail@langovoy.com
ORCID iD: 0000-0002-7593-0830
Dr. rer. nat.
Russian FederationReferences
- Alser, M.; Lindegger, J.; Firtina, C.; Almadhoun, N.; Mao, H.; Singh, G.; Gomez-Luna, J.; Mutlu, O. From Molecules to Genomic Variations: Accelerating Genome Analysis via Intelligent Algorithms and Architectures. Comput. Struct. Biotechnol. J. 2022, 20, 4579–4599. doi: 10.1016/j.csbj.2022.08.019.
- Tan, Y.C.; Kumar, A.U.; Wong, Y.P.; Ling, A.P.K. Bioinformatics Approaches and Applications in Plant Biotechnology. J. Genet. Eng. Biotechnol. 2022, 20, 1–13. doi: 10.1186/S43141-022-00394-5/TABLES/2.
- Naqvi, R.Z.; Mahmood, M.A.; Mansoor, S.; Amin, I.; Asif, M. Omics-Driven Exploration and Mining of Key Functional Genes for the Improvement of Food and Fiber Crops. Front. Plant Sci. 2023, 14, 1273859. doi: 10.3389/FPLS.2023.1273859/PDF.
- Srivastava, R. Applications of Artificial Intelligence Multiomics in Precision Oncology. J. Cancer Res. Clin. Oncol. 2023, 149, 503–510. doi: 10.1007/S00432-022-04161-4/METRICS.
- Pezoulas, V.C.; Hazapis, O.; Lagopati, N.; Exarchos, T.P.; Goules, A. V.; Tzioufas, A.G.; Fotiadis, D.I.; Stratis, I.G.; Yannacopoulos, A.N.; Gorgoulis, V.G. Machine Learning Approaches on High Throughput NGS Data to Unveil Mechanisms of Function in Biology and Disease. Cancer Genomics Proteomics 2021, 18, 605–626. doi: 10.21873/CGP.20284.
- Sadee, W.; Wang, D.; Hartmann, K.; Toland, A.E. Pharmacogenomics: Driving Personalized Medicine. Pharmacol. Rev. 2023, 75, 789–814. doi: 10.1124/PHARMREV.122.000810.
- Uesaka, K.; Oka, H.; Kato, R.; Kanie, K.; Kojima, T.; Tsugawa, H.; Toda, Y.; Horinouchi, T. Bioinformatics in Bioscience and Bioengineering: Recent Advances, Applications, and Perspectives. J. Biosci. Bioeng. 2022, 134, 363–373. doi: 10.1016/J.JBIOSC.2022.08.004.
- Jamialahmadi, H.; Khalili-Tanha, G.; Nazari, E.; Rezaei-Tavirani, M. Artificial Intelligence and Bioinformatics: A Journey from Traditional Techniques to Smart Approaches. Gastroenterol. Hepatol. from bed to bench 2024, 17, 241–252. doi: 10.22037/GHFBB.V17I3.2977.
- Riess, O.; Sturm, M.; Menden, B.; Liebmann, A.; Demidov, G.; Witt, D.; Casadei, N.; Admard, J.; Schütz, L.; Ossowski, S.; et al. Genomes in Clinical Care. npj Genomic Med. 2024, 9, 20. doi: 10.1038/s41525-024-00402-2.
- Mosele, F.; Remon, J.; Mateo, J.; Westphalen, C.B.; Barlesi, F.; Lolkema, M.P.; Normanno, N.; Scarpa, A.; Robson, M.; Meric-Bernstam, F.; et al. Recommendations for the Use of Next-Generation Sequencing (NGS) for Patients with Metastatic Cancers: A Report from the ESMO Precision Medicine Working Group. Ann. Oncol. 2020, 31, 1491–1505. doi: 10.1016/j.annonc.2020.07.014.
- Morganti, S.; Tarantino, P.; Ferraro, E.; D’Amico, P.; Duso, B.A.; Curigliano, G. Next Generation Sequencing (NGS): A Revolutionary Technology in Pharmacogenomics and Personalized Medicine in Cancer. Adv. Exp. Med. Biol. 2019, 1168, 9–30. doi: 10.1007/978-3-030-24100-1_2.
- Edsjö, A.; Gisselsson, D.; Staaf, J.; Holmquist, L.; Fioretos, T.; Cavelier, L.; Rosenquist, R. Current and Emerging Sequencing-Based Tools for Precision Cancer Medicine. Mol. Aspects Med. 2024, 96, 101250. doi: 10.1016/J.MAM.2024.101250.
- Abdellaoui, A.; Yengo, L.; Verweij, K.J.H.; Visscher, P.M. 15 Years of GWAS Discovery: Realizing the Promise. Am. J. Hum. Genet. 2023, 110, 179–194. doi: 10.1016/j.ajhg.2022.12.011.
- Defo, J.; Awany, D.; Ramesar, R. From SNP to Pathway-Based GWAS Meta-Analysis: Do Current Meta-Analysis Approaches Resolve Power and Replication in Genetic Association Studies? Brief. Bioinform. 2023, 24, 1–14. doi: 10.1093/bib/bbac600.
- Yadav, D.; Patil-Takbhate, B.; Khandagale, A.; Bhawalkar, J.; Tripathy, S.; Khopkar-Kale, P. Next-Generation Sequencing Transforming Clinical Practice and Precision Medicine. Clin. Chim. Acta 2023, 551, 117568. doi: 10.1016/J.CCA.2023.117568.
- Roberto, T.M.; Jorge, M.A.; Francisco, G.V.; Noelia, T.; Pilar, R.G.; Andrés, C. Strategies for Improving Detection of Circulating Tumor DNA Using next Generation Sequencing. Cancer Treat. Rev. 2023, 119, 102595. doi: 10.1016/J.CTRV.2023.102595.
- Shegekar, T.; Vodithala, S.; Juganavar, A. The Emerging Role of Liquid Biopsies in Revolutionising Cancer Diagnosis and Therapy. Cureus 2023, 15. doi: 10.7759/CUREUS.43650.
- Jenkins, M.; Seasely, A.R.; Subramaniam, A. Prenatal Genetic Testing 2: Diagnostic Tests. Curr. Opin. Pediatr. 2022, 34, 553–558. doi: 10.1097/MOP.0000000000001174.
- Schäfer, R.A.; Guo, Q.; Yang, R. ScanNeo2: A Comprehensive Workflow for Neoantigen Detection and Immunogenicity Prediction from Diverse Genomic and Transcriptomic Alterations. Bioinformatics 2023, 39, 0–2. doi: 10.1093/bioinformatics/btad659.
- Xie, N.; Shen, G.; Gao, W.; Huang, Z.; Huang, C.; Fu, L. Neoantigens: Promising Targets for Cancer Therapy. Signal Transduct. Target. Ther. 2023, 8, 1–38.
- Kiyotani, K.; Chan, H.T.; Nakamura, Y. Immunopharmacogenomics towards Personalized Cancer Immunotherapy Targeting Neoantigens. Cancer Sci. 2018, 109, 542–549. doi: 10.1111/CAS.13498.
- See, P.; Lum, J.; Chen, J.; Ginhoux, F. A Single-Cell Sequencing Guide for Immunologists. Front. Immunol. 2018, 9, 415498. doi: 10.3389/FIMMU.2018.02425/BIBTEX.
- Choi, H.; Kim, H.; Chung, H.; Lee, D.S.; Kim, J. Application of Computational Algorithms for Single-Cell RNA-Seq and ATAC-Seq in Neurodegenerative Diseases. Brief. Funct. Genomics 2025, 24, 44. doi: 10.1093/BFGP/ELAE044.
- Lee, J.-W.; Cho, J.-Y. Comparative Epigenetics of Domestic Animals: Focusing on DNA Accessibility and Its Impact on Gene Regulation and Traits. J. Vet. Sci. 2025, 26. doi: 10.4142/JVS.24259.
- Cox, O.H.; Seifuddin, F.; Guo, J.; Pirooznia, M.; Boersma, G.J.; Wang, J.; Tamashiro, K.L.K.; Lee, R.S. Implementation of the Methyl-Seq Platform to Identify Tissue- and Sex-Specific DNA Methylation Differences in the Rat Epigenome. Epigenetics 2024, 19, 2393945. doi: 10.1080/15592294.2024.2393945.
- Li, S.J.; Gao, X.; Wang, Z.H.; Li, J.; Zeng, L.T.; Dang, Y.M.; Ma, Y.Q.; Zhang, L.Q.; Wang, Q.Y.; Zhang, Y.M.; et al. Cell-Free DNA Methylation Patterns in Aging and Their Association with Inflamm-Aging. Epigenomics 2024, 16, 715–731. doi: 10.1080/17501911.2024.2340958.
- Hubert, J.N.; Iannuccelli, N.; Cabau, C.; Jacomet, E.; Billon, Y.; Serre, R.F.; Vandecasteele, C.; Donnadieu, C.; Demars, J. Detection of DNA Methylation Signatures through the Lens of Genomic Imprinting. Sci. Rep. 2024, 14, 1–8. doi: 10.1038/s41598-024-52114-3.
- Lee, H.; Martinez-Agosto, J.A.; Rexach, J.; Fogel, B.L. Next Generation Sequencing in Clinical Diagnosis. Lancet. Neurol. 2019, 18, 426. doi: 10.1016/S1474-4422(19)30110-3.
- Gibbs, S.N.; Peneva, D.; Cuyun Carter, G.; Palomares, M.R.; Thakkar, S.; Hall, D.W.; Dalglish, H.; Campos, C.; Yermilov, I. Comprehensive Review on the Clinical Impact of Next-Generation Sequencing Tests for the Management of Advanced Cancer. JCO Precis. Oncol. 2023, 7. doi: 10.1200/PO.22.00715.
- Nurk, S.; Koren, S.; Rhie, A.; Rautiainen, M.; Bzikadze, A. V.; Mikheenko, A.; Vollger, M.R.; Altemose, N.; Uralsky, L.; Gershman, A.; et al. The Complete Sequence of a Human Genome. Science (80-. ). 2022, 376, 44–53. doi: 10.1126/SCIENCE.ABJ6987.
- Hoyt, S.J.; Storer, J.M.; Hartley, G.A.; Grady, P.G.S.; Gershman, A.; de Lima, L.G.; Limouse, C.; Halabian, R.; Wojenski, L.; Rodriguez, M.; et al. From Telomere to Telomere: The Transcriptional and Epigenetic State of Human Repeat Elements. Science (80-. ). 2022, 376. doi: 10.1126/science.abk3112.
- Stephens, Z.D.; Lee, S.Y.; Faghri, F.; Campbell, R.H.; Zhai, C.; Efron, M.J.; Iyer, R.; Schatz, M.C.; Sinha, S.; Robinson, G.E. Big Data: Astronomical or Genomical? PLOS Biol. 2015, 13, e1002195. doi: 10.1371/JOURNAL.PBIO.1002195.
- Katz, K.; Shutov, O.; Lapoint, R.; Kimelman, M.; Rodney Brister, J.; O’Sullivan, C. The Sequence Read Archive: A Decade More of Explosive Growth. Nucleic Acids Res. 2022, 50, D387–D390. doi: 10.1093/NAR/GKAB1053.
- Danielewski, M.; Szalata, M.; Nowak, J.K.; Walkowiak, J.; Słomski, R.; Wielgus, K. History of Biological Databases, Their Importance, and Existence in Modern Scientific and Policy Context. Genes (Basel). 2025, 16, 100. doi: 10.3390/GENES16010100/S1.
- Fedorov, I.I.; Protasov, S.A.; Tarasova, I.A.; Gorshkov, M. V. Ultrafast Proteomics. Biochem. 2024, 89, 1349–1361. doi: 10.1134/S0006297924080017/FIGURES/4.
- Anderton, C.R.; Uhrig, R.G. The Promising Role of Proteomes and Metabolomes in Defining the Single-Cell Landscapes of Plants. New Phytol. 2025, 245. doi: 10.1111/NPH.20303.
- Godoy Sanches, P.H.; Clemente De Melo, N.; Porcari, A.M.; Miguel De Carvalho, L. Integrating Molecular Perspectives: Strategies for Comprehensive Multi-Omics Integrative Data Analysis and Machine Learning Applications in Transcriptomics, Proteomics, and Metabolomics. Biology (Basel). 2024, 13, 848. doi: 10.3390/BIOLOGY13110848.
- Wu, S.; Zhang, S.; Liu, C.M.; Fernie, A.R.; Yan, S. Recent Advances in Mass Spectrometry-Based Protein Interactome Studies. Mol. Cell. Proteomics 2025, 24. doi: 10.1016/j.mcpro.2024.100887.
- Dang, V.; Voigt, B.; Marcotte, E.M. Progress toward a Comprehensive Brain Protein Interactome. Biochem. Soc. Trans. 2025, 53. doi: 10.1042/BST20241135.
- Rahmati, S.; Emili, A. Proximity Labeling: Precise Proteomics Technology for Mapping Receptor Protein Neighborhoods at the Cancer Cell Surface. Cancers (Basel). 2025, 17, 179.
- Edwards, A.N.; Hsu, K.L. Emerging Opportunities for Intact and Native Protein Analysis Using Chemical Proteomics. Anal. Chim. Acta 2025, 1338, 343551. doi: 10.1016/J.ACA.2024.343551.
- Goel, R.K.; Bithi, N.; Emili, A. Trends in Co-Fractionation Mass Spectrometry: A New Gold-Standard in Global Protein Interaction Network Discovery. Curr. Opin. Struct. Biol. 2024, 88. doi: 10.1016/J.SBI.2024.102880.
- Kim, S.G.; Hwang, J.S.; George, N.P.; Jang, Y.E.; Kwon, M.; Lee, S.S.; Lee, G. Integrative Metabolome and Proteome Analysis of Cerebrospinal Fluid in Parkinson’s Disease. Int. J. Mol. Sci. 2024, 25, 11406. doi: 10.3390/IJMS252111406/S1.
- Wu, D.; Zhang, L.; Ding, F. Current Status and Future Directions of Application of Urine Proteomics in Neonatology. Front. Pediatr. 2024, 12, 1509468. doi: 10.3389/FPED.2024.1509468/BIBTEX.
- Kliuchnikova, A.A.; Ilgisonis, E. V.; Archakov, A.I.; Ponomarenko, E.A.; Moskalev, A.A. Proteomic Markers of Aging and Longevity: A Systematic Review. Int. J. Mol. Sci. 2024, 25, 12634. doi: 10.3390/IJMS252312634/S1.
- Nalla, L.V.; Kanukolanu, A.; Yeduvaka, M.; Gajula, S.N.R. Advancements in Single-Cell Proteomics and Mass Spectrometry-Based Techniques for Unmasking Cellular Diversity in Triple Negative Breast Cancer. PROTEOMICS – Clin. Appl. 2025, 19, e202400101. doi: 10.1002/PRCA.202400101.
- Pomella, S.; Melaiu, O.; Cifaldi, L.; Bei, R.; Gargari, M.; Campanella, V.; Barillari, G. Biomarkers Identification in the Microenvironment of Oral Squamous Cell Carcinoma: A Systematic Review of Proteomic Studies. Int. J. Mol. Sci. 2024, 25, 8929. doi: 10.3390/IJMS25168929/S1.
- Zhang, Z.; Huang, J.; Zhang, Z.; Shen, H.; Tang, X.; Wu, D.; Bao, X.; Xu, G.; Chen, S. Application of Omics in the Diagnosis, Prognosis, and Treatment of Acute Myeloid Leukemia. Biomark. Res. 2024, 12, 1–43.
- ar do Perez, G.; Barber, G.P.; Benet-Pages, A.; Casper, J.; am Cla wson, H.; Diekhans, M.; Fischer, C.; Nav ar ro Gonzalez, J.; Hinrichs, A.S.; Lee, C.M.; et al. The UCSC Genome Browser Database: 2025 Update. Nucleic Acids Res. 2025, 53, D1243–D1249. doi: 10.1093/NAR/GKAE974.
- Dyer, S.C.; Austine-Orimoloye, O.; Azov, A.G.; Barba, M.; Barnes, I.; Barrera-Enriquez, V.P.; Becker, A.; Bennett, R.; Beracochea, M.; Berry, A.; et al. Ensembl 2025. Nucleic Acids Res. 2025, 53, D948–D957. doi: 10.1093/NAR/GKAE1071.
- Rodriguez-Tomé, P.; Stoehr, P.J.; Cameron, G.N.; Flores, T.P. The European Bioinformatics Institute (EBI) Databases. Nucleic Acids Res. 1996, 24, 6–12. doi: 10.1093/NAR/24.1.6.
- Consortium, T.U.; Bateman, A.; Martin, M.-J.; Orchard, S.; Magrane, M.; Adesina, A.; Ahmad, S.; Bowler-Barnett, E.H.; Bye-A-Jee, H.; Carpentier, D.; et al. UniProt: The Universal Protein Knowledgebase in 2025. Nucleic Acids Res. 2025, 53, D609–D617. doi: 10.1093/NAR/GKAE1010.
- Zardecki, C.; Dutta, S.; Goodsell, D.S.; Lowe, R.; Voigt, M.; Burley, S.K. PDB-101: Educational Resources Supporting Molecular Explorations through Biology and Medicine. Protein Sci. 2022, 31, 129–140. doi: 10.1002/PRO.4200.
- Kanehisa, M.; Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 2000, 28, 27–30. doi: 10.1093/NAR/28.1.27.
- Chang, A.; Jeske, L.; Ulbrich, S.; Hofmann, J.; Koblitz, J.; Schomburg, I.; Neumann-Schaal, M.; Jahn, D.; Schomburg, D. BRENDA, the ELIXIR Core Data Resource in 2021: New Developments and Updates. Nucleic Acids Res. 2021, 49, D498–D508. doi: 10.1093/NAR/GKAA1025.
- Mondello, A.; Dal Bo, M.; Toffoli, G.; Polano, M. Machine Learning in Onco-Pharmacogenomics: A Path to Precision Medicine with Many Challenges. Front. Pharmacol. 2024, 14, 1260276. doi: 10.3389/fphar.2023.1260276.
- Erfanian, N.; Heydari, A.A.; Feriz, A.M.; Iañez, P.; Derakhshani, A.; Ghasemigol, M.; Farahpour, M.; Razavi, S.M.; Nasseri, S.; Safarpour, H.; et al. Deep Learning Applications in Single-Cell Genomics and Transcriptomics Data Analysis. Biomed. Pharmacother. 2023, 165, 115077. doi: 10.1016/J.BIOPHA.2023.115077.
- Athaya, T.; Ripan, R.C.; Li, X.; Hu, H. Multimodal Deep Learning Approaches for Single-Cell Multi-Omics Data Integration. Brief. Bioinform. 2023, 24, 1–15. doi: 10.1093/BIB/BBAD313.
- Gulati, G.S.; D’Silva, J.P.; Liu, Y.; Wang, L.; Newman, A.M. Profiling Cell Identity and Tissue Architecture with Single-Cell and Spatial Transcriptomics. Nat. Rev. Mol. Cell Biol. 2024, 1–21. doi: 10.1038/s41580-024-00768-2.
- Rivero-Garcia, I.; Torres, M.; Sánchez-Cabo, F. Deep Generative Models in Single-Cell Omics. Comput. Biol. Med. 2024, 176, 108561. doi: 10.1016/J.COMPBIOMED.2024.108561.
- Kang, M.; Ko, E.; Mersha, T.B. A Roadmap for Multi-Omics Data Integration Using Deep Learning. Brief. Bioinform. 2022, 23, 1–16. doi: 10.1093/BIB/BBAB454.
- Pun, F.W.; Ozerov, I. V.; Zhavoronkov, A. AI-Powered Therapeutic Target Discovery. Trends Pharmacol. Sci. 2023, 44, 561–572. doi: 10.1016/j.tips.2023.06.010.
- Mann, M.; Kumar, C.; Zeng, W.-F.; Strauss, M.T. Artificial Intelligence for Proteomics and Biomarker Discovery. Cell Syst. 2021, 12, 759–770. doi: 10.1016/j.cels.2021.06.006.
- Wang, L.; Wen, Z.; Liu, S.-W.; Zhang, L.; Finley, C.; Lee, H.-J.; Fan, H.-J.S. Overview of AlphaFold2 and Breakthroughs in Overcoming Its Limitations. Comput. Biol. Med. 2024, 176, 108620. doi: 10.1016/j.compbiomed.2024.108620.
- Zhang, H.; Lan, J.; Wang, H.; Lu, R.; Zhang, N.; He, X.; Yang, J.; Chen, L. AlphaFold2 in Biomedical Research: Facilitating the Development of Diagnostic Strategies for Disease. Front. Mol. Biosci. 2024, 11. doi: 10.3389/FMOLB.2024.1414916.
- Varga, J.K.; Schueler-Furman, O. Who Binds Better? Let Alphafold2 Decide! Angew. Chemie - Int. Ed. 2023, 62. doi: 10.1002/anie.202303526.
- Bertoline, L.M.F.; Lima, A.N.; Krieger, J.E.; Teixeira, S.K. Before and after AlphaFold2: An Overview of Protein Structure Prediction. Front. Bioinforma. 2023, 3. doi: 10.3389/FBINF.2023.1120370.
- Borkakoti, N.; Thornton, J.M. AlphaFold2 Protein Structure Prediction: Implications for Drug Discovery. Curr. Opin. Struct. Biol. 2023, 78, 102526. doi: 10.1016/J.SBI.2022.102526.
- Leman, J.K.; Weitzner, B.D.; Lewis, S.M.; Adolf-Bryfogle, J.; Alam, N.; Alford, R.F.; Aprahamian, M.; Baker, D.; Barlow, K.A.; Barth, P.; et al. Macromolecular Modeling and Design in Rosetta: Recent Methods and Frameworks. Nat. Methods 2020, 17, 665–680. doi: 10.1038/S41592-020-0848-2.
- Baek, M.; DiMaio, F.; Anishchenko, I.; Dauparas, J.; Ovchinnikov, S.; Lee, G.R.; Wang, J.; Cong, Q.; Kinch, L.N.; Dustin Schaeffer, R.; et al. Accurate Prediction of Protein Structures and Interactions Using a Three-Track Neural Network. Science (80-. ). 2021, 373, 871–876. doi: 10.1126/science.abj8754.
- Zhang, G.; Luo, Y.; Dai, X.; Dai, Z. Benchmarking Deep Learning Methods for Predicting CRISPR/Cas9 SgRNA on- and off-Target Activities. Brief. Bioinform. 2023, 24, 1–18. doi: 10.1093/BIB/BBAD333.
- Sherkatghanad, Z.; Abdar, M.; Charlier, J.; Makarenkov, V. Using Traditional Machine Learning and Deep Learning Methods for On- and off-Target Prediction in CRISPR/Cas9: A Review. Brief. Bioinform. 2023, 24. doi: 10.1093/BIB/BBAD131.
- Lee, M. Deep Learning in CRISPR-Cas Systems: A Review of Recent Studies. Front. Bioeng. Biotechnol. 2023, 11, 1226182. doi: 10.3389/fbioe.2023.1226182.
- Sun, D.; Chen, W.; He, J.; He, Y.; Jiang, H.; Jiang, H.; Liu, D.; Li, L.; Liu, M.; Mao, Z.; et al. A Novel Method for Screening Malignant Hematological Diseases by Constructing an Optimal Machine Learning Model Based on Blood Cell Parameters. BMC Med. Inform. Decis. Mak. 2025, 25, 72. doi: 10.1186/s12911-025-02892-1.
- Shan, R.; Li, X.; Chen, J.; Chen, Z.; Cheng, Y.-J.; Han, B.; Hu, R.-Z.; Huang, J.-P.; Kong, G.-L.; Liu, H.; et al. Interpretable Machine Learning to Predict the Malignancy Risk of Follicular Thyroid Neoplasms in Extremely Unbalanced Data: Retrospective Cohort Study and Literature Review. JMIR cancer 2025, 11, e66269–e66269. doi: 10.2196/66269.
- Ayhan, B.; Ayan, E.; Atsü, S. Detection of Dental Caries under Fixed Dental Prostheses by Analyzing Digital Panoramic Radiographs with Artificial Intelligence Algorithms Based on Deep Learning Methods. BMC Oral Health 2025, 25, 216. doi: 10.1186/s12903-025-05577-3.
- Kovács, K.A.; Kerepesi, C.; Rapcsák, D.; Madaras, L.; Nagy, Á.; Takács, A.; Dank, M.; Szentmártoni, G.; Szász, A.M.; Kulka, J.; et al. Machine Learning Prediction of Breast Cancer Local Recurrence Localization, and Distant Metastasis after Local Recurrences. Sci. Rep. 2025, 15, 4868. doi: 10.1038/s41598-025-89339-9.
- Guo, L.; Wang, W.; Xie, X.; Wang, S.; Zhang, Y. Machine Learning-Based Models for Genomic Predicting Neoadjuvant Chemotherapeutic Sensitivity in Cervical Cancer. Biomed. Pharmacother. 2023, 159, 114256. doi: 10.1016/J.BIOPHA.2023.114256.
- Zhao, Y.; Fu, Z.; Barnett, E.J.; Wang, N.; Zhang, K.; Gao, X.; Zheng, X.; Tian, J.; Zhang, H.; Ding, X.; et al. Genome Data Based Deep Learning Identified New Genes Predicting Pharmacological Treatment Response of Attention Deficit Hyperactivity Disorder. Transl. Psychiatry 2025, 15, 46. doi: 10.1038/s41398-025-03250-5.
- Ivakhnenko, A.G.; Lapa, V.G. Cybernetic predicting devices; K: Naukova Dumka, 1965
- Ivakhnenko, A.G. Polynomial Theory of Complex Systems. IEEE Trans. Syst. Man Cybern. 1971, 1, 364–378. doi: 10.1109/TSMC.1971.4308320.
- Vapnik, V.N.; Chervonenkis, A.Ya. A class of algorithms for pattern recognition learning. Automat. and Telemech. 1964, 25, 937-945.
- Boltyansky, V.G.; Gamkrelidze, R.V.; Pontryagin, L.S. On the Theory of Optimal Processes. Doklady Ak. nauk Nauk USSR 1956, 110, 7-10.
- Galushkin, A.I. Synthesis of multilayer pattern recognition systems; Energia: Moscow, 1974.
Supplementary files
