Нейронная сеть на основе корреляционной свертки мультитаргетных спектров энергий множественного докинга: новый метод искусственного интеллекта в поиске фармакологически активных веществ

Обложка

Цитировать

Полный текст

Аннотация

Выявлены 22 биомишени, релевантные анксиолитической активности химических соединений. Проведен множественный докинг известных анксиолитических веществ в 22 валидных 3D-моделях релевантных биомишеней. Рассчитаны спектры энергий множественного докинга этих соединений по всему объему релевантных белков-мишеней. Выполнена корреляционная свертка спектров энергий мультитаргетного множественного докинга в 22 сверточных переменных. Методом однофакторного дисперсионного анализа показана высокая статистическая достоверность использования полученных сверточных переменных для оценки интегральной мультитаргетной аффинности лигандов к совокупности релевантных биомишеней. Сформированы нейросетевые модели зависимости уровня анксиолитической активности химических соединений от указанных сверточных переменных. Показана очень высокая статистическая достоверность построенных нейросетевых моделей. Как итог, разработан новый метод искусственного интеллекта для поиска in silico фармакологически активных веществ на основе сверточной корреляционной нейронной сети и спектров энергий мультитаргетного множественного докинга.

Полный текст

В настоящее время методы машинного обучения и искусственного интеллекта широко применяются в поиске фармакологически активных веществ [1]. Термин «искусственный интеллект» общепринято определяется как использование для решения поставленных человеком задач искусственных нейронных сетей различной архитектуры, в частности, сверточных нейронных сетей [2]. Методология сверточных нейронных сетей была разработана для распознавания зрительных образов и применяемые в ней способы свертки ориентированы на успешное решение именно этой задачи [2]. Между тем для случая фармакологически активных веществ характер и внутренняя структура химико-биологической информации существенно отличаются от таковых для пикселизированных изображений. Поэтому разработка новых архитектур и методов построения искусственных нейронных сетей, учитывающих особый характер химико-биологических данных и ориентированных на анализ зависимостей между фармакологической активностью и структурой химических соединений, является актуальной и научно востребованной задачей.

В наших предыдущих исследованиях [3, 4, 5] было показано, что использование метода множественного докинга для построения нейросетевых моделей зависимостей между фармакологической активностью и спектром энергий множественного докинга химических соединений позволяет достигать значительно более высокой точности прогноза уровня активности, чем простой докинг единичной молекулы лиганда в отдельно взятый сайт связывания.

Метод множественного докинга [3] моделирует взаимодействие множества молекул лиганда со всей поверхностью биомишени. В рамках этого подхода весь белок разделяется на некоторое фиксированное число пространств и в каждое такое пространство осуществляется ансамблевый докинг. Полученный вектор энергий множественного докинга отражает интегральную аффинность лиганда к данной биомишени в целом. Такой подход не требует определения в белке-мишени местоположения какого-либо сайта связывания.

Предыдущие исследования [4, 5] рассматривали использование множественного докинга только для построения монотаргетных моделей зависимостей фармакологической активности от структуры химических соединений. Между тем хорошо известно, что подавляющее большинство лекарственных веществ действуют одновременно на несколько релевантных биомишеней.

Однако объединение в один массив спектров энергий множественного докинга, вычисленных для множества биомишеней, существенно увеличивает размерность предметной области и для эффективного использования таких данных в нейросетевом моделировании необходимо разработать валидный метод свертки.

ЦЕЛЬ РАБОТЫ

Доказательство методами многомерной статистики и нейросетевого моделирования валидности использования корреляционной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.

МЕТОДИКА ИССЛЕДОВАНИЯ

Для достижения цели исследования необходимо было решить следующие задачи.

  1. Сформировать верифицированную выборку по структуре и уровню активности известных соединений, испытанных на модельную фармакологическую активность.
  2. Построить и оптимизировать 3D-модели этих соединений.
  3. Выявить биомишени, релевантные модельной активности.
  4. Найти валидные 3D-модели белков-мишеней, релевантных модельной активности.
  5. Сформировать пространства для множественного докинга по всему объему каждой валидной 3D-модели релевантных белков-мишеней.
  6. Выполнить для указанных соединений множественный докинг во все сформированные для этого пространства релевантных белков-мишеней, рассчитать спектры энергий мультитаргетного множественного докинга.
  7. Провести корреляционную свертку рассчитанных спектров энергий мультитаргетного множественного докинга.
  8. Провести однофакторный дисперсионный анализ, устанавливающий статистическую значимость уровня модельной активности известных соединений от параметров корреляционной свертки спектров энергий мультитаргетного множественного докинга.
  9. Выполнить обучение нейронных сетей на полученных сверточных переменных и сформировать мультитаргетные нейросетевые модели зависимости модельной фармакологической активности от параметров корреляционной свертки спектров энергий мультитаргетного множественного докинга химических соединений.

Выборка по структуре и активности известных соединений. В качестве модельной фармакологической активности была выбрана анксиолитическая активность, системный характер которой обусловлен мультитаргетным воздействием соединений на весьма большое число биомишеней. Обучающая выборка по структуре и активности 537 известных веществ, испытанных на анксиолитическую активность, была сформирована с использованием оригинальной верифицированной базы данных [6] и включала 92, 181, 184 и 80 соединений с высокой, умеренной, низкой активностью и неактивных соответственно. Для последующей обработки были сформированы объединенные классы активности high, high or moderate и active, включающие 92, 273 и 457 соединений соответственно.

Оптимизированные 3D-модели соединений. Оптимизированные 3D-модели всех 537 соединений были построены в соответствии с методикой [3]. Методами молекулярной механики с помощью программы MarvinSketch 17.1.23 (URL: https://chemaxon.com/products/marvin), отдельно для каждого соединения, были построены по 10 конформеров с наименьшей энергией. Построенные конформеры были оптимизированы с помощью программы MOPAC 2012 (URL: http://openmopac.net) с использованием полуэмпирического квантово-химического метода PM7. Среди оптимизированных конформеров были отобраны для каждого соединения по одному конформеру с наименьшей общей энергией.

Релевантные биомишени. Биомишени, релевантные анксиолитической активности, были определены в соответствии с методикой [7]. Пересечением списка из системы Open Targets [8] 2057 биомишеней, ассоциированных с тревожными расстройствами, и списка из оригинальной QSAR-базы системы Microcosm BioS 20.6.6 [9] 2697 биомишеней человека с экспериментальными данными по различным видам таргетной активности был получен список из 92 биомишеней человека, предположительно релевантных анксиолитической активности и имеющих достоверное экспериментальное подтверждение. Для этих 92 биомишеней по 273 соединения с выраженной анксиолитической активностью из оригинальной базы данных [6] с использованием оригинальных систем IT Microcosm 7.3 [10] и Microcosm BioS 20.6.6 [9] методом структурного сходства были вычислены 92 средних показателя уровня таргетной активности Ind – диапазон от Ind = +5 очень высокая до Ind = 5 неактивно; Ind = 0 соответствует средней активности. В качестве релевантных анксиолитической активности отобраны 22 биомишени, имеющие значения Ind ≥ 1.

Валидные 3D-модели релевантных биомишеней. По методике, описанной в работе [7], для 22 релевантных анксиолитической активности биомишеней в базах данных PDBe (URL: https://www.ebi.ac.uk/pdbe) и RCSB PDB (URL: https://www.rcsb.org) были выявлены 22 валидных экспериментальных 3D-модели, по одной для каждой биомишени. Критериями качества служили: 1) максимальная длина смоделированной аминокислотной последовательности; 2) высокое разрешение; 3) минимальное число фрагментов.

Пространства для множественного докинга. На каждой валидной 3D-модели релевантной биомишени с помощью оригинальной программы MSite 21.04.22 с использованием алгоритма, описанного в работе [3], было построено по 27 пространств для множественного докинга, охватывающих весь объем данного белка-мишени.

Множественный докинг. Множественный ансамблевый докинг проводили с помощью программы AutoDock Vina 1.1.1 [11], каждое соединение в 10 конформерах в каждое пространство докинга каждой валидной 3D-модели каждой релевантной биомишени, с вычислением по 50 полученным значениям минимальных энергий связывания ΔE, как это описано в исследовании [3]. Указанную процедуру повторяли по 5 раз для каждого пространства докинга. В итоге для каждого соединения был получен спектр из 27 × 5 = 135 значений ΔE для одной релевантной биомишени и спектр из 135 × 22 = 2970 значений ΔE, характеризующий интегральный мультитаргетный аффинитет соединений в отношении всех 22 релевантных биомишеней.

Корреляционная свертка спектров энергий множественного докинга. Для одной биомишени рассчитанные в результате множественного докинга 135 значений ΔE можно рассматривать как нейроны полносвязной нейронной сети с симметричной матрицей связей. Они взаимозависимы, поскольку определены для одного и того же белка. В полносвязной нейросети веса межнейронных связей являются линейными, поэтому их значения могут быть вычислены как коэффициенты парных корреляций. Следовательно, для одной биомишени показатель свертки спектра энергий множественного докинга может быть определен как энергия W нейронной полносвязной корреляционной сети

 Wl=12  i,j=1 ijMRij · ΔEil · ΔEjl , l=1...N                                                                          (1)

где Rij – коэффициент корреляции Пирсона между энергиями ΔEi и ΔEj, i≠j; ΔEil – значение энергии i для соединения l, l=1...N; ΔEjl – значение энергии j для соединения l, l=1...N; M – число сворачиваемых значений энергии, равно 135; N – число соединений. В результате свертки мультитаргетный множественный аффинитет каждого соединения в отношении релевантных биомишеней был представлен 22 сверточными переменными.

Однофакторный дисперсионный анализ. Для показателей уровня активности high, high or moderate и active с помощью программы Statistica 7 [12] был выполнен однофакторный дисперсионный анализ (ANOVA) [17] зависимостей указанных факторов от многомерной матрицы значений сверточных переменных спектров энергий мультитаргетного множественного докинга. Для каждого сравнения рассчитаны величины критерия лямбда Уилкса Λ, соответствующего ему критерия Фишера F и определена статистическая достоверность p.

Обучение нейронных сетей. Выполняли с помощью программы Statistica 8 [12]. В настоящем исследовании использовалась архитектура нейронной сети в виде двухслойного перцептрона MLP k-m-2 с узким горлом. Здесь k – число входных нейронов, в данном случае 22; m – число скрытых нейронов, устанавливается программой от 3 до 21, поскольку 2 < m < k. При обучении сетей для скрытого слоя использовались четыре наиболее распространенных активационных функций (Identity, Logictic, Tanh, Exponential), попарный перебор которых осуществляется программой. Для выходных нейронов использовалась активационная функция Softmax, которая является наиболее эффективной при обучении классификационных нейронных сетей [13]. При формировании обучающих и тестовых подвыборок использовался метод Монте-Карло. С целью достижения наилучшего результата обучения, число сетей в каждом цикле обучения было установлено в 2000, из которых программой автоматически отбирались 200. После окончания обучения для заданного уровня активности из 100 лучших отобранных программой нейросетей по совокупности характеристик точности вручную отбирали одну наилучшую. Для всех трех найденных нейросетей были рассчитаны общая точность прогноза Acc, чувствительность Sens и специфичность Spec. С помощью биномиального критерия [14] оценена статистическая достоверность p показателей точности прогноза.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ОБСУЖДЕНИЕ

В табл. 1 приведен перечень 22 биомишеней, релевантных анксиолитической активности, и их валидные экспериментальные 3D-модели.

 

Таблица 1

Релевантные анксиолитической активности биомишени и их валидные 3D-модели

Шифр 1

Название2

PDB код 3D-модели

ADRA1A

Alpha-1A adrenergic receptor

3p0g

ADRA1B

Alpha-1B adrenergic receptor

4amj

ADRA2A

Alpha-2A adrenergic receptor

6kuy

ADRA2B

Alpha-2B adrenergic receptor

3pbl

AGTR1

Type-1 angiotensin II receptor

6os1

CA2

Carbonic anhydrase 2

2weg

CA4

Carbonic anhydrase 4

5jn9

CNR1

Cannabinoid receptor 1

7v3z

GABAR

Gamma-aminobutyric acid A receptor

6x3x

HTR1A

5-hydroxytryptamine receptor 1A

7e2x

HTR1B

5-hydroxytryptamine receptor 1B

4iar

HTR1D

5-hydroxytryptamine receptor 1D

5d5a

HTR2A

5-hydroxytryptamine receptor 2A

4amj

HTR2B

5-hydroxytryptamine receptor 2B

6j20

HTR2C

5-hydroxytryptamine receptor 2C

4amj

HTR4

5-hydroxytryptamine receptor 4

2rh1

HTR7

5-hydroxytryptamine receptor 5

7e2z

MTNR1A

Melatonin receptor type 1A

7vgz

MTNR1B

Melatonin receptor type 1B

7vh0

NMDAR

N-methyl-D-aspartate receptor

6irh

SCN11A

Sodium channel protein type 11 subunit alpha

6a90

SLC18A2

Synaptic vesicular amine transporter

3o7q

1 Принятые сокращенные обозначения белков по данным UniProt (URL: https://www.uniprot.org);
2 номенклатурное название, рекомендуемое UniProt (URL: https://www.uniprot.org).

 

В табл. 2 приведены данные дисперсионного анализа, которые доказывают высокую статистическую достоверность использования сверточных переменных, полученных в результате корреляционной свертки спектров энергий множественного докинга, для оценки интегральной мультитаргетной аффинности лигандов к совокупности фармакологически релевантных биомишеней.

 

Таблица 2

Результаты однофакторного дисперсионного анализа зависимостей уровня анксиолитической активности от переменных, полученных в результате корреляционной свертки спектров энергий множественного докинга в совокупность пространств релевантных белков-мишеней

Показатель

достоверности

Значение для уровня активности

High

High or Moderate

Active

Λ Уилкса

0,909

0,848

0,865

F Фишера

2,34

4,18

3,65

p

5,79 × 10-4

1,54 × 10-9

6,07 × 10-8

 

В табл. 3 приведены результаты нейросетевого моделирования зависимостей трех уровней анксиолитической активности от параметров корреляционной свертки мультитаргетных спектров энергий множественного докинга химических соединений в релевантные биомишени.

Точность всех найденных нейросетевых моделей статистически очень высоко достоверна. Таким образом, на примере анксиолитической активности показано, что нейросетевое моделирование на основе корреляционной свертки спектров мультитаргетных энергий докинга химических соединений в множество пространств совокупности релевантных биомишеней является весьма точным вычислительным методом, который может быть рекомендован как новый метод искусственного интеллекта для поиска in silico фармакологически активных веществ.

 

Таблица 3

Точность прогноза уровня анксиолитической активности с использованием нейросетевых моделей на основе параметров корреляционной мультитаргетной свертки спектров энергий множественного докинга химических соединений в релевантные биомишени

Показатель

Значение для уровня активности

High

High or moderate

Active

Архитектура 1

MLP 22162 (Tanh)

MLP 22142 (Logistic)

MLP 22152 (Logistic)

Acc, % 2

95,2

88,1

98,1

Sens, % 3

83,7

91,9

99,1

Spec, % 4

97,5

84,1

92,5

AUCROC, % 5

94,9

92,1

99,1

p 6

2,89 × 10-6

2,78 × 10-15

4,74 × 10-8

1 MLP – многослойный перцептрон; указано число входных, скрытых и выходных нейронов; в скобках указана функция активации для скрытого слоя нейронов; Tanh – гиперболический тангенс; Logistic – логистическая функция. Для выходных нейронов функция активации Softmax;
2 Acc – общая точность прогноза;
3 Sens – чувствительность: точность прогноза активных соединений;
4 Spec – специфичность: точность прогноза неактивных соединений;
5 AUCROC – площадь под кривой в ROC-анализе;
6 p – минимальная значимость нейросетевой модели по биномиальному критерию [14].

 

ЗАКЛЮЧЕНИЕ

Разработан новый способ свертки спектра энергий множественного докинга в виде энергии полносвязной корреляционной нейронной сети с симметричной матрицей связей.

Методами многомерной статистики и нейросетевого моделирования на примере анксиолитической активности доказана высокая валидность использования параметров корреляционной свертки спектров энергий мультитаргетного множественного докинга как статистически высокодостоверной метрики интегральной аффинности химических соединений к совокупности фармакологически релевантных биомишеней, определяющих системные виды фармакологической активности.

Создана новая архитектура сверточной искусственной нейронной сети для поиска in silico фармакологически активных веществ на основе корреляционной свертки спектров энергий мультитаргетного множественного докинга и многослойного перцептрона прямого распространения с узким горлом.

Новый метод искусственного интеллекта может быть рекомендован для создания моделей зависимостей различных видов системной мультитаргетной фармакологической активности от показателей интегральной аффинности химических соединений и поиска с применением этих моделей новых соединений с высокой активностью.

 

Финансирование. Работа выполнена в рамках государственного задания Министерства здравоохранения Российской Федерации № 23022400009-9 «Разработка методологии компьютерного поиска мультитаргетных фармакологически активных соединений на основе множественного докинга и технологии сверточных нейронных сетей различной архитектуры».

Funding. The work was performed within the framework of the state task of the Ministry of Health of the Russian Federation No. 23022400009-9 “Development of a methodology for computer search for multi-target pharmacologically active compounds based on multiple docking and convolutional neural network technology of various architectures”.

Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.

Competing interests. The authors declare that they have no competing interests.

×

Об авторах

Павел Михайлович Васильев

Волгоградский государственный медицинский университет

Автор, ответственный за переписку.
Email: pvassiliev@mail.ru

доктор биологических наук, старший научный сотрудник Высшей аттестационной комиссии, доцент, заведующий лабораторией информационных технологий в фармакологии и компьютерного моделирования лекарств, Научный центр инновационных лекарственных средств с опытно-промышленным производством, профессор кафедры фармакологии и биоинформатики

Россия, Волгоград

Максим Алексеевич Перфильев

Волгоградский государственный медицинский университет

Email: maxim.firu@yandex.com

младший научный сотрудник лаборатории информационных технологий в фармакологии и компьютерного моделирования лекарств, Научный центр инновационных лекарственных средств с опытно-промышленным производством, ассистент кафедры фармакологии и биоинформатики

Россия, Волгоград

Арина Владимировна Голубева

Волгоградский государственный медицинский университет

Email: arina_arina_golubeva@mail.ru

младший научный сотрудник лаборатории информационных технологий в фармакологии и компьютерного моделирования лекарств, Научный центр инновационных лекарственных средств с опытно-промышленным производством, ассистент кафедры фармакологии и биоинформатики

Россия, Волгоград

Андрей Николаевич Кочетков

Волгоградский государственный медицинский университет

Email: akocha@mail.ru

системный администратор, инженер-программист лаборатории информационных технологий в фармакологии и компьютерного моделирования лекарств, Научный центр инновационных лекарственных средств с опытно-промышленным производством

Россия, Волгоград

Список литературы

  1. Sarkar C., Das B., Rawat V.S. et al. Artificial Intelligence and Machine Learning Technology Driven Modern Drug Discovery and Development. International Journal Molecular Sciences. 2023;24(3):2026.
  2. Leijnen S., Van Veen F. The Neural Network Zoo. Proceedings. 2020;47(4):9.
  3. Васильев П.М., Кочетков А.Н., Спасов А.А., Перфильев М.А. Спектр энергий множественного докинга как многомерная метрика аффинности химических соединений к фармакологически релевантным биомишеням. Волгоградский научно-медицинский журнал. 2021;3:57–61.
  4. Васильев П.М., Кочетков А.Н., Перфильев М.А. Нейросетевое моделирование зависимости ГАМКА-агони-стической активности химических соединений от спектра энергий множественного докинга. Вестник Волгоградского государственного медицинского университета. 2022;19(4):88–93. doi: 10.19163/1994-9480-2022-19-4-88-93.
  5. Васильев П.М., Перфильев М.А., Кочетков А.Н. Нейросетевое моделирование зависимости RAGE-ингибирующей активности химических соединений от спектра энергий множественного докинга. Вестник Волгоградского государственного медицинского университета. 2023;20(4):157–161. DOI: 1994-9480-2023-20-4-157-161.
  6. Васильев П.М., Мальцев Д.В., Перфильев М.А. и др. Соединения с анксиолитической активностью. Свидетельство о государственной регистрации базы данных № 2022621744. Заявл. 13.07.2022. Зарег. 15.07.2022. Опубл. 15.07.2022. Официальный бюллетень «Программы для ЭВМ. БД. ТИМС». 2022;7. URL: https://www1.fips.ru/ofpstorage/Doc/PrEVM/RUNWDB/000/002/022/621/744/2022621744-00001/DOCUMENT.PDF.
  7. Vassiliev P.M., Maltsev D.V., Spasov A.A. et al. consensus ensemble multitarget neural network model of anxiolytic activity of chemical compounds and its use for multitarget pharmacophore design. Pharmaceuticals. 2023;16(5):731.
  8. Ochoa D., Hercules A., Carmona M. et al. The nextgeneration Open Targets Platform: reimagined, redesigned. Nucleic Acids Research. 2023;51(D1): D1353-D1359.
  9. Vasilyev P.M., Luzina O.A., Babkov D.A. et al. Studying dependences between the chemotype structure of some natural compounds and the spectrum of their targeted activities correlated with the hypoglycemic effect. Journal of Structural Chemistry. 2019;60(11):1827–1832.
  10. Vassiliev P.M., Spasov A.A., Kosolapov V.A. et al. Consensus drug design using IT microcosm. Application of Computational Techniques in Pharmacy and Medicine. Eds. L. Gorb, V. Kuz’min, E. Muratov. Vol. 17. Dordrecht (Netherlands): Springer Science + Business Media, 2014. P. 369–431.
  11. Trott O., Olson A.J. AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization and multithreading. Journal of Computational Chemistry. 2010;31(2);455–461.
  12. Hilbe J.M. Statistica 7: an overview. The American Statistician. 2007;61(1):91–94.
  13. Dubin U. Cross-Entropy Method: Theory with Applications. Chisinau (Moldova): LAMBERT Academic Publishing, 2013. 148 p.
  14. Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия. Л.: Изд-во Ленингр. ун-та, 1982. 264 с.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Васильев П.М., Перфильев М.А., Голубева А.В., Кочетков А.Н., 2024

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution-NonCommercial 4.0 International License.

СМИ зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер и дата принятия решения о регистрации СМИ: серия ПИ № ФС 77 - 79562 от 27.11.2020 г.