Добыча знаний из кристаллических структур: определение степени окисления атомов металлов

Cover Page

Cite item

Full Text

Abstract

Обоснование. В настоящее время машинное обучение приобрело огромную популярность благодаря способности находить решения сложных и нетривиальных задач. С ростом объема учитываемых данных качество найденных решений, как правило, улучшается. Кристаллохимия не является исключением, в настоящее время изучено строение более миллиона структур, которые хранятся в кристаллографических базах данных [1, 2]. Используя накопленные данные, авторы [3] c помощью машинного обучения создали подход к автоматической классификации структур по симметрии кристаллов. А в статье [4] с помощью нейронной сети проанализировали шаблоны строения известных кристаллических структур с целью прогнозирования вероятности образования новых соединений. В статье [5] предлагают способ определения степени окисления металлов в металлорганических каркасах.

Цель — создание и реализация сервиса для определения степени окисления атом металлов в координационных и ионных соединениях с O окружениями.

Методы. Для создания модели машинного обучения необходимо: выбрать набор данных для обучения, отобрать дескрипторы структуры, разработать классификационную модель. Далее описывается процесс создания модели обучения на примере кислородного окружения.

Было отобрано 4 набора данных, составленных из баз CSD [1] и ICSD [2]. Всего — 33,253 соединения со степенью окисления от 1 до 7 (рис. 1).

 

Рис. 1. Статистические сведения о составленных для обучения и тестирования наборах данных

 

Данные соответствовали следующим критериям: положительные и отрицательные заряды сбалансированы; структура полностью определена; отсутствуют статистически неупорядоченные атомы, отсутствуют дубликаты, тестовые и тренировочные данные не пересекаются.

Для предсказания степени окисления атомов металлов были отобраны следующие дескрипторы соединений, дающие лучший результат предсказания, — оптимальный набор признаков:

–  Nat — порядковый номер металла в Периодической системе;

–  Group — номер группы металла в Периодической системе;

–  CN — координационное число;

–  G3 — второй момент инерции полиэдра Вороного;

–  RSD — радиус сферического домена, объем которого равен объему полиэдра Вороного (Å);

–  ΣΩ(X) — доля телесных углов граней, которые образованы соседними атомами X определенного химического сорта (O) в полиэдре Вороного атома.

CN, G3, RSD и ΣΩ(X) были рассчитаны с помощью пакета ToposPro [6]. В качестве классификатора выбран алгоритм Random Forest из библиотеки Scikit-Learn [7], который на оптимальном наборе признаков дает лучший результат.

Результаты. Был проведен расчет гиперпараметров для классификатора, и в результате была создана модель предсказания, дающая лучшую оценку предсказательной способности на оптимальном наборе признаков (табл. 1).

Таблица 1. Оценка качества предсказания на наборах данных модели машинного обучения, основанной на алгоритме Random Forest, с использованием лучшего набора признаков и оптимальных значений гиперпараметров

На чем обучено

На чем тестировалась

Качество, %

Точность, %

Полнота, %

F1-мера, %

Тренировочный набор I

Тестовый набор I

98,7

98,4

96,4

97,3

Тестовый набор II

95,9

91,8

89,1

90,3

Тренировочный набор II

Тестовый набор I

99,0

98,5

99,1

98,8

Тестовый набор II

98,1

94,9

95,2

95,0

 

 Выводы. Данная модель легла в основу сервиса Crystal Predictor [8]. Вычисления для структуры Mn2O3 [9], не входящей в использованные наборы данных, демонстрируют способность системы адекватно предсказывать степени окисления атомов металлов (рис. 2). На настоящее время сервисом обработано более 648 уникальных структур, загруженных пользователями из всего мира.

 

Рис. 2. Результаты предсказания степеней окисления атомов Mn в структуре Mn2O3 [9] с помощью веб-сервиса Crystal Predictor [8]

Full Text

Обоснование. В настоящее время машинное обучение приобрело огромную популярность благодаря способности находить решения сложных и нетривиальных задач. С ростом объема учитываемых данных качество найденных решений, как правило, улучшается. Кристаллохимия не является исключением, в настоящее время изучено строение более миллиона структур, которые хранятся в кристаллографических базах данных [1, 2]. Используя накопленные данные, авторы [3] c помощью машинного обучения создали подход к автоматической классификации структур по симметрии кристаллов. А в статье [4] с помощью нейронной сети проанализировали шаблоны строения известных кристаллических структур с целью прогнозирования вероятности образования новых соединений. В статье [5] предлагают способ определения степени окисления металлов в металлорганических каркасах.

Цель — создание и реализация сервиса для определения степени окисления атом металлов в координационных и ионных соединениях с O окружениями.

Методы. Для создания модели машинного обучения необходимо: выбрать набор данных для обучения, отобрать дескрипторы структуры, разработать классификационную модель. Далее описывается процесс создания модели обучения на примере кислородного окружения.

Было отобрано 4 набора данных, составленных из баз CSD [1] и ICSD [2]. Всего — 33,253 соединения со степенью окисления от 1 до 7 (рис. 1).

 

Рис. 1. Статистические сведения о составленных для обучения и тестирования наборах данных

 

Данные соответствовали следующим критериям: положительные и отрицательные заряды сбалансированы; структура полностью определена; отсутствуют статистически неупорядоченные атомы, отсутствуют дубликаты, тестовые и тренировочные данные не пересекаются.

Для предсказания степени окисления атомов металлов были отобраны следующие дескрипторы соединений, дающие лучший результат предсказания, — оптимальный набор признаков:

–  Nat — порядковый номер металла в Периодической системе;

–  Group — номер группы металла в Периодической системе;

–  CN — координационное число;

–  G3 — второй момент инерции полиэдра Вороного;

–  RSD — радиус сферического домена, объем которого равен объему полиэдра Вороного (Å);

–  ΣΩ(X) — доля телесных углов граней, которые образованы соседними атомами X определенного химического сорта (O) в полиэдре Вороного атома.

CN, G3, RSD и ΣΩ(X) были рассчитаны с помощью пакета ToposPro [6]. В качестве классификатора выбран алгоритм Random Forest из библиотеки Scikit-Learn [7], который на оптимальном наборе признаков дает лучший результат.

Результаты. Был проведен расчет гиперпараметров для классификатора, и в результате была создана модель предсказания, дающая лучшую оценку предсказательной способности на оптимальном наборе признаков (табл. 1).

Таблица 1. Оценка качества предсказания на наборах данных модели машинного обучения, основанной на алгоритме Random Forest, с использованием лучшего набора признаков и оптимальных значений гиперпараметров

На чем обучено

На чем тестировалась

Качество, %

Точность, %

Полнота, %

F1-мера, %

Тренировочный набор I

Тестовый набор I

98,7

98,4

96,4

97,3

Тестовый набор II

95,9

91,8

89,1

90,3

Тренировочный набор II

Тестовый набор I

99,0

98,5

99,1

98,8

Тестовый набор II

98,1

94,9

95,2

95,0

 

 Выводы. Данная модель легла в основу сервиса Crystal Predictor [8]. Вычисления для структуры Mn2O3 [9], не входящей в использованные наборы данных, демонстрируют способность системы адекватно предсказывать степени окисления атомов металлов (рис. 2). На настоящее время сервисом обработано более 648 уникальных структур, загруженных пользователями из всего мира.

 

Рис. 2. Результаты предсказания степеней окисления атомов Mn в структуре Mn2O3 [9] с помощью веб-сервиса Crystal Predictor [8]

 

×

About the authors

Поволжский государственный университет телекоммуникаций и информатики

Email: m.smolkov97@gmail.com
ORCID iD: 0000-0001-5573-662X

аспирант 3-го года обучения, кафедры высшей математики

Russian Federation, Самара

Поволжский государственный университет телекоммуникаций и информатики

Author for correspondence.
Email: a_krutov@rambler.ru

научный руководитель, доктор физико-математических наук, профессор

Russian Federation, Самара

References

  1. ccdc.cam.ac.uk [Электронный ресурс]. Cambridge Structural Database (CSD). Доступ по: https://www.ccdc.cam.ac.uk/solutions/software/csd/
  2. icsd.products [Электронный ресурс]. Inorganic Crystal Structure Database (ICSD). Доступ по: https://icsd.products.fiz-karlsruhe.de/
  3. Ziletti A., Kumar D., Scheffler M., Ghiringhelli L.M. Insightful classification of crystal structures using deep learning // Nat Commun. 2018. Vol. 9. ID. 2775. doi: 10.1038/s41467-018-05169-6
  4. Ryan K., Lengyel J., Shatruk M. Crystal structure prediction via deep learning // J Am Chem Soc. 2018. Vol. 140, No. 32. P. 10158−10168. doi: 10.1021/jacs.8b03913
  5. Jablonka K.M., Ongari D., Moosavi S.M., Smit B. Using collective knowledge to assign oxidation states of metal cations in metal-organic frameworks // Nat Chem. 2021. Vol. 13. P. 771−777. doi: 10.1038/s41557-021-00717-y
  6. Blatov V.A., Shevchenko A.P., Prosperio D.M. Applied topological analysis of crystal structures with the pro-gram package ToposPro // Cryst Growth Des. 2014. Vol. 14, No. 7. P. 3576–3586. doi: 10.1021/cg500498k
  7. Pedregosa F., Varoquaux G., Gramfort A., et al. Scikit-learn: Machine learning in Python // JMLR. 2011. Vol. 12, No. 85. P. 2825–2830.
  8. crystalpredictor.com [Электронный ресурс]. Crystal Predictor. Доступ по: https://crystalpredictor.com/
  9. Bandemehr J., Zimmerhofer F., Ivlev S.I., et al. Syntheses and characterization of the mixed-valent manganese (II/III) fluorides Mn2F5 and Mn3F8 // Inorg Chem. 2021. Vol. 60, No. 17. P. 12651–12663. doi: 10.1021/acs.inorgchem.1c01833

Supplementary files

Supplementary Files
Action
1. JATS XML
2. Рис. 1. Статистические сведения о составленных для обучения и тестирования наборах данных

Download (188KB)
3. Рис. 2. Результаты предсказания степеней окисления атомов Mn в структуре Mn2O3 [9] с помощью веб-сервиса Crystal Predictor [8]

Download (229KB)

Copyright (c) 2023 Смольков М.И., Крутов А.Ф.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies