<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="research-article" dtd-version="1.2" xml:lang="en"><front><journal-meta><journal-id journal-id-type="publisher-id">Informacionnye Tehnologii</journal-id><journal-title-group><journal-title xml:lang="en">Informacionnye Tehnologii</journal-title><trans-title-group xml:lang="ru"><trans-title>Информационные технологии</trans-title></trans-title-group></journal-title-group><issn publication-format="print">1684-6400</issn><publisher><publisher-name xml:lang="en">New Technologies Publishing House</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="publisher-id">702079</article-id><article-id pub-id-type="doi">10.17587/it.31.517-525</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>Intelligent systems and technologies</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Интеллектуальные системы и технологии</subject></subj-group><subj-group subj-group-type="article-type"><subject>Research Article</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Algorithm for detection relevant text elements based on morphological and frequency analysis</article-title><trans-title-group xml:lang="ru"><trans-title>Алгоритм выявления значимых текстовых элементов на основе морфологического и частотного анализа</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Veselovsky</surname><given-names>V. M.</given-names></name><name xml:lang="ru"><surname>Веселовский</surname><given-names>В. М.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>Student</p></bio><bio xml:lang="ru"><p>студент</p></bio><email>vladveselovskij4147@gmail.com</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Khalabiya</surname><given-names>R. F.</given-names></name><name xml:lang="ru"><surname>Халабия</surname><given-names>Р. Ф.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>Ph.D. in Engineering sciences, Associate Professor</p></bio><bio xml:lang="ru"><p>канд. техн. наук, доц.</p></bio><email>rustam-capitan@mail.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><name-alternatives><name xml:lang="en"><surname>Stepanova</surname><given-names>I. V.</given-names></name><name xml:lang="ru"><surname>Степанова</surname><given-names>И. В.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>Ph.D. in Geology and Mineralogy Sciences, Associate Professor</p></bio><bio xml:lang="ru"><p>канд. геол.-минерал. наук, доц.</p></bio><email>ivs_rrr@mail.ru</email><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="en">Moscow Technical University of Communications and Informatics</institution></aff><aff><institution xml:lang="ru">Московский технический университет связи и информатики</institution></aff></aff-alternatives><pub-date date-type="pub" iso-8601-date="2025-10-15" publication-format="electronic"><day>15</day><month>10</month><year>2025</year></pub-date><volume>31</volume><issue>10</issue><issue-title xml:lang="en"/><issue-title xml:lang="ru"/><fpage>517</fpage><lpage>525</lpage><history><date date-type="received" iso-8601-date="2026-02-02"><day>02</day><month>02</month><year>2026</year></date><date date-type="accepted" iso-8601-date="2026-02-02"><day>02</day><month>02</month><year>2026</year></date></history><permissions><copyright-statement xml:lang="en">Copyright ©; 2025, Informacionnye Tehnologii</copyright-statement><copyright-statement xml:lang="ru">Copyright ©; 2025, Информационные технологии</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="en">Informacionnye Tehnologii</copyright-holder><copyright-holder xml:lang="ru">Информационные технологии</copyright-holder></permissions><self-uri xlink:href="https://journals.eco-vector.com/1684-6400/article/view/702079">https://journals.eco-vector.com/1684-6400/article/view/702079</self-uri><abstract xml:lang="en"><p>The main object of this work is to automate the process of detection key words and phrases using modern natural language processing methods, which will improve the structure and classification of text data, as well as adapt them for further integration with classification systems. For this purpose, algorithm for automatic detection of key words and phrases from texts in Russian language is proposed for use in working with complex multi-level classification systems such as UDC, GRNTI. This algorithm can work with single texts without linking them to collections of documents. А joint frequency and morphological analysis was used to detect keywords and phrases, take into account the structure of the document. When detection of key phrases, lexical and grammatical patterns consists of adjectives and nouns were used as well as stable combinations of nouns. The algorithm effective works with large texts divided into segments (ones of relevant). To adjust the rank of a relevant text element calculated using frequency analysis. А special coefficient is introduced that depend on the areas of occurrence of keywords. The comparative analysis showed that, in comparison with the TF-IDF and TextRank algorithms, the developed algorithm demonstrates high efficiency in detection key words. The integration of the automatic text analysis algorithm with classification systems discovers an additional opportunities to structure knowledge and to improve process efficiency the large amounts of data.</p></abstract><trans-abstract xml:lang="ru"><p>Предложен алгоритм автоматического извлечения ключевых слов и фраз из текстов на русском языке для использования в работе со сложными многоуровневыми классификационными системами типа УДК, ГРНТИ. Алгоритм может работать на единичных текстах без их привязки к коллекциям документов. Для обнаружения ключевых слов и фраз использован совместный частотный и морфологический анализ с учетом структуры документа. Проведенный сравнительный анализ показал, что в сравнении с алгоритмами TF-IDF и TextRank разработанный алгоритм демонстрирует более высокую эффективность в выявлении ключевых фраз.</p></trans-abstract><kwd-group xml:lang="en"><kwd>text analysis</kwd><kwd>keyword</kwd><kwd>key phrases</kwd><kwd>stable combination</kwd><kwd>frequency analysis</kwd><kwd>frequency dictionary</kwd><kwd>tokenization</kwd><kwd>lemmatization</kwd><kwd>morphological analysis</kwd><kwd>text classification</kwd></kwd-group><kwd-group xml:lang="ru"><kwd>анализ текста</kwd><kwd>ключевое слово</kwd><kwd>ключевые фразы</kwd><kwd>устойчивое сочетание</kwd><kwd>частотный анализ</kwd><kwd>частотный словарь</kwd><kwd>токенизация</kwd><kwd>лемматизация</kwd><kwd>морфологический анализ</kwd><kwd>классификация текстов</kwd></kwd-group><funding-group/></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><citation-alternatives><mixed-citation xml:lang="en">Fomin V. V. Osochkin A. A. А comparative study of the index of the frequency and morphological methods for automatic text summarisation of texts, Novye Obrazovatel’nye Strategii v Sovremennom Informatsionnom Prostranstve, 2020, pp. 189—197(in Russian).</mixed-citation><mixed-citation xml:lang="ru">Фомин В. В., Осочкин А. А. Сравнительное исследование индексных частотно-морфологических методов автореферирования текстов // Новые образовательные стратегии в современном информационном пространстве. 2020. С. 189—197.</mixed-citation></citation-alternatives></ref><ref id="B2"><label>2.</label><citation-alternatives><mixed-citation xml:lang="en">Larionov V. D. Comparison of algorithms for extracting keywords from Russian-language news articles, Zametki po Informatike i Matematike: Sbornik nauchnykh statei, Yaroslavl, Yaroslavskii gosudarstvennyi universitet im. P. G. Demidova, 2021, vol. 13, p. 118—125 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Ларионов В. Д. Сравнение алгоритмов для извлечения ключевых слов из русскоязычных новостных статей // Заметки по информатике и математике: Сборник научных статей. Выпуск 13. Ярославль: Ярославский государственный университет им. П. Г. Демидова, 2021. С. 118—125.</mixed-citation></citation-alternatives></ref><ref id="B3"><label>3.</label><citation-alternatives><mixed-citation xml:lang="en">Mokhammad Zh. Kh. Keyword extraction based on large language models, Izvestiya YuFU. Tekhnicheskie Nauki, 2024, no. 5 (241), pp. 143—151, DOI: 10.18522/2311-3103-2024-5-143-151 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Мохаммад Ж. Х. Извлечение ключевых фраз на основе больших языковых моделей // Известия ЮФУ. Технические науки. 2024. № 5(241). С. 143—151. DOI: 10.18522/23113103-2024-5-143-151.</mixed-citation></citation-alternatives></ref><ref id="B4"><label>4.</label><citation-alternatives><mixed-citation xml:lang="en">Romanadze E. L., Sudakov V. A., Kislinsky V. G. Development of a Keyphrase Extraction Method Based on a Probabilistic Topic Model, Modelirovanie i Analiz Dannykh, 2022, vol. 12, no 2, pp. 20—33, DOI: 10.17759/mda.2022120202 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Романадзе Е. Л., Судаков В. А., Кислинский В. Г. Разработка метода извлечения ключевых слов на основе вероятностной тематической модели // Моделирование и анализ данных. 2022. Т. 12, № 2. С. 20—33. DOI: 10.17759/mda.2022120202.</mixed-citation></citation-alternatives></ref><ref id="B5"><label>5.</label><citation-alternatives><mixed-citation xml:lang="en">Ovchinnikova K. A., Sidorova E. A. Generation of lexical and syntactic patterns of ontological design based on competence assessment questions, Sistemnaya Informatika, 2022, no. 21, pp. 47—64, DOI: 10.31144/SI.2307-6410.2022.N21.P47-64.</mixed-citation><mixed-citation xml:lang="ru">Овчинникова К. А., Сидорова Е. А. Генерация лексико-синтаксических паттернов онтологического проектирования на основе вопросов оценки компетенции // Системная информатика. 2022. № 21. С. 47—64. DOI: 10.31144/ SI.2307-6410.2022.N21.P47-64.</mixed-citation></citation-alternatives></ref><ref id="B6"><label>6.</label><citation-alternatives><mixed-citation xml:lang="en">Abanin D. A., Kurmyza P. S., Sherkunov V. V. Development of algorithms and tools for extracting structure and keywords from text documents, Vestnik Ul’yanovskogo Gosudarstvennogo Tekhnicheskogo Universiteta, 2022, no. 4 (100), pp. 46—51 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Абанин Д. А., Курмыза П. С., Шеркунов В. В. Разработка алгоритмов и средств извлечения структуры и ключевых слов из текстовых документов // Вестник Ульяновского государственного технического университета. 2022. № 4 (100). С. 46—51.</mixed-citation></citation-alternatives></ref><ref id="B7"><label>7.</label><citation-alternatives><mixed-citation xml:lang="en">Mokhammad Zh. Kh., Mansur A. M., Kravchenko Yu. А., Bova V. V. А method for extracting keywords based on a new ranking function, Informatsionnye Tekhnologii, 2022, vol. 28, no. 9, pp. 465—474, DOI: 10.17587/it.28.465-474 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Мохаммад Ж. Х., Мансур А. М., Кравченко Ю. А., Бова В. В. Метод извлечения ключевых фраз на основе новой функции ранжирования // Информационные технологии. 2022. Т. 28, № 9. С. 465—474. DOI: 10.17587/it.28.465-474</mixed-citation></citation-alternatives></ref><ref id="B8"><label>8.</label><citation-alternatives><mixed-citation xml:lang="en">Savelyev A. O., Kuznetsov S. A. Estimation of similarity of weakly structured datasets based on cosine similarity and TF- IDF, Molodezh’ i sovremennye informatsionnye tekhnologii: Sbornik trudov XVIII Mezhdunarodnoi nauchno-prakticheskoi konferentsii, Tomsk, Natsional’nyi issledovatel’skii Tomskii politekhnicheskii universitet, 2021, pp. 334—335 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Савельев А. О., Кузнецов С. А. Оценка сходства наборов слабоструктурированных данных на базе косинусного сходства и TF-IDF // Молодежь и современные информационные технологии: Сборник трудов XVIII Международной научно-практической конференции. Томск: Национальный исследовательский Томский политехнический университет, 2021. С. 334—335.</mixed-citation></citation-alternatives></ref><ref id="B9"><label>9.</label><citation-alternatives><mixed-citation xml:lang="en">Palmov S. V., Salikhov R. R. Comparative analysis of the PYMORPHY3 and PYMYSTEM3 libraries, Nauka i Biznes: Puti Razvitiya, 2024, no. 6(156), pp. 45—49 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Пальмов С. В., Салихов Р. Р. Сравнительный анализ библиотек PYMORPHY3 и PYMYSTEM3 // Наука и бизнес: пути развития. 2024. № 6 (156). С. 45—49.</mixed-citation></citation-alternatives></ref><ref id="B10"><label>10.</label><citation-alternatives><mixed-citation xml:lang="en">Ivanova I. V., Palmina K. S. Using Python to tokenize text in sentiment analysis, Nauchnye Issledovaniya v Sovremennom Mire. Teoriya i Praktika: Sbornik izbrannykh statei Vserossiiskoi (natsional’noi) nauchno-prakticheskoi konferentsii, Saint-Petersburg, Gumanitarnyi natsional’nyi issledovatel’skii institut "NATSRAZVITIE", 2021, pp. 83—88 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Иванова И. В., Пальмина К. С. Использование Python для токенизации текста при сентимент-анализе // Научные исследования в современном мире. Теория и практика: Сборник избранных статей Всероссийской (национальной) научно-практической конференции. СПб: Гуманитарный национальный исследовательский институт "НАЦРАЗВИТИЕ", 2021. С. 83—88.</mixed-citation></citation-alternatives></ref><ref id="B11"><label>11.</label><citation-alternatives><mixed-citation xml:lang="en">Ayoshin I. T., Fedorov V. A., Gorodov A. A., Goncharov А. E. Tokenizing words and selecting n-grams from text on natural language, Reshetnevskie chteniya: Materialy XXV Mezhdunarodnoi nauchno-prakticheskoi konferentsii, Krasnoyarsk,Sibirskii gosudarstvennyi universitet nauki i tekhnologii imeni akademika M. F. Reshetneva, 2021, vol. 2, pp. 14—16.</mixed-citation><mixed-citation xml:lang="ru">Ayoshin I. T., Fedorov V. A., Gorodov A. A., Goncharov А. E. Tokenizing words and selecting n-grams from text on natural language // Решетневские чтения: Материалы XXV Международной научно-практической конференции. Часть 2. Красноярск: Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева, 2021. С. 14—16.</mixed-citation></citation-alternatives></ref><ref id="B12"><label>12.</label><citation-alternatives><mixed-citation xml:lang="en">Shklyarova E. Yu., Zemlyanskaya S. Yu. Extracting useful information from scientific publications using NLP PYTHON libraries: analysis and practical experience, Materialy XIV Mezhdunarodnoi nauchno-tekhnicheskoi konferentsii Informatika, Upravlyayushchie Sistemy, Matematicheskoe i Komp’yuternoe Modelirovanie, 2023, pp. 318—324 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Шклярова Е. Ю., Землянская С. Ю. Извлечение полезной информации из научных публикаций с использованием NLP библиотек PYTHON: Анализ и практический опыт // Материалы XIV Международной научно-технической конференции Информатика, управляющие системы, математическое и компьютерное моделирование (ИУСМКМ-2023). 2023. С.318—324.</mixed-citation></citation-alternatives></ref><ref id="B13"><label>13.</label><citation-alternatives><mixed-citation xml:lang="en">Politsyna E. V., Politsyn S. A., Porechnyi A. S., Rykunov А. N. Analysis of the quality of work and expansion of the capabilities of morphological analysis tools for texts in Russian, Vestnik VGU, Seriya: Sistemnyi analiz i Informatsionnye Tekhnologii, 2023, no. 2, pp.171—180, DOI: 10.17308/sait/1995- 5499/2023/2/171-180 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Полицына Е. В., Полицын С. А., Поречный А. С., Рыкунов А. Н. Анализ качества работы и расширение возможностей инструментов морфологического анализа текстов на русском языке // Вестник ВГУ, Серия: Системный анализ и информационные технологии. 2023.№ 2. С.171—180. DOI: 10.17308/sait/1995-5499/2023/2/171-180.</mixed-citation></citation-alternatives></ref><ref id="B14"><label>14.</label><citation-alternatives><mixed-citation xml:lang="en">Kovalevskii P. O. Automatic text processing (lemmatization problem), Yazyk, Kul’tura, Mental’nost’: Problemy i Perspektivy Filologicheskikh Issledovanii: Sbornik IV Mezhdunarodnoi nauchnoi konferentsii, Kursk, Yugo-Zapadnyi gosudarstvennyi universitet, 2022, pp. 135—138 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Ковалевский П. О. Автоматическая обработка текста (проблема лемматизации) // Язык, культура, ментальность: проблемы и перспективы филологических исследований: Сборник IV Международной научной конференции. Курск: Юго-Западный государственный университет, 2022. С. 135—138.</mixed-citation></citation-alternatives></ref><ref id="B15"><label>15.</label><citation-alternatives><mixed-citation xml:lang="en">Khramtsov N. S. The problems of evaluating algorithms for automatic keyword, Novye informatsionnye tekhnologii v avtomatizirovannykh sistemakh, 2019, no. 22, pp. 199—203(in Russian).</mixed-citation><mixed-citation xml:lang="ru">Храмцов Н. С. Проблематика оценивания алгоритмов автоматического извлечения ключевых слов // Новые информационные технологии в автоматизированных системах. 2019. № 22. С. 199—203.</mixed-citation></citation-alternatives></ref><ref id="B16"><label>16.</label><citation-alternatives><mixed-citation xml:lang="en">Ghukasyan Ts. G. Character N-gram-Based Word Embeddings for Morphological Analysis of Texts. Trudy ISP RAN, 2020, vol. 32, issue 2, pp. 7—14, DOI: 10.15514/ISPRAS-2020-32(2)-1 (in Russian).</mixed-citation><mixed-citation xml:lang="ru">Гукасян Ц. Г. Векторные модели на основе символьных н-грамм для морфологического анализа текстов// Труды ИСПРАН. 2020. Т. 32, Вып. 2. С.7—14. DOI: 10.15514/ ISPRAS-2020-32(2)-1.</mixed-citation></citation-alternatives></ref></ref-list></back></article>
