Модификация метода моделирования тематического окружения терминов на основе подхода LDA
- Авторы: Золотарев О.В.1, Юрчак В.А.1
-
Учреждения:
- Российский новый университет
- Выпуск: Том 12, № 2 (2025)
- Страницы: 19-27
- Раздел: Искусственный интеллект и машинное обучение
- URL: https://journals.eco-vector.com/2313-223X/article/view/688951
- DOI: https://doi.org/10.33693/2313-223X-2025-12-2-19-27
- EDN: https://elibrary.ru/QPYWFS
- ID: 688951
Цитировать
Полный текст



Аннотация
Тематическое моделирование является ключевым инструментом для анализа больших текстовых данных, позволяя выявлять скрытые смысловые структуры. Однако традиционные методы, такие как LDA, сталкиваются с проблемами при работе с многозначными и монолексемными токенами, что снижает точность и интерпретируемость результатов. Целью исследования является разработка метода моделирования тематического окружения терминов на основе модифицированного подхода LDA (Latent Dirichlet Allocation), интегрирующего контекстные признаки, векторные представления слов и внешние тезаурусы. Основные задачи включали: учет многозначности терминов, а также повышение интерпретируемости тематических кластеров. В работе используется математическая модель, объединяющая вероятностное тематическое моделирование с векторным представлением, что позволяет различать значения терминов и устанавливать точные связи между ними. Результаты, полученные на корпусах публикаций Dimensions AI и PubMed, демонстрируют улучшенное распределение терминов в тематических кластерах, включая анализ частоты встречаемости и векторное сходство. Исследование подтверждает эффективность комбинированного подхода для обработки сложных лингвистических конструкций в автоматизированном анализе текстов.
Ключевые слова
Полный текст

Об авторах
Олег Васильевич Золотарев
Российский новый университет
Автор, ответственный за переписку.
Email: ol-zolot@yandex.ru
ORCID iD: 0000-0001-6917-9668
SPIN-код: 5231-7243
Scopus Author ID: 57203129675
ResearcherId: AAR-4461-2021
кандидат технических наук, доцент; заведующий, кафедра информационных систем в экономике и управлении
Россия, г. МоскваВладимир Александрович Юрчак
Российский новый университет
Email: yurchak.vladimir.1998@mail.ru
ORCID iD: 0000-0002-1362-802X
ResearcherId: GZG-2909-2022
аспирант, преподаватель, кафедра информационных систем в экономике и управлении
Россия, г. МоскваСписок литературы
- Angelov D. Top2Vec: Distributed representations of topics. arXiv:2008.09470. 2020. URL: https://arxiv.org/abs/2008.09470 (дата обращения: 12.05.2025).
- Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv:2203.05794. 2022. URL: https://arxiv.org/abs/2203.05794 (дата обращения: 12.05.2025).
- Dieng A.B., Ruiz F.J.R., Blei D.M. Topic modeling in embedding spaces. Transactions of the Association for Computational Linguistics. 2020. Vol. 8. Pp. 439–453.
- Bianchi F., Terragni S., Hovy D. Pre-training is a hot topic: Contextualized document embeddings improve topic coherence. Findings of EMNLP. 2024. Pp. 2346–2359.
- Biggio M., Crippa F., Fumagalli A. et al. Joint document-token embeddings for hierarchical topic modeling. In: Contextualized-Top2Vec. Proceedings of the 2024 Conference on Neural Information Processing Systems. 2024. Pp. 10234–10246.
- Bianchi F., Terragni S., Hovy D. Combined Topic Model (CTM): Integrating contextualized embeddings into LDA. In: Findings of ACL. 2021. Pp. 1175–1188.
- Maheshwari K., Roberts M.E., Stewart B.M. Evaluating contextualized topic coherence for neural topic models. Journal of Machine Learning Research. 2022. Vol. 23. Pp. 1–20.
- Angelov D., Inkpen D. Hierarchical topic modeling with contextual token representations. In: Contextualized-Top2Vec. Proceedings of the 2024 Conference on Neural Information Processing Systems. 2024. URL: https://github.com/ddangelov/Top2Vec (дата обращения: 12.05.2025).
- Lee J., Yoon W., Kim S. et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020. Vol. 36. No. 4. Pp. 1234–1240.
- Zaheer M., Guruganesh G., Dubey K.A. et al. Big Bird: Transformers for longer sequences. In: NeurIPS. 2020. Pp. 17283–17297.
- Reimers N., Gurevych I. Sentence-BERT: Sentence embeddings using siamese BERT-Networks. In: Proceedings of EMNLP. 2019. Pp. 3980–3990.
- Pethe M., Joshi S., Kulkarni P. et al. SciBERT: A pretrained language model for scientific text. In: Proceedings of EMNLP. 2019. Pp. 3615–3620.
- McInnes L., Healy J., Melville J. UMAP: Uniform manifold approximation and projection for dimension reduction. arXiv:1802.03426. 2018. URL: https://arxiv.org/abs/1802.03426 (дата обращения: 12.05.2025).
- Fraley C., Raftery A.E. Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association. 2002. Vol. 97. No. 458. Pp. 611–631.
- Bodenreider O. The Unified Medical Language System (UMLS): Integrating biomedical terminology. Nucleic Acids Research. 2004. Vol. 32. Suppl. 1. Pp. D267–D270.
- Lowe H.J., Barnett G.O. Understanding and using the Medical Subject Headings (MeSH) vocabulary to perform literature searches. JAMA. 1994. Vol. 271. No. 14. Pp. 1103–1108.
- Zolotarev O.V., Hakimova A.Kh., Agraval S. et al. Removing terms from biomedical publications-an approach based on n-grams. In: Civilization of Knowledge: Russian realities. 2023. Pp. 136–160. EDN: IRLOBR.
Дополнительные файлы
