Модификация метода моделирования тематического окружения терминов на основе подхода LDA

Обложка

Цитировать

Полный текст

Открытый доступ Открытый доступ
Доступ закрыт Доступ предоставлен
Доступ закрыт Доступ платный или только для подписчиков

Аннотация

Тематическое моделирование является ключевым инструментом для анализа больших текстовых данных, позволяя выявлять скрытые смысловые структуры. Однако традиционные методы, такие как LDA, сталкиваются с проблемами при работе с многозначными и монолексемными токенами, что снижает точность и интерпретируемость результатов. Целью исследования является разработка метода моделирования тематического окружения терминов на основе модифицированного подхода LDA (Latent Dirichlet Allocation), интегрирующего контекстные признаки, векторные представления слов и внешние тезаурусы. Основные задачи включали: учет многозначности терминов, а также повышение интерпретируемости тематических кластеров. В работе используется математическая модель, объединяющая вероятностное тематическое моделирование с векторным представлением, что позволяет различать значения терминов и устанавливать точные связи между ними. Результаты, полученные на корпусах публикаций Dimensions AI и PubMed, демонстрируют улучшенное распределение терминов в тематических кластерах, включая анализ частоты встречаемости и векторное сходство. Исследование подтверждает эффективность комбинированного подхода для обработки сложных лингвистических конструкций в автоматизированном анализе текстов.

Полный текст

Доступ закрыт

Об авторах

Олег Васильевич Золотарев

Российский новый университет

Автор, ответственный за переписку.
Email: ol-zolot@yandex.ru
ORCID iD: 0000-0001-6917-9668
SPIN-код: 5231-7243
Scopus Author ID: 57203129675
ResearcherId: AAR-4461-2021

кандидат технических наук, доцент; заведующий, кафедра информационных систем в экономике и управлении

Россия, г. Москва

Владимир Александрович Юрчак

Российский новый университет

Email: yurchak.vladimir.1998@mail.ru
ORCID iD: 0000-0002-1362-802X
ResearcherId: GZG-2909-2022

аспирант, преподаватель, кафедра информационных систем в экономике и управлении

Россия, г. Москва

Список литературы

  1. Angelov D. Top2Vec: Distributed representations of topics. arXiv:2008.09470. 2020. URL: https://arxiv.org/abs/2008.09470 (дата обращения: 12.05.2025).
  2. Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure. arXiv:2203.05794. 2022. URL: https://arxiv.org/abs/2203.05794 (дата обращения: 12.05.2025).
  3. Dieng A.B., Ruiz F.J.R., Blei D.M. Topic modeling in embedding spaces. Transactions of the Association for Computational Linguistics. 2020. Vol. 8. Pp. 439–453.
  4. Bianchi F., Terragni S., Hovy D. Pre-training is a hot topic: Contextualized document embeddings improve topic coherence. Findings of EMNLP. 2024. Pp. 2346–2359.
  5. Biggio M., Crippa F., Fumagalli A. et al. Joint document-token embeddings for hierarchical topic modeling. In: Contextualized-Top2Vec. Proceedings of the 2024 Conference on Neural Information Processing Systems. 2024. Pp. 10234–10246.
  6. Bianchi F., Terragni S., Hovy D. Combined Topic Model (CTM): Integrating contextualized embeddings into LDA. In: Findings of ACL. 2021. Pp. 1175–1188.
  7. Maheshwari K., Roberts M.E., Stewart B.M. Evaluating contextualized topic coherence for neural topic models. Journal of Machine Learning Research. 2022. Vol. 23. Pp. 1–20.
  8. Angelov D., Inkpen D. Hierarchical topic modeling with contextual token representations. In: Contextualized-Top2Vec. Proceedings of the 2024 Conference on Neural Information Processing Systems. 2024. URL: https://github.com/ddangelov/Top2Vec (дата обращения: 12.05.2025).
  9. Lee J., Yoon W., Kim S. et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 2020. Vol. 36. No. 4. Pp. 1234–1240.
  10. Zaheer M., Guruganesh G., Dubey K.A. et al. Big Bird: Transformers for longer sequences. In: NeurIPS. 2020. Pp. 17283–17297.
  11. Reimers N., Gurevych I. Sentence-BERT: Sentence embeddings using siamese BERT-Networks. In: Proceedings of EMNLP. 2019. Pp. 3980–3990.
  12. Pethe M., Joshi S., Kulkarni P. et al. SciBERT: A pretrained language model for scientific text. In: Proceedings of EMNLP. 2019. Pp. 3615–3620.
  13. McInnes L., Healy J., Melville J. UMAP: Uniform manifold approximation and projection for dimension reduction. arXiv:1802.03426. 2018. URL: https://arxiv.org/abs/1802.03426 (дата обращения: 12.05.2025).
  14. Fraley C., Raftery A.E. Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association. 2002. Vol. 97. No. 458. Pp. 611–631.
  15. Bodenreider O. The Unified Medical Language System (UMLS): Integrating biomedical terminology. Nucleic Acids Research. 2004. Vol. 32. Suppl. 1. Pp. D267–D270.
  16. Lowe H.J., Barnett G.O. Understanding and using the Medical Subject Headings (MeSH) vocabulary to perform literature searches. JAMA. 1994. Vol. 271. No. 14. Pp. 1103–1108.
  17. Zolotarev O.V., Hakimova A.Kh., Agraval S. et al. Removing terms from biomedical publications-an approach based on n-grams. In: Civilization of Knowledge: Russian realities. 2023. Pp. 136–160. EDN: IRLOBR.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML
2. Рис. 1. Архитектурная схема подхода к обработке токенов

Скачать (232KB)
3. Рис. 2. Архитектурная схема процесса векторизации выделенных тем в данных со сформированными тематическими окружениями с помощью алгоритма LSA

Скачать (340KB)
4. Рис. 3. Тематическое окружение по публикациям Dimensions AI и PubMed на основе метода LDA с выделенными терминами из словарей (тезаурусов) без учета гиперпараметров

Скачать (155KB)
5. Рис. 4. Тематическое окружение по публикациям Dimensions AI и PubMed на основе метода LDA и гиперпараметров α и γ из функции максимизации логарифмического правдоподобия (расширенная модель)

Скачать (92KB)

© Юр-ВАК, 2025

Ссылка на описание лицензии: https://www.urvak.ru/contacts/