Methods for solving the problem of topic segmentation of texts based on knowledge graphs
- 作者: Avdeeva Z.K.1, Gavrilov М.S.1,2, Lemtyuzhnikova D.V.1, Sharafiev A.F.1
-
隶属关系:
- V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences
- Moscow Aviation Institute (National Research University)
- 期: 编号 4 (2024)
- 页面: 40-64
- 栏目: COMPUTER METHODS
- URL: https://journals.eco-vector.com/0002-3388/article/view/676399
- DOI: https://doi.org/10.31857/S0002338824040031
- EDN: https://elibrary.ru/UENRQR
- ID: 676399
如何引用文章
详细
Тематическая сегментация – это задача разделения неструктурированного текста на тематически связные сегменты (такие, в которых речь идет об одном и том же). Граф знаний – графовая структура, вершинами которой являются различные объекты, а ребрами – отношения между ними. Как задача тематической сегментации, так и задача автоматического построения графа знаний не будут новыми, поэтому существует множество алгоритмов для их решения. Однако методы решения задачи тематической сегментации с помощью графов знаний до сих пор исследованы мало. Более того, пока еще нельзя сказать, что задача тематической сегментации решена в общем виде, т.е.существуют алгоритмы, способные при должной настройке решить задачу с требуемым качеством на конкретном наборе данных. Предлагается новый метод решения задачи тематической сегментации на основе графов знаний. Применение графов знаний при сегментации позволяет использовать больше информации о словах в тексте: помимо того чтобы основываться на co-occurrance и семантических расстояниях (как классические алгоритмы), методы на базе графов знаний могут применять расстояние между словами на графе, инкорпорируя тем самым фактологическую информацию из графа знаний в процесс принятия решений о биении текста на сегменты.
全文:

作者简介
Z. Avdeeva
V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences
编辑信件的主要联系方式.
Email: avdeeva@ipu.ru
俄罗斯联邦, Moscow
М. Gavrilov
V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences; Moscow Aviation Institute (National Research University)
Email: cobraj@yandex.ru
俄罗斯联邦, Moscow; Moscow
D. Lemtyuzhnikova
V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences
Email: darabbt@gmail.com
俄罗斯联邦, Moscow
A. Sharafiev
V. A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences
Email: whiskeydudev@gmail.com
俄罗斯联邦, Moscow
参考
- Chen H., Luo X. An Automatic Literature Knowledge Graph and Reasoning Network Modeling Framework Based on Ontology and Natural Language Processing // Advanced Engineering Informatics. 2019. V. 42. https://doi.org/: 10.1016/j.aei.2019.100959
- Dahab M., Hassan H. TextOntoEx: Automatic Ontology Construction from Natural English Text // Expert Systems with Applications. 2008. V. 34(2). P. 1474–1480. https://doi.org/10.1016/j.eswa.2007.01.043
- Oren E., Anthony F., Christensen J., Soderland S. Mausam. Open Information Extraction: The Second Generation // Intern. Joint Conf. on Artificial Intelligence.Barcelona, 2011. https://doi.org/:10.5591/978-1-57735-516-8/IJCAI11-012
- Ristoski P., Gentile A.L., Alba A., Gruhl D., Welch S. Large-scale Relation Extraction from Web Documents and Knowledge Graphs with Human-in-the-loop // J. Web Semantics. 2019. V. 60. https://doi.org/: 100546. doi: 10.1016/j.websem.2019.100546
- Hearst A.M. TextTiling: Segmenting Text IntoMulti-paragraph Subtopic Passages // Computational Linguistics. 1997. V. 23(1). P. 33–64.
- Galley M., McKeown K., Fosler-Lussier E. Discourse Segmentation of Multi-Party Conversation // Proc. 41st Annual Meeting on Association for Computational Linguistics (ACL '03). 2003. V. 3. P. 562–569. https://doi.org/:10.3115/1075096.1075167
- Misra H., Yvon F., Jose J.M. Text Segmentation via Topic Modeling: An Analytical Study //Proc. 18th ACM Conf. on Information and Knowledge Management (CIKM '09). Hong Kong, 2009. V. 1. P. 1553–1556. https://doi.org/:10.1145/1645953.1646170
- Du L., Buntine W., Jin H. A Segmented Topic Model Based on the Two-parameter Poisson-Dirichlet Process // Machine Language. 2010. V. 81(2). P. 5–19. https://doi.org/:10.1007/s10994-010-5197-4
- Das A., Das P. Incorporating Domain Knowledge To Improve Topic Segmentation Of Long MOOC Lecture Videos // arXiv:2012.07589 [cs.CL]. https://doi.org/10.48550/arXiv.2012.07589
- Nouar F., Belhadef H. A Deep Neural Network Model with Multihop Self-attention Mechanism for Topic Segmentation of Texts // Innovative Systems for Intelligent Health Informatics. 2021. V. 72. P. 407–417. https://doi.org/:10.1007/978-3-030-70713-2_38
- Lo K., Jin Y., Tan W., Liu M., Du L., Buntine W.L. Transformer over Pre-trained Transformer for Neural Text Segmentation with Enhanced Topic Coherence // Findings of the Association for Computational Linguistics: EMNLP 2021. 2021. V. 1. P. 3334–3340. https://doi.org/:10.18653/v1/2021.findings-emnlp.283
- Arnold S., Schneider R., Cudr'e-Mauroux P., Gers F.A. SECTOR: A Neural Model for Coherent Topic Segmentation and Classification // Transactions of the Association for Computational Linguistics. 2019. V. 7. P. 169–184. https://doi.org/:10.1162/tacl_a_00261
- Теория управления. Терминология / Под ред. М. М. Гальперина. М.: Наука, 1988. 56 c.
- Теория управления: словарь системы основных понятий / Под общ. ред. Д. А. Новикова. М.: ЛЕНАНД, 2024. 128 c.
- Jones K.S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. 2004. V. 60(5). P. 493—502. https://doi.org/:10.1108/EB026526
- Beeferman D., Berger A. L., Lafferty J.D. Statistical Models for Text Segmentation // Machine Learning. 1998. V. 34. P. 177–210. https://doi.org/:10.1108/EB026526
- Pevzner L., Hearst M.A. A Critique and Improvement of an Evaluation Metric for Text Segmentation // Computational Linguistics. 2002. V. 28. P. 19–36. https://doi.org/:10.1162/089120102317341756
补充文件
