Технология создания доменной базы знаний вопрос-ответной системы на основе крупномасштабной универсальной базы знаний
- Авторы: Титов Н.А.1, Макрушин С.В.1
-
Учреждения:
- Финансовый университет при Правительстве Российской Федерации
- Выпуск: Том 9, № 1 (2022)
- Страницы: 115-124
- Раздел: Статьи
- URL: https://journals.eco-vector.com/2313-223X/article/view/529874
- DOI: https://doi.org/10.33693/2313-223X-2022-9-1-115-124
- ID: 529874
Цитировать
Аннотация
Использование вопрос-ответных систем стало популярным способом получения доступа к базам знаний, содержащим большое количество фактов из самых различных предметных областей. Крупномасштабные открытые универсальные базы знаний, такие как Wikidata, содержат огромные коллекции фактов. И хотя они охватывают большую часть всех накопленных людьми сведений, имеется ряд причин, по которым их прямое использование в вопрос-ответных системах может быть менее предпочтительным чем создание на их основе специализированных доменных баз знаний. В работе представлена технология построения доменной базы знаний для диалоговой системы, основанная на выделении границ домена из крупномасштабной открытой универсальной базы знаний. Она основана на многошаговом процессе анализа большого числа заданных в свободной форме вопросов по указанной предметной области, собранных с помощью краудсорсинговой платформы. Технология включает корректировку онтологической структуры исходной базы знаний и ее дополнительное наполнение. Предложенная технология является универсальной по отношению к исходной базе знаний и моделируемой предметной области и была апробирована на базе знаний Wikidata для шести предметных областей.
Ключевые слова
Полный текст
Об авторах
Никита Алексеевич Титов
Финансовый университет при Правительстве Российской Федерации
Email: natitov@fa.ru
инженер 1 категории Москва, Российская Федерация
Сергей Вячеславович Макрушин
Финансовый университет при Правительстве Российской Федерации
Email: svmakrushin@fa.ru
кандидат экономических наук; доцент Москва, Российская Федерация
Список литературы
- Abu-Naser S.S., ALmurshidi H.S. A knowledge based system for neck pain diagnosis. World Wide Journal of Multidisciplinary Research and Development. 2016. Vol. 2. No. 4. Pp. 12-18.
- Ahmeti A. et al. Updating Wikipedia via DBpedia mappings and SPARQL. Proceedings of the 14th International European Semantic Web Conference. 2017. Pp. 485-501. doi: 10.1007/978-3-319-58068-5_30.
- Dong C., Zhao C. SDPedia from DBpedia to domain-micropedia.International Journal of Web Information Systems. 2018. Vol. 14. No. 2. Pp. 138-157. doi: 10.1108/IJWIS-05-2017-0040.
- Faraj G., Micsik A. Enriching Wikidata with cultural heritage data from the COURAGE project. Metadata and Semantic Research. 2019. Pp. 407-418. doi: 10.1007/978-3-030-36599-8_37.
- Font L., Zouaq A., Gagnon M. Assessing and improving domain knowledge representation in DBpedia. Open J. Semantic Web. 2017. No. 4. Pp. 1-19.
- Font L., Zouaq A., Gagnon M. Assessing the quality of domain concepts descriptions in DBpedia. Proceedings of the 11th International Conference on Signal-Image Technology & Internet-Based Systems (SITIS). 2015. Pp. 254-261. doi: 10.1109/SITIS.2015.104.
- Henselmann D., Harth A. Constructing demand-driven Wikidata Subsets. Proceedings of the 2nd Wikidata Workshop Co-located with the 20th International Semantic Web Conference. 2021.
- Lehmann J. et al.: DBpedia - a large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web Journal. 2013. Vol. 6. No. 2. doi: 10.3233/SW-140134.
- Lenat D.B. CYC a large-scale investment in knowledge infrastructure.Communications of the ACM. 1995. Vol. 38. No. 11. Pp. 33-38. doi: 10.1145/219717.219745.
- Levenshtein V. Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady. 1966. Vol. 10. No. 8. Pp. 707-710.
- Paulheim H. Knowledge graph refinement a survey of approaches and evaluation methods. Semantic Web. 2016. Vol. 8. No. 3. Pp. 489-508. doi: 10.3233/SW-160218.
- Paulheim H., Ponzetto S.P. Extending DBpedia with Wikipedia list pages. Proceedings of the 2013th International Conference on NLP & DBpedia. 2013. No. 1064. Pp. 85-90.
- seatgeek/fuzzywuzzy [Electronic resource]. URL: https://github.com/seatgeek/fuzzywuzzy (access date: 27.01.2022).
- Shenoy K. et al. A study of the quality of Wikidata. arXiv. 2021.
- Shi L., Mihalcea R. Putting pieces together combining FrameNet, VerbNet and WordNet for robust semantic parsing. Lecture Notes in Computer Science. 2005. No. 3406. Pp. 100-111. doi: 10.1007/978-3-540-30586-6_9.
- Suchanek F.M., Kasneci G., Weikum G. YAGO a core of semantic knowledge unifying WordNet and Wikipedia. Proceedings of the 16th International Conference on World Wide Web. 2007. Pp. 697-706. doi: 10.1145/1242572.1242667.
- Thornton K. et al. Modeling the domain of digital preservation in Wikidata. Proceedings of ACM International Conference on Digital Preservation. 2017.
- Toloka [Electronic resource]. URL: https://toloka.yandex.ru/(access date: 12.02.2022).
- Valle E.D., Ceri S. Querying the semantic Web SPARQL. In: Handbook of semantic Web Technologies. J. Domingue, D. Fensel, J.A. Hendler (eds). 2011. doi: 10.1007/978-3-540-92913-0_8.
- Vrandečić D., Krötzsch M. Wikidata a free collaborative knowledge base.Communications of the ACM 57. 2014. No. 10. Pp. 78-85. doi: 10.1145/2629489.
- Zaveri A. et al. Quality assessment for Linked Data: A survey. Semantic Web. 2016. No. 7. Pp. 63-93. doi: 10.3233/SW-150175.
- Zaveri A. et al. User-driven quality evaluation of DBpedia. Proceedings of the 9th International Conference on Semantic Systems. 2013. Pp. 97-104. doi: 10.1145/2506182.2506195.