FREQUENCY DICTIONARY CONSTRUCTION BASED ON THE SOURCE TEXT USING LEMMATIZATION

Igor Vladimirovich Kovalev; Ковалев Игорь Владимирович; Alexander Igorevich Seredin; Середин Александр Игоревич; Margarita Vladimirovna Karaseva; Карасева Маргарита Владимировна; Pavel Viktorovich Zelenkov; Зеленков Павел Викторович; Valeriya Vladimirovna Khrapunova; Храпунова Валерия Владимировна

FREQUENCY DICTIONARY CONSTRUCTION BASED ON THE SOURCE TEXT USING LEMMATIZATION

作者: Kovalev I.V.¹, Seredin A.I.¹, Karaseva M.V.¹, Zelenkov P.V.¹, Khrapunova V.V.¹
隶属关系:
1. Siberian State Aerospace University named after academician M. F. Reshetnev
期: 卷 14, 编号 4 (2013)
页面: 39-41
栏目: Articles
##submission.datePublished##: 15.08.2013
URL: https://journals.eco-vector.com/2712-8970/article/view/503639
ID: 503639

如何引用文章

全文:

详细
全文:
作者简介
参考
补充文件
统计

详细

The issue of reducing the complexity of the information-vocabulary basis study by decreasing the amount of the frequency dictionary (on which base the basis is constructed), is considered. The frequency dictionary construction based on the source text using lemmatization for the subsequent formation of information-vocabulary basis is considered. The algorithm for frequency dictionary construction based on the source text using lemmatization is presented, as well as the modification of this algorithm with checking the terms of the generated frequency dictionary by a specialized dictionary.

关键词

frequency dictionary, information-vocabulary basis, lemmatization

全文:

В соответствии с работами [1-2], занимающимися изучения ИТБ, целесообразно уменьшить его объем, решением задачи формирования и анализа мульти- но при этом важно не допустить снижения качества. лингвистического информационно-терминологичес- Уменьшения объема ИТБ можно добиться за счет кого базиса (ИТБ), основным фактором, влияющим на уменьшения частотного словаря, на основе которого трудоемкость изучения ИТБ является объем этого строится ИТБ. Но при искусственном уменьшении базиса. Для существенного снижения трудоемкости частотного словаря (например, при его урезании до 39 Вестник СибГАУ. № 4(50). 2013 определенного размера или выборки слов, принадлежащих только к одной части речи) может произойти снижение качества получаемого ИТБ, так как часть относительно важных слов для изучения может быть потеряна, а менее важные будут включены в базис. Построение частотных словарей на основе оригинальных текстов. Очевидным решением вышеописанных проблемы является построение частотного словаря только на основе тех текстов, с которыми, предполагается работать обучаемому. Будем называть такие тексты исходными. Например, такой подход может быть применен для быстрой наработки словарного запаса сотрудников крупных межнациональных корпораций, где используется большое количество документации на разных языках. Так, для обучающихся, работающих с техническими инструкциями, для достижения основной цели обучения будет достаточно построить частотный словарь на основе этих технических инструкций. Таким образом, в ИТБ попадут только те понятия, которые будут непосредственно встречаться обучающимся в ходе их дальнейшей работы, что будет способствовать более качественному и быстрому обучению. Кроме того, частотные словари для текстов одной предметной области целесообразно строить автоматически. Это позволит достаточно быстро и легко сгенерировать частотный словарь для какой-либо предметной области без необходимости долгого ручного построения такого словаря. В данной статье рассматривается способ автоматического построения частотного словаря на основе исходных текстов с применением лемматизации. Построение частотных словарей с применением лемматизации. Лемматизация - это процесс приведения словоформы к лемме - ее нормальной (словарной) форме [3]. Благодаря лемматизации в частотный словарь будут заноситься не все словоформы одного и того же термина, встречающиеся в исходных текстах, а только одна (нормальная) форма слова, что приведет к существенному снижению объема частотного словаря. Элемент частотного словаря представляет собой структуру данных, состоящую из следующих полей: 1) слово на исходном языке; 2) абсолютная частота встречаемости слова; 3) относительная частота встречаемости слова. Алгоритм построения частотного словаря с применением лемматизации: 1. Разбить исходный текст на слова и занести их в массив слов word[]. 2. Проверить, достигнут ли конец массива слов word[] : а) если дошли до конца массива, то перейти к шагу 7; б) иначе выполнить следующие действия. 3. Взять очередное слово из массива слов (word[i]). 4. Провести лемматизацию текущего слова word[i]. 5. Поместить полученную лемму в текущий терм (term). 6. Проверить, есть ли полученный терм (term) в частотном словаре: а) если терм (term) уже есть в частотном словаре, то увеличить частоту встречаемости данного терма на 1; б) иначе (полученного терма (term) еще нет в частотном словаре) занести term в частотный словарь с частотой встречаемости, равной 1. 7. Перейти к следующему слову из массива слов (i = i+1). 8. Рассчитать относительную частоту встречаемости для каждого терма из частотного словаря. 9. Отсортировать частотный словарь (либо в алфавитном порядке, либо по частоте встречаемости термов). 10. Сохранить частотный словарь. 11. Завершить работу алгоритма. Однако при таком подходе в частотный словарь попадут все леммы из исходного текста, в том числе и общеупотребительная лексика, которая будет иметь высокую частоту встречаемости и может не соответствовать задачам обучения. Например, если стоит задача изучения терминологии предметной области, а не лексики в целом, то информационно-терминологический базис, полученный на основе такого частотного словаря, будет иметь больший объем и сравнительно низкое качество. Кроме того, при лемматизации возможна потеря части терминов. Например, два термина development (разработка) и developer (разработчик) после лемма-тизации дадут один термин develop (разрабатывать), что опять же приводит к снижению качества информационно-терминологического базиса. Поэтому для решения этих проблем можно применить метод сверки генерируемого частотного словаря с электронным специализированным словарем для конкретной предметной области. Таким образом, можно исключить из частотного словаря общеупотребительные выражения и лексику, оставив только термины и выражения, характерные для изучаемой предметной области, а также избежать потери терминов. При таком подходе модифицированный алгоритм построения частотного словаря примет вид: 1. Разбить исходный текст на слова и занести их в массив слов word[]. 2. Проверить, достигнуть ли конец массива слов word[] : а) если дошли до конца массива, то перейти к шагу 7; б) иначе выполнить следующие действия. 3. Взять очередное слово из массива слов (word[i]). 4. Проверить, есть ли текущее слово в специализированном словаре: а) Если word[i] есть в специализированном словаре, то поместить текущее слово в текущий терм (term = word[i]); б) иначе (текущего слова нет в специализированном словаре) провести лемматизацию текущего слова word[i]; 40 Математика, механика, информатика в) проверить, есть ли полученная лемма w_lem в специализированном словаре: г) если w_lem есть в специализированном словаре, то поместить полученную лемму слова в текущий терм (term); д) иначе перейти к шагу 6. 5. Проверить, есть ли полученный терм (term) в частотном словаре: а) если терм (term) уже есть в частотном словаре, то увеличить частоту встречаемости данного терма на 1; б) иначе (полученного терма (term) еще нет в частотном словаре) занести term в частотный словарь с частотой встречаемости, равной 1. 6. Перейти к следующему слову из массива слов (i = i+1). 7. Рассчитать относительную частоту встречаемости для каждого терма из частотного словаря. 8. Отсортировать частотный словарь (либо в алфавитном порядке, либо по частоте встречаемости термов). 9. Сохранить частотный словарь. 10. Завершить работу алгоритма. Таким образом, в генерируемый частотный словарь попадут только те слова, выражения и формы слов, которые представляют собой термины либо специализированную лексику конкретной предметной области. Это позволит сократить объем частотного словаря, а соответственно, и информационно-терминологического базиса, а также повысить их качество. В данной работе на основе анализа способов построения частотных словарей авторами предложен модифицированный алгоритм автоматического формирования частотных словарей на основе исходных текстов с применением лемматизации. При использовании данного алгоритма можно обеспечить построение информационно-терминологического базиса меньшего объема и с сопоставимым уровнем качества. Таким образом, удастся достичь снижения трудоемкости изучения ИТБ и упрощения процесса его формирования.

参考

Огнерубов С. С. Формирование информационно-терминологического базиса в мультилингвистических системах обучения : дис.. канд. техн. наук. Красноярск, 2008.
Ковалев И. В., Карасева М. В., Лесков В. О. Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса // Программные продукты и системы. 2009. № 4. С. 28-32.
Атанов Г. А., Пустынникова И. Н. Структурирование понятий предметной области с помощью методов представления знаний // Искусственный интеллект. 1997. № 2. C. 29-40.

补充文件

附件文件

动作

1. JATS XML

下载

用户名
密码
记住我

忘记您的密码?	注册

用户名
密码
记住我

忘记您的密码?	注册

FREQUENCY DICTIONARY CONSTRUCTION BASED ON THE SOURCE TEXT USING LEMMATIZATION

全文:

详细

关键词

全文:

作者简介

Igor Kovalev

Alexander Seredin

Margarita Karaseva

Pavel Zelenkov

Valeriya Khrapunova

参考

补充文件