FREQUENCY DICTIONARY CONSTRUCTION BASED ON THE SOURCE TEXT USING LEMMATIZATION


Cite item

Full Text

Abstract

The issue of reducing the complexity of the information-vocabulary basis study by decreasing the amount of the frequency dictionary (on which base the basis is constructed), is considered. The frequency dictionary construction based on the source text using lemmatization for the subsequent formation of information-vocabulary basis is considered. The algorithm for frequency dictionary construction based on the source text using lemmatization is presented, as well as the modification of this algorithm with checking the terms of the generated frequency dictionary by a specialized dictionary.

Full Text

В соответствии с работами [1-2], занимающимися изучения ИТБ, целесообразно уменьшить его объем, решением задачи формирования и анализа мульти- но при этом важно не допустить снижения качества. лингвистического информационно-терминологичес- Уменьшения объема ИТБ можно добиться за счет кого базиса (ИТБ), основным фактором, влияющим на уменьшения частотного словаря, на основе которого трудоемкость изучения ИТБ является объем этого строится ИТБ. Но при искусственном уменьшении базиса. Для существенного снижения трудоемкости частотного словаря (например, при его урезании до 39 Вестник СибГАУ. № 4(50). 2013 определенного размера или выборки слов, принадлежащих только к одной части речи) может произойти снижение качества получаемого ИТБ, так как часть относительно важных слов для изучения может быть потеряна, а менее важные будут включены в базис. Построение частотных словарей на основе оригинальных текстов. Очевидным решением вышеописанных проблемы является построение частотного словаря только на основе тех текстов, с которыми, предполагается работать обучаемому. Будем называть такие тексты исходными. Например, такой подход может быть применен для быстрой наработки словарного запаса сотрудников крупных межнациональных корпораций, где используется большое количество документации на разных языках. Так, для обучающихся, работающих с техническими инструкциями, для достижения основной цели обучения будет достаточно построить частотный словарь на основе этих технических инструкций. Таким образом, в ИТБ попадут только те понятия, которые будут непосредственно встречаться обучающимся в ходе их дальнейшей работы, что будет способствовать более качественному и быстрому обучению. Кроме того, частотные словари для текстов одной предметной области целесообразно строить автоматически. Это позволит достаточно быстро и легко сгенерировать частотный словарь для какой-либо предметной области без необходимости долгого ручного построения такого словаря. В данной статье рассматривается способ автоматического построения частотного словаря на основе исходных текстов с применением лемматизации. Построение частотных словарей с применением лемматизации. Лемматизация - это процесс приведения словоформы к лемме - ее нормальной (словарной) форме [3]. Благодаря лемматизации в частотный словарь будут заноситься не все словоформы одного и того же термина, встречающиеся в исходных текстах, а только одна (нормальная) форма слова, что приведет к существенному снижению объема частотного словаря. Элемент частотного словаря представляет собой структуру данных, состоящую из следующих полей: 1) слово на исходном языке; 2) абсолютная частота встречаемости слова; 3) относительная частота встречаемости слова. Алгоритм построения частотного словаря с применением лемматизации: 1. Разбить исходный текст на слова и занести их в массив слов word[]. 2. Проверить, достигнут ли конец массива слов word[] : а) если дошли до конца массива, то перейти к шагу 7; б) иначе выполнить следующие действия. 3. Взять очередное слово из массива слов (word[i]). 4. Провести лемматизацию текущего слова word[i]. 5. Поместить полученную лемму в текущий терм (term). 6. Проверить, есть ли полученный терм (term) в частотном словаре: а) если терм (term) уже есть в частотном словаре, то увеличить частоту встречаемости данного терма на 1; б) иначе (полученного терма (term) еще нет в частотном словаре) занести term в частотный словарь с частотой встречаемости, равной 1. 7. Перейти к следующему слову из массива слов (i = i+1). 8. Рассчитать относительную частоту встречаемости для каждого терма из частотного словаря. 9. Отсортировать частотный словарь (либо в алфавитном порядке, либо по частоте встречаемости термов). 10. Сохранить частотный словарь. 11. Завершить работу алгоритма. Однако при таком подходе в частотный словарь попадут все леммы из исходного текста, в том числе и общеупотребительная лексика, которая будет иметь высокую частоту встречаемости и может не соответствовать задачам обучения. Например, если стоит задача изучения терминологии предметной области, а не лексики в целом, то информационно-терминологический базис, полученный на основе такого частотного словаря, будет иметь больший объем и сравнительно низкое качество. Кроме того, при лемматизации возможна потеря части терминов. Например, два термина development (разработка) и developer (разработчик) после лемма-тизации дадут один термин develop (разрабатывать), что опять же приводит к снижению качества информационно-терминологического базиса. Поэтому для решения этих проблем можно применить метод сверки генерируемого частотного словаря с электронным специализированным словарем для конкретной предметной области. Таким образом, можно исключить из частотного словаря общеупотребительные выражения и лексику, оставив только термины и выражения, характерные для изучаемой предметной области, а также избежать потери терминов. При таком подходе модифицированный алгоритм построения частотного словаря примет вид: 1. Разбить исходный текст на слова и занести их в массив слов word[]. 2. Проверить, достигнуть ли конец массива слов word[] : а) если дошли до конца массива, то перейти к шагу 7; б) иначе выполнить следующие действия. 3. Взять очередное слово из массива слов (word[i]). 4. Проверить, есть ли текущее слово в специализированном словаре: а) Если word[i] есть в специализированном словаре, то поместить текущее слово в текущий терм (term = word[i]); б) иначе (текущего слова нет в специализированном словаре) провести лемматизацию текущего слова word[i]; 40 Математика, механика, информатика в) проверить, есть ли полученная лемма w_lem в специализированном словаре: г) если w_lem есть в специализированном словаре, то поместить полученную лемму слова в текущий терм (term); д) иначе перейти к шагу 6. 5. Проверить, есть ли полученный терм (term) в частотном словаре: а) если терм (term) уже есть в частотном словаре, то увеличить частоту встречаемости данного терма на 1; б) иначе (полученного терма (term) еще нет в частотном словаре) занести term в частотный словарь с частотой встречаемости, равной 1. 6. Перейти к следующему слову из массива слов (i = i+1). 7. Рассчитать относительную частоту встречаемости для каждого терма из частотного словаря. 8. Отсортировать частотный словарь (либо в алфавитном порядке, либо по частоте встречаемости термов). 9. Сохранить частотный словарь. 10. Завершить работу алгоритма. Таким образом, в генерируемый частотный словарь попадут только те слова, выражения и формы слов, которые представляют собой термины либо специализированную лексику конкретной предметной области. Это позволит сократить объем частотного словаря, а соответственно, и информационно-терминологического базиса, а также повысить их качество. В данной работе на основе анализа способов построения частотных словарей авторами предложен модифицированный алгоритм автоматического формирования частотных словарей на основе исходных текстов с применением лемматизации. При использовании данного алгоритма можно обеспечить построение информационно-терминологического базиса меньшего объема и с сопоставимым уровнем качества. Таким образом, удастся достичь снижения трудоемкости изучения ИТБ и упрощения процесса его формирования.
×

About the authors

Igor Vladimirovich Kovalev

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: info@sibsau.ru
Doctor of Engineering Science, rector 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation

Alexander Igorevich Seredin

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: alexzanderIV@yandex.ru
postgraduate student, the department of system and operation analysis 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation

Margarita Vladimirovna Karaseva

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: karaseva-margarita@rambler.ru
Candidate of Engineering Sciences, associate professor, associate professor of the department of system and operation analysis 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation

Pavel Viktorovich Zelenkov

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: zelenkow@rambler.ru
Candidate of Engineering Sciences, manager of the scientific research department 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation

Valeriya Vladimirovna Khrapunova

Siberian State Aerospace University named after academician M. F. Reshetnev

Email: mail:nirs@sibsau.ru
Master’s Degree student of the department of system and operation analysis; manager of the department of student’s scientific research department 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation

References

  1. Огнерубов С. С. Формирование информационно-терминологического базиса в мультилингвистических системах обучения : дис.. канд. техн. наук. Красноярск, 2008.
  2. Ковалев И. В., Карасева М. В., Лесков В. О. Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса // Программные продукты и системы. 2009. № 4. С. 28-32.
  3. Атанов Г. А., Пустынникова И. Н. Структурирование понятий предметной области с помощью методов представления знаний // Искусственный интеллект. 1997. № 2. C. 29-40.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2013 Kovalev I.V., Seredin A.I., Karaseva M.V., Zelenkov P.V., Khrapunova V.V.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies