ПОСТРОЕНИЕ ЧАСТОТНЫХ СЛОВАРЕЙ НА ОСНОВЕ ИСХОДНЫХ ТЕКСТОВ С ПРИМЕНЕНИЕМ ЛЕММАТИЗАЦИИ


Цитировать

Полный текст

Аннотация

Рассматривается вопрос снижения трудоемкости изучения информационно-терминологического базиса за счет уменьшения объема частотного словаря, на основе которого строится базис. Рассматривается вопрос построения частотных словарей на основе исходных текстов с применением лемматизации для последующего формирования информационно-терминологического базиса. Приводится алгоритм построения частотного словаря на основе исходных текстов с применением лемматизации, а также модификация данного алгоритма с использованием проверки терминов формируемого частотного словаря по специализированному словарю.

Полный текст

В соответствии с работами [1-2], занимающимися изучения ИТБ, целесообразно уменьшить его объем, решением задачи формирования и анализа мульти- но при этом важно не допустить снижения качества. лингвистического информационно-терминологичес- Уменьшения объема ИТБ можно добиться за счет кого базиса (ИТБ), основным фактором, влияющим на уменьшения частотного словаря, на основе которого трудоемкость изучения ИТБ является объем этого строится ИТБ. Но при искусственном уменьшении базиса. Для существенного снижения трудоемкости частотного словаря (например, при его урезании до 39 Вестник СибГАУ. № 4(50). 2013 определенного размера или выборки слов, принадлежащих только к одной части речи) может произойти снижение качества получаемого ИТБ, так как часть относительно важных слов для изучения может быть потеряна, а менее важные будут включены в базис. Построение частотных словарей на основе оригинальных текстов. Очевидным решением вышеописанных проблемы является построение частотного словаря только на основе тех текстов, с которыми, предполагается работать обучаемому. Будем называть такие тексты исходными. Например, такой подход может быть применен для быстрой наработки словарного запаса сотрудников крупных межнациональных корпораций, где используется большое количество документации на разных языках. Так, для обучающихся, работающих с техническими инструкциями, для достижения основной цели обучения будет достаточно построить частотный словарь на основе этих технических инструкций. Таким образом, в ИТБ попадут только те понятия, которые будут непосредственно встречаться обучающимся в ходе их дальнейшей работы, что будет способствовать более качественному и быстрому обучению. Кроме того, частотные словари для текстов одной предметной области целесообразно строить автоматически. Это позволит достаточно быстро и легко сгенерировать частотный словарь для какой-либо предметной области без необходимости долгого ручного построения такого словаря. В данной статье рассматривается способ автоматического построения частотного словаря на основе исходных текстов с применением лемматизации. Построение частотных словарей с применением лемматизации. Лемматизация - это процесс приведения словоформы к лемме - ее нормальной (словарной) форме [3]. Благодаря лемматизации в частотный словарь будут заноситься не все словоформы одного и того же термина, встречающиеся в исходных текстах, а только одна (нормальная) форма слова, что приведет к существенному снижению объема частотного словаря. Элемент частотного словаря представляет собой структуру данных, состоящую из следующих полей: 1) слово на исходном языке; 2) абсолютная частота встречаемости слова; 3) относительная частота встречаемости слова. Алгоритм построения частотного словаря с применением лемматизации: 1. Разбить исходный текст на слова и занести их в массив слов word[]. 2. Проверить, достигнут ли конец массива слов word[] : а) если дошли до конца массива, то перейти к шагу 7; б) иначе выполнить следующие действия. 3. Взять очередное слово из массива слов (word[i]). 4. Провести лемматизацию текущего слова word[i]. 5. Поместить полученную лемму в текущий терм (term). 6. Проверить, есть ли полученный терм (term) в частотном словаре: а) если терм (term) уже есть в частотном словаре, то увеличить частоту встречаемости данного терма на 1; б) иначе (полученного терма (term) еще нет в частотном словаре) занести term в частотный словарь с частотой встречаемости, равной 1. 7. Перейти к следующему слову из массива слов (i = i+1). 8. Рассчитать относительную частоту встречаемости для каждого терма из частотного словаря. 9. Отсортировать частотный словарь (либо в алфавитном порядке, либо по частоте встречаемости термов). 10. Сохранить частотный словарь. 11. Завершить работу алгоритма. Однако при таком подходе в частотный словарь попадут все леммы из исходного текста, в том числе и общеупотребительная лексика, которая будет иметь высокую частоту встречаемости и может не соответствовать задачам обучения. Например, если стоит задача изучения терминологии предметной области, а не лексики в целом, то информационно-терминологический базис, полученный на основе такого частотного словаря, будет иметь больший объем и сравнительно низкое качество. Кроме того, при лемматизации возможна потеря части терминов. Например, два термина development (разработка) и developer (разработчик) после лемма-тизации дадут один термин develop (разрабатывать), что опять же приводит к снижению качества информационно-терминологического базиса. Поэтому для решения этих проблем можно применить метод сверки генерируемого частотного словаря с электронным специализированным словарем для конкретной предметной области. Таким образом, можно исключить из частотного словаря общеупотребительные выражения и лексику, оставив только термины и выражения, характерные для изучаемой предметной области, а также избежать потери терминов. При таком подходе модифицированный алгоритм построения частотного словаря примет вид: 1. Разбить исходный текст на слова и занести их в массив слов word[]. 2. Проверить, достигнуть ли конец массива слов word[] : а) если дошли до конца массива, то перейти к шагу 7; б) иначе выполнить следующие действия. 3. Взять очередное слово из массива слов (word[i]). 4. Проверить, есть ли текущее слово в специализированном словаре: а) Если word[i] есть в специализированном словаре, то поместить текущее слово в текущий терм (term = word[i]); б) иначе (текущего слова нет в специализированном словаре) провести лемматизацию текущего слова word[i]; 40 Математика, механика, информатика в) проверить, есть ли полученная лемма w_lem в специализированном словаре: г) если w_lem есть в специализированном словаре, то поместить полученную лемму слова в текущий терм (term); д) иначе перейти к шагу 6. 5. Проверить, есть ли полученный терм (term) в частотном словаре: а) если терм (term) уже есть в частотном словаре, то увеличить частоту встречаемости данного терма на 1; б) иначе (полученного терма (term) еще нет в частотном словаре) занести term в частотный словарь с частотой встречаемости, равной 1. 6. Перейти к следующему слову из массива слов (i = i+1). 7. Рассчитать относительную частоту встречаемости для каждого терма из частотного словаря. 8. Отсортировать частотный словарь (либо в алфавитном порядке, либо по частоте встречаемости термов). 9. Сохранить частотный словарь. 10. Завершить работу алгоритма. Таким образом, в генерируемый частотный словарь попадут только те слова, выражения и формы слов, которые представляют собой термины либо специализированную лексику конкретной предметной области. Это позволит сократить объем частотного словаря, а соответственно, и информационно-терминологического базиса, а также повысить их качество. В данной работе на основе анализа способов построения частотных словарей авторами предложен модифицированный алгоритм автоматического формирования частотных словарей на основе исходных текстов с применением лемматизации. При использовании данного алгоритма можно обеспечить построение информационно-терминологического базиса меньшего объема и с сопоставимым уровнем качества. Таким образом, удастся достичь снижения трудоемкости изучения ИТБ и упрощения процесса его формирования.
×

Об авторах

Игорь Владимирович Ковалев

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: info@sibsau.ru
доктор технических наук, профессор, ректор Российская Федерация, Красноярск, просп. им. газ. «Красноярский рабочий», 31

Александр Игоревич Середин

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: alexzanderIV@yandex.ru
аспирант кафедры системного анализа и исследования операций Российская Федерация, Красноярск, просп. им. газ. «Красноярский рабочий», 31

Маргарита Владимировна Карасева

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: karaseva-margarita@rambler.ru
кандидат технических наук, доцент, доцент кафедры системного анализа и исследования операций Российская Федерация, Красноярск, просп. им. газ. «Красноярский рабочий», 31

Павел Викторович Зеленков

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: zelenkow@rambler.ru
кандидат технических наук, начальник научно-исследовательского управления Российская Федерация, Красноярск, просп. им. газ. «Красноярский рабочий», 31

Валерия Владимировна Храпунова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Email: mail:nirs@sibsau.ru
магистрант кафедры системного анализа и исследования операций; начальник отдела научно-исследовательской работы студентов Российская Федерация, Красноярск, просп. им. газ. «Красноярский рабочий», 31

Список литературы

  1. Огнерубов С. С. Формирование информационно-терминологического базиса в мультилингвистических системах обучения : дис.. канд. техн. наук. Красноярск, 2008.
  2. Ковалев И. В., Карасева М. В., Лесков В. О. Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса // Программные продукты и системы. 2009. № 4. С. 28-32.
  3. Атанов Г. А., Пустынникова И. Н. Структурирование понятий предметной области с помощью методов представления знаний // Искусственный интеллект. 1997. № 2. C. 29-40.

Дополнительные файлы

Доп. файлы
Действие
1. JATS XML

© Ковалев И.В., Середин А.И., Карасева М.В., Зеленков П.В., Храпунова В.В., 2013

Creative Commons License
Эта статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Данный сайт использует cookie-файлы

Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта.

О куки-файлах