An Automated Approach to Selecting Sentences for Test Case Generation
- Authors: Maslova M.A.1
-
Affiliations:
- Volzhsky Polytechnic Institute (branch) of Volgograd State Technical University
- Issue: Vol 11, No 2 (2024)
- Pages: 29-34
- Section: SYSTEM ANALYSIS, INFORMATION MANAGEMENT AND PROCESSING, STATISTICS
- URL: https://journals.eco-vector.com/2313-223X/article/view/635812
- DOI: https://doi.org/10.33693/2313-223X-2024-11-2-29-34
- EDN: https://elibrary.ru/MHKRNS
- ID: 635812
Cite item
Full Text
Abstract
The modern field of education is characterized by the increasing use of multiple choice tests to assess students’ knowledge and skills. One of the common methods of selecting sentences for such tests is the application of textual data clustering procedures. In this study, a module for sentence selection was developed that includes three steps: preprocessing, sentence parameter computation, and clustering. However, an objective evaluation of the quality of the obtained clusters using the silhouette coefficient and Davis-Boldin index showed that the clustering model used did not give satisfactory results.
Full Text
Введение
В современной сфере образования наблюдается устойчивая тенденция к широкому использованию тестовых заданий с несколькими вариантами ответа в качестве инструмента оценки знаний и когнитивных навыков учащихся. Данный подход обладает рядом неоспоримых преимуществ, к числу которых можно отнести:
1) возможность объективно определить уровень освоения учебного материала и сформированности ключевых компетенций;
2) относительная легкость в организации и проведении оценочных мероприятий;
3) возможность применения тестирования в рамках больших академических групп.
Благодаря перечисленным достоинствам, тестовые методики получили широкое распространение при решении задач профессионального отбора, а также при организации вступительных экзаменов в высшие учебные заведения. Вместе с тем, ручная разработка корректных и содержательных тестовых заданий сопряжена со значительными временными и трудовыми затратами. В связи с этим, многие исследователи в области образования и компьютерной лингвистики предлагают различные алгоритмы и подходы к автоматизации создания тестовых материалов на естественном языке.
Одним из распространенных методов отбора подходящих для тестирования предложений является применение процедур кластеризации текстовых данных [2–4]. Данный инструментарий позволяет систематизировать языковой материал и выявить наиболее репрезентативные высказывания, релевантные для проверки конкретных учебных компетенций.
Исследование характеристик предложений
В соответствии с методическими рекомндациями1, основная часть задания, а именно текст вопроса, должна быть сформулирована в виде одного предложения из семи-восьми слов. Кроме того, текст вопроса должен включать максимальное количество слов, оставляя для ответа только два-три ключевых понятия, относящихся к проблеме.
В [6] также указывается, что тестовые задания должны иметь максимально простую синтаксическую структуру, с введением не более одного придаточного предложения в основной текст задания. Текст вопроса должен быть очищен от нерелевантных для конкретной проблемы материалов, а формулировки заданий должны быть четкими и однозначными, без возможности двоякого толкования.
Чтобы тестовый вопрос соответствовал перечисленным требованиям, необходимо, чтобы предложения, из которых он будет состоять, также отвечали этим требованиям. Для этого предлагается использовать следующие статистические характеристики текста.
- Количество слов в предложении.
- Удобочитаемость определяется с помощью индекса Флеша [7]. Для русского языка формула имеет следующий вид:
flesh reading ease =
= 206,835 – 1,52 × ASL – 65,14 × ASW,
где ASL – средняя длина предложения в словах;
ASW – средняя длина слова в слогах.
- Сложность теста можно посчитать как среднюю длину слова в предложении:
complexity = ∑length_word/count_word,
где length_word – длина слова;
count_word – количество слов.
- Полезность можно посчитать как количество слов в предложении совпадающих с ключевыми словами:
где total word count – общее количество слов;
extra words – количество всех слов, кроме ключевых;
keyword count – количество ключевых слов.
- Понятность можно посчитать как отношение количества слов в предложении больше заданной длины к общему количеству слов в предложении.
Предложенная система
В контексте настоящего исследования разработан модуль, предназначенный для осуществления отбора предложений. Процедура отбора предложений включает в себя три последовательных этапа: предварительная обработка предложений, вычисление параметров каждого предложения, а также кластеризация полученных характеристик.
Предварительная обработка предложений
На стадии предварительной обработки текста осуществляется комплекс подготовительных операций, направленных на нормализацию структуры и формы предложений. В частности, в рамках данного этапа производится удаление пунктуационных знаков, исключение стоп-слов, а также лемматизация лексических единиц.
Удаление пунктуации подразумевает устранение из текста знаков препинания, таких как точки, запятые, двоеточия и т.д. Данная процедура позволяет сфокусировать внимание на содержательных элементах предложений, отбросив формальные характеристики.
Следующим шагом является исключение стоп-слов – высокочастотных служебных лексических единиц, не несущих смысловой нагрузки (предлоги, союзы, частицы и пр.) [5; 8]. Удаление подобных слов способствует повышению информативности анализируемого текста и выявлению наиболее значимых содержательных компонентов.
Заключительным этапом предварительной обработки становится лемматизация – приведение словоформ к нормальному (начальному) виду. Данная процедура подразумевает определение леммы для каждого слова в предложениях, что обеспечивает унификацию лексического состава и облегчает последующий анализ.
Совокупность описанных операций по удалению пунктуации, исключению стоп-слов и лемматизации обеспечивает необходимую подготовку предложений к дальнейшей обработке и анализу в рамках решения поставленной задачи.
Вычисление параметров предложения
На этапе вычисления параметров предложений осуществляется количественная оценка ряда характеристик, позволяющих всесторонне описать структурно-семантические особенности анализируемых единиц текста.
В первую очередь производится подсчет количества слов в каждом предложении. Данный показатель характеризует формальную протяженность предложения и может быть использован в качестве критерия для сравнения синтаксических конструкций.
Следующим шагом является вычисление индекса удобочитаемости Флеша предложения. Данный показатель основывается на взаимосвязи между длиной слов и предложений в тексте и его смысловой доступностью. Высокие значения индекса будут свидетельствовать о более высокой читабельности текста, в то время как низкие значения укажут на большую сложность восприятия.
Помимо этого, определяется средняя длина слова в каждом предложении. Данная характеристика может рассматриваться как индикатор лексической сложности предложения: более длинные слова, как правило, являются менее частотными и семантически более емкими.
Кроме того, подсчитывается количество слов в предложении, совпадающих с ключевыми лексическими единицами текста. Данный показатель позволяет оценить семантическую связь предложения с основной тематикой документа.
Наконец, вычисляется число слов в предложении, длина которых превышает среднюю длину слова во всем тексте. Этот параметр также может служить показателем лексической сложности предложения.
Комплексный анализ перечисленных количественных характеристик позволяет всесторонне описать структурно-семантические особенности предложения и выявить наиболее значимые единицы текста.
Кластеризация характеристик предложений
На этапе обработки и анализа вычисленных параметров предложений целесообразно применить метод кластеризации с целью выявления устойчивых групп однородных синтаксических конструкций.
Одним из наиболее эффективных и широко используемых алгоритмов кластеризации является метод k-means. Данный подход основан на разбиении совокупности объектов на заданное число k кластеров на основе минимизации внутригрупповой дисперсии. Алгоритм k-means реализует итеративный процесс последовательного перераспределения объектов между кластерами с целью оптимизации заданной целевой функции.
Кластеризация k-means можно представит вить в виде следующей формулы:
где k – число кластеров;
Si – полученные кластеры, i = 1, 2, … , k;
μi – центры масс всех векторов x из кластера Si.
В рамках предлагаемого исследования метод k-means применяется к массиву вычисленных ранее количественных характеристик предложений. Таким образом, каждое предложение рассматривается как многомерный объект, координаты которого определяются значениями параметров, таких как количество слов, индекс удобочитаемости, средняя длина слова и др.
Процесс кластеризации включает в себя следующие основные этапы:
1) определение оптимального числа кластеров k на основе анализа внутригрупповой дисперсии и иных критериев качества кластеризации;
2) инициализация центров кластеров;
3) итеративное перераспределение объектов (предложений) по кластерам на основе минимизации расстояния до центров;
4) обновление центров кластеров;
5) повторение шагов 3–4 до достижения сходимости алгоритма.
В результате применения метода k-means к массиву характеристик предложений формируются однородные группы синтаксических конструкций, обладающих схожими структурными и семантическими свойствами. Полученные кластеры могут быть дополнительно проанализированы с целью выявления наиболее значимых типов предложений в рамках исследуемого текстового материала.
В рамках данной работы было задействовано 50 предложений, которые были распределены по кластерам в соответствии с их содержательными и формальными характеристиками. Результаты кластеризации представлены на трехмерном графике (рис. 1), демонстрирующем пространственное расположение сформированных кластеров и распределение исходных предложений по ним.
Рис. 1. Кластеризация предложений по пяти параметрам
Fig. 1. Custering of sentences by five parameters
Графическая интерпретация итогов кластеризации позволяет наглядно проиллюстрировать структуру и взаимосвязи выделенных групп, а также оценить степень однородности и обособленности каждого кластера.
Для объективной оценки качества проведенной кластеризации были использованы два специализированных метрических показателя2 – коэффициент силуэта и индекс Дэвиса–Болдина.
Коэффициент силуэта позволяет количественно охарактеризовать степень принадлежности каждого объекта (в данном случае – предложения) к соответствующему кластеру. Значения данного показателя варьируются в диапазоне от –1 до 1, причем более высокие значения указывают на лучшую кластеризацию. Коэффициент силуэта равен 0,33. Расчет коэффициента силуэта для совокупности исследуемых предложений продемонстрировал результаты около нуля, что свидетельствует о на перекрывающиеся кластеры, плохой согласованности объектов внутри кластеров и их нечеткой обособленности друг от друга.
Индекс Дэвиса–Болдина является комплексным критерием, учитывающим как компактность кластеров, так и степень их различия. Меньшие значения индекса Дэвиса–Болдина соответствуют более качественной кластеризации. Индекс Дэвиса–Болдина равен 0,68. Полученные в ходе исследования результаты расчета данного показателя также подтверждают плохую эффективность проведенной кластеризации предложений.
Для повышения качества результатов был проведен регрессионный анализ. Установлено, что параметр «Понятность» в наибольшей степени зависит от остальных четырех параметров (коэффициент детерминации равен 0,53). При этом коэффициенты зависимости были выше для параметров «Полезность» (0,26) и «Сложность» (6,09).
Далее был рассчитан коэффициент детерминации зависимости «Понятность» от «Полезность» и «Сложность», который составил 0,51. Кроме того, была определена зависимость «Понятность» от «Сложность» с коэффициентом зависимости, равным 8,60, и соответствующим коэффициентом детерминации 0,49.
Для дальнейшего анализа была проведена кластеризация предложений по двум параметрам: «Понятность» и «Сложность» (рис. 2). Значение коэффициента силуэта (0,13) ухудшилось по сравнению с предыдущим значением, однако значение индекса Дэвиса-Болдина (0,48) улучшилось, что свидетельствует о повышении качества кластеризации.
Рис. 2. Кластеризация предложений по двум параметрам
Fig. 2. Clustering of sentences by two parameters
Заключение
Согласно проведенному анализу, кластеризация предложений по двум параметрам – «Понятность» и «Сложность» – показала удовлетворительные результаты. Несмотря на некоторое ухудшение значения коэффициента силуэта по сравнению с предыдущими расчетами, наблюдается улучшение значения индекса Дэвиса-Болдина, что свидетельствует о повышении качества кластеризации. Таким образом, данный подход к кластеризации на основе двух ключевых параметров может быть признан удовлетворительным для решения поставленной задачи.
1 Мызникоеа, МЛ. Методика составления тестовых заданий: методические рекомендации. Тамбов: Орион, 2016.
2 Python — библиотека для машинного обучения: официальный сайт.
About the authors
Maria A. Maslova
Volzhsky Polytechnic Institute (branch) of Volgograd State Technical University
Author for correspondence.
Email: miss.mari.m@inbox.ru
ORCID iD: 0000-0003-3845-3972
SPIN-code: 2933-6263
senior teacher, Department of Computer Science and Programming Technology
Russian Federation, VolzhskyReferences
- Bholowalia P., Arvind K. EBK-means: A clustering technique based on elbow method and K-means in WSN. International Journal of Computer Applications. 2014. No. 105. Pp. 17–24.
- Das B., Majumder M., Phadikar S., Ahmed S.A. Automatic generation of fill-in-the-blank question with corpus-based distractors for E-assessment to enhance learning. Computer Applications in Engineering Education. 2019. No. 27. Pp. 1485–1495.
- Das B., Majumder M., Phadikar S., Sekh A.A. Multiple-choice question generation with auto-generated distractors for computer-assisted educational assessment. Multimedia Tools and Applications. 2021. No. 80. Pp. 31907–31925. doi: 10.1007/s11042-021-11222-2
- Riza L.S., Firdaus Y., Sukamto R.A., Samah W.Kh.A.F.A. Automatic generation of short-answer questions in reading comprehension using NLP and KNN. Multimedia Tools and Applications. 2023. No. 82. Pp. 41913–41940. doi: 10.1007/s11042-023-15191-6
- Bulyga F.S., Kureichik V.M. Clustering of the text document corpus using the k-means algorithm. News of Universities. North-Caucasian Region. Technical Sciences. 2022. No. 3. Pp. 33–40. (In Rus.) doi: 10.17213/1560-3644-2022-3-33-40
- Walter A.I. Methodics of development of test tasks of control-measuring materials. News of TulSU. Technical Sciences. 2022. No. 3. (In Rus.) URL: https://cyberleninka.ru/article/n/metodika-razrabotki-testovyh-zadaniy-kontrolno-izmeritelnyh-materialov
- Mizernov I.Yu., Grashchenko L.A. Analysis of methods for assessing text complexity. New Information Technologies in Automated Systems. 2015. No. 18 (In Rus.) URL: https://cyberleninka.ru/article/n/analiz-metodov-otsenki-slozhnosti-teksta
- Yatsko V.A. Stop-words as a basis for classification of text documents. Actual Problems of Applied Mathematics, Informatics and Mechanics. 2021. Pp. 486–492 (In Rus.)


