CALCULATION OF DISCRIMINATIVITY AND VALIDITY FOR EVALUATION OF THE QUALITY OF THE PEDAGOGICAL TEST FROM THE COURSE OF MATHEMATICS ON THE TOPIC "Ranks "


Cite item

Full Text

Abstract

The last twenty years the Department of Higher Mathematics and Applied Informatics of Samara State Technical University has been using tests on all chapters of the Mathematics course to control students' knowledge. To understand how objectively a particular test allows a given assessment, it is necessary to examine its quality. Many theories are devoted to this problem. This article will analyze test quality and test tasks based on classical test theory. The study consists of the following stages: compiling a control test; conducting it on a sample of students that meets all the requirements of statistical analysis; processing of this sample and calculation of basic characteristics; analysis of the resulting coefficients, which allows us to conclude whether the test under study can be used as a control of the level of knowledge of students and what changes need to be made in order to improve it. This article analyses some characteristics when examining the quality of the test on the topic "Series" of the course of mathematics, namely, discrimination and validity. To analyze the validity of the test, point biserial correlation coefficients were found - these are correlation coefficients of some task with the student's individual score. After that, the total validity coefficient was calculated. As the calculations showed, the total validity coefficient is 0.53. This is a fairly high indicator, which cannot be said about some point biserial correlation coefficients, namely, for tasks No. 2 and 9. Therefore, these tasks must either be modified or replaced by others. Analysis of the discrimination coefficients of test tasks showed that their values satisfy the requirements of experts.

Full Text

Введение. К сожалению, в настоящее время сокращаются часы для преподавания курса «Математика» даже в технических вузах. Поэтому преподавателю необходимо так организовать учебный процесс, чтобы студент мог освоить программу и чтобы осталось время для контроля пройденного материала. Использование теста в качестве средства оценивания позволяет быстро, с затратой минимума времени, проверить уровень знаний студентов. Но чтобы объективно оценить уровень подготовки обучающихся, мало просто составить набор задач. Эти задачи должны быть грамотно составлены, сбалансированы по сложности. Поэтому необходимо исследовать качество составленного теста, чтобы при необходимости можно было его улучшить. В статье «Анализ надежности педагогического теста курса математики по теме «Ряды» [10] была проведена часть проверки качества данного теста, а именно анализ надежности педагогического теста. Было выявлено, что для повышения качества теста рекомендуется либо изменить некоторые задания (а именно, второе - усложнить, а девятое - упростить), либо увеличить количество заданий в тесте. В данной статье рассмотрим другие характеристики, которые показывают, соответствует ли данный тест требованиям проверки уровня знаний обучающихся. Эти характеристики - валидность и дискриминативность [1 - 9, 13 - 17]. Методы. В данном исследовании при анализе теста «Ряды» будем проводить анализ качества теста и его заданий на основе классической теории тестов с помощью методов математической статистики [1 - 3, 6 - 9, 13, 16, 18 - 20]. Валидность - один из основных показателей качества теста (произошло от английского слова «valid», в переводе означает «годный»), но многие исследователи трактуют его по-разному. Существует множество методов и рассуждений, которые позволяют оценить или доказать высокую валидность определенного теста. Все эти методы имеют свои достоинства и недостатки, свои области применения и даже свое определение валидности. Чтобы определить валидность исследуемого теста, необходимо сначала рассчитать точечные бисериальные коэффициенты корреляции . Эти коэффициенты характеризуют статистическую взаимосвязь данного задания с индивидуальным баллом студента и вычисляются с помощью формулы [7, 9, 11, 12] , (1) где - средний индивидуальный балл студентов, которые выполнили данное задание; - средний индивидуальный балл студентов, которые не выполнили это задание; n1 - количество студентов, которые выполнили данное задание; n0 - количество студентов, которые не выполнили это задание; n - общее количество студентов; sx - стандартное отклонение для индивидуальных баллов всех студентов. Для качественно составленного теста величины точечных бисериальных коэффициентов корреляции должны быть не менее 0,5 [2, 16]. Общий коэффициент валидности теста рассчитывается по формуле , (2) где М - количество заданий в тесте. В работе [16] так расцениваются его значения: 0,2 - 0,3 - низкий; 0,3 - 0,5 - средний; свыше 0,5 - высокий. Следующая характеристика - дискриминативность. Практически все исследователи трактуют ее следующим образом: дискриминативность (discriminatory power) - это способность задания дифференцировать студентов на «лучших» и «худших». Этот критерий качества теста позволяет отследить те задания, которые обладают определенными недостатками (некорректная формулировка, неоднозначность условия, очевидность решения и т.д. [13]). Для оценки данной характеристики также существует множество методов и формул в зависимости от целей создания данного теста, а также применяемого математического аппарата. В данном исследовании для определения коэффициента дискриминативности использовалась формула [7, 11, 12] , (3) где - отношение количества правильных ответов на данное задание к 27% студентов, которые были признаны «лучшими» по результатам выполнения теста; - отношение количества правильных ответов на данное задание к 27% студентов, которые были признаны «худшими» по результатам выполнения теста. Все значения этого коэффициента находятся в промежутке от -1 до 1. Причем = 1 в том случае, если все «лучшие» студенты правильно выполнят некоторое задание, а все «худшие» не справятся с ним. Величина = 0, когда одинаковое количество студентов решат данное задание в обеих подгруппах. Коэффициент = -1 в случае, когда все «худшие» студенты справятся с данным заданием, а все «лучшие» - не смогут этого сделать. Следовательно, те задания, у которых значения отрицательны, следует исключить. Также дискриминативность можно определить и с помощью точечного бисериального коэффициента корреляции (они вычислялись по формуле (1)). Об этом говорится в источниках [7, 17]. В этом случае задания с коэффициентом дискриминативности меньше 0,2 также следует исключить из теста. Результаты исследования и обсуждение. Объектом исследования является тест по теме «Ряды» из курса «Математика». Этот тест является средством для текущего контроля знаний студентов I курса Самарского государственного технического университета. Это тест закрытого типа, он состоит из 9 заданий (примерный набор задач представлен в табл. 1). Для каждого задания предлагаются 5 вариантов ответов, среди которых только один правильный. Как и в случае при исследовании надежности, выборка состояла из 235 работ студентов нефтетехнологического факультета, часть которых (33 работы) были исключены из выборки, вследствие того что не несли никакой информации об уровне качества теста (это работы студентов, которые либо не решили ни одной задачи, либо, наоборот, выполнили все задания теста). Рассчитаем требуемые величины для определения коэффициента валидности. По формуле (1) вычислим для данной выборке значения точечных бисериальных коэффициентов корреляции. Соответствующие результаты расчетов, необходимые для этого, сведены в таблицу 2. Таблица 1. Тест по теме «Ряды» (Test on "Rows") № Задания 1. Дан ряд .Указать все верные утверждения. А) Если ряд сходится, то ; Б) Если , то ряд сходится; В) Если , то ряд расходится. Ответы: 1) А, В; 2) А, Б, В; 3) А, Б; 4) Б, В; 5) А 2. Найти сумму ряда . Ответы: 1) ; 2) ; 3) 0; 4) ; 5) 3. Определить, какие ряды сходятся: А) Б) В) Г) Ответы: 1) А, Б; 2) А, Б, В; 3) Г; 4) А, Г; 5) А, В 4. Исследовать на сходимость ряды: А) Б) . Ответы: 1) А сх. усл., Б сх. абс.; 2) А сх. абс., Б расх.; 3) А расх., Б сх. абс.; 4) А сх. усл., Б сх. усл.; 5) А сх. абс., Б сх. усл. 5. Найти радиус сходимости степенного ряда . Ответы: 1) 2; 2) 4; 3) 1; 4) ; 5) 6. Найти область сходимости функционального ряда . Ответы: 1) ; 2) ; 3) ; 4) ; 5) 7. Разложить в ряд Маклорена функцию . Ответы: 1) ; 2) ; 3) ; 4) ; 5) 8. Функция разложена на отрезке в тригонометрический ряд Фурье. Этот ряд в точке сходится к Ответы: 1) 0; 2) 3; 3) 4; 4) 1; 5) 2 9. Разложить в ряд Фурье по косинусам функцию Ответы: 1) ; 2) ; 3) ; 4) ; 5) Таблица 2. Точечные бисериальные коэффициенты корреляции и данные, необходимые для их вычисления (Point Biserial Correlation Coefficients and the data needed to calculate them) Номер задания A2 A7 A5 A3 A4 A1 A8 A6 A9 n1 142 135 130 116 107 100 97 67 52 n0 60 67 72 86 95 102 105 135 150 5,35 5,56 5,61 5,80 5,84 5,4 6,06 6,04 6,5 3,12 2,9 3,01 3,17 3,38 3,1 3,41 4,01 4,05 0,46 0,57 0,56 0,59 0,56 0,52 0,6 0,44 0,49 Характеристики, которые приведены в данной таблице, описаны в разделе «Методы». Величины точечных бисериальных коэффициентов корреляции находятся в последней строке. Согласно рекомендациям экспертов [2, 16] необходимо, чтобы эти коэффициенты были не менее 0,5. Как видно из таблицы, коэффициенты заданий № 2, 6, 9 не удовлетворяют этому условию. По формуле (2) определим общий коэффициент валидности теста rpb = 0,53. В соответствии с мнениями экспертов [2, 16] данный тест имеет высокий коэффициент валидности. Рассмотрим следующую характеристику - дискриминативность. Значения индекса дискриминативности , вычисленные по формуле (3) для исследуемого теста и необходимые данные для их вычисления, находятся таблице 3. Таблица 3. Индексы дискриминативности и данные, необходимые для их вычисления (Discrimination indices and the data needed to calculate them) Номер задания A2 A7 A5 A3 A4 A1 A8 A6 A9 0,96 0,93 0,93 0,87 0,87 0,74 0,89 0,67 0,57 0,39 0,3 0,22 0,17 0,15 0,33 0,13 0,17 0,06 0,57 0,63 0,7 0,7 0,72 0,41 0,76 0,5 0,52 Характеристики, представленные в таблице, описаны в разделе «Методы». Анализируя табл. 3 можно заметить, что для всех заданий положительные и находятся в интервале от 0,41 до 0,76, что говорит о том, что тест «правильно» разделяет студентов на «сильных» и «слабых», и более подготовленные студенты справляются с каждым заданием лучше, чем те, которые не совсем разбираются в данной теме. Среднее значение индекса дискриминативности равно 0,61, что говорит о том, что исследуемый тест обладает хорошим дифференцирующим эффектом. Оценим дискриминативность с помощью точечного бисериального коэффициента корреляции . Все значения этих коэффициентов (последняя строка табл. 2) больше 0,2. Значит, нет необходимости исключать задания из теста. Заключение. Итак, на основании исследований качества теста по высшей математике «Ряды», которые проводились в данной статье и статье [10], можно сделать следующие выводы: 1) данный тест имеет высокое значение общего коэффициента валидности. Для анализа коэффициента валидности отдельных заданий вычислялись точечные бисериальные коэффициенты корреляции, которые показали, что не все задания соответствуют требованиям экспертов. В первой части исследований говорилось о том, что необходимо либо изменить второе и девятое задания, либо заменить их другими. Аналогичный вывод можно сделать и в результате анализа величин для этих заданий; 2) рассчитанные значения коэффициентов дискриминативности показали, что их величины для всех заданий теста положительны и достаточно высоки, что соответствует необходимым требованиям; 3) также в первой части исследования для повышения качества теста было предложено увеличить количество заданий [10]. Итак, в результате проведенного исследования можно сделать вывод, что данный тест необходимо откорректировать для применения его в качестве инструмента измерения уровня знаний студентов по теме «Ряды» курса «Математика».
×

About the authors

L. V Limanova

Samara State Technical University

Email: llv-1@mail.ru
Samara, Russia

N. V Popov

Samara State Medical University of the Ministry of Health of Russia

Email: 2750668@mail.ru
Samara, Russia

References

  1. Аванесов, В. С. Основные понятия педагогической тестологии // Научные проблемы тестового контроля знаний: Тез. докл. участников школы-семинара. - М., 2005.
  2. Аванесов, В. С. Тесты: история и теория // Управление школой. - 1999. - №12.
  3. Анастази, А., Урбина, С. Психологическое тестирование. - Спб.: Питер, 2006. - 688 с.
  4. Ащепкова, Л. Я. Материалы к семинару по обработке результатов тестирования / Региональный центр проблем качества при ДВГУ. - Владивосток, 2001.
  5. Буров, А. В. Применение методов статистической обработки данных к оценке валидности тестовых материалов единого государственного экзамена // Научно-методический электронный журнал «Концепт». - 2014. - № 1 (январь). - С. 81-85. - URL: http://e-koncept.ru/2014/14017.htm (дата обращения 20.01.2021).
  6. Векслер, В. А., Рейдель, Л. Б. Особенности определения валидности педагогического теста // NovaInfo («НоваИнфор»), 2015, №36-1.
  7. Звонников, В. И., Челышкова, М. Б. Современные средства оценивания результатов обучения. - М.: Академия, 2007. - 224 с.
  8. Карпенко, А. П., Домников, А. С., Белоус, В. В. Тестовый метод контроля качества обучения и критерии качества образовательных тестов // Журнал. Наука и образование: электронное научно-техническое издание. - Выпуск №04/2011. - 28 с.
  9. Ким В.С. Тестирование учебных достижений. - Уссурийск: Изд-во УГПИ, 2007. - 214 с.
  10. Лиманова, Л. В. Анализ надежности педагогического теста курса математики по теме «Ряды» // Вестник СамГТУ, Серия «Психолого-педагогические науки» № 4(36)-2017. - Самара, Самар. гос. техн. ун-т, 2017. - С. 90-98.
  11. Лиманова, Л. В., Муратова, Л. А. Анализ качества теста из курса высшей математики по теме «Линейная алгебра, аналитическая геометрия» // Вестник СамГТУ, Серия «Психолого-педагогические науки» № 2(26)-2015. - Самара, Самар. гос. техн. ун-т, 2015. - С. 113-122.
  12. Лиманова, Л. В., Муратова, Л. А. Статистический анализ качества теста из курса высшей математики по теме «Пределы. Производные» // Вестник СамГТУ, Серия «Психолого-педагогические науки» № 1(25)-2015. - Самара, Самар. гос. техн. ун-т, 2015. - С. 143-151.
  13. Майоров, А. Н. Теория и практика создания тестов для системы образования. - М.: «Интеллект-центр», 2001. - 296 с.
  14. Муратова, Л. А. Валидность и дискриминативность при исследовании и оценке качества теста «Интегральное исчисление» // Научный альманах, 2016, № 6-1(19). - С. 323-326.
  15. Олейник, Н. М. Тест как инструмент измерения уровня знаний и трудности заданий в современной технологии обучения. Учебное пособие: Донецк, ДонГУ, 1991. - 168 с.
  16. Психологическая диагностика. Учебное пособие / Под ред. К.М. Гуревича и Е.М. Борисовой. - М.: Изд-во УРАО, 1997. - 304 c. - URL: http://www.psi-test.ru/pub/psy-diagnos/3-2.html (дата обращения 20.01.2021).
  17. Челышкова, М. Б. Теория и практика конструирования педагогических тестов. - M.: Логос, 2002. - 432 c.
  18. Crocker L., Algina James. Introduction to Classical and Modern Test Theory. New-York: Harcourt Brace Jovanovich, 1986.
  19. Lord F.M., Novick M. Statistical Theories of Mental Test Scoires. Addison-Westley Publ. Co. - Reading, Mass. 1968. - 560 p.
  20. Richard H.Williams, Donald W.Zimmerman, Bruno D.Zumbo, Donald Ross. Charles Spearman: British Behavioral Scientist. // Human Nature Review, 2003, N3. - Р. 114-118.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2021 Limanova L.V., Popov N.V.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.

This website uses cookies

You consent to our cookies if you continue to use our website.

About Cookies