2. Оценка качества тестов - Центр Тестовых Технологий

advertisement
2. ОЦЕНКА КАЧЕСТВА ТЕСТА (по обществознанию 4 этап)
Качество теста по обществознанию оценивалось по современной методике, с
использованием Item Response Theory (IRT).
Объективность результатов тестирования во многом зависит от качества тестовых
материалов. Поэтому вопрос о качестве тестов является одним из главных в тестовых
технологиях.
Для оценки качества тестов предлагается алгоритм, в основе которого лежит
«методика измерения на линейной шкале латентных переменных» [3,4].
Важными достоинствами этой методики являются следующие.
1. Отсутствует фактор субъективности, поскольку нет необходимости в
использовании экспертных оценок.
2. Необходимой процедурой этой методики является оценка совместимости
используемых показателей, т.е. действительно ли все показатели измеряют одну и ту же
латентную переменную - эффективность деятельности объекта.
3. Латентные переменные (уровень подготовленности учащихся и уровень
трудности тестовых заданий) измеряется на линейной шкале, что позволяет использовать
широкий класс статистических процедур для решения задач исследования качества
измерительных материалов.
Данная методика использует однопараметрическую модель Раша.
Обработка матрицы результатов тестирования для совокупности объектов ведется с
использованием диалоговой системы RUMM (Rasch Unidimensional Measurement Model),
разработанной под руководством профессора Мердокского университета (Австралия)
Дэвида Эндрича [3].
Предварительное тестирование проходили 5839 человек из различных школ города
Курска и области. Рассмотрим общие результаты оценки качества измерительных
материалов.
Анализ качества заданий проводился по следующим аспектам:
 выявление и исключение из теста экстремальных заданий;
 совместимость набора тестовых заданий;
 оценка дифференцирующей способности теста;
 соответствие трудности предложенного теста уровню подготовленности студентов;
 равномерность распределения заданий по трудности;
 диапазоны варьирования уровня подготовленности учащихся и трудности тестовых
заданий;
 соответствие тестового задания модели измерения;
В исследуемом случае среди 40 заданий экстремальных не оказалось: нет заданий,
которые решили бы все школьники, и нет заданий, которые не решили все школьники.
Совместимость данных тестирования модели Раша определяется по критерию
Пирсона. Результаты анализа, полученные с помощью диалоговой системы RUMM,
показали удовлетворительную совместимость результатов тестирования модели
измерения. Это позволяет использовать результаты тестирования как для измерения
уровня подготовленности учащихся, так и для измерения уровня трудности заданий.
С точки зрения дифференцирующей способности вся система заданий как
измеритель уровня подготовленности оценивается на Excellent – превосходно по
пятибалльной шкале (Excellent – превосходно, Good – хорошо, Reasonable - разумно, Low плохо, Too Low – очень плохо).
Заметим, что индекс сепарабельности (Separation Index), который характеризует
степень дифференцирования школьников достаточно высокий, он равен 0,88.
Определим соответствие трудности измерительных материалов уровню
подготовленности школьников.
На рис.2.1 представлены распределения уровня подготовленности школьников
(вверху) и оценок трудности заданий (внизу).
Рис.2.1. Соответствие между уровнем подготовленности школьников и трудностью
тестовых заданий (шаг 0,25 логит)
На рис.2.1 по оси абсцисс откладываются значения латентных переменных (в
логитах) уровня подготовленности школьников и уровня трудности тестовых заданий, т.е.
на одной и той же шкале откладываются значения двух латентных переменных. В этом
состоит особенность использования модели Раша. По оси ординат с левой стороны
указывается число испытуемых (вверху) и число заданий (внизу). С правой стороны –
соответствующие величины в процентах.
В идеальном случае гистограмма распределения трудностей заданий должна быть
близка к равномерному закону распределения. Это обозначает, что представленный набор
тестовых заданий с одинаковой точность позволяет оценить уровень подготовленности
школьников на всем диапазоне изменения трудностей тестовых заданий. В нашем случае
можно считать, что распределение трудностей заданий близко к равномерному закону.
Однако, отметим тот факт, что значения трудностей заполняют весь диапазон их
изменений. Средняя трудность заданий не должна отличаться от среднего уровня
подготовленности школьников более чем на 0,5 логит. В нашем случае средний уровень
подготовленности школьников на 0,29 логит выше среднего уровня трудности заданий. С
этой точки зрения, что трудность теста хорошо соответствует уровню подготовленности
учащихся.
Диапазон изменения уровня подготовленности школьников составил: от -4,25 до
2,24 логит. Таким образом, длина всего интервала составила 6,5 логит. Этот факт еще раз
подтверждает высокую дифференцирующую способность теста.
Уровень трудности заданий изменяется от –1,59 до 1,03. Таким образом, длина
всего интервала составила 2,62 логит. Исходя из гистограммы, для улучшения
характеристик теста, можно было бы рекомендовать несколько скорректировать тест,
добавив задания с трудностью, лежащее в диапазоне от 1,25 до 2,25 логит.
На рис.2.2 и рис.2.3 показаны примеры анализа совместимости тестового задания
№2 со всем набором тестовых заданий. Точками на графике показаны результаты
школьников, которые разделены на пять категорий по уровню подготовленности.
Очевидно, что результаты всех категорий школьников практически лежат на
теоретической кривой (на характеристической кривой для тестового задания №2). С этой
позиции данное тестовое задание является достаточно хорошим. Необходимо исследовать
распределение дистракторов.
Рис.2.2. Характеристическая кривая для тестового задания №2.
Рис.2.3. Характеристическая кривая для тестового задания №35.
Задание №35 является более сложным по сравнению с заданием №2 и в меньшей
степени соответствует общему набору тестовых заданий. Отметим, что самые слабые
учащиеся отвечают с вероятностью большей теоретической, в то время как, самые
сильные – с вероятностью меньшей теоретически ожидаемой. Исследовав работу
дистракторов данного задания, окончательно принимается решение о коррекции данного
задания. Аналогичным образом проанализированы все остальные тестовые задания.
Замечание. Таким образом, тест по обществознанию четвертого этапа имеет
достаточно высокие статистические характеристики и, тем не менее, его можно было бы
еще совершенствовать.
Задания части "С" проверялись учителями предметниками и, невзирая на
соответствующие критерии по оценки заданий "С", баллы за задания "С" оказались в
большинстве случаев завышены. Это подтверждается и тем фактом, что во многих
случаях корреляционная связь между общим тестовым баллом и баллами за задания "С"
низкая R =0,86. Т.е. при невысоких результатах за задания частей "А" и "В" за задания
"С" результаты высокие!
Значения таких коэффициентов корреляции для каждого ОУ приведены в
соответствующих документа.
Замечание. Таким образом, было проведено исследование всех заданий формы
"А" первого варианта.
Процесс построения "хорошего" теста является достаточно сложным и длительным
и невозможен без владения современной методикой обработки результатов тестирования!
Ранжирование заданий по трудности
Ниже приведена таблица, в которой тестовые задания ранжированы по трудности,
рассчитанной в логитах (в порядке уменьшения трудности)
Номер
ТЗ
37
18
39
36
30
7
24
15
6
27
38
34
19
28
35
16
5
33
29
3
13
20
11
12
26
22
32
21
10
2
1
25
31
17
8
4
Логит
1,032
0,893
0,893
0,827
0,762
0,751
0,679
0,635
0,593
0,558
0,479
0,46
0,441
0,43
0,389
0,345
0,31
0,246
0,166
0,125
0,124
0,025
-0,025
-0,046
-0,219
-0,233
-0,283
-0,294
-0,361
-0,441
-0,521
-0,643
-0,669
-0,909
-1,038
-1,18
Ср.кв.
отклон.
0,04
0,081
0,028
0,038
0,045
0,08
0,08
0,079
0,079
0,043
0,046
0,038
0,079
0,043
0,051
0,079
0,079
0,037
0,043
0,079
0,079
0,079
0,079
0,08
0,081
0,081
0,056
0,081
0,082
0,083
0,084
0,086
0,057
0,09
0,093
0,097
Кр.знач.
Хи-кв
0,187107
0,228306
0,182382
0,059788
0,089932
0,027107
0,007038
0,207487
0,786079
0
0,328183
0,548717
0,027943
0,784659
0,001316
0,343505
0,900344
0,072178
0,064519
0,002872
0,130746
0,617886
0,171524
0,000433
0,572188
0,551758
0,019001
0,000006
0,000001
0,040151
0,000945
0,000006
0,089422
0,042784
0
0
9
23
14
-1,253
-1,454
-1,593
0,099
0,105
0,109
0
0
0,219405
Таким образом, задания А37, 18, 39, 36, 30, 7 являются самыми трудными , задания
А14, 23,9, 4, 8, 17 – самыми легкими.
Литература
1. Дроздов В.И., Бойков А.В., Карачевцева Л.В. и др. Практическая квалиметрия в
управлении качеством образования. Оценка эффективности образовательных
инноваций и технологий. Пятая всероссийская научно-практическая конференция.
Славянск-на-Кубани. 2003. -с.107-112.
2. Дроздов В.И. , Новиков Ю.М., А.И. Пыхтин. Входной уровень подготовленности
студентов первого курса по результатам ЕГЭ-2008 (портрет первокурсника - 2008) /
Курск. гос. техн. ун-т. Курск, 2008. 36 с.
3. Getting Started RUMM 2010. Rasch Unidimensional Measurement Models.- Pert:
RUMM Laboratory Ltd. 2001. - 255 p.
4. Дроздов В.И., Маслак А.А. Исследование качества тестов по математике Интернетэкзамена в сфере профессионального образования. Курск. гос. техн. ун-т. Курск,
2007. -52 с.
5. Челышкова М.Б. Теория и практика конструирования педагогических тестов.
Учебное пособие. –М.: Логос, 2002. -432 с.:ил.
6. http://www1.ege.edu.ru/content/yien/431/166.
Директор
Центра тестовых технологий КурскГТУ, проф. Дроздов В.И.
Download