Влияние характеристик образовательной среды на результаты обучения в начальной школе (на основе SAM - Student Achievement Monitoring) Карданова Е.Ю. НИУ ВШЭ 2013 Цели презентации • Рассказать про SAM • Представить психометрические характеристики тестовых заданий и тестов • Представить свидетельства валидности • Описать методику оценивания и шкалирования участников тестирования SAM • Проанализировать факторы, влияющие на результаты Цель SAM: оценивание предметных компетенций учащихся начальной школы по математике и русскому языку Отличительная черта SAM : модель оценивания основана на теории Л. Выготского и предполагает оценивание компетенций учащихся на трех базовых уровнях: формальном, рефлексивном и функциональном Особенности инструмента SAM: • SAM выполняет две функции: а) измерения учебной успешности и б) диагностики уровня освоения материала • Для каждого раздела учебного предмета разрабатываются задачи, соответствующие критериям трех уровней (формального, рефлексивного и функционального) • Каждый такой блок выполняет функцию детектора, определяющего качественный уровень усвоения соответствующего раздела учебной программы • Разработка блоков опирается на систему индикаторов (типологию задач), соответствующую обобщенным критериям уровней освоения способа действия Реализация теоретической модели SAM • • • • • • В рамках модели SAM разработаны тесты по двум предметам – математике и русскому языку – имеющие общую структуру Тесты рассчитаны на выпускников начальной школы и могут выполняться учащимися 4-го и 5-го классов. Тест включает основные разделы содержания, представленные в программах для начальной школы Структурной единицей теста является блок из трех заданий (1-го, 2-го и 3-го уровня), соответствующий одному разделу предметного содержания. Задачи предъявляются блоками. Используются задания открытой формы с кратким ответом, закрытой с выбором одного ответа из 4-5 предложенных, задания на установление соответствия, требующие построений и другие. Для оценивания заданий используется дихотомическая оценка: за правильный ответ ученик получает 1 балл, за неправильный ответ (или отсутствие ответа) – 0 баллов. Структура теста Проверка качества: апробационное тестирование • Цель – проверка функционирования заданий (анализ тестовых заданий) и всего теста в целом, исследование системообразующих свойств теста, оценивание его надежности и валидности Характеристики заданий в классической теории тестирования • Трудность задания (коэффициент решаемости): доля испытуемых, выполнивших задание верно (получивших 1 балл за выполнение задания для дихотомических заданий определяется) • Дискриминативность (дифференцирующая способность задания): способность задания различать испытуемых с различным уровнем подготовки. Связь между надежностью и валидностью Надежность – характеристика точности и устойчивости результатов оценки Валидность – характеристика пригодности оценочной информации для принятия правильных решений на ее основе Анализ данных апробации (весна 2012 г.) (КТТ, Математика, бланковая форма, более 5000 учащихся) Число испытуемых Средний первичный балл Стандартное отклонение Коэффициент асимметрии Коэффициент эксцесса Средний коэффициент решаемости Средний индекс дискриминативности Средний скор. коэф. точ.-бис. корреляции Показатель надежности (KR20) Стандартная ошибка измерения 1 вариант 2 вариант 3018 26 8.37 -0.21 -0.56 0.59 0.44 0.39 0.90 2.61 2941 27 8.55 -0.37 -0.36 0.61 0.46 0.39 0.91 2.61 • все задания имеют удовлетворительные показатели • коэффициенты решаемости заданий находятся в промежутке от 0,16 до 0,98 • 4 задания 1-го уровня обладают низкой дискриминативностью (это объясняется их легкостью - эти задания выполняют более 90% испытуемых). М-С-01-1-1 М-С-01-1-2 М-С-01-1-3 М-С-03-1-1 М-С-03-1-2 М-С-03-1-3 М-M-02-1-1 М-М-02-1-2 М-М-02-1-3 М-М-03-1-1 М-М-03-1-2 М-М-03-1-3 М-М-06-1-1 М-М-06-1-2 М-М-06-1-3 М-М-11-1-1 М-М-11-1-2 М-М-11-1-3 М-R-02-1-1 М-R-02-1-2 М-R-02-1-3 М-R-05-1-1 М-R-05-1-2 М-R-05-1-3 М-G-01-1-1 М-G-01-1-2 М-G-01-1-3 М-D-03-1-1 М-D-03-1-2 М-D-03-1-3 М-D-05-1-1 М-D-05-1-2 М-D-05-1-3 М-D-08-1-1 М-D-08-1-2 М-D-08-1-3 М-R-03-1-1 М-R-03-1-2 М-R-03-1-3 М-С-05-1-1 М-С-05-1-2 М-С-05-1-3 М-М-08-1-1 М-М-08-1-2 М-М-08-1-3 Иерархия заданий по уровню трудности (математика) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Задания трех уровней, относящиеся к одному блоку, должны образовывать иерархию по трудности Коэффициенты решаемости тестовых заданий в зависимости от их уровня (математика) Уровень трудности Кол-во заданий Среднее значение Ст. отклон. Миним. значение Максим. значение Задания 1-го уровня Задания 2-го уровня 15 15 0,86 0,60 0,07 0,09 0,73 0,46 0,98 0,73 Задания 3-го уровня 15 0,30 0,09 0,16 0,45 Всего 45 0,59 0,25 0,16 0,98 Содержательная область Числа и вычисления Измерение величин Закономерности Зависимости Элементы геометрии Весь тест 1-й уровень 2-й уровень 3-й уровень 0,61 0,59 0,59 0,58 0,51 0,91 0,85 0,86 0,85 0,82 0,64 0,58 0,61 0,64 0,49 0,29 0,35 0,29 0,25 0,20 Совместное распределение коэффициентов решаемости и показателей дискриминативности (математика, вариант 1) Анализ дистракторов заданий закрытой формы с выбором ответа Задание М-М-03-1-2 Варианты ответов Распределение ответов испытуемых Коэффициент корреляции А Б* В Г 11% -0,22 66% 0,54 7% -0,29 6% -0,23 Задание L- F-2-02-1-2 Варианты ответов Распределение ответов испытуемых Коэффициент корреляции А Б В* Г 17% -0,09 8% -0,29 61% 0,25 12% 0,01 Анализ в современной теории тестирования IRT • тесты могут быть признаны существенно одномерными • тесты оптимальны по трудности и хорошо центрированы относительно контингента тестируемых • абсолютное большинство заданий демонстрируют хорошие психометрические показатели и хорошее согласие с используемой моделью измерения Таким образом, тесты SAM могут быть признаны качественными измерительными инструментами математической и языковой компетенций учащихся начальной школы. Карта переменных (математика, вариант 1) Характеристические кривые двух заданий Задание 2-го уровня, средней трудности Задание очень трудное, 3-го уровня (выполнили 19% участников тестирования) Выравнивание вариантов • Метод общих заданий • Процедура: отдельная калибровка с фиксацией общих параметров и отражением всех параметров на общей шкале Обоснование валидности SAM: основные направления • Валидность по содержанию, • Валидность конструкта • Критериальная валидность (текущая и прогностическая) Характеристика различных показателей валидности • показатель валидности по содержанию характеризует меру адекватности тестовых материалов проверяемой компетенции • показатель валидности конструкта устанавливает меру согласованности результатов тестирования с психологической моделью тестируемой способности • показатель критериальной валидности фиксирует меру согласованности результатов тестирования с известными объективными критериями Валидность конструкта • В модели SAM основным конструктом, подлежащим верификации, является трехуровневая таксономия освоения учебного содержания, вписанная в возрастной контекст. • Этот конструкт связан как минимум с двумя гипотетическими утверждениями, требующими проверки: 1) Задания трех уровней, относящиеся к одному блоку и отвечающие теоретически заданным критериям трех уровней, должны обнаруживать соответствующую иерархию по трудности. 2) В начальной школе предметный материал в норме может и должен усваиваться на втором (рефлексивном) уровне, т.е. на уровне понимания. Освоение этого материала на третьем (функциональном) уровне может и должно происходить в рамках основной школы. Проверка второй гипотезы • Исследование проводилось в 2011-2012 гг. • В 2011 г. тесты по математике и русскому языку были предложены учащимся 4-х возрастных групп – 4-х, 6-х, 8-х и 10-х классов (тестировались по две параллели в каждой школе). Через год, в 2012 г. те же тесты были предложены тем же учащимся, которые в тот момент были учащимися 5-х, 7-х, 9х и 11-х классов. Тестирование проходило весной, в конце учебного года • Выборка включала около 100 человек в каждой параллели Оценивание участников тестирования: ступени мастерства • Ниже первой ступени – не освоен даже первый: учащийся выполняет менее 50% заданий 1-го уровня • Первая ступень – освоен первый уровень: учащийся выполняет не менее 50% заданий 1-го уровня • Вторая ступень – освоен второй уровень: учащийся выполняет не менее 50% заданий 2-го уровня • Третья ступень – освоен третий уровень: учащийся выполняет не менее 50% заданий 3-го уровня Распределение участников тестирования по ступеням достижений в зависимости от класса (математика) 4 grade 16 5 grade 64 10 6 grade 18 60 7 30 55 38 Level 1 7 grade 4 44 53 Level 2 Level 3 8 grade 1 9 grade 29 2 10 grade 1 11 grade 1 0% 70 24 74 17 82 15 10% 84 20% 30% 40% 50% 60% 70% 80% 90% 100% Распределение участников тестирования по ступеням достижений в зависимости от класса (русский язык) Исследование прогностической валидности SAM • Исследование проводилось на базе данных апробации тестов SAM в одном из регионов РФ весной 2011 г. • Общий объем выборки составил 941 человек из 12 школ. • Тестирование проходило в конце 4-го класса, т.е. по окончании начальной школы. • Были собраны оценки по математике этих же учащихся в 5-м классе (т.е. через год после проведения тестирования). • Распределение участников тестирования по ступеням достижений (математика) Распределение оценок учащихся в зависимости от ступени достижений (математика) Распределение учащихся по ступеням достижений в зависимости от оценки (математика) Коэффициенты корреляции между тестовым баллом учащихся и их школьными оценками, а также между ступенью, к которой был отнесен учащийся, и его школьной оценкой соответственно равны 0,6 и 0,56. Оценивание участников тестирования • Нормативно-ориентированный подход позволяет сравнить результаты различных участников между собой, а также с ранее полученными результатами. С этой целью каждому участнику тестирования в результате математической обработки результатов присваивается интегральный тестовый балл. Тестовые баллы всех участников тестирования находятся на единой шкале, независимо от времени прохождения теста и конкретного набора выполненных заданий. • Критериально-ориентированный подход – обеспечивает возможность качественной оценки усвоения предметного содержания через указание ведущего типа ориентировки в решении задач. Для его реализации был разработан ступенчатый вариант шкалы достижений, основанный на интегральных баллах участников тестирования и пороговых значениях, делящих всех участников на группы, соответствующие различным качественным ступеням достижений . Разработка методики оценивания участников тестирования • Выбор модели для оценивания участников тестирования • Выбор базовой выборки для создания единой шкалы представления результатов тестирования • Создание единой шкалы для представления результатов тестирования • Установление пороговых оценок (benchmarks) и интерпретация отдельных уровней достижений • Выравнивание результатов последующих тестирований (нанесение всех результатов на созданную ранее единую шкалу) • Представление результатов тестирования Создание единой шкалы для представления результатов тестирования • Специальное исследование (объем выборки 939 учащихся) • Получение оценок мер испытуемых в логитах • Выбор подходящего линейного преобразования для перехода на 1000-балльную шкалу • Все результаты будущих тестирований будут преобразовываться на эту шкалу с помощью того же линейного преобразования Шкала математической компетенции Ступень 3 Ученик A 570 Задания 3-го уровня Ступень 2 Ученик B 500 Задания 2-го уровня Ступень1 Ученик C 430 Задания 1-го уровня Ниже 1-ой ступени Ученик D Ожидается, что ученик А выполнит, по крайней мере, 50% заданий 3-го уровня Ожидается, что ученик В выполнит, по крайней мере, 50% заданий 2-го уровня Ожидается, что ученик С выполнит, по крайней мере, 50% заданий 1-го уровня Ожидается, что ученик D не сможет выполнить даже 50% заданий 1-го уровня Интерпретация пороговых оценок Пороги: 430 (граница между 0 и 1 ступенями) 500 (граница между 1 и 2 ступенями) 570 (граница между 1 и 2 ступенями) Распределение участников апробации 2012г. по ступеням достижений (математика, около 5000 человек) • В настоящее время установлены следующие пороговые оценки для математики: переход со ступени 0 на ступень 1 – 430 баллов; со ступени 1 на ступень 2 – 500 баллов; со ступени 2 на ступень 3 – 570 баллов. Различная степень достижения ступеней • • • • Степень достижения ступени может быть различной: учащийся может только-только достигнуть ступени, «зацепиться» за нее, а может уже ее освоить, т.е. стоять на ней уверенно. Ступень считается достигнутой, если, по крайней мере, 50% заданий данного уровня выполнены правильно. Будем считать, что ступень не только достигнута, но и освоена, если правильно выполнены не менее 75% заданий данного уровня. Такая интерпретация результатов тестирования позволит выделить учащихся, уверенно стоящих на ступени и готовых к переходу на следующую ступень. Распределение участников тестирования по ступеням (математика) Ступень Всего Процент Степень человек освоения 1725 29 2974 50 1124 19 1 2 3 достиг освоил достиг освоил достиг освоил Всего человек 665 1060 1864 1110 760 364 Процент от общего 11 18 32 18 13 6 Процент от ступени 39 61 63 37 68 32 Первичный анализ данных тестирования - был проведен на базе данных апробации тестов SAM в одном из регионов РФ весной 2012 г. - были протестированы практически все учащиеся 4-го класса начальной школы данного региона: общий объем выборки составил 4406 человек по математике и 4385 по русскому языку. Распределение учащихся по ступеням достижений в зависимости от предмета Профиль образовательных результатов по математике для данной выборки учащихся (средние проценты решенных задач в зависимости от уровня). Нормы выполнения теста • Среднестатистическая групповая норма – средний по школам показатель выполнения теста и его стандартное отклонение Среднее значение Математика 517 Стандартное отклонение 34 Русский язык 499 36 • Социокультурная норма – средний показатель группы школ-лидеров Тестовый балл Математика 561 Русский язык 543 Сравнение показателей школ РУССКИЙ ЯЗЫК Descriptives тестовый балл МАТЕМАТИКА тестовый балл РУССКИЙ МАТЕМАТИКА социокультурная норма остальные школы социокультурная норма остальные школы 558 507 568 504 Std. Deviation Minimum Maximum Mean 29,8 491,5 639,1 31,1 429,1 584,0 20,7 543,0 639,1 27,0 429,1 542,3 549,9 483,3 541,2 486,2 Std. Deviation Minimum Maximum 16,6 532,6 606,1 30,3 338,0 531,8 25,9 480,0 606,1 33,8 338,0 576,7 Mean Распределение учащихся разных школ по ступеням достижений (математика) Некоторые результаты исследования : • Результат SAM статистически значимо зависит от типа населенного пункта: учащиеся городов и поселков выполняют тест лучше, чем учащиеся сельской местности • Результат SAM статистически значимо зависит от пола участника: девочки выполняют тест лучше, чем мальчики • Результат SAM статистически значимо зависит от типа учебного заведения: учащиеся гимназий выполняют тест лучше, чем учащиеся общеобразовательных школ Сравнение достижений учащихся различных классов одной школы • Русский язык (вверху) • Математика (справа) Исследование характеристик образовательной среды Выборка: Один регион РФ весна 2012 Учащиеся 4-го класса: Математика - 4406 Русский язык - 4385 Размер класса и образовательные результаты Распределение учащихся по ступеням (в %) 60 50 40 30 20 10 large classes small classes <11 students below 1 * 1 level 2 level 3 level** * Asymp. Sig. (2-tailed) <0.05 ** Asymp. Sig. (2-tailed) < 0.01 • Малые классы более однородны – больший процент учащихся на ступенях 1 и 2 • Большие классы имеют больший процент в крайних категориях Педагогические подходы к преподаванию Traditional Задания KR-20 надежность Среднее значение Станд. отклонение Конструктивисткий 22 0,82 1,54 1,075 Традиционный 16 0,69 -,23 ,667 Correlation -,204** is significant at the 0.05 (2tailed) Constructivist Педагогические подходы и образовательные результаты Pearson Correlation Test score Test score Below 1 level 2 level 3 level Russian language Mathematics 1 level ** Constructivist ,235 Traditional -,163 * ** ** ,256 -,117 -,226 -,110 ,006 * ,138 ** ,065 ,294 -,079 -,126 **. Correlation is significant at the 0.01 (2-tailed) *. Correlation is significant at the 0.05 (2-tailed) • Конструктивистский подход ассоциируется с лучшими образовательными результатами • Традиционный подход имет отрицательную связь или не имеет связи с результатами Кластеризация классов Размер кластера 100 80 60 40 20 0 Ступени внутри кластеров 20 78 75 below 1 15 52 23 1 level 10 2 level 5 Small classes 1 2 3 level 3 Small classes Сравнение кластеров Кластер 3 2 1 Подход > Constructivist, < Traditional > Constructivist > Constructivist > Constructivist = Кластер 2 1 Малые классы 1 Малые классы = Малые классы *. The mean difference is significant at the 0.05 level 1 2 3 Благодарю за внимание! Карданова Елена Юрьевна: [email protected]