Компьютерное тестирование Wim J. van der Linden • Cees A.W. Glas (Eds.) Elements of Adaptive Testing Springer, 2010 Преимущества компьютерного тестирования по сравнению с традиционными формами тестирования: - учащиеся могут проходить тестирование, находясь дома (очень хорошо для самоподготовки); - бланковое тестирование требует гораздо большей подготовки к проведению (например, печать материалов), и поэтому более затратно; - тест может быть проверен немедленно, чем обеспечивается обратная связь с испытуемым; - как правило, автоматически генерируется матрица тестирования, что облегчает анализ заданий и испытуемых, также иногда возможно автоматическое формирование отчетов; - обеспечение большей степени секретности (отсутствие бумаг, которые можно скопировать), более того, в компьютере содержатся не сами тесты, а банки заданий, из которых формируются варианты; - большее разнообразие заданий может быть включено в тест (например, можно использовать больше графических заданий, использовать различные цвета, анимацию, видео, звук); - компьютерное тестирование позволяет использовать банки заданий и формировать различные варианты для разных испытуемых (поэтому отсутствует списывание); - есть возможность автоматической фиксации времени выполнения каждого задания, что может быть полезно (как дополнительная информация); - позволяет реализовать адаптивное тестирование. Следует отметить, что компьютерное тестирование отличается от бланкового по процедуре администрирования. Поэтому на результаты тестирования могут оказывать влияние различные дополнительные факторы, которых нет при бланковом тестировании. К таким факторам относят, например, уровень владения компьютером у участника тестирования. Далее, в общепринятом бланковом тестировании испытуемый может изучить все задания, пропустить какие-либо из них, возвратиться к ним позже и т.д. Невозможность посмотреть весь тест целиком, оценить его общую трудность и трудность того, что осталось выполнить, является дополнительным фактором тревожности ученика. Более того, в компьютерном тестировании, как правило, невозможно вернуться к решенным заданиям и исправить ответы. Иногда эта опция предусмотрена, но ввиду ограничения времени тестирования, у испытуемого может не хватить на это времени. Также компьютерная форма иногда может ухудшить восприятие задания (например, в заданиях, основой которых является отрывок текста, который может не поместиться на экране компьютера). Поэтому общепринято, что результаты бланкового и компьютерного тестирования (по одному и тому же тесту) шкалируются и сообщаются отдельно. 1 Компьютерное тестирование может использоваться в трех видах: - компьютерное тестирование как альтернативная форма предъявления теста (варианты, а, следовательно, и порядок предъявления заданий фиксированы); - компьютерное тестирование с автоматическим формированием различных вариантов теста (варианты формируются автоматически из имеющегося набора заданий по правилам, заданным разработчиком); - компьютерное адаптивное тестирование (для каждого испытуемого в процессе тестирования формируется индивидуальный набор заданий). Дополнительные возможности компьютерного тестирования Компьютерное тестирование (КТ) дает возможность использовать дополнительные возможности при разработке заданий и их администрировании по сравнению с традиционным бланковым тестированием. Инновационные особенности, доступные при КТ включают звук, графику, анимацию, видео. Причем все это может быть включено и в сами задания, и в ответные опции. Другие инновации касаются администрирования заданий. Например, испытуемые, используя компьютер, могут выделять текст, щелкать мышкой на графиках, передвигать объекты по экрану, изменять порядок элементов или картинок. Далее, появляется возможность интерактивного тестирования. Например, в процессе ответа испытуемого на экране может появляться дополнительная информация, различная в зависимости от ответа. Появляется гораздо больше возможностей в заданиях с генерированием ответов, а не простым выбором правильного ответа из набора предложенных. Компьютерное адаптивное тестирование (КАТ) Отличительные особенности КАТ по сравнению с другими формами тестирования: - каждый испытуемый получает свой собственный набор заданий, поэтому и содержание, и длина теста могут отличаться для разных испытуемых; - каждый испытуемый оценивается индивидуально (на своем уровне) с минимальной ошибкой измерения. Основные преимущества КАТ по сравнению с другими формами тестирования: - эффективность: требуется существенно меньше заданий для оценивания уровня подготовленности испытуемого; - точность: возможность оценить уровень подготовленности каждого испытуемого на его уровне с минимальной ошибкой измерения; - испытуемые не тратят время и силы на задания, не соответствующие их уровню подготовки (слишком легкие для них или слишком трудные), поэтому уменьшается влияние на результаты дополнительных факторов (утомление, беспокойство, неаккуратность); - хорошо развита теория КАТ, поэтому хорошо разработанный компьютерный адаптивный тест более надежен; - участники тестирования более мотивированы и спокойны (т.к. им не предлагается заданий, слишком для них трудных). Классическая теория тестирования не подходит для адаптивного тестирования: само понятие первичного балла при использовании технологий КАТ не имеет смысла, так как количество заданий, предлагаемых различным испытуемым, различно. Таким образом, вся 2 теория КАТ базируется на современной теории тестирования IRT. Необходимым условием проведения КАТ является наличие достаточно большого банка качественных заданий, создание которого возможно только в рамках IRT. Процесс тестирования в КАТ выглядит следующим образом. Испытуемому предлагается какое-то задание. Если он ответил на него правильно, следующим ему предлагается более трудное задание. В случае неправильного ответа на первое задание, предлагается более легкое задание. После каждого ответа уровень подготовленности испытуемого переоценивается, и выбирается следующее задание, наиболее подходящее к его уровню. Процесс завершается, когда достигнута требуемая точность оценивания уровня подготовленности (но могут использоваться другие правила окончания тестирования). Основные проблемы, требующие решения при разработке алгоритма КАТ, следующие: 1) как начать тестирование, то есть, как выбрать первое задание для данного испытуемого; 2) как продолжить тестирование, то есть, как после каждого ответа выбирать следующее задание; 3) как закончить тестирование, то есть, когда процесс тестирования можно считать завершенным. Различные технологии компьютерного адаптивного тестирования различаются подходами к решению поставленных проблем, то есть они различаются по процедурам выбора заданий, методам оценивания испытуемых, правилам окончания тестирования и т.д. Процедуры выбора первого задания Правило выбора первого задания определяется целью тестирования. Для критериальноориентированного тестирования первое задание обычно выбирается близко к пороговому значению (проходному баллу). Для нормативно-ориентированного тестирования первое задание обычно выбирается средней трудности. Процедуры выбора последующих заданий Использование IRT дает возможность использовать различные процедуры выбора заданий. Наибольшее распространение при нормативно-ориентированном тестировании получил метод максимализации информации, при котором каждое последующее задание подбирается из банка как наиболее информативное для оценивания уровня подготовленности данного испытуемого.В критериально-ориентированном тестировании следующее задание выбирается немного более трудным (при правильном ответе) или немного более легким (при неправильном ответе). Правила окончания тестирования При компьютерном адаптивном тестировании могут использоваться различные правила окончания тестирования. Наиболее распространено правило, основанное на достижении требуемой точности измерений: процесс тестирования каждого испытуемого заканчивается, когда достигнутая точность измерения его уровня подготовленности становится меньше наперед заданного значения. Иногда используется другие правила остановки: фиксированное время тестирования, фиксированное количество заданий и т.д. Часто объединяются два подхода. Например, устанавливается, что максимальное число заданий равно 100, но тестирование может быть прекращено раньше, если требуемая точность будет достигнута. 3 Выравнивание результатов тестирования Карданова Е.Ю., Нейман Ю.М. Проблема выравнивания в современной теории тестирования // Вопросы тестирования в образовании. – 2003, № 8 Когда необходимо выравнивание: - при использовании различных вариантов одного и того же теста - при создании банка заданий - при сравнении достижений учащихся в различные моменты времени (мониторинг достижений) - в компьютерном адаптивном тестировании (если используются множества заданий, которые не были предварительно откалиброваны и помещены на одну шкалу) Выравнивание – это специальная процедура, позволяющая установить связь между баллами испытуемых по различным вариантам теста и затем поместить их на одну общую шкалу. В литературе выравнивание различных вариантов одного и того же теста называется горизонтальным выравниванием. Банк заданий – это множество откалиброванных заданий (то есть заданий с известными параметрами), из которых могут быть построены различные варианты теста, порождающие эквивалентные меры. Выравнивание различных вариантов теста и создание банка заданий – звенья одной цепи, так как обе процедуры имеют целью поместить оцененные параметры моделей на общую шкалу. Различие лишь в том, что при выравнивании вариантов необходимо поместить на одну шкалу меры испытуемых, выполнявших различные варианты теста, тогда как цель создания банка заданий состоит в том, чтобы поместить на одну шкалу параметры заданий из различных вариантов теста. Часто эти две задачи решаются параллельно. Результаты тестирования могут быть использованы для мониторинга достижений учащихся, то есть для сравнения их достижений в различные моменты времени. Процедура выравнивания тестовых результатов в таких ситуациях получила название вертикального выравнивания. Таким образом, вертикальное выравнивание предназначено для создания шкалы с общей метрикой для тестов, которые создавались для измерения испытуемых на различных стадиях развития. Выравнивание в КТТ Линейное выравнивание основано на приравнивании стандартных z-показателей, соответствующих испытуемым с одинаковым уровнем подготовки, выполнявшим различные варианты теста: xx y y , x y где x - балл испытуемого по 1-му варианту, x и x - среднее значение и среднее квадратичное отклонение баллов испытуемых по 1-му варианту; y , y и y - то же для 2-го варианта. Выражая y через x , имеем: 4 y y y (x x) x (y x) x x x Таким образом, y выражается через x линейно: y y y A x B , где A y , B y y x. x x В методе равнопроцентильного выравнивания предполагается, что баллы по двум вариантам эквивалентны, если им соответствуют одинаковые процентильные ранги. Таким образом, равнопроцентильное выравнивание предполагает выявление для двух вариантов теста оценок, имеющих один и тот же процентильный ранг. Оба метода требуют серьезных предположений об идентичности распределений первичных баллов и об эквивалентности групп испытуемых, выполнявших выравниваемые варианты теста, которые редко выполняются на практике. Более того, выравнивание в КТТ подразумевает только установление соответствия между баллами по различным вариантам теста и не предполагает создания общей шкалы. Выравнивание в современной теории тестирования Современная теория тестирования позволяет выполнить процедуру выравнивания показателей различных вариантов и осуществить шкалирование на единой метрической шкале. Как отмечалось ранее, при использовании математических моделей IRT уровни подготовленности испытуемых и уровни трудности заданий теста могут быть представлены на одной метрической шкале и сопровождены характеристикой точности измерения. Однако для каждого варианта теста шкала будет своей. Это объясняется тем, что шкала логитов, на которой находятся оценки испытуемых и параметры заданий, является интервальной и, следовательно, не имеет абсолютного нуля. Именно это свойство шкалы логитов позволяет перенести оценки всех параметров (и испытуемых, и заданий) на общую шкалу и осуществить процедуру выравнивания показателей. Методы выравнивания: 1) метод общих заданий - связывание двух вариантов осуществляется с помощью части заданий, общих для этих двух вариантов; 2) метод общих испытуемых - связывание двух вариантов осуществляется с помощью подмножества испытуемых, выполнивших задания обоих вариантов теста. Процедуры выравнивания: 1) отдельная калибровка всех вариантов с последующей трансформацией мер на общую шкалу; 2) одновременная калибровка всех вариантов и получение всех мер на единой шкале; 3) отдельная калибровка всех вариантов с фиксацией общих параметров и последовательное отражение всех параметров на общей шкале. 5