Дефицит вероятностного мышления у психологов и его научно-практические последствия Шмелев Александр Георгиевич, профессор МГУ, научный руководитель Лаборатории «Гуманитарные технологии» www.ht.ru О жанре доклада • Не будет: - сложных и утонченных матмоделей и математического языка (ТерВера как такового), - строгих экспериментальных доказательств • Будут: - примеры из опыта преподавателя курса «Основы психодиагностики» в МГУ, - примеры из опыта разработчика компьютерных тестов, опыта общения с пользователями. Вопросы из опыта преподавателя 1) 2) Почему студенты ф-та психологии МГУ не могут легко освоить соответствия между стандартизированными тестовыми баллами и процентилями? – На вопрос «Сколько процентов набирает выше 70 t-очков по шкале №8 MMPI? - отвечают: 30 процентов». Почему научные руководители не требуют от своих курсовиков и дипломников измерить валидность или надежность применяемых ими инструментов? –Почему само заучивание определений этих понятий для многих студентов превращается в тяжкую и бессмысленную повинность? Вопросы из опыта разработчика тестовых методик 1) Почему пользователи охотнее расхватывают дешевенькие книжки с методиками, где авторы не утомляют их количественной информации о надежности и валидности? 2) Почему корреляция теста с критерием валидности в размере 0.3 интерпретируется как точность прогноза с вероятностью 0.3? (это в лучше случае, а то и с вероятностью 0,09 – путем неуместного возведения КК в квадрат, как будто необходимо обеспечить «поточечное соответствие шкалы теста и шкалы критерия»). О происхождении случайных теорий в псевдонауке • Умственный эксперимент: А) 32 испытуемых в аудитории пытаются угадать в 5 попытках, в какой руке у экспериментатора монетка – в левой или правой. Б) Вопрос: каково матожидание числа испытуемых (из 32), у которых может случится 5 угадываний из 5? По критерию Хи-квадрат или на основе прямой формулы 1/32 можно легко доказать, что удачливый испытуемый может попытаться обосновать свою псевдотеорию об экстрасенсорном рапорте с экспериментатором со «стандартным уровнем значимости P<0,05” • Итак. Одним из признаков псевдонауки являются псевдообобщения на основе случайных совпадений, или «случайные теории». А не является ли часть психологической теорий (или психодиагностических методик) псевдонаучными по способу доказательства? Понятие и процедура «кросс-валидизации» • Понятие «экспериментальной выборки», или «выборки обучения» (в теории распознавания образов) • Понятие «контрольной выборки», или «выборки экзамена». • Кросс-валидизация: проверка предсказательной силы модели, построенной на одной выборки, при ее переносе на другую выборку. • Case study – подход, рискующий привести к псевдообобщениям. Рабочая гипотеза доклада • ГЛАВНЫЙ ТЕЗИС: За пренебрежением к количественно-вероятностному обоснованию выводов лежит не просто дефицит вероятностного мышления как образованности, но архаический когнитивный стиль «поспешных обобщений», или рудименты пралогического мышления • ПРОИЗВОДНЫЙ ТЕЗИС: Вероятностная небрежность создает субъективные предпосылки для получения «красивых качественных результатов», которые на поверку оказываются «псевдотеориями». • ДОКТРИНЕРСТВО – стиль мышления в науке (и практике), который обозначает постулирование теорий (или практических выводов) без применения аппарата альтернативно-вероятностного мышления. Низкий интеллект у блондинок – образец псевдотеории или гениальное прозрение мужской житейской психологии? Низкий интеллект у блондинок – образец псевдотеории • Анекдоты про блондинок – социальнопсихологический симптом псевдотеории • Реальные данные обследования блондинок и брюнеток с помощью IQ – блондинки даже немного умнее, но уж точно точно не глупее (101 против 98). • Моя гипотеза: имеется фактор «болтливости» как скрытая третья переменная, обуславливающая появление в житейском сознании псевдокорреляции между цветом волос и интеллектом. Аппарат логико-статистических таблиц сопряженности • Таблицы 2*2 – это достаточная точность для работы с тестовыми шкалами, имеющими на этапе принятия решения (уволить – не уволить) всего одну «точку отсечения» (cut score) или максимум 2 точки (метод крайних групп) • Справа таблица, иллюстрирующая способность теста давать 80-процентную точность при предсказании критериального поведения. Крит-> Тест Высокий критерий Низкий критерий Высокий тест-балл 40 10 Низкий тест-балл 10 40 Аппарат логико-статистических таблиц сопряженности • Таблица сопряженности ума и болтливости у блондинок: (отсутствие корреляции) Умные Глупые Болтливые 30 30 Молчаливые 20 20 Аппарат логико-статистических таблиц сопряженности • Таблица сопряженности ума и болтливости у брюнеток: (отсутствие корреляции) Умные Глупые Болтливые 20 20 Молчаливые 30 30 Аппарат логико-статистических таблиц сопряженности • Таблица сопряженности цвета волос и болтливости : (Фи-коэффициент корреляции равен 0,2 и значим на уровне p<0,05 при размере выборки n=100) Блондинки Брюнетки Болтливые 30 20 Молчаливые 20 30 Интерпретация коэффициентов корреляции в терминах вероятности • Вопрос к аудитории: КАКОВА ВЕРОЯТНОСТЬ ТОЧНОГО ПРЕДСКАЗАНИЯ УСПЕШНОСТИ ДЕЯТЕЛЬНОСТИ ПРОФЕССИОНАЛА, ЕСЛИ ТЕСТ ОБЛАДАЕТ КОРРЕЛЯЦИЕЙ С КРИТЕРИЕМ НА УРОВНЕ r=0.2 ? Иллюстрация ответа на вопрос • При r=0.2 вероятность часто ошибочно называют 0.2, смешивая размерность шкалы для r (от -1 до 1) и размерность шкалы вероятности p (от 0 до 1). • Правильный ответ p= 0,6 (оговорка: для бинарной категориальной шкалы с одной точкой отсечения) • Способ получения: p= (0.5*r+0.5) – к уровню случайного угадывания 0.5 надо прибавить половину коэф.корреляции. • Четырехклеточная таблица для прогностичности теста будет иметь такой же вид как таблица «цвет волос * болтливость»: лучшие по тесту будут справляться в 60 процентах случаях, а худшие – в 40 процентах. • 0,6 – это более высокая точность, чем 0,55 (вероятность точного прогноза для интервью). Результаты эксперимента по проверке связи между цветовыми предпочтениями и темпераментом (подробности на сайте www.ht.ru) KЖ-ЗС КЗ-ФСЧ Экстраверсия 0.27 0.07 Стабильность 0.04 0.18 Квалифицированное большинство • Для внесения изменений в конституцию страны достаточно 66 процентов голосов членов Парламента. • Это близко к уровню корреляции r=0,33 между тестом и критерием: всего лишь с вероятностью 0,66 мы можем встретить на улице граждан, одобряющих поправку в конституции (если парламент репрезентативен). • Вывод: психологи не должны «комплексовать», что их тесты обладают валидность 0,3 – 0,4. Песнь о Вещем Олеге и пралогические корни интуитивизма №12 Верят Не верят Склонны к колич. ПД Склонны к качеств. ПД 5 15 11 3 Phi=0,53** Chi = 9,49 > 6,63 Шмелев А.Г. Вестник моск. ун-та. Психология. 2004, №3 стр.13-23 Феномен ОЧЕНЬ больших выборок • Как измерить эффект телесуггестии (феномен Кашпировского)? Когда смотрят десятки миллионов, то с единицами из них происходят невероятные события!!! • Ошибка в том, что анализируется только та аудитория, которая смотрит сеанс? – Только одна строка (или столбец) четырехклеточной таблицы сопряженности. • А если проанализировать у какого количества телезрителей «рассосалось» после просмотра какого-нибудь боевика или футбольного матча, в котором три гола влетает «в свои ворота»? – Может быть, эти передачи дают еще более высокий процент? • Нельзя исключить эффект самовнушения, но его надо корректно измерить, корректно структурировав выборку – построив план квазиэксперимента? Анализ эффекта реформаторских проектов • Психологи не далеко ушли от обывателей, которые руководствуются некорректной вероятностной логикой. • Обыватели обладают неплохой вероятностной интуицией на поведенческом уровне (в экспериментах типа угадай, в какой руке), но не умеют правильно анализировать данные, представленные на логико-речевой уровне. • Пример. Критика ЕГЭ: от ложного тезиса о том, что в ЕГЭ много ошибок в заданиях до непроверенного тезиса о том, что участники ЕГЭ на грани суицида? • Надо анализировать другую строчку четырехклеточной таблички «форма экзамена * количество суиццдальных попыток». Анализ эффекта реформаторских проектов • Таблица сопряженности ЕГЭ числа ошибок и типа экзамена: Ошибо (Фи-коэффициент корреляции равен -0,09 и значим на уровне p<0,01) чные задания 1 Безоши бочные 1000 задания Традиц. Экзамен 1 50 «Антигороскоп» и феномен внушенного диагноза • Студентам на лекции предъявлялись в разбивку описания характера (наборы черт) астрологических (зодиакальных) типов личности. • Студенты должны были узнать себя. • Процент совпадений оказывался в районе 0,10 (не значимое превышение над 0,08) • Эксперименты А.С.Соловейчика с ложной обратной связью по результатам компьютерной диагностики • Эксперименты А.С. Науменко и Барнум-эффект. • Вероятностно-психологическое объяснение Барнумэффекта: удивляюсь совпадению собственных черт и отдельных случайных, испытуемые приписывают себе и другие черты из набора. • ВСТАВКА – сообщение Анны Науменко. Профессионально-прагматические издержки дефицита • Психологи НЕ умеют дать заказчикам (начальству) технико-экономическое обоснование эффективности своей работы. • Ожидаемая полезность метода: W = Vs*(1-Prisk)– Vrisk * Prisk, где Vs – цена успеха (удачи Vsuccess) Vrisk – цена потерь (цена риска), Prisk – вероятность потерь (риска) Прагматический вывод Психологи не должны игнорировать риск ошибки в своих прогнозах, но должны сознательно его измерять и искать рациональные методы снижения этого риска. Оговорка: самому субъекту (испытуемому) не следует сообщать риск ошибки в прогнозе. Пример – ятрогения на фоне информации о вероятном побочном действии (вредности) лекарства. Профессионально-этические издержки дефицита • - Доктринерство – это: черно-белое сознание (оценочная биполяризация), нетерпимость к инакомыслию; догматическая нечувствительность к аргументации оппонентов в дискуссии; - нечувствительность к эмпирическим фактам, опровергающим собственную точку зрения; - ригидность в социальном поведении. • НО – ВСЕ ЭТО ЛИШЬ ГИПОТЕЗА!!! СПАСИБО ЗА ВНИМАНИЕ! Контакты: А.Г.Шмелев www.ht.ru