Дефицит вероятностного мышления у психологов и его научно

advertisement
Дефицит вероятностного
мышления у психологов и
его научно-практические
последствия
Шмелев Александр Георгиевич,
профессор МГУ,
научный руководитель Лаборатории
«Гуманитарные технологии»
www.ht.ru
О жанре доклада
• Не будет:
- сложных и утонченных матмоделей и
математического языка (ТерВера как такового),
- строгих экспериментальных доказательств
• Будут:
- примеры из опыта преподавателя курса «Основы
психодиагностики» в МГУ,
- примеры из опыта разработчика компьютерных
тестов, опыта общения с пользователями.
Вопросы из опыта преподавателя
1)
2)
Почему студенты ф-та психологии МГУ не могут легко
освоить соответствия между стандартизированными
тестовыми баллами и процентилями? – На вопрос
«Сколько процентов набирает выше 70 t-очков по шкале
№8 MMPI? - отвечают: 30 процентов».
Почему научные руководители не требуют от своих
курсовиков и дипломников измерить валидность или
надежность применяемых ими инструментов? –Почему
само заучивание определений этих понятий для многих
студентов превращается в тяжкую и бессмысленную
повинность?
Вопросы из опыта разработчика
тестовых методик
1) Почему пользователи охотнее расхватывают
дешевенькие книжки с методиками, где авторы не
утомляют их количественной информации о
надежности и валидности?
2) Почему корреляция теста с критерием валидности
в размере 0.3 интерпретируется как точность
прогноза с вероятностью 0.3?
(это в лучше случае, а то и с вероятностью 0,09 –
путем неуместного возведения КК в квадрат, как
будто необходимо обеспечить «поточечное
соответствие шкалы теста и шкалы критерия»).
О происхождении случайных
теорий в псевдонауке
• Умственный эксперимент:
А) 32 испытуемых в аудитории пытаются угадать в 5 попытках,
в какой руке у экспериментатора монетка – в левой или
правой.
Б) Вопрос: каково матожидание числа испытуемых (из 32), у
которых может случится 5 угадываний из 5? По критерию
Хи-квадрат или на основе прямой формулы 1/32 можно
легко доказать, что удачливый испытуемый может
попытаться обосновать свою псевдотеорию об
экстрасенсорном рапорте с экспериментатором со
«стандартным уровнем значимости P<0,05”
• Итак. Одним из признаков псевдонауки являются
псевдообобщения на основе случайных совпадений, или
«случайные теории». А не является ли часть
психологической теорий (или психодиагностических
методик) псевдонаучными по способу доказательства?
Понятие и процедура
«кросс-валидизации»
• Понятие «экспериментальной выборки», или
«выборки обучения» (в теории распознавания
образов)
• Понятие «контрольной выборки», или «выборки
экзамена».
• Кросс-валидизация: проверка предсказательной
силы модели, построенной на одной выборки, при
ее переносе на другую выборку.
• Case study – подход, рискующий привести к
псевдообобщениям.
Рабочая гипотеза доклада
• ГЛАВНЫЙ ТЕЗИС:
За пренебрежением к количественно-вероятностному
обоснованию выводов лежит не просто дефицит
вероятностного мышления как образованности, но
архаический когнитивный стиль «поспешных обобщений»,
или рудименты пралогического мышления
• ПРОИЗВОДНЫЙ ТЕЗИС:
Вероятностная небрежность создает субъективные
предпосылки для получения «красивых качественных
результатов», которые на поверку оказываются
«псевдотеориями».
• ДОКТРИНЕРСТВО – стиль мышления в науке (и
практике), который обозначает постулирование теорий (или
практических выводов) без применения аппарата
альтернативно-вероятностного мышления.
Низкий интеллект у блондинок –
образец псевдотеории или гениальное
прозрение мужской житейской
психологии?
Низкий интеллект у блондинок –
образец псевдотеории
• Анекдоты про блондинок – социальнопсихологический симптом псевдотеории
• Реальные данные обследования блондинок и
брюнеток с помощью IQ – блондинки даже
немного умнее, но уж точно точно не глупее (101
против 98).
• Моя гипотеза: имеется фактор «болтливости» как
скрытая третья переменная, обуславливающая
появление в житейском сознании
псевдокорреляции между цветом волос и
интеллектом.
Аппарат логико-статистических
таблиц сопряженности
• Таблицы 2*2 – это
достаточная точность для
работы с тестовыми шкалами,
имеющими на этапе
принятия решения (уволить –
не уволить) всего одну «точку
отсечения» (cut score) или
максимум 2 точки (метод
крайних групп)
• Справа таблица, иллюстрирующая способность теста
давать 80-процентную
точность при предсказании
критериального поведения.
Крит->
Тест
Высокий
критерий
Низкий
критерий
Высокий
тест-балл
40
10
Низкий
тест-балл
10
40
Аппарат логико-статистических
таблиц сопряженности
• Таблица
сопряженности
ума и
болтливости
у блондинок:
(отсутствие
корреляции)
Умные Глупые
Болтливые
30
30
Молчаливые
20
20
Аппарат логико-статистических
таблиц сопряженности
• Таблица
сопряженности
ума и
болтливости
у брюнеток:
(отсутствие
корреляции)
Умные Глупые
Болтливые
20
20
Молчаливые
30
30
Аппарат логико-статистических
таблиц сопряженности
• Таблица
сопряженности
цвета волос и
болтливости :
(Фи-коэффициент
корреляции равен
0,2 и значим на уровне
p<0,05 при размере
выборки n=100)
Блондинки
Брюнетки
Болтливые
30
20
Молчаливые
20
30
Интерпретация коэффициентов
корреляции в терминах вероятности
• Вопрос к аудитории:
КАКОВА ВЕРОЯТНОСТЬ ТОЧНОГО
ПРЕДСКАЗАНИЯ УСПЕШНОСТИ
ДЕЯТЕЛЬНОСТИ ПРОФЕССИОНАЛА,
ЕСЛИ ТЕСТ ОБЛАДАЕТ КОРРЕЛЯЦИЕЙ С
КРИТЕРИЕМ НА УРОВНЕ r=0.2 ?
Иллюстрация ответа на вопрос
• При r=0.2 вероятность часто ошибочно называют 0.2,
смешивая размерность шкалы для r (от -1 до 1) и
размерность шкалы вероятности p (от 0 до 1).
• Правильный ответ p= 0,6
(оговорка: для бинарной категориальной шкалы с одной
точкой отсечения)
• Способ получения: p= (0.5*r+0.5) – к уровню случайного
угадывания 0.5 надо прибавить половину коэф.корреляции.
• Четырехклеточная таблица для прогностичности теста будет
иметь такой же вид как таблица «цвет волос * болтливость»:
лучшие по тесту будут справляться в 60 процентах случаях, а
худшие – в 40 процентах.
• 0,6 – это более высокая точность, чем 0,55 (вероятность
точного прогноза для интервью).
Результаты эксперимента
по проверке связи между цветовыми
предпочтениями и темпераментом
(подробности на сайте www.ht.ru)
KЖ-ЗС
КЗ-ФСЧ
Экстраверсия
0.27
0.07
Стабильность
0.04
0.18
Квалифицированное большинство
• Для внесения изменений в конституцию страны
достаточно 66 процентов голосов членов
Парламента.
• Это близко к уровню корреляции r=0,33 между
тестом и критерием: всего лишь с вероятностью
0,66 мы можем встретить на улице граждан,
одобряющих поправку в конституции (если
парламент репрезентативен).
• Вывод: психологи не должны «комплексовать», что
их тесты обладают валидность 0,3 – 0,4.
Песнь о Вещем Олеге
и пралогические корни интуитивизма
№12
Верят
Не
верят
Склонны к
колич. ПД
Склонны к
качеств. ПД
5
15
11
3
Phi=0,53**
Chi = 9,49 >
6,63
Шмелев А.Г. Вестник моск. ун-та. Психология. 2004, №3
стр.13-23
Феномен ОЧЕНЬ больших выборок
• Как измерить эффект телесуггестии (феномен
Кашпировского)? Когда смотрят десятки миллионов, то с
единицами из них происходят невероятные события!!!
• Ошибка в том, что анализируется только та аудитория,
которая смотрит сеанс? – Только одна строка (или столбец)
четырехклеточной таблицы сопряженности.
• А если проанализировать у какого количества телезрителей
«рассосалось» после просмотра какого-нибудь боевика или
футбольного матча, в котором три гола влетает «в свои
ворота»? – Может быть, эти передачи дают еще более
высокий процент?
• Нельзя исключить эффект самовнушения, но его надо
корректно измерить, корректно структурировав выборку –
построив план квазиэксперимента?
Анализ эффекта
реформаторских проектов
• Психологи не далеко ушли от обывателей, которые
руководствуются некорректной вероятностной логикой.
• Обыватели обладают неплохой вероятностной интуицией
на поведенческом уровне (в экспериментах типа угадай, в
какой руке), но не умеют правильно анализировать данные,
представленные на логико-речевой уровне.
• Пример. Критика ЕГЭ: от ложного тезиса о том, что в ЕГЭ
много ошибок в заданиях до непроверенного тезиса о том,
что участники ЕГЭ на грани суицида?
• Надо анализировать другую строчку четырехклеточной
таблички «форма экзамена * количество суиццдальных
попыток».
Анализ эффекта
реформаторских проектов
• Таблица
сопряженности
ЕГЭ
числа ошибок и типа
экзамена:
Ошибо
(Фи-коэффициент
корреляции равен
-0,09 и значим на
уровне p<0,01)
чные
задания
1
Безоши
бочные 1000
задания
Традиц.
Экзамен
1
50
«Антигороскоп» и феномен
внушенного диагноза
• Студентам на лекции предъявлялись в разбивку описания
характера (наборы черт) астрологических (зодиакальных)
типов личности.
• Студенты должны были узнать себя.
• Процент совпадений оказывался в районе 0,10 (не значимое
превышение над 0,08)
• Эксперименты А.С.Соловейчика с ложной обратной связью
по результатам компьютерной диагностики
• Эксперименты А.С. Науменко и Барнум-эффект.
• Вероятностно-психологическое объяснение Барнумэффекта: удивляюсь совпадению собственных черт и
отдельных случайных, испытуемые приписывают себе и
другие черты из набора.
• ВСТАВКА – сообщение Анны Науменко.
Профессионально-прагматические
издержки дефицита
• Психологи НЕ умеют дать заказчикам
(начальству) технико-экономическое
обоснование эффективности своей работы.
• Ожидаемая полезность метода:
W = Vs*(1-Prisk)– Vrisk * Prisk,
где Vs – цена успеха (удачи Vsuccess)
Vrisk – цена потерь (цена риска),
Prisk – вероятность потерь (риска)
Прагматический вывод
Психологи не должны игнорировать риск ошибки
в своих прогнозах, но должны сознательно его
измерять и искать рациональные методы снижения
этого риска.
Оговорка: самому субъекту (испытуемому) не следует
сообщать риск ошибки в прогнозе. Пример –
ятрогения на фоне информации о вероятном
побочном действии (вредности) лекарства.
Профессионально-этические
издержки дефицита
•
-
Доктринерство – это:
черно-белое сознание (оценочная биполяризация),
нетерпимость к инакомыслию;
догматическая нечувствительность к аргументации
оппонентов в дискуссии;
- нечувствительность к эмпирическим фактам,
опровергающим собственную точку зрения;
- ригидность в социальном поведении.
• НО – ВСЕ ЭТО ЛИШЬ ГИПОТЕЗА!!!
СПАСИБО ЗА ВНИМАНИЕ!
Контакты: А.Г.Шмелев www.ht.ru
Download