best seller ALBERTO CAIRO HOW CHARTS LIE GETTING SMARTER ABOUT VISUAL INFORMATION АЛЬБЕРТО КАЙРО ГРАФИКИ не ЛГУТ КАК СТАТЬ ИНФОРМАЦИОННО ГРАМОТНЫМ ЧЕЛОВЕКОМ В МИРЕ ДАННЫХ? УДК 003.6 ББК 73 К15 How Charts Lie: Getting Smarter about Visual Information Alberto Cairo Copyright © 2019 by Alberto Cairo К15 Кайро, Альберто. Графики лгут. Как стать информационно грамотным человеком в мире данных? / Альберто Кайро ; [перевод с английского А. Я. Курина, Е. В. Сазановой]. — Москва : Эксмо, 2022. — 264 с. — (IT бестселлер). ISBN 978-5-04-119345-4 Книга о визуализации данных от мирового эксперта по визуальной коммуникации Альберто Кайро расскажет читателям о том, каким образом инфографика вводит нас в заблуждение. Автор выделил множество причин того, почему графики лгут — от некорректных данных до намеренно искаженного их отображения. Помимо разбора ошибок в визуализации данных, Кайро рассказывает о том, как создавать максимально правдивую и корректную инфографику. Это книга об информационной грамотности, которую должен прочитать каждый современный человек. УДК 003.6 ББК 73 ISBN 978-5-04-119345-4 © Курин А.Я., Сазанова Е.В., перевод на русский язык, 2022 © Оформление. ООО «Издательство «Эксмо», 2022 Окружающий мир нельзя понять без цифр. Только из цифр его тоже понять не удастся. Ханс Рослинг. Фактологичность. Десять причин наших заблуждений о мире — и почему все не так плохо, как кажется (2018) Свобода держится на гражданах, способных отличить правду от желанной лжи. Авторитаризм приходит не тогда, когда люди этого требуют, а тогда, когда они перестают отличать желаемое от действительного. Тимоти Снайдер. Дорога к несвободе (2018) Оглавление Пролог. Мир, наполненный графиками Введение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Глава 1. Как графики работают . . . . . . . . . . . . . . . . . . . . . . . Глава 2. Графики, которые лгут, потому что плохо проработаны . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 12 36 72 Глава 3. Графики, которые лгут, показывая непроверенные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 Глава 4. Графики, которые лгут, отображая неполные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 Глава 5. Графики, которые лгут, скрывая данные или внося в них путаницу . . . . . . . . . . . . . . . . . . . . . . . . . . . Глава 6. Графики, которые показывают схемы, ведущие к неверным выводам . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 . . . 194 . . . . . . . . 221 Благодарности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 Библиография . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 Заключение. Не лгите себе (и другим) с помощью графиков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Дополнительная литература Алфавитный указатель Моим родителям Мир, наполненный графиками Пролог Мир, наполненный графиками Э та книга о том, как графики 1 — таблицы, карты, схемы, — которые мы ежедневно видим по телевизору, в газетах и социальных сетях, рекламе и даже учебниках, обманывают нас. Всем знакомо выражение «лучше один раз увидеть, чем сто раз услышать». Надеюсь, что скоро вы перестанете его употреблять, не дополнив словами «если знаешь, куда смотреть». Даже привычные карты и гистограммы (столбцовые графики) могут оказаться неоднозначными, а то и вовсе не- читаемыми. Все это вызывает опасения, потому что люди доверяют цифрам, а графики содержат много цифр и выглядят наукообразно и логично. Цифры и графики не могут врать: они же объективны, точны и, как следствие, соблазнительны и убедительны 2. 1 2 Понятие «график» более узкое, чем понятие «диаграмма», так как графики отображают не просто данные, а их взаимосвязь. Но в рамках книги эти понятия используются как синонимичные в связи с устоявшимися названиями отдельных видов графиков. — Прим. ред. Рекомендую книгу Дэвида Бойла «Тирания чисел» (David Boyle's. The Tyranny of Numbers, London: HarperCollins, 2001). — Здесь и далее примечания автора, если не указано иное. 9 10 Пролог Политики, экономисты и рекламщики забрасывают нас цифрами и графиками, не ожидая, что кто-то будет в них разбираться: обычная семья сбережет $100 в месяц после снижения данного налога; рейтинг безработицы составляет 4,5%, что является историческим минимумом, благодаря нашему стимулирующему пакету законов; 59% американцев не одобряют работу президента; 9 из 10 стоматологов рекомендуют нашу зубную пасту; сегодня с вероятностью 20% пойдет дождь; шоколад способен помочь выиграть Нобелевскую премию 3. Как только мы открываем газету, включаем телевизор, заходим на сайт любимого издания, нас буквально атакуют яркие графики. На работе вашу эффективность наверняка оценивали с помощью графиков. Вы и сами их рисовали, делая домашнее задание в школе или бизнес-презентацию. Некоторые авторы даже склонны преувеличивать, говоря о «тирании цифр» и «тирании показателей», имея в виду, что статистические данные встречаются на каждом шагу 4. Нас, современных людей, легко убедить с помощью цифр и графиков на их основе. Графики — даже те, что созданы не со злым умыслом, — могут ввести нас в заблуждение. Впрочем, они также могут показать нам правду. Хорошо продуманные графики становятся хорошим подспорьем. Они позволяют вести диалог. Дают нам рентгеновское зрение, чтобы видеть горы информации насквозь. Графики часто дают нам представления о схемах и тенденциях нашей жизни, на которые только намекают цифры. 3 4 Я писал об этом случае в книге The Truthful Art: Data, Charts, and Maps for Communication (San Francisco: New Riders, 2016). Джерри Мюллер. «Тирания показателей» (Jerry Z. Muller, The Tyranny of Metrics, Princeton NJ: Princeton University Press, 2018). Мир, наполненный графиками Хорошие графики делают нас умнее. Но прежде чем это произойдет, мы должны научиться внимательно работать с графиками. Не просто смотреть на них, как на картинку, но видеть и интерпретировать. И сейчас я расскажу, как правильно читать графики. 11 12 Введение Введение 27 апреля 2017 года президент Дональд Трамп обсуждал с журналистами Reuters Стивеном Адлером, Джеффом Мейсоном и Стивом Холландом достижения за первые сто дней президентского срока. Говоря о Китае и его лидере Си Цзиньпине, Трамп прервался и раздал своим собеседникам копии карты избирательных округов за 2016 год 5. После чего сказал: «Вот, можете оставить себе. Это окончательная карта распределения голосов. Выглядит неплохо, правда? Красное — мы». Когда я читал интервью, казалось понятным, почему президент Трамп так любит эту карту. Он выиграл президентскую гонку в 2016 году, несмотря на прогнозы аналитиков, оценивавших его шансы от 1 до 33%: верхушка республиканской партии не доверяла ему, избирательная кампания часто буксовала, с его стороны неоднократно звучали спорные 5 Стивен Дж. Адлер, Джефф Мейсон и Стивен Холланд. «Эксклюзив: по словам Трампа, он думал, что жизнь президентом будет легче его прежней» (Stephen J. Adler, Jeff Mason, and Steve Holland, «Exclusive: Trump Says He Thought Being President Would Be Easier Than His Old Life»), Reuters, 28 апреля 2017 г. https://www.reuters.com/article/ususa-trump-100days-idUSKBN17U0CA Введение 13 высказывания в адрес женщин, меньшинств, американских спецслужб и даже ветеранов. Они все оказались неправы. Трамп вырвал победу, несмотря ни на что! Доля голосов в президентских выборах 2016 года Больше за демократов Больше за республиканцев (Источник: Cook Report) Однако даже его победа не извиняет неверное прочтение этой карты. А в отрыве от контекста прочитать ее правильно очень сложно. Эта карта неоднократно появлялась в 2017 году. По данным издания The Hill 6, многие сотрудники Белого дома вешали ее в рамке на стене своего кабинета в Западном крыле. Эту карту нахваливали и многие консервативные СМИ, 6 Джоy Боуден. «Трамп покажет в Белом доме карту результатов выборов 2016 года: отчет» (John Bowden, «Trump to Display Map of 2016 Election Results in the White House: Report»), The Hill, 5 ноября 2017 г., https://thehill.com/blogs/blog-briefing-room/332927-trump-will-hangmap-of-2016-election-results-in-the-white-house 14 Введение такие как Fox News, Breitbart и InfoWars. Джек Пособиек, медийная личность с правыми взглядами, даже поставил ее на обложку своей книги «Граждане за Трампа: инсайдерская история о том, как народ вернул себе Америку». Выглядела она так: CITIZENS FOR TRUMP THE INSIDE STORY OF THE PEOPLE’S MOVEMENT TO TAKE BACK AMERICA JACK POSOBIEC Последние два десятилетия я строю графики и учу других, как правильно это делать. Я убежден, что любой, и вы в том числе, может научиться читать и создавать хорошие графики, и с удовольствием даю советы всем желающим. Так что когда я увидел книгу Пособиека в социальных сетях, то предложил ему поменять либо название, либо обложку, потому что в изначальном виде они противоречили друг другу. Карта вводит в заблуждение, потому что должна представлять граждан, голосовавших за каждого кандидата, но не говорит о них. Напротив, она представляет территории. Я предложил поменять название книги на «Округа Введение за Трампа», потому что именно это отображено на карте. Но автор проигнорировал мой совет. Попробуйте оценить соотношение оранжевого цвета (за республиканцев) и серого (за демократов). Примерно 80% карты покрыто оранжевым и 20% — серым. Карта предполагает, что Трамп победил с явным преимуществом, но на самом деле это не так. Голоса избирателей, тех самых граждан Пособиека, поделились пополам. Распределение голосов избирателей на президентских выборах 2016 г. Дональд Трамп Хиллари Клинтон Прочие кандидаты 46,1% 62 984 825 голосов 48,2% 65 853 516 голосов 5,7% Мы даже можем придраться и указать, что на выборы пришли примерно 60% избирателей 7, а более 40% не посетили избирательные участки. Если мы включим в график всех избирателей, то получим, что граждан, проголосовавших за каждого из основных кандидатов, было чуть меньше трети от общего числа. Процентное соотношение всех, кто обладает избирательным правом Не голосовали Голосовали за Дональда Трампа Голосовали за Хиллари Клинтон Голосовали за других кандидатов 40% 28% 29% 3% А что, если посчитать всех граждан? В Соединенных Штатах 325 миллионов жителей. Из них, по данным Kaiser Foundation, примерно 300 миллионов — граждане. Получается, что «граждане за Трампа», как и «граждане за Клинтон», — чуть больше одной пятой части всего населения. 7 «2016 November General Election Turnout Rates», United States Election Project, последнее обновление от 5 сентября 2018 г. http://www.electproject.org/2016g 15 16 Введение Критики президента Трампа не замедлили с ответом на то, что он выдал эту карту журналистам. Зачем считать квадратные мили и игнорировать тот факт, что многие округа, проголосовавшие за Трампа (2626) 8, хоть и занимают большую площадь, но живет там немного людей, в то время как округа, где выиграла Клинтон (487), хоть и маленькие, но густонаселенные? Картограф Кеннет Филд отразил сложившуюся ситуацию на континентальной карте США. Каждая точка здесь показывает голосовавшего: серые — за демократов, красные — за республиканцев. Точки расположены приблизительно там, где люди пришли на выборы. Многие территории США выглядят пустынно. 8 «Модная история о том, что Клинтон выиграла всего в 57 округах, не соответствует действительности» («Trending Story That Clinton Won Just 57 Counties Is Untrue»), Associated Press, 6 декабря 2016 г., https://www.pbs.org/newshour/politics/trending- story-clinton-wonjust-57-counties-untrue Введение Как человек, старающийся разнообразить свою медиадиету, я отслеживаю публикации людей всех политических взглядов. И в последние годы меня беспокоит, что все растущее идеологическое разделение в США ведет и к разделению в предпочитаемых графиках. Некоторые консерваторы, которых я читаю, любят ту карту округов, что президент Трамп вручил журналистам. Они постоянно вставляют ее в свои посты в соцсетях и статьи на сайтах. Либералы и сторонники прогрессивных взглядов, напротив, предпочитают пузырьковую карту, предложенную журналом Time и некоторыми другими изданиями 9. На ней кругами, чей размер пропорционален числу проголосовавших, обозначены сторонники каждого из кандидатов по округам. Размер круга пропорционален количеству голосов, полученных победившим кандидатом в каждом из округов. Больше голосов за Дональда Трампа Больше голосов за Хиллари Клинтон И консерваторы, и либералы смеются над глупостью друг друга: «Как вы можете твиттить такую карту? Вы что, не видите, как она искажает результаты выборов?» 9 Крис Уилсон «Вот карта выборов, которую президент Трамп должен повесить в Западном крыле» (Chris Wilson, «Here's the Election Map President Trump Should Hang in the West Wing»), Time, 17 мая 2017 г. https://time.com/4780991/donald-trump-election-map-white-house/ 17 18 Введение Тут не до смеха. Спорщики доверяют разным графикам, потому что мы используем ту информацию, которая подтверждает наши убеждения: консерваторы верят, что одержали безусловную победу на выборах 2016 года, а либералы утешают себя тем, что Хиллари Клинтон набрала больше голосов избирателей. Либералы правы, говоря, что раскрашенная карта округов не передает количество голосов, полученных каждым из кандидатов, но и их карта с пузырями тоже ошибочна. Показывая только голоса, отданные за победившего в округе кандидата, они забывают про голоса, отданные за проигравшего. Многие голосовали за Хиллари Клинтон в консервативных регионах. И также многие голосовали за Дональда Трампа в прогрессивно настроенных. Карта Кеннета Филда или пара карт ниже могут оказаться хороши, если нас интересует количество проголосовавших. Вы можете заметить, что оранжевых кругов (голоса за Трампа) намного больше, чем серых (голоса за Клинтон), но хотя серых кругов меньше, они крупнее. Если положить эти карты рядом, то становится понятно, почему выборы были выиграны с относительно небольшим перевесом в голосах в нескольких штатах: если сложить площадь, занятую оранжевыми кругами, и сравнить ее с площадью, занятой серыми кругами, то они будут примерно равны. Голоса за Дональда Трампа Голоса за Хиллари Клинтон Размеры круга пропорциональны количеству голосов в округе Введение В конечном счете обе стороны — и либералы и консерваторы — упускают главное. Победа в президентской гонке достается не тому, кто собрал больше голосов среди избирателей, и не тому, кто распространил свое влияние на большей территории. Решает только Коллегия выборщиков и ее 538 членов. Чтобы победить, нужно получить не меньше 270 их голосов. Каждый штат имеет своих выборщиков — столько же, сколько и представителей в Конгрессе: два сенатора плюс несколько членов Палаты представителей, в зависимости от величины населения штата. Если ваш штат маленький, то будут всего два сенатора, положенных каждому штату, и один представитель в Палате, итого — три голоса в Коллегии. Маленькие по населению штаты часто получают непропорционально большее число голосов. Ведь три голоса — минимум, сколько бы в штате людей ни было. Смотрите, как можно получить поддержку выборщиков: за исключением Небраски и Мэна, кандидат, который победил в штате, пусть и с небольшим преимуществом, получает голоса всех выборщиков от штата. Другими словами, как только вы получили в штате хотя бы на один голос больше своего противника, уже не важно, сколько человек за него проголосовало, — они не будут учтены. Вам даже не нужно набирать больше половины — нужно набрать лишь больше противника. Если у вас 45% голосов, а у двух ваших оппонентов — 40 и 15%, вы все равно получите голоса всех выборщиков от этого штата. За Трампа отдали голоса 304 выборщика. Клинтон, несмотря на победу с небольшим отрывом по количеству избирателей, смогла набрать только 227 голосов выборщиков. Еще семь выборщиков отличились, проголосовав за тех, кто даже не был кандидатом. 19 20 Введение Так что если бы меня избрали президентом США (что невозможно, ведь я родился не в США), то я отпраздновал бы свою победу, распечатав и повесив в рамках по всему Белому дому графики, что нарисованы ниже. Они не фокусировались бы на количестве избирателей или количестве округов, где я победил, а упоминали только единственное важное число — число выборщиков, проголосовавших за меня: Голоса выборщиков Трамп Клинтон 304 Кто выиграл в каждом штате другие: 7 270 227 Размеры штатов изменены пропорционально количеству выборщиков Карты — лишь один из видов графиков, о которых вы узнаете из этой книги. К сожалению, их чаще всего используют неправильно. В июле 2017 года я прочитал, что популярный певец Кид Рок планирует баллотироваться в Сенат на выборах 2018 года 10. 10 Он объявил об этом в своем твиттере. Кид Рок (@KidRock): «Я получил массу писем и сообщений с вопросом, настоящий ли сайт…», Twitter, 12 июля 2017 г., 13:51 https://twitter.com/kidrock/ status/885240249655468032. Тим Альберта и Зак Стэнтон, «Сенатор Кид Рок. Без шуток» (Tim Alberta and Zack Stanton, «Senator Kid Rock. Don't Laugh»), Politico, 23 июля 2017 г. https://www.politico.com/ magazine/story/2017/07/23/kid-rock-run-senate- serious-michigananalysis-215408/ Введение Позже он говорил, что это была шутка 11, но в тот момент его заявление на шутку совсем не походило. Я не знал, кто такой Кид Рок, пошел изучать соцсети и нашел на его сайте KidRock.com онлайн-магазин именной атрибутики. Так как я люблю карты и графики, то не смог пройти мимо футболки с интригующим принтом по мотивам выборов 2016 года. Из расшифровок обозначений на карте ясно, что на выборах произошло разделение на две страны. Соединенные Штаты Америки Тупицинистан Как вы уже догадываетесь, эта карта не дает реального представления о разделении на США (читай: республиканскую Америку) и Тупицинистан (читай: демократическую Америку). Карта выборщиков или округов будет куда точнее. Чтобы прояснить один момент, скажу, что с 2005 по 2008 год я жил в Северной Каролине. Сам я из Испании и немного знал о Штате смоляного каблука кроме того, что он был красным на картах выборов, которые мне часто попадались в испанских газетах. Я предполагал, что поселюсь 11 Дэвид Вайгель: «Кид Рок сказал, что сенатская «кампания» была приколом» (David Weigel, «Kid Rock Says Senate Campaign'Was a Stunt»), Washington Post, 24 октября 2017 г., https://www.washingtonpost.com/ news/powerpost/wp/2017/10/24/kid-rock-says-senate- campaign-was-astunt/ 21 22 Введение в консервативном штате. Ну и хорошо. Я ведь и сам придерживаюсь умеренных взглядов. Но ожидания не оправдались. Оказалось, что я приехал не в Соединенные Штаты Америки, а в самый центр Тупицинистана, если следовать классификации Кид Рока. Округ Чапел-Хилл — Каррборо в Оранжевом штате (Северная Каролина), где я поселился, был куда более либерален и прогрессивен, чем весь остальной штат. Город, в котором я живу сейчас — Кендалл в штате Флорида, недалеко от Майами, — также гордо входит в Тупицинистан. Следующая карта куда лучше отражает настоящие границы между странами с футболки мистера Рока. Соединенные Штаты Америки Тупицинистан Места, где я жил Президент Дональд Трамп произнес свое первое президентское обращение к стране 30 января 2018 года. Эксперты-республиканцы пели дифирамбы успехам президента, пока он зачитывал свою речь с телесуфлера, а демократы ругали его на чем свет стоит. Трамп уделил время, чтобы поговорить о преступности, чем привлек внимание экономиста, нобелевского лауреата и журналиста New York Times Пола Кругмана. Несколько раз на протяжении президентской кампании 2016 года и в первый год своего президентского срока Трамп Введение упоминал о якобы резком росте насильственных преступлений и, в частности, убийств. Трамп винил во всем нелегальных мигрантов, но к тому моменту эта теория была неоднократно опровергнута. О чем Кругман и написал в своей колонке, назвав слова Трампа «собачьим свистком» 12. Впрочем, на этом автор не остановился. Он добавил, что Трамп «не просто преувеличил проблему или возложил вину не на тех людей. Он ее полностью придумал», потому что «нет никакого роста преступности — было несколько всплесков недавно, но в то же время во многих крупных городах наблюдается рост числа иностранцев, одновременно с падением, иногда почти фантастическим, насильственных преступлений». Вот график, на который Кругман ссылается. Статистика по количеству убийств в США (ежегодно на 100 000 жителей) 12 8 4 0 1960 1966 1972 1978 1984 1990 1996 2002 2008 2014 (Источник: Бюро криминальной статистики) Похоже, Кругман говорил правду. В Америке заметно существенное падение количества убийств со времен пика в 70-х, 80-х и начале 90-х годов прошлого века. Такая же тенденция видна для всех преступлений, связанных с насилием. Впрочем, кажется несколько странным, что статья 2018 года использует статистику только до 2014 года, 12 Пол Кругман, «Хуже Вилли Хортона» (Paul Krugman, «Worse Than Willie Horton»), New York Times, 31 января 2018 г. https://www.nytimes. com/2018/01/31/opinion/worse-than-willie-horton.html 23 24 Введение не правда ли? Конечно, подробную статистику довольно сложно раздобыть, а уж получить качественные предварительные данные на день написания статьи — и вовсе невозможно, но на тот момент ФБР уже опубликовало статистику за 2016 год и примерные показатели за 2017 год 13. Если добавить эти цифры, то график выйдет несколько другим. Количество убийств неуклонно росло в 2015, 2016 и 2017 годах. Совсем не похоже на несколько случайных всплесков. Статистика по количеству убийств в США (ежегодно на 100 000 жителей) 12 8 2017* 4 0 1960 1966 1972 1978 1984 1990 1996 2002 2008 2014 *Предварительные данные за 2017 год (получены 31 января 2018 года) Не думаю, что человек с репутацией Кругмана стал бы скрывать столь важную информацию специально. Мой опыт составителя графиков и журналиста, на чьем счету хватает ошибок, подсказывает, что не стоит искать заговор там, где чаще вероятна небрежность, спешка или забывчивость. Действительно, число убийств сейчас куда ниже, чем тридцать лет назад. Если увеличить график, то видно, что общая тенденция в многолетней перспективе — снижение преступности. Политики и аналитики, построившие свою карьеру на борьбе с преступностью, часто игнорируют это, концентрируясь лишь на нескольких последних годах. 13 Программа Uniform Crime Reporting (UCR), Федеральное бюро расследований, по состоянию на 27 января 2019 г. https://ucr.fbi.gov/ Введение Однако рост, начавшийся с 2014 года, очевиден, и его не стоит скрывать. Другой вопрос, насколько он существенен? И ответ зависит от места, где вы живете. График, несмотря на свою простоту и наглядность, на самом деле скрывает не меньше, чем показывает. Это общее свойство обобщающих графиков, ведь они для наглядности упрощают представление сложных явлений. Число убийств не растет равномерно по всей Америке, большая часть страны вполне безопасна. Напротив, в определенных районах средних и больших городов убийств становится настолько больше, что они отражаются на статистике по стране 14. Если бы мы нарисовали график по данным районам, он был бы выше пиковых показателей по годам, а возможно, целиком лежал бы за пределами размеченной области! Если убрать их из общей статистики, то число убийств по стране в последние годы не будет расти, а то и вовсе упадет. Считать так, безусловно, неправильно, ведь это статистика по убийствам реальных людей. Но мы вправе требовать, чтобы политики и эксперты упоминали в своих выступлениях и общую статистику, и отдельные выделяющиеся случаи, указывая, что они именно выделяющиеся и могут искажать общие показатели. 14 В статье «Рост или снижение преступности зависят от используемых данных» Тимоти Уильямс цитирует Ричарда Берка, профессора статистики и криминологии Пенсильванского университета: «Это не национальная тенденция, это тенденция города, и даже не тенденция города, а проблема некоторых районов… Конечно, люди в стране не должны волноваться. Люди в Чикаго не должны волноваться. Но люди в определенных районах могут быть обеспокоены». (Timothy Williams «Whether Crime Is Up or Down Depends on Data Being Used»), New York Times, 28 сентября 2016 г. https://www.nytimes. com/2016/09/28/us/murder-rate-cities.html 25 26 Введение Чтобы было понятнее, приведу пример. Представьте, вы зашли вечером в бар, чтобы пропустить кружечку пива. Там уже сидит восемь других завсегдатаев, пьют пиво и общаются. Никто из вас в жизни никого не убил. И тут в бар заходит десятый человек, профессиональный убийца, работающий на мафию. На его счету 50 жертв. И внезапно оказывается, что в среднем каждый в баре убил пять человек! Но очевидно, что все посетители бара не стали убийцами. Графики могут врать, показывая либо неверную информацию, либо лишь часть верной. Однако, даже представляя верную информацию в полном объеме, график все равно может быть лживым, если выбрать неудачный формат и характеристики. В июле 2012 года Fox News объявил, что президент Барак Обама планирует в начале 2013 года отменить налоговые послабления, введенные президентом Джорджем Бушем. Самые богатые будут платить налогов больше. Насколько? Оцените сами, сравнив второй столбец с первым, который показывает максимальный налог при Буше. Рост налога впечатляет! Если налоговые послабления Буша отменят Самый высокий налог: 35% Сейчас ? Январь 2013 График, который Fox News показал всего на несколько секунд, содержал и цифры, но они были очень мелкие и плохо читались. Заметьте, что общий рост налога не превысил 5%, но столбцы были сильно растянуты, чтобы скрыть этот факт: Введение Если налоговые послабления Буша отменят 39,6% 40% 38% Самый высокий налог: 35% 36% Сейчас Январь 2013 34% Я люблю налоги не больше, чем вы, но еще меньше я люблю, когда аргументом в споре приводят сомнительный график, независимо от политических взглядов того, кто его приводит. Кто бы ни делал этот график, он нарушил базовый принцип построения: если ваши цифры представлены длиной или высотой объектов, то такая длина или высота должна быть пропорциональна цифровым значениям. А еще полезно начинать график с нулевой отметки. Если налоговые послабления Буша отменят 39,6% 35% Самый высокий налог: Сейчас Январь 2013 0% Начинать график не с нулевой отметки — весьма подозрительный метод, позволяющий исказить представление о реальном соотношении величин. Но игры с масштабами — всего лишь один из многочисленных трюков в арсенале мошенников и фокусников любых политических взглядов. 27 28 Введение Есть и другие, куда менее очевидные уловки, как мы увидим далее. Даже если график верно оформлен, но нам непонятны его язык и структура, мы не сумеем его правильно прочесть или неверно поймем прочитанное, или и то и другое. Несмотря на расхожий стереотип, хорошие графики — вовсе не обязательно простые, интуитивно понятные и с красивыми картинками. 10 сентября 2015 года исследовательский центр в Вашингтоне Pew Research Center опубликовал результаты опроса американцев на базовые научные знания15. В одном из вопросов просили расшифровать следующий график. Попробуйте его прочесть и не переживайте, если вдруг не получится. Взаимосвязь между количеством потребляемого сахара на человека и средним количеством гнилых зубов Каждая точка обозначает страну Среднее количество гнилых зубов на человека в разных странах 10 8 6 4 2 0 0 20 40 60 80 100 120 140 Среднее количество потребляемого сахара (в граммах в день на жителя) (Источник: Pew Reserch Center) 15 Кэри Функ, Сара Кехаулани Гу. «Взгляд на то, что общественность знает и не знает о науке» (Cary Funk and Sara Kehaulani Goo, «A Look at What the Public Knows and Does Not Know about Science»), Pew Research Center, 10 сентября 2015 г. https://www.pewresearch.org/science/2015/09/10/ what-the-public-knows-and-does-not-know-about-science/ Введение Такой график называется диаграммой рассеяния, или точечной диаграммой. Каждая точка отображает страну, нам не важно знать, какую именно. Положение точки по горизонтальной оси соответствует уровню потребления сахара на человека. Другими словами, чем правее точка, тем больше — в среднем — люди в стране едят сахара. Положение точки по вертикальной оси соответствует количеству гнилых зубов. Следовательно, чем выше точка, тем больше — в среднем — у людей в стране гнилых зубов. Вероятно, вы уже заметили связь — как правило, чем правее расположена точка, тем она выше. Это называется положительной корреляцией между двумя переменными: потребление сахара напрямую связано с состоянием зубов в стране. (Такой график сам по себе не доказывает, что чем больше едят сахара, тем чаще портятся зубы, но об этом чуть позже.) Корреляция может быть и отрицательной: например, чем выше в стране процент образованных людей, тем обычно ниже процент бедных. Диаграмма рассеяния так же стара, как те графики, что мы изучали в начальной школе, — гистограмма, график функции или круговая диаграмма. Тем не менее 4 из 10 опрошенных (37%) не смогли интерпретировать этот график правильно. Возможно, дело в том, как были составлены вопросы, или еще в каких-то факторах. Но мне кажется, что многие люди испытывают трудности при понимании графиков, обычных для науки и теперь еще и для новостных программ. И речь не только о диаграмме рассеяния. Такое случается даже с графиками, которые на первый взгляд интуитивно понятны. Группа исследователей из Колумбийского 29 30 Введение университета показывала следующую графическую диаграмму более чем 100 испытуемым 16. ijŏŎŒŐŅŁŋŅōňŅŔŐœŊŒŎłłßŏňřœłßōŅńŅŋŞ ĢňŊŒŎŐ ĤŐœŃňŅŌœņŗňōś łßłŎŇŐŀőŒōŎʼn ŃŐœŏŏŅĢňŊŒŎŐŀ İŅŊŎŌŅōńŎłŀōŎ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 (Источник: Адриана Арсиа, Колумбийский университет) График показывает, как некий гипотетический Виктор ест в неделю больше фруктов, чем другие мужчины в его возрастной группе, но меньше, чем рекомендованные 14 раз. График говорит нам: Виктор ест какие-то фрукты 12 раз в неделю. Он ест больше фруктов, чем в среднем едят мужчины его возраста, но 12 раз употреблять фрукты недостаточно — рекомендовано 14. Некоторые участники опроса прочли график слишком буквально. Они думали, что Виктору надо есть один и тот же объем и именно тех фруктов, что обозначены на пиктограмме, 14 раз в неделю. Участник даже переживал: «Как, целый ананас?» Такие же результаты были, когда на пиктограмме изобразили только яблоко. В этом случае одного из участников волновала «монотонность» такой диеты на каждый день. 16 Адриана Арсиа и соавторы «Иногда больше значит больше: итеративный совместный дизайн инфографики для вовлечения членов сообщества с различным уровнем здоровья» (Adriana Arcia et al., «Sometimes More Is More: Iterative Participatory Design of Infographics for Engagement of Community Members with Varying Levels of Health Literacy»), Journal of the American Medical Informatics Association, т. 23, № 1 (январь 2016 г.): 174–83, https://academic.oup.com/jamia/article/23/1/174/2379938 Введение Графики выглядят убедительно, даже если большая часть людей не знает, как их верно интерпретировать. В 2014 году группа исследователей из Нью-Йоркского университета провела несколько экспериментов, чтобы сравнить, насколько графики убедительнее простой текстовой информации 17. Они хотели проверить, как мнение опрашиваемых могут изменить три графика: налог на доход компаний, процент заключенных и причины, по которым дети играют в видеоигры. Например, в случае видеоигр целью было убедить опрашиваемых в том, что дети в них играют не из любви к насилию и жестокости, а наоборот, когда хотят расслабиться, дать волю своему воображению или пообщаться с друзьями. Позиция многих опрашиваемых менялась после демонстрации графиков, особенно если до эксперимента у них не было сложившегося мнения по данному вопросу. Экспериментаторы подчеркивали, что так происходило «отчасти из-за создаваемого впечатления объективности» благодаря «аргументам, подкрепленным цифрами». У таких исследований есть свои ограничения, о чем говорят и сами авторы. Например, тяжело определить, что именно убедило опрашиваемого: визуальное представление цифр или сами цифры? Как говорится, нужно больше исследований! Но факт остается фактом: многие из нас доверяют любому сообщению в новостях, если оно 17 Аншул Викрам Пандей и соавторы. «Убедительная сила визуализации данных» (Adriana Arcia et al., «Sometimes More Is More: Iterative Participatory Design of Infographics for Engagement of Community Members with Varying Levels of Health Literacy»), рабочие документы НьюЙоркского университета по публичному праву и правовой теории, 2014 г., https://ieeexplore.ieee.org/document/6876023 31 32 Введение сопровождается цифрами и графиками, вне зависимости от того, понимаем ли мы эти цифры и графики. Убедительность графиков имеет еще одно последствие. Часто график врет нам там, где мы сами хотели бы себя обмануть. Люди склонны применять цифры и графики для подтверждения собственного мнения. В психологии это называется предвзятостью подтверждения 18. Конгрессмен-республиканец Стив Кинг, сторонник строгих ограничений в иммиграционной политике, в феврале 2018 года написал в твиттере: Нелегальные мигранты выполняют ту работу, которую американцы делать не любят. Мы ввозим молодежь из культур, где уровень насильственной смертности в 16,74 раза выше, чем в Америке. Конгресс должен ЗНАТЬ, что в результате погибнет больше американцев 19. Кинг привел и таблицу. Америка не показана, но она на 85 месте с уровнем насильственной смертности около 6 на 100 000 населения. 18 19 Литературы о когнитивных предубеждениях и о том, как они нас обманывают, очень много. Я бы начал с Кэрол Теврис и Эллиота Аронсона. «Ошибки, которые были допущены (но не мной). Почему мы оправдываем глупые убеждения, плохие решения и пагубные действия» (Carol Tavris and Elliot Aronson, «Mistakes Were Made (but Not byMe): Why We Justify Foolish Beliefs, Bad Decisions, and Hurtful Acts»), НьюЙорк: Mariner Books, 2007. Стив Кинг. «Незаконные иммигранты делают то, что американцы не хотят делать» (Steve King (@SteveKinglA), «Illegal immigrants are doing what Americans are reluctanttodo»), Twitter, 3 февраля 2018 г., 17:33. https://twitter.com/SteveKingIA/status/959963140502052867 Введение Уровень насильственной смертности на 100 000 населения Место 1 2 3 4 5 6 7 8 9 10 Cтрана Уровень Сальвадор 93 Гватемала 71 Венесуэла 47 Тринидад и Тобаго 43 Белиз 43 Лесото 42 Колумбия 37 Гондурас 36 Свазиленд 36 Гаити 35 Место 11 12 13 14 15 16 17 18 19 20 Cтрана Панама Д. Р. Конго Бразилия ЮАР Мексика Ямайка Гайана Руанда Нигерия Уганда Уровень 34 31 31 29 27 27 26 24 21 20 Кинг был одурачен собственными данными и графиком и в результате, скорее всего, сам одурачил некоторое количество своих избирателей и подписчиков. В перечисленных странах полно насилия, но, исходя только из таблиц, нельзя сделать вывод, что люди, приезжающие оттуда в США, имеют склонность к насилию. Возможно, все наоборот. Возможно, мигранты и беженцы из этих опасных стран — добрые и миролюбивые люди, покидающие общество, где они не могут жить и работать из-за притеснения со стороны преступников. Приведу личный пример. Большинство испанских мужчин любят футбол, корриду, фламенко и песню Despacito в стиле реггетон. Я испанец, но не люблю ничего из вышеперечисленного, как и многие мои испанские друзья, предпочитающие проводить время за такими дурацкими занятиями, как настольные игры и чтение комиксов, фантастической и научно-популярной литературы. Мы всегда должны осторожно переносить тенденции популяции на ее отдельных представителей. Ученые называют это экологическим заблуждением20. В последних главах мы поговорим о нем подробнее. 20 Дэвид Фридман. «Экологический вывод и экологическая ошибка» (David A. Freedman, «Ecological Inference and the Ecological Fallacy»), Технический отчет № 549, 15 октября 1999 г. https://web.stanford.edu/class/ ed260/freedman549.pdf 33 34 Введение Графики обманывают разными способами: показывая неверные данные, неверные объемы данных, данные в неправильном формате — или, даже если все сделано верно, график лжет нам, потому как мы находим в нем то, что автор не планировал показывать, но мы очень хотели увидеть. В то же время графики — и плохие и хорошие — окружают нас со всех сторон и бывают очень убедительными. При сочетании факторов вы можете получить неполную информацию. Мы все должны стать внимательными и осведомленными чтецами графиков. Мы должны овладеть графической грамотностью. Географ Уильям Балчин предложил термин «графическая грамотность» 21 в середине 50-х годов прошлого века. Во время ежегодного собрания Географической ассоциации в 1972 году он объяснил значение термина. Если грамотность — это умение читать и писать, артикуляция — владение устной речью, а счет — умение манипулировать численными значениями, то графическая грамотность — умение интерпретировать визуальные данные 22. С тех пор термин «графическая грамотность» использовался во множестве публикаций. Два десятилетия назад картограф Марк Монмонье, автор классической книги «Как обмануть с помощью карты», написал, что каждый взрослый образованный человек должен уметь не только читать, писать и говорить, но и считать и обладать графической грамотностью 23. 21 22 23 Англ. graphicate (graphic + literate). — Прим. ред. Уильям Балчин. «Графическая грамотность» (W. G. V. Balchin, «Graphicacy»), Geography 57, № 3 (июль 1972): 185–95. Марк Монмонье. Mapping It Out: пояснительная картография для гуманитарных и социальных наук (Mark Monmonier, «Mapping It Out: Введение Сейчас это еще актуальнее. Публичные дебаты в наши дни ведутся вокруг статистики, а статистика визуализируется с помощью графиков и таблиц. Чтобы быть полноценным участником прений, мы должны уметь читать и использовать эти визуализации. Научившись лучше читать графики, вы, возможно, научитесь их лучше составлять. Составление графиков — не магия. Вы можете создавать их с помощью обычных программ, установленных на каждом домашнем компьютере, таких как Google Таблицы, Excel от Microsoft, Numbers от Apple или любые бесплатные программы вроде LibreOffice 24. Вы уже убедились, что графики могут обманывать. Но к концу книги я надеюсь научить вас не только видеть ложь, но и распознавать правду. Графики, если делать и интерпретировать их правильно, могут добавить нам знаний, а дискуссии — содержательности. Приглашаю вас присмотреться к их удивительной сути. 24 Expository Cartography for the Humanities and Social Sciences») Чикаго: University of Chicago Press, 1993. Больше рекомендаций я даю на сайте, посвященном этой книге: http://www.howchartslie.com 35 36 Глава 1 Глава 1 Как графики работают П ервое, что необходимо знать о графиках: любой график, неважно, насколько хорошо он продуман, приведет к неверным выводам, если мы не будем внимательными. А что после того, как мы станем внимательными? Нам необходимо научиться читать графики. Прежде чем узнать, как они нас обманывают, надо разобраться, как они на самом деле должны работать. Графики — то, что называется визуализацией, — основаны на грамматике, словаре символов и общепринятых соглашениях. Изучение этого материала даст вам иммунитет к большинству манипуляций. Начнем с основ. В 1786 году вышла книга эрудита Уильяма Плейфэра с довольно странным названием «Торговый и политический атлас». «Атлас? — удивлялись читатели. — Но в книге нет ни единой карты!» Однако они там были. Одну из карт Плейфэра вы можете увидеть ниже. Вы, вероятно, уже определили, что это обычный линейный график, или график временного ряда. Горизонтальная Как графики работают ось — годы, вертикальная — амплитуда изменений, а две линии, ограничивающие фигуру, показывают изменения максимума и минимума амплитуды. Темная линия вверху — экспорт из Англии, а светлая внизу — импорт в Англию. Серая зона между ними — торговый баланс, разница между экспортом и импортом. Объяснять, что означает этот график, в наши дни нет необходимости. Даже моя восьмилетняя дочь-третьеклассница знакома с такими графиками. Но в конце XVIII века ситуация была иной. Атлас Плейфэра стал первой книгой, систематически представлявшей числа через графики, так что ему пришлось отвести изрядную ее часть на разъяснения, как следует читать графики. Плейфэр писал их, зная, что графики редко интуитивно понятны с первого взгляда. Как и письменный язык, они основаны на обозначениях, правилах (грамматике и синтаксисе), объясняющих, как интерпретировать обозначения, 37 38 Глава 1 чтобы они обретали смысл, и самом значении графика (семантике). Вы не сможете понять график, если не знакомы с его терминами и синтаксисом или если не можете сделать верные выводы, просто глядя на него. Название книги Плейфэра содержало слово «атлас», потому что это действительно атлас. Хотя карты в ней не географические, но они основываются на принципах, взятых из картографии и топологии. Вспомните, как мы определяем местоположение точки на поверхности земли. Мы находим ее координаты — широту и долготу. Например, статуя Свободы расположена на 40,7 градуса севернее экватора и на 74 градуса западнее Гринвичского меридиана. Чтобы отметить ее, мне нужна карта с координатной сеткой, где по горизонтальной оси обозначена долгота, а по вертикальной — широта. Гринвичский меридиан Долгота 120° 100° 80° 60° 40° 20° 74° 60° Широта 40° 20° 40.7° Статуя Свободы Экватор Плейфэр видел, что широта и долгота — количественные величины, которые можно заменить другими количественными величинами. Например, использовать годы вместо Как графики работают 39 долготы (горизонтальная ось), а объемы экспорта/импорта — вместо широты (вертикальная ось). Автор взял два метода, лежащих в основе большинства графиков: разметка графика и визуальное кодирование. Здесь я немного углублюсь в технические подробности, но обещаю, что те усилия, которые вам придется потратить на разбор этой главы, с лихвой окупятся позже. Более того, мои объяснения подготовят вас к пониманию большинства графиков, которые вы встретите на своем пути. Оставайтесь с нами, и ваше терпение будет вознаграждено. График целиком Разметка Содержимое Число убийств Число убийств Число убийств На 100 000 населения (2015) На 100 000 населения (2015) На 100 000 населения (2015) 0 0 0 3 6 9 >9 3 6 9 >9 3 6 9 >9 (Источник: отчеты ФБР о преступлениях) (Источник: отчеты ФБР о преступлениях) (Источник: отчеты ФБР о преступлениях График целиком Разметка Содержимое Число убийств Число убийств Число убийств На 100 000 населения (2015) На 100 000 населения (2015) На 100 000 населения (2015) 12 12 12 8 8 8 4 4 4 0 0 1996 2002 2008 2014 0 1996 2002 2008 2014 1996 2002 2008 2014 (Источник: отчеты ФБР о преступлениях) (Источник: отчеты ФБР о преступлениях) (Источник: отчеты ФБР о преступлениях) 40 Глава 1 Чтобы прочитать график верно, вам надо сфокусировать внимание на том, что его окружает и поясняет, — его разметке и на том, как данные представлены и закодированы, то есть на самом содержимом. Разметка включает в себя название, легенду, оси, указание авторства (кто сделал график), источники (откуда получена информация) и т. д. Это важная для понимания графика информация: о чем он, что и каким образом показывает. Ниже несколько примеров графиков с разметкой и без. Разметка карты включает в себя легенду, основанную на последовательном изменении цвета, показывающую высокий (более темные тона) или низкий (более светлые тона) уровень убийств. Разметка линейного графика состоит из названия, подзаголовка, указывающего единицы измерения («число убийств на 100 000 населения»), обозначение вертикальной и горизонтальной осей, чтобы можно было сравнивать по годам, а также источник данных. Иногда график могут сопровождать короткие заметки, подчеркивающие или поясняющие некоторые важные моменты. Представьте, что я добавил пояснение: «В Луизиане самый высокий уровень убийств в США, 11,8 на 100 000 населения». Мы называем это «слоем аннотации» 25 — термин, придуманный журналистами New York Times. «Слой аннотации» также часть содержания графика. 25 Лучшая биография Уильяма Плейфэра написана Брюсом Берковицем: «Плейфэр: правдивая история британского секретного агента, который изменил наше видение мира» (Bruce Berkowitz, «Playfair: The True Story ofthe British Secret Agent Who Changed How We See the World»), Фэрфакс, Виргиния, George Mason University Press, 2018 год. Как графики работают 41 Основной элемент любого графика — его визуальное кодирование. Визуализация всегда состоит из символов, обычно геометрических: прямоугольники, круги и пр. Форма и размер фигуры меняется в зависимости от числа, ей соответствующего. Изменение форм и размеров фигур в зависимости от данных и есть кодирование. Представьте гистограмму. В ней длина или высота полосы отражает определенное число. Чем больше число, тем выше или длиннее полоса. Население пяти самых больших стран мира (в миллионах, 2018 г.) Китай 1415 Индия 1354 США 327 Индонезия 267 Бразилия 211 Сравните Индию и США. Население Индии примерно в четыре раза больше населения США. Так как выбранный нами метод кодирования — длина, полоска Индии будет в четыре раза длиннее полоски США. Есть много других способов кодировать информацию, помимо длины и высоты. Один из популярных методов — расположение. На графике ниже расположение каждого округа Флориды, обозначенное точкой на горизонтальной оси, соответствует ежегодному доходу на человека. Чем правее находится точка, тем богаче средний житель округа. Минимум: округ Юнион $13 590 $15 000 Флорида медианный $27 598 $20 000 $25 000 США медианный Максимум: $31 128 округ Сент-Джонс $36 836 $30 000 Медианный доход на жителя в округе (каждая точка — округ) $35 000 (Источник: Бюро переписи населения США ) 42 Глава 1 График сравнивает медианный доход в каждом округе Флориды. Медиана — это значение, разделяющее упорядоченный набор чисел на два равных множества одинакового размера. Например, в округе Юнион медианный доход $13 590. Его население примерно 15 000 человек. Значит, медиана говорит нам, что около 7500 человек в округе зарабатывают больше $13 590 ежегодно и около 7500 — меньше. Но мы не знаем, насколько меньше и больше: у некоторых может быть нулевой доход, а другие — зарабатывать миллионы. Почему мы используем медиану, а не более популярное арифметическое среднее (или просто — среднее)? Мы так делаем, потому что среднее значение более чувствительно к предельным значениям и из-за этого обычно дает более высокое значение, чем реальный доход среднестатистического человека. Представьте, вы хотите изучить средний доход страны с населением в 100 человек. У 99 из них доход $13 590, а один зарабатывает $1 000 000. Медианное значение будет все те же $13 590. Половина населения чуть беднее или такая же, а вторая половина, включая нашего миллионера, чуть богаче или такая же. Но вот среднее арифметическое покажет $23 454. Такое число получится, если сложить доход всего населения и поделить его поровну на 100 человек. Как в старом анекдоте, в котором Билл Гейтс приходит на встречу, и все в комнате в среднем становятся миллионерами. Давайте вернемся к нашей диаграмме рассеяния. Большая часть нашего мозга задействована в обработке информации, поступающей через наши глаза. Поэтому намного проще заметить интересные закономерности в числах, когда эти числа отображены визуально. Посмотрите на таблицу со всеми округами Флориды и их медианным доходом. Тоже своего рода визуализация, но не использующая визуальное кодирование. Как графики работают Округ Доход на человека (в долларах) Округ Доход на человека (в долларах) Округ Алачуа 24 857 Округ Леон 26 196 Округ Бейкер 19 852 Округ Леви 18 304 Округ Бей 24 498 Округ Либерти 16 266 Округ Брадфорд 17 749 Округ Мадисон 15 538 Округ Бревард 27 009 Округ Мэнати 27 322 Округ Броуард 28 205 Округ Марион 21 992 Округ Калхун 14 675 Округ Мартин 34 057 Округ Шарлотт 26 286 Округ Майами-Дейд 23 174 Округ Ситрэс 23 148 Округ Монро 33 974 Округ Клей 26 577 Округ Нассау 28 926 Округ Коллиер 36 439 Округ Окалуса 28 600 Округ Колумбия 19 306 Округ Окичоби 17 787 Округ Де-Сото 15 088 Округ Ориндж 24 877 Округ Дикси 16 851 Округ Оцеола 19 007 Округ Дувал 26 143 Округ Палм-Бич 32 858 Округ Эскамбиа 23 441 Округ Паско 23 736 Округ Флэглер 24 497 Округ Пинелас 29 262 Округ Франклин 19 843 Округ Полк 21 285 Округ Гадсден 17 615 Округ Патнам 18 377 Округ Гилкрист 20 180 Округ Сент-Джонс 36 836 Округ Глейдс 16 011 Округ Сент-Луси 23 285 Округ Галф 18 546 Округ Санта-Роза 26 861 Округ Гамильтон 16 295 Округ Сарасота 32 313 Округ Харди 15 366 Округ Семинол 28 675 Округ Хендри 16 133 Округ Самтер 27 504 Округ Эрнандо 21 411 Округ Суонни 18 431 Округ Хайлендс 20 072 Округ Тейлор 17 045 Округ Хилсборо 27 149 Округ Юнион 13 590 23 973 Округ Холмс 16 845 Округ Волуша Округ Индиан-Ривер 30 532 Округ Уакулла 21 797 Округ Джексон 17 525 Округ Уолтон 25 845 17 385 Округ Джефферсон 21 184 Округ Вашингтон Округ Лафайетт 18 660 Округ Лейк 24 183 Медианный доход во Флориде 27 598 Округ Ли 27 348 Медианный доход в США 31 128 43 44 Глава 1 Таблицы хороши, когда нам нужно найти конкретные значения, например медианный доход в паре определенных округов. Но таблица не помогает нам охватить одним взглядом весь штат. Чтобы понять, о чем я говорю, обратите внимание, насколько проще, глядя на диаграмму рассеяния и на таблицу, увидеть: • каково минимальное и максимальное значение по сравнению с прочими штатами; • что в большинстве округов во Флориде медианный доход ниже, чем в США; • что в двух округах, Сент-Джонс и еще одном, который я не отметил в графике ниже, доход выше, чем в остальной Флориде; • что округ Юнити значительно беднее, чем прочие бедные округа Флориды. Заметьте, как удалена точка Юнити от остальных точек на графике; • что намного больше округов с низким медианным доходом, чем с высоким; • что намного больше округов с медианным доходом ниже медианного дохода штата ($27 598), чем округов с доходом выше. Как последний пункт вообще возможен? Ведь мы же только что выясняли, что медианный доход — уровень, разделяющий группу пополам. Если это верно, то половина округов должна иметь доходы выше, чем медианный, а половина — ниже. На самом деле это работает не так, $27 598 — не медиана медианных доходов 67 штатов Флориды. Это медианный доход более чем 20 миллионов жителей Флориды, независимо Как графики работают от округа их проживания. И значит, что половина жителей (не округов) зарабатывают меньше $27 598, а половина — больше. Такую очевидную странность в нашем графике можно объяснить тем, что в более богатых округах, вероятно, выше численность населения, чем в более бедных. Чтобы понять, так ли это, давайте составим график, использующий позиционирование как метод кодирования. На оси x указан медианный доход округа, а на оси y мы обозначим население округа. Получившаяся диаграмма рассеяния показывает, что наше предположение о распределении доходов, скорее всего, было верным. Медианный доход округа МайамиДейд с самым большим населением чуть ниже медианного дохода Флориды (его точка левее оранжевой линии медианного дохода штата). В некоторых крупных округах, таких как Броуард и Палм-Бич, доход выше медианного по штату. Численность населения 2 500 000 Майами-Дейд Медианный доход в штате 2 000 000 Броуард 1 500 000 Палм-Бич 1 000 000 500 000 Юнион Сент-Джонс 0 $15 000 $20 000 $25 000 $30 000 $35 000 Медианный доход на одного жителя во Флориде Каждая точка означает округ. По 9 округам нет данных (Источник: Бюро переписи населения США) 45 46 Глава 1 Посмотрите внимательнее на округа слева. Каждый по отдельности — малонаселенный (положение по вертикальной оси), но в сумме численность их населения примерно равна численности населения более крупных и богатых штатов справа. Мы обнаружили много интересных свойств графиков, просто слегка переставив цифры. Давайте попробуем чтонибудь новенькое. Во-первых, поменяем вертикальную ось. Теперь высота точки на графике будет означать не население округа, а процент людей в округе, окончивших колледж к 2014 году. Чем выше точка на графике, тем больше людей с высшим образованием в округе. Население с высшим образованием во Флориде Леон Сент-Джонс 70% Семинол Пинелас 60% Броуард Майами-Дейд 50% 40% Юнион 30% $15 000 $20 000 $25 000 $30 000 $35 000 Медианный доход на одного жителя во Флориде Каждая точка означает округ. По 9 округам нет данных (Источник: Бюро переписи населения США) Во-вторых, изменим размер точек на зависящий от числа жителей на квадратную милю. К длине, высоте и положению мы добавили еще один метод кодирования — размер. Как графики работают Чем больше кружок, тем выше плотность населения в округе, который он представляет. Потратьте еще немного времени на чтение нового графика. Обратите внимание на положение точек относительно горизонтальной и вертикальной оси и подумайте, что это может означать. Вот несколько выводов, которые я могу сделать сразу же. • В целом, чем выше медианный доход в округе (положение по горизонтальной оси), тем выше процент людей с высшим образованием (положение по вертикальной оси). Доход и образование имеют положительную связь. • Есть исключения из правила. Так, в округе Леон, где находится столица штата Флорида город Таллахасси, высокий процент людей с высшим образованием, но невысокий медианный доход. Это можно объяснить разными причинами. Например, вероятно в Таллахасси много бедных районов, но столица привлекает образованных и состоятельных людей, желающих работать на правительство или быть поближе к центру сосредоточения власти. • При кодировании плотности населения размером пузырей заметно, что в более богатых и образованных округах плотность населения выше, чем в бедных. Если вы нечасто встречаетесь с графиками, то спросите, как можно увидеть так много с первого взгляда? Чтение графиков сродни чтению книг: чем больше вы читаете, тем быстрее схватываете суть. Но вдобавок мы можем использовать и несколько новых приемов. Во-первых, всегда смотрите, как подписаны оси графика, чтобы понимать, что измеряют. Во-вторых, 47 48 Глава 1 диаграмма рассеяния не зря так называется — она должна показывать разброс несвязанных точек по карте, их разреженность и концентрацию в определенных областях. Точки на нашем графике распределены и по вертикальной, и по горизонтальной оси, так как медианный доход варьируется от совсем маленького до очень большого, равно как и число получивших высшее образование. Третий прием — умозрительное разделение графика на четверти и обозначение их. Сделав это даже мысленно, вы сразу заметите, что в правой нижней четверти нет ни одного округа, да и в левой верхней их немного. В основном округа расположены в правой верхней четверти (высокий доход и высокий уровень образования) или в левой нижней (низкий доход, низкий уровень образования). Посмотрим на результат ниже. Население с высшим образованием во Флориде 70% 60% Низкий доход, много жителей с высшим образованием Высокий доход, много жителей с высшим образованием 50% 40% 30% Низкий доход, мало жителей с высшим образованием $15 000 $20 000 Высокий доход, мало жителей с высшим образованием $25 000 $30 000 $35 000 Медианный доход на одного жителя во Флориде Каждая точка означает округ. По 9 округам нет данных (Источник: Бюро переписи населения США) Как графики работают Четвертый прием: проведите воображаемую линию через центры скопления точек, чтобы понять общую корреляцию между медианным доходом населения и процентом людей с высшим образованием. В данном случае линия идет по диагонали вверх (я увеличил масштаб для наглядности) 26. Когда вы примените все изученные методы, то заметите: направление линии вправо и вверх означает, что чем больше значение на горизонтальной оси (доход), тем больше значение на вертикальной оси (образование). Это положительная корреляция. Некоторые корреляции отрицательные, 26 Объяснение того, как рассчитывать линии тренда, выходит за рамки этой книги. Подробно они и история диаграммы рассеяния обсуждается в работе Майкла Френдли и Дэниэла Дэниса «Раннее происхождение и развитие диаграммы рассеяния» (Daniel Denis, «The Early Origins and Development of the Scatterplot»), Journal of the History of the Behavioral Sciences, выпуск 41, № 2 (весна 2005 г.): 103–130. http://datavis.ca/ papers/friendly-scat.pdf 49 50 Глава 1 как мы видели во вступлении. Например, уровень дохода отрицательно коррелирует с уровнем бедности. Если мы обозначим вертикальную ось (y) как уровень бедности, то наша кривая роста пойдет по диагонали вниз, показывая, что чем выше медианный доход в округе, тем ниже в нем уровень бедности. Из подобного графика мы никогда не должны делать вывод, что корреляция означает причинно- следственную связь. Специалисты по статистике часто повторяют: «Корреляция не значит причинность». Однако корреляция часто ведет нас к раскрытию причинно- следственных связей между явлениями, если у нас хватает данных для такого исследования. Об этом я расскажу в главе 6. Статистики имеют в виду: недостаточно одного лишь графика для доказательства, что высокий уровень образования ведет к высоким доходам или высокий доход ведет к высокому уровню образования. Эти утверждения могут быть истинными или ложными, или может быть другое объяснение одновременно высокого уровня дохода и высокого уровня образования. Мы пока не знаем. График сам по себе редко дает полный ответ. Но он часто помогает нам найти интересные свойства, которые могут дать нужные ответы с помощью других средств. Хорошие графики помогают нам ставить правильные вопросы. Кодирование размером — довольно частый прием при составлении карт. В предисловии мы видели несколько пузырьковых карт, показывающих количество голосов за основных кандидатов в президентской гонке 2016 года. Ниже еще одна, где размер пузырей пропорционален численности населения округа. Как графики работают 51 Округ Лос-Анджелес 10 миллионов Округ Майами-Дейд 2,7 миллиона Я обозначил округ Майами-Дейд, потому что живу в нем, и округ Лос-Анджелес, потому что не знал, какой он большой. Лос-Анджелес — самый густонаселенный округ в США. В нем почти в четыре раза больше людей, чем в МайамиДейд. Давайте поставим эти округа рядом и закодируем их на гистограмме. Округ Лос-Анджелес 10 миллионов Округ Лос-Анджелес Округ Майами-Дейд Округ Майами-Дейд 2,7 миллиона 10 миллионов 2,7 миллиона Заметьте, что разница выглядит куда менее значительной при кодировании размером круга (пузырьковая карта), чем при кодировании длиной или высотой (гистограмма). Почему так происходит? Подумайте: округ с 10-миллионным населением почти в четыре раза больше округа, где 2,7 миллиона населения. Если пропорции для обозначений составлены верно, то мы должны уместить четыре кружка Майами-Дейд в кружке Лос-Анджелеса, а на столбце 52 Глава 1 Лос-Анджелеса отложить четыре столбца Майами-Дейд. Смотрите сами (маленькие черные кружки пересекаются, но сумма их пересечений примерно равна пустым местам между ними). Округ Лос-Анджелес Округ Майами-Дейд Округ Лос-Анджелес 10 миллионов 2,7 миллиона 10 миллионов Округ Майами-Дейд 2,7 миллиона Стандартная ошибка составителя графика — выбрать для отображения данных не площадь круга, а его длину или высоту (диаметр), как в гистограмме. Это также стандартный прием, к которому прибегают желающие усилить разницу между величинами, так что будьте бдительны. В Лос-Анджелесе живет вчетверо больше людей, чем в Майами-Дейд, но если вы увеличите размеры круга в 4 раза, вы увеличите его площадь не в 4, а в 16 раз! Посмотрите, что произойдет, если мы ошибочно увеличим в 4 раза диаметр, а не площадь круга Лос-Анджелеса. Теперь мы сможем уместить 16 кругов Майами-Дейд внутри круга Лос-Анджелеса. Внимание: ошибочный график! Округ Майами-Дейд Округ Лос-Анджелес Как графики работают 53 Есть и другие методы кодирования размером. Например, древовидная карта становится все более популярна в новостных программах. К слову, она совсем не похожа на дерево. Скорее, на головоломку из прямоугольников разного размера. Население по странам и регионам Азия Индонезия Пакистан Америка Бангладеш Океания Мексика США Бразилия Индия Египет Китай Германия Нигерия Эфиопия (Источник: ООН) Африка Россия Европа Древовидные карты называются так, потому что состоят из вложенных иерархий 27. На моем графике каждый прямоугольник занимает площадь пропорционально численности населения соответствующей страны. Суммарная площадь прямоугольников континента также пропорциональна численности населения данного континента. Древовидная карта часта используется вместо визуализации 27 Бен Шнейдерман, Кэтрин Плезант. «Древовидные карты для визуализации иерархий в ограниченном пространстве, включая историю исследований древовидных карт в Университете Мэриленда» (Ben Shneiderman and Catherine Plaisant, «Treemaps for Space- Constrained Visualization of Hierarchies, including the History of Treemap Research at the University of Maryland»), Университет Мэриленда. http://www. cs.umd.edu/hcil/treemap-history/ 54 Глава 1 с помощью более популярной и также основанной на площади круговой (секторной) диаграммы. Ниже такая диаграмма с теми же данными по континентам. Население по континентам Океания Европа 1% 10% Америка 13% Африка 16% Азия 60% Зона каждого сектора в круговой диаграмме пропорциональна данным, но также пропорциональны углы (углы — еще один способ кодирования) и дуги каждого «кусочка пирога». Как это работает: в окружности 360 градусов; Азия представляет 60% мирового населения; 60% от 360–216; следовательно, угол между двумя радиусами, ограничивающими сектор Азии, будет 216 градусов. Есть и другие методы кодирования, помимо длины или высоты, положения, площади и углов. Цвет — один из самых популярных. Эта книга начинается с карты, использующей и цветовое и оттеночное кодирование: цветовое (красный/серый) кодирование говорит, какой кандидат выиграл в каждом округе, а оттеночное (светлее/темнее) кодирование показывает процент голосов, отданных за победившего кандидата. Как графики работают 55 Две карты представляют процент афроамериканцев и латиноамериканцев в округах США. Чем темнее оттенок серого, тем выше процент афроамериканцев или латиноамериканцев среди населения данного округа. Процент афроамериканцев 0% 50% Процент латиноамериканцев 100% 0% Нет данных 18% (в среднем в США) 50% 100% 17% (в среднем в США) (Источник: Бюро переписи населения США) Оттенки цвета иногда позволяют представить данные в виде тепловой карты. В следующем графике насыщенность оранжевого цвета пропорциональна колебаниям температуры на планете в градусах Цельсия по годам и месяцам в сравнении со средней температурой с 1951 по 1980 год. Средняя температура на планете по месяцам 1900 1910 1920 1930 1940 1950 Год 1960 1970 1980 1990 2000 2010 2017 Янв. Февр. Март Апр. Месяц Май Июнь Июль Авг. Сент. Окт. Нояб. Дек. Температура в градусах Цельсия Изменения в сравнении со средним значением за 1951–1980 годы (нулевая точка) -1 0 +1 +2 (Источник: Berkeley Earth) 56 Глава 1 Каждый столбец представляет год, а каждый ряд — месяц. Шкала тепловой карты не так точна, как мы видели на графиках ранее, потому что основная цель — не фокусироваться на частностях, а показать общие изменения. Чем ближе к сегодняшнему дню, тем теплее большая часть месяцев. Есть и другие, более редкие, способы кодировать информацию. Например, вместо изменения положения, длины и высоты объекта, мы можем изменить его толщину или плотность, как показано на визуализации Лазаро Гамио для сайта Axios. Ширина линии пропорциональна числу людей или организаций, кого президент Трамп критиковал в соцсетях между 21 января и 11 октября 2017 года 28. Все, кого атаковал Трамп в «Твиттере», после того как стал президентом ɜɵɩɚɞɨɜɫɹɧɜɚɪɹ ɩɨɨɤɬɹɛɪɹɝɨɞɚ Другие Другие New York Times Чак и Нэнси CNN Хиллари NBC Демократы Конкретные СМИ СМИ Коркер Другие Республиканцы Другие «Фейк ньюс!» Публичные личности Международные деятели Комики Компании Знаменитости Спортсмены 28 Другие Стеф Кайт. «На кого больше всего Трамп нападает в “Твиттере”» (Stef W. Kight, «Who Trump Attacks the Most on Twitter»), Axios, 14 октября 2017 г. https://www.axios.com/who-trump-attacks-the-most-ontwitter-1513305449-f084c32e-fcdf-43a3-8c55-2da84d45db34.html Как графики работают Итого, большая часть графиков кодирует информацию, изменяя свойства символов (линий, кругов или прямоугольников): их длину или высоту, положение, размер или площадь, угол, цвет или оттенок и т. п. Эти методы кодирования могут комбинироваться в одном графике. А теперь давайте вас проверим. Следующий график показывает коэффициент рождаемости в Испании и Швеции между 1950 и 2005 годами. Коэффициент рождаемости — среднее число детей на одну женщину в стране. Как видно, в 50-х испанские женщины рожали в среднем чаще шведских. Но к 80-м ситуация поменялась на противоположную. Попробуйте определить, какие методы использованы в этом графике. Коэффициент рождаемости в Испании и Швеции Число детей на одну женщину на протяжении ее жизни 3 2.6 2 2.2 1.9 1.4 1 0 1950 1960 1970 1980 1990 2000 (Источник: ООН) Первый — выделение цветом для обозначения двух стран, Испании (оранжевым) и Швеции (серым). Количество, в данном случае — число детей на одну женщину, закодировано через положение. График построен на соединенных линиями точках, координаты которых по горизонтальной оси указывают годы, а по вертикальной оси — коэффициент рождаемости. Если убрать линии, то мы получим все тот же график коэффициента 57 58 Глава 1 рождаемости в Испании и Швеции, но куда менее наглядный. Коэффициент рождаемости в Испании и Швеции Число детей на одну женщину на протяжении ее жизни 3 2 1 0 1950 1960 1970 1980 1990 2000 (Источник: ООН) Угол наклона на графике также несет информацию. Чем сильнее наклон после соединения точек, тем быстрее изменяется наша величина. А что насчет следующего графика? Какие здесь использованы методы кодирования? Размер круга пропорционален численности городского населения Валовый внутренний продукт (ВВП) на душу населения (в долларах США) 0 130,000 (Источник: ООН) Как графики работают Первый, который вы скорее всего заметите, — кодирование оттенками: чем темнее цвет округа, тем выше в нем ВВП на душу населения. Второй метод — площадь: круги представляют население городских агломераций, в которых проживает больше миллиона человек. Это объясняет, например, почему на карте нет Майами. Гигантская область, занимаемая Майами, состоит из нескольких городов, ни в одном из которых нет миллиона жителей. Но еще не все. Положение — также метод кодирования этого графика. Почему? Вспомните, что мы выучили в начале главы: карты собираются из точек, отмеченных на плоскости по горизонтальной оси (долгота) и вертикальной оси (широта). Суша и границы округов на карте обозначены маленькими точками, связанными друг с другом, а расположение пузырей соответствует широте и долготе каждого города. Когнитивные психологи, изучавшие, как люди читают графики, пишут, что наши предыдущие знания и опыт играют ключевую роль при интерпретации. Они считают, что наш разум хранит набор идеальных «мысленных представлений», с которыми сравнивают все увиденные графики. Психолог Стивен Косслин даже предложил «правило соответствующих знаний» 29, которое в применении к графикам говорит, что эффективная коммуникация между создателем графика (мной) и аудиторией (вами) требует, 29 Стивен Косслин и др. «Ошибки и недостатки презентации в PowerPoint: психологический анализ» (Stephen M. Kosslyn et al., «PowerPoint Presentation Flaws and Failures: A Psychological Analysis»), Frontiers in Psychology 3 (2012): 230. https://www.ncbi.nlm.nih.gov/pmc/articles/ PMC3398435/ 59 60 Глава 1 чтобы все мы одинаково понимали, о чем этот график и как в нем закодированы данные. То есть владели схожими мысленными представлениями о том, чего ожидать от графика. Мысленные представления экономят нам много времени и усилий. Допустим, ваше мысленное представление о графиках звучит так: «Время (день, месяц, год) откладывается по горизонтальной оси, количество откладывается по вертикальной оси, а данные представляются линией». Если это ваша мысленная модель, то вам не понадобится много, чтобы понять следующий график вне зависимости от его названия и того, как будут подписаны оси. В среднем каждый китаец в 2014 году загрязнял окружающую среду больше, чем каждый швед в 1960 году 25 Выбросы углекислого газа (CO2) в тоннах на человека в год в четырех выбранных странах 20 США 15 10 Китай Среднемировое значение 5 Швеция Индия 0 1960 1970 1980 1990 2000 2010 2014 (По данным Всемирного банка) Впрочем, мысленные представления могут и сбить нас с толку. Мои собственные представления о графиках шире и гибче тех, что я описал выше. Если вы представляете графики только как «время по горизонтальной шкале, величина по вертикальной», то график собьет с толку. Как графики работают Выбросы углекислого газа (CO2) в тоннах на человека в 2014 году 50 ВВП на человека в 2014 году (в долларах США) 150 000 Катар 25 75 000 США Швеция Китай Индия (Источник: ООН) 0 0 Он называется диаграммой с параллельными координатами. Этот способ визуализации также использует линии, но у него не отмечается время на горизонтальной оси. Прочтите, как подписаны вертикальные оси, и вы узнаете, что тут две разные изменяющиеся величины: выбросы углекислого газа на человека и ВВП на человека в долларах США. Методы кодировки здесь, как и во многих графиках, положение и наклон. Чем выше страна по каждой из осей, тем выше выброс углекислого газа или ВВП соответственно. Диаграммы с параллельными координатами были придуманы, чтобы сравнивать две независимые величины и прослеживать отношения между ними. Посмотрите на каждую страну в отдельности и под каким углом идет ее линия. Линии Катара, США и Индии практически горизонтальные, то есть их положение на одной оси соответствует положению на другой (высокий выброс связан с высоким уровнем благосостояния). А теперь посмотрите на Швецию: люди там создают относительно мало выбросов, но ВВП на человека столь же высок, как и в США. Теперь давайте сравним Китай и Индию: их ВВП значительно ближе друг к другу, чем показатели 61 Глава 1 выбросов на человека. Почему? Я понятия не имею 30. График не всегда отвечает на поставленный вопрос, но часто показывает интересные факты, с помощью которых можно точнее сформулировать вопрос о данных. Вот еще задачка. Зайдя так далеко, вы уже имеете мысленное представление о том, что такое диаграмма рассеяния. Эта, в которой я выделил некоторые страны, вызвавшие интерес, должна быть достаточность простой. Каждая точка обозначает страну Выбросы углекислого газа на человека (в тоннах) в 2014 году 62 Катар China 40 Тринидат и Тобаго 30 линия тренда 20 Люксембург США 10 Швейцария 0 0 20 000 40 000 60 000 80 000 100 000 120 000 140 000 ВВП на человека в 2014 году (в долларах США) (По данным Всемирного банка) 30 Мэтт Макграт. «Выбросы углекислого газа на душу населения в Китае выше, чем в ЕС» (Matt McGrath, «China's Per Capita Carbon Emissions Overtake EU's»), BBC News, 21 сентября 2014 г. http://www.bbc.com/ news/science- environment-29239194 Как графики работают Мысленная модель, которую вы уже усвоили для обычных диаграмм рассеяния, позволяет заметить, что — за некоторыми исключениями, выделенными на графике, — чем богаче люди в стране, тем больше выбросов. Но что если я покажу вам другую диаграмму рассеяния, больше похожую на линейный график? Вы можете увидеть его на следующей странице. Прежде чем ваш мозг взорвется от напряжения или вы вышвырнете книгу в окно, я хочу сказать, что сам был в недоумении, впервые встретив подобный график. Этот график, обычно называемый связанной диаграммой рассеяния, несколько сложнее осознать. Попробуйте воспринимать его так: Выбросы углекислого газа на человека (в тоннах) 20 1990 США 2014 15 10 2014 1990 Китай Швеция 2014 5 1990 2014 Среднемировое значение 1990 2014 0 1990 0 Индия 10 000 20 000 30 000 40 000 ВВП на человека (в долларах США) 50 000 60 000 (По данным Всемирного банка) • Каждая линия — это страна. Здесь четыре линии стран плюс линия среднемирового значения. 63 64 Глава 1 • Линии состоят из соединенных точек, каждая из которых представляет год. Я подписал только первый и последний годы — 1990 и 2014. • Положение точки по горизонтальной оси соответствует размеру ВВП на человека в стране в том году. • Положение по вертикальной оси соответствует выбросам углекислого газа на человека в стране в том году. Линии на этом графике похожи на тропинки: они идут вперед или назад в зависимости от того, становятся люди в стране богаче или беднее, и вверх или вниз в зависимости от того, загрязняют люди в стране природу больше или меньше. Чтобы сделать картинку еще понятнее, я добавлю стрелочки для направления движения и нарисую розу ветров. Зачем кому-то отображать данные таким странным способом? Чтобы подчеркнуть основную мысль этого графика: как минимум в развитых экономиках рост благосостояния не всегда ведет к росту выбросов. В двух богатых странах, которые я отметил, США и Швеции, люди становятся богаче в среднем между 1990 и 2014 годами, расстояние по горизонтали между годами весьма заметно. Но они же создают меньше выбросов, потому что в 1990 году точки стран стоят выше по вертикальной оси, чем в 2014 году в обоих случаях. Как графики работают 30 Выбросы углекислого газа на человека (тонн СО2) США Швеция Китай 65 Индия 20 10 0 ВВП 60 000 на человека 45 000 (в долларах США) 30 000 15 000 0 1990 2000 2014 (По данным Всемирного банка) Взаимосвязь между выбросами и ВВП в развивающихся странах обычно другая, потому что в них есть большие индустриальные и сельскохозяйственные комплексы, загрязняющие окружающую среду. В двух странах, которые я выбрал для иллюстрации — в Индии и Китае, — люди стали богаче, так как их точки 2014 года сильно сдвинулись вправо относительно 1990 года. Но одновременно они стали больше загрязнять окружающую среду: вы сами можете видеть, что точки 2014 года значительно выше точек 1990 года. Вероятно, вы подумаете — и я соглашусь, — что достаточно было просто нарисовать два параллельных графика с выбросами углекислого газа и ВВП по годам для каждой страны, как приведенные ниже, чтобы донести эту мысль. Из-за таких графиков, как связанная диаграмма рассеяния, я и начал главу с напоминания, что графики редко бывают очевидными или интуитивно понятными, как считают многие. Чтобы прочитать график верно или создать мысленную модель для графика, который мы впервые встретили, нам надо быть внимательными и никогда ничего не принимать за данность. Графики основаны на грамматике и словаре символов (линии, круги, столбцы), визуальном кодировании (длина, позиция, размер, цвет и т. д.) 66 Глава 1 и тексте (аннотации и подписи). Это делает построение графиков столь же удобным, как использование письменной речи, или даже удобнее. Чтобы объяснить что-то в письменном виде, мы собираем предложения из слов, параграфы из предложений, части или главы из параграфов и т. д. Порядок слов в предложении зависти от набора синтаксических правил, но может различаться в зависимости от того, что мы хотим донести и с каким эмоциональным окрасом. Так начинается шедевр Габриэля Гарсиа Маркеса «Сто лет одиночества»: «Много лет спустя, перед самым расстрелом, полковник Аурелиано Буэндия припомнит тот далекий день, когда отец повел его поглядеть на лед». Я могу донести ту же информацию, переставив слова в другом порядке: Полковник Аурелиано Буэндия вспомнил далекий день, когда отец впервые повел его поглядеть на лед, перед самым расстрелом много лет спустя. Первый вариант звучит как музыка, в то время как моя версия неуклюжа и бездарна. Но оба варианта сообщают одну и ту же информацию, потому что они составлены в рамках одних правил. Если мы прочтем их неспешно и вдумчиво, то сможем понять, о чем речь, в обоих случаях, хотя в первом читать будет куда приятнее, чем во втором. Иногда нечто похожее происходит и с графиками: если вы бегло просмотрите их, то мало что поймете, хотя можете считать иначе. Хорошо продуманные графики не просто доносят до вас информацию, но делают это красиво и иногда, как в метком выражении, иронично и неожиданно. Как графики работают 67 Демократы выигрывают дополнительные выборы 1 Со дня инаугурации в январе 2017 кандидаты от Демократической партии сильно преуспели в дополнительных выборах. Во многих районах выросло число избирателей-демократов в сравнении с результатами президентских выборов 2016 года. Каждый круг дополнительных выборов 2 Демократы сменили место Демократы сохранили место Республиканцы сменили место Республиканцы сохранили место 2 4 Демократы сорвали куш в 49-м избирательном округе Кентукки: на 86% больше голосов, чем на президентских выборах в 2016 году +80 +60 3 +40 Больше демократов Разница по сравнению с результатами на президентских выборах в 2016 году Больше республиканцев +20 0 +20 2 1 +40 0 (Источник: Weekly Standard) 2 100 дней 200 дней 300 дней 400 дней Дни, прошедшие с инаугурации (17 января 2017 года) Так же, как длинные, глубокие и сложные предложения нельзя схватить на лету, так и графики, отображающие важную и заслуживающую внимания информацию, требуют от вас определенных усилий. Хороший график — не просто иллюстрация, но и визуальная аргументация 68 Глава 1 или часть аргументации. Как не потерять ход мысли составителя? Следуйте по пунктам, которые я пометил оранжевыми цифрами на графике журналиста Дэвида Байлера из Washington Post. 1. Название, вводная часть (или сопроводительная подпись), источник. Если в графике есть название и описание, прочитайте их. Если указан источник данных — ознакомьтесь с ним (подробнее в главе 3). 2. Измеряемая величина, единицы измерения, шкалы и легенда графика. График должен рассказать вам, что измеряется и как. Автор может сделать это в текстовой или визуальной форме. Здесь по вертикальной оси откладывается разница между результатами дополнительных выборов и результатами президентских выборов 2016 года. Горизонтальная ось — сколько дней прошло после инаугурации 20 января 2017 года. Цвета кругов показывают, кто выиграл досрочные выборы. 3. Способы визуального кодирования. Один мы уже отметили — цвет. Серый означает победу демократов, а оранжевый — республиканцев. Оттенок, темный или светлый, указывает, выиграл ли кандидат от прежней партии. Второй способ кодирования: положение по вертикальной оси соответствует разнице с результатами президентских выборов 2016 года (в процентах). Другими словами, чем выше точка над нулевой чертой, тем лучше демократы выступили по сравнению с 2016 годом. Верно и обратное: чем ниже точка, тем хуже демократы себя показали. Как графики работают Приведу пример: представьте, что в одном из районов республиканцы получили 60% на президентских выборах 2016 года, а на нашем графике точка района стоит на отметке +20 по вертикальной оси. Значит, республиканцы получили только 40% на последних дополнительных выборах, а 20% — изменения в пользу демократов (если не учитывать независимых кандидатов). 4. Читайте описание. Иногда автор добавляет небольшое словесное описание к графику, чтобы отметить наиболее важные выводы или обратить внимание на существенные моменты. На этом графике есть заметка о выборах в 49-м избирательном округе Кентукки, где демократы сменили республиканцев, получив потрясающий прирост избирателей на 86%. 5. Посмотрите на график в целом, чтобы увидеть систему, тенденции и взаимосвязи. Как только вы поймете основы, на которых построен такой сложный график, наступает время взглянуть на него шире и подумать, какая видна система, тенденции и взаимосвязи между данными. Поднимаясь от частного к общему, мы перестаем смотреть на отдельные символы — кружки районов в данном случае, — и стараемся понять, как они группируются. Вот что я заметил. • С января 2017 года демократы выиграли больше мест у республиканцев, чем республиканцы у демократов. В действительности республиканцы отбили всего одно место. • Тем не менее и демократы, и республиканцы удержали большую часть своих мест. 69 70 Глава 1 • Гораздо больше точек лежит выше нулевой линии, чем ниже ее. Значит, демократы выиграли очень много за первые 400 дней, прошедшие с инаугурации, если сравнивать с результатами президентских выборов 2016 года. Сколько времени мне понадобилось, чтобы увидеть все это? Гораздо больше, чем вы думаете. Что, тем не менее, ни в коем случае не признак плохо продуманного графика. Многие из нас учили в школе, что все графики должны быть понятны с первого взгляда, но это нереально. Некоторые простые графики и карты действительно можно понять с первого взгляда, но многие другие, особенно те, что посвящены сложной и глубокой теме, могут потребовать время и усилия, которые окупятся, если график хорошо продуман. Многие графики не могут быть простыми, потому что то, что они хотят рассказать, — сложно. Единственное, что мы, читатели, имеем право требовать от авторов графиков, — не вносить усложнений без необходимости. В любом случае, продолжая проводить аналогию между графиком и текстом, которую я начал несколько страниц назад, вы не можете рассчитывать, что поймете содержание новости или эссе, прочитав только название или пробежавшись глазами по тексту. Чтобы понять содержание эссе, вам придется прочитать его внимательно от начала до конца. То же самое с графиками. Если вы хотите получить максимум пользы, то придется глубоко в них погрузиться. Теперь, когда мы знаем, как читать график на уровне символов и грамматики, защититься от плохих графиков становится легче и мы можем перейти на семантический уровень, Как графики работают чтобы их верно интерпретировать. График может обманывать, потому что: • плохо проработан; • использует неверные данные; • показывает неверный объем данных — слишком много или слишком мало; • скрывает или путает данные; • предлагает неверные обобщения; • потакает нашим ожиданиям или предубеждениям. Если график основан на верном представлении данных различными методами кодирования, то вы не удивитесь, если я скажу, что с помощью вышеперечисленных принципов мы обязательно найдем визуальные несоответствия. Давайте попробуем. 71 72 Глава 2 Глава 2 Графики, которые лгут, потому что плохо проработаны М ногое может пойти наперекосяк в процессе создания графика. Размер символов, отображающих данные, непропорционален объемам данных. Неверно обозначена размерность осей. Измеряемые величины выбраны без учета специфики данных. Теперь, познакомившись с основными принципами создания графиков, мы готовы увидеть, что будет, если эти принципы нарушать. Партийная солидарность — неизбежное зло политики, но она вовсе не извиняет плохие графики. Во вторник, 29 сентября 2015 года, Конгресс провел слушания с участием бывшего президента Федерации планируемого родительства Сесиль Ричардс. Федерация планируемого родительства — американская некоммерческая организация, занимающаяся заботой о репродуктивном здоровье и сексуальном Графики, которые лгут, потому что плохо проработаны 73 просвещении. Консервативные республиканцы часто предъявляли претензии к организации, потому что среди ее услуг есть и аборты. Республиканец из Юты Джейсон Чаффец предъявил следующий график во время оживленного обмена мнениями с Ричардс 31. Не старайтесь прочесть подписи, они сделаны тем же мелким шрифтом, что и в оригинале. Федерация планируемого родительства Америки Аборты растут — жизнесохраняющие процедуры падают по 2 007 371 в 2006 пр оф Услу ил ги ак т ик е 328 000 в 2013 ра ка рты Або 289 750 в 2006 2006 935 573 в 2013 2007 2008 2009 2010 2011 2012 2013 (Источник: Americans United for Life) Чаффец потребовал, чтобы Ричардс посмотрела на график и дала ему объяснения. Ричардс, сидевшая далеко от экрана, на который транслировался график, сощурилась, пытаясь разобрать, что там написано, и пришла в недоумение. Чаффец сообщил ей: «Серым — это снижение количества 31 Канал MSNBC запечатлел этот момент: TPM TV «Сесиль Ричардс из “Планируемого родительства” занимает кресло от Республиканской партии благодаря графику абортов» (Planned Parenthood's Cecile Richards Shuts Down GOP Chairover Abortion Chart). https://www. youtube.com/watch?v=iGlLLzw5_KM 74 Глава 2 скринингов на рак груди, а оранжевым — рост количества абортов. Вот что происходит в вашей организации». Ричардс ответила, что не знает, откуда взялся этот график, и в любом случае «он не отражает того, чем Федерация планируемого родительства занимается». Тогда Чаффец взорвался: «Вы отрицаете, что мы получили эти числа из вашего же отчета? …Я взял данные непосредственно из ваших корпоративных отчетов!» Это правда лишь отчасти, на что и указала Ричардс: «На самом деле, источник этого графика — Americans United for Life (AUL), группа противников абортов. Проверяйте свои источники информации». Чаффец начал слегка запинаться: «Мы… мы обязательно докопаемся до сути». «Суть» оказалась в том, что цифры действительно взяты из отчета Федерации планируемого родительства, но AUL исказило данные в своем изложении. График показывает, что услуги по профилактике рака падают с той же скоростью, с какой аборты растут. Это неправда. График лжет, потому что использует разную вертикальную шкалу для каждого из показателей. Из него можно сделать вывод, что в 2013 году Федерация планируемого родительства сделало больше абортов, чем превентивных процедур. Попробуйте теперь прочесть крохотные цифры. Действительно, было резкое падение количества процедур по профилактике рака, с двух до одного миллиона. Но вот количество абортов выросло примерно с 290 000 до 328 000. Если мы нарисуем графики с общей шкалой измерений, то получим вот что. Графики, которые лгут, потому что плохо проработаны 75 Федерация планируемого родительства Америки 2 000 000 2 007 371 в 2006 по про Усл фи уги лак тик ер ак а 935 573 в 2013 1 000 000 Аборты 0 289 750 в 2006 2006 328 000 в 2013 2013 Сайт для проверки данных PolitiFact узнал, как появился первый график, и поговорил с несколькими источниками, способными пояснить изменения в видах услуг, оказываемых Федерацией планируемого родительства: 32 «Количество услуг, предоставляемых в каждой категории, меняется от года к году по множеству причин, начиная от изменения законов и медицинских методов и заканчивая закрытием или открытием клиник Федерации планируемого родительства». И дело не в том, что рост числа абортов весьма незначителен, а в том, что оно даже уменьшилось с 2011 года. Как это возможно, если цифры в первом графике верны? 32 Линда Цю. «График, показанный на дебатах с "Планируемым родительством" вводит в заблуждение и "этически неверен"» (Linda Qiu, "Chart Shown at Planned Parenthood Hearing Is Misleading and 'Ethically Wrong"), Politifact, 1 октября 2015 г. https://www.politifact. com/factchecks/2015/oct/01/jason- chaffetz/chart- shown-plannedparenthood-hearing-misleading-/ 76 Глава 2 Причина в том, что хотя на графике обозначены все годы с 2006-го по 2013-й, линии проводятся только между значениями 2006 и 2013, игнорируя то, что было между ними. Ниже график с годовым количеством абортов, в котором отмечены два небольших пика в 2009-м и 2011-м. Аборты, сделанные Федерацией планируемого родительства Нет данных за 2008 2006 331 796 333 964 327 653 2009 2011 2013 (Источник: Федерация планируемого родительства Америки) Следовательно, AUL не только искажала реальную информацию, что мы обсуждаем в текущей главе, но и скрывала часть важной информации, к этому мы вернемся в главе 4. Специалист по обработке и дизайну данных Эмили Шух собрала отчеты Федерации планируемого родительства с 2006 по 2013 год (кроме 2008-го) и показала, что организация не только диагностирует рак и делает аборты, но проводит много других процедур. В том числе сохранение беременности и дородовой уход или тестирование на заболевания, передающиеся половым путем. Аборты — лишь малая доля того, чем занимается Федерация. Посмотрите на график Шух. Из него видно, что число услуг по тестированию и лечению заболеваний и инфекций, Графики, которые лгут, потому что плохо проработаны 77 передающихся половым путем, выросло на 50% в промежутке с 2006 по 2013 год. Автор также нашла причину, почему в этот период снизилось количество скринингов для обнаружения рака, и привела ее. Услуги, предоставляемые Федерацией планируемого родительства (в миллионах) 5 Выявление и лечение ЗПП/ИПП 4 Контрацепция 3 Нет данных за 2008 год 2 1 До- и послеродовые услуги Онкоскрининг 0 Аборты Другие услуги 2006 2008 2010 2013 (Источник: Эмили Шух и Федерация планируемого родительства Америки) Официальные национальные рекомендации, касающиеся частоты проверки на рак шейки матки, изменились в 2012 году, однако Американская коллегия акушерства и гинекологии рекомендовала снизить ее еще в 2009 году. Ранее женщинам советовали делать цитологический мазок для проверки на рак раз в год, теперь рекомендовано проводить эту процедуру раз в три года 33. Для целей нашей книги неважно, поддерживаете ли вы государственное финансирование Федерации планируемого родительства. График Эмилии Шух лучше графика AUL, потому что включает в себя все необходимые данные и не искажает их, чтобы подтвердить требуемую точку 33 Репозиторий Шух на Github. https://emschuch.github.io/ 78 Глава 2 зрения. В этом разница между дизайнером, который рисует график, чтобы донести до людей информацию для честной дискуссии, и теми, кто делает их ради грязной пропаганды. Визуальное искажение — постоянный источник шуток для тех, кто умеет составлять и читать графики. Но также и постоянный раздражитель. Представьте, что я хочу похвастаться успехами своей компании по сравнению с конкурентами, и делаю это с помощью следующего графика. Рекордные продажи! 35 миллионов долларов в 2018 году Конкурент 1 Конкурент 2 Конкурент 3 Конкурент 4 Наша компания Моя компания также доминирует на рынке. Посмотрите на нашу долю в общих продажах! Доли всех компаний на нашем рынке Конкурент 4 Конкурент 1 Конкурент 3 Рекордные продажи на Конкурент 2 35 миллионов долларов в 2018 году И наш бизнес процветает с 2011 года! Графики, которые лгут, потому что плохо проработаны 79 Продажи нашей компании идут вверх! 40 35 Рекордные продажи! 30 25 20 2011 ‘12 ‘13 ‘14 ‘15 ‘16 2017 35 миллионов долларов в 2018 году Трехмерные эффекты — бич современных графиков. Вам может показаться, что я преувеличиваю на выдуманном примере. Это не так. Просто полистайте пресс-релизы, презентации, веб-сайты или отчеты многих организаций, и вы встретите похожие графики, а то и похуже. Они смотрятся красиво и привлекательно, но совершенно не способны донести до вас информацию. Попробуйте понять, имеет ли мое утверждение о доминировании на рынке и росте продаж под собой основания. Сложно, не правда ли? Выбрав удобную перспективу, я преувеличил мои успехи. Кстати, будь график интерактивным или показан через устройство виртуальной реальности, позволяющее менять угол обзора и рассматривать трехмерный график в двух измерениях, то этой проблемы можно было бы избежать. Некоторые настаивают, что трехмерные графики приемлемы, потому что вы можете подписать каждое значение в вашем графике сверху столбцов, линий или сегментов круга. Но в чем смысл такого графика? Хороший график должен показывать тенденции и систему, не требуя закапываться в цифры. Если я уберу увеличивающую перспективу, высота столбцов будет пропорциональна данным, как и сегмент круга и высота линии. И тогда станет ясно, что Конкурент 1 80 Глава 2 немного успешнее нашей компании, и продажи в 2018 году ниже нашего пика в 2013-м. Продажи 2018 года Доля рынка Наши продажи с 2011 года (в миллионах долларов) 40 36 35 (в миллионах долларов) Конкурент 1 20 40 20 0 Конкурент 1 Наша компания Наша компания 0 2011 2013 2018 Искажения в графиках обычно случаются из-за манипуляций с размерностью и пропорциями. В декабре 2015 года ObamaWhiteHouse написал в твиттере: «Отличная новость: процент выпускников старшей школы в Америке побил все рекорды предыдущих лет» и добавил это график 34. 34 Архив Белого дома (@ObamaWhiteHouse) «Хорошие новости: число окончивших среднюю школу в Америке выросло до рекордно высокого уровня» (Good news: America's high school graduation rate has increased to an all-time high), Twitter, 16 декабря 2015 года, 10:11. https://twitter. com/ObamaWhiteHouse/status/677189256834609152 Графики, которые лгут, потому что плохо проработаны 81 Дизайн визуализации, его размерность и кодирование должны зависеть от характера данных. В данном случае у нас годовой процент и метод кодирования — высота столбца. Поэтому лучше всего делать высоту пропорциональной проценту, ставя нижнюю точку на 0% и верхнюю на 100%. При президенте Обаме школу оканчивают больше учеников, чем когда-либо Процент сдавших выпускные экзамены 100% 75% 82% 75% 50% 25% 0% 2007–8 2008–9 2009–10 2010–11 2011–12 2012–13 2013–14 На этом графике высота столбцов пропорциональна данным, а используя крупный шрифт для начальных и конечных значений, график сохраняет основную мысль: указать на 7-процентный рост числа выпускников как на отличную новость. График ObamaWhiteHouse плох тем, что отрезает как вертикальную ось (y), так и горизонтальную (x). Как отметил новостной сайт Quartz (https://qz.com), основываясь на данных Министерства образования США, начиная ось x с 2007– 2008 школьного года, автор скрыл тот факт, что процент выпускников школы растет с середины 1990-х, а не только во время правления Обамы 35. 35 Кейт Коллинз. «Самые лживые графики 2015 года, исправленные» (Keith Collins, «The Most Misleading Charts of 2015»), Fixed, Quartz, 23 декабря 2015 г. https://qz.com/580859/the-most-misleading-charts-of-2015-fixed/ 82 Глава 2 Процент выпускников школы во время правления каждого президента 100% Рейган Буш Клинтон Буш Обама 82% 75% 71% 50% 1979–80 2013–14 (Источник: Национальный центр статистики образования) Вы спросите, почему я не начал этот график с 0%. В этой главе мы поговорим еще о том, как размечать оси, но основная идея такая: я советую ставить ноль как начало в случае, если метод кодирования данных — высота или длина. Если используется другой метод, то необязательно начинать с нуля. Кодирование этого графика — положение и угол, а они не искажаются, если поставить начало ближе к первым значениям. Линии на следующих двух графиках абсолютно идентичны, и обе не обманывают. Единственная разница — начало графика. На первом я выделил начало графика, потому что это ноль. На втором начало графика не выделено, потому что это не ноль. 100% 100% 75% 75% 50% 50% 25% 0% Графики, которые лгут, потому что плохо проработаны 83 Сфокусировавшись на легенде и осях графика до анализа его содержания, вы сможете заметить искажения. Ниже график, опубликованный в 2014 году испанским городом Алькоркон, чтобы отметить отличный рынок труда, созданный при действующем мэре Давиде Пересе Гарсиа. Две части похожи на отражения друг друга: безработица резко выросла при предыдущем мэре, Энрике Каскаллана Галластеги, а затем пошла вниз примерно с той же скоростью при нынешнем мэре, Пересе Гарсиа. Или так кажется на первый взгляд, пока вы не прочтете маленькие цифры внизу. Безработные взрослые в Алькорконе 13 309 При действующем мэре При прошлом мэре 7128 2007 16 099 2008 2009 2010 15 293 2011 2013 2014 Проблема в том, что обе оси, горизонтальная и вертикальная, тут неправильные. Первая часть графика отображает погодовую динамику, в то время как вторая — помесячную. Когда мы соединим обе части графика в вертикальных и горизонтальных размерностях, то увидим, что безработица все еще падает при новом мэре, но уже не так впечатляюще, как раньше. Сознательные или случайные искажения в масштабах могут показаться безвредными. Ведь некоторые авторы графиков так и говорят: «Все должны читать подписи 84 Глава 2 к осям. Прочитав их, можно мысленно исправить график». Безусловно, все мы должны обращать внимание на подписи, но зачем играться с масштабом и размерностью, создавая трудности читателям? Безработные взрослые в Алькорконе 16 099 15 000 15 293 13 309 Нет данных за 2012 год 10 000 При прошлом мэре 7128 5000 При действующем мэре 0 2007 2008 2009 2010 2011 2012 2013 2014 Более того, даже если мы, прочитав легенду искаженного графика, мысленно восстановим его естественный вид, искаженный вариант все равно может повлиять на наше восприятие. Группа исследователей из Университета Нью-Йорка сделала две версии нескольких графиков о придуманной величине — доступность питьевой воды в выдуманных городах Уиллоутаун и Сильватаун 36. Первая версия графиков показывала данные верно, без искажений масштаба и пропорций. Вторая версия искажала их: в ней на гистограмме была 36 Аншул Викрам Пандей и соавторы. «Как обманывают неверные визуализации? Эмпирический анализ распространенных методов искажения» (Anshul Vikram Pandey et al., «How Deceptive Are Deceptive Visualizations? An Empirical Analysis of Common Distortion Techniques»), Рабочие документы по публичному праву и правовой теории Нью-Йоркского университета, 504, 2015 г. https://dl.acm.org/ doi/10.1145/2702123.2702608 Графики, которые лгут, потому что плохо проработаны 85 обрезана вертикальная ось, на пузырьковой карте числа не были пропорциональны размерам кругов, а на графике соотношение осей было выбрано так, чтобы минимизировать изменения данных. Ниже три правильных графика против трех искаженных. Правильная версия Искаженная версия Процент населения с доступом к чистой питьевой воде Процент населения с доступом к чистой питьевой воде 100% 85% 75% 84% 50% 83% 25% 82% 0% 81% Уиллоутаун Сильватаун Процент населения с доступом к чистой питьевой воде Уиллоутаун Сильватаун Процент населения с доступом к чистой питьевой воде 82% 85% 82% 85% Уиллоутаун Сильватаун Уиллоутаун Сильватаун Доступ к чистой питьевой воде у этнических меньшинств Доступ к чистой питьевой воде у этнических меньшинств 60% 40% 50% 30% 40% 30% 20% 20% 10% 10% Время Время 86 Глава 2 Исследователи попросили несколько групп людей ответить на вопрос: «Второе значение немного больше или значительно больше первого?» И ответы показали, что даже если люди прочтут подписи к осям или сами значения, их все равно можно обмануть. Те опрашиваемые, кто был более образован и чаще встречался с подобными графиками, справились с заданием немного лучше, но все равно ошибались. Прежде чем ученые начали проводить подобные эксперименты, отдельные нечестные деятели интуитивно дошли до подобных обманных приемов. В декабре 2015 года журнал National Review процитировал блог Power Line с заголовком «Единственный график глобального потепления, который вы должны увидеть» 37. К несчастью для National Review, со стороны Power Line график выглядит как розыгрыш. Средняя ежегодная мировая температура в градусах Фаренгейта 100 75 50 25 0 1880 37 1900 1920 1940 1960 1980 2000 2012 Позднее твит National Review был удален, но газета Washington Post написала об этом: Филип Бамп. «Почему график глобальной температуры National Review вводит в заблуждение» (Philip Bump, «Why this National Review global temperature graph isso misleading»), 14 декабря 2015 г. https://www.washingtonpost.com/news/the-fix/wp/2015/12/14/ why-the-national-reviews-global-temperature-graph-is-so-misleading/ Графики, которые лгут, потому что плохо проработаны 87 Аналитик данных Шон Макэлви и многие другие шутили в соцсетях про этот график. Макэлви написал в твиттере: «Значит, не стоит переживать и про национальный долг!» — и приложил примерно такой график: 38 Федеральный долг: общий государственный долг в процентах от ВВП 3,000% 1,750% 1,500% 1,250% 0% Январь 1966 Октябрь 2017 Меня нервировало, что внутренний долг достиг 103% от ВВП в октябре 2017 года, но этот график утверждает, что мои опасения напрасны — нам еще так далеко до 3000%! Ричард Рейс, исследователь из Института гармонично развивающихся городов, входящего в Городской университет Нью-Йорка, добавил шутливые подписи к оригинальному графику, чтобы подчеркнуть, почему масштаб выбран неверно. 38 «Федеральный долг: общий государственный долг как процент от валового внутреннего продукта», экономические данные Федеральной резервной системы, Федеральный резервный банк Сент-Луиса. https://fred.stlouisfed.org/series/GFDEGDQ188S 88 Глава 2 Средняя ежегодная мировая температура в градусах Фаренгейта 100 Подъем уровня моря на 200 футов 75 58,2 Цивилизация: на грани 56,8 50 Последний ледниковый период 25 0 1880 1900 1920 1940 1960 1980 2000 2012 В шутке Рейса есть доля правды. Разница между началом и концом линии — 1,4 градуса Фаренгейта, или почти 0,8 градуса Цельсия. Это довольно значительное изменение, хотя на первый взгляд оно таким не выглядит. Во время малого ледникового периода с XV по XIX век в Северном полушарии средняя температура была примерно на 1 градус Фаренгейта ниже, чем в конце XX века 39, но последствия были катастрофическими, холода принесли голод и эпидемии. Последствия могут оказаться такими же, если не хуже, в случае роста планетарной температуры на 2–3 градуса Фаренгейта в ближайшие 50 лет, что считается вполне вероятным. Если температура достигнет 100 градусов Фаренгейта, верхней границы графика Power Line, Земля станет адски жарким местом. 39 Межправительственная группа экспертов по изменению климата «Изменение климата 2001: научная основа», Кембридж: Cambridge University Press, 2001 г. https://www.ipcc.ch/site/assets/uploads/2018/07/WG1_ TAR_FM.pdf Графики, которые лгут, потому что плохо проработаны 89 Более того, Power Line поставил начало вертикальной оси в ноле. Это глупо хотя бы потому, что ни у Фаренгейта, ни у Цельсия ноль не является минимальной температурой (только в шкале Кельвина). Создатель графика, желающий информировать нас, а не запутать, должен был учесть все факторы и выбрать соответствующий масштаб и начальные точки. Средняя ежегодная мировая температура в градусах Фаренгейта 59 58,2 58 57 56,8 56 1880 1900 1920 1940 1960 1980 2000 2012 Вы, возможно, встречали мнение, что все графики должны начинаться с ноля. Идея была занесена в массы книгами, подобными выпущенной в 1954 году «Как лгать при помощи статистики» Дарелла Хаффа. Надеюсь, мой пример помог вам понять, в чем проблема такого подхода. Книга Хаффа, несмотря на свой возраст, полна ценных советов, но этот не входит в их число. Составление графика, как и написание текста, отчасти наука, отчасти искусство. Здесь не так уж много незыблемых правил, напротив — множество гибких принципов 90 Глава 2 и рекомендаций, с кучей исключений и пояснений. Как читатели графиков должны ли мы требовать, чтобы все оси начинались с ноля? Это зависит от характера данных, доступного места и выбора метода кодирования. Иногда эти соображения могут противоречить друг другу. Ниже приведен график со средней ожидаемой продолжительностью жизни при рождении. Не похоже, что происходят существенные изменения, правда? Средняя ожидаемая продолжительность жизни при рождении (по годам) 75 50 25 0 1960 1970 1980 1990 2000 2010 2016 (По данным Всемирного банка) При составлении графика я столкнулся с двумя задачами: очень широкое и небольшое по высоте место, где он будет располагаться, и кодирование данных с помощью высоты столбцов. Комбинация факторов привела к появлению графика, скрывающего изменения: средняя продолжительность жизни в мире в 1960 году была 53 года, а в 2016-м — уже 72 года. Рост на 35%. Но график этого не показывает, потому что, выбирая столбцы, мы должны начинать их с ноля, чтобы сохранять пропорцию между высотой и возрастом. Не бывает идеальных решений, но бывают разумные компромиссы, если разобраться в самих данных. Подборку данных о продолжительности жизни в мире можно начинать с нулевой отметки. Можно, но это не логично. Если Графики, которые лгут, потому что плохо проработаны 91 ожидаемая продолжительность жизни в какой-то стране будет равняться нолю, то значит все новорожденные должны с высокой вероятностью сразу умирать. Следовательно, разметка вертикально оси с нулевой черты — хоть так и рекомендовано в случае гистограммы — приведет к сомнительной визуализации в данном случае. Это и есть противоречие, о котором я говорил ранее: способ кодирования высотой обязывает нас действовать одним образом, но характер данных говорит, что мы должны выбрать другой путь. Компромисс, к которому я пришел: выбрать в качестве метода кодирования не высоту столбцов, а угол и положение, как на графике линии. А затем я выбрал начало графика, близкое к первому значению, как показано ниже. Средняя ожидаемая продолжительность жизни при рождении (по годам) 70 60 50 1960 1970 1980 1990 2000 2010 2016 Соотношение между длиной и высотой графика тут не идеальное, но и наш мир не идеален, как бы нам этого ни хотелось, а место на график у меня как раз было широкое и невысокое. Журналисты и составители графиков всегда вынуждены идти на компромиссы, а все, что мы, читатели, можем от них требовать, — непредвзятость при выборе вариантов. Впрочем, если автор не стеснен в месте, то мы вправе требовать, чтобы он не делал следующее. 92 Глава 2 Слишком узкий и высокий 70 Слишком широкий и низкий 75 50 60 1960 1970 1980 1990 2000 2010 2016 50 1960 2016 Вместо этого они должны создавать графики, не меняющие — уменьшающие или увеличивающие — соотношение сторон. Как этого добиться? Мы хотим показать 35-процентный прирост. Это 35 из 100, около 1/3 (при соотношении сторон ставят сначала длину, то есть должно быть 3:1). Теперь я могу сказать, что нам нужен график, у которого длина примерно в три раза больше высоты. Результат можете увидеть ниже. Средняя ожидаемая продолжительность жизни при рождении (по годам) 75 70 60 50 1960 1970 1980 1990 2000 2010 2016 Важное замечание: это правило не обязательно для всех графиков. Вспомните, о чем я говорил ранее: думайте Графики, которые лгут, потому что плохо проработаны 93 не о цифрах, а о том, что за ними стоит. Иногда увеличение на 2%, как, например, с мировой температурой, может оказаться очень значительным, но если вы сделаете график с соотношением сторон 100 : 2 (или 50 : 1), то изменения будут незаметны. Одна из ключевых идей моей книги — создание графиков похоже на написание текста. Расшифровка графика похожа на чтение текста, хотя чтение графика не всегда происходит последовательно, как мы привыкли читать текст. Чтобы распространить аналогию на предыдущую страницу, можно сказать, что «слишком узкий и длинный» — гипербола, а «слишком короткий и широкий» — преуменьшение. Ожидаемая продолжительность жизни при рождении в 2016 году 85 80 75 70 Мадагаскар 65 Малави 60 Экваториальная Гвинея Бурунди 55 Нигерия 50 100 1000 10 000 100 000 ВВП на человека (в долларах США по курсу 2016 года) (По данным Всемирного банка) 94 Глава 2 Как и в литературе, в графиках не всегда очевидно: определенный оборот — это преувеличение, преуменьшение или разумная середина? Точно так же создание графиков не основывается на незыблемых правилах, но правила не могут меняться на ходу. Мы всегда можем прийти к разумному, но не идеальному решению, если станем использовать базовые грамматические правила из главы 1 и затем применять знания о характере наших данных. Некоторые графики выглядят искаженными, хотя на самом деле это не так. Взгляните на график выше, но не читайте подписи к осям. Сфокусируйтесь на кружках, каждый из которых обозначает страну. График показывает среднюю продолжительность жизни по вертикальной оси и ВВП на человека по горизонтальной. Теперь прочтите подписи на осях. Вы заметили, что горизонтальная ось размечена очень странно? Вместо равномерных интервалов (1000; 2000; 3000) шаг идет по степеням числа 10 (100; 1000; 10 000; 100 000). Такая разметка оси называется логарифмической, а если быть точнее — логарифмической с основанием 10 (бывают и другие основания). «График лжет!» — можете закричать вы, потрясая сжатыми кулаками. «Не спешите с выводами», — скажу я. Давайте подумаем о данных и о том, что этот график должен нам о них рассказать. Подсказка: причина, по которой я выбрал такую шкалу, связана со странами, указанными на графике. Давайте посмотрим на тот же график с горизонтальной шкалой с равными интервалами. Такая шкала называется арифметической и наиболее распространена в графиках подобного типа. Графики, которые лгут, потому что плохо проработаны 95 Ожидаемая продолжительность жизни при рождении в 2016 году 85 80 75 70 65 60 Экваториальная Гвинея 55 50 0 20 000 40 000 60 000 80 000 100 000 ВВП на человека (в долларах США по курсу 2016 года) Я обозначил несколько африканских стран на первом графике. Попробуйте найти их здесь. Легко выделить Экваториальную Гвинею, потому что у нее особый случай: куда более высокий ВВП на душу населения, чем в других странах с той же ожидаемой продолжительностью жизни. Но у прочих стран, которые я хотел более внимательно изучить и отметил на первом графике — Нигерии, Малави, Мадагаскара, Бурунди, — столь низкий ВВП на душу населения, что они затерялись среди других бедных стран с низкой продолжительностью жизни. Так же, как мы не должны безусловно верить графику, не прочитав его внимательно, не стоит и называть его лживым, прежде чем разберетесь, для чего он был сделан. Вспомните пример в начале книги — карту результатов 96 Глава 2 президентских выборов. Она оказалось бы верной, если бы целью создания было показать географическое распределение голосов. Однако ее использовали, чтобы показать, сколько избирателей проголосовало за каждого кандидата, и здесь она безбожно врала. Ни одна из двух представленных выше диаграмм рассеяния не может считаться лживой без учета ее цели. Они построены, чтобы показать связь между ВВП на душу населения и ожидаемой продолжительностью жизни? Тогда вторая, скорее всего, лучше. Распределение на ней похоже на лежащую на боку букву L: в одной группе много стран с низким ВВП на душу населения и высоким разбросом ожидаемой продолжительности жизни (короткая вертикальная часть повернутой L), в другой — богатые страны с большим разбросом ВВП на душу населения и высокой ожидаемой продолжительностью жизни (длинная горизонтальная часть повернутой L). Богатые страны с большим разбросом ВВП на душу населения и высокой ожидаемой продолжительностью жизни Страны с низким ВВП на душу населения и высоким разбросом ожидаемой продолжительности жизни Но не в этом задача моего первого графика. Напротив, я хотел подчеркнуть, что есть некоторые африканские страны, такие как Экваториальная Гвинея и Нигерия, с низкой ожидаемой продолжительностью жизни и относительно высоким ВВП на душу населения. А есть другие, бедные Графики, которые лгут, потому что плохо проработаны 97 страны, такие как Малави, Бурунди и Мадагаскар, в которых высокая ожидаемая продолжительность жизни. Логарифмический масштаб кажется сложным на первый взгляд, но вы уже знакомы с его известными примерами. В шкале Рихтера, по которой считают силу землетрясения, использован логарифмический масштаб с основанием 10. Это значит, что землетрясение с магнитудой 2,0 не в два раза сильнее землетрясения с магнитудой 1,0, а в десять. Логарифмические шкалы используют, чтобы показать экспоненциальный рост. Допустим, у меня на участке живут четыре мыши-песчанки — два мальчика и две девочки, и они размножаются. Каждая пара мышей даст потомство в четыре маленьких мышонка, которые пойдут размножаться к мышатам другой пары. И каждое следующее поколение также будет давать потомство в четыре мышонка. Я могу изобразить рост мышиной популяции следующим образом: 10 000 000 000 8 000 000 000 Мышиная популяция 6 000 000 000 4 000 000 000 2 000 000 000 0 1 5 10 15 20 25 Поколение мышей Если я решаю, сколько мне нужно купить мышиной пищи, основываясь на этом графике, то могу подумать, что мне не придется ничего менять примерно до 25 поколения, ведь до него линия почти прямая. 32 98 Глава 2 Но такой график скрывает, что количество мышей удваивается в каждом поколении и мне понадобится вдвое больше пищи каждый раз. Логарифмическая шкала с основанием 2, в которой каждое следующее деление означает число вдвое больше предыдущего, подойдет куда больше, так как я заинтересован в скорости изменений, а не в абсолютных цифрах. К 32-му поколению мышей на моем участке будет больше, чем людей во всем мире, так что лучше подумать об ограничении рождаемости немного заранее. 8 589 934 592 134 217 728 Мышиная популяция 2 097 152 32 768 512 8 1 5 10 15 20 25 32 Поколение мышей Многие графики врут не потому, что у них арифметическая или логарифмическая шкала, а потому, что объекты, которыми закодированы данные, искажены или обрезаны странным образом. Я видел множество графиков, обрезающих оси и символы вот так. Графики, которые лгут, потому что плохо проработаны 99 Страны с наибольшим населением в Северной и Южной Америке (в миллионах человек) 300 200 100 50 25 0 США Бразилия Мексика Колумбия Аргентина Канада Перу Венесуэла Чили Эквадор (По данным Всемирного банка) График врет, потому что интервалы на вертикальной шкале неравные, а первые три столбца обрезаны. Настоящие пропорции выглядят так. Страны с наибольшим населением в Северной и Южной Америке (в миллионах человек) 300 200 100 0 США Бразилия Мексика Колумбия Аргентина Канада Перу Венесуэла Чили Эквадор (По данным Всемирного банка) У правильной версии этого графика тоже есть проблемы. Например, теперь намного сложнее понять разницу между меньшими странами. Как читатель, я хотел бы видеть два графика: один общий, а второй — увеличенный, без 100 Глава 2 густонаселенных стран. Таким образом и все цели будут достигнуты, и пропорции не нарушены. Все карты врут, утверждает картограф Марк Монмонье в своей классической книге «Все географические карты лгут». Это же можно сказать и про графики, хотя не все они обманывают одинаково. Все карты врут, потому что они основаны на проекции сферической поверхности Земли на плоскость листа бумаги. Все карты искажают некоторые географические элементы: размеры областей или их формы. Проекция ниже называется проекцией Меркатора, по имени картографа XVI века. Она делает регионы, удаленные от экватора, значительно больше, чем они есть. Например, Гренландия не крупнее Южной Америки, а Аляска хоть и огромна, но все же не настолько. Зато проекция сохраняет формы этих объектов. Графики, которые лгут, потому что плохо проработаны 101 Следующий вариант, равновеликая цилиндрическая проекция Ламберта, жертвует формой, чтобы сохранить настоящие пропорции объектов. Проекция Робинсона не сохраняет ни формы, ни пропорции, но жертвует и тем и другим ради баланса, дающего визуально более приемлемый вариант, чем у Ламберта. Как и у честно составленных графиков, у карт нет абстрактно плохого или хорошего дизайна — он может быть только относительно хуже и лучше, в зависимости от того, 102 Глава 2 что изображает карта. Если вы хотите повесить карту на стену в детской, то вариант Робинсона лучше, чем Меркатора или Ламберта. Но если вам нужен инструмент для морской навигации, то проекция Меркатора подходит больше — в конце концов для этого ее и делали 40. И хотя все карты лгут, мы знаем, что эта ложь во благо, последствие того, что любая карта — только ограниченная и несовершенная проекция действительности, а не сама действительность. Все графики страдают от той же проблемы. Карты также могут лгать из-за неудачного выбора дизайна, случайного или намеренного. Например, я могу поиграть с глубиной цвета, чтобы изобразить бедность как второстепенную проблему в США… 53% Уровень бедности 40% 25% 1% (Источник: Бюро переписи населения США) 40 У самого Марка Монмонье есть целая книга об этой несправедливо оклеветанной проекции: Rhumb Lines и Map Wars: A Social History of the Mercator Projection («Линия румба и картографические вой ны: Общественная история проекции Меркатора»), Чикаго: University of Chicago Press, 2010. Графики, которые лгут, потому что плохо проработаны 103 …или показать, что это огромная и повсеместная беда. 53% 16% Уровень бедности 12% 9% 6% 3% 1% Эти карты столь по-разному отражают одну и ту же ситуацию, потому что я очень аккуратно распределял цвета по интервалам, чтобы преуменьшить проблему в первом случае и гиперболизировать во втором. Проблема второй карты в цветовой шкале: самый темный оттенок используется для округов с уровнем бедности между 16 и 53%. Половина округов в США попадает в этот интервал, а у второй половины уровень бедности между 1 и 16%. Вот почему карта выглядит столь угрожающе оранжевой. 53% 23% Уровень бедности 19% 16% 14% Средний уровень в стране 11% 1% 104 Глава 2 Более осмысленный способ — разделить округа по цветовым блокам поровну. В США всего 3000 округов. На карте ниже каждый из шести оттенков соответствует 500 округам (3000 округов разделить на 6 частей — выйдет по 500 округов в части). Но постойте! Ведь название первой карты могло быть «Округа с уровнем бедности выше 25%». В этом случае моя карта идеально подходила, ведь она как раз выделяет округа с уровнем бедности выше 25 и 40%. Как видите, дизайн графика зависит от характера данных и мысли, которую мы хотели бы подчеркнуть. Качество графика зависит от верного кодирования данных и пропорционального их представления, но надо помнить и о надежности самих данных. Первое, на что надо смотреть в графике, — источник данных. Откуда они получены? Проверенный ли источник? Как мы можем оценить качество представленной информации? Эти вопросы мы обсудим в следующей части. Графики, которые лгут, показывая непроверенные данные 105 Глава 3 Графики, которые лгут, показывая непроверенные данные О дна из моих любимых присказок: «Мусор на входе — мусор на выходе». Она очень популярна у специалистов в области IT, логики и статистики. Ее суть в том, что рассуждения могут выглядеть очень убедительно, но если они опираются на ложные данные, то и вывод будет ложным. Графики устроены похожим образом. Они могут выглядеть красиво, вызывать интерес и удивлять, но если данные неверны, то и сам график будет врать. Давайте разберемся, как заметить мусор до того, как он просочится в график. Если вы любите графики, то соцсети станут для вас источником неисчерпаемых развлечений. Недавно математик и картограф Якуб Мариан опубликовал карту распределения по Европе групп, играющих метал. Ниже мой вариант 106 Глава 3 этой карты, выделяющий Испанию, где я родился, и Финляндию 41. Число метал-групп на 100 000 человек 0 2 5 10 15 30 40 55 Finland Spain Будучи любителем тяжелого менее экстремального рока, я сразу влюбился в эту карту и рассказал о ней моим подписчикам и друзьям в «Твиттере». Карта подтверждала мои давние подозрения: многие группы зародились в северных странах, а Финляндию можно назвать мировой столицей метала. Но потом я задумался: а можно ли доверять автору этой карты? И что он подразумевал под словом «метал»? Мой скептицизм был обоснованным, ведь один из главных уроков данной книги в том, что легче всего вас обманывают те графики, которые подтверждают ваши убеждения. 41 Карта Якуба Мариана находится здесь: «Количество метал-групп на душу населения в Европе». jakubmarian.com/number-of-metal-bandsper-capita-in-europe. Данные, на которых построена карта, можно получить на сайте Encyclopaedia Metallum www.metal-archives.com Графики, которые лгут, показывая непроверенные данные 107 Первое, на что надо смотреть, читая график, — обозначают ли авторы источники своих данных. Если нет — это тревожный сигнал. Мы даже можем вывести общее правило медийной грамотности: «Не верьте любой публикации, в которой нет прямого указания или ссылок на источник данных». К счастью, Якуб Мариан знаком с передовым опытом и указал источник данных — сайт Encyclopaedia Metallum. Я зашел туда, чтобы убедиться, что их данные включают только хеви-метал-группы. Другими словами, проверяя источник, вы должны оценить, что именно подсчитывали. Учитывал ли источник только метал-группы или что-то еще? Чтобы проверить, сначала представим себе саму классическую метал-группу, которую только можно придумать. Ту, что олицетворяет собой эстетику и стилистику метала. Если все группы в Encyclopaedia Metallum похожи на наш идеал, совпадают с ним по большему числу признаков, чем различаются, то значит источник, скорее всего, считает только металгруппы. Давайте же представим себе эту группу. Уверен, вам пришли на ум Metallica, Black Sabbath, Motörhead, Iron Maiden или Slayer. Эти группы, безусловно, играют метал. Я родился в Европе, рос в 1980-х и сразу вспомнил Judas Priest. В Judas Priest есть все, что делает метал металлом. Я лично считаю их самой металлической из метал-групп, потому что они обладают всеми эталонными качествами. Начиная с одежды, характера и внешнего вида: длинные волосы (не считая лысого вокалиста Роба Хэлфорда), кожаная одежда в обтяжку, блестящие шипы на штанах и куртках, хмурые лица и вызывающие позы. 108 Глава 3 А что насчет их выступлений и музыки? И тут настоящий метал. Поищите несколько клипов Judas Priest, например, на песни «Firepower», «Ram It Down» или «Painkiller Hell Bent for Leather». Там будут бесконечные гитарные рифы и соло, гром барабанов и встряхивание волосами — одновременное, что еще больше в стиле метала, — и вокал Хэлфорда, похожий на завывание банши. Если все группы в Encyclopaedia Metallum больше похожи на Judas Priest, то тут посчитаны только метал-группы. Однако я знаком с научной литературой по теме (да, и такое бывает) и статьями об истории метала, вроде тех, что опубликованы в «Википедии», я периодически натыкался на более широкую трактовку жанра. Например, в списки включали и таких ребят, которые уж точно не металлисты. Это глэм-рок-группа Poison, весьма популярная в моей юности. Некоторые источники, включая «Википедию», вешают на них ярлык «метал», но, на мой взгляд, трактовка уж больно широкая. Я даже встречал в некоторых журналах, что про мелодик-рок-группы Journey и Foreigner пишут, будто они играют хеви-метал. И Journey, и Foreigner — прекрасные группы, но совсем не метал. В любом случае, я немного полистал Encyclopaedia Metallum и не нашел этих групп в списке. Затем случайным образом выбрал несколько групп из десятков тысяч и присмотрелся к ним — все они выглядели вполне металлическими, по крайней мере, на первый взгляд. Я не верифицировал источник таким образом, но хотя бы проверил его на очевидные ошибки. И только тогда счел возможным рассылать карту друзьям и коллегам. Чтобы прочесть график, важно проверить, что именно в нем считают и как это делается. Мой аспирант Луис Графики, которые лгут, показывая непроверенные данные 109 Мелгар, работающий сейчас репортером в Вашингтоне, провел расследование «Школа без крыши» — про бездомных детей, зарегистрированных в школах Флориды. Их количество выросло с 29 545 до 71 446 между 2005 и 2014 годами. В некоторых округах Флориды по меньшей мере каждый пятый школьник — бездомный. Процент бездомных школьников Самый большой: округ Франклин, 21,7% (Источник: http://www.lmelgar.me/without-a-roof/) Я был потрясен! Неужели действительно столько школьников живут на улице? В конце концов, ведь именно это я понимал под бездомными. Но все обстояло совсем иначе. Как писал Луис в своем расследовании, флоридская образовательная система считает школьника бездомным, если у того нет «определенного, постоянного и удовлетворительного места для ночлега» или он живет вместе с людьми, не являющимися его близкими родственниками, потому что «потерял жилье» или «испытывает экономические трудности». Следовательно, многие школьники не живут на улице, но и нормального дома у них тоже нет. И хотя это не так плохо, как я подумал вначале, хорошего тоже мало: отсутствие 110 Глава 3 постоянного места жительства и частые переезды сказываются на успеваемости, поведении и могут иметь далеко идущие негативные последствия, как показало расследование Луиса. Разговор о том, как исправить ситуацию с бездомными, очень важен, но чтобы его вести, нам надо хорошо понимать, что измеряют графики, рассказывающие об этом явлении. Интернет и социальные сети — прекрасные инструменты для создания, поиска и распространения информации. Моя новостная лента пестрит новостями и комментариями журналистов, статистиков, ученых, дизайнеров и политиков. Некоторые из них — мои друзья, других я никогда не встречал. Все мы открыты одному и тому же потоку заголовков, картинок и клипов. Я обожаю социальные сети. Они помогли мне открыть для себя графики разных авторов, о которых я никогда не слышал, и тексты, которые я сам никогда не нашел бы. Графики, которые лгут, показывая непроверенные данные 111 Благодаря социальным сетям я могу следить за множеством источников плохих и хороших графиков, таких как FloorCharts — аккаунт в «Твиттере», собирающий необычные графики от членов Конгресса. Посмотрите, например, на гистограмму Джона Баррассо, сенатора из Вайоминга, в которой автор перепутал проценты и процентные пункты: увеличение с 39 до 89% — это не 50%, а 50 процентных пунктов. А в процентах рост составит 128%. Впрочем, у соцсетей есть и темная сторона. Основной механизм их работы — это перепосты, причем быстрые, без раздумий о содержании. Ровно так я перепостил карту хевиметала, без раздумий. Она совпадала с моими ожиданиями и убеждениями, так что причин для сомнений у меня поначалу не было. И только чувство вины заставило убрать сообщение, перепроверить информацию и только потом открыть его снова. Мир станет лучше, если мы станем делать чуть меньше бездумных перепостов. Раньше только профессионалы с доступом к профильным ресурсам — журналисты, владельцы газет, журналов и телеканалов — контролировали поток информации. Сегодня каждый из нас распространяет информацию и должен подходить к процессу ответственно. И в понятие ответственности входит проверка распространяемой информации, особенно если она совпадает с нашими убеждениями. Иногда от этого могут зависеть жизни. Вечером 17 июня 2015 года 21-летний Дилан Руф вошел в Африканскую методистскую епископальную церковь матери Эмануэль в Чарльстоне в Южной Каролине. Он 112 Глава 3 спросил пастора, преподобного Клементу Пинкни, уважаемого в городе человека и члена законодательного собрания с почти двадцатилетним стажем 42. Пинкни привел Руфа в подвал церкви, где он с небольшой группой прихожан обсуждал тексты писания. После жаркой перепалки Руф выхватил пистолет и застрелил девять человек. Одна из жертв просила его не делать этого. На что Руф сказал: «Вы насиловали наших женщин и отняли нашу страну. Я должен это сделать». Под «вы» Руф подразумевал афроамериканцев. «Мать Эмануэль» известна как старейшая афроамериканская церковь в США. Руфа арестовали, и он стал первым осужденным за преступление на почве ненависти, кого Федеральный суд приговорил к смертной казни 43. В манифесте и признании он объяснял основы своей расовой ненависти. Руф ссылался на информацию, найденную в интернете по запросу «преступления черных против белых» 44. И первым источником указал Совет консервативных граждан (Council of Conservative Citizens; CCC) — расистскую организацию, публикующую графики, как ниже, чтобы подчеркнуть, что 42 Рэй Санчес и Эд Пейн. «Стрельба в церкви в Чарльстоне: кто такой Дилан Руф?» (Ray Sanchez and Ed Payne, «Charleston Church Shooting: Who Is Dylann Roof?»), CNN, 16 декабря 2016 г. https://edition.cnn.com/ 2015/06/19/us/charleston-church-shooting-suspect/index.html 43 Авалон Зоппо. «Стрелок из Чарльстона Дилан Руф переведен в камеру смертников в федеральной тюрьме Терре- От» (Avalon Zoppo, «Charleston Shooter Dylann Roof Moved to Death Row in Terre Haute Federal Prison»), NBC News, 22 апреля 2017 г. https://www.nbcnews.com/ storyline/charleston- church-shooting/charleston- shooter-dylann-roofmoved-death-row-terre-haute-federal-n749671 44 Ребекка Хершер. «Что случилось, когда Дилан Руф погуглил информацию об исследованиях?» (Rebecca Hersher, «What Happened When Dylann Roof Asked Google for Information about Race?»), NPR, 10 января 2017 г. https://www.npr.org/sections/thetwo-way/2017/01/10/508363607/whathappened-when-dylann-roof-asked-google-for-information-about-race Графики, которые лгут, показывая непроверенные данные 113 черные преступники специально выбирают белых жертв, потому что они — белые 45. Жертвы насильственных преступлений, где преступник… Внимание! Этот график ошибочен! …белый …черный …латиноамериканец 4% 39% 82% 51% 41% Белые жертвы Латиноамериканские жертвы Черные жертвы Другие жертвы 5% (Источник: Бюро судебной статистики США) Человеку свойственно видеть то, что он хочет увидеть, и Руф не стал исключением. Его манифест — порождение разума, зараженного в детстве и юности расовой ненавистью, которая получила обоснование в виде данных и графиков, искаженных в угоду политическим интересам экстремистских организаций. Графики CCC нарисовал белый расист Джаред Тэйлор, вдохновленный спорной статьей Хизер Макдональд в National Review 46. Этот случай 45 46 Джаред Тэйлор. «Министерство юстиции: в 85% насильственных преступлений с участием чернокожих и белых черные нападают на белых» (Jared Taylor, «DOJ: 85% of Violence Involvinga Blackand a White Is Black on White»), Conservative Headlines, июль 2015 г. https:// conservative- headlines.com/2015/07/doj-85-of-violence- involving-ablack-and-a-white-is-black-on-white/ Хизер Макдональд. «Позорная эксплуатация Чарльстонской резни либералами» (Heather Mac Donald, «The Shameful Liberal Exploitation of the Charleston Massacre»), National Review, 1 июля 2015 г. https://www. nationalreview.com/2015/07/charleston-shooting-obama-race-crime/ 114 Глава 3 подчеркивает, как важно знакомиться с изначальным источником информации и читать надписи мелким шрифтом, поясняющие, как именно авторы пришли к цифрам, которые показывают. Данные Тэйлора получены из Исследования по виктимизации Бюро судебной статистики, которое легко найти в Гугле 47. Если точнее, данные пришли из таблицы ниже. Я добавил стрелки, указывающие направление, в котором надо читать данные, проценты в оранжевых квадратах должны давать в сумме 100% по горизонтали. Распределение насильственных преступлений по расам пострадавших и преступников в 2012–2013 годах Раса преступника Среднегодовое число преступлений с жертвами Раса жертвы Всего Белые /а Черные /а Латиноаме- Другие / риканцы а, б Неизвестные Общее число насильственных преступлений 6 484 507 100 % 42,9 22,4 14,8 12,1 7,8 Белые /а 4 091 971 100 % 56,0 13,7 11,9 10,6 7,8 Черные /а 955 800 100 % 10,4 62,2 4,7 15,0 7,7 Латиноамериканцы 995 996 100 % 21,7 21,2 38,6 11,6 6,9 Другие /а, б 440 741 100 % 40,3 19,3 10,6 20,3 9,5 а/ За исключением людей испанского и мексиканского происхождения. б/ Включая американских индейцев, коренных жителей Аляски, азиатов, гавайцев и жителей других островов Тихого океана и людей, относящихся к двум и более расам. (Источник: Бюро судебной статистики США, Национальное исследование по виктимизации от преступлений) Таблица показывает насильственные преступления за вычетом убийств. Отметим, что «черные» и «белые» не включают латиноамериканцев и черных и белых, приехавших из Латинской Америки. В данном случае латиноамериканцем 47 По запросу National Crime Victimization Survey. — Прим. ред. Графики, которые лгут, показывая непроверенные данные 115 считается любой с испанскими или латиноамериканскими корнями, независимо от цвета кожи. Понять, в чем разница между цифрами в таблице и теми, что привел Тэйлор, непросто. Давайте проговорим, что показывает нам таблица. Поверьте, даже мне было бы тяжело разобраться в цифрах, не озвучив их. • Как в 2012, так и в 2013 году было примерно 6,5 миллиона жертв насильственных преступлений, исключая убийства. • Из них чуть больше 4 миллионов жертв (63% от общего числа) — белые и примерно миллион (15% от общего числа) — черные. Оставшаяся часть приходится на другие расы и национальности. • Посмотрим на ряд «белых»: на 56% белых жертв напали белые преступники, на 13,7% напали черные преступники. • Перейдем к «черному» ряду: на 10,4% черных жертв напали белые преступники, на 62,2% напали черные преступники. Таблица — и данные — сообщает нам следующее. Процент жертв среди белых и черных не латиноамериканского происхождения близок к их проценту среди жителей США: 63% жертв — белые не латиноамериканского происхождения и, по данным Бюро переписи населения, 61% жителей США — белые не латиноамериканского происхождения (и больше 70%, если считать белых латиноамериканского происхождения), 15% жертв — черные, как и 13% населения США. Когда человек становится жертвой преступления, высока вероятность того, что преступник будет из той же группы 116 Глава 3 населения. Давайте составим график Тэйлора, но с корректными данными. Раса преступника в случаях, когда жертва была... …белой …черной …латиноамериканцем 10,4% 21,7% 56% 13,7% 62,2% Белые преступники Черные преступники Латиноамериканские преступники Другие преступники 38,6% 21,2% Неизвестные преступники Как вышло, что числа у Тэйлора так отличаются от чисел в отчете Бюро судебной статистики? Причина в том, что Тэйлор провел арифметические манипуляции, чтобы получившиеся данные соответствовали его убеждениям и идее, которую он хотел подчеркнуть. Цитируя автора: «Когда белые совершают насильственные преступления, жертвами, как правило, становятся белые, и очень редко — черные. Когда черные совершают преступления, они нападают на белых столь же часто, как и на черных». Чтобы прийти к своим данным, Тэйлор сначала перевел проценты из отчета Бюро судебной статистики в числа. Например, если в таблице 4 миллиона жертв и на 56% из них напали белые, то это 2,3 миллиона белых жертв, пострадавших от белых преступников. Первая таблица, которую Тэйлор сделал, скорее всего выглядела так. Графики, которые лгут, показывая непроверенные данные Раса/национальность жертвы Белые Среднегодовое число преступники преступлений с жертвами Черные преступники Латиноамериканские преступники Другие преступники 117 Неизвестные преступники Всего 6 484 507 2 781 854 1 452 530 959 707 784 625 505 792 Белые 4 091 971 2 291 504 560 600 486 945 433 749 319 174 Черные 955 800 99 403 594 508 44 923 143 370 73 597 Латиноамериканцы 995 996 216 131 211 151 384 454 115 536 68 724 Другие 440 741 177 619 85 063 46 719 89 470 41 870 Затем он прочитал таблицу не по рядам, а по колонкам, использовав верхнюю графу «всего» как делитель для получения процентов. Для примера посмотрите на колонку «черный преступник». Всего подверглось нападению черных преступников 1 452 530 жертв. Из них 560 600 жертв — белые, примерно 38,6% из 1 425 530. Вот результаты Тэйлора, приведенные в его круговой диаграмме. Раса/национальность жертвы Всего СреднегоБелые довое число преступники преступлений с жертвами Черные преступники Латиноамериканские преступники Другие преступники Неизвестные преступники 6 484 507 2 781 854 1 452 530 959 707 784 625 Белые 63,1% 82,4% 38,6% 50,7% 55,3% 63,1% Черные 14,7% 3,6% 40,9% 4,7% 18,3% 14,6% Латиноамериканцы 15,4% 7,8% 14,5% 40,1% 14,7% 13,6% 6,8% 6,4% 5,9% 4,9% 11,4% 8,3% Другие 505 792 (Единственное расхождение между нашими расчетами — процент белых преступников, совершивших преступления против белых жертв: у меня — 82,4%, у Тэйлора — 82,9%.) С точки зрения арифметики, эти вычисления корректны, но не всё, что верно посчитано, имеет смысл. Числа необходимо интерпретировать в контексте. Тэйлор сделал как минимум четыре спорных допущения. Во-первых, он игнорирует расовый состав населения США. По данным Бюро переписи населения, на 2016 год 118 Глава 3 население США на 73% состоит из белых (включая латиноамериканцев) и на 13% из чернокожих. Основываясь только на этом, моя аспирантка из Университета Майами Алисса Фауэрс сделала следующие выводы. Если абстрактный (и очень активный!) белый преступник в половине случаев совершает преступления против людей своей расы, а в оставшейся половине — преступления в отношении случайных жителей, 86,5% преступлений он совершит против белых и 6,5% — против черных. В то же время если чернокожий преступник станет вести себя так же, совершая половину преступлений против представителей своей расы и остальную половину против случайных жертв, то у него выйдет 56,5% преступлений против черных и 36,5% против белых. Выглядит так, будто черные сознательно совершают больше преступлений против белых, в то время как на самом деле потенциальных белых жертв намного больше, чем черных из-за состава населения США. Второе спорное предположение Тэйлор сделал, решив, что он объединил колонки лучше Бюро судебной статистики. На самом деле верно обратное, даже исходя из характера выделенных преступлений: преступники часто находят жертв, близких им по социальному статусу или живущих недалеко. Много насильственных преступлений, например, относятся к домашнему насилию. Бюро судебной статистики сообщает, что «процент межрасовых преступлений выше, чем процент межрасовых преступлений за вычетом грабежей». Грабители составляют исключение, возможно, Графики, которые лгут, показывая непроверенные данные 119 потому, что на их месте и вы грабили бы тех, кто живет в районах богаче вашего. Предыдущий факт связан с третьим неверным предположением Тэйлора: преступники выбирают жертв, исходя из их расы, то есть черные выбирают белых в качестве жертв чаще, чем белые выбирают черных. В случае спонтанного преступления преступник вовсе не выбирает свою жертву, тем более основываясь на ее расе. В самых распространенных видах насильственных преступлений преступник нападает на жертву, потому что она его чем-то разозлила (домашнее насилие) или он планирует получить от нее что-то ценное (грабеж). Грабят ли черные преступники белых жертв? Конечно. Но не потому, что выбирают их по расовому признаку. Четвертое неверное предположение наиболее важно. Тэйлор хотел заставить читателей поверить, что настоящие расовые преступления — преступления на почве ненависти — не считаются таковыми. На самом деле их подсчет ведется, и именно те числа куда лучше подошли бы для данной дискуссии, не противоречь они убеждениям автора: в 2013 году правоохранительные структуры зафиксировали 3407 преступлений на почве расовой ненависти. Из них 66,4% были на почве ненависти к черным и 21,4% — на почве ненависти к белым 48. Это числа, которые должны были быть в графике Тэйлора. Как писал профессор Дэвид Шум из Университета Джорджа Мейсона в книге «Доказательные основы 48 «Статистика преступлений на почве ненависти за 2013 год» («2013 Hate Crime Statistics»), Федеральное бюро расследований, по состоянию на 27 января 2019 г. https://ucr.fbi.gov/hate-crime/2013/topicpages/incidents-and-offenses/incidentsandoffenses_final 120 Глава 3 вероятностных выводов» 49, данные становятся основой для утверждения, когда их взаимосвязь с данным утверждением подтверждена. Факт, что многие преступники — черные, а жертвы — белые, не доказывает утверждения, что преступники выбирают жертв или что выбор обоснован расой жертв. Тяжело не думать, как бы все сложилось, прочитай Дилан Руф верные числа, а не те, что выдумал Совет консервативных граждан. Повлияло бы от этого на его расовые предрассудки? Мне кажется, такое маловероятно, но, по крайней мере, они не нашли бы подтверждения. Сомнительные подсчеты и графики могут иметь фатальные последствия. Экономист Рональд Коуз как-то сказал, что если достаточно долго мучить данные, то они признаются вам в чем угодно 50. Этот принцип мошенники хорошо усвоили и постоянно им пользуются. Как показывает график, подтвердивший расовую ненависть Дилана Руфа, одни и те же числа могут привести к двум противоположным выводам, в зависимости от того, как ими манипулировать. Допустим, я управляю компанией, в которой 30 сотрудников, и в годовом отчете акционерам упоминаю, что забочусь о равноправии и нанимаю равное количество мужчин и женщин. А также я сообщаю, что три пятых моих сотрудников-женщин получают зарплату выше, 49 Дэвид Шум. «Доказательные основы вероятностного рассуждения» (David A. Schum, «The Evidential Foundations of Probabilistic Reasoning»), Эванстон, Иллинойс: Northwestern University Press, 2001. 50 Первоначальная цитата гласила: «Если достаточно мучить данные, суть всегда признается» (англ. If you torture the data enough, nature will always confess). Графики, которые лгут, показывая непроверенные данные 121 чем сотрудники-мужчины того же уровня, чтобы компенсировать более низкую среднюю зарплату женщин на рынке труда. Обманываю ли я? Вы не узнаете, пока я не покажу все данные в таблице. Сотрудники женщины Должность Зарплата ($) Должность Сотрудники мужчины Зарплата ($) Должность Зарплата ($) Должность Зарплата ($) Менеджер Менеджер 150 000 130 000 Рядовой сотрудник 45 000 Рядовой сотрудник 42 000 Менеджер Менеджер 162 000 138 500 Рядовой сотрудник 44 750 Рядовой сотрудник 41 000 Менеджер 115 000 Рядовой сотрудник 40 000 Рядовой сотрудник 38 000 Рядовой сотрудник 36 000 Рядовой сотрудник 35 250 Стажер 15 000 Менеджер 125 000 Рядовой сотрудник 39 500 Рядовой сотрудник 37 000 Рядовой сотрудник 35 500 Рядовой сотрудник 35 000 Стажер 14 000 Супервизор Супервизор 76 000 74 500 Супервизор 72 000 Рядовой сотрудник 70 000 Стажер 15 000 Женщины получают больше мужчин на тех же позициях Супервизор Супервизор 80 000 76 000 Супервизор 73 000 Рядовой сотрудник 68 500 Стажер 14 000 Мужчины получают больше женщин на тех же позициях Я не соврал ни в чем, но и всей правды тоже не рассказал. Зарплата у большинства женщин в моей компании выше, чем у мужчин на тех же должностях, но я скрыл, что в среднем зарплата у мужчины выше, чем у женщины ($65 583 и $63 583), потому что зарплаты менеджерам сильно отличаются. Оба способа оценки равенства важны, если я хочу показать ситуацию в компании во всей полноте. Это был выдуманный пример, но в настоящих новостях полно таких же. 22 февраля 2018 года BBC News написали: «Женщины в Barclays зарабатывают меньше на 43%. Согласно данным о гендерном разрыве в оплате труда, представленных правительству, работницы-женщины зарабатывают в Barclays на 43,5% меньше, чем мужчины» 51. Это не обман. Разница в оплате труда в Банке Barclays действительно велика. Но, как заметил аналитик данных 51 «Женщины в Barclays зарабатывают меньше на 43%» («Women Earn up to 43% Less at Barclays»), BBC News, 22 февраля 2018 г. https://www.bbc. com/news/business-43156286 122 Глава 3 Джеффри Шаффер 52, эти 43,5% разницы не показывают полной картины. Нам нужно ознакомиться со следующим графиком, он позволит нам взглянуть с другой точки зрения. Сотрудники банка Barclays в Великобритании 0 Высшее руководство 5000 10 000 15 000 20 000 Женщины Мужчины Руководители среднего звена Младший персонал В Barclays есть проблемы с равноправием, но не в разнице оплаты на одном уровне — мужчины и женщины на равных должностях получают примерно равные зарплаты, если верить отчету банка. Проблема Barclays в том, что женщины в основном работают на младших должностях, в то время как большинство мест в руководстве занимают мужчины. Так что суть проблемы, возможно, в политике продвижения по службе. Джес Стейли, исполнительный директор банка, сказал: «Хоть женщин и становится в банке больше, но занимают они преимущественно низшие позиции с меньшими зарплатами, в то время как на управляющих должностях с высокими зарплатами в основном работают мужчины». Числа всегда можно интерпретировать несколькими способами и рассматривать с разных точек зрения. Мы, журналисты, как правило, не пробуем разные подходы, потому что ленивы, плохо считаем или нам надо срочно сдавать 52 Джеффри Шаффер. «Критическое мышление в анализе данных: гендерный разрыв в оплате труда в Barclays» (Jeffrey A. Shaffer, «Critical Thinking in Data Analysis: The Barclays Gender Pay Gap»), Data Plus Science, 23 февраля 2018 г. http://dataplusscience.com/GenderPayGap.html Графики, которые лгут, показывая непроверенные данные 123 материал в номер. Вот почему читатели графиков должны оставаться бдительными. Даже самые честные авторы иногда ошибаются. Я знаю, о чем говорю, потому что совершал почти все ошибки, о которых рассказываю в этой книге, хотя и никогда не обманывал читателей специально! 19 июля 2016 года новостной сайт Vox опубликовал статью с заголовком «Американская система здравоохранения вышла из-под контроля. 11 графиков, доказывающих это». Мантра, которую я регулярно повторяю на семинарах и лекциях: сам по себе график ничего не доказывает. С его помощью можно построить мощную и непробиваемую аргументацию, но сам по себе он бесполезен. Графики, которые Vox упоминал в статье, выглядят примерно так. Стоимость операции по удалению катаракты $3530 $3145 $2114 $1719 США Швеция Испания Великобритания Статья, опубликованная Vox, входит в те, которые я хотел бы выложить в своих соцсетях, потому что она подтверждает мой опыт: я родился в Испании, а там медицинские расходы в основном покрываются налогами, как во многих странах Западной Европы. Конечно, я верю, что цены на медицину в США «вышли из-под контроля» — сам с ними сталкивался! 124 Глава 3 Однако как сильно они вышли из-под контроля на самом деле? На график Vox сработал мой личный детектор глупости, потому что не было сказано, учтен ли в цене паритет покупательной способности (ППС). Это метод сравнения цен в разных местах, учитывающий стоимость жизни и инфляцию. Он основан на подсчете количества местных денег, необходимых для закупки одинакового набора товаров. Пожив много где, могу сказать, что $1000 — очень много в одних местах и незначительная сумма в других. Также я вспомнил про ППС, потому что многие мои испанские родственники работали в системе здравоохранения: отец был врачом, пока не вышел на пенсию, так же как и дядя, тетя была медсестрой, дед — медбратом, а мама заведовала отделением сестринского ухода в большой больнице. Я знаю, какая у них была зарплата. И она вдвое ниже, чем получают в США на тех же должностях, а именно такая разница в ценах в большинстве графиков Vox. Заинтересовавшись, откуда получены данные и скорректированы ли цены, чтобы их можно было сравнивать, я покопался в сети. Источником Vox, упомянутым в истории, стал отчет Международной федерации планирования медицинского страхования, iFHP, расположенной в Лондоне 53. В числе ее членов более 70 медицинских организаций и страховщиков из 25 стран. В отчете есть обзорная часть, раскрывающая методологию оценки средней стоимости нескольких медицинских процедур и медикаментов в разных странах. Она начинается со слов: «Цены для каждой страны были получены от организаций, состоящих в Федерации». 53 Вы можете найти отчеты Международной федерации планирования медицинского страхования на ее сайте http://www.ifhp.com Графики, которые лгут, показывая непроверенные данные 125 Значит, что в отчете подсчитана не средняя цена для всех организаций во всех странах, а только для некоторых. Это не принципиальная ошибка. Оценивая какую-то величину, например, средний вес жителя США, мы вряд ли будем взвешивать всех жителей. Более реалистичную картину мы получим, если возьмем определенную, достаточно большую, случайную выборку жителей и определим ее средний вес. В данном случае хорошей выборкой было бы небольшое количество случайно выбранных медицинских учреждений из каждой страны. Все организации должны иметь равную вероятность попасть в выборку. Если правильно собрать случайную выборку, то высока вероятность, что полученная средняя величина окажется близкой к среднему значению по всему множеству. Специалисты по статистике в таком случае говорят, что выборка репрезентативная относительно множества значений, из которой ее выбирали. Среднее значение выборки не будет совпадать с общим средним, но приближено к нему. Вот почему статистические оценки обычно сопровождаются замечанием о степени достоверности полученной оценки, например допустимой погрешности 54. Но выборка, использованная iFHP, не случайная. Это самовыборка со средними ценами по организациям, состоящим в Федерации. Такие выборки очень опасны, потому что нет способа оценить, в какой мере полученные значения соответствуют средним значениям по всему множеству. Уверен, что вы знакомы с другими примерами самовыборки: голосование на сайтах и в соцсетях. Представьте, 54 Чтобы узнать больше о различных видах случайной выборки, ознакомьтесь с кратким обзором: «Выборка» (Sampling), Йельский университет, по состоянию на 27 января 2019 г. http://www.stat.yale.edu/ Courses/1997–98/101/sample.htm 126 Глава 3 что журнал левого толка The Nation проводит на своем сайте опрос, насколько читатели одобряют президентареспубликанца. В результате, скорее всего, будет 95% неодобряющих и 5% одобряющих, потому что читатели The Nation в основном придерживаются либеральных и прогрессивных взглядов. Если провести тот же опрос на сайте Fox News, результат с высокой долей вероятности окажется противоположным. Дальше только хуже. На следующей странице обзорной части отчета есть такой параграф: «Цены для США взяты из 370 миллионов медицинских претензий и 170 миллионов фармацевтических претензий, что отражает цены, оговоренные и оплачиваемые поставщиками медицинских услуг». Но цены для других стран: «…из частного сектора, информация взята из одного вида медицинской страховки на страну». Проблема в том, что мы не знаем, насколько этот вид медстрахования далек от прочих в стране. Возможно, средняя стоимость удаления катаракты в Испании совпадает со стоимостью, указанной в выбранной страховке. Но также возможно, что она выше или ниже. Мы просто не знаем! И не знает iFHP, о чем и говорит в последней строке обзорной части: «Цена по одной медицинской страховке может не отражать цены по другим страховкам на рынке». Ну да, действительно. Это предложение ненавязчиво говорит нам: «Если будете использовать наши данные, предупредите читателей, что в них есть недостатки!» Почему Vox не пишет про недостатки публикуемых им данных, чтобы читатель мог с долей скептицизма, а то и вовсе без доверия, подойти к представленным числам? Я не знаю, но могу Графики, которые лгут, показывая непроверенные данные 127 предположить, так как сам часто ошибался: у большинства журналистов благие намерения, но они очень заняты, куда-то спешат и, как в моем случае, могут быть невнимательны. Мы ошибаемся чаще, чем готовы в этом признаваться. Я не думаю, что это повод не доверять всем новостным каналам, о чем мы поговорим в конце главы, но ситуация должна заставить нас аккуратно подходить к источникам, откуда мы берем информацию, и всегда применять здравый смысл и такие правила, как сформулированное Карлом Саганом: «Поразительные утверждения требуют поразительных подтверждений». Вот пример поразительного утверждения: жители штатов с большим процентом избирателей-демократов смотрят больше порно, чем жители штатов с преобладанием республиканцев. Исключение — Канзас, в соответствии с данными популярного сайта Pornhub. Джейхокеры (или «красные ноги», как называли канзасцев во времена Гражданской войны) потребляют непропорциональное количество онлайн-порно 55. 55 Источник изображения: Кристофер Ингрэм. «Согласно Pornhub Канзас — порностолица нации» (Christopher Ingraham, «Kansas Is the Nation's Porn Capital, according to Pornhub»), WonkViz, по состоянию на 27 января 2019 г. http://wonkviz.tumblr.com/post/82488570278/ kansas-is-the-nations-porn-capital-according-to. Он использовал данные Pornhub, который объединил со статьей на BuzzFeed: Райан Бродерик «Кто смотрит больше порно: республиканцы или демократы?» (Ryan Broderick, «Who Watches More Porn: Republicans or Democrats?»), BuzzFeed News, 11 апреля 2014 г. https://www.buzzfeednews.com/article/ryanhatesthis/who-watches-more-porn-republicans-or-democrats 128 Глава 3 200 Прореспубликанские штаты Продемократические штаты Канзас Невада Гавайи 150 Количество просмотров страниц Pornhub на человека (2013 год) Вермонт 100 Юта Мэн 50 25% 50% 75% Процент проголосовавших за кандидата от демократов (Барак Обама) на президентских выборах 2021 О Канзас, как низко ты пал! Ты смотришь даже больше порно (194 страницы на человека), чем эти северные либеральные еретики из Мэна (92) и Вермонта (106). Только это ложь. Чтобы пояснить почему, надо сначала показать вам, где географический центр континентальной части США. Небраска Канзас Географический центр континентальной части США Графики, которые лгут, показывая непроверенные данные 129 Предыдущая диаграмма рассеяния основана на диаграмме, составленной репортером Кристофером Ингрэмом для своего блога о политике и экономике wonkviz.tumblr.com. Диаграмма Ингрэма и использованные в ней данные Pornhub были подхвачены несколькими новостными каналами. И всем им позже пришлось публиковать пояснения к статье. Данные и выводы, сделанные из графика, сомнительны. Во-первых, мы не знаем, насколько просмотры Pornhub отражают общее потребление порно: возможно, жители разных штатов пользуются разными источниками. Более того, причина, почему потребление порно в Канзасе на человека так высоко, — ошибка в данных. Если вы не используете виртуальные частные сети (VPN), то владельцы сайтов и поисковых систем могут определить ваше местоположение через IP-адрес — уникальный цифровой идентификатор, привязанный к вашей точке выхода в интернет. Например, если я зайду на Pornhub из моего дома во Флориде, ребята из отдела данных Pornhub будут примерно знать, откуда я. Впрочем, я использую VPN, перенаправляющий мой интернет-трафик через каналы, расположенные в разных частях мира. В данный момент мой VPN-сервер расположен в Санта-Кларе в Калифорнии, хотя я сижу на залитом солнцем заднем дворике во Флориде. Если Pornhub добавит меня в свою базу данных, там будет записано либо «СантаКлара, Калифорния» либо — так как они, скорее всего, знают, что я использую VPN, — «местоположение не определено». Однако в данном случае произошло следующее. Если мое местоположение не смогли определить, то мою запись автоматически относят к географическому центру континентальных США, то есть Канзасу. Ниже Ингрэм поясняет забавный вывод, к которому можно прийти, изучив его диаграмму: 130 Глава 3 «Впечатляющие результаты Канзаса, скорее всего, связаны со спецификой геолокации. Когда точное местоположение посетителя из США не определяется сервером, его отмечают в центре страны, в данном случае — в Канзасе. То, что вы видите, это приписывание Канзасу позора (или славы?) анонимных американцев, искавших порно». Когда журналисты и новостные организации признают ошибку и выпускают уточнения, как сделал Ингрэм, их можно считать достойными доверия. Другой признак журналиста, достойного доверия, — он исследует данные с разных перспектив и проверяет по нескольким источникам. Из любопытства я зарылся в литературу о связи просмотра порно и политических взглядов — как выяснилось, есть и такая — и в Journal of Economic Perspectives обнаружил статью «Штаты красных фонарей: кто покупает онлайн-развлечения для взрослых?» 56, написанную Бенджамином Эдельманом, профессором бизнесадминистрирования в Гарварде. Если Pornhub показал, что в 2012 году больше порно с их сайта потребляли люди либеральных взглядов, то в данной статье раскрывают другую взаимосвязь: в красных (республиканских) штатах выше потребление онлайн-развлечений для взрослых. Вот небольшой график, который я сделал на основе данных Эдельмана (обратите внимание, что 56 Бенджамин Эдельман. «Штаты красных фонарей: кто покупает онлайн-развлечения для взрослых?» (Benjamin Edelman, «Red Light States: Who Buys Online Adult Entertainment?»), Journal of Economic Perspectives 23, вып. 1 (2009): 209–220. https://www.hbs.edu/faculty/ Pages/item.aspx?num=35239 Графики, которые лгут, показывая непроверенные данные 131 Эдельман привел не всю статистику, так что обратная связь между переменными довольно слаба). Юта Прореспубликанские штаты Продемократические штаты Аляска 5 4 Гавайи Подписки на порносайты на 1000 пользователей интернета 3 2 25% 50% 75% Процент проголосовавших за демократического кандидата (Барак Обама) на президентских выборах 2012 года Из общего ряда выбиваются Юта, Аляска и Гавайи. Главное отличие этого графика от предыдущего — вертикальная ось. В графике Ингрэма по этой оси было число просмотров страниц Pornhub на человека, здесь — число просмотров порносайтов на 1000 пользователей интернета. Чтобы прочитать график правильно, сначала надо понять, что именно в нем измеряется: от этого может измениться ключевая мысль, которую он несет. Например, я не могу только на основе последнего графика утверждать, что Аляска, Юта и Гавайи смотрят больше порно. Возможно, люди в этих штатах смотрят меньше порно, но чаще подписываются на платные сайты для взрослых и реже 132 Глава 3 используют бесплатные, вроде Pornhub. Также, как мы увидим в главе 6, на основании данного графика нельзя утверждать, что отдельные люди в этих штатах смотрят больше или меньше порно. Внимательно читать графики — значит критически воспринимать информацию. А еще вам придется выработать чутье на достоверные источники информации. Обе темы выходят за рамки книги, но я дам несколько советов. Есть много книг, которые научат вас лучше сопоставлять цифры с фактами, приводимыми в новостях. Я лично рекомендую «Голая статистика» Чарльза Уилана, «Обман в науке» Бена Голдакра и «Как не ошибаться» Джордана Элленберга. Они помогут вам избежать наиболее частых ошибок, которые все мы совершаем, разбираясь в ежедневной статистике. Книги почти не касаются графиков, но зато это отличные пособия по основам обращения с данными. Чтобы стать грамотным потребителем медиаконтента, я рекомендую сайт Fact-Checking Day (factcheckingday.com). Сайт был создан при участии Института Пойнтера — некоммерческой школы, обучающей информационной грамотности и журналистике. Он предлагает список признаков, по которым вы сможете определить ценность графика, новости, статьи или всего сайта. Кстати, все, кто теперь присутствует онлайн, стали поставщиками информации. Раньше ими были только журналисты, информационные агентства и СМИ. Некоторые из нас делятся с небольшой группой читателей — друзьями и родственниками, — а у других много подписчиков. Например, на мой твиттер подписаны коллеги, знакомые Графики, которые лгут, показывая непроверенные данные 133 и абсолютно неизвестные мне люди. Неважно, сколько человек нас читают сейчас, потенциально мы можем донести сообщение до тысяч, если не миллионов людей. И несем за него моральную ответственность. Мы должны перестать бездумно репостить графики и новости. Наш гражданский долг — избегать распространения графиков и статей, которые могут ввести в заблуждение. Мы должны способствовать созданию здорового информационного пространства. Я поделюсь своим сводом правил распространения информации, а вы уже сделайте выводы. Как это происходит: каждый раз, когда я вижу график, то внимательно читаю его и смотрю, кто его опубликовал. Если есть время, изучаю источник исходных данных, как с хеви-металом и статьей Vox о стоимости медицинских услуг. Не гарантирую, что вы всегда будете распространять только правдивую информацию, но хотя бы существенно снизите вероятность ошибки. Если возникают сомнения в данных, лежащих в основе графика или статьи, то я не публикую их в своей новостной ленте. Сначала уточню у людей, которым я доверяю и которые разбираются в теме. Например, эту книгу и все графики в ней перед публикацией прочли несколько моих друзей, получивших докторскую степень в разных областях исследования данных. Если я не могу сам оценить качество графика, то всегда запрашиваю помощь специалистов. Кстати, вам необязательно заводить дружбу с ходячей энциклопедией — подойдет и учитель математики вашего ребенка. Если я могу объяснить, почему график плох или как его можно улучшить, то пишу об этом в соцсетях или на своей 134 Глава 3 странице вместе с публикацией графика. Затем я призываю автора в комментарии и стараюсь быть предельно корректным в своей критике, если, конечно, не считаю, что он сознательно исказил график. Все мы делаем ошибки, и всегда есть чему поучиться друг у друга. Не стоит надеяться, что каждый способен проверить информацию во всех графиках, встречающихся нам ежедневно. У кого-то не хватит времени, у кого-то — знаний. Но иногда можно поверить автору на слово. Как определить, что он стоит доверия? Вот мой личный список простых способов, основанных на опыте, знании журналистики, науки и недостатков человеческого разума. Применять в произвольном порядке. • Не верьте графику, сделанному или опубликованному кем-то незнакомым, пока не проверите сами график, его исходные данные или и то и другое. • Не верьте авторам и издателям, не указывающим источник данных или прямую ссылку на сами данные. Прозрачность данных — правило хорошего тона в науке. • Придерживайтесь разнообразия в своей информационной диете. Неважно, какая идеология вам близка, смотрите публикации людей левых, правых и центристских взглядов. • Открывайте для себя авторов, с которыми не согласны. Дайте им шанс. Я считаю, что большинство людей не хотят обмануть или ввести в заблуждение сознательно и что мы все не любим, когда нам врут. • Не считайте автора злонамеренным обманщиком, когда спешка, неаккуратность или невежество — более правдоподобные объяснения плохого графика. Графики, которые лгут, показывая непроверенные данные 135 • Конечно, у доверия есть свои границы. Если вы заметили, что автор регулярно выдает плохие графики, вычеркните его из ваших списков. • Читайте только тех, кто публикует опровержения и уточнения, когда в этом есть необходимость. Такие публикации должны быть не менее заметными, чем оригинальные. Опровержения — тоже признак хорошего тона. Перефразирую известное высказывание: человеку свойственно ошибаться, а богу — исправлять. Если автор систематически не публикует опровержений после ошибочных постов, то вычеркивайте его. • Многие думают, что журналисты предвзяты. Так происходит, потому что многие считают журналистами тех, кто яростно вещает с экрана телевизора или по радио. Некоторые из них действительно журналисты, но большинство — политтехнологи, PR-специалисты или ведущие шоу. • У всех журналистов есть политические взгляды. У кого их нет? Но большинство старается оставлять их при себе и делать все, чтобы донести, как говорил знаменитый Карл Бернштейн, вскрывший уотергейтский скандал, «наилучшую доступную версию истины»57. • Доступная версия может не быть истиной, но хорошая журналистика в этом схожа с наукой. Наука не ищет истину. Наука дает все более точное приближенное представление того, как на самом деле выглядит истина, исходя из имеющихся данных. Если 57 Эрик Блэк. «Карл Бернштейн приводит доводы в пользу “наилучшей доступной версии истины”» (Eric Black, «Carl Bernstein Makes the Case for 'the Best Obtainable Version of the Truth»), Minneapolis Post, 17 апреля 2015 г. https://www.minnpost.com/eric-black-ink/2015/04/carlbernstein-makes-case-best-obtainable-version-truth/ 136 Глава 3 • • • • • данные изменились, то и объяснение, журналистское или научное, тоже должно измениться. Остерегайтесь тех, кто никогда не меняет своих взглядов, даже если признает, что они основываются на ложной или неполной информации. Избегайте абсолютно предвзятых авторов. Они производят не информацию, а мусор. Отличить просто пристрастного автора от абсолютно предвзятого довольно сложно. Важная информация есть на всех полюсах политического спектра, поэтому вам придется потратить время и усилия. Но хорошим признаком будет тон сообщений автора, включая идеологическую накрутку, агрессивную риторику. Если это присутствует в сообщениях автора, вычеркивайте его, даже если он просто развлекается. Самые предвзятые авторы, особенно те, чьи взгляды вы разделяете, похожи на конфеты: по чуть-чуть и иногда — весело и вкусно, много и регулярно — вредно для здоровья. Лучше развивайте свой интеллект на разнообразной диете, а не балуйте его легким и приятным материалом, чтобы не закостенеть в своих взглядах. Чем ближе вам идеологический тон публикации, тем пристальнее вы должны присматриваться к деталям и критичнее относиться к данным. Мы — люди — любим графики и статьи, подтверждающие наши взгляды, и не любим те, что им противоречат. Экспертные точки зрения важны, но не распространяются на чужие области. Если вы обсуждаете график иммиграции, то ваше непрофессиональное мнение стоит столько же, сколько мнение инженера или доктора философии. И их позиция куда дальше Графики, которые лгут, показывая непроверенные данные 137 от истины, чем высказанная статистиками, социологами или юристами, специализирующимися на иммиграции. Практикуйте интеллектуальную скромность. • Стало модным критиковать мнения экспертов, но здоровый скептицизм легко может перерасти в непродуктивный нигилизм. Особенно если эмоциональные или идеологические причины не позволяют вам согласиться со специалистом. • Легко критиковать график, отражающий ту часть действительности, о которой мы не хотели бы знать. Куда сложнее прочитать такой график, предположить, что автор не хотел никого обмануть, и трезво оценить, есть ли под ним реальная основа. Не отвергайте публикацию только потому, что вам неприятен автор или его взгляды. И, наконец, помните, что график обманывает нас там, где мы хотим быть обманутыми. Это главный урок моей книги, о котором подробнее поговорим в заключении. 138 Глава 4 Глава 4 Графики, которые лгут, отображая неполные данные Р аспространители визуальной лжи знают, что отбор подходящих данных — эффективный способ обмануть людей. Подбирая данные аккуратно, под нужный результат, отбрасывая все, что его не подтверждает, вы сможете сделать график с устраивающим вас выводом. Или другой метод: вместо скрупулезного отбора небольшого объема информации, вывалите на читателя массу сбивающих с толку данных. Если хотите привлекать внимание к конкретному дереву, спрячьте его в лесу побольше. 18 декабря 2017 года в спокойное течение моего дня ворвался ужасный график из твиттера Белого дома. У меня есть правило: если хочешь вести доброжелательную и разумную беседу по противоречивой теме, используй только проверенные факты. График ниже этому правилу не следует. Графики, которые лгут, отображая неполные данные 139 Заинтересовавшись темой, я пошел по ссылке в сообщении и увидел целую серию графиков о семейной иммиграции. Некоторые графики там говорят, что почти 70% иммиграции в США за последние десять лет — это семейная иммиграция (люди перевозят своих родственников), что в сумме дает 9,3 миллиона иммигрантов 58. У меня нет сложившегося мнения ни за, ни против семейной иммиграции. Доводилось слышать хорошие аргументы в пользу обеих позиций. С одной стороны, давая иммигрантам возможность помогать не только ближайшим родственникам, мы и принимаем гуманное решение, 58 «Время остановить цепную реакцию» («It's Time to End Chain Migration»), Белый дом, 15 декабря 2017 г. https://trumpwhitehouse.archives.gov/ a r t ic le s/t i me - end- c ha i n- m ig rat ion/?ut m _ sou rce=t w it ter&ut m _ medium=social&utm_campaign=wh_20171218_Chain-migration_v2 140 Глава 4 и улучшаем психологический и социологический климат, ведь большая и сильная семья дает человеку чувство защиты, безопасности и стабильности. С другой стороны, неплохо бы усилить профессиональную иммиграцию и увеличить число высококлассных специалистов за счет других форм переселения. Зато у меня есть вполне сложившееся мнение про пропаганду, в которой используют лживые графики. Во-первых, обратите внимание на то, о чем я предупреждал еще в прошлой главе, на риторику: «цепная иммиграция» — термин, широко применявшийся раньше, но «семейная иммиграция» значит то же самое, хотя термин более нейтральный. Вот как Белый дом описывает людей, переезжающих в США: «В последнее десятилетие США переселили 9,3 миллиона иммигрантов на основе семейных уз». Переселили? Я сам иммигрант, родился в Испании, а моя жена и дети — в Бразилии. Нас не «переселили США». Мы переехали сюда. И если мы будем помогать нашим родственникам, то их тоже никто не будет «переселять» — сами переедут, по своей воле. Язык сообщения Белого дома уже настраивает на определенный лад, еще до того, как вы посмотрите на данные. Этот трюк имеет серьезную научную базу. Человек формирует свое мнение на основе быстрой эмоциональной реакции, а затем ищет данные, подтверждающие его, вместо того чтобы сначала взвесить все за и против и прийти к разумному выводу. Как указывал психолог Майкл Шермер в своей книге «Тайны мозга. Почему мы во все верим» 59, легко сформировать убеждения, трудно их поменять. Если 59 Майкл Шермер. «Тайны мозга. Почему мы во все верим». Переводчик: Ульяна Сапцина. М. : Эксмо, 2015 (Michael Shermer, «The Believing Brain. From Ghosts and Gods to Politics and Conspiracies How We Construct Beliefs and Reinforce Them as Truths», New York: Times Books, Henry Holt, 2011). Графики, которые лгут, отображая неполные данные 141 я использую верную риторику, то могу скрытно спровоцировать у аудитории эмоциональную реакцию, которая повлияет на восприятие графика. Далее риторика Белого дома только пришпоривает эмоции читателей. Только посмотрите сколько новых иммигрантов всего один понаехавший «имеет потенциал» породить! Они выглядят как бактерии, крысы или тараканы, утраивая свое число в каждом поколении! Сравнение, у которого есть темное прошлое. График, опубликованный Белым домом, выглядит подозрительно похожим на график, используемый расистами и сторонниками евгеники. Ниже график родом из Германии 1930-х годов, рассказывающий об «опасности» бесконтрольного размножения «низших» рас. Графики могут обманывать, предоставляя неверную информацию, но также они могут лгать, демонстрируя выводы без какой-либо информации вообще. График Белого дома — тому пример. 142 Глава 4 Кто тот иммигрант, привозящий с собой десятки родственников? Мы не знаем. Он типичный иммигрант? Вовсе нет. Откуда я это знаю? Я приехал в США в 2012 году по визе H-1B для людей с особыми навыками. Я перевез свою жену и детей, затем получил грин-карту и стал постоянно проживающим. Вы можете считать, что я — тот парень с верхушки графика, а моя семья — вторая его линия. Пока все как на картинке: я на вершине, три моих родственника ниже. До текущего момента все в порядке, хотя Белый дом забыл упомянуть, что большинство семейных виз, выдаваемых ежегодно, делается для семей, похожих на мою — муж, жена и их не состоящие в браке детей. Мне кажется, что даже самые упертые борцы с иммиграцией не хотели бы отменять эту практику, хотя могу и ошибаться. Но что происходит на нижних уровнях графика, когда иммигранты со второго уровня начинают привозить по три родственника каждый? Это не так просто: если моя жена захочет привезти свою маму и братьев- сестер, ей нужно будет делать приглашение на родственников не первой линии — категории, исключающей дядь, теть, двоюродных братьев и сестер. Более того, чтобы помочь им с визой таким образом, моя жена сначала сама должна стать гражданкой, а в таком случае она уже не будет иммигрантом. Количество семейных виз ограничено — 480 000 в год. Как сказано на Национальном иммиграционном форуме, нет ограничения на количество виз для одной семьи, но каждая виза вычитается из лимита в 480 000, следовательно, число виз для непрямых родственников значительно меньше. Это значит, что вы не можете перевезти кого хотите, а виза для неближайших родственников может одобряться годами, так как их количество ограничено. Графики, которые лгут, отображая неполные данные 143 Политически мотивированные темы часто выдают лучшие — или худшие, в зависимости от того, с какой вы стороны баррикад — примеры ошибочных графиков и данных. Например, в сентябре 2017 года заголовок в Breitbart News гласил, что «2139 получателей DACA приговорены за преступления против американцев или обвинены в них» 60. DACA расшифровывается как Deferred Action for Childhood Arrivals («Защитные меры в отношении прибывших детей»). Эту программу объявил президент Барак Обама в 2012 году, чтобы защитить от депортации и дать разрешение на работу людям, ввезенным в США нелегально еще детьми. У DACA много противников, считающих, что такие программы не должна принимать исполнительная власть, а сначала их должны обсудить в Конгрессе. Некоторые люди, которых я считаю разумными, даже говорят, что это противоречит конституции 61. Президент Трамп отменил программу в сентябре 2017 года. Но это обсуждение выходит за рамки нашей книги. Давайте лучше сосредоточимся на том, что хорошую дискуссию может испортить плохой график. Я сделал такой, основываясь на данных Breitbart и выдерживая риторику их статьи. 60 61 Джон Биндер. «2139 получателей DACA приговорены за преступления против американцев или обвинены в них» (John Binder, «2139 DACA Recipients Convicted or Accused of Crimes against Americans»), Breitbart, 5 сентября 2017 г. https://www.breitbart.com/politics/2017/09/05/ 2139-daca-recipients- convicted-or-accused-of-crimes-against-americans/ Мириам Вальверде. «Что суды сказали о конституционности DACA?» (Miriam Valverde, «What Have Courts Said about the Constitutionality of DACA?»), PolitiFact, 11 сентября 2017 г. http://www.politifact.com/trutho-meter/statements/2017/sep/11/eric-schneiderman/has-daca-beenruled-unconstitutional/ 144 Глава 4 2139 приговорены за преступления против американцев или обвинены в них Первый абзац статьи гласит: «В то время как генеральный прокурор Джефф Сешенс объявил о завершении программы Обамы Deferred Action for Childhood Arrivals (DACA), благодаря которым более 800 000 непроверенных молодых нелегальных мигрантов получили право на проживание и работу, число тех из них, кто стал осужденным, членом банды или подозреваемым в преступлении, остается ошеломляющим». И правда, число 2139 ошеломляет. Но не своей величиной, а, наоборот, незначительностью. В соответствии со статьей, более 800 000 прошли по программе DACA. Если это верно, то процент потерявших свой статус из-за связи с бандами или обвинением в преступлении очень мал. Возьмем простую арифметику: если разделить 2139 на 800 000, то получим примерно 0,003. Умножим на 100 и получим 0,3%. Если еще раз умножим, теперь на 1000, то выйдет, что на каждую 1000 участников DACA всего 3 потеряют свой статус из-за своих сомнительных действий. Графики, которые лгут, отображая неполные данные 145 Это число становится еще менее значимым, если мы сравним его с подобными числами, что в такой ситуации мы обязаны делать. Число не несет в себе никакого смысла, если рассматривать его вне контекста. Мы можем сравнить 3 из 1000 участников DACA со всем населением США. В 2016 году исследование показало, что на 2010 год приблизительно 6,4% людей избирательного возраста были бывшими преступниками 62. То есть 64 человека из 1000. 3 потеряли свой временный статус из-за «обвинений в уголовных преступлениях, значительных административных правонарушений, многочисленных административных правонарушений, связи с бандами или ареста в связи с проступком, угрожающим общественной безопасности» ! "#$ %&' 64 являлись бывшими преступниками. Это число не включает в себя людей, осужденных за административные правонарушения. (Источник: Сара К. С. Шеннон и др. «Рост, масштабы и пространственное распределение людей с записями о тяжких преступлениях в США, 1948–2010», Demography, т. 54, вып. 5 (2017): 1795–1818) Мое сравнение куда более информативно, чем упрощенная версия Breitbart, но все равно не идеально по нескольким причинам. Во-первых, это всего лишь одно исследование, проведенное несколькими учеными (правда, 62 Сара К. С. Шеннон и др. «Рост, масштабы и пространственное распределение людей с записями о тяжких преступлениях в США, 1948–2010» (Sarah K. S. Shannon et al., «The Growth, Scope, and Spatial Distribution of People with Felony Records in the United States, 1948 to 2010»), Demography, т. 54, вып. 5 (2017): 1795–1818. https://pubmed.ncbi.nlm.nih. gov/28895078/ 146 Глава 4 в других исследованиях, которые я нашел, цифры были выше). Во-вторых, беря во внимание все население США, мы учитываем людей всех возрастных групп. Чтобы сделать верное сравнение, мы должны посчитать людей младше 30 лет, так как все участники DACA не старше этого возраста. И, наконец, эти 3 из 1000 участников DACA потеряли свой статус не только из-за уголовных преступлений, но и из-за административных и незначительных правонарушений. Ученые, проводившие исследование 2016 года, пишут: «Уголовные преступления включают в себя широкий спектр действий, от задержания с марихуаной до убийства. Исторически термин “уголовное преступление” использовался, чтобы отделить тяжкие и особо тяжкие преступления от менее серьезных правонарушений. В США уголовные преступления, как правило, караются сроком от одного года тюрьмы, в то время как за правонарушения наказывают меньшими сроками и штрафами». Возможно, если бы из DACA исключали только за уголовные преступления, число на графике было бы еще меньше. Но точно мы не узнаем без дополнительного исследования. Мой первый график по данным Breitbart — пример того, как соврать, показав несоответствующий объем информации, в данном случае — слишком маленький. Он также попадает в категорию графиков, в которых для подтверждения своей позиции выбирают только нужную информацию и показывают абсолютные цифры там, где нужны относительные, и наоборот. Графики, которые лгут, отображая неполные данные 147 Ни один график не сможет отразить жизнь во всем ее многообразии. Впрочем, график может показать ее хуже или лучше, чем на самом деле, в зависимости от умения автора выдержать баланс между чрезмерным упрощением и чрезмерным усложнением. В ноябре 2017 года Пол Райан, бывший спикер Палаты представителей, вышел в социальные сети, чтобы поддержать налоговую реформу и «Закон о рабочих местах», прошедшие слушания в этом же месяце. Он использовал следующий график. Средняя семья сэкономит $1182 в год на налогах Это чрезмерное упрощение, независимо от вашего мнения по данному закону. Слово «средняя» само по себе ни о чем не говорит. Как много в США «средних» или близких к «средним» семей? Большая часть? Именно так я и подумал бы, если бы цифры Райана вызывали доверие и у меня не было опыта чтения графиков. В соответствии с данными Бюро переписи населения, на момент написания этих строк медианное домохозяйство в США получало примерно $60 000 в год. (Заметьте, доходы семьи могут не равняться доходам домохозяйства. Под последним понимается один или несколько человек, живущих в одном доме. Но не все домохозяйства состоят 148 Глава 4 из семей, то есть людей, связанных рождением, усыновлением или браком. Тем не менее у распределения доходов домохозяйств и семей примерно одинаковые графики.) Давайте нарисуем абстрактный график, показывающий, что большая часть домохозяйств имеет годовой доход в $60 000. Медиана: $72 707 4% Внимание! Процент 3% домохозяйств в каждой группе 2% по размерам дохода 1% Данные на этом графике не настоящие, то есть график неверен. 0% $40 000 или ниже $60 000 $80 000 $100 000 или выше Домохозяйства в каждой группе по размерам дохода Такой график называется гистограммой и показывает частоту и распределение величины. Данный гипотетический — и ложный — график демонстрирует распределение домохозяйств США в зависимости от их дохода. На гистограмме высота столбца пропорциональна проценту домохозяйств в соответствующем диапазоне доходов. Чем выше столбец, тем больше домохозяйств с таким уровнем доходов. Если сложить все столбцы вместе, то мы получим 100%. На моем выдуманном графике самые высокие столбцы — в середине, близко к медиане. Большая часть домохозяйств на графике попадает в интервал дохода от $40 000 до $80 000. Настоящее распределение доходов в США выглядит совсем иначе. Смотрите ниже. 10% 8% 6% 4% 2% 0% Процент домохозяйств в каждой группе по размерам дохода $5K (Источник: Бюро переписи населения США) Около 3% домохозяйств имеют доход ниже $5000 в год Больше 9% домохозяйств имеют доход $200 000 в год и выше Медиана доходов домохозяйств (примерно $60 000) проходит по этому столбцу $25K $50K $75K $100K $125K $150K $175K $200K Домохозяйства в каждой группе по размерам дохода Графики, которые лгут, отображая неполные данные 149 Разброс доходов домохозяйств в США куда шире — от $5000 в год до многих миллионов. Распределение дохода настолько неравномерно, что мы даже не можем показать его на одном графике. Все богатые домохозяйства пришлось поместить в столбец «$200 000 в год или выше». Если я буду продолжать график направо с шагом в $5000, как делал сначала, то он растянется по горизонтали на десятки страниц. Значит, говорить только о средней или медианной семье, экономящей $1182 в год, бессмысленно. Многие домохозяйства и семьи сэкономят либо меньше, либо куда больше. Как налогоплательщика и сторонника гражданского дискурса, меня волнуют высокие налоги, но также и информация о балансе бюджета, инвестициях в инфраструктуру, оборону, образование и здравоохранение. Меня заботит и свобода и справедливость. Следовательно, я хочу услышать от моих представителей в правительстве, сколько благодаря налоговым послаблениям сэкономят семьи с разным уровнем дохода. В данном случае мы не можем ограничиться медианой или средним арифметическим, нам нужно больше данных. Сколько примерно будут ежегодно экономить люди с доходом $10 000, $100 000 и $1 000 000? Центр налоговой политики показал, сколько примерно экономят домохозяйства с разным уровнем дохода на уплате налогов (в процентах) благодаря налоговым послаблениям и «Закону о рабочих местах» 63. 63 Сотрудники Центра налоговой политики «Распределительный анализ Соглашения о конференции по Закону о сокращении налогов и рабочих местах» («Distributional Analysis of the Conference Agreement for the Tax Cuts and Jobs Act»), Центр налоговой политики, 18 декабря 2017 г. https://www.taxpolicycenter.org/publications/distributional- analysisconference-agreement-tax-cuts-and-jobs-act 150 Глава 4 Доход домохозяйств <$10K $10K–$20K $20K–$30K $30K–$40K $40K–$50K $50K–$75K $75K–$100K $100K–$200K $200K–$500K $500K–$1M > $1 млн Изменение дохода после уплаты налогов (в процентах) +0.1% (Источник: Центр налоговой политики) +0.3% +0.7% +1.1% +1.4% +1.6% +1.8% +2.0% +2.9% +4.3% +3.3% Мне кажется, стоило обсудить, что домохозяйства с доходом более $1 000 000 сэкономят 3,3% ($33 000 от $1 000 000), в то время как у семей из среднего класса, зарабатывающих, скажем, $70 000, выйдет 1,6% ($1120 в год). Вы можете поддерживать налоговые послабления или быть против, но чтобы говорить о них, нам нужно больше данных, чем просто среднее арифметическое или медиана 64. Оценка основных тенденций может быть очень полезной, но, как правило, они не отражают всей формы и структуры данных. Графики, основанные на средних значениях, часто обманывают только потому, что среднее значение дает слишком мало информации. 64 На деле все еще сложнее. По ряду прогнозов многие семьи в итоге будут платить больше налогов, а не меньше: Даниэль Курцлебен. «Вот как налоговые льготы Республиканской партии перенаправят деньги бедных американцев богатым» (Danielle Kurtzleben, «Here's How GOP's Tax Breaks Would Shift Money to Rich, Poor Americans»), NPR, 14 ноября 2017 г. https://www.npr.org/2017/11/14/562884070/charts-heres-howgop-s-tax-breaks-would-shift-money-to-rich-poor-americans. Кроме того, PolitiFact раскритиковал приведенные Райаном цифры: Луи Джейкобсон. «Сэкономит ли налоговый план Республиканской партии типичной семьи 1182 доллара?» (Louis Jacobson, «Would the House GOP Tax Plan Save a Typical Family $1,182?»), PolitiFact, 3 ноября 2017 г. https:// www.politifact.com/factchecks/2017/nov/03/paul-ryan/would-housegop-tax-plan-save-typical-family-1182/ Графики, которые лгут, отображая неполные данные 151 Обсуждая такие темы, как доход, можно обмануть, выдав слишком много информации. Представьте, что у меня есть возможность отобразить доход каждого домохозяйства в США на графике, где будут отмечены миллионы маленьких точек. Это уже перебор. Нам не нужна столь подробная информация для ведения дискуссии. Гистограмма распределения дохода — золотая середина между слишком упрощенной и слишком детализированной картинами, и именно такого надо требовать от всех графиков, с которыми мы сталкиваемся. Я люблю приключенческое кино, а марвеловская «Черная пантера» режиссера Райана Куглера — отличный пример, с увлекательным сценарием и запоминающимися персонажами. Фильм удачно прошел в прокате, настолько, что некоторые новостные сайты назвали его «третьим по кассовым сборам за все время в США, уступающим только «Звездным войнам: пробуждение силы» и «Аватару» 65. К сожалению, это не так. Хотя «Черная пантера» — достойный и успешный фильм, но, скорее всего, не третий по сборам за все время в США 66. Обычно проблема с обзорами прибыли от проката в том, что учитывают нескорректированные суммы, в то время как надо считать скорректированные. Уверен, что сегодня 65 66 Алисса Уилкинсон «“Черная Пантера” продолжает бить рекорды кассовых сборов» (Alissa Wilkinson. «Black Panther Just Keeps Smashing Box Office Records»), Vox, 20 апреля 2018 г. https://www.vox.com/ culture/2018/4/20/17261614/black-panther-box-office-records-gross-ironman-thor-captain-america-avengers Сайт Box Office Mojo www.boxofficemojo.com составляет рейтинги самых кассовых фильмов с поправкой на инфляцию. «Черная пантера» занимает 30-е место в списке «Самые кассовые фильмы всех времен», Box Office Mojo, по состоянию на 27 января 2019 г. 152 Глава 4 вы покупаете товары по цене, выше той, что была пять лет назад. Если вы работаете на одной и той же должности, то ваша зарплата также выросла за прошедшие пять лет. Например, моя зарплата увеличилась, но в абсолютных цифрах, а не относительных. Из-за инфляции зарплата хоть и выглядит больше, но по ощущениям больше не становится: я могу купить на нее примерно столько же, сколько на прежнюю зарплату пять лет назад. Самые крупные кассовые сборы за выходные, по годам (в миллионах долларов) 250 «Пробуждение силы» 200 Отмечено кружком, когда каждый фильм шел Длина линии пропорциональна «Мстители» времени, в течение которого фильм оставался самым кассовым за выходные. «Темный Рыцарь» 150 «Человек-паук» 100 «Парк юрского периода. Затерянный мир» «Бэтмен» 50 «Челюсти» 0 1975 1980 1985 1990 1995 2000 2005 2010 2015 2018 В этом проблема графика, созданного аналитиком данных и дизайнером Роди Заковичем 67, использовавших информацию с сайта Fandango. График показывает наибольшие кассовые сборы первых выходных проката (примечание: Роди знает о недостатках своего графика). График отражает сборы за первые выходные проката, а не общие. Поэтому в нем нет «Черной пантеры». И он 67 Сайт Роди «Data + Tableau + Me» www.datatableauandme.com Графики, которые лгут, отображая неполные данные 153 обманывает так же, как любая новость про кассовые сборы, которую вы могли читать в соцсетях, рекламирующая новый побитый рекорд сборов: эти цифры не скорректированы инфляцией и показывают абсолютные, а не относительные значения. Намного легче стать «самым кассовым фильмом всех времен», если билет в кино стоит $15, а не $5 (по нескорректированному курсу доллара). Поэтому в большинстве рейтингов по сумме сбора новые фильмы наверху, в то время как старые — где-то внизу. Чтобы исправить это, я изменил сумму сборов каждого фильма в графике в соответствии с курсом доллара в 2018 году, использовав бесплатное приложение на сайте Бюро трудовой статистики. Потом отобразил результаты, которые выглядят несколько иначе, чем на предыдущем графике. Ранжирование сборов за первые выходные не сильно изменилось, но старые фильмы выглядят теперь куда лучше. Сами посмотрите. Самые крупные кассовые сборы за выходные, по годам (в миллионах долларов) «Звездные войны: пробуждение силы» 250 Сборы с нескорректированным курсом доллара 200 Сборы, скорректированные по курсу доллара за 2018 год (с учетом инфляции) 150 100 «Челюсти» 50 0 Январь Январь Январь Январь Январь Январь Январь Январь Январь 1975 1980 1985 1990 1995 2000 2005 2010 2015 154 Глава 4 В графике я сравниваю нескорректированные сборы (оранжевая линия) и скорректированные по курсу доллара на 2018 год. Все столбцы подросли, но с разными коэффициентами: для «Звездных войн: пробуждение силы» сборы изменились примерно на 5%, в то время как сборы «Челюстей» выросли более чем на 360%. Значит, выйди «Челюсти» в прокат в 2018 году, их сборы составили бы не 7 миллионов долларов, а 32 миллиона. Я не эксперт в экономике производства фильмов, просто люблю смотреть кино и читать новости, но, как профессор и дизайнер, изучающий графики по работе, нахожу, что графики и новости, касающиеся успехов и провалов в сборах, обычно неполны. Разве честно сравнивать «Челюсти» и «Звездные войны: пробуждение силы», не учитывая изменения в киноиндустрии? А если учесть маркетинг, промокампании, число кинотеатров, в которых показывали фильм, и прочие факторы? Я не могу ответить на эти вопросы, но могу, используя открытые источники, посчитать, сколько каждый фильм собрал в среднем с кинотеатра в первые выходные проката, а потом пересчитать эту сумму в долларах 2018 года. Кассовые сборы на кинотеатр в первые выходные проката «Челюсти» (в долларах 2018 года) «Звездные войны: пробуждение силы» 80 000 40 000 0 Январь Январь Январь Январь Январь Январь Январь Январь Январь 1975 1980 1985 1990 1995 2000 2005 2010 2015 (Источник данных по кассовым сборам: сайт Box Office Mojo) И теперь я раздумываю, что если бы «Челюсти» вышли не в 1975 году в 409 кинотеатрах в США, а в 2015 году в том же количестве кинотеатров (4134), что и «Звездные Графики, которые лгут, отображая неполные данные 155 войны: пробуждение силы»? Собрали бы они в 10 раз больше, потому что число кинотеатров увеличилось в 10 раз, превратив сборы из 32 миллионов долларов в 320 миллионов? Кто знает. Также надо учитывать, что современные кинотеатры вмещают меньше зрителей, чем кинотеатры 1970-х годов. Так много вопросов без ответов! Другой способ оценки относительного успеха — доходность (разность между бюджетом фильма и его кассовыми сборами) и возврат инвестиций (соотношение между доходностью и бюджетом). Такие фильмы, как «Аватар», «Мстители» и «Звездные войны: пробуждение силы» очень прибыльные, но также и очень рискованные проекты, ведь затраты на производство и маркетинг весьма высока. По некоторым оценкам затраты на маркетинг в наши дни равняются стоимости создания фильма. В 2012 году на производство и рекламу фильма «Джон Картер», который должен был стать блокбастером, компания Disney потратила 300 миллионов долларов, однако в прокате он собрал всего 2/3 этой суммы68. Риски с другими фильмами были значительно ниже: некоторые считают «Паранормальное явление» фильмом с самым высоким возвратом инвестиций всех времен 69. При бюджете в $15 000 (без учета маркетинговых расходов) он заработал почти 200 миллионов. Какой из фильмов более успешен — «Аватар» или «Паранормальное явление»? Зависит от метода оценки, который мы выберем, и того, как 68 69 Дон Хмелевски. «Дисней ожидает от “Джона Картера” убытков в размере 200 миллионов долларов» (Dawn C. Chmielewski, «Disney Expects $200-Million Loss on John Carter»), Los Angeles Times, 20 марта 2012 г. https://www.latimes.com/entertainment/la-xpm-2012-mar-20-la-fi-ctdisney-write-down-20120320-story.html «Отчет о бюджете фильма и финансовых показателях» («Movie Budget and Financial Performance Records»), The Numbers, по состоянию на 27 января 2019 г. https://www.the-numbers.com/movie/budgets/ 156 Глава 4 будем считать возврат инвестиций в зависимости от потенциального риска провала. Новая версия моего графика учитывает все вышесказанное. Здесь посчитано, какая часть бюджета фильма, без учета маркетинговых расходов, была возвращена во время первых выходных проката. Процент бюджета фильма, возвращенный в первые выходные проката (по курсу доллара на 2018 год) «Челюсти» «Звездные войны: «Как ни крути — проиграешь» пробуждение силы» «Звездный путь — 2: гнев Хана» «Мир юрского «Полицейский периода» из Беверли-Хиллз — 2» 200% 100% 0% Январь Январь Январь Январь Январь Январь Январь Январь Январь 1975 1980 1985 1990 1995 2000 2005 2010 2015 (Источник данных по кассовым сборам: сайт Box Office Mojo) «Челюсти» вернули весь свой бюджет в первые выходные, а некоторые и вовсе вышли в плюс. Самый выделяющийся фильм, заработавший вдвое больше своего бюджета в первые выходные, — «Как ни крути — проиграешь», в котором Клинт Иствуд объединяется с орангутангом по имени Клайд. Я помню, что очень любил этот фильм в детстве. При создании графика какие значения лучше использовать — абсолютные (нескорректированные) или относительные (скорректированные)? В зависимости от задачи. Иногда скорректированные значения куда важнее. Нет смысла сравнивать прокатные сборы, зарплаты, цены и стоимость услуг за какой-то промежуток времени, не корректируя их, как мы видели выше. Чтобы интерпретировать Графики, которые лгут, отображая неполные данные 157 частное, мы должны учитывать делитель, особенно когда надо сравнивать частные, полученные при разных делителях. Представьте, что я дал вам два куска пиццы, а еще одному человеку — три куска другой пиццы. Был ли я несправедлив к вам? Все зависит от количества кусков, на который поделена каждая пицца. Пицца 1 Пицца 2 Меньше кусков большего размера Больше кусков меньшего размера Не учитывая делитель, можно столкнуться с серьезными проблемами. Ниже гистограмма, основанная на вымышленных данных из книги «Почему? Новая наука о причинноследственной связи» Джуды Перла. Младенцы, умершие от оспы 1800 года Младенцы, умершие от оспы 40 Младенцы, умершие после прививки от оспы 99 Внимание: вымышленные данные Вымышленные данные Перла отражают числа, которыми в XIX веке перебрасывались стороны в ожесточенных дебатах между сторонниками и противниками вакцинации после появления прививки от оспы. Противники были обеспокоены тем, что у некоторых детей вакцина вызывает осложнения и даже может послужить причиной смерти в отдельных случаях. 158 Глава 4 Несмотря на напрашивающийся вывод («Больше детей умерло от вакцины, чем от оспы!»), моего графика недостаточно, чтобы определиться, прививать ли ваших детей. Чтобы он был правдив, надо показать больше данных, включая делители. График со стрелочками связей дает нам больше информации для принятия решения. Из всего населения На 1 000 000 детей 990 000 получили вакцину У 9900 были побочные реакции 99 умерли Следовательно… Шанс умереть, если СДЕЛАНА прививка: 0,01% (примерно 1 из 10 000 вакцинированных детей) 10 000 не получили вакцину 200 заболели оспой 40 умерли Следовательно… Шанс умереть, если НЕ СДЕЛАНА прививка: 0,4% (примерно 1 из 250 невакцинированных детей) Графики, которые лгут, отображая неполные данные 159 Давайте проговорим то, что изображено на моем графике: из миллиона детей в моем вымышленном примере 99% вакцинировались. Осложнений 1%, то есть 9900 из миллиона. Вероятность смерти в случае осложнений также 1%, то есть 99 из 9900. Но вероятность умереть в результате вакцинации всего 0,01%, то есть 99 из 990 000. С другой стороны, если вы не вакцинировались, то у вас 2-процентный шанс заразиться оспой, то есть 200 из 10 000. И если вы заразились, то есть 20-процентная вероятность умереть, а это 40 из 200. Причина, по которой на моем первом графике от вакцины умерло больше детей, чем от оспы, в том, что количество вакцинированных (990 000) намного больше числа отказавшихся от вакцины (10 000). Факт, о котором я должен был сразу сказать. Я согласен, что разница между 99 и 40 все еще выглядит большой, но представьте другой сценарий. Допустим, никого из детей не вакцинировали от оспы. Мы знаем, что 2% заразятся. Это 20 000 детей из миллиона. Из них 20% умрут, всего 4000. Ниже мой обновленный график. Детская смертность от оспы в 1800 году Дети, умершие от оспы или вакцины против оспы Дети, которые могли умереть, если бы вакцина не была широко распространена 139 Внимание: вымышленные данные 4000 Число 139 — сумма 40 детей, которые не вакцинировались и умерли, и 99 детей, умерших в результате реакции на вакцину. Сравнение между полной вакцинацией и отсутствием вакцинации теперь отражено более точно. 160 Глава 4 Во многих случаях по разным причинам важны и абсолютные, и относительные значения. 100 People (https:// 100people.org) — прекрасный сайт, переводящий многие показатели общественного здоровья в проценты. Из каждых 100 человек в мире 25% — дети, у 22% — лишний вес и у 60% — азиатские корни. Ниже статистика, дающая мне повод для оптимизма. Если бы в мире AaBbcCdDeEfFgGhHiIlLXxWwt было всего TRrSspPqQoOMmNCfFgGhHiIlL 100 человек EeDdCcbBaANpmMOoQqPpsSrRT 1 умрет от голода twWxXLlIiHhGeFfEeDdCcbBaW Аналитик данных Атан Мавронтонис заметил, что эти цифры можно интерпретировать и так: Какой из графиков лучше? Правильный ответ — ни тот, ни другой. Оба релевантные. Правда, что процент голодающих очень мал и уменьшается, но правда и то, что за показателем 1% скрывается 74 миллиона человек. Это чуть меньше населения Турции или Германии и примерно четверть Графики, которые лгут, отображая неполные данные 161 от населения США. Теперь график не выглядит столь оптимистично, правда? В последнее время часто в положительном ключе пишут о прогрессе человечества. В таких книгах как «Фактологичность» Ханса Рослинга и «Лучшее в нас. Почему насилия в мире стало меньше» и «Просвещение продолжается. В защиту разума, науки, гуманизма и прогресса» Стивена Пинкера приведен изрядный объем статистических данных и графиков в поддержку мысли, что наш мир становится лучше 70. Подобные книги — и сайты, такие как Our World in Data (https://ourworldindata.org), откуда они черпают информацию, — наводят на мысль, что мы скоро достигнем Целей устойчивого развития, поставленных ООН в 2015 году, в которых значится, что к 2030 году мы должны искоренить бедность, победить неравенство и остановить изменения климата. Я верю, что графики, основанные на данных Всемирного банка, дают повод для оптимизма. Крайняя бедность Детская смертность Процент людей в мире, живущих менее чем на $1,90 в день (по курсу 2011 года) Количество смертей на 1000 живорожденных 60% 60 65 42,3% 40% 40 20% 20 31 10,9% 0% 0 1985 1995 2005 2013 1995 2005 2016 (Источник: данные Всемирного банка) 70 «17 целей» (The 17 Goals), цели устойчивого развития по состоянию на 27 января 2019 г. www.globalgoals.org 162 Глава 4 В 1981 году примерно 4 из 10 человек в мире вынуждены были выживать менее чем на два доллара в день (с поправкой на актуальный курс). В 2013 году это число снизилось примерно до 1 из 10. В 1990 году 65 детей из 1000 умирали, не дожив до года. В 2017 году число подобных смертей упало до 31. Это история успеха, которой можно только порадоваться. Что бы ни делали ООН, ЮНИСЕФ и многие другие структуры совместно с правительственными и частными организациями, похоже, оно работает и надо продолжать в том же духе. Впрочем, подобные графики могут скрывать и огромные пласты человеческого горя, прячущиеся за сухими цифрами. Проценты и соотношения притупляют наше сострадание. Например, 10,9% выглядит как нечто маленькое, пока вы не поймете, сколько человек за этими процентами скрыто — почти 800 миллионов в 2013 году. Крайняя бедность 2 000 000 000 1 500 000 000 1 000 000 000 500 000 000 783 млн Люди, живущие менее чем на $1,90 в день (по курсу 2011 года) 0 1985 1995 2005 2013 Мне кажется, что, видя только проценты или соотношение («10,9% населения Земли»), мы слишком легко воспринимаем информацию, обезличивая статистику. Я не одинок Графики, которые лгут, отображая неполные данные 163 в этом мнении. Психолог Герд Гигеренцер, автор книги «Понимать риски. Как выбирать правильный курс», говорит, что проценты делают числа еще абстрактнее, чем следовало бы. Я предлагаю писать и абсолютные значения, не забывая, что «это 783 миллиона человек!». Ни скорректированных значений, ни абсолютных чисел по отдельности недостаточно. Но вместе они дают нам понимание масштабов прогресса человечества в последние годы, а также масштабов задач, которые еще предстоит решить. Почти 800 миллионов за гранью бедности — это почти в 2,5 раза больше населения США на 2016 год. Это очень мучительно. Многие графики скрывают важные точки отсчета и основные факты, которые могли бы изменить смысл рисуемой картины на противоположный. Возьмем, к примеру, запись от 2017 года в твиттере основателя WikiLeaks Джулиана Ассанжа, обвиняющего современность в превращении развитых наций в бездетные и полагающиеся на иммиграцию. Капитализм + атеизм + феминизм = стерилизация = миграция Уровень рождаемости в Европе = 1,6, замещения = 2,1. Меркель, Мэй, Макрон, Джентилони — все бездетны71. 71 Кампания в защиту Ассанжа (@DefendAssange), Twitter, 2 сентября 2017 г., 8:41. https://twitter.com/julianassange/status/904006478616551425? lang=en 164 Глава 4 Лидеры, о которых говорит Ассанж, — Ангела Меркель, канцлер Германии, Тереза Мэй, премьер-министр Великобритании, Эммануэль Макрон, президент Франции, и Паоло Джентилони, премьер-министр Италии. Ассанж иллюстрировал свой твит таблицей с данными из более чем 30 европейских стран. Вот график, построенный на информации из таблицы. Коэффициент рождаемости в европейских странах Количество детей на одну женщину. Каждая серая линия представляет страну (По данным Всемирного банка) 3,0 2,5 2,1 (Коэффициент воспроизводства) 2,0 В среднем по Европейскому союзу 1,66 в 1990 1,57 в 2016 1,5 1,0 1990 1995 2000 2005 2010 2016 Ассанж допустил несколько ошибок. Во-первых, написал «уровень рождаемости», в то время как использовал коэффициент рождаемости. Это связанные понятия, но вовсе не одно и то же. Уровень рождаемости — количество новорожденных на 1000 человек в стране за год. Коэффициент рождаемости, если упрощать, — среднее число детей, которое женщина может родить в течение жизни. Если половина женщин в стране родила двух детей, а другая половина — трех, то коэффициент рождаемости будет 2,5. Графики, которые лгут, отображая неполные данные 165 Но давайте пропустим эту ошибку и посчитаем, что Ассанж собирался написать: «Коэффициент рождаемости». Своим твиттом и приведенными данными он хотел сказать, что коэффициент рождаемости при капитализме и светской демократии довольно низок — в среднем 1,6 ребенка на одну женщину — лидеры таких стран могут быть ответственны за показатели ниже тех, которые необходимы для сохранения популяции в перспективе, — 2,1 ребенка на женщину, число, также известное как коэффициент замещения. Таблица Ассанжа и мой график познавательны в том смысле, что они обманывают, делая одновременно две противоположные вещи: показывают слишком мало и слишком много данных, запутывая нас. Давайте начнем с последней проблемы. Таблицы, в которых много чисел, или графики с кучей пересекающихся линий, как в моем, сильно осложняют выявление закономерностей в данных или выделение частных случаев, которые могут повлиять на наше мнение. Например, страны на северо-западе Европы чаще светские и поддерживают идею равенства полов. Видно ли у них значимое падение коэффициента рождаемости? Мы можем разделить линии стран, а не смешивать их на одном графике, и посмотреть, что происходит, ниже. Взгляните на Данию или Финляндию. Их линии практически не колеблются с 1990 года, удерживаясь в районе коэффициента замещения 2,1. А теперь посмотрим на более религиозные страны, такие как Польша и Албания: в них снижение коэффициента рождаемости заметно выражено. А теперь давайте посмотрим на страны, где большая часть населения причисляет себя к христианам, например Испанию и Португалию. В них коэффициент рождаемости весьма далек от коэффициента замещения. 166 Глава 4 Коэффициент рождаемости в европейских странах, 1990–2016 годы В сравнении с коэффициентом замещения: 2,1 ребенка на женщину Примечание: не все эти страны входят в Евросоюз 3,0 2,1 Евросоюз Австрия Бельгия Болгария Хорватия Кипр Чешская Рес. Дания Эстония Финляндия Франция Германия Греция Венгрия Исландия Ирландия Италия Латвия Литва Люксембург Македония Мальта Черногория Нидерланды Норвегия Польша Португалия Румыния Словакия Словения Испания Швеция Швейцария Великобритания 0,0 1990 Албания 2016 Это наводит меня на мысль, что основной фактор изменения коэффициента рождаемости в странах, где в последнее время не было войн и катастроф, вовсе не религиозность или феминизм, как предположил Ассанж, а, скорее, экономическая и социальная стабильность. Например, коэффициент безработицы в странах юго-западной Европы, таких как Испания, Италия и Португалия, традиционно довольно высок, в то время как зарплаты низки. Люди могут откладывать рождение детей или вовсе отказываться от этой идеи просто потому, что не могут себе позволить. Резкое падение рождаемости в странах бывшего советского Графики, которые лгут, отображая неполные данные 167 блока, например в Албании, Венгрии, Латвии или Польше, в начале 1990-х может быть напрямую связано с развалом Советского Союза в 1991 году и переходом к капиталистической системе. Мигранты, как пишет Ассанж, могут увеличить коэффициент рождаемости или замедлить старение населения, но, чтобы подтвердить его вывод, нам нужно больше доказательств. Таблица Ассанжа и мой график плохи, потому что не дают достаточно данных и верный контекст. Мы выбираем те данные, которые укладываются в нашу теорию. Коэффициент рождаемости упал не только в светских государствах, но вообще по всему миру — и в светских, и в религиозных государствах. Коэффициент рождаемости Число детей на одну женщину. Каждая серая линия обозначает страну. (По данным Всемирного банка) 8 6 Страны с низким уровнем дохода 4 Среднемировой уровень Страны со средним уровнем дохода Страны с высоким уровнем дохода 2,1 (Коэффициент воспроизводства) 2 0 1990 1995 2000 2005 2010 2016 Давайте закончим эту главу, вернувшись к обсуждению абсолютных значений и нескорректированных данных в сравнении с коэффициентами и процентами. Вы знаете, 168 Глава 4 что в США чаще всего страдают от ожирения в округах ЛосАнджелес (штат Калифорния), Кук (штат Иллинойс) и Харрис (штат Техас)? Округ Кук 2 200 000 Люди, страдающие ожирением 0 Округ Лос-Анджелес Округ Харрис По совпадению, эти же места — самые бедные в стране. Округ Кук 2 000 000 Малоимущие 0 Округ Лос-Анджелес Округ Харрис Графики, которые лгут, отображая неполные данные 169 Взаимосвязь очевидна, но при этом ее нет. Ниже карта плотности населения округов. Округ Кук 10 000 000+ Население 0 Округ Лос-Анджелес Округ Харрис Число людей, страдающих ожирением, коррелирует с числом бедных, потому что оба значения связаны с плотностью населения: в округе Кук расположен город Чикаго, а в округе Харрис — Хьюстон. Вот две карты, переводящие числа в проценты. Процент людей… …страдающих ожирением 0% …бедных 50% 170 Глава 4 Согласитесь, совсем другая картина. Все еще наблюдается корреляция между ожирением и бедностью, но она значительно менее выражена, а такие округа, как ЛосАнджелес, вовсе не лидеры по стране. В Лос-Анджелесе много бедных и страдающих ожирением просто потому, что там вообще много людей. Карты, использующие оттенки цвета для отображения данных, — фоновые картограммы, или хороплеты, от греческих слов χώρο (пространство) и πλήθος (толпа или множество), — лучше всего работают, показывая относительные данные, такие как процент бедных или людей с ожирением, а не их количество. Показывая абсолютные данные, они просто отражают плотность населения в данном регионе. Мы можем отобразить данные другим способом — например, с помощью диаграммы рассеяния. Из двух графиков ниже первый показывает взаимосвязь между ожирением и бедностью без поправки на численность населения, второй — связь между процентом людей с ожирением и процентом бедных. В округе Клейборн в штате Миссисипи самый высокий процент людей с ожирением (48% на 9000 населения), а в округе Оглала-Лакота в Южной Дакоте — самый высокий процент бедных (52% из 13 000 населения). В округах Лос-Анджелес, Кук и Харрис процент людей с ожирением колеблется от 21 до 27%, а процент бедных — от 17 до 19%. Они в левой нижней четверти второго графика. Это как раз тот случай, когда важны относительные и абсолютные показатели, ведь в Лос-Анджелесе почти 2 миллиона бедных. Но если ваша цель — сравнить округа, то пригодятся только относительные. Графики, которые лгут, отображая неполные данные 171 Бедность и ожирение Округ Лос-Анджелес 2 000 000 Число людей с ожирением (Каждая точка — округ) Округ Кук (город Чикаго) Округ Харрис (город Хьюстон) 1 000 000 Число бедных 0 0 Бедность и ожирение 1 000 000 2 000 000 Округ Клейборн (Миссисипи) 50% Число людей с ожирением Округ Оглала-Лакота (Южная Дакота) (Каждая точка — округ) 25% Число бедных 0% 0% 25% 50% 172 Глава 5 Глава 5 Графики, которые лгут, скрывая данные или внося в них путаницу Ч тобы не лгать, график должен быть тщательно проработан. Но иногда излишнее внимание к деталям мешает восприятию. Часто данные не точны, и степень погрешности должна быть отражена. Не учитывая это, мы можем прийти к неверным выводам. Утром 28 апреля 2017 года я открыл New York Times на разделе «Мнения» и увидел колонку Брета Стивенса. Автор — убежденный консерватор, которого сманили из Wall Street Journal, чтобы добавить идеологического разнообразия в комментариях колумнистов. Первая статья Стивенса называлась «Климат полной уверенности» 72, и некоторые строки из нее были просто 72 Брет Стивенс. «Климат полной уверенности» (Bret Stephens, «Climate of Complete Certainty»), New York Times, 28 апреля 2017 г. https://www. nytimes.com/2017/04/28/opinion/climate-of-complete-certainty.html Графики, которые лгут, скрывая данные или внося в них путаницу 173 музыкой для моих ушей: «Мы живем в мире, где данные передают власть. Но власть ведет к самоуверенности, а самоуверенность — к гордыне». К сожалению, другие пассажи были не так хороши. Дальше в тексте Стивенс подверг сомнению общепринятый в научном мире факт изменения климата, используя довольно странные аргументы. Например, он написал следующее (курсив мой): «Любой, кто читал отчет 2014 года Межправительственной группы экспертов по изменению климата (МГЭИК), знает, что хотя небольшое (0,85 градуса Цельсия, или около 1,5 градуса Фаренгейта) потепление Земли с 1880 года несомненно, как и влияние людей на это потепление, многое другое, что считается общепринятым фактом, в действительности лишь дело случая. Особенно это верно для сложных, но сомнительных моделей и симуляций, с помощью которых ученые пытаются предсказывать будущее климата. Я не отрицаю науку, но это нужно честно признать». Мы вернемся к вопросу «сомнительных моделей и симуляций» чуть позже. Пока же обратим внимание на утверждение, что повышение температуры на 0,85 градуса Цельсия — небольшое. Звучит правдоподобно. Не думаю, что кто-то способен почувствовать потепление при увеличении температуры с 40 ˚C до 40,85 ˚C. По ощущениям будет одинаково жарко в обоих случаях. Однако сейчас уже каждый человек должен понимать разницу между погодой и климатом. Поэтому если политик говорит вам, что изменения климата — это вранье, ведь сейчас за окном идет снег, он либо дурит вас, либо не освоил 174 Глава 5 программу начальной школы. «Небольшое», по мнению Стивенса, увеличение температуры на 0,85 ˚C совсем не небольшое, если рассматривать его в исторической перспективе. Хороший график ниже поможет нам вести содержательную дискуссию (НВ означает «до настоящего времени») 73. Температурные изменения (˚C) (1961–1990 н. э.) Годы (НВ) , , , , , (Источник: Американская ассоциация содействия развитию науки, журнал Science) Читать график нужно следующим образом: по горизонтальной оси — годы, измеряемые назад от настоящего времени (от ноля справа). По вертикальной оси — температура в градусах Цельсия, за нулевой уровень взята средняя 73 Шон Маркотт и соавторы. «Реконструкция региональной и глобальной температуры за последние 11 300 лет» (Shaun A. Marcott et al., «A Reconstruction of Regional and Global Temperature for the Past 11 300 Years»), Science 339 (2013): 1198. https://www.science.org/doi/10.1126/ science.1228026 Графики, которые лгут, скрывая данные или внося в них путаницу 175 температура в промежутке с 1961 по 1990 год, ориентир отсчета, принятый в научном сообществе. Она обозначена горизонтальной пунктирной линией. Поэтому у нас получаются положительные (над линией) и отрицательные (под линией) колебания температуры. Оранжевая линия — самая важная, среднее значение температуры в прошлом, измеренной различными косвенными способами несколькими, иногда конкурирующими друг с другом, группами ученых из разных уголков мира. Серая полоса вокруг — степень неопределенности, в рамках которой могла изменяться переменная. Ученые считают, что «с высокой вероятностью температура в каждый из указанных годов находилась где-то в пределах серой полосы, а самое вероятное ее значение обозначено оранжевой линией». Тонкая серая линия за оранжевой на правой стороне картинки — это отдельная и довольно известная приблизительная оценка, обычно называемая «хоккейной клюшкой», за авторством Майкла Манна, Рэймонда Брэдли и Малькольма Хьюза 74. График показывает, что, вопреки словам Стивенса, потепление на 0,85 ˚C вовсе не «небольшое». Посмотрите на вертикальную ось. В прошлом на такие изменения уходили тысячи лет, а сейчас сдвиг произошел меньше чем за столетие. Если увеличить график, то станет ясно, что за последние две тысячи лет не было ничего похожего на столь резкие изменения. 74 Книга, в которой описывается, как была создана «хоккейная клюшка»: Малкольм Хьюз, Майкл Манн, Рэймонд Брэдли. «Хоккейная клюшка и климатические войны: депеши с передовой» (Michael E. Mann, «The Hockey Stick and the Climate Wars: Dispatches from the Front Lines»), Нью-Йорк: Columbia University Press, 2012. 176 Глава 5 Температурные изменения (˚C) (1961–1990 н. э.) Годы (НВ) , , , , , (Источник: Американская ассоциация содействия развитию науки, журнал Science) Ничего себе «небольшое» изменение! А что насчет второго утверждения Стивенса, про «сомнительные модели и симуляции»? Он добавляет: «Заявления о безошибочности науки подрывают научный дух и сеют сомнения всякий раз, когда утверждения, касающиеся изменений климата, оказываются неверны. Требование резких и дорогостоящих изменений в государственной политике наводит на закономерное подозрение об идеологической подоплеке». В теории звучит неплохо, но не когда мы примеряем эту мысль к реальной ситуации. Во-первых, климатические модели не только достаточно точны, но и, чаще всего, слишком оптимистичны. Мир быстро нагревается, ледяные шапки тают, океаны и моря расширяются, а уровень моря поднимается так, Графики, которые лгут, скрывая данные или внося в них путаницу 177 что в некоторых регионах, например во Флориде, жить будет довольно сложно. Уже сейчас наводнения в МайамиБич случаются регулярно даже в хорошую погоду. Это ведет к обсуждению в городе тех «дорогостоящих изменений в государственной политике», которым так не доверяет Стивенс: установка огромных водных насосов и даже поднятие уровня дорог. Обсуждения основаны не на «идеологической» науке, неважно либеральной или консервативной, а на вполне реальных проблемах, которые каждый может увидеть невооруженным глазом. На следующем графике представлен проект «Копенгагенская диагностика» 75. В нем сравнивают предсказания, сделанные МГЭИК ранее, и повышение уровня моря, фиксируемое на сегодня. 75 Иан Эллисон и соавторы. «Копенгагенская диагностика 2009: актуальное состояние мира по данным современной климатологии» (Allison et al., «The Copenhagen Diagnosis, 2009: Updating the World on the Latest Climate Science»), Сидней, Австралия: Центр исследований изменения климата Университета Нового Южного Уэльса, 2009 г. 178 Глава 5 Серая полоса — уровень по прогнозу МГЭИК. Еще в 1990 году ученые предсказывали подъем уровня моря от 1,5 до 6,5 сантиметра к 2010 году. Спутниковые наблюдения, а не «сомнительные модели и симуляции», подтвердили, что самые пессимистичные предположения оказались верными. Ошибались ли климатические модели раньше? Безусловно! Наука не всегда права. Тем не менее большая часть из них оказалась мрачной и правдивой. Наконец, важная деталь, которую Стивенс забыл упомянуть в своей статье в «Нью-Йорк таймс»: даже если данные, модели, прогнозы и симуляции не дают точного предсказания, а любой климатолог всегда об этом упоминает, все они без исключения говорят об одном. Подытоживает их еще один график МГЭИК, который Стивенс мог бы привести. График показывает несколько предсказательных моделей с их диапазоном неопределенности. Если вы хотите быть максимально оптимистичным, то наилучшие прогнозы гласят, что к 2100 году температура в среднем вырастет на 1 ˚C. Высокий прирост, но еще хуже, что другие модели Графики, которые лгут, скрывая данные или внося в них путаницу 179 предсказывают повышение на 2 ˚C и больше. Остается шанс, что в дальнейшем потепление остановится, но так же вероятно, что температура вырастет больше, чем на 2 Ǐ, уменьшив обитаемую часть суши: там будут происходить природные катаклизмы от мощных ураганов до сильной засухи. Можно привести следующее сравнение: если бы прогнозы изменения климата были шансом развития у вас рака в будущем, рассчитанным разными группами онкологов со всего мира, уверен, вы бы попытались предотвратить болезнь, хотя прогноз был бы неточным и основанным на «сомнительных моделях». Все модели — сомнительные, неполные или неопределенные, но если каждая показывает примерно одинаковую картину, пусть и с небольшими отклонениями, доверие к ним растет. Я обеими руками поддерживаю обсуждение об изменениях в государственной политике, упомянутых Стивенсом, но, чтобы говорить об этом, мы должны читать графики и понимать, какое будущее они показывают. Хорошие графики помогают нам принимать разумные решения. Статья Брета Стивенса напоминает, что, имея дело с данными, мы должны учитывать, насколько неопределенны предсказания и прогнозы, и затем уже делать выводы, должна ли эта неопределенность влиять на наше восприятие. Все мы привыкли видеть такие опросы: Конор Лэмб (D) Опрос: Пенсильвания, Рик Сакконе (R) досрочные выборы Не определились по 18-му району (Источник: Gravis) 42% 45% 13% Рик Сакконе: +3 процентных пункта 180 Глава 5 А потом мы расстроены или обрадованы, в зависимости от того, за какого кандидата болели, увидев это: Результаты: Конор Лэмб (D) 49,8% Пенсильвания, Рик Сакконе (R) 49,6% досрочные выборы по 18-му району, Конор Лэмб: +0,2 процентных пункта 13 марта 2018 года Такое сравнение опроса и результатов голосования на досрочных выборах полезно, чтобы объяснить два типа неопределенности, скрывающихся за каждым графиком: один может быть легко посчитан, а второй тяжело оценить. Начнем с первого. Графики не показывают, даже если в описании исследования об этом говорится, что любая оценка всегда делается в пределах погрешности. В статистике погрешность не всегда то же, что и ошибка, чаще это синоним неопределенности. Погрешность означает, что какое бы предположение мы ни делали, независимо от степени точности, например: «Данный кандидат наберет 54% голосов», «Лекарство эффективно в 95% случаев для 76,4% популяции» или «Вероятность события — 13,2%», указанная цифра обычно находится в середине диапазона возможных значений. Существуют разные типы погрешности. Один из них — допустимая погрешность, отражающая степень точности опроса. Допустимая погрешность — первая из двух составляющих доверительного интервала. Вторая — доверительный уровень, обычно между 95 и 99%, но может быть и любой другой процент. Когда вы читаете, что опрос, научный эксперимент или наблюдение прогнозирует, допустим, 45 (45%, 45 человек, 45 чего угодно), и допустимая Графики, которые лгут, скрывая данные или внося в них путаницу 181 погрешность ± 3 на доверительном уровне 95%, представьте, что ученый или составитель опроса сказал следующее: учитывая, что мы брали самый строгий метод оценки, какой только возможно, с 95-процентной вероятностью можно сказать, что значение, которое мы пытаемся предсказать, лежит в интервале от 42 до 48, что на 3 больше или меньше 45, это и есть наша оценка. Мы не можем утверждать, что точно предсказали результат, но уверены, что если использовать те же строгие методы, то с 95-процентной вероятностью мы получим результат, отличающийся от реального значения не больше, чем на величину допустимой погрешности. Следовательно, видя график, сопровождающийся пояснениями о вероятности ошибки, надо мысленно представлять его себе, как на картинке ниже, и учитывать, что окончательный результат может быть выше или ниже этих пределов. Закрашенная зона показывает ширину доверительного интервала, в данном случае ±3 пункта от предполагаемого значения. Опрос: Погрешность при уровне доверия 95%: ±3 процентных пункта Пенсильвания, досрочные Конор Лэмб (D) 39–45% 42% выборы по 18-му району 45% 42–48% Рик Сакконе (R) (Источник: Gravis) Более привычные графики, такие как гистограмма или линейный график, могут лгать, потому что на них обозначены определенные значения, с четкими границами столбцов и линий, кодирующих данные. Но мы можем приучить себя преодолевать недостатки дизайна подобных графиков, мысленно 182 Глава 5 размывая границы, особенно когда прогнозы очень близки друг к другу и их диапазоны практически пересекаются. Второй уровень неопределенности в моем графике — 13% людей, которые на момент проведения опроса еще не решили, за кого будут голосовать. Это непредсказуемый фактор, так как очень тяжело оценить, какая часть из них проголосует за определенного кандидата. Можно попробовать, но придется учитывать такие факторы, как раса и национальность, уровень дохода, за кого голосовали раньше и прочее, каждый из которых внесет свои погрешности и неопределенность. Еще один источник ошибок — сам метод сбора или обработки информации, возможная предвзятость исследователей и другие причины. Неопределенность смущает многих, кто неоправданно считает, что статистика обязана получать только точные данные, в то время как в реальной жизни это примерные значения, которые часто уточняются по ходу дела. (Научные теории часто опровергаются. Впрочем, если теория ранее была подтверждена несколькими исследованиями, то ее результаты вряд ли будут отброшены полностью.) Много раз я слышал, как друзья и коллеги заканчивали спор словами: «Данные недостаточно точны, чтобы мы могли подтвердить или опровергнуть данную идею». Мне кажется, это заходит слишком далеко. Утверждение, что все оценки приблизительны, не равно утверждению, что все оценки ложны. Помните, что погрешность не всегда означает ошибку. Моя подруга-статистик Хизер Краузе 76 76 Блог Хизер — весьма занимательное чтение, если вы хотите научиться рассуждать о числах: Хизер Краузе Datablog. https://idatassist.com/ datablog Графики, которые лгут, скрывая данные или внося в них путаницу 183 как-то сказала, что, просто перефразировав речь специалиста о степени неопределенности в полученных им данных, можно изменить смысл для слушателей. Вместо того, чтобы сказать: «Вот моя оценка и вот уровень ее погрешности», можно сказать: «Я вполне уверен, что реальность, которую я хочу измерить, отражена в этой точечной оценке, но реальность может отличаться». Нужно быть осторожным, делая выводы на основе одного опроса или исследования, но когда таких исследований или опросов несколько и результаты похожи, они вызывают больше доверия. Я люблю читать про политику и выборы и часто повторяю, что один опрос не имеет смысла, но среднее значение нескольких опросов всегда что-то значит. Тот же принцип я использую при чтении статей про безработицу, экономический рост или любой другой сложный показатель. Обычно еженедельные или ежемесячные изменения не стоят вашего внимания, так как могут просто отражать случайные естественные изменения. Рейтинг безработицы в США 4,3% 4,4% Июль 2017 Август 2017 Но если увеличить масштаб, то мы увидим, что тенденция ровно противоположна, начиная с пика безработицы в 2009 и 2010 годах, она неуклонно падает с небольшими всплесками по пути. Общая тенденция — стабильное снижение. 184 Глава 5 Рейтинг безработицы в США 10% 8% Апрель 2018 3,9% 6% 4% Январь 2008 Этот всплеск отображен на предыдущем графике. 5,0% 2% 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 (Источник: Бюро трудовой статистики США) Даже когда доверительный интервал и погрешность подписаны на графике, их все еще можно неверно понять. Я люблю совпадения. Когда я писал эту главу — 25 мая 2018 года, — Национальный центр по ураганам (НЦУ) объявил, что субтропический шторм Альберто сформировался в Атлантическом океане и приближается к США. Друзья забрасывали меня шутками, цитируя пресс-релиз НЦУ: «Альберто блуждает по северо-западу Карибского моря» и «Альберто не слишком собран этим утром». Ну да, я еще не выпил свой утренний кофе. Однако, я уже зашел на сайт НЦУ, чтобы посмотреть их прогноз. Посмотрите на график ниже, где отмечен вероятный путь моего тезки-шторма. Здесь, в Южной Флориде, мы привычны к таким картам в газетах, на сайтах и телевидении во время сезона ураганов между июнем и ноябрем каждого года. Примечание: конус отражает вероятную траекторию центра шторма, но не размеры шторма. Опасные погодные условия могут распространяться за пределы конуса. Графики, которые лгут, скрывая данные или внося в них путаницу 185 Много лет назад мои друзья по Университету Майами, эксперты по погоде, климату и окружающей среде, Кенни Брод и Шаран Маджумдар открыли мне глаза на то, что практически все, видевшие эту карту, неверно ее прочтут. Мы теперь состоим в междисциплинарной группе, работающей над улучшением карт движения шторма, а руководит группой наша коллега, профессор Барбара Миллет 77. Конус в центре карты известен как конус неопределенности. Некоторые жители Южной Флориды называют его «конусом смерти», считая, что он отражает зоны, через 77 Кенни много писал о том, как общественность неверно истолковывает карты и графики штормов. Например: Кеннет Брод и соавторы. «Неправильная интерпретация “конуса неопределенности” во Флориде во время сезона ураганов 2004 года» (Kenneth Broad et al., «Misinterpretations of the "Cone of Uncertainty' in Florida during the 2004 Hurricane Season»), бюллетень Американского метеорологического общества (май 2007 г.): 651–68. https://journals.ametsoc.org/view/ journals/bams/88/5/bams-88–5–651.xml 186 Глава 5 которые пройдет шторм, несмотря на подпись вверху карты, которая гласит: «Конус отражает вероятную траекторию центра шторма, но не размеры шторма. Опасные погодные условия могут распространяться за пределы конуса». Некоторые читатели видят верхнюю, закрашенную точками, часть конуса, и считают, что это дождь, хотя на самом деле это зона, в которую переместится центр шторма через четыре-пять дней. Одна разумная причина, почему люди так ошибаются, в том, что графическое изображение шторма похоже на то, как он выглядит в реальности. Ураганы и штормы обычно имеют форму окружности, потому что сильный ветер закручивает облака вокруг их центра. Каждый раз, встречая карту с конусом неопределенности, я стараюсь видеть не эту картинку. ВНИМАНИЕ: ттак НЕ НАДО читать подобные карты Журналисты также ошибаются, видя конус неопределенности на карте. Когда ураган Ирма приближался к побережью Флориды в 2017 году, я помню, как телеведущий сказал, что Майами, похоже, избежит опасности, так как находится в юго-восточной части Флориды, а конус неопределенности проходит по западной части, значит, город вне угрозы. Такое неверное прочтение данной карты способно навредить. Графики, которые лгут, скрывая данные или внося в них путаницу 187 Как интерпретировать конус неопределенности правильно? Это сложнее, чем вам кажется. Для начала запомните, что конус — упрощенное представление разнообразных возможных траекторий движения центра шторма, с самой вероятной траекторией, обозначенной черной линией в центре. Видя конус неопределенности, вы должны представлять себе что-то наподобие этой карты (все линии тут вымышлены). ВНИМАНИЕ: все линии тут вымышленные Чтобы нарисовать конус, ученые из НЦУ объединяют несколько математических моделей направления движения шторма (шаг 1 на рисунке ниже). Далее, основываясь на доверительных интервалах прогнозов разных моделей, они делают собственную оценку положения центра шторма в следующие пять дней (2). 1 2 3 4 5 188 Глава 5 После рисуют круги увеличивающегося диаметра (3) вокруг предполагаемых центров траектории. Эти круги отражают радиус погрешности предсказаний НЦУ. Эта погрешность равна средней погрешности всех штормовых прогнозов последних пяти лет. Наконец ученые используют компьютерную программу, которая отрисовывает набор кругов (4) и превращает его в конус (5). Даже если мы нарисуем карту с тарелкой закрученных спагетти вместо траекторий, нам это мало скажет о зонах, куда доберется сильный ветер. Чтобы получить такую информацию, придется мысленно наложить размеры самого шторма поверх траекторий, и тогда мы получим что-то наподобие сахарной ваты. ВНИМАНИЕ: это уже близко к верному прочтению карты, но все еще не до конца верно Мы можем задаться вопросом: «А всегда ли центр настоящего шторма будет в пределах нашего конуса?» Другими словами, говорит ли прогноз погоды, что из 100 штормов, похожих на этот, при той же скорости ветра, океанских течениях и давлении воздуха, траектория центра шторма всегда останется внутри конуса? Зная немножко о цифрах, я бы так не сказал. Я бы предположил, что в 95 случаях из 100 путь центра шторма Графики, которые лгут, скрывая данные или внося в них путаницу 189 останется внутри конуса, а линия центра — самый вероятный прогноз траектории. Но иногда будет попадаться настолько непредсказуемый шторм с весьма изменчивыми параметрами, что его центр может вылезти за пределы конуса. 95% В случаев шторм будет внутри конуса 5% В случаев шторм может выйти за пределы конуса ВНИМАНИЕ: так НЕ НАДО читать подобные карты Именно так подумает большинство людей, имеющих опыт в науке, данных или статистике. К сожалению, они будут неправы. Исходя из соотношения верных и неверных прогнозов пути тропических штормов и ураганов, мы знаем, что конус будет содержать центр шторма не в 95% случаев, а всего лишь в 67%! Другими словами, в одном случае из трех, когда к нам приходит шторм, похожий на моего тезку, его центр будет вылезать за пределы конуса с одной из сторон. 67% В случаев шторм будет внутри конуса 33% В случаев шторм может выйти за пределы конуса НАКОНЕЦ-ТО… Вот как надо читать подобные карты 190 Глава 5 Если мы захотим нарисовать карту, учитывающую 95 из 100 возможных траекторий, то конус будет куда шире, и на карте получится примерно вот так. ВНИМАНИЕ: это воображаемый конус Если поверх добавить размер шторма, чтобы получить более точную картину территорий, где он может пройти, мы получим нечто, что вызовет вопли возмущенной общественности: «Этот шторм может пройти где угодно, ученые ничего не знают!» ВНИМАНИЕ: это воображаемый конус Я предостерегал вас от подобного нигилизма ранее. Ученые знают многое, их предсказания обычно довольно точны Графики, которые лгут, скрывая данные или внося в них путаницу 191 и с каждым годом становятся все точнее. Модели прогнозов, создаваемые на самых больших в мире суперкомпьютерах, постоянно улучшаются. Но они не идеальны. Прогнозы погоды делают с учетом самых консервативных предположений, а не оптимистичных. Конус неопределенности, если вы смогли его правильно интерпретировать, поможет принять решение для защиты вас, вашей семьи и собственности, но только если сопоставить его с другими графиками, выпускаемыми Национальным центром по ураганов. Например, с 2017 года НЦУ публикует такие памятки для всех штормов. В брошюре есть карта вероятных осадков (вверху), измеряемых в дюймах, и карта самого раннего появления тропических штормовых волн (внизу), где цветом также обозначена их вероятность — чем темнее, тем выше. 192 Глава 5 В зависимости от параметров шторма НЦУ включает в брошюру-памятку разные карты. Например, если шторм приближается к побережью, то НЦУ может включить карту возможных штормовых волн и наводнения. Ниже выдуманная карта, которую НЦУ показывает как пример (ее лучше смотреть в цвете) 78. Эта визуализация не идеальна. Как вы наверняка заметили, карта не очень точно передает цветовые обозначения в черно- белом варианте. Впрочем, если смотреть на нее вместе с конусом неопределенности рядом, то вы получите куда более точное представление о том, как поступать. Дополнительные графики прогнозов редко попадают в новости, особенно на телевидение. Не знаю причину, но предполагаю, что журналисту проще показать конус, он нагляднее, четче и понятнее, хотя и обманчив. 78 Национальный центр по ураганам «Карта потенциальных штормовых нагонов» (Potential Storm Surge Flooding Map). https://www.nhc.noaa. gov/surge/inundation/ Графики, которые лгут, скрывая данные или внося в них путаницу 193 Карты с конусом неопределенности лгут людям не потому, что неверно представляют неопределенность, а потому, что отображают информацию в виде, непонятном широкой публике. Они создавались в расчете на специалистов — тех, кто принимает решения в экстренных ситуациях, но все карты выложены на сайте НЦУ, а СМИ часто их используют. Этот случай хорошо иллюстрирует основной принцип: успех графика зависит не только от его автора, но и от того, кто его читает, от графической грамотности аудитории. Если мы встречаем график, в котором выделены тенденции, нам непонятные, то не сможем его верно интерпретировать. Давайте поговорим об этом подробнее. 194 Глава 6 Глава 6 Графики, которые показывают схемы, ведущие к неверным выводам Х орошие графики полезны тем, что позволяют разобраться в цифрах, делая их более приземленными и реальными. Впрочем, график также может натолкнуть нас на сомнительные, обманчивые и незначимые тенденции и паттерны в данных, особенно в комбинации с же- ланием мозга найти во всем смысл и подтвердить наши старые убеждения. Выдающийся статистик Джон Тьюки однажды написал: «Наибольшую ценность картина представляет тогда, когда заставляет нас заметить что-то, что мы никак не ожидали увидеть» 79. Впрочем, графики часто показывают нам обманчивые или ничего не значащие тенденции. Например, вы знали, что чем больше сигарет потребляет человек, тем дольше он живет? Это противоречит десятилетиям исследований 79 Джон Тьюки. «Анализ результатов наблюдения» (From John W. Tukey, «Exploratory Data Analysis»), Ридинг, Массачусетс: Addison-Wesley, 1977. Графики, которые показывают схемы, ведущие к неверным выводам 195 о вреде табака, особенно сигарет, но ниже вы найдете график на основе данных ВОЗ и ООН 80. Будь я курильщиком, этот график меня бы воодушевил. 85 Средняя продолжительность жизни (в годах) 80 75 70 65 60 Каждая точка отображает страну 55 50 0 (Источник: Всемирная организация здравоохранения) 500 1000 1500 2000 2500 3000 Ежегодное потребление сигарет на человека старше 14 лет Смотрите, табак не уменьшает продолжительность жизни! Как бы невероятно это ни звучало, но все может быть наоборот! Однако мое понимание графика говорит о ряде стандартных заблуждений при чтении визуализации: 80 Чтобы узнать больше об этом случае, прочтите Хизер Краузе «Действительно ли вы знаете, как правильно использовать данные?» (Heather Krause, «Do You Really Know How to Use Data Correctly?»), DataAssist, 16 мая 2018 г. https://idatassist.com/do-you-really-know-how-to-use-datacorrectly/ 196 Глава 6 отношение между корреляцией и взаимосвязью, парадокс объединения и экологическая ошибка. Давайте изучим их подробнее81. С графиком и отображенными данными все в порядке, но вот с моим описанием («Чем больше сигарет мы потребляем, тем дольше живем») есть проблемы. Важно верно описать содержание графика. Все, что график показывает: на уровне стран есть положительная двухсторонняя корреляция между уровнем потребления сигарет и продолжительностью жизни. Но это вовсе не значит, что сигареты увеличивают продолжительность жизни. На основе этого примера и некоторых других, с которыми познакомимся чуть позже, можно сформулировать важное правило чтения графиков: График показывает только то, что показывает, и ничего больше. Как я уже говорил в главе 1, корреляция не означает причинность — старая поговорка, с которой начинают обучение статистике. Корреляция — обычно первый признак того, что в дальнейшем удастся найти взаимосвязь между двумя явлениями, но в поговорке тоже есть смысл. К данному случаю она применима, потому что возможно существование других факторов, влияющих на потребление сигарет и продолжительность жизни. Например, возьмем благосостояние: люди в более богатых странах живут дольше, потому что у них есть доступ к лучшему питанию, здравоохранению и меньше шансов стать жертвой насилия или военных действий. А еще они могут покупать больше сигарет. Богатство может быть связующим фактором в моем графике. 81 Самый известный парадокс слияния — парадокс Симпсона: https:// ru.wikipedia.org/wiki/Парадокс_Симпсона Графики, которые показывают схемы, ведущие к неверным выводам 197 Вторая и третья проблемы, упомянутые выше — парадокс объединения и экологическая ошибка, — связаны. Экологическая ошибка — попытка узнать что-то об отдельных представителях, основываясь на характеристиках вида, к которому они принадлежат. Мы видели это ранее, когда я упоминал, что, несмотря на свое испанское прохождение, довольно сильно отличаюсь от типичного испанского мужчины. То, что в какой-то стране люди много курят и долго живут, вовсе не значит, что вы или я можем много курить и одновременно долго жить. Разные уровни анализа, групповые и индивидуальные, могут требовать разных наборов данных. Если мои данные собраны для анализа групп — стран в данном случае, — их пригодность будет не столь высока для анализа меньших групп — областей или городов страны, тем более отдельных жителей. Тут наступает очередь парадокса объединения. Его суть в том, что определенные паттерны и тенденции исчезают или даже меняются на противоположные, когда мы начинаем иначе группировать наши данные. Представим, что благосостояние — связующий фактор первого графика. Давайте нарисуем его снова, но обозначим разными цветами группы с высоким, средним и низким доходом. 198 Глава 6 85 Средняя продолжительность жизни (в годах) 80 75 70 65 60 Страны с высоким доходом Страны со средним доходом Страны с низким доходом 55 50 0 500 1000 1500 2000 2500 3000 Ежегодное потребление сигарет на человека старше 14 лет Страны с высоким доходом Страны со средним доходом Страны с низким доходом 85 85 80 80 70 70 60 60 50 50 0 1000 2000 3000 0 1000 2000 3000 0 1000 2000 Ежегодное потребление сигарет на человека старше 14 лет 3000 Средняя продолжительность жизни (в годах) Средняя продолжительность жизни (в годах) График очень запутан из-за перекрывающих друг друга групп, давайте разделим его на графики по доходу стран: Графики, которые показывают схемы, ведущие к неверным выводам 199 Средняя продолжительность жизни (в годах) Сильная положительная связь между потреблением сигарет и продолжительностью жизни больше не выглядит таковой, правда? В бедных странах большой разброс продолжительности жизни (вертикальная ось), но, в среднем, курят немного. В странах со средним доходом большой разброс как по потреблению сигарет, так и по продолжительности жизни, и связь там довольно слабая. А в странах с высоким доходом тенденция к высокой продолжительности жизни (выше по вертикальной оси), но потребление сигарет (горизонтальная ось) распределено равномерно по всем значениям: в одних странах — высокое, в других — низкое. Северная Америка Западная Европа Восточная Европа Азия Страны Балтии Постсоветские страны* Ближний Восток Океания 80 70 60 50 0 1k 2k 3k Латинская Америка / Карибы Северная Африка 80 70 60 50 0 1k 2k 3k Субсахарская Африка 80 70 60 (*За исключением стран Балтии) 50 0 1k 2k 3k Ежегодное потребление сигарет на человека старше 14 лет 200 Глава 6 Картина становится еще менее очевидной, если разделить страны по географическому положению. Теперь когда-то сильная позитивная связь между потреблением сигарет и продолжительностью жизни становится слабой, если не сказать — отсутствует. Связь будет все менее выраженной, если мы начнем делить эти страны дальше — на регионы, провинции, города и районы, вплоть до отдельных людей. С каждым следующим делением связь между курением и продолжительностью жизни будет уменьшаться, пока наконец не станет отрицательной: наблюдения за отдельными людьми говорят, что потребление сигарет снижает продолжительность жизни. Следующий график, собранный из нескольких исследований 82, сравнивает вероятность выживания людей старше 40 лет. Заметьте, что более 50% людей, которые либо никогда не курили, либо бросили курить много лет назад, дожили до 80, а вот среди курильщиков таких всего 25%. По результатам нескольких исследований выходит, что курение сокращает жизнь примерно на семь лет (такой график, показывающий время жизни, называется графиком КапланМейера). 82 Многочисленные исследования показывают схожие кривые выживаемости. Например, Ричард Долл и соавторы «Смертность от курения: 50-летние наблюдения за британскими врачами-мужчинами» (Richard Doll et al., «Mortality in Relation to Smoking: 50 Years' Observations on Male British Doctors»), BMJ 328 (2004): 1519. https://www.bmj. com/content/328/7455/1519 Графики, которые показывают схемы, ведущие к неверным выводам 201 Процент выживших 100% Люди, которые никогда не курили или бросили курить много лет назад 75% 50% Курильщики 25% 0% 40 50 60 70 Возраст 80 90 100 Парадоксы, возникающие при смене уровня объединения данных, многочисленны и приводят нас к неверным выводам. Несколько статей в блоге на сайте Why Evolution Is True («Почему эволюция правдива»), написанные профессором биологии Джерри Койном, автором отличной одноименной книги, обсуждают обратную связь между религиозностью с одной стороны и счастьем и прочими признаками благополучия — с другой 83. Вот две карты и диаграммы рассеяния, описывающие связь между процентом людей, говорящих, что религия занимает важное место в их жизни (в соответствии с опросом Gallop от 2009 года) и рейтингом стран по Индексу счастья (мера, подсчитанная ООН для Всемирного доклада о счастье). 83 Джерри Койн. «Доклад ООН о мировом счастье за 2018 год: самые атеистические (и социально благополучные) страны — самые счастливые, а религиозные страны — бедные и несчастные» (Jerry Coyne, «The 2018 UN World Happiness Report: Most Atheistic (and Socially Well Off) Countries Are the Happiest, While Religious Countries Are Poor and Unhappy»), Why Evolution Is True, 20 марта 2018 г. https://whyevolutionistrue.com/2018/03/20/the-2018-un-world-happiness-report-mostatheistic-and-socially-well-off-countries-are-the-happiest-while-religiouscountries-are-poor-and-unhappy/ 202 Глава 6 Меньше Счастливые Больше Нет данных Меньше Религиозные Больше Норвегия Финляндия Коста-Рика Рейтинг счастья 7 6 5 4 Украина 3 Бурунди 20% 40% 60% 80% 100% Процент жителей, говорящих, что религия важна для них Связь между двумя переменными относительно слабая и отрицательная: в целом чем более религиозна страна, тем менее счастливы ее жители. Связь заметна, хоть достаточно и исключений. Например, Украина не очень религиозна, но уровень счастья там невысок, а Коста-Рика, напротив, и очень счастлива, и религиозна. Рейтинг счастья напрямую связан с равноправием и благополучием. Страны с высоким уровнем равноправия, как Графики, которые показывают схемы, ведущие к неверным выводам 203 и те, где жители хорошо питаются и не испытывают проблем со здоровьем, обычно счастливее. Между равенством и счастьем положительная корреляция, в то время как равенство и счастье отрицательно связаны с религиозностью: чем сильнее неравенство, тем менее счастлива страна и выше процент людей, говорящих, что религия важна в их жизни. Отрицательная взаимосвязь между религиозностью и уровнем счастья и благополучия сохраняется, даже если разделить данные на региональном уровне. Данные Gallop позволяют нам сравнить процент жителей США, считающих себя религиозными, с общим уровнем благополучия и удовлетворенностью уровнем жизни в их штатах. Последняя характеристика основывается на таких факторах, как доступная медстраховка, качество питания, количество физических упражнений, связь с сообществом и гражданская активность (смотрите график ниже) 84. Как бывает в любой диаграмме рассеяния, здесь есть исключения: Западная Виргиния на низком уровне благополучия, но в середине по религиозности, в то время как Юта внизу по обоим параметрам. Восторженный атеист может поспешить сделать выводы из этого графика. Значит ли, что религиозность ведет к страданиям, или верно обратное? Более того, неужели я лично стану счастливее, если откажусь от своей религии и стану атеистом? Конечно, нет. Давайте обозначим еще одно правило верного чтения графиков: Не пытайтесь прочесть на графике слишком многое, особенно если это то, что вы хотите прочитать. 84 «Состояние Штатов» («State of the States»), Gallup, по состоянию на 27 января 2019 г. https://news.gallup.com/poll/125066/State-States.aspx 204 Глава 6 Низкое Благополучие Высокое Гавайи Уровень благополучия 65 64 Низкий % религиозных Высокий Вермонт Юта 63 62 Миссисипи 61 60 59 Западная Виргиния 20% 30% 40% 50% 60% Процент жителей, утверждающих, что они очень религиозны Во-первых, эти графики говорят, что высокий уровень религиозности обратно пропорционален уровню счастья и благополучия, но не говорят, что увеличение религиозности ведет к увеличению страданий. На самом деле причина может быть противоположной. Возможно, чем меньше проблем, тем ниже религиозность в регионе. Графики, которые показывают схемы, ведущие к неверным выводам 205 Исследование профессора Фредерика Солта из Университета Айовы показывает, что в разных странах год за годом меняющаяся ситуация с неравенством вела и к изменению уровня религиозности, независимо от благополучия отдельных жителей. И бедные, и богатые становились религиознее по мере усиления неравенства вокруг 85. Богатые и могущественные становились более религиозными, потому что, по мнению Солта, религию можно использовать для оправдания социальной иерархии, а бедным же она дает утешение и чувство принадлежности. Исследование помогает понять, почему взаимосвязь между религиозностью и счастьем или воспринимаемым благополучием меняет знак на противоположный и становится положительной, когда мы обобщаем индивидуальные данные. Особенно это верно для нестабильных обществ и тех, где высок уровень неравенства. Религиозные люди в них чувствуют себя более благополучными 86. Рассмотрим крайний случай: если вы живете в бедной стране, раздираемой войнами и безвластием, организованная религиозная группа может стать единственным источником смысла, утешения, причастности и стабильности. Не сравнивайте себя со среднестатистическим норвежцем или финном, хотя они могут быть очень счастливы и не очень религиозны. Отказ от религии не даст вам 85 Фредерик Солт, Филип Хабель и Дж. Тобин Грант. «Экономическое неравенство, относительная власть и религиозность» (Frederick Solt, Philip Habel, and J. Tobin Grant, «Economic Inequality, Relative Power, and Religiosity»), Social Science Quarterly 92, no. 2: 447–65. https://onlinelibrary.wiley.com/doi/pdf/10.1111/j.1540-6237.2011.00777.x 86 Найджел Барбер. «Религиозные люди счастливее?» (Nigel Barber, «Are Religious People Happier?»), PsychologyToday, 20 ноября 2012 г. https://www.psychologytoday.com/us/blog/the-human-beast/201211/ are-religious-people-happier 206 Глава 6 счастье. Вы живете в очень разных условиях. Для людей, живущих в богатых, равноправных и безопасных обществах, религиозность или ее отсутствие несущественный фактор счастья, так как им уже предоставляют хорошее медицинское обслуживание, образование, безопасность и чувство принадлежности. Но лично для вас религия может иметь большое значение. В среднем быть бедным и религиозным в неблагополучной стране лучше, чем быть бедным и нерелигиозным 87. Позволю себе напомнить еще одно базовое правило чтения графиков на основе приведенных примеров: Разные уровни мышления могут требовать разных уровней обобщения данных. Другими словами, если ваша цель — узнать что-то о взаимосвязи религиозности и счастья в разных странах и регионах, график должен обобщать и сравнивать данные по этим странам и регионам. Если же вы хотите узнать об отдельных людях, то график масштаба страны или региона не подходят — график должен сравнивать людей друг с другом. Поспешные выводы на основе графика, подтверждающего наше мнение, — общая беда, способная настичь любого. После каждых президентских выборов мои друзья левых политических взглядов удивляются, почему так часто люди из бедных областей, полагающихся на государственные 87 Салли Куинн. «Религия — верный путь к истинному счастью» (Sally Quinn, «Religion Is a Sure Route to True Happiness»), Washington Post, 24 января 2014 г. https://www.washingtonpost.com/national/religion/ religion-is-a-sure-route-to-true-happiness/2014/01/23/f6522120-845211e3-bbe5-6a2a3141e3a9_story.html?utm_term=.af77dde8deac Графики, которые показывают схемы, ведущие к неверным выводам 207 дотации, голосуют за кандидатов, обещающих сократить эти дотации. Мы можем назвать это парадоксом «Что случилось с Канзасом?» в честь одноименной книги журналиста и историка Томаса Франка, написанной в 2004 году. Основной тезис книги: избиратели, поддерживающие кандидатов, чья политическая программа противоречит их интересам, делают это, потому что им близки культурные ценности кандидатов, такие как отношение к религии, абортам, правам геев, политкорректности и пр. Мои друзья были ошарашены такими графиками. Изменение числа голосов за демократов между президентскими выборами 2012 и 2016 годов (в процентных пунктах) Уровень бедности Каждая точка — это округ 50% Западная Виргиния Виргиния Теннесси Пенсильвания 25% 0% -4 -2 0 +2 +4 Меньше Больше голосов голосов за демократов за демократов Похоже, что этот график подтверждает тезис Франка: чем беднее округ (чем выше оранжевая точка на графике), тем сильнее упало число голосов за демократов в 2016 году по сравнению с 2012-м (тем левее стала оранжевая точка). Распределение и правда такое, но говорит ли оно нам, что бедные люди в Западной Виргинии или Теннесси «голосуют против своих интересов»? Возможно, нет. Начнем с того, что это утверждение очень упрощено. Когда мы голосуем, то исходим не только из своих экономических интересов. Я неоднократно голосовал за кандидатов, обещавших 208 Глава 6 увеличить налоги для семей, похожих на мою. Также избирателям небезразличны моральные ценности кандидата. Я никогда не проголосую за кандидата, хотя бы намекнувшего на свою нелюбовь к иммигрантам или ксенофобию, неважно, насколько он близок мне по экономическим взглядам. Но давайте не будем отклоняться от темы и предположим, что экономические интересы — единственный фактор, который должны учитывать избиратели. График не становится от этого лучше, ведь он показывает не то, что бедные люди ушли от демократов. От них ушли бедные округа, что не одно и то же. Явка на выборах в США не так уж высока и становится еще ниже по мере спуска по экономической лестнице. Алек Макгиллис, репортер ProPublica, специализирующийся на государственных темах, написал: «Люди, полагающиеся на государственные дотации, пролоббированные демократами, в основном не голосуют против своих интересов, выбирая республиканцев. Они, скорее, просто не голосуют… Люди, голосующие в этих сообществах за республиканцев, находятся на одну-две ступеньки экономической лестницы выше — помощники шерифа, учителя, дорожные рабочие, работники мотелей, владельцы заправок и шахтеры. Растущая поддержка республиканцев с их стороны частично вытекает из протеста против того, что они видят зависимость от государственной поддержки у тех, кто находится ниже по экономической лестнице, что, в свою очередь, является признаком ухудшения ситуации в их и так не слишком благополучных городах» 88. 88 Алек Макгиллис. «Кто превратил мой синий штат в красный?» (Alec MacGillis, «Who Turned My Blue State Red?»), New York Times, 22 ноября 2015 г. https://www.nytimes.com/2015/11/22/opinion/sunday/whoturned-my-blue-state-red.html Графики, которые показывают схемы, ведущие к неверным выводам 209 Важно помнить о разнице между обобщенными и индивидуальными данными, чтобы понимать, как график может смещать наше восприятие. Посмотрите на картину, рисуемую графиком с сайта Our World is Data, сокровищнице для любителей визуализаций 89. Ожидаемая продолжительность жизни и расходы на здравоохранение с 1970 по 2015 год Ожидаемая продолжительность жизни при рождении (в годах) Финансирование здравоохранения указывается в виде годовых расходов на здравоохранение на душу населения и корректируется с учетом инфляции и разницы в уровне цен между странами (измеряется в международных долларах по курсу 2010 года). Азия Европа Северная Америка Океания Южная Америка 80 лет 75 лет 70 лет 65 лет 60 лет 55 лет $2000 $4000 $6000 $8000 Расходы на здравоохранение (в международных долларах по курсу 2010 года) Источник: Всемирный банк (показатели мирового развития; расходы на здравоохранение); Статистика Организации экономического сотрудничества и развития (2017); https://ourworldindata.org/the-link-between-life-expectancy-and-health-spending-us-focus (CC BY-SA) Такие связанные диаграммы рассеяния мы учились читать в главе 2. Но тут линии отражают страну и похожи на следы улитки, идущие справа налево и снизу вверх. Обратите внимание на линию США. Положение в начальной точке отвечает ожидаемой продолжительности жизни (вертикальная ось) и расходов на здравоохранение на человека в скорректированных долларах (горизонтальная ось) на 1970 год. Конечная 89 Сайт Our World in Data («Наш мир в данных»), основанный Максом Розером. https://ourworldindata.org/ 210 Глава 6 точка линии США справа соответствует тем же переменным в 2015 году. Эта точка выше и правее, чем начальная, и значит, что рост ожидаемой продолжительности жизни и расходов на здравоохранение были выше в 2015 году, чем в 1970. График показывает, что в большинстве стран ожидаемая продолжительность жизни и расходы на здравоохранение выросли приблизительно в одинаковых пропорциях в период между 1970 и 2015 годами. США здесь исключение, ведь ожидаемая продолжительность жизни не сильно изменилась, а вот расходы на здравоохранение на человека выросли в несколько раз. Я использую этот график, чтобы ввести еще одно правило хорошего прочтения: Любой график упрощает действительность и открывает нам столько же, сколько скрывает. Следовательно, всегда стоит задать себе вопрос: какие еще паттерны и тенденции могут скрываться за данными на этом графике? Мы можем вспомнить о колебаниях вокруг национальных средних значений. Расходы на здравоохранение в США разнятся в зависимости от вашего дохода и места проживания, как и ожидаемая продолжительность жизни. Исследование 2017 года, проведенное учеными из Вашингтонского университета, показало, что «хотя жители некоторых округов центрального Колорадо имеют ожидаемую продолжительность жизни в 87 лет (намного выше, чем в Швеции и Германии), многие жители Южной и Северной Дакоты, особенно индейских резерваций, возможно, проживут куда меньше, около 66 лет». Разница больше чем в 20 лет90. 90 Ричард Ласкомб. «Разница в средней продолжительности жизни между богатыми и бедными регионами США составляет более 20 лет» (Richard Luscombe, «Life Expectancy Gap between Rich and Poor US Regions Is 'More Than 20 Years»), 8 мая 2017 г., Guardian. https://www. theguardian.com/inequality/2017/may/08/life-expectancy-gap-rich-poorus-regions-more-than-20-years Графики, которые показывают схемы, ведущие к неверным выводам 211 Я думаю, что разброс расходов на здравоохранение и ожидаемой продолжительности жизни не так велик в благополучных странах с единой системой здравоохранения. Президент Барак Обама 23 марта 2010 года подписал Закон о доступном здравоохранении 91. Этот закон остается темой ожесточенных дебатов с того момента, как его предложили, и по сей день, лето 2018 года. Поднимались следующие вопросы: «Как он отразится на экономике? Правда ли, что помощь станет доступной? Переживет ли он смену власти? Поощряет ли он занятость или, наоборот, заставляет нанимателей брать меньше сотрудников?» Ответы на вопросы все еще обсуждаются, но некоторые эксперты использовали графики, как приведенный ниже, для обоснования того, что, вопреки утверждениям республиканцев, закон на самом деле положительно повлиял на рынок труда. Заметим, число занятых упало во время кризиса, но к 2010 году начало вновь расти. Посмотрите, что произошло в переломный момент, на графике. Все занятые: миллионы рабочих, кроме аграрного сектора 150 Март 2010 Закон о доступном здравоохранении вступил в силу 140 130 120 2008 09 2010 11 12 13 14 15 16 2017 (Источник: Бюро трудовой статистики) 91 ACA (Affordable Care Act). Известен также как Обамакеар. — Прим. ред. 212 Глава 6 Когда кто-то пытается убедить нас с помощью графика, стоит задать вопрос: достаточно ли только закономерностей, показанных на графике, чтобы подтвердить то, что говорит его автор? Не думаю, что в данном случае это так. Первая причина: как мы недавно узнали, график показывает то, что показывает, и ничего больше. Все, что показывает график: примерно в одно время произошли два события — закон был подписан и кривая занятости пошла вверх. Но график не говорит, что одно событие как-то спровоцировало второе или повлияло на него. Это ваш мозг делает такие выводы. Вторая причина в том, что есть и другие события, произошедшие в это время и, вероятно, повлиявшие на рынок труда. Стимулирующий пакет законов Обамы — Закон о восстановлении и реинвестициях — был пописан в феврале 2009 года в ответ на кризис 2007–2008 годов. Возможно, вливание миллиардов долларов в экономику привело через несколько месяцев к тому, что компании снова начали нанимать сотрудников. ? Что если бы Закон о доступном здравоохранении не был подписан? 150 Март 2010 Администрация Обамы отказалась от Закона о доступном здравоохранении 140 130 ? ? Внимание: вымышленный график 120 2008 09 2010 11 12 13 14 15 16 2017 Графики, которые показывают схемы, ведущие к неверным выводам 213 Мы также можем рассуждать от противного. Представьте, что указ не одобрили в Конгрессе. Как изменилась бы кривая занятости в такой ситуации? Осталось бы прежней? Восстановление замедлилось бы (ведь указ облегчал создание новых рабочих мест) или ускорилось (ведь усложняет наем, заставляя компании думать о стоимости медстраховки)? Мы не знаем. Оригинальный график ничего не говорит нам о том, как закон повлиял на рынок труда. Сам по себе этот график бесполезен как для защиты, так и для критики программы. Я видел, как подобные графики неверно интерпретировали и сторонники правых взглядов. В первые годы в президентском кресле Дональд Трамп часто говорил, что до его прихода рынок труда был в ужасном положении, но потом сразу пошел на поправку. В подтверждение своих слов он использовал график, обрезанный по горизонтальной оси в нужном месте. Все занятые: миллионы рабочих, кроме аграрного сектора 150 Инаугурация Дональда Трампа Внимание: ошибочный график 145 янв фев мар апр май июнь июль авг сен окт ноя дек янв фев мар апр май июнь 2017 (Источник: Бюро трудовой статистики) 2018 Но если вернуться к предыдущему графику и отметить на нем время избрания Трампа, то станет видно отсутствие значимых изменений в траектории и наклоне линии. Рынок труда начал восстанавливаться в 2010 году. Все, что Трамп 214 Глава 6 мог поставить себе в заслугу, — удержание положительной тенденции. Все занятые: миллионы рабочих, кроме аграрного сектора 150 Правление Обамы 140 Инаугурация Дональда Трампа 130 Инаугурация Барака Обамы 120 2008 09 2010 11 12 13 14 15 16 2017 (Источник: Бюро трудовой статистики) В октября 2017 года Трамп хвалился индексом Доу Джонса в своем твиттере, просто написав «Вау!» под изображением, показывающим, как рынок ценных бумаг резко пошел вверх после дня выборов в ноябре 2016 года. Промышленный индекс Доу Джонса 25 000 (Источник: Федеральный резерв) Внимание: ошибочный график 23 000 Инаугурация Трампа 20 000 День выборов 2016 года 15 000 1 янв 2015 17 окт 2017 Легко догадаться, в чем тут ошибка: индекс Доу Джонса следует той же тенденции, что и рынок труда. Он неуклонно растет с 2009 года. Бывали периоды стагнации и даже Графики, которые показывают схемы, ведущие к неверным выводам 215 падения, включая «пинок по Трампу» после инаугурации в 2016 году 92, но в целом график не менял тенденций. Промышленный индекс Доу Джонса 25 000 15 000 День выборов 2016 года Инаугурация Трампа 5000 1 янв 2009 17 окт 2017 Чем больше нам нравится идея, тем больше нам нравится любой график, ее подтверждающий, независимо от того, насколько он упрощает реалии. Первый график ниже был очень популярным в кругах креационистов, так как он показывал резкий скачок в родовом разнообразии во времена, известные широкой аудитории как Кембрийский взрыв. (Род — это группа видов, например к роду Canis принадлежат волки, шакалы, собаки и пр.) График обычно используют в паре с идеализированным дарвиновским «древом жизни», показывающим, как эволюция должна работать, постепенно отделяя новые рода друг от друга. 92 Гарольд Кларк, Марианна Стюарт и Пол Уайтли. «Пинок по Трампу на фондовом рынке реален. Но он не помогает Трампу» (Harold Clarke, Marianne Stewart, and PaulWhiteley, «The Trump Bump'in the Stock Market Is Real. But It's Not Helping Trump»), Washington Post, 9 января 2018 г. https://www.washingtonpost.com/news/monkey-cage/ wp/2018/01/09/the-trump-bump-in-the-stock-market-is-real-but-its-nothelping-trump/ 216 Глава 6 Внимание: ошибочный график Что на самом деле произошло… Разнообразие видов …и что должно было произойти по теории Дарвина Разнообразие видов Позднее Время Кембрий Прошлое Докембрий На правом графике показано, как в кембрийский период внезапно появились новые. Загадка кембрийского взрыва не давала покоя биологам больше ста лет, сам Дарвин в «Происхождении видов» упоминал, как озадачен этим фактом. Неполнота цепочки окаменелостей, особенно времен докембрия, подтверждала идею быстрого разделения на виды. Креационисты утверждали, что «в одно мгновение по геологическим меркам сложные животные впервые появились на Земле, полностью сформированные, без всяких эволюционных предков. Этот замечательный взрыв жизни… лучше всего объясняется созданием всех животных Творцом»93. Впрочем, термин «взрыв» и график, которым хвалятся креационисты, вводят в заблуждение. Современные ученые, получив более полные цепочки окаменелостей по сравнению с дарвиновскими временами, чаще используют термин «кембрийское разнообразие»: многие рода животных 93 Описание документального фильма «Дилемма Дарвина: тайна кембрийской летописи окаменелостей» (Darwin's Dilemma: The Mystery of the Cambrian Fossil Record) дано как само собой разумеющееся. https://store.str.org/purchase/darwins- dilemma-the-mystery-of-thecambrian-fossil-record Графики, которые показывают схемы, ведущие к неверным выводам 217 и правда появились в кембрийский период, но произошло это вовсе не внезапно. Кембрий растянулся дольше, чем на 50 миллионов лет, с 545 по 490 миллионов лет до нашей эры. Довольно большой срок для взрыва. Осознавая эту неудобную реальность, некоторые авторыкреационисты, такие как Стивен Мейер, придерживаются своей схемы, но сужают «взрыв», атдабанской эпохи в первой трети кембрийского периода; именно на этом этапе между 521 и 514 миллионами лет назад произошло большое разделение родов. Мейер сказал, что «новая информация может исходить только от интеллекта, и поэтому всплеск генетической информации в кембрийскую эру предоставляет убедительные доказательства того, что животная жизнь является продуктом разумного замысла, а не слепого ненаправленного процесса, такого как естественный отбор» 94. Семь миллионов лет все еще довольно много для «взрыва» — достаточно вспомнить, что наш вид существует всего 300 тысяч лет, — но это не единственная проблема. Палеонтолог из Западного колледжа Дональд Протеро, автор книги «Эволюция: что говорят окаменелости и почему это важно», предпочитает более детальный график докембрийского и кембрийского периодов (ниже) и поясняет почему. «Все разнообразие жизни, как теперь известно, прошло ряд определенных шагов, от первой окаменелой простой бактерии 3,5 миллиарда лет назад до первого многоклеточного животного 700 миллионов лет назад (эдиакарская фауна), до первых признаков скелета в окаменелостях 94 Стивен Мейер. «Сомнения Дарвина: взрывное происхождение животной жизни и аргументы в пользу разумного замысла» (Stephen C. Meyer, «Danwin's Doubt: The Explosive Origin ofAnimal Life and the Case for Intelligent Design»), Нью-Йорк: HarperOne, 2013. 218 Глава 6 (крохотные фрагменты маленьких ракушек, известные как мелкораковинная фауна) в начале кембрийского периода около 545 миллионов лет назад (НемакитДалдынский и Томмотский ярусы Кембрия), до Нижнего Кембрия (Атдабанский ярус, 520 миллионов лет назад), когда мы находим первые окаменелости больших животных с твердым панцирем, таких как трилобиты»95. Миллионы лет назад Число видов 0 200 400 600 490 Верхний кембрий 500 Средний кембрий 510 Ботомский ярус Кембрий Атдабанский ярус 520 530 Нижний кембрий Томмотский ярус Кембрийский взрыв Немакитдалдынский ярус 540 550 560 570 Эдиакарий и венд 580 590 600 (Источник: Дональд Протеро) Посмотрите на график: столбцы справа представляют разнообразие видов. Они растут постепенно, а не внезапно. 95 Дональд Протеро. «Эволюция: что говорят окаменелости и почему это важно» (Daniel R. Prothero, «Evolution: What the Fossils Say and Why It Matters»), Нью-Йорк: Columbia University Press, 2007. Графики, которые показывают схемы, ведущие к неверным выводам 219 И эта тенденция роста, закончившаяся массовым вымиранием в ботомском ярусе, началась задолго до кембрийского периода, отвергая гипотезу, что «сложные животные появились сразу полностью сформированными, безо всяких эволюционных предков». Вы можете верить в «разумного создателя», если хотите, но не стоит игнорировать действительность. На данном этапе должно стать очевидно, что можно нарисовать график, с некоторыми ограничениями подтверждающий любую теорию. Мы можем делать это с помощью выбора модели графика, детализации и, что самое важное, интерпретации отображенных на нем тенденций. Посмотрите на два графика с замечательного сайта Spurious Correlations («Ложные корреляции») Тайлера Вигена, автора одноименной книги96. Число людей, утонувших в бассейне, коррелирует с числом фильмов, в которых снялся Николас Кейдж 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 140 утонувших 6 фильмов 120 утонувших 4 фильма 100 утонувших 2 фильма 80 утонувших Николас Кейдж Утонувшие в бассейне 1999 0 фильмов 1999 2000 2001 2002 2003 2004 Николас Кейдж 2005 2006 2007 2008 2009 Утонувшие в бассейне tylervigen.com Расходы США на науку, космос и технологии коррелируют с числом самоубийств в результате повешения и удушения 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 10 000 самоубийц $25 млрд 8000 самоубийц $20 млрд 6000 самоубийц 4000 самоубийц $15 млрд 1999 2000 2001 2002 2003 2004 Повесившиеся 96 2005 2006 Расходы США на науку http://www.tylervigen.com/spurious- correlations 2007 2008 2009 tylervigen.com Повесившиеся Расходы США на науку 1999 $30 млрд 220 Глава 6 Когда я впервые зашел на сайт Вигена, то подумал, что лучшим, пусть и не столь звучным, было бы название «Ложные причинности». Потому что число утонувших в бассейне и правда коррелирует с количеством фильмов Николаса Кейджа. Данные есть данные, и они верно представлены, хотя график с двумя вертикальными осями и правда может быть ложным. Как мы видели в главе 2, можно поиграть с осями, чтобы получить нужный угол наклона нашей линии. Что действительно ложно, так это не корреляция, а возможная ее интерпретация, которую мы вынесем из совпадения наших переменных: неужели число фильмов Николаса Кейджа влияет на число несчастных случаев? Или, возможно, просмотр фильмов с Николасом Кейджем вдохновляет людей больше плавать в бассейнах, что ведет к повышенному риску утонуть? Оставляю на ваше усмотрение поиск ложной причинной связи между расходами США на науку и числом повесившихся. Вперед, если любите черный юмор. Не лгите себе (и другим) с помощью графиков 221 Заключение Не лгите себе (и другим) с помощью графиков Е сли будете в Лондоне, то, насладившись великолепными видами Вестминстерского аббатства, зданием Парламента, Биг-Беном, обязательно пересеките Вестминстерский мост на восток и сверните направо. Там будет госпиталь Святого Фомы. Рядом, зажатый между двумя здоровыми зданиями, стоит маленький музей Флоренс Найтингейл. Найтингейл — любимая и часто обсуждаемая личность в истории здравоохранения, статистики и создания графиков. Движимая унитарианской верой, ставящей дела над словами, против воли своих состоятельных родителей Найтингейл с ранних лет решила посвятить себя делу здравоохранения и уходу за бедными и нуждающимися. А еще она любила науку. Ее отец дал дочери отличное гуманитарное и математическое образование. Некоторые биографы утверждают, что, благодаря такому образованию, позже ее назовут «одним из лучших аналитических умов своего времени»97. 97 Марк Бостридж. «Флоренс Найтингейл: Женщина и ее легенда» (Mark Bostridge, «Florence Nightingale: The Woman and Her Legend»), Лондон: Penguin Books, 2008. 222 Заключение Если воспользуетесь моим советом и посетите музей Найтингейл в Лондоне, то потратите немного времени, чтобы покопаться в книгах и документах, выставленных для демонстрации. График, представленный ниже, наверняка обратит на себя внимание. Заголовок: Диаграмма смертности в армии на Востоке. С апреля 1855 по Март 1856 (слева). С Апреля 1854 по Март 1855 (справа). Это один из моих любимых графиков. Он представляет собой пример сразу многих принципов чтения графика, даже если его дизайн не идеален. Так что позвольте ввести вас в исторический контекст. В октябре 1853 года Османская империя, занимавшая территорию современной Турции, объявила войну Российской империи. Англия и Франция присоединились к тому, что позже будет названо Крымской вой ной (1853–1856 годы), в марте 1854 года, на стороне Османской империи. Причины войны сложны и основаны на захватнических Не лгите себе (и другим) с помощью графиков 223 стремлениях Российской империи спорах о защите христианских меньшинств — православных и католиков, — живших в Палестине, которая тогда была частью Османской империи 98. Сотни тысяч солдат погибли. Смертность была ужасающей: почти каждый пятый солдат, попавший на Крымскую войну, погибал в основном из-за болезней, таких как дизентерия и тиф, а не из-за ран, полученных в битвах. В то время не было действенных способов лечить инфекционные заболевания, кроме как пить побольше воды, питаться здоровой пищей и отдыхать в чистом месте, а до появления теории микробного происхождения болезней оставалось еще двадцать лет. Война по большей части шла на Крымском полуострове, на северном побережье Черного моря. Раненых и заболевших английских солдат перевозили на лечение в Турцию. Многие умерли при транспортировке через Черное море, а выжившие столкнулись с переполненными, грязными, кишащими вшами и плохо снабжаемыми госпиталями в Скутари (Ускюдаре), районе современного Стамбула. По исследованиям Бостонского университета «госпитали Скутари работали скорее как “чумные бараки”, а не военные госпитали, чтобы отделять инфекционных больных от прочих солдат. В Скутари отправляли не лечиться, а умирать» 99. Флоренс Найтингейл, у которой был опыт организации снабжения госпиталя, вызвалась работать в Казарменном 98 99 Энциклопедия Britannica Online, статья «Крымская война» («Crimean War»). https://www.britannica.com/event/Crimean-War Кристофер Гилл, Джиллиан Гилл. «Найтингейл в Скутари: пересмотр ее наследия» (Christopher J. Gill and Gillian C. Gill, «Nightingale in Scutari: Her Legacy Reexamined»), Clinical Infectious Diseases 40, вып. 12 (15 июня 2005 г.): 1799–1805. https://doi.org/10.1086/430380 224 Заключение госпитале Скутари, названный так, потому что несколько солдатских бараков просто переоборудовали под палаты. Найтингейл и группа медсестер прибыли в ноябре 1854 года. Почти за два года работы в Скутари, несмотря на сопротивление военной и медицинской управленческой верхушки, Найтингейл продвигала реформы. Она вела подробные записи обо всех пациентах и действиях, помогала улучшать госпитали, снижать их наполненность, требовала лучшего снабжения и оказывала психологическую помощь пациентам. Смертность по прибытии Найтингейл сначала выросла, а потом, зимой 1854–1855 годов, упала, впрочем, не так сильно, как говорится в легендах о ней. Как считают современные историки, причина в том, что хотя Найтингейл боролась за чистоту, но не уделяла достаточно внимания проветриванию и стерилизации помещений. Она сосредоточивалась больше на гигиене пациентов, чем их окружения 100. Английское правительство, обеспокоенное ужасным положением раненых и больных солдат, а также под общественным давлением из-за высокой смертности, хорошо освещенной в английской прессе, отправило в зону конфликта две комиссии — санитарную комиссию и комиссию по снабжению. Санитарная комиссия начала свою работу в марте 1855 года. Запомните эту дату. Комиссия, чью деятельность Найтингейл поддерживала, обнаружила, что Казарменный госпиталь в Скутари построен на выгребной яме: канализация здания пришла в негодность и некоторые трубы были забиты трупами животных. 100 Хью Смолл. «Флоренс Найтингейл: ангел мщения» (Hugh Small, «Florence Nightingale: Avenging Angel»), Лондон: Constable, 1998. Не лгите себе (и другим) с помощью графиков 225 Комиссия приказала очистить канализацию, восстановить вентиляцию, регулярно избавляться от отходов. Благодаря выполнению этих рекомендаций, условия существования улучшились во всех больницах, что посетила комиссия 101. Во время работы в Скутари Найтингейл не владела полной информацией о смертности в Казарменном госпитале, которая была намного выше, чем в других военных госпиталях. Некоторые ее медсестры не понимали, как получалось, что выживших после ампутации на фронте было куда больше, чем в госпиталях, но причиной считали то, что мужчины на поле боя «были полны жизни и способны переносить боль и усталость, в то время как в госпитале они уже были ослаблены страданиями» 102. Настоящие причины смертности в Крымской вой не, ужаснувшие Найтингейл, она обнаружила, только вернувшись в Лондон и проанализировав результаты работы Санитарной комиссии вместе с другими статистиками, такими как Уильям Фарр, эксперт в медицинской гигиене. Наука о медицинской гигиене в то время была не в почете у медицинского сообщества. Врачи переживали, что престиж профессии будет подорван, если выяснится, что проветривать и мыть помещение важнее, чем сам медицинский уход. К их сожалению, именно на этот вывод указывали данные Найтингейл. Ниже изображен составной столбчатый график, столбцы в сумме дают общую смертность. Отметим падение смертности по всем категориям после марта 1855 года. 101 102 Марк Бостридж. «Флоренс Найтингейл». Хью Смолл. «Краткая история Флоренс Найтингейл: ее настоящее наследие, революция в общественном здравоохранении» (Hugh Small, «A Brief History of Florence Nightingale: And Her Real Legacy, a Revolution in Public Health»), Лондон: Constable, 2017. 226 Заключение Ежемесячная смертность в английской армии (Примечание: не только в Казарменном госпитале в Скутари) 3,000 Прибытие Найтингейл Санитарная комиссия 2,000 Болезни Раны Другие причины 1,000 0 Апр Ноя 1854 Мар Мар 1855 1856 (Источник: Хью Смолл) Резкое падение смертности нельзя списывать только на улучшение санитарных норм, но Найтингейл не сомневалась, что это был важный, если не важнейший фактор 103. Мучимая чувством вины за все те жизни, что можно было спасти, просто проветривая и убирая помещения, Найтингейл посвятила свою жизнь — а прожила она до 1910 года — медицинскому уходу и здравоохранению. Что снова приводит нас к графику Найтингейл, который она называла «Клинья». Вернувшись с вой ны, она использовала свою славу, чтобы продавить реформы в управлении военными госпиталями. Она считала, что английская армия пренебрегала здоровьем и благополучием обычных солдат. Армейское начальство не соглашалось, снимало с себя всякую ответственность и всячески препятствовало реформам. На их стороне была и королева Виктория, хоть она и одобрила создание Королевской 103 С данными можно ознакомиться здесь: Mathematics of the Coxcombs («Математика Кокскомба»), Understanding Uncertainty, 11 мая 2008 г. https://understandinguncerty.org/node/214 Не лгите себе (и другим) с помощью графиков 227 комиссии по расследованию катастрофы в Крыму и Турции. Найтингейл участвовала в работе комиссии. Чтобы убедить армию — а в конечном счете и все общество — в разумности санитарных идей Уильяма Фарра, которые «требовали траты государственных средств на промывание канализации, чистую воду и вентиляцию в помещениях» 104, Найтингейл использовала слова, цифры и графики. Все это появлялось не только в отчетах комиссии, но и в популярных книжках и брошюрах. «Клинья» — самый известный из графиков Найтингейл. Он отображает ту же информацию, что и моя гистограмма, но в более наглядной и цепляющей манере. «Клинья» состоят из двух кругов разных размеров, которые следует читать по часовой стрелке. Круги состоят из клиньев, каждый соответствует месяцу. Большой круг справа (1) на диаграмме — период с апреля 1854 года по март 1855 года, когда санитарная комиссия была отправлена в зону боевых действий. Круг поменьше, слева (2) —период с апреля 1855 года по март 1856 года. Апрель 1855 Начинать чтение здесь: (2) Апрель 1854 (1) Март 1856 104 Март 1855 Хью Смолл. «Краткая история Флоренс Найтингейл». 228 Заключение Смерти вследствие… МАРТ 1855 На каждый месяц у нас три клина, частично перекрывающих, но не закрывающих друг друга. Размеры каждого клина, измеряемые от центра круга, пропорциональны количеству смертей от болезней, ран или других причин соответственно. Например, вот сегменты, отвечающие за март 1855 года. …болезней …других причин …ран Почему Найтингейл представила данные в столь причудливой форме, а не в виде простой гистограммы или набора обычных графиков, по одному на каждую причину смерти? Историк Хью Смолл указывает, что одним из самых важных ее читателей был главный медицинский врач Джон Саймон, утверждавший, что смерти от болезней и инфекций неизбежны. Найтингейл хотела показать его неправоту, подчеркивая смертность до и после работы санитарной комиссии. Для этого надо было разделить время на два периода, обозначенных на графике кругами и соединенных пунктирными линиями. Первая фигура, показывающая число смертей до работы комиссии, довольно большая. Вторая много меньше. Я бы пошел дальше и предположил, что ее целью было не только рассказать, но и убедить с помощью этой интригующей, необычной и красивой картинки. Гистограмма несет то же содержание, но в менее приятной глазу форме. Не лгите себе (и другим) с помощью графиков 229 Предыстория графика Найтингейл воплощает в себе принципы, которые должны быть близки каждому из нас. Первый и самый важный из них, как я уже объяснял в главе 3: Чтобы график был достоверным, данные в его основе должны быть проверены. Данные в графике Найтингейл были лучшими из доступных в то время. Их сбор и анализ занял годы, и только потом их показали обществу. Второй принцип, пример которого дает нам график «Клинья»: график может быть аргументом в споре, но одного его обычно не хватает. Графики Найтингейл обычно публиковали в книгах или отчетах, где рассказывали о природе и источниках данных, а также представляли альтернативные интерпретации, прежде чем сделать основной вывод. Врач и статистик Ханс Рослинг из Каролинского института говорил: «Мир нельзя понять без цифр. И его нельзя понять с одними только цифрами» 105. Столь подробный способ представления информации и отличает науку от пропаганды. Пропаганда подает информацию в самом упрощенном виде, с целью сформировать общественное мнение, подчеркивая то, что усиливает их послание, и опуская факты, противоречащие ему. Найтингейл и ее соратники сделали все, чтобы продавить реформу здравоохранения, но только после долгого и упорного выстраивания аргументов, основанных на данных. Они убеждали с помощью разума. 105 Ханс Рослинг, Анна Рослинг Рённлунд, Ула Рослинг. «Фактологичность. Десять причин наших заблуждений о мире — и почему все не так плохо, как кажется» (Hans Rosling, Anna Rosling Rönnlund, and Ola Rosling, «Factfulness: Ten Reasons We're Wrongabout the World And Why Things Are BetterThan You Think»), Нью-Йорк: Flatiron Books, 2018. 230 Заключение Третий принцип заключается в том, что данные и диаграммы могут спасти жизни и изменить сознание. Не только умы других людей — в конце концов, графики Найтингейл были инструментами для того, чтобы убедить общество изменить свое поведение, — но и ваши собственные. Это самая веская причина, по которой я восхищаюсь Найтингейл. После войны, когда появились полные данные, ее терзало чувство вины за то, что не смогла сделать все возможное для спасения тысяч солдат, находившихся под ее присмотром. Поэтому она посвятила свою жизнь предотвращению в будущем катастроф из-за таких же ошибок, которые она когда-то допустила. Умение менять свои убеждения под воздействием доказательств — свойство самых честных и просвещенных людей, старающихся использовать доступную информацию самым этичным способом. Нам всем стоит стремиться подражать им. Графики могут служить инструментом как рассуждений, так и рационализации. Мы чаще предпочитаем второе, нежели первое. Мы берем вывод, который подчеркивается графиком, особенно если у нас уже есть мнение по этому поводу, и стараемся подстроить его под нашу картину мира, а не использовать его для изменения этой картины. Рассуждения и рационализация опираются на один и тот же мысленный механизм. Поэтому их легко путают. Оба основываются на умозаключениях. Умозаключение — создание новой информации на базе имеющихся доказательств и предположений. Умозаключения могут быть верными, если совпадают с реальностью, или неверными. В предыдущей главе мы Не лгите себе (и другим) с помощью графиков 231 видели, что график, показывающий, что потребление сигарет и ожидаемая продолжительность жизни положительно коррелируют на уровне стран. У нас было несколько кусочков информации: «потребление сигарет, высокое и низкое» и «ожидаемая продолжительность жизни, высокая и низкая». Если бы мы не знали, как это работает, или хотели оправдания тому, что курите сами, то могли бы прийти к выводу, что курение помогает дольше жить. Представьте, что я заядлый курильщик, а СМИ, друзья и родственники настаивают, что курение убивает меня. Если попадется график, подтверждающий другую точку зрения, то я немедленно использую его, чтобы обосновать свое поведение. Это и есть рационализация. Рационализация — режим работы нашего мозга по умолчанию. На эту тему написаны десятки популярных книг, поясняющих, как наши мысленные установки сбивают с верного пути. Моя любимая — «Ошибки, которые были допущены (но не мной)» за авторством Кэрол Теврис и Элиотта Аронсона. Она объясняет, как мы формируем наши убеждения, обосновываем их и затем сопротивляемся их изменению. Теврис и Аронсон используют для этого «пирамиду выбора», работающую как ледяная горка. Представьте двух студентов со сходным мнением о списывании на экзаменах. Однажды, во время прохождения теста, оба хотят сжульничать. Один поддается этому желанию, а второй — нет. Теврис и Аронсон говорят, что если опросить студентов после такого события об их отношении к списыванию, то это отношение существенно изменится: студент, не ставший списывать, выскажется весьма сурово, а давший слабину скажет, что списывание не такое уж и большое преступление или что в данном случае оно было оправданно, так как на кону была аспирантура. Авторы добавляют: 232 Заключение «К моменту, когда студенты закончат все яростнее оправдываться, случатся две вещи: во-первых, теперь их мнения сильно различаются; и, во-вторых, они усвоили свои новые убеждения и уверены, что всегда думали именно так. Как-будто они начинали на вершине пирамиды, в миллиметрах друг от друга, но сейчас, закончив спуск, находятся у ее основания по разные стороны». Тут задействовано несколько принципов. Люди не любят несогласованности. Каждый себя ценит и любит, и чувствует угрозу от всего, что может навредить его внутреннему образу («Я же хороший человек, а значит жульничество — не так уж и плохо!»). Следовательно, мы стараемся минимизировать такую несогласованность через рационализацию («Все жульничают, к тому же никто не пострадал»). Более того, если позже станет известно, что кто-то все же пострадал от жульничества — мы ведь поступили в аспирантуру, а значит, кто-то не прошел, — нам сложнее будет принять этот факт и изменить свое мнение. Скорее, мы отбросим или исказим его, чтобы уложить в нашу новую систему ценностей. Мы ведем себя так из-за двух связанных свойств человеческого разума: предвзятость подтверждения и мотивированные рассуждения. Психолог Гари Маркус пишет: «Если предвзятость подтверждения — процесс автоматический, позволяющий замечать ту информацию, которая соответствует нашим убеждениям, то мотивированное рассуждение — дополняющая тенденция, заставляющая нас тем внимательнее и детальнее разбирать утверждения, чем меньше они соответствуют нашей картине мира» 106. 106 Гари Маркус. «Клудж: случайное устройство человеческого мозга, и как это сделало нас теми, кто мы есть». М. : Альпина нон-фикшн, 2021 (Gary Marcus, «Kluge: The Haphazard Evolution ofthe Human Mind», Бостон: Mariner Books, 2008). Не лгите себе (и другим) с помощью графиков 233 Связь между когнитивным диссонансом, предвзятостью подтверждения и мотивированным рассуждением разобрана в таких книгах, как «Праведный разум» Джонатана Хайдта и «Загадка разума» Хьюго Мерсера и Дэна Спербера. В них сказано, что старый — и ошибочный — взгляд на наш разум гласит: разум — это механизм, собирающий, обрабатывающий и оценивающий информацию, чтобы затем сформировать на ее основе убеждения. Эти авторы описывают работу человеческого разума совершенно иначе. Размышления в одиночестве или в группе, объединенной культурой или идеологией, может деградировать до рационализации: сначала мы формируем убеждения, потому что члены нашей группы уже придерживаются их или потому что нам так комфортнее, и только затем используем наш мыслительный процесс, чтобы оправдывать свою точку зрения, убеждать других в ее достоинствах и защищаться от противоречащих ей мнений. Как перейти от рационализации к рассуждениям? Жизнь Флоренс Найтингейл, приведшая к ее графикам, дает несколько подсказок. Вернувшись с Крымской войны, Найтингейл не понимала, почему так много солдат, за которыми она ухаживала, умерли, и все еще считала, что дело в плохом снабжении, бюрократии, слабом здоровье солдат или чем-то другом. А еще ей нужно было подтвердить свою репутацию. Фотографии в газетах, на которых сестра милосердия, освещая себе путь лампой, идет в ночи по длинным коридорам госпиталя в Скутари, чтобы ухаживать за умирающими, превратили ее в популярную, даже легендарную личность. Никто не стал бы ее винить, рационализируй она свои ошибки времен Крымской войны. Но Найтингейл поступила иначе: она внимательно изучила данные и обсудила их с экспертами, особенно 234 Заключение с Уильямом Фарром, в долгих напряженных дебатах. Фарр был тем, кто собрал разрозненные данные и свидетельства, показал технику их анализа и предположил, что улучшение санитарной обстановки в госпиталях могло быть тем вмешательством, которое спасло жизни. С ним Найтингейл оценила свои гипотезы о причинах высокой смертности среди солдат и сравнила их с новыми цифрами. Урок, который можно вынести из опыта Найтингейл: как бы обидно это ни звучало, но люди не способны рассуждать в одиночку или в кругу единомышленников. Когда мы пытаемся рассуждать в подобных условиях, то просто начинаем рационализировать, чтобы использовать доводы для подтверждения собственной правоты. И самая большая беда в том, что чем мы умнее, чем больше у нас информации, тем проще будет рационализация. Частично потому, что мы лучше знаем, о чем члены нашей группы, политической партии или церкви думают, чтобы оставаться с ними на одной волне. С другой стороны, если вам встречается мнение и вы не знаете, кто его высказал, то рассмотрите его менее предвзято. Рационализация — разговор с самим собой или с человеком сходных убеждений. Размышления, напротив, честный и открытый разговор, в котором мы пытаемся убедить собеседников, возможно не соглашавшихся с нами ранее, с помощью аргументов, которые обоснованы, понятны и максимально подробны, при этом оставаясь отрытым для чужих идей. Такой диалог не обязательно вести лицом к лицу. Большая часть диалогов во времена Найтингейл велась через переписку. Внимательно читая газету, статью или книгу, вы ведете диалог с автором. Как если вы пишете книгу, но ожидаете от читателей не послушного впитывания информации, а чтобы они обдумывали содержание, конструктивно Не лгите себе (и другим) с помощью графиков 235 его критиковали или даже дополняли своими идеями в будущем. Поэтому так важно соблюдать сбалансированную новостную диету, чтобы она состояла из тщательно отобранных источников (как я рекомендовал в главе 3). Как мы разумно относимся к потреблению пищи, так же должны относиться и к потреблению информации. Доводы, используемые при рационализации, редко хорошо обоснованы, понятны и подробны. Можете проверить себя. Попробуйте объяснить кому-то, кто не согласен с вашими убеждениями, почему вы убеждены в чем-то. Постарайтесь избегать ссылок на авторитеты или на собственную систему ценностей. Напротив, изложите вашу точку зрения в деталях, последовательно выстраивая логическую цепочку аргументов. Вы быстро поймете, как неустойчивы скрепы, держащие наши самые глубокие и дорогие верования. Такой опыт смирения помогает понять, что мы должны перестать бояться говорить: «Я не знаю». Чаще всего мы и правда не знаем. Этой же стратегии эксперты по мышлению советуют придерживаться, когда нужно убедить людей, которые в чем-то ошибаются 107. Не забрасывайте его доказательствами, это может вызвать в ответ дьявольскую триаду из когнитивного диссонанса, мотивированных рассуждений и предвзятости подтверждения. Наоборот, дайте человеку возможность раскрыть свою мысль. Эксперименты показывают, если поместить людей с разными мнениями в одну комнату и попросить поговорить друг с другом как с равными, не причисляя никого ни к каким группам, чтобы не провоцировать 107 Сломан Стивен, Фернбах Филип. «Иллюзия знания. Почему мы никогда не думаем в одиночестве». М. : КоЛибри, 2017 (Steven Sloman and Philip Fernbach, «The Knowledge Illusion», New York: Riverhead Books, 2017). Это лучшая книга, которую я когда-либо читал по этим вопросам. 236 Заключение групповой защитный инстинкт, то люди становятся более податливыми. Если вы спорите с кем-то, то проявите интерес к его убеждениям, попросите раскрыть их и подробнее объяснить. Поступая так, вы поможете себе и другим закрыть пробелы в знаниях. Лучшее противоядие от ошибочного мнения — не просто правдивая информация. Сомнения и неуверенность, подрывающая прочность убеждений, позволят потом просочиться туда и истине. Так как графики наглядны и убедительны, они могут послужить основой диалога. В статье 2017 года профессора политологии Брендан Нихан и Джейсон Рейфлер описали три эксперимента, в которых графики помогали исправить ошибки восприятия 108. США вторглись в Ирак в 2003 году, а в 2007 году администрация Джорджа Буша объявила о введении дополнительного контингента в страну, чтобы справиться с участившимися атаками противника, в которых гибли солдаты и гражданские. Начиная с июня того года потери начали падать. Общественное мнение разделилось по вопросу эффективности ввода войск. Согласно Нихану и Рейфлеру, 70% республиканцев думали, что ввод войск улучшил ситуацию в Ираке, что оказалось правдой. Но только 21% демократов был с ними согласен. Особо печально, что почти 31% демократов считал: ввод войск ухудшил ситуацию, приведя к росту насилия и числа жертв. 108 Брендан Нихан Джейсон Рейфлер. «Роль дефицита информации и угрозы идентичности в распространенности неправильных представлений» (Brendan Nyhan and Jason Reifler, «The Role of Information Deficits and Identity Threat in the Prevalence of Misperceptions»), Journal ofElections, Public Opinion and Party, опубликуется перед печатью 6 мая 2018 г. https://www.tandfonline.com/eprint/PCDgEX8KnPVYyytUyzvy/full Не лгите себе (и другим) с помощью графиков 237 Нихан и Рейфлер разделили участников эксперимента на три группы: тех, кто хотел, чтобы США остались в Ираке; тех, кто хотел вывести войска; и тех, кто не имел мнения на этот счет. Затем им показали следующий график. Еженедельные атаки повстанцев в Ираке 1500 1000 Начинается всплеск 500 0 Янв 2004 Янв 2005 Янв 2006 Янв 2007 Янв 2008 График снизил количество людей, веривших, что введение войск не имело эффекта или увеличило число атак и жертв. Разница была заметнее в группе противников ввода войск США в Ирак. График не изменил мнение всех, но уменьшил ошибки восприятия некоторых людей. Нихан и Рейфлер провели еще два эксперимента: с графиком о рынке труда при президенте Обаме (показавшем, что многие, особенно республиканцы, не верили в резкое падение безработицы во время его правления) и графиком об изменениях климата. Они уменьшили, но не убрали полностью, ошибки восприятия в обоих случаях. Эксперименты Нихана и Рейфлера возвращают нас к основной мысли этой книги: графики могут делать нас умнее и помогать вести содержательный диалог, но только при определенных условиях. Некоторые из них связаны с дизайном графиков, другие — с тем, как мы, читатели, их интерпретируем. Фраза «Есть три типа лжи: ложь, наглая 238 Заключение ложь и статистика», которую обычно приписывают Бенджамину Дизраэли и Марку Твену, весьма популярна, но статистика нас обманывает только тогда, когда мы сами этого хотим. Или когда не обладаем достаточными знаниями, чтобы ее читать. Сомнительные графики — чаще результат невнимательности или невежества, чем злого умысла. Другое условие в том, что мы, читатели, должны подходить к графику как к способу углубить диалог. Большинство графиков не заканчивает разговор, а только начинает его. Хороший график помогает ответить на вопрос («Увеличилось или уменьшилось число атак после ввода войск?»), но также может заинтересовать нас и помочь сформулировать лучший вопрос («А что насчет числа жертв?»). Вспомните историю Найтингейл. Ее знаменитый график был частью большой дискуссии, приведшей ее и коллег к свидетельствам, подтверждающим, что санитарные меры были недостаточны и с этим надо что-то делать. Но сами данные и график не говорили о том, что надо делать. Это приводит нас к следующему условию, при котором график делает нас умнее: мы должны придерживаться принципа, что график показывает только то, что показывает, и надо стараться не додумывать ничего лишнего. График Нихана и Рейфлера показывает: число атак резко упало после ввода войск. Но что если каждая новая атака уносила больше жертв, чем ранее, и, как следствие, число жертв могло вырасти? На самом деле этого не произошло, но такое вероятно, а значит, вот еще один набор фактов, который можно рассмотреть в рамках диалога о последствиях введения дополнительного контингента в Ирак. Еще один вывод, который можно сделать из опыта Найтингейл: цель, с которой мы используем график, тоже важна. Не лгите себе (и другим) с помощью графиков 239 Если что и отличает нас от животных, то способность создавать технологии, будь то материальные или абстрактные, расширяющие возможности нашего тела и разума. Мы двигаемся быстрее, благодаря крыльям и колесам; видим дальше и лучше благодаря очкам, телескопам и микроскопам; наслаждаемся более точными и глубокими воспоминаниями, благодаря СМИ и компьютерам; становимся сильнее благодаря тачкам, лебедкам и рычагам; лучше общаемся благодаря устной и письменной речи и технологиям, позволяющим ее использовать и воспроизводить. Список можно продолжать бесконечно, и подтверждает он то, что мы — вид киборгов. И выжить без всех этих приспособлений и протезов нам удастся с большим трудом. Некоторые технологии — протезы для мозга, расширяющие его возможности. Философия, логика, риторика, математика, искусство и научные методы собирают наши мечты, любопытство и интуицию и направляют их в продуктивное русло. Это абстрактные инструменты. Графики тоже в их числе. Хороший график расширяет наше воображение и улучшает понимание, показывая картину, скрытую за цифрами. Но инструменты не просто усиливают возможности нашего тела и разума. У них также есть этическая составляющая. Инструменты неестественны, потому что их дизайн и возможности также неестественны. Изобретатели инструментов должны думать и о возможных последствиях нововведений. И переделывать эти инструменты, если последствия их создания будут негативными. С другой стороны, любой, кто использует инструменты, должен применять их в рамках этики. Вот молоток: 240 Заключение Для чего нужен молоток? С его помощью можно забивать гвозди, строить дома, укрытия, амбары и стены, защищающие людей, урожай и животных от непогоды — следовательно, уменьшая страдания и голод в беднейших регионах мира. Таким же образом графики можно использовать для общения, укрепления взаимопонимания и разумного диалога. Но тот же молоток можно применять для противоположных целей: ломать дома, укрытия, амбары и стены, обрекая их владельцев на страдания и голод. Или как оружие в войне. Так же и графики, являсь технологией, могут быть использованы для разрушения взаимопонимания, запутывания себя и других, создания препятствий в диалоге. Война против дезинформации — как бесконечная гонка вооружений. Каждое поколение придумывает новые технологии, а новые пропагандисты, использующие ее в своих интересах. Между 1930 и 1940 годами нацисты захватили такие технологии, как печатный станок, радио и кино, чтобы провоцировать страх, ненависть, войну и геноцид. При возможности прочитайте книгу о нацистской пропаганде, изданную Американским мемориальным музеем Не лгите себе (и другим) с помощью графиков 241 Холокоста 109 или поищите примеры в интернете. Для современного человека нацистская пропаганда звучит резко, грубо и неубедительно. Как люди велись на такую глупость? Причина в том, что дезинформация сложна настолько, насколько сложно общество, на которое она направлена. Когда я писал эти строки, то узнал об ужасающем изобретении — новой программе, позволяющей с помощью искусственного интеллекта манипулировать аудио- и видеофайлами 110. Вы можете записать свою речь, а потом поменять свой голос на голос Барака Обамы или Ричарда Никсона, если те есть в инструментарии. Есть приложения, позволяющие делать то же самое с видео: записываете себя, корчащего рожи, а потом накладываете эти рожи на лицо другого человека. Данные и графики — не новость для ученых, математиков, статистиков или инженеров, но в глазах широкой публики — это новые технологии, воспринимаемые ими как воплощение истины. Они открывают дорогу пропагандистам и лжецам. А наша лучшая защита — образование, внимание, этика и диалог. Мы живем во времена, когда данные и графики не только прославляемы, но и вездесущи, потому что способы их распространения, особенно через социальные сети, позволяют каждому из нас достучаться до десятков, сотен, тысяч, а то и миллионов людей. 109 110 Например, Сьюзан Бахрах и Стивен Лакерт. «Состояние обмана: сила нацистской пропаганды» (Susan Bachrach and Steven Luckert, «State of Deception: The Power of Nazi Propaganda»), Нью-Йорк: W. W. Norton, 2009. Хизер Брайант. «Вселенная людей, пытающихся обмануть журналистов, продолжает расширяться, а редакции новостей не готовы» (Heather Bryant, «The Universe of People Trying to Deceive Journalists Keeps Expanding, and Newsrooms Aren't Ready»). http://www.niemanlab. org/2018/07/the-universe-of-people-trying-to-deceive-journalists-keepsexpanding-and-newsrooms-arent-ready/ 242 Заключение Почти 50 000 человек подписаны на мой твиттер. Этот отрезвляющий факт заставляет очень осторожно подходить к каждому сообщению, которое я пишу или которым делюсь. Если ошибусь и скажу что-то, вводящее в заблуждение, мои подписчики могут разнести это по сети. Несколько раз так и происходило, и мне приходилось писать опровержение, а потом еще писать каждому, кто поделился оригинальным сообщением 111. Мы, журналисты, говорим, что наша работа в первую очередь заключается в проверке фактов. Это всегда недостижимый идеал, но большинство репортеров и редакторов, которых я знаю, очень серьезно подходят к подтверждению информации. Возможно, настал момент, когда этот принцип должен выйти за пределы журналистики и начать использоваться во всем обществе, чтобы мы ответственно подходили к той информации, которую распространяем, проверяя хотя бы, что она звучит и выглядит правдоподобно. Чтобы не засорять публичное информационное поле и не вести бессмысленных споров. Интуитивно понятно, что молоток надо использовать для созидания, а не разрушения. Начните думать в таком же ключе и о других технологиях, например о графиках и социальных сетях, чтобы вместо распространения неверной или искаженной информации мы становились частью общественной информационной иммунной системы. В июле 1982 года известному эволюционному биологу и автору бестселлеров Стивену Джею Гулду поставили диагноз мезотелиома брюшины, редкий и неизлечимый вид рака, 111 Я объяснил ошибку в своем личном блоге The Functional Art: http://w w w.thefunctionalart.com/2014/05/i-should-k now-betterjournalism-is.html Не лгите себе (и другим) с помощью графиков 243 вызываемый асбестом. Доктора сказали, что медианное время жизни после обнаружения такой болезни — восемь месяцев. Другими словами: половина пациентов, которым поставили такой диагноз, живут меньше восьми месяцев, а другая половина — больше. В замечательном эссе, описывая свой опыт, Гулд написал: «Ваш настрой определенно важен в борьбе с раком. Мы не знаем почему… но сравнивая людей с одинаковым типа рака по возрасту, классу, состоянию здоровья, социально-экономическому положению, видим, что в целом те, кто настроен положительно, люди с сильной волей и тягой к жизни … как правило, живут дольше». Но как выработать позитивный настрой, когда вам только что сказали, что жить осталось в среднем восемь месяцев? Возможно, вы сумеете это сделать, поняв, что иногда мало информации намного хуже, чем ее полное отсутствие. График, который Гулд нашел в медицинской литературе, похож на диаграмму Каплана-Мейера. 100% Предупреждение: эта диаграмма служит только для иллюстрации. Не основано на реальных данных 75% Уровень выживания (процент пациентов, которые все еще живы) 50% 25% 0% 0 8 20 30 40 Месяцы с постановки диагноза 50 60 244 Заключение Гулд понял, что медианный срок жизни восемь месяцев у пациента с диагнозом мезотелиома брюшины вовсе не означает, что лично он проживет столько. Подобные графики обычно показывают сильное падение в выживаемости в начале, а потом дают длинный хвост вправо. Гулд решил, что ему надо оказаться в этом длинном хвосте. Время жизни ракового больного зависит от многих факторов, таких как возраст, в котором вам сообщили плохую новость (Гулд был относительно молод), стадия рака (размер опухоли, ее локализация, наличие метастаз в другие части тела), общее состояние организма, курильщик вы или нет, качество ухода и тип лечения, которое вам предстоит. И, возможно, наследственность. Гулд пришел к выводу, что у него вероятность попасть в те 50%, которые умирают в первые восемь месяцев с момента постановки диагноза, ниже, чем в те, что проживут еще долгие годы. Он оказался прав. Гулд была диагностирована мезотелиома брюшины в 40 лет. И он прожил еще 20 продуктивных лет, которые посвятил преподаванию, написанию десятков научно-популярных статей и книг и созданию солидной монографии — «Структура эволюционной теории», которая была выпущена всего за несколько месяцев до его смерти. Гулд стал счастливее, мудрее и преисполнился надеждами благодаря тщательной оценке чисел и графиков. Я надеюсь, настанет время, когда каждый сможет так поступить. Благодарности 245 Благодарности Я не смог написать бы эту книгу без моей жены и трех детей. Это был долгий путь, а их поддержка делала каждодневный бой над пустыми страницами не таким невыносимым. Многие ученые и статистики прочли раннюю редакцию книги и предложили исправления. Ник Кокс прислал мне распечатанную первую версию с поправками и замечаниями на каждой странице. Диего Куонен, Хизер Краузе, Фредерик Шутз и Джон Швебиш рецензировали мои предыдущие книги и согласились прочитать эту. Другие мои друзья, сделавшие эту книгу лучше: Джон Бэйлер, Стивен Фью, Алисса Фауэрс, Кайзер Фанг, Роберт Грант, Бен Киртман, Ким Ковалевски, Майкл Манн, Алекс Рейнхарт, Камерон Риопелле, Наоми Роббинс, Уолтер Соса Эскудеро и Маурисио Варгас. Школа коммуникации при Университете Майами, где я преподаю, была мне лучшим домом за все годы карьеры. Хочу поблагодарить ее декана Грега Шеферда и глав кафедр и центров, с которыми я работаю, Сэма Терилли, Ким Гринфедер и Ника Тсиноремаса. Я не только преподаватель, но еще и дизайнер и консультант. Хочу поблагодарить всех своих клиентов, особенно 246 Благодарности McMaster-Carr, Akerman и команду Google News Lab во главе с Саймоном Роджерсом, за их постоянную поддержку и сотрудничество в создании бесплатных инструментов для рисования графиков. Спасибо всем образовательным учреждениям, где проходили мои открытые лекции с 2017 по 2019 год, в которых я раскрывал основные проблемы, изложенные здесь. Материалы лекций и легли в основу книги. Некоторые идеи, появившиеся на этих страницах, пришли мне во время конференций в Майами, в организации которых я участвовал. Спасибо моим «соучастникам» Еве Круз, Хэлен Гинелл, Пэйдж Морган, Афине Хаджиксенофонтос и Грете Уэллс. В главе 5 упоминался конус неопределенности. В данный момент я участвую в исследовании, проводимом моей коллегой по Университету Майами Барбарой Миллет, цель которой — научиться делать более понятные для широких слоев населения графики, рассказывающие о вероятности ураганов. Также в исследовании принимают участие Кенни Брод, Скотни Эванс и Шаран Маджумдар. Спасибо им за множество интересных дискуссий. И наконец спасибо моему агенту Дэвиду Фугате, который показал мне, какой должна выглядеть хорошая подача книги, и моему редактору в W. W. Norton Куин До, чей энтузиазм был постоянным источником вдохновения при создании «Лживых графиков». Также благодарю других сотрудников W. W. Norton: редактора проектов Дасси Зейдел, редактора Сару Джонсон, корректора Лауру Старретт и менеджера по производству Лорену Аббате за отличную и кропотливую работу. Библиография 247 Библиография Bachrach, Susan, and Steven Luckert. State of Deception: The Power of Nazi Propaganda. New York: W. W. Norton, 2009. Berkowitz, Bruce. Playfair: The True Story of the British Secret Agent Who Changed How We See the World. Fairfax, VA: George Mason University Press, 2018. Bertin, Jacques. Semiology of Graphics: Diagrams, Networks, Maps. Redlands, CA: ESRI Press, 2011. Börner, Katy. Atlas of Knowledge: Anyone Can Map. Cambridge, MA: MIT Press, 2015. Bostridge, Mark. Florence Nightingale: The Woman and Her Legend. London: Penguin Books, 2008. Boyle, David. The Tyranny of Numbers. London: HarperCollins, 2001. Cairo, Alberto. The Truthful Art: Data, Charts, and Maps for Communication. San Francisco: New Riders, 2016. Caldwell, Sally. Statistics Unplugged. 4th ed. Belmont, CA: Wadsworth Cengage Learning, 2013. Card, Stuart K., Jock Mackinlay, and Ben Shneiderman. Readings in Information Visualization: Using Vision to Think. San Francisco: Morgan Kaufmann, 1999. Cleveland, William. The Elements of Graphing Data. 2nd ed. Summit, NJ: Hobart Press, 1994. 248 Библиография Койн Джерри. Эволюция. Неопровержимые доказательства. М. : Альпина нон-фикшн, 2021 / Coyne, Jerry. Why Evolution Is True. New York: Oxford University Press, 2009. Дойч Дэвид. Начало бесконечности: Объяснения, которые меняют мир. М. : Альпина нон-фикшн, 2020 / Deutsch, David. The Beginning of Infinity: Explanations That Transform the World. New York: Viking, 2011. Элленберг Джордан. Как не ошибаться. Сила математического мышления. М. : Манн, Иванов и Фербер, 2017 / Ellenberg, Jordan. How Not to Be Wrong: The Power of Mathematical Thinking. New York: Penguin Books, 2014. Few, Stephen. Show Me the Numbers: Designing Tables and Graphs to Enlighten. 2nd ed. El Dorado Hills, CA: Analytics Press, 2012. Fung, Kaiser. Numbersense: How to Use Big Data to Your Advantage. New York: McGraw Hill, 2013. Gigerenzer, Gerd. Calculated Risks: How to Know When Numbers Deceive You. New York: Simon and Schuster, 2002. Голдакр Бен. Плохие лекарства. Как фармацевтические компании вводят нас в заблуждение. Перевод Порошина Т. И., Черепанов В. В. М. : Рипол-Классик, 2017 / Goldacre, Ben. Bad Science: Quacks, Hacks, and Big Pharma Flacks. New York: Farrar, Straus and Giroux, 2010. Haidt, Jonathan. The Righteous Mind: Why Good People Are Divided by Politics and Religion. New York: Vintage Books, 2012. Хафф Дарелл. Как лгать при помощи статистики. М. : Альпина Паблишер, 2020 / Huff, Darrell. How to Lie with Statistics. New York: W. W. Norton, 1993. Kirk, Andy. Data Visualisation: A Handbookfor Data Driven Design. Los Angeles: Sage, 2016. MacEachren, Alan M. How Maps Work: Representation, Visualization, and Design. New York: Guilford Press, 2004. Библиография 249 Malamed, Connie. Visual Language for Designers: Principles for Creating Graphics That People Understand, Beverly, MA: Rockport Publishers, 2011. Mann, Michael E. The Hockey Stick and the Climate Wars: Dispatches from the Front Lines. New York: Columbia University Press, 2012. Маркус Гари. Клудж/ Случайное устройство человеческого мозга, и как это сделало нас теми, кто мы есть. М. : Альпина нон-фикшн, 2021 / Marcus, Gary. Kluge: The Haphazard Evolution of the Human Mind. Boston: Mariner Books, 2008. Meirelles, Isabel. Design for Information: An Introduction to the Histories, Theories, and Best Practices behind Effective Information Visualizations. Beverly, MA: Rockport Publishers, 2013. Mercier, Hugo, and Dan Sperber. The Enigma of Reason. Cambridge, MA: Harvard University Press, 2017. Монмонье Марк. Все географические карты лгут. М. : КоЛибри, Monmonier, Mark. How to Lie with Maps. 2nd ed. Chicago: University of Chicago Press, 2014. Mapping It Out: Expository Cartography for the Humanities and Social Sciences. Chicago: University of Chicago Press, 1993. Мюллер Джерри. Тирания показателей. Как одержимость цифрами угрожает образованию, здравоохранению, бизнесу и власти. М. : Альпина Паблишер, 2019 /Muller, Jerry Z. The Tyranny of Metrics. Princeton, NJ: Princeton University Press, 2018. Munzner, Tamara. Visualization Analysis and Design. Boca Raton, FL: CRC Press, 2015. Николс Том. Смерть экспертизы. Как интернет убивает научные знания. Перевод Платонова Т. Л. М. : Бомбора, 2019/ Nichols, Tom. The Death of Expertise: The Campaign against Established Knowledge and Why It Matters. New York: Oxford University Press, 2017. 250 Библиография Нассбаумер Нафлик Коул. Данные: визуализируй, расскажи, используй. Сторителлинг в аналитике. Перевод Константинова Ю. М. : Манн, Иванов и Фербер, 2020 / Nussbaumer Knaflic, Cole. Storytelling with Data: A Data Visualization Guide for Business Professionals. Hoboken, NJ: John Wiley and Sons, 2015. Pearl, Judea, and Dana Mackenzie. The Book of Why: The New Science of Cause and Effect. New York: Basic Books, 2018. Стивен Пинкер. Просвещение продолжается. В защиту разума, науки, гуманизма и прогресса. М. : Альпина нонфикшн, 2021 / Pinker, Steven. Enlightenment Now: The Case for Reason, Science, Humanism, and Progress. New York: Viking, 2018. Prothero, Donald R. Evolution: What the Fossils Sayand Why It Matters. New York: Columbia University Press, 2007. Ханс Рослинг, Анна Рослинг Рённлунд, Ула Рослинг. Фактологичность. Десять причин наших заблуждений о мире — и почему все не так плохо, как кажется. Перевод Мамедьяров Заур. М. : Corpus, 2020 / Rosling, Hans, Anna Rosling Rönnlund, and Ola Rosling, Factfulness: Ten Reasons We're Wrong About the World: And Why Things Are Better Than You Think. New York: Flatiron Books, 2018. Нейт Сильвер. Сигнал и Шум. Почему одни прогнозы сбываются а другие — нет. М. : Азбука-Аттикус, КоЛибри, 2015 / Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail- but Some Don't. New York: Penguin Books, 2012. Schum, David A. The Evidential Foundations of Probabilistic Reasoning. Evanston, IL: Northwestern University Press, 2001. Шермер Майкл. Тайны мозга. Почему мы во все верим. Перевод Сапцина У. М. : Эксмо, 2015 / Shermer, Michael. The Believing Brain: From Ghosts and Gods to Politics and Conspiracies: How We Construct Beliefs and Reinforce Them as Truths. New York: Times Books / Henry Holt, 2011. Библиография 251 Сломан Стивен, Фернбах Филип. Иллюзия знания. Почему мы никогда не думаем в одиночестве. М. : КоЛибри, 2017 / Sloman, Steven, and Philip Fernbach. The Knowledge Illusion: Why We Never Think Alone. New York: Riverhead Books, 2017. Small, Hugh. A Brief History of Florence Nightingale: And Her Real Legacy, a Revolution in Public Health. London: Constable, 2017. Florence Nightingale: Avenging Angel. London: Constable, 1998. Теврис Кэрол, Аронсон Эллиот. Ошибки, которые были допущены (но не мной). Почему мы оправдываем глупые убеждения, плохие решения и пагубные действия. М. : Инфотропик Медиа, 2012 / Tavris, Carol, and Elliot Aronson. Mistakes Were Made (but Not byMe): Why We Justify Foolish Beliefs, Bad Decisions, and Hurtful Acts. Boston: Houghton Mifflin Harcourt, 2007. Тьюки Джон. Анализ результатов наблюдения. Разведочный анализ. М. : Мир, 1981/ Tukey, John W. Exploratory Data Analysis. Reading, MA: Addison-Wesley, 1977. Wainer, Howard. Visual Revelations: Graphical Tales of Fate and Deception From Napoleon Bonaparte to Ross Perot. London, UK: Psychology Press, 2000. Ware, Colin. Information Visualization: Perception for Design. 3rd ed. Waltham, MA: Morgan Kaufmann, 2013. Уилан Чарльз. Голая статистика. Самая интересная книга о самой скучной науке. М. : Манн, Иванов и Фербер, 2017 / Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. New York: W. W. Norton, 2013. Wilkinson, Leland. The Grammar of Graphics. 2nd ed. New York: Springer, 2005. Wong, Dona M. The Wall Street Journal Guide to Information Graphics: The Dos and Don'ts of Presenting Data, Facts, and Figures. New York: W. W. Norton, 2013. 252 Дополнительная литература Дополнительная литература З а более чем два десятка лет создания графиков и преподавания основ их построения я понял, что недостаточно понимать символы и грамматику, чтобы хорошо читать графики. Нужно также понимать достоинства и недостатки чисел, которые они отображают, и помнить, как наш разум способен обманывать нас, стоит лишь ослабить бдительность. Числовая и графическая грамотность связаны и неотделимы от психологической грамотности. Если моя книга заинтересовала вас графической и числовой грамотностью, а также ограниченностью человеческого мышления, продолжите знакомство с этими областями с помощью изданий, приведенных ниже. Книги о логических рассуждениях Кэрол Теврис, Эллиот Аронсон. «Ошибки, которые были допущены (но не мной). Почему мы оправдываем глупые убеждения, плохие решения и пагубные действия». М. : Инфотропик Медиа, 2012 (Tavris, Carol, and Elliot Aronson. Mistakes Were Made (but Not by Me): Why We Justify Foolish Beliefs, Bad Decisions, and Hurtful Acts. Boston: Houghton Mifilin Harcourt, 2007). Дополнительная литература 253 Джонатан Хайдт. «Праведный разум. Почему хорошие люди разделены политикой и религией» (Haidt, Jonathan. The Righteous Mind: Why Good People Are Divided by Politics and Religion. New York: Vintage Books, 2012). Хьюго Мерсер, Дэн Спербер. «Загадка разума» (Mercier, Hugo, and Dan Sperber. The Enigma of Reason. Cambridge, MA: Harvard University Press, 2017). Книги о числовой грамотности Бен Голдакр. «Обман в науке». М. : Эксмо, 2010 (Goldacre, Ben. Bad Science: Quacks, Hacks, and Big Pharma Flacks. New York: Farrar, Straus and Giroux, 2010). Чарльз Уилан. «Голая статистика. Самая интересная книга о самой скучной науке». М. : Манн, Иванов и Фербер, 2017 (Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. New York: W. W. Norton, 2013). Джордан Элленберг. «Как не ошибаться. Сила математического мышления». М. : Манн, Иванов и Фербер, 2017 (Ellenberg, Jordan. How Not to Be Wrong: The Power of Mathematical Thinking. New York: Penguin Books, 2014). Сильвер Нейт. «Сигнал и Шум. Почему одни прогнозы сбываются а другие — нет». М. : Азбука-Аттикус, КоЛибри, 2015 (Silver, Nate. The Signal and the Noise: Why So Many Predictions Fail — but Some Don't. New York: Penguin Books, 2012). Книги о графиках Говард Уайнер. «Визуальные откровения: графические рассказы о судьбе и обмане от Наполеона Бонапарта до Росс Перо» (Wainer, Howard. Visual Revelations: Graphical Tales of Fate and Deception From Napoleon Bonaparte To Ross Perot. London, UK: Psychology Press, 2000). У Уайнера есть и другие 254 Дополнительная литература книги по этой теме, он много писал о том, как графики вводят нас в заблуждение. Изабель Мейреллес. «Информационный дизайн. Введение в историю, теорию и передовой опыт эффективных информационных визуализаций» (Meirelles, Isabel. Design for Information: An Introduction to the Histories, Theories, and Best Practices behind Effective Information Visualizations. Beverly, MA: Rockport Publishers, 2013). Коул Нассбаумер Нафлик. «Данные: визуализируй, расскажи, используй». М. : Манн, Иванов и Фербер, 2020 (Nussbaumer Knaflic, Cole. Storytelling with Data: A Data Visualization Guide for Business Professionals. Hoboken, NJ: John Wiley and Sons, 2015). Марк Монмонье. «Все географические карты лгут». М. : КоЛибри, 2021 (Monmonier, Mark. How to Lie with Maps. 2nd ed. Chicago: University of Chicago Press, 2014). Стивен Фью. «Покажи мне цифры: создавая дизайн таблиц и графиков» (Few, Stephen. Show Me the Numbers: Designing Tables and Graphs to Enlighten. 2nd ed. El Dorado Hills, CA: Analytics Press, 2012). Книги об информационной этике Кэти ОНил. «Убийственные большие данные. Как математика превратилась в оружие массового поражения». М. : АСТ, 2018 (O'Neil, Cathy. Weapons of Math Destruction: How Big Data Increases Inequalityand Threatens Democracy. New York: Broadway Books, 2016). Мередит Бруссард. «Искусственный интеллект. Пределы возможного». М. : Альпина нон-фикшн, 2020 (Broussard, Meredith.Artificial Uninteligence: How Computers Misunderstand the World. Cambridge, MA: MIT Press, 2018). Дополнительная литература 255 Юбэнкс Вирджиния. «Автоматизация неравенства» (Eubanks, Virginia Automating Inequality: How High-Tech Tools Profile, Police, and Punish the Poor: New York: St. Martin's Press, 2017). А если вы хотите узнать больше о графиках в этой книге, зайдите на http://www.howchartslie.com. 256 Алфавитный указатель Алфавитный указатель «Аватар» (фильм), 151, 155 «Все географические карты лгут» (Монмонье), 100 «Граждане за Трампа» (Пособиек), 14 «Джон Картер» (фильм), 155 «Звездные войны: Пробуждение силы» (фильм), 153–154, 156 «Как лгать при помощи статистики» (Хафф), 89 «Как ни крути, проиграешь» (фильм), 156 «Климат полной уверенности» (Стивенс), 172 «Клинья», 226–227, 229 «Копенгагенская диагностика», доклад, 177 «Лучшее в нас. Почему насилия в мире стало меньше» (Пинкер), 161 «Ошибки, которые были допущены (но не мной)» (Теврис, Аронсон), 32, 231 «Паранормальное явление» (фильм), 155 «Происхождение видов» (Дарвин), 170 «Просвещение продолжается» (Пинкер), 161 «Совет консервативных граждан», 112 «Сто лет одиночества» (Гарсия Маркес), 66 «Торговый и политический атлас» (Плейфэр), 36 «Тупицинистан», 21–22 «Фактологичность» (Рослинг), 124–125 «Челюсти» (фильм), 152–154, 156 «Школа без крыши» (Мелгар), 109 «Штаты красных фонарей: кто покупает онлайн-развлечения для взрослых?» (Эдельман), 130 100 People (сайт), 160 Americans United for Life (AUL), 73–74 Barclays, банк, гендерный разрыв в оплате труда, 121–122 BBC News, 62, 121 Breitbart News, 143 CO2 выбросы, 60–63, 65 DACA (Защитные меры в отношении прибывших детей), 143–146 Encyclopedia Metallum, 106–108 Fact-Checking Day (сайт), 132 Алфавитный указатель Fandango (сайт), 152 FloorCharts, 111 Fox News, 14, 26, 126 H-1B, виза, 142 Journal of Economic Perspective (журнал), 130 Judas Priest (группа), 107–108 National Review, 86, 113 New York Times, 22–23, 25, 40, 56, 140, 173, 208 Our World in Data (сайт), 161, 209 Pew Research Center, 28 Poison (группа), 108 PolitiFact, 75, 143, 150 Pornhub (сайт), 127–132 Power Line, 86, 88–89 Spurious Correlations (сайт), 219 Why Evolution Is True (сайт), 201 WikiLeaks, 163 WonkViz, 127, 129 аборты, обсуждение, 73–77 Адлер, Стивен Дж., 12 Албания, 165–166 Альберто (субтропический шторм), 184 Алькоркон, Испания, безработица, 83–84 Американская коллегия акушерства и гинекологии, 77 аннотации, 66 Аронсон, Эллиот, 231 Ассанж, Джулиан, 163–167 Атдабанская эпоха, 217–218 Африканская методистская епископальная церковь матери Эмануэль (Чарльстон, Южная Каролина), 111 Байлер, Дэвид, 68 Балчин, Уильям Дж. В., 34 Баррассо, Джон, 111 257 Бернштейн, Карл, 135 большинство голосов и Коллегия выборщиков, 19–20 Ботомский ярус, 218 Брод, Кенни, 185, 246 Буш, Джордж В., и администрация, 236 вакцинация от оспы, 157–159 вакцинация, 159 валовой внутренний продукт (ВВП), 58–59, 61–65, 87, 93–97 ввод дополнительных войск в Ирак, 237–238 вертикальная ось (у), 39, 85, 199, 209 взаимосвязь, положительная/ отрицательная, 196, 203, 205 Виген, Тайлер, 219–220 визуальная аргументация, 67– 68 Виктория (королева Великобритании), 226 виртуальные частные сети (VPN), 129 вложенные иерархии, 53 возврат инвестиций, кино, 155– 156 война в Ираке (2003–2011), 236–237 выборка, 125 Гамио, Лазаро, 56 Гарсиа Маркес, Габриэль, 66 Гигеренцер, Герд, 163 гигиена и военные потери, 224–225 гипербола, 93, 103 гистограммы, 51–52 голод, мировой уровень, 160 государственный долг, 87 график временного ряда, 36 график Каплан-Мейера, 200 258 Алфавитный указатель карты избирательных округов, 12–19 как графики, 20–23 проекции, 100–102 Каскаллана Галластеги, Энрике, 83 Дарвин, Чарльз, 215–217 Кембрийский взрыв, 215 дезинформация, 240–241 Кид Рок, 20–22 делитель, 117, 157–158 Кинг, Стив, 32–33 диаграмма с параллельными Клейборн, округ, Миссисипи, координатами, 61 170–171 диаграммы рассеяния, 29, 42, Клинтон, Хиллари, 15–20 44, 48–49, 63 когнитивная психология, 59 Дизраэли, Бенджамин, 238 доверительный интервал, 184, когнитивный диссонанс, 184, 233 187 кодирование, визуальное, 39, Доу Джонса, промышленный 41–42, 45–47, 50–59, 68–71, 81– индекс, 214–215 82, 90–91, 104 древовидные карты, 53 Койн, Джерри, 201 Коллегия выборщиков, 19 журналистика, 134–135 конус неопределенности на карте, 185–192 Закович, Роди, 152 корреляция, 196, 203, 220 закон о восстановлении Косслин, Стивен, 59 и реинвестициях, 212 Коуз, Рональд, 120 коэффициент замещения, 165– изменение процентов 166 и изменение процентных коэффициент рождаемости, 57– пунктов, 111 58, 164–167 иммиграция, 139–140, 142 Краузе, Хизер, 182, 195 Ингрэм, Кристофер, 127, 129– Кругман, Пол, 22–24 131 круговая диаграмма, 54 индекс счастья, 201–204 Крымская война, 222–225, 233 Институт Пойнтера, 132 Кук, округ, Иллинойс, 168–171 инфляция, 151–153 информация и пропаганда, 229, курение и ожидаемая продолжительность жизни, 200, 241 231 Ирма, ураган, 186 Кейдж, Николас, 219–220 исследование жертв (Бюро судебной статистики), 114–120 латиноамериканцы, 55, 113–116 Иствуд, Клинт, 156 источники данных графика, 40, линейный график, 63 линия, воображаемая, 49 68, 104, 107–108 график отслеживания тропического шторма, 184–189 графики продаж, 78–80 графическая грамотность, 34 Гулд, Стивен Джей, 242–244 Алфавитный указатель логарифмическая шкала, 97–98 Лос-Анджелес, округ, 51–52, 168–171 Мавронтонис, Атан, 160 Маджумдар, Шаран, 185, 246 Майами-Дейд, округ, 45–46, 51–52 Макгиллис, Алек, 208 Макдональд, Хизер, 113 Макэлви, Шон, 87 Малый ледниковый период, 88 Мариан, Якуб, 105–107 Международная федерация планирования медицинского страхования (IFHP), 124 Межправительственная комиссия по изменению климата (МГЭИК), 88 Мейер, Стивен, 217 Мелгар, Луис, 109 метал-группы, 111, 133 Монмонье, Марк, 34, 100, 102 мотивированное рассуждение, 232–233, 235 музыка (карта скопления метал-групп в Европе), 106 мысленные представления, 60 Мейсон, Джефф, 12 нигилизм, 137 Нихан, Брендан, 236–238 нулевая отметка, 27, 90 Обама, Барак, 26, 81–82, 128, 131, 143–144, 211–214, 237, 241 Обамакеар (Закон о доступном здравоохранении), 211 обманчивые схемы, 194 обобщение данных, 206 объективность, отраженная на графике, 31 Оглала-Лакота, округ, Южная Дакота, 170–171 ожирение и бедность, 168 опросы общественного мнения, 28–31, 179–183 Османская Империя, 222–223 отрицательная взаимосвязь, 202–203 ошибка и погрешность, 182 Перес Гарсиа, Давид, 83 Перл, Джуда, 157 Пинкер, Стивен, 161 Плейфэр, Уильям, 36–38 площадь, 52–54, 59 положительная корреляция, 29, 196, 203, 231 положительная связь, 199 популяция и отдельные название графика, 68 Найтингейл, Флоренс, 221–238 представители, 33 порнография и политические налог на доход компаний, 31 взгляды, 127 налоговые послабления и «Закон о рабочих местах», 149 Пособиек, Джек, 14–15 потребление фруктов, Национальный центр графическая диаграмма, 30 по ураганам (НЦУ), 184, 192 предвзятость подтверждения, неопределенность, сокрытие 32 данных/путаница, 182–183 предвзятость, 135–136 неполные данные, 138 преступления на почве нескорректированные ненависти, 112 (оригинальные) данные, 153– преступность, 22–25 156, 167 259 260 Алфавитный указатель преуменьшение, 93 причинность, 50 проверка, 75 проекции, карта, 100 проекция Меркатора, 100–102 проекция Робинсона, 101–102 пропаганда, 78, 229, 240–241 пропорции, искажение, 80 Протеро, Дональд Р., 217–218 процент закончивших среднюю школу, 80–82 пузырь, 18, 50, 59 пузырьковые карты, 17, 51, 85 равновеликая цилиндрическая проекция Ламберта, 101 Райан, Пол, 147 Рейс, Ричард, 87–88 Рейфлер, Джейсон, 237–238 риторика, 136, 140–143 Ричардс, Сесиль, 72–74 Рослинг, Ханс, 161, 229 Российская Империя, 222 Руф, Дилан, 111–113, 120 Саймон, Джон, 228 связанные диаграммы рассеяния, 209 связующие факторы, 196–197 слияния, парадокс, 196 слой аннотации, 40 случайная выборка, 125 Смолл, Хью, 224–228 Солт, Фредерик, 205 составной столбчатый график, 225 среднее значение, 42, 125, 150 Стивенс, Брет, 172–179 Стейли, Джес, 122 Твен, Марк, 238 Твиттер, 32, 56, 80, 87, 106, 111, 132, 139, 163, 214, 242 Теврис, Кэрол, 32, 231 тепловая карта, 55–56 Трамп, Дональд Дж., 12–20, 22– 23, 56, 143, 213–215 трехмерные эффекты, 79 Тьюки, Джон У., 194 Тэйлор, Джаред, 113–119 Уайнер, Говард, 253 углекислый газ, выбросы, 60– 65 удобная перспектива, 79 уровень доверия, 180–181 уровень убийств, 24–25, 39–40 Фарр, Уильям, 225, 234 Федерация планируемого родительства, 72–77 Филд, Кеннет, 16, 18 фильмы, лучшие сборы, 152– 156 Флорида, 41–48, 109, 177, 184– 186 Франк, Томас, 207 Харрис, округ, Техас, 169–171 Хафф, Даррел, 89 хоккейная клюшка, график, 175 Холланд, Стив, 12 Хэлфорд, Роб, 107 цветовая шкала, 103 Цели устойчивого развития (ООН), 161–162 цепная иммиграция, 140 Чарльстон, Южная Каролина, стрельба в церкви (2015), 111– 112 Чаффец, Джейсон, 73–74 четверти, 48 числовые таблицы или графики, 27 Алфавитный указатель Шаффер, Джефри, 122 Шермер, Майкл, 140 широта, 38–39, 59 шкалы, 56, 60, 68, 74, 89, 94, 97– 99, 103 Шум, Дэвид А., 119–120 Шух, Эмили, 76–77 эволюция и Кембрийский взрыв, 218–219 261 Эдельман, Бенджамин, 130–131 экологическая ошибка, 33, 196– 197 экспоненциальный рост, логарифмическая шкала, 97 этика, 241 эффект перспективы, 79 140 Все права защищены. Книга или любая ее часть не может быть скопирована, воспроизведена в электронной или механической форме, в виде фотокопии, записи в память ЭВМ, репродукции или каким-либо иным способом, а также использована в любой информационной системе без получения разрешения от издателя. Копирование, воспроизведение и иное использование книги или ее части без согласия издателя является незаконным и влечет уголовную, административную и гражданскую ответственность. Научно-популярное издание IT БЕСТСЕЛЛЕР Кайро Альберто ГРАФИКИ ЛГУТ КАК СТАТЬ ИНФОРМАЦИОННО ГРАМОТНЫМ ЧЕЛОВЕКОМ В МИРЕ ДАННЫХ? Главный редактор Р. Фасхутдинов Руководитель направления В. Обручев Ответственный редактор Е. Истомина Литературный редактор Е. Сазанова Выпускающий редактор А. Захарова Художественный редактор А. Шуклин Компьютерная верстка Э. Брегис Корректоры Л. Макарова, Р. Болдинова Страна происхождения: Российская Федерация Шы+арыл+ан елі: Ресей Федерациясы ООО «Издательство «Эксмо» 123308, Россия, город Москва, улица Зорге, дом 1, строение 1, этаж 20, каб. 2013. Тел.: 8 (495) 411-68-86. Home page: www.eksmo.ru E-mail: [email protected] ндіруші: «ЭКСМО» А#Б Баспасы, 123308, Ресей, *ала М+скеу, Зорге к/шесі, 1 7й, 1 ;имарат, 20 *абат, офис 2013 ж. Тел.: 8 (495) 411-68-86. Home page: www.eksmo.ru E-mail: [email protected]. Тауар белгісі: «Эксмо» Интернет-магазин : www.book24.ru Интернет-магазин : www.book24.kz Интернет-дкен : www.book24.kz Импортёр в Республику Казахстан ТОО «РДЦ-Алматы». #аза*стан Республикасында;ы импорттаушы «РДЦ-Алматы» ЖШС. Дистрибьютор и представитель по приему претензий на продукцию, в Республике Казахстан: ТОО «РДЦ-Алматы» #аза*стан Республикасында дистрибьютор ж+не /нім бойынша арыз-талаптарды *абылдаушыныJ /кілі «РДЦ-Алматы» ЖШС, Алматы *., Домбровский к/ш., 3«а», литер Б, офис 1. Тел.: 8 (727) 251-59-90/91/92; E-mail: [email protected] німніJ жарамдылы* мерзімі шектелмеген. Сертификация туралы а*парат сайтта: www.eksmo.ru/certification Сведения о подтверждении соответствия издания согласно законодательству РФ о техническом регулировании можно получить на сайте Издательства «Эксмо» www.eksmo.ru/certification ндірген мемлекет: Ресей. Сертификация *арастырылма;ан Дата изготовления / Подписано в печать 08.04.2022. Формат 60x901/16. Печать офсетная. Усл. печ. л. 16,5. Тираж экз. Заказ 18+ Москва. ООО «Торговый Дом «Эксмо» Адрес: 123308, г. Москва, ул. Зорге, д.1, строение 1. Телефон: +7 (495) 411-50-74. E-mail: [email protected] По вопросам приобретения книг «Эксмо» зарубежными оптовыми покупателями обращаться в отдел зарубежных продаж ТД «Эксмо» E-mail: [email protected] International Sales: International wholesale customers should contact Foreign Sales Department of Trading House «Eksmo» for their orders. [email protected] По вопросам заказа книг корпоративным клиентам, в том числе в специальном оформлении, обращаться по тел.: +7 (495) 411-68-59, доб. 2261. E-mail: [email protected] Оптовая торговля бумажно-беловыми и канцелярскими товарами для школы и офиса «Канц-Эксмо»: Компания «Канц-Эксмо»: 142702, Московская обл., Ленинский р-н, г. Видное-2, Белокаменное ш., д. 1, а/я 5. Тел./факс: +7 (495) 745-28-87 (многоканальный). e-mail: [email protected], сайт: www.kanc-eksmo.ru Филиал «Торгового Дома «Эксмо» в Нижнем Новгороде Адрес: 603094, г. Нижний Новгород, улица Карпинского, д. 29, бизнес-парк «Грин Плаза» Телефон: +7 (831) 216-15-91 (92, 93, 94). E-mail: [email protected] Филиал OOO «Издательство «Эксмо» в г. Санкт-Петербурге Адрес: 192029, г. Санкт-Петербург, пр. Обуховской обороны, д. 84, лит. «Е» Телефон: +7 (812) 365-46-03 / 04. E-mail: [email protected] Филиал ООО «Издательство «Эксмо» в г. Екатеринбурге Адрес: 620024, г. Екатеринбург, ул. Новинская, д. 2щ Телефон: +7 (343) 272-72-01 (02/03/04/05/06/08) Филиал ООО «Издательство «Эксмо» в г. Самаре Адрес: 443052, г. Самара, пр-т Кирова, д. 75/1, лит. «Е» Телефон: +7 (846) 207-55-50. E-mail: [email protected] Филиал ООО «Издательство «Эксмо» в г. Ростове-на-Дону Адрес: 344023, г. Ростов-на-Дону, ул. Страны Советов, 44А Телефон: +7(863) 303-62-10. E-mail: [email protected] Филиал ООО «Издательство «Эксмо» в г. Новосибирске Адрес: 630015, г. Новосибирск, Комбинатский пер., д. 3 Телефон: +7(383) 289-91-42. E-mail: [email protected] Обособленное подразделение в г. Хабаровске Фактический адрес: 680000, г. Хабаровск, ул. Фрунзе, 22, оф. 703 Почтовый адрес: 680020, г. Хабаровск, А/Я 1006 Телефон: (4212) 910-120, 910-211. E-mail: [email protected] Республика Беларусь: ООО «ЭКСМО АСТ Си энд Си» Центр оптово-розничных продаж Cash&Carry в г. Минске Адрес: 220014, Республика Беларусь, г. Минск, проспект Жукова, 44, пом. 1-17, ТЦ «Outleto» Телефон: +375 17 251-40-23; +375 44 581-81-92 Режим работы: с 10.00 до 22.00. E-mail: [email protected] Казахстан: «РДЦ Алматы» Адрес: 050039, г. Алматы, ул. Домбровского, 3А Телефон: +7 (727) 251-58-12, 251-59-90 (91,92,99). E-mail: [email protected] Полный ассортимент продукции ООО «Издательство «Эксмо» можно приобрести в книжных магазинах «Читай-город» и заказать в интернет-магазине: www.chitai-gorod.ru. Телефон единой справочной службы: 8 (800) 444-8-444. Звонок по России бесплатный. Интернет-магазин ООО «Издательство «Эксмо» www.book24.ru Розничная продажа книг с доставкой по всему миру. Тел.: +7 (495) 745-89-14. E-mail: [email protected]