Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Однако если мы предполагаем причинно-следственную связь, то у углового коэффициента будет совершенно иная интерпретация: это изменение, которого мы можем ожидать в зависимой переменной, если вмешаемся и изменим значение независимой переменной на единицу. Это точно не относится к примеру с ростом, так как рост нельзя изменить экспериментальным путем (по крайней мере, для взрослых). Даже с учетом описанных выше критериев Брэдфорда Хилла статистики, как правило, неохотно признают причинно-следственную связь без проведения эксперимента. Впрочем, некоторые исследователи, включая Джуда Перла, добились значительного прогресса в построении моделей причинной регрессии для наблюдательных данных [117].
Линия регрессии для роста отцов и сыновей – очень простой пример статистической модели. Федеральная резервная система США определяет модель как «представление некоторого аспекта мира, основанное на упрощающих предположениях»: по сути, какое-нибудь явление представляется в математической форме, встраивается в программное обеспечение, а затем создается упрощенная «воображаемая» версия реальности [118].
У статистических моделей есть два основных компонента. Первый – это математическая формула, которая выражает детерминистский, предсказуемый компонент, например формула прямой линии, позволяющая нам делать прогноз о росте сына, зная рост его отца. Однако такая детерминистская часть модели не будет идеальным отображением реального мира. Как мы видели на рис. 5.1, рост весьма сильно рассеян вокруг регрессионной прямой. Разница между тем, что предсказывает модель, и тем, что происходит на самом деле, – второй компонент модели, известный как остаточная ошибка, хотя важно помнить, что в статистическом моделировании термин «ошибка» означает не какой-то просчет, а неизбежную неспособность модели точно представить наблюдаемый мир. Поэтому в целом мы можем считать, что
наблюдение = детерминистская модель + остаточная ошибка.
Эта формула может быть истолкована как утверждение, что в статистическом мире то, что мы видим и измеряем, можно рассматривать как сумму систематической математической идеализированной формы и некоего случайного компонента, который пока нельзя объяснить. Классическая идея сигнала и шума.
Уменьшают ли камеры контроля скорости количество ДТП?
Этот раздел содержит простой урок: тот факт, что мы что-то делаем и что-то меняется, сам по себе не означает, что мы несем ответственность за результат. Похоже, людям трудно уловить эту простую истину, мы всегда стараемся придумать какое-то объяснение, причем гораздо охотнее, если лично находимся в центре ситуации. Конечно, иногда такая интерпретация верна: если вы щелкнете выключателем и зажжется свет, то обычно ответственны вы. Но иногда ваши действия определенно не отвечают за результат: если вы не взяли зонтик, а пошел дождь, в том нет вашей вины (хотя может показаться, что это так). Однако порой последствия наших действий менее ясны. Предположим, у вас болит голова, вы приняли аспирин, и боль прошла. Но откуда вам знать, что она не прекратилась бы, если бы вы не принимали таблетку?
У нас сильная психологическая склонность приписывать перемены какому-нибудь вмешательству, и это делает сравнения «до и после» ненадежными. Классический пример относится к камерам контроля скорости, которые обычно размещают в местах повышенной аварийности. Последующее снижение аварийности приписывают наличию камер. Но разве не понизился бы этот уровень в любом случае?
Полосы удач и неудач не бесконечны, и в конце концов все возвращается на круги своя – это тоже можно воспринимать как регресс к среднему, как у высоких отцов, имеющих более низких в среднем сыновей. Но когда мы убеждены, что полосы везения-невезения отражают постоянное состояние дел, мы ошибочно будем рассматривать возврат к нормальному состоянию как следствие какого-либо нашего вмешательства. Возможно, все это кажется вам очевидным, но эта простая идея имеет примечательные последствия:
• Преемникам футбольных тренеров, уволенных после череды неудач, лавры достаются всего лишь за возврат к нормальному состоянию.
• Управляющие фондами ухудшают показатели эффективности работы после нескольких успешных лет (и вероятного получения хороших бонусов).
• «Проклятие обложки Sport Illustrated»: как только спортсмены за свои достижения попадают на обложку этого известного журнала, их результаты резко ухудшаются.
Удача играет немалую роль в положении спортивных команд в турнирной таблице, а регресс к среднему означает, что можно ожидать того, что команды, преуспевающие в этом году, ухудшат игру в следующем, а плохо играющие сегодня улучшат ситуацию в будущем, особенно если команды примерно равны по силам. Напротив, видя такие изменения, мы можем подозревать, что работает регресс к среднему, и не стоит слишком обращать внимание на заявления о влиянии, скажем, новых методов тренировок.
В турнирных таблицах ранжируются не только спортивные команды. Рассмотрим таблицы Международной программы по оценке образовательных достижений учащихся (PISA), где сравниваются результаты преподавания математики в школах разных стран. Изменение положения страны в сводной таблице за 2003–2012 годы отрицательно коррелирует с начальным ее положением в списке. Иными словами, страны из верхней части списка имеют тенденцию опускаться, а из нижней части – подниматься: коэффициент корреляции равен –0,60. Однако определенные теоретические выкладки показывают, что если бы ранжирование было полностью случайным и действовал исключительно регресс к среднему, то для коэффициента корреляции можно было бы ожидать значения –0,71, которое не очень отличается от реально наблюдаемого [119]. Это говорит о том, что различия между странами меньше, чем заявляется, и что у изменений в таблицах мало общего с изменениями в методиках преподавания.
Регресс к среднему проявляется и в клинических испытаниях. В предыдущей главе мы узнали, что для правильной оценки нового лекарственного препарата нужно провести рандомизированные испытания, поскольку даже люди из контрольной группы демонстрируют улучшение состояния – так называемый эффект плацебо. Это часто истолковывают так: простой прием сахарной пилюли (предпочтительно красной) на самом деле благотворно влияет на здоровье человека. Но значительная часть улучшений у людей, не проходивших активного лечения, может приходиться на регресс к среднему, поскольку пациентов включают в испытания, когда у них есть определенные симптомы, а многие из симптомов пропали бы в любом случае. Так что если мы хотим знать подлинный эффект установки камер контроля скорости в местах повышенной аварийности, нам нужно подойти к этому вопросу так же, как к проверке фармацевтического препарата, и распределить камеры случайным образом. (После проведения таких исследований оказалось, что примерно две трети пользы от камер приходится на регресс к среднему [120].)
Читать дальшеИнтервал:
Закладка: