Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Выводы
• Байесовские методы объединяют свидетельства, полученные из данных (выраженные в виде правдоподобия), с первоначальными представлениями (априорным распределением) и выдают апостериорное вероятностное распределение для неизвестной величины.
• Теорема Байеса для двух конкурирующих гипотез может быть сформулирована так: апостериорные шансы = априорные шансы × отношение правдоподобия.
• Отношение правдоподобия выражает относительную поддержку обеих гипотез, которую дает какой-либо факт-свидетельство, и иногда используется в качестве характеристики при результатах судебной экспертизы в уголовных разбирательствах.
• Когда априорное распределение появляется из какого-нибудь физического процесса создания выборки, байесовские методы не вызывают споров. Однако в целом необходима определенная степень суждения.
• Иерархические модели позволяют проводить несколько небольших анализов по отдельным группам, где, как предполагается, параметры будут общими.
• Коэффициенты Байеса эквивалентны отношениям правдоподобия для научных гипотез и представляют собой спорную замену проверки значимости нулевой гипотезы.
• У теории статистических выводов долгая история споров, но вопросы качества данных и научной надежности гораздо важнее.
Глава 12. Когда дела идут не так
Существует ли экстрасенсорное восприятие (ЭСВ)?
В 2011 году выдающийся американский социальный психолог Дэрил Бем опубликовал в известном психологическом журнале важную статью, описывающую следующий эксперимент. Перед экраном компьютера с двумя шторками усадили сто человек, которые выбирали, какая из них – левая или правая – скрывает какое-то изображение. Затем шторки «открывались», чтобы проверить правильность выбора, и все повторялось для серии из 36 изображений. Подвох был в том, что участники не знали главного: положение картинки определялось наугад после того, как испытуемый делал выбор, поэтому любое превышение числа правильных выборов над тем, что можно было бы ожидать при выборе наугад, приписывалось умению предвидеть , где появится картинка.
Бем сообщал, что вместо ожидаемой доли успехов 50 % (при нулевой гипотезе об отсутствии предвидения) участники правильно выбирали в 53 % случаев, когда показывали эротическое изображение (P = 0,01). В статье описывались результаты еще восьми экспериментов по предвидению, проводившихся в течение 10 лет и включавших свыше 1000 участников. Автор наблюдал статистически значимые результаты в пользу предвидения в восьми из девяти исследований. Можно ли считать это убедительным доказательством существования экстрасенсорного восприятия?
Надеюсь, эта книга проиллюстрировала некоторые способы приложения статистики к решению реальных проблем, при этом практики пользуются этими методами умело и осторожно, помня об ограничениях и потенциальных ловушках. Однако реальный мир не всегда достоин восхищения. Пришло время посмотреть, что происходит, когда наука и искусство статистики не столь хороши. А затем я расскажу, как была воспринята и оценена статья Бема.
Существует причина, почему сегодня так много внимания уделяется ненадлежащей статистической практике: то, в чем ее обвиняют, известно как кризис воспроизводимостив науке.
В главе 10мы упоминали о сделанном в 2005 году печально известном заявлении Джона Иоаннидиса, что большинство опубликованных результатов исследований ложны. С тех пор многие ученые утверждают, что в опубликованной научной литературе наблюдается фундаментальная нехватка достоверности. Ученые не могут воспроизвести эксперименты, выполненные их коллегами, а это наводит на мысль, что оригинальные исследования не так надежны, как считалось ранее. Несмотря на то что изначально эти обвинения сосредоточились на медицине и биологии, впоследствии они распространились на психологию и другие социальные науки, хотя фактическая процентная доля преувеличенных или ложных утверждений оспаривается.
Исходное заявление Иоаннидиса основывалось на теоретической модели, но в качестве альтернативного подхода можно взять прошлые исследования и попробовать повторить их, то есть провести аналогичные эксперименты и посмотреть, дадут ли они сходные результаты. Был инициирован запуск крупного совместного проекта «Воспроизводимость» [239], в рамках которого проверялись результаты 100 психологических исследований, но с б о льшим размером выборок, чтобы точно обнаружить эффект, если он существует. Хотя в 97 из 100 исходных исследований сообщалось о статистически значимых результатах, в повторных экспериментах они подтвердились только в 36 % случаев [240].
К сожалению, это почти везде преподносилось как то, что оставшиеся 64 % «значимых» исследований оказались ложными заявлениями. Однако здесь мы попадаем в ловушку строгого разделения исследований на значимые и незначимые. Выдающийся американский статистик и блогер Эндрю Гельман заявлял, что «различие между значимым и незначимым само по себе не может считаться статистически значимым» [241]. Фактически только у 23 % исходных и повторных исследований результаты значимо отличались друг от друга, и это, возможно, более удачная оценка для доли оригинальных экспериментов с преувеличенными или ложными заявлениями.
Вместо того чтобы определять «открытие» в терминах значимости или незначимости, лучше сосредоточиться на размерах оцениваемых эффектов. Проект «Воспроизводимость» установил, что эффект в повторных экспериментах в среднем имел ту же направленность, что и в исходных, но был примерно вдвое меньше по величине. Это указывает на важное смещение в научной литературе: исследование, обнаружившее нечто «большое», скорее приведет к серьезной публикации. По аналогии с регрессией к среднему это можно назвать «регрессией к нулю»: первоначальные преувеличенные оценки эффекта позднее уменьшаются в сторону нулевой гипотезы.
Кризис воспроизводимости – сложная проблема, которая коренится в чрезмерном давлении на исследователей: им нужно делать «открытия» и публиковаться в престижных научных журналах, а это зависит от получения статистически значимых результатов. Нельзя винить ни одно учреждение и ни одну профессию. При обсуждении проверки гипотез мы уже показали, что даже при идеальной статистической практике редкость истинных и существенных эффектов означает, что среди результатов, объявленных «значимыми», немалую долю неизбежно будут составлять ложноположительные (см. рис. 10.5). Впрочем, как мы видим, статистическая практика далека от совершенства.
Читать дальшеИнтервал:
Закладка: