Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Поскольку все эти ложные открытия основаны на P-значениях, указывающих на «значимый» результат, в потоке неверных научных выводов все чаще стали винить именно их. В 2015 году один авторитетный журнал по психологии даже объявил, что запретит проверку значимости нулевой гипотезы. Наконец, в 2016 году Американской статистической ассоциации (ASA) удалось согласовать с группой статистиков шесть принципов, касающихся P-значений.

Первый принцип просто описывает, что могут делать P-значения.

1. P-значения могут указывать на то, насколько несовместимы данные с конкретной статистической моделью.

Как мы не раз видели, P-значения делают это, по сути, измеряя, насколько удивительны имеющиеся данные, при условии нулевой гипотезы, что чего-то не существует. Например, мы спрашиваем, насколько несовместимы данные с утверждением, что лекарство не работает? Такая логика может быть изощренной, но полезной.

Второй принцип помогает исправить ошибки в интерпретации P-значений.

2. P-значения не измеряют вероятность того, что изучаемая гипотеза верна или что данные получены исключительно по случайности.

В главе 8мы очень внимательно различали соответствующие утверждения об условных вероятностях, такие как «только 10 % женщин без рака молочной железы имеют положительную маммограмму» и (ложное) «только у 10 % женщин с положительной маммограммой нет рака молочной железы». Эта ошибка известна как «ошибка прокурора», и мы видели, что есть аккуратные способы ее исправить, представив, чего можно ожидать для 1000 тестируемых женщин.

Аналогичные проблемы могут возникать с P-значениями, которые измеряют вероятность появления таких экстремальных данных при условии, что нулевая гипотеза верна, но не измеряют вероятность того, что нулевая гипотеза верна, при наличии таких данных. Это тонкое, но существенное различие.

Когда команда ЦЕРН сообщила о результате «пять сигма» для бозона Хиггса, что соответствует P-значению примерно 1 на 3,5 миллиона, «Би-би-си» правильно это интерпретировала, сказав, что это означает «вероятность примерно 1 на 3,5 миллиона, что такой сигнал появился бы при отсутствии частицы Хиггса». Однако почти во всех остальных источниках это P-значение истолковали неверно. Например, журнал Forbes писал: «Шансы на то, что это не бозон Хиггса, составляют меньше одной миллионной» – яркий пример ошибки прокурора. Типичной реакцией был текст в газете The Independent: «Вероятность, что их результат – статистическая случайность, составляет меньше одной миллионной». Это, возможно, не так явно вводит в заблуждение, как у Forbes, но все равно приписывает малую вероятность тому, что «их результат – статистическая случайность», что, по логике, то же самое, что сказать о вероятности проверяемой нулевой гипотезы. Вот почему ASA пытается подчеркнуть, что P-значение – это не «вероятность того, что данные получены исключительно случайно».

Третий принцип ASA пытается противостоять одержимости статистической значимостью.

3. Научные заключения и процесс принятия решений не должны основываться только на том, переходит ли P-значение определенный порог.

Когда Рональд Фишер начал публиковать таблицы со значениями статистик, которые соответствовали результатам P < 0,05 или P < 0,01, он вряд ли представлял, что такие довольно произвольные значения станут доминировать в научных публикациях, причем все результаты будут стремиться поделить на «значимые» и «незначимые». Отсюда уже недалеко и до того, чтобы расценивать «значимые» результаты как доказанные открытия, что создает крайне упрощенный и опасный прецедент перехода от данных прямо к заключениям – без паузы на размышление.

Губительное следствие такой дихотомии – неправильное толкование «незначимого». Незначимое P-значение подразумевает, что данные совместимы с нулевой гипотезой, но это не говорит о том, что нулевая гипотеза определенно верна. В конце концов, отсутствие прямых доказательств пребывания преступника на месте преступления еще не означает, что он невиновен. Но эта ошибка на удивление распространена.

Рассмотрим крупный научный спор о пользе алкоголя, скажем одной порции [209]в день. Как показало одно исследование, умеренное потребление алкоголя полезно только пожилым женщинам, однако тщательная проверка выявила и другие группы населения, извлекшие из него пользу, но она не была статистически значимой, поскольку доверительные интервалы вокруг оценки предполагаемой выгоды в этих группах были очень широкими. Хотя доверительные интервалы включали 0 (и потому эффект не был статистически значим), данные полностью согласовывались с высказанным ранее предположением о 10–20-процентном снижении риска смертности. Между тем The Times провозгласила, что «алкоголь не приносит никакой пользы здоровью» [210].

Подытоживая, можно сказать, что крайне неправильно интерпретировать выражение «незначимо отличается от 0» как означающее, что реальный эффект действительно равен 0 , особенно в небольших исследованиях с низкой мощностью и широкими доверительными интервалами.

Четвертый принцип ASA звучит вполне безобидно.

4. Правильный вывод требует полной отчетности и прозрачности.

Самое очевидное – необходимо четко указать, сколько проверок фактически проведено. Если подчеркивается самый значимый результат, то можно сделать какую-то поправку (например, методом Бонферрони). Но проблемы с выборочной отчетностью могут быть намного тоньше, как мы увидим в следующей главе. Только зная план исследования и то, что было на самом деле сделано, можно избежать проблем с P-значениями.

Вы запланировали исследование, собрали данные, провели анализ и получили «значимый» результат. Обязательно ли это должно быть важным открытием? Пятый принцип ASA просит вас быть не слишком самонадеянным.

5. P-значение или статистическая значимость не измеряет величину эффекта или важность результата.

Наш следующий пример показывает, что (особенно в случае больших выборок) мы можем быть достаточно уверены в наличии связи, но при этом не сильно впечатляться ее важностью.

Почему поступление в университет повышает риск развития опухоли мозга?

Мы рассматривали этот вопрос в главе 4. Сделав поправку в регрессионном анализе на семейное положение и уровень дохода, шведские ученые обнаружили относительное повышение риска на 19 % между низким (начальная школа) и более высоким (университетский диплом) уровнем образования, с 95-процентным доверительным интервалом от 7 до 33 %. Интересно, что в работе не указывалось никаких P-значений, однако в силу того что 95-процентный интервал для относительного риска не включает 1, можно заключить, что P < 0,05.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x