Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Искусство статистики. Как находить ответы в данных
Автор:

Дэвид Шпигельхалтер
Жанр:

Математика
Издательство:

Манн, Иванов и Фербер
Год:

2021
Город:

Москва
ISBN:

9785001692508
Рейтинг:

3/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
60

1

2

3

4

5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Приковывающий внимание заголовок «Почему просмотр телевизора в пьяном виде может вас убить» появился в результате эпидемиологического исследования, которое дало скорректированный относительный риск 2,5 для фатальной легочной эмболии, связанной с просмотром телевизора более пяти часов в сутки по сравнению с просмотром менее двух с половиной часов. Однако внимательный анализ абсолютного показателя в группе высокого риска (13 на 158 тысяч человеко-лет) можно истолковать как означающий, что для наступления такого события вы в среднем должны сидеть по 5 часов перед телевизором в течение 12 тысяч лет. Это несколько снижает воздействие факта [259]. Заголовок явно писался с целью привлечь внимание и в этом преуспел – я определенно счел его неотразимым.

В эпоху, когда все мы стремимся к новой информации и новым впечатлениям, неудивительно, что СМИ придают остроту текстам об исследованиях и провоцируют необычные (часто преувеличенные) заявления, выходящие за рамки серьезных статистических фактов [260]. В следующей главе мы поговорим о том, как можно улучшить ситуацию, а пока вернемся к примечательным утверждениям Дэрила Бема о предвидении.

Дэрил Бем знал, что публикует необычные утверждения, и, к его чести, активно поощрял попытки воспроизвести свои результаты и даже предоставлял для этого материалы. Однако когда другие исследователи приняли его вызов и попытались сделать то же самое, но потерпели неудачу, журнал, опубликовавший оригинальную статью Бема, отказался писать о провалившихся попытках.

Так как же Бем получал свои результаты? Иногда он корректировал проект в соответствии с данными и выделял определенные группы – например, сообщал о положительном предвидении при показе эротических картинок, а не о негативных результатах с неэротическими. Бем признавал: «Я начинаю один [эксперимент] и, если ничего не выходит, бросаю его и начинаю заново с изменениями». Некоторые из этих изменений описывались в статье, другие – нет [261], [262]. Эндрю Гельман заметил, что выводы Бема

основаны на P-значениях, которые являются утверждениями о том, как выглядели бы характеристики выборки, если бы данные были другими; однако Бем не предоставил никаких доказательств того, что его анализ был бы таким же, если бы данные были другими. В самом деле, девять исследований, описанных в его статье, основаны на разных методиках анализа данных [263].

Этот случай – классический пример использования исследователем чрезмерного количества степеней свободы. Тем не менее Бем оказал большую услугу психологии и науке в целом: его статья 2011 года стала катализатором для самоанализа в среде ученых в отношении возможных причин отсутствия достоверности в научной литературе. Даже высказывалось предположение, что весь этот процесс, как и другие исследования, описанные в главе, был намеренно спланирован Бемом, чтобы показать слабые стороны в психологических исследованиях.

Выводы

• Часть ответственности за кризис воспроизводимости в науке лежит на недобросовестных статистиках-практиках.

• Намеренная фабрикация данных – явление довольно редкое, в отличие от ошибок в статистических методах.

• Еще б о льшую проблему представляют сомнительные исследовательские практики, которые, как правило, преувеличивают уровень статистической значимости.

• Вместо того чтобы представить статистические факты широкой публике, пресс-службы, журналисты и редакторы раздувают поток недостоверных сведений, неверно интерпретируя результаты и распространяя их.

Глава 13. Как можно улучшить статистику

В чем польза скрининговых исследований при раке яичников?

В 2015 году в Великобритании были опубликованы результаты масштабного скринингового исследования рака яичников. Оно стартовало еще в 2001 году, когда после тщательных расчетов необходимой мощности свыше 200 тысяч женщин случайным образом распределили на три группы – два вида скрининга и контрольная группа. Исследователи тщательно составили протокол, в котором в первичный анализ входило наблюдение за снижением смертности от рака яичников, оцениваемое с помощью статистического метода, предполагающего, что пропорциональное уменьшение риска будет одинаковым в течение всего периода наблюдения [264].

Когда после среднего 11-летнего периода наблюдения данные были проанализированы, установленный первичный анализ не показал статистически значимой пользы и авторы должным образом сообщили об этом незначимом результате в качестве своего основного вывода. Но тогда почему в газете Independent появился заголовок «Прорыв в определении рака яичников по анализу крови: колоссальный успех нового метода тестирования может привести к национальному скрининговому обследованию в Британии»? [265]

Мы еще вернемся к тому, правильно ли интерпретировались результаты этого масштабного и очень дорогостоящего исследования.

В предыдущей главе мы говорили о том, как плохая практика может проявиться на любом этапе создания статистических текстов. А значит, если мы хотим использовать статистику более эффективно, следует задействовать три группы людей.

1. Поставщики статистической информации: ученые, статистики, исследовательские компании, промышленность. Они могут лучше генерировать данные.

2. Коммуникаторы: научные журналы, благотворительные организации, работники пресс-служб, журналисты и редакторы. Они могут лучше подавать статистические данные.

3. Аудитория: общественность, лица, принимающие решения, и эксперты. Они могут лучше проверять статистические данные.

Давайте поочередно рассмотрим, что может делать каждая группа.

Улучшение качества данных

Как можно улучшить научный процесс? Широкое сотрудничество выдающихся исследователей привело к появлению «манифеста воспроизводимости», в котором говорится о совершенствовании методов исследования и обучения, содействии предварительной регистрации проектов и анализу исследований, улучшении качества отчетности о реально проделанной работе, стимулировании повторных экспериментов, развитии экспертных оценок и поощрении открытости и прозрачности [266]. Многие из этих идей отражены в Open Science Framework – программном проекте с открытым кодом, который, в частности, способствует обмену данными и предварительной регистрации исследований [267].

С учетом примеров из предыдущей главы неудивительно, что многие предложения из этого манифеста касаются статистической практики, в частности обращение к предварительно зарегистрированным исследованиям призвано оградить от поведения, описанного в предыдущей главе, когда проект, гипотезы и анализ подстраиваются под уже полученные данные. Однако можно утверждать, что полная предварительная определенность нереальна, она не дает исследователю проявить воображение, а также лишает гибкости в процессе адаптации к новым данным. Опять же ответ, похоже, заключается в строгом различии между поисковыми и подтверждающими исследованиями, при этом нужно четко сообщать ту последовательность выбора, к которой прибегли исследователи.