Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Искусство статистики. Как находить ответы в данных
Автор:

Дэвид Шпигельхалтер
Жанр:

Математика
Издательство:

Манн, Иванов и Фербер
Год:

2021
Город:

Москва
ISBN:

9785001692508
Рейтинг:

3/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
60

1

2

3

4

5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

190

Всего существует 54 × 53 × 52 … × 2 × 1 перестановок. Это число обозначается 54! (читается «54 факториал»). Примерно это число равно 2 и 71 нуль после двойки. Обратите внимание, что число способов перетасовать колоду карт равно 52! так что, даже если бы мы перебирали миллион миллионов комбинаций в секунду, число лет, которое бы потребовало, чтобы перебрать все возможные комбинации, имело бы 48 нулей, в то время как возраст Вселенной сейчас оценивается всего в 14 000 000 000 лет. Вот почему мы можем быть абсолютно уверены, что за всю историю карточных игр не было двух колод, перетасованных в точности одинаково.

191

Иначе – P-уровень значимости. Прим. пер.

192

Для вычисления можно воспользоваться числом сочетаний. У нас есть 8 чашек, из них нужно выбрать те четыре, в которых молоко наливали в чай (тогда остальные четыре чашки автоматически будут идентифицированы верно). Если мы действуем наугад, то это значит, что нам требуется случайно вытащить 4 конкретных предмета из 8. Общее число способов сделать это равно Искусство статистики Как находить ответы в данных - изображение 82 . Нас устроит картинка 83 способ. Следовательно, вероятность просто угадать равна 1/70. Прим. пер.

193

На самом деле только в одном случае из 70 мы можем получить результат не хуже этого. Точнее, в нашем конкретном эксперименте «не хуже» означает «столько же», поскольку результат лучше невозможен (верно определены все чашки). Прим. пер.

194

Метод состоит в вычислении для каждого из 412 человек в тестовом наборе разницы между среднеквадратичными ошибками прогноза для двух алгоритмов; получившееся множество из 412 разностей имеет среднее –0,0027 и стандартное отклонение 0,1028. Поэтому стандартная ошибка для оценки «истинной» разности составляет и тогда t статистика оценка стандартная ошибка 0002700050 054 - фото 84 , и тогда t -статистика = оценка / стандартная ошибка = –0,0027/0,0050 = –0,54. Это также называют парным t -критерием Стьюдента, поскольку он основан на множестве разностей между парами чисел.

195

Вероятность того, что из двух испытаний хотя бы одно даст значимый результат, равна единице минус вероятность того, что оба результата незначимы = 1–0,95 × 0,95 = 0,0975, что примерно равно 0,10.

196

С помощью этого экстравагантного эксперимента ученые хотели не столько проверить чудесные свойства лосося, сколько продемонстрировать высокий риск получения ложноположительных результатов при многократном тестировании. Эксперимент подтвердил такой риск. Прим. пер.

197

Исследование мертвого лосося описано на странице http://prefrontal.org/files/posters/Bennett-Salmon-2009.jpg.

198

Карло Эмилио Бонферрони (1892–1960) – итальянский математик. Прим. пер.

199

ЦЕРН (от фр. CERN – Conseil Européen pour la Recherche Nucléaire, Европейский совет по ядерным исследованиям) – европейская организация, занимающаяся ядерными исследованиями. Прим. пер.

200

Объявление ЦЕРН о бозоне Хиггса можно найти по адресу: http://cms.web.cern.ch/news/observation-new-particle-mass-125-gev.

201

В русском языке нет устоявшегося перевода этого термина. Его можно передать как «Эффект поиска в другом месте». Суть эффекта – наблюдение оказывается значимым только по случайности, потому что пространство проверяемых параметров очень велико. Аналогия: если в группе из 25 человек у кого-то день рождения совпадает с вашим, то это довольно удивительно, поскольку такая вероятность достаточно мала. Но если вы в той же группе станете искать какие-нибудь совпадающие дни рождения, то в таком совпадении не будет ничего удивительного – шансы на это больше 0,5. В первом случае вы сравниваете один конкретный день (свой), во втором – пространство сравнений резко расширяется (для 25 человек можно составить множество пар), поэтому вероятность обнаружить какое-то совпадение сильно увеличивается. Вспомните также пример с поисками неожиданных корреляций в одной из предыдущих глав: в очень большом наборе данных что-нибудь да найдется. Прим. пер.

202

Первоначальная теория Неймана и Пирсона включала идею «принятия» нулевой гипотезы, но эта часть их теории теперь не используется.

203

D. Spiegelhalter, O. Grigg, R. Kinsman and T. Treasure, ‘Risk-Adjusted Sequential Probability Ratio Tests: Applications to Bristol, Shipman and Adult Cardiac Surgery’, International Journal for Quality in Health Care 15 (2003), 7–13.

204

Здесь P-значение – одностороннее, потому что нас интересует только повышение уровня смертности, а не снижение. Поэтому P-значение – это вероятность того, что пуассоновская случайная величина со средним 22,5 примет значение не меньше 40. Стандартное программное обеспечение даст для такой вероятности 0,004.

205

Руководили этими статистиками Абрахам Вальд в США и Джордж Барнард в Соединенном Королевстве. Барнард до войны был чистым математиком (и коммунистом), а во время войны, как и многие ученые, начал заниматься военными применениями статистики. Позднее он разрабатывал официальный британский стандарт для презерватива (BS 3704).

206

Статистика имеет простую форму: ПКОВ = 0.69 × кумулятивное количество наблюдаемых смертей – кумулятивное количество ожидаемых смертей. Пороговые значения определяются величиной log((1 − β)/α).

207

D. Szucs and J. P. A. Ioannidis, ‘Empirical Assessment of Published Effect Sizes and Power in the Recent Cognitive Neuroscience and Psychology Literature’, PLOS Biology 15:3 (2 March 2017), e2000797.

208

J. P. A. Ioannidis, ‘Why Most Published Research Findings Are False’, PLOS Medicine 2:8 (August 2005), e124.

209

Стандартная доза алкоголя отличается в разных странах, например в США это 14 граммов, в Великобритании – 8 граммов. Многие страны приняли вариант Всемирной организации здравоохранения – 10 граммов. Прим. пер.

210

C. S. Knott et al., ‘All Cause Mortality and the Case for Age Specific Alcohol Consumption Guidelines: Pooled Analyses of up to 10 Population Based Cohorts’, British Medical Journal 350 (10 February 2015), h384. Об этом было сообщено под заголовком: ‘Alcohol Has No Health Benefits After All’, The Times, 11 February 2015.

211

D. J. Benjamin et al., ‘Redefine Statistical Significance’, Nature Human Behaviour 2 (2018), 6–10.

212

Артур Боули (1869–1957) – британский статистик и экономист. Прим. пер.

213

Томас Байес умер в 1761 году, понятия не имея о своем научном наследии: его основополагающая статья была опубликована только после его смерти, в 1763-м, а имя не связывалось с этим подходом вплоть до XX века.

214

Это значительное преувеличение. Фактически в своей работе «Очерки к решению проблемы доктрины шансов» Байес дал только определение условной вероятности, и никакого утверждения, которое мы называем сейчас теоремой Байеса, у него нет. Теорема была сформулирована Лапласом в начале XIX века. Прим. пер.