Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
190
Всего существует 54 × 53 × 52 … × 2 × 1 перестановок. Это число обозначается 54! (читается «54 факториал»). Примерно это число равно 2 и 71 нуль после двойки. Обратите внимание, что число способов перетасовать колоду карт равно 52! так что, даже если бы мы перебирали миллион миллионов комбинаций в секунду, число лет, которое бы потребовало, чтобы перебрать все возможные комбинации, имело бы 48 нулей, в то время как возраст Вселенной сейчас оценивается всего в 14 000 000 000 лет. Вот почему мы можем быть абсолютно уверены, что за всю историю карточных игр не было двух колод, перетасованных в точности одинаково.
191
Иначе – P-уровень значимости. Прим. пер.
192
Для вычисления можно воспользоваться числом сочетаний. У нас есть 8 чашек, из них нужно выбрать те четыре, в которых молоко наливали в чай (тогда остальные четыре чашки автоматически будут идентифицированы верно). Если мы действуем наугад, то это значит, что нам требуется случайно вытащить 4 конкретных предмета из 8. Общее число способов сделать это равно . Нас устроит
способ. Следовательно, вероятность просто угадать равна 1/70. Прим. пер.
193
На самом деле только в одном случае из 70 мы можем получить результат не хуже этого. Точнее, в нашем конкретном эксперименте «не хуже» означает «столько же», поскольку результат лучше невозможен (верно определены все чашки). Прим. пер.
194
Метод состоит в вычислении для каждого из 412 человек в тестовом наборе разницы между среднеквадратичными ошибками прогноза для двух алгоритмов; получившееся множество из 412 разностей имеет среднее –0,0027 и стандартное отклонение 0,1028. Поэтому стандартная ошибка для оценки «истинной» разности составляет , и тогда t -статистика = оценка / стандартная ошибка = –0,0027/0,0050 = –0,54. Это также называют парным t -критерием Стьюдента, поскольку он основан на множестве разностей между парами чисел.
195
Вероятность того, что из двух испытаний хотя бы одно даст значимый результат, равна единице минус вероятность того, что оба результата незначимы = 1–0,95 × 0,95 = 0,0975, что примерно равно 0,10.
196
С помощью этого экстравагантного эксперимента ученые хотели не столько проверить чудесные свойства лосося, сколько продемонстрировать высокий риск получения ложноположительных результатов при многократном тестировании. Эксперимент подтвердил такой риск. Прим. пер.
197
Исследование мертвого лосося описано на странице http://prefrontal.org/files/posters/Bennett-Salmon-2009.jpg.
198
Карло Эмилио Бонферрони (1892–1960) – итальянский математик. Прим. пер.
199
ЦЕРН (от фр. CERN – Conseil Européen pour la Recherche Nucléaire, Европейский совет по ядерным исследованиям) – европейская организация, занимающаяся ядерными исследованиями. Прим. пер.
200
Объявление ЦЕРН о бозоне Хиггса можно найти по адресу: http://cms.web.cern.ch/news/observation-new-particle-mass-125-gev.
201
В русском языке нет устоявшегося перевода этого термина. Его можно передать как «Эффект поиска в другом месте». Суть эффекта – наблюдение оказывается значимым только по случайности, потому что пространство проверяемых параметров очень велико. Аналогия: если в группе из 25 человек у кого-то день рождения совпадает с вашим, то это довольно удивительно, поскольку такая вероятность достаточно мала. Но если вы в той же группе станете искать какие-нибудь совпадающие дни рождения, то в таком совпадении не будет ничего удивительного – шансы на это больше 0,5. В первом случае вы сравниваете один конкретный день (свой), во втором – пространство сравнений резко расширяется (для 25 человек можно составить множество пар), поэтому вероятность обнаружить какое-то совпадение сильно увеличивается. Вспомните также пример с поисками неожиданных корреляций в одной из предыдущих глав: в очень большом наборе данных что-нибудь да найдется. Прим. пер.
202
Первоначальная теория Неймана и Пирсона включала идею «принятия» нулевой гипотезы, но эта часть их теории теперь не используется.
203
D. Spiegelhalter, O. Grigg, R. Kinsman and T. Treasure, ‘Risk-Adjusted Sequential Probability Ratio Tests: Applications to Bristol, Shipman and Adult Cardiac Surgery’, International Journal for Quality in Health Care 15 (2003), 7–13.
204
Здесь P-значение – одностороннее, потому что нас интересует только повышение уровня смертности, а не снижение. Поэтому P-значение – это вероятность того, что пуассоновская случайная величина со средним 22,5 примет значение не меньше 40. Стандартное программное обеспечение даст для такой вероятности 0,004.
205
Руководили этими статистиками Абрахам Вальд в США и Джордж Барнард в Соединенном Королевстве. Барнард до войны был чистым математиком (и коммунистом), а во время войны, как и многие ученые, начал заниматься военными применениями статистики. Позднее он разрабатывал официальный британский стандарт для презерватива (BS 3704).
206
Статистика имеет простую форму: ПКОВ = 0.69 × кумулятивное количество наблюдаемых смертей – кумулятивное количество ожидаемых смертей. Пороговые значения определяются величиной log((1 − β)/α).
207
D. Szucs and J. P. A. Ioannidis, ‘Empirical Assessment of Published Effect Sizes and Power in the Recent Cognitive Neuroscience and Psychology Literature’, PLOS Biology 15:3 (2 March 2017), e2000797.
208
J. P. A. Ioannidis, ‘Why Most Published Research Findings Are False’, PLOS Medicine 2:8 (August 2005), e124.
209
Стандартная доза алкоголя отличается в разных странах, например в США это 14 граммов, в Великобритании – 8 граммов. Многие страны приняли вариант Всемирной организации здравоохранения – 10 граммов. Прим. пер.
210
C. S. Knott et al., ‘All Cause Mortality and the Case for Age Specific Alcohol Consumption Guidelines: Pooled Analyses of up to 10 Population Based Cohorts’, British Medical Journal 350 (10 February 2015), h384. Об этом было сообщено под заголовком: ‘Alcohol Has No Health Benefits After All’, The Times, 11 February 2015.
211
D. J. Benjamin et al., ‘Redefine Statistical Significance’, Nature Human Behaviour 2 (2018), 6–10.
212
Артур Боули (1869–1957) – британский статистик и экономист. Прим. пер.
213
Томас Байес умер в 1761 году, понятия не имея о своем научном наследии: его основополагающая статья была опубликована только после его смерти, в 1763-м, а имя не связывалось с этим подходом вплоть до XX века.
214
Это значительное преувеличение. Фактически в своей работе «Очерки к решению проблемы доктрины шансов» Байес дал только определение условной вероятности, и никакого утверждения, которое мы называем сейчас теоремой Байеса, у него нет. Теорема была сформулирована Лапласом в начале XIX века. Прим. пер.
Читать дальшеИнтервал:
Закладка: