Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Коэффициент 0,001 логистической регрессии означает, что логарифм для величины шансов смерти понижается примерно на 0,001 на каждого дополнительного пациента в год, то есть на 0,1 на каждых 100 дополнительных пациентов. Это соответствует примерно 10-процентному понижению риска.
125
Данные о «Титанике» можно найти здесь: https://bio304-class.github.io/bio304-fall2017/data-story-titanic.html.
126
Сюда входили дона (Dona), леди (Lady), графиня (Countess), капитан (Capt), полковник (Col), дон (Don), доктор (Dr), майор (Major), преподобный (Rev.), сэр (Sir), йонкхеер (Jonkheer). [Йонкхеер – в Нидерландах обращение к дворянину без титула. Прим. пер. ].
127
Мастер – форма обращения к мальчику или юноше. Прим. пер.
128
Чтобы не заставлять всех ждать окончания конкурса (для данных по «Титанику» это 2020 год), Kaggle делит тестовый набор на две части – открытую и закрытую. Создается таблица лидеров, где отображаются только результаты конкурсантов в открытой части, и этот предварительный рейтинг могут видеть все. Однако итоговым рейтингом участников после окончания конкурса станет эффективность, показанная в закрытой части тестового набора.
129
В общем случае чувствительность – это доля истинно положительных наблюдений; специфичность – доля истинно отрицательных наблюдений. Прим. пер.
130
Receiver Operating Characteristic – рабочая характеристика приемника. Прим. пер.
131
Может возникнуть соблазн использовать «абсолютную ошибку», а не квадратичную, то есть если мы указываем вероятность 0,1 для несостоявшегося события, то теряем 0,1 (в то время как для квадратов мы теряем 0,01). Но это, казалось бы, невинное изменение будет очень большим просчетом. Довольно простые теоретические рассуждения показывают, что такое «абсолютное» наказание приведет людей к рациональному преувеличению своей уверенности ради минимизации ожидаемой ошибки и указыванию вероятности 0 % для дождя, даже если на самом деле они считают, что она равна 10 %.
132
Оценка качества работы вычисляется так: (BC – B) / BC = 1 – B / BC. Отсюда получаем 1–0,11 / 0,28 = 0,61.
133
Проверка вероятности осадков: http://www.cawcr.gov.au/projects/verification/POP3/POP3.html.
134
Здесь приставка «пере-» означает избыточность, а не повторность. Прим. пер.
135
‘Electoral Precedent’, xkcd, https://xkcd.com/1122/.
136
Настольная интеллектуальная игра в слова, в России больше известна под названием «Эрудит». Прим. ред.
137
В общем случае имеющиеся данные разбивают на N частей, а затем обучают алгоритм с помощью N – 1 части, а одну часть используют для тестирования. Процедуру повторяют N раз, каждый раз выбирая в качестве тестовой части одну из N частей. Прим. пер.
138
Англ. boosting – усиление. Прим. пер.
139
Для перевода оценки S в вероятность выживания p используется формула p = 1 / (1 + e -s). Это преобразование уравнения логистической регрессии log e p / (1 – p ) = S.
140
По сути, метод LASSO (Least absolute shrinkage and selection operator) отбирает наиболее информативные признаки – те, которые оказывают большее влияние на отклик, поскольку для остальных ставит нулевые коэффициенты. Прим. пер.
141
Bagging – сокращение от Bootstrap aggregating, бутстрэп-агрегирование. Прим. пер.
142
Карл Даль родился в Норвегии в 1866 году, но в 1892 году эмигрировал в Австралию. В 1912 году решил вернуться в Норвегию, но, добравшись до Лондона, поменял планы и отправился в США к родственникам. Прим. пер.
143
Из книги Кэти О’Нил «Убийственные большие данные. Как математика превратилась в оружие массового поражения», в которой приведено множество примеров неправильного использования алгоритмов. [Издана на русском языке: О’Нил К. Убийственные большие данные. Как математика превратилась в оружие массового поражения. М.: АСТ, 2018. Прим. пер. ].
144
http://innovation.uci.edu/2017/08/husky-or-wolf-using-a-black-box-learning-model-to-avoid-adoption-errors/.
145
Использование алгоритмов COMPAS и MMR критикуется в книге C. O’Neil, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy (Penguin, 2016).
146
Также болезнь Гентингтона, хорея Гентингтона или хорея Хантингтона. Названа по имени американского врача Джорджа Хантингтона (1850–1916). При этом заболевании в мозге происходят изменения, которые ведут к изменениям в личности. Прим. пер.
147
Обратный инжиниринг (обратная разработка, обратное проектирование) – исследование некоей системы (устройства, алгоритма, программы), для того чтобы понять схему ее работы. Прим. пер.
148
Иначе – вспомогательная терапия. Прим. пер.
149
NHS, Predict: Breast Cancer (2.1): http://www.predict.nhs.uk/predict_v2.1/.
150
Возможно, исключительно для того, чтобы привлечь финансирование.
151
Когда однажды я предложил группе журналистов четко указывать это в своих статьях, то столкнулся с полнейшим непониманием.
152
Статистика рынка труда в Великобритании, январь 2018 года: https://www.ons.gov.uk/releases/uklabourmarketstatisticsjan2018. Bureau of Labor Statistics, ‘Employment Situation Technical Note 2018’, https://www.bls.gov/news.release/empsit.tn.htm.
153
Изменения в уровне безработицы, определенные по зарплатным ведомостям, основаны на налоговых декларациях работодателей и несколько более точны, их погрешность составляет ±100 000.
154
Часто их называют псевдовыборками. Прим. пер.
155
Слово bootstraps означает ремешки в виде ушка, которые прикрепляются к верхней части обуви, чтобы ее было проще натягивать. В английском языке есть выражение To pull oneself over a fence by one’s bootstraps (буквально – перетащить себя через ограду за ушки своей обуви), которое означает «выпутаться из своих проблем самому». Отсюда и название статистического метода. Прим. пер.
156
Писатель Антуан Гомбо (1607–1684) не был дворянином, а имя шевалье де Мере использовал в своих литературных сочинениях для персонажа, который выражал мысли автора. Впоследствии друзья стали так называть и его самого. Прим. пер.
157
Де Мере считал, что в Варианте 1, когда кость бросают четыре раза с вероятностью успеха 1/6, общая вероятность победы равняется 4 × 1/6 = 2/3. Аналогично для Варианта 2 он полагал, что при 24 подбрасываниях с вероятностью успеха 1/36, вероятность победы составит 24 × 1/36 = 2/3. Студенты часто прибегают к подобным ложным рассуждениям, но ошибку легко заметить: если бы в Варианте 1 у игрока было 12 бросков, то вероятность выигрыша равнялась бы 12 × 1/6 = 2. Правильная аргументация приведена в примечании 2 к этой главе в конце книги.
Читать дальшеИнтервал:
Закладка: