Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Коэффициент 0,001 логистической регрессии означает, что логарифм для величины шансов смерти понижается примерно на 0,001 на каждого дополнительного пациента в год, то есть на 0,1 на каждых 100 дополнительных пациентов. Это соответствует примерно 10-процентному понижению риска.

125

Данные о «Титанике» можно найти здесь: https://bio304-class.github.io/bio304-fall2017/data-story-titanic.html.

126

Сюда входили дона (Dona), леди (Lady), графиня (Countess), капитан (Capt), полковник (Col), дон (Don), доктор (Dr), майор (Major), преподобный (Rev.), сэр (Sir), йонкхеер (Jonkheer). [Йонкхеер – в Нидерландах обращение к дворянину без титула. Прим. пер. ].

127

Мастер – форма обращения к мальчику или юноше. Прим. пер.

128

Чтобы не заставлять всех ждать окончания конкурса (для данных по «Титанику» это 2020 год), Kaggle делит тестовый набор на две части – открытую и закрытую. Создается таблица лидеров, где отображаются только результаты конкурсантов в открытой части, и этот предварительный рейтинг могут видеть все. Однако итоговым рейтингом участников после окончания конкурса станет эффективность, показанная в закрытой части тестового набора.

129

В общем случае чувствительность – это доля истинно положительных наблюдений; специфичность – доля истинно отрицательных наблюдений. Прим. пер.

130

Receiver Operating Characteristic – рабочая характеристика приемника. Прим. пер.

131

Может возникнуть соблазн использовать «абсолютную ошибку», а не квадратичную, то есть если мы указываем вероятность 0,1 для несостоявшегося события, то теряем 0,1 (в то время как для квадратов мы теряем 0,01). Но это, казалось бы, невинное изменение будет очень большим просчетом. Довольно простые теоретические рассуждения показывают, что такое «абсолютное» наказание приведет людей к рациональному преувеличению своей уверенности ради минимизации ожидаемой ошибки и указыванию вероятности 0 % для дождя, даже если на самом деле они считают, что она равна 10 %.

132

Оценка качества работы вычисляется так: (BC – B) / BC = 1 – B / BC. Отсюда получаем 1–0,11 / 0,28 = 0,61.

133

Проверка вероятности осадков: http://www.cawcr.gov.au/projects/verification/POP3/POP3.html.

134

Здесь приставка «пере-» означает избыточность, а не повторность. Прим. пер.

135

‘Electoral Precedent’, xkcd, https://xkcd.com/1122/.

136

Настольная интеллектуальная игра в слова, в России больше известна под названием «Эрудит». Прим. ред.

137

В общем случае имеющиеся данные разбивают на N частей, а затем обучают алгоритм с помощью N – 1 части, а одну часть используют для тестирования. Процедуру повторяют N раз, каждый раз выбирая в качестве тестовой части одну из N частей. Прим. пер.

138

Англ. boosting – усиление. Прим. пер.

139

Для перевода оценки S в вероятность выживания p используется формула p = 1 / (1 + e -s). Это преобразование уравнения логистической регрессии log e p / (1 – p ) = S.

140

По сути, метод LASSO (Least absolute shrinkage and selection operator) отбирает наиболее информативные признаки – те, которые оказывают большее влияние на отклик, поскольку для остальных ставит нулевые коэффициенты. Прим. пер.

141

Bagging – сокращение от Bootstrap aggregating, бутстрэп-агрегирование. Прим. пер.

142

Карл Даль родился в Норвегии в 1866 году, но в 1892 году эмигрировал в Австралию. В 1912 году решил вернуться в Норвегию, но, добравшись до Лондона, поменял планы и отправился в США к родственникам. Прим. пер.

143

Из книги Кэти О’Нил «Убийственные большие данные. Как математика превратилась в оружие массового поражения», в которой приведено множество примеров неправильного использования алгоритмов. [Издана на русском языке: О’Нил К. Убийственные большие данные. Как математика превратилась в оружие массового поражения. М.: АСТ, 2018. Прим. пер. ].

144

http://innovation.uci.edu/2017/08/husky-or-wolf-using-a-black-box-learning-model-to-avoid-adoption-errors/.

145

Использование алгоритмов COMPAS и MMR критикуется в книге C. O’Neil, Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy (Penguin, 2016).

146

Также болезнь Гентингтона, хорея Гентингтона или хорея Хантингтона. Названа по имени американского врача Джорджа Хантингтона (1850–1916). При этом заболевании в мозге происходят изменения, которые ведут к изменениям в личности. Прим. пер.

147

Обратный инжиниринг (обратная разработка, обратное проектирование) – исследование некоей системы (устройства, алгоритма, программы), для того чтобы понять схему ее работы. Прим. пер.

148

Иначе – вспомогательная терапия. Прим. пер.

149

NHS, Predict: Breast Cancer (2.1): http://www.predict.nhs.uk/predict_v2.1/.

150

Возможно, исключительно для того, чтобы привлечь финансирование.

151

Когда однажды я предложил группе журналистов четко указывать это в своих статьях, то столкнулся с полнейшим непониманием.

152

Статистика рынка труда в Великобритании, январь 2018 года: https://www.ons.gov.uk/releases/uklabourmarketstatisticsjan2018. Bureau of Labor Statistics, ‘Employment Situation Technical Note 2018’, https://www.bls.gov/news.release/empsit.tn.htm.

153

Изменения в уровне безработицы, определенные по зарплатным ведомостям, основаны на налоговых декларациях работодателей и несколько более точны, их погрешность составляет ±100 000.

154

Часто их называют псевдовыборками. Прим. пер.

155

Слово bootstraps означает ремешки в виде ушка, которые прикрепляются к верхней части обуви, чтобы ее было проще натягивать. В английском языке есть выражение To pull oneself over a fence by one’s bootstraps (буквально – перетащить себя через ограду за ушки своей обуви), которое означает «выпутаться из своих проблем самому». Отсюда и название статистического метода. Прим. пер.

156

Писатель Антуан Гомбо (1607–1684) не был дворянином, а имя шевалье де Мере использовал в своих литературных сочинениях для персонажа, который выражал мысли автора. Впоследствии друзья стали так называть и его самого. Прим. пер.

157

Де Мере считал, что в Варианте 1, когда кость бросают четыре раза с вероятностью успеха 1/6, общая вероятность победы равняется 4 × 1/6 = 2/3. Аналогично для Варианта 2 он полагал, что при 24 подбрасываниях с вероятностью успеха 1/36, вероятность победы составит 24 × 1/36 = 2/3. Студенты часто прибегают к подобным ложным рассуждениям, но ошибку легко заметить: если бы в Варианте 1 у игрока было 12 бросков, то вероятность выигрыша равнялась бы 12 × 1/6 = 2. Правильная аргументация приведена в примечании 2 к этой главе в конце книги.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x