Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

А затем цикл решения задачи запустится снова.

Что мы можем сделать, наблюдая какую-то связь?

Именно здесь требуется определенное статистическое воображение, и попытка догадаться о причинах того, почему наблюдаемая корреляция может быть ложной, обещает стать приятным упражнением. Некоторые причины довольно просты: значительная корреляция между потреблением моцареллы и числом инженеров, по-видимому, обусловлена тем, что обе категории увеличиваются со временем. Точно так же любые корреляции между продажами мороженого и числом утонувших зависят от погоды. Когда видимую связь между двумя величинами можно объяснить наличием какого-то наблюдаемого внешнего фактора, влияющего на обе величины, его называют возмущающим, или искажающим фактором. И год, и погода – это потенциальные возмущающие факторы, которые можно регистрировать и учитывать при анализе.

Простейший метод работы с возмущающим фактором – посмотреть на видимые связи при каждом его уровне. Это называется поправкой, или стратификацией. Например, мы могли бы изучить связь между продажами мороженого и числом утонувших в дни с примерно одинаковой температурой воздуха.

Однако поправка может привести к некоторым парадоксальным результатам, как показал анализ процента зачисления абитуриентов в Кембриджский университет для обоих полов в 1996 году. Общая доля поступивших на пять учебных дисциплин в Кембридже была чуть выше у мужчин (24 % из 2470 абитуриентов), чем у женщин (23 % из 1184 абитуриенток). Это те дисциплины, которые сегодня принято обозначать аббревиатурой НТИМ (STEM) – наука, технологии, инженерия и медицина [102], то есть предметы, исторически изучаемые преимущественно мужчинами. Была ли тут гендерная дискриминация?

Внимательно посмотрите на табл. 4.2. Хотя общий процент зачисления выше у мужчин, на каждую отдельную дисциплину он выше у женщин. Как мог возникнуть такой парадокс? Объяснение заключается в том, что женщины чаще подавали заявления на более популярные, конкурентные дисциплины – медицину и ветеринарию, и реже – на инженерию, где у них более высокий процент поступления. Поэтому мы можем заключить, что никаких подтверждений дискриминации нет.

Таблица 4.2

Иллюстрация парадокса Симпсона на примере данных о поступлении в Кембриджский университет в 1996 году. Общий процент зачисленных абитуриентов выше у мужчин, однако процент зачисления на каждую дисциплину отдельно выше у женщин

Описанная ситуация известна как парадокс Симпсона 103 который возникает - фото 6

Описанная ситуация известна как парадокс Симпсона [103], который возникает, когда видимое направление взаимосвязи становится обратным с учетом возмущающего фактора. В результате вывод, извлеченный из данных, становится противоположным. Статистики наслаждаются поиском подобных примеров в реальной жизни, так как каждый из них подчеркивает, насколько осторожно нужно обращаться с наблюдательными данными. Тем не менее такие случаи показывают идеи, возникающие при разделении данных по факторам, которые могут объяснить наблюдаемые связи.

Добавляет ли близость к супермаркету Waitrose 36 тысяч фунтов к стоимости вашего дома?

В 2017 году британские СМИ опрометчиво опубликовали заявление, что соседство с супермаркетом сети Waitrose «добавляет 36 тысяч фунтов к цене дома» [104]. Однако это было не исследование изменения цен на жилье в связи с открытием нового супермаркета, и Waitrose, конечно же, не размещает свои магазины случайным образом: эти данные всего лишь корреляция между ценами на жилье и близостью супермаркетов, особенного таких высококлассных, как Waitrose.

Эта корреляция практически наверняка отражает политику Waitrose по открытию магазинов в более богатых районах, а потому представляет собой прекрасный пример того, что фактическая причинно-следственная связь является полной противоположностью заявлению в газете. Неудивительно, что она называется обратной причинной зависимостью. Более серьезные примеры встречаются в исследованиях, изучающих взаимосвязь между употреблением алкоголя и состоянием здоровья: как правило, показатель смертности у непьющих людей в целом существенно выше, чем у умеренно пьющих. Как это понимать, учитывая, что мы знаем о влиянии алкоголя на печень? Частично это объясняется обратной причинной зависимостью: люди, которые умирают с более высокой вероятностью, не пьют, потому что уже больны (возможно, из-за чрезмерного употребления алкоголя в прошлом). Сегодня более тщательный анализ исключает бывших алкоголиков, а также игнорирует неблагоприятные для здоровья события, происходящие в первые несколько лет исследования, поскольку они могут быть результатом предыдущих условий. Однако даже при таких исключениях некоторая общая польза для здоровья от умеренного употребления алкоголя, похоже, остается, хотя и активно оспаривается.

Еще одно забавное упражнение – попробовать сочинить историю с обратной причинной зависимостью для любого статистического заявления, основанного исключительно на корреляции. Моя любимая история – о корреляции между потреблением безалкогольных газированных напитков американскими подростками и их склонностью к насилию. Хотя одна газета преподнесла это так: «Газированные напитки делают подростков жестокими» [105], что, скорее всего, так же правдоподобно, как и утверждение, что насилие вызывает жажду. Или, что более правдоподобно, мы могли бы придумать некие общие факторы, влияющие на обе величины, например принадлежность к какой-то группе сверстников. Потенциальные причины, которые мы не измеряем, называются скрытыми факторами, поскольку они остаются на заднем плане, не входят в поправки и только и ждут подходящего момента, чтобы опровергнуть наивные выводы из наблюдательных данных.

Вот еще несколько примеров того, как легко поверить в наличие причинно-следственной связи, хотя на самом деле на события влияет посторонний фактор.

• У многих детей диагностируется аутизм после вакцинации. Вызывает ли вакцинация аутизм? Нет, но эти события возникают примерно в одном возрасте, а потому неизбежны случайные совпадения.

• Среди ежегодно умирающих людей доля левшей меньше, чем во всей популяции. Означает ли это, что левши живут дольше? Нет, это происходит потому, что те, кто умирает сейчас, родились во времена, когда детей насильственно переучивали пользоваться правой рукой, поэтому пожилых левшей меньше [106].

• Средний возраст смерти римских пап выше, чем в среднем в популяции. Означает ли это, что избрание папой помогает жить дольше? Нет, просто пап выбирают из группы людей, которые не умерли молодыми (в противном случае они не были бы кандидатами) [107].

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x