Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Рассмотрим вопрос об уровне преступности в Великобритании и его важный политический аспект: растет он или снижается. Существуют два ключевых источника данных: один – на основе опросов, второй – официальный. Первый, «Исследование преступности в Англии и Уэльсе» – классический пример опроса, в рамках которого примерно 38 тысяч человек ежегодно рассказывают о своем опыте соприкосновения с криминалом. Как и в случае исследования Natsal о сексе, здесь могут возникать проблемы при переходе между этапами. Во-первых, приходится использовать самоотчеты (этап 1) для оценивания реального опыта людей (этап 2), поскольку они могут скрывать правду, например, о том, что сами замешаны в незаконных делах, связанных с наркотиками. Во-вторых, мы вынуждены предположить, что выборка репрезентативна для соответствующей совокупности, и учесть ее ограниченный размер (переход от этапа 2 к этапу 3). В-третьих, нам нужно признать, что план исследования не охватывает какой-то части общей целевой совокупности, скажем подростков младше 16 лет или людей в местах совместного проживания (переход от этапа 3 к этапу 4). Тем не менее «Исследование преступности в Англии и Уэльсе» с определенными оговорками считается официально признанной национальной статистикой и применяться для отслеживания долгосрочных тенденций [79].
Второй источник данных – сообщения о преступлениях, зарегистрированных полицией. Это делается для официальных целей и не является выборкой: поскольку можно учесть каждое преступление, зарегистрированное в стране, «исследуемая совокупность» совпадает с выборкой. Конечно, мы по-прежнему должны предполагать, что записанные данные действительно отображают то, что случилось с жертвами преступлений (переход от этапа 1 к этапу 2), но главная проблема возникает при утверждении, что данные об исследуемой совокупности (люди, которые сообщают о преступлениях) представляют целевую совокупность по всем преступлениям, совершенным в Англии и Уэльсе. К сожалению, полицейская статистика систематически упускает случаи, которые полиция не зарегистрировала как преступления или о которых жертвы предпочли умолчать, такие как незаконное употребление наркотиков или отказ людей сообщать о краже или вандализме, когда из-за этого падают цены на недвижимость в месте их проживания. Вот яркий пример: когда в ноябре 2014 года полицейские методы регистрации подверглись суровой критике, число зафиксированных преступлений на сексуальной почве возросло с 64 тысяч в 2014 году до 121 тысячи в 2017-м, то есть почти удвоилось за три года.
Неудивительно, что эти два разных источника данных могут приводить к различным выводам о наблюдаемых тенденциях. Например, согласно «Исследованию преступности», между 2016 и 2017 годами уровень преступности снизился на 9 %, в то время как полиция зарегистрировала на 13 % больше правонарушений. Чему тут верить? Статистики больше доверяют опросу, а сомнения в достоверности предоставляемых полицией данных привели к тому, что в 2014 году они перестали использоваться в качестве национальной статистики.
Располагая полными данными, нетрудно получить статистику, описывающую то, что было измерено. Но если мы хотим применять их для более масштабных заключений о происходящем вокруг, качество данных приобретает первостепенное значение. И мы должны быть внимательны к систематическим ошибкам любого рода, которые могут поставить под угрозу надежность этих заключений.
Целые сайты посвящены перечислению возможных ошибок в статистике – от ошибки распределения (ошибка при распределении пациентов по группам) до ошибки добровольного участия (люди, добровольно участвующие в исследованиях, систематически отличаются от людей в генеральной совокупности). Хотя причины возникновения многих из них очевидны, в главе 12 мы узнаем и о более завуалированных причинах появления плохих статистических данных. Но сначала мы должны рассмотреть способы описания нашей конечной цели – целевой совокупности.
Колоколообразная кривая
Подруга в США родила доношенного ребенка весом 2910 граммов. Ей сказали, что это ниже среднего, и она обеспокоена. Действительно ли этот вес недостаточен?
Мы уже обсуждали понятие распределения данных (эмпирическое или выборочное распределение) – закономерность, которой подчинены данные в выборке. Теперь нам нужно рассмотреть концепцию распределения генеральной совокупности,то есть модель во всей интересующей нас группе.
Вернемся к нашей роженице. Будем думать о ее ребенке как о своего рода выборке из одного человека, взятой из генеральной совокупности всех детей, недавно родившихся в США у неиспаноязычных белых женщин (указание расы важно, поскольку вес новорожденных сообщается для различных рас). Распределение генеральной совокупности определяется по весу при рождении для всех таких младенцев; эти данные можно получить из Национальной системы статистического учета естественного движения населения США, в которой зарегистрировано свыше миллиона доношенных детей, родившихся в США в 2013 году у белых неиспаноязычных женщин. Хотя это не все множество рождений, тем не менее выборка настолько велика, что ее можно рассматривать как генеральную совокупность [80]. Новорожденные распределяются по группам в соответствии с их весом при рождении (с шагом 500 граммов); эти данные представлены на рис. 3.2(a).
Рис. 3.2
(a) Распределение веса при рождении для 1 096 277 детей, родившихся в США у белых неиспаноязычных женщин в 2013 году на 39–40 неделе беременности, а также кривая нормального распределения с теми же значениями среднего и среднеквадратичного отклонения (СКО), что и регистрируемый вес детей в этой генеральной совокупности. Ребенок весом 2910 граммов отображен пунктирной линией. (b) Значения среднего ±1, 2, 3 СКО для нормального распределения. (c) Процентили для нормального распределения. (d) Доля новорожденных с низкой массой тела (темно-серая область) и с массой менее 2910 г (серая область)
Вес ребенка вашей подруги (2910 граммов) указан в виде пунктирной линии, положение которой относительно всего распределения можно использовать для оценки того, насколько он «необычен». Важна форма этого распределения. Такие измерения, как вес, доход, рост и другие аналогичные величины, можно, по крайней мере теоретически, производить с любой желаемой точностью. Поэтому для них можно использовать непрерывные распределения, отображаемые не ступенчатыми, а плавными линиями [81]. Классический пример – колоколообразная кривая, или нормальное (гауссовское) распределение,которое впервые было подробно исследовано Карлом Фридрихом Гауссом в 1809 году в контексте анализа ошибок измерений в астрономии и геодезии [82].
Читать дальшеИнтервал:
Закладка: