Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Сводные статистические данные о количестве сексуальных партнеров (противоположного пола) за всю жизнь, согласно ответам 806 мужчин и 1215 женщин в возрасте 35–44 лет, участвовавших в опросе Natsal-3 в период с 2010 по 2012 год. Среднеквадратичное отклонение включено для полноты картины, хотя и не является удачной характеристикой при таком разбросе данных

При сравнении ответов мужчин и женщин можно отметить, что у мужчин партнеров больше, чем у женщин – как по выборочному среднему (около 6), так и по медиане (3). Или, если воспользоваться относительными показателями, число партнеров, которое сообщают мужчины, примерно на 60 % больше, чем у женщин – как для выборочного среднего, так и для медианы.
Такая разница может вызвать у нас подозрения в отношении данных. В замкнутой генеральной совокупности (популяции)с одинаковым количеством мужчин и женщин и примерно одинаковым возрастным профилем среднее (в смысле среднее арифметическое) число партнеров противоположного пола у мужчин и женщин должно быть практически равнозначным! [53]Так почему же мужчины в возрастной группе от 35 до 44 лет сообщают о значительно большем количестве партнеров, чем женщины? Отчасти это может объясняться наличием у мужчин более молодых партнерш, которые не попадают в этот возрастной диапазон, а отчасти существованием систематического расхождения между тем, как мужчины и женщины учитывают свою сексуальную историю. Похоже, мужчины склонны преувеличивать число партнеров, а женщины – преуменьшать, или верно и то и другое.
На рис. 2.4 показано реальное распределение, которое подтверждает мнение о тяжелых правых хвостах, сложившееся на основании параметров, представленных в таблице. Кроме того, при взгляде на диаграмму видны и другие важные детали, такие как склонность мужчин и женщин указывать округленные числа при наличии десяти и больше партнеров (за исключением одного педантичного мужчины, возможно, статистика, который точно указал: сорок семь). Конечно, вы можете задуматься о достоверности таких сведений, а возможные искажения в них мы обсудим в следующей главе.
Рис. 2.4
Данные, предоставленные Natsal-3 на основе опроса 2010–2012 годов. Из-за экономии места ограничены числом 50, однако общее количество и у мужчин, и у женщин достигало 500. Обратите внимание на склонность мужчин называть большее число партнеров, чем женщины, и указывать круглые числа в случае 10 и более партнеров представителями обоих полов
Большие совокупности данных обычно характеризуются несколькими параметрами положения и разброса, а пример с сексуальными партнерами доказал, что эти параметры позволяют существенно продвинуться в понимании общей картины. Однако ничто не заменит простого внимательного просмотра данных, и следующий пример показывает, что хорошая визуализация особенно полезна при намерении уловить закономерности в большом и сложном наборе чисел.
Взаимосвязи между переменными
Выше ли показатели выживаемости в более загруженных больницах?
Отмечается значительный интерес к так называемому эффекту масштаба в хирургии – утверждению, что в более загруженных больницах показатели выживаемости лучше, возможно, потому, что там выше эффективность и врачи имеют шанс приобрести больше опыта. На рис. 2.5 отображены показатели выживаемости детей в течение 30 дней после операций на сердце в больницах Великобритании в зависимости от количества прооперированных детей. На диаграмме 2.5(a) отображены данные о детях до 1 года за 1991–1995 годы (об этом периоде рассказывалось в начале предыдущей главы), поскольку именно эта возрастная группа отличается повышенным риском и находилась в центре внимания бристольского расследования. На диаграмме 2.5(b) представлены данные обо всех детях до 16 лет за 2012–2015 годы (также указаны в табл. 1.1); данных о детях до 1 года за этот период нет. По горизонтальной оси откладывается количество операций, а по вертикальной – уровень выживаемости [54].
Рис. 2.5
Диаграммы рассеяния показателей выживаемости в зависимости от количества операций на сердце у детей. Для (a) коэффициент корреляции Пирсона равен 0,59, а ранговый коэффициент корреляции – 0,85. Для (b) коэффициент корреляции Пирсона равен 0,17, а ранговый коэффициент корреляции –0,03
Данные за 1991–1995 годы на диаграмме 2.5(a) демонстрируют явный выброс – небольшую больницу с низким показателем выживаемости в 71 %. Это Бристольская больница, низкие показатели которой и последующее расследование мы обсуждали в главе 1. Однако если данные об этой больнице убрать (попробуйте закрыть эту точку пальцем), то вид данных за 1991–1995 годы подтверждает предположение о более высоком уровне выживаемости в больницах, где проводят больше операций.
Прямую или обратную зависимость между величинами на диаграмме рассеяния удобно выражать одним числом. Чаще всего для этого используется коэффициент корреляции Пирсона – идея, изначально предложенная Фрэнсисом Гальтоном, но официально закрепленная в работе Карла Пирсона, одного из основоположников современной статистики, в 1895 году [55].
Коэффициент корреляции Пирсона принимает значения от – 1 до 1 и показывает, насколько близко к прямой расположены точки на диаграмме. Коэффициент равен 1, если все точки лежат на прямой с положительным наклоном (чем больше одна величина, тем больше другая), и – 1, если все точки лежат на прямой с отрицательным наклоном (чем больше одна величина, тем меньше другая). Корреляция, близкая к 0, может свидетельствовать о случайном разбросе точек или о какой-либо иной зависимости, при которой отсутствует устойчивый возрастающий или убывающий тренд. Примеры таких случаев приведены на рис. 2.6.
Рис. 2.6
Два набора (вымышленных) данных, для которых коэффициент корреляции Пирсона будет примерно равен 0. Совершенно ясно, что это не говорит об отсутствии зависимости между двумя величинами. Из чудесной подборки диаграмм [56] Альберто Каиро [57]
Для данных за 1991–1995 годы, представленных на диаграмме 2.5(a), коэффициент корреляции Пирсона равен 0,59. Это подкрепляет связь между увеличением количества и ростом выживаемости. При удалении данных о Бристольской больнице коэффициент повышается до 0,67, поскольку оставшиеся точки ближе к прямой линии.
Другой критерий – ранговый коэффициент корреляции Спирмена, названный в честь английского психолога Чарльза Спирмена (создателя двухфакторной теории интеллекта [58]), – зависит не от конкретных численных значений, а от их рангов, то есть от занимаемых ими мест, если их упорядочить по величине. Это означает, что он может быть близок к 1 или –1, если точки близки к линии со стабильным подъемом или понижением, даже если эта линия не является прямой. Ранговый коэффициент Спирмена для данных на диаграмме 2.5(a)равен 0,85, что существенно выше, чем коэффициент Пирсона, поскольку точки ближе не к прямой, а к возрастающей кривой.
Читать дальшеИнтервал:
Закладка: