Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Для данных за 2012–2015 годы на диаграмме 2.5(b)коэффициент корреляции Пирсона равен 0,17, а ранговый коэффициент Спирмена – 0,03, что говорит об отсутствии четкой связи между количеством операций и уровнем выживаемости. Однако при таком небольшом количестве больниц коэффициент корреляции может быть очень чувствителен к отдельным точкам-данным: если мы уберем самую маленькую больницу с высоким уровнем выживаемости, то коэффициент корреляции Пирсона резко повысится до 0,42.
Коэффициенты корреляции – это просто некоторые характеристики связей, и их нельзя использовать для вывода о наличии взаимозависимости между количеством операций и показателем выживаемости, не говоря уже о том, почему такая связь может существовать [59]. Во многих приложениях ось x представляет независимую переменную, и интерес вызывает ее влияние на зависимую переменную, которая изображается по оси y . Однако, как мы увидим далее в главе 4, посвященной причинно-следственным связям, такое предположение заранее фиксирует направление влияния. Даже по диаграмме 2.5(a)мы не можем сделать вывод, что повышение показателя выживаемости в каком-либо смысле вызвано увеличением числа операций, ведь на самом деле все может быть наоборот: лучшие больницы просто привлекают больше пациентов.
Описание трендов
Каковы закономерности роста мирового населения за последние полвека?
Население мира растет, и понимание движущих факторов демографических изменений крайне важно для подготовки к вызовам, с которыми разным странам придется столкнуться сейчас или в будущем. Отдел народонаселения ООН дает оценки численности населения для всех стран мира с 1951 года по настоящее время, а также с прогнозом до 2100 года [60]. Сейчас мы рассмотрим мировые тенденции, начиная с 1951 года.
На рис. 2.7(a) представлены простые линейные графики для населения начиная с 1951 года. Видно, что за этот период оно утроилось и составляет примерно 7,5 миллиарда. Увеличение произошло в основном за счет стран Азии, однако закономерности для других континентов на рис. 2.7(a) уловить трудно. Впрочем, использование логарифмической шкалы на рис. 2.7(b) позволяет их разделить, обнаруживая более крутой уклон у Африки и более пологий в других местах, в частности в Европе, где в последнее время численность населения уменьшается.
Рис. 2.7
Общая численность населения планеты, отдельных континентов и стран между 1950–2015 годами: (a) показывает тренды на стандартной шкале; (b) – на логарифмической шкале, вместе с линиями трендов для отдельных стран с населением не менее миллиона человек в 1951 году
Серые линии на рис. 2.7(b) отображают изменения в отдельных странах, однако выявить отклонения от общей тенденции к росту невозможно.
На рис. 2.8 представлена простая сводная характеристика тренда для каждой страны – относительный рост населения за период с 1951 по 2015 год. Скажем, относительный рост 4 означает, что в 2015 году в стране жило в четыре раза больше людей, чем в 1951-м (как, например, в Либерии, Камеруне и на Мадагаскаре). Использование значков, пропорциональных размеру страны, привлекает внимание к более крупным государствам, а группировка по частям света позволяет сразу же обнаруживать как общие кластеры, так и выбросы. Всегда полезно разделять данные в соответствии с каким-нибудь фактором (в нашем случае – с континентом), который в какой-то степени объясняет общие изменения.
Рис. 2.8
Относительный рост населения с 1951 по 2015 год в странах, население которых в 1951 году составляло не менее миллиона человек
Значительный рост населения наблюдается в Африке, но с большим разбросом и одним экстремальным случаем – Кот-Д’Ивуар. Азия тоже демонстрирует существенные различия, что отражает широкое разнообразие стран этого континента; здесь экстремальные случаи – Грузия и Япония, с одной стороны, и Саудовская Аравия – с другой (у нее самый высокий показатель относительного роста населения в мире). Рост в Европе относительно низкий.
Как и любая хорошая диаграмма, эта вызывает новые вопросы и побуждает к дальнейшим исследованиям – как с точки зрения идентификации отдельных стран, так и изучения прогнозов будущих тенденций.
Конечно же, существует множество способов представления таких сложных массивов данных, как данные ООН по народонаселению, но ни один из них нельзя считать правильным. Тем не менее Альберто Каиро определил четыре общих признака хорошей визуализации данных.
1. Содержит достоверную информацию.
2. Схема выбрана так, чтобы соответствующие закономерности были заметны.
3. Выглядит привлекательно, при этом внешний вид не мешает правдивости, ясности и глубине.
4. Когда это уместно, способ организации позволяет проводить некоторые исследования.
Для реализации четвертого признака можно, например, позволить аудитории взаимодействовать с визуализацией. Хотя это трудно реализовать в книге, следующий пример покажет силу персонализации графического представления информации.
Как менялась популярность моего имени с течением времени?
Некоторые графики настолько сложны, что невооруженным взглядом трудно заметить интересные закономерности. Посмотрите на рис. 2.9, где каждая линия показывает рейтинг популярности имен мальчиков, родившихся в Англии и Уэльсе между 1905 и 2016 годами [61]. Рисунок отображает замечательную социальную историю, хотя сам по себе всего лишь демонстрирует быстро меняющуюся моду на имена, а уплотнение линий в последние годы говорит о расширении и разнообразии списка имен после середины 1990-х.
Рис. 2.9
Скриншот интерактивной диаграммы, предоставленный Национальным статистическим управлением Великобритании, где показаны тенденции изменения популярности имен мальчиков. Мои лишенные воображения родители дали мне в 1953 году самое популярное на то время имя, но с тех пор оно вышло из моды, в отличие от Оливера. Однако в последние годы имя Дэвид снова демонстрирует некоторые признаки повышения востребованности, возможно, благодаря Дэвиду Бекхэму
Только добавив интерактивность, мы можем выделить линии, представляющие для нас интерес. Например, мне интересен тренд для имени Дэвид, которое было особенно популярно в 1920-х и 1930-х годах, возможно, потому, что Дэвидом звали принца Уэльского (будущего короля Эдуарда VIII) [62]. Но затем оно резко утратило популярность – и если в 1953 году я был одним из десятков тысяч Дэвидов, то в 2016-м этим именем назвали всего 1461 ребенка, при этом больше сорока имен оказались гораздо популярнее.
Коммуникация
В этой главе мы старались обобщить и обнародовать данные открытым неманипулятивным способом, чтобы избежать влияния на эмоции и отношение аудитории и не навязывать ей определенную точку зрения. Мы просто хотим рассказать все как есть или по крайней мере как должно быть. Хотя мы не вправе претендовать на то, что излагаем абсолютную истину, мы пытались быть максимально правдивыми.
Читать дальшеИнтервал:
Закладка: