Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Конечно, о такой научной объективности проще говорить, чем реализовывать на практике. Когда в 1834 году Чарльз Бэббидж, Томас Мальтус и другие ученые создали Лондонское статистическое общество (впоследствии Королевское статистическое общество), они помпезно заявили, что «статистическое общество будет считать первым важнейшим правилом своей деятельности тщательное исключение всех частных мнений из своих протоколов и публикаций и основываться исключительно на фактах, причем – насколько это вообще возможно – на тех, которые могут быть записаны в численном виде и зафиксированы в таблицах» [63]. Увы, на это ограничение никто не обращал внимания с самого начала: авторы работ стали вставлять свои мнения о данных относительно преступлений, здоровья и экономики и советовать, что с этим делать. Возможно, лучшее, что мы можем сейчас, – признать это искушение и всячески стараться держать свое мнение при себе.
Первое правило коммуникации – закрыть рот и слушать, чтобы лучше познакомиться с аудиторией, будь то политики, профессионалы или широкие массы. Мы должны понимать их неизбежные ограничения и любые возможные недоразумения и бороться с искушением казаться слишком умными или чрезмерно вдаваться в детали.
Второе правило коммуникации – знать, чего вы хотите добиться. Будем надеяться, что цель – способствовать открытым обсуждениям и принятию взвешенных решений. Однако, похоже, нелишне повторить еще раз, что цифры не говорят сами за себя: контекст, язык и графический вид способствуют коммуникации. Нужно признать, что мы рассказываем историю, а люди неизбежно станут сравнивать и выносить суждения, даже если мы всего лишь хотели информировать, а не убеждать. Все, что мы можем, – это постараться предотвратить неуместные инстинктивные реакции с помощью предупреждений или системы представления данных.
Изложение с использованием статистики
В этой главе мы ввели понятие визуализации данных. Соответствующие методы часто используются для исследователей или достаточно подготовленной аудитории благодаря арсеналу средств, выбранных исходя из их ценности, чтобы обеспечить понимание и изучение данных, а не по причине их визуальной привлекательности. Но когда мы хотим донести до аудитории важное сообщение, содержащееся в данных, мы можем применить инфографику или визуализацию, чтобы привлечь внимание людей и рассказать хорошую историю.
Сложная инфографика регулярно появляется в СМИ, однако на рис. 2.10 представлен довольно простой пример, который говорит о социальных тенденциях, объединяя ответы на три вопроса из Национального исследования сексуальных отношений и образа жизни (Natsal-3) 2010 года: в каком возрасте мужчины и женщины впервые занялись сексом, когда они начали вместе жить и завели первого ребенка [64]. Медианный возраст для каждого их этих трех событий нанесен на график в зависимости от года рождения женщин, и три точки соединены жирной вертикальной линией. Устойчивое удлинение этой линии для диапазона между 1930 и 1970 годами демонстрирует увеличение периода, когда необходима эффективная контрацепция.
Рис. 2.10
Инфографика на основании данных Национального исследования сексуальных отношений и образа жизни (Natsal-3); выводы представлены как визуально, так и словесно
Еще более продвинутой является динамическая графика, где движение используется для выявления закономерностей изменений с течением времени. Специалистом по такой методике был Ханс Рослинг, чьи выступления на конференция TED [65]и видеоролики установили новый стандарт для выступлений с применением статистики, например демонстрация взаимосвязи между изменениями благосостояния и здоровья с помощью перемещения пузырьков, отражающих прогресс в каждой стране с 1800 года до наших дней. Рослинг использовал графику, чтобы исправить ошибочное представление о различии между развитыми и слаборазвитыми странами: динамические графики показывали, что со временем почти все страны стабильно двигались по одному и тому же пути в сторону улучшения благосостояния и процветания [66], [67].
В этой главе продемонстрирован весь диапазон представления информации – от простых описаний и изображения необработанных данных до сложных примеров изложения с применением статистики. Современные вычисления делают визуализацию данных проще и гибче. А поскольку характеристики выборки могут как скрывать, так и подчеркивать существенные особенности, важно наглядное графическое представление. Тем не менее выделение сводных характеристик выборки – только первый этап в процессе изучения данных. Чтобы продвинуться дальше по этому пути, нужно обратиться к фундаментальной идее того, чего мы намерены достичь в первую очередь.
Выводы
• При анализе эмпирических распределений данных (в частности, определения среднего и разброса) применяются различные числовые характеристики.
• Часто встречаются асимметричные распределения, а некоторые показатели крайне чувствительны к выбросам.
• Сводные характеристики выборки всегда скрывают какие-то детали, поэтому нужно проявлять осторожность, чтобы не потерять важную информацию.
• Наглядно эмпирические данные можно представить в виде точечной диаграммы, диаграммы типа «ящик с усами» или гистограмм.
• Для лучшего выявления закономерностей используйте преобразования. Для обнаружения закономерностей, выбросов, сходств и кластеров используйте глаза.
• Рассматривайте пары чисел как точки на плоскости, а динамические (изменяющиеся во времени) величины – как линии на графике.
• При исследовании данных основная цель – поиск факторов, объясняющих изменчивость.
• Графика может быть интерактивной и анимированной.
• Инфографика выделяет интересные особенности и помогает читателям погружаться в повествование, но она должна использоваться с осознанием ее цели и воздействия на аудиторию.
Глава 3. Почему мы смотрим на данные? Совокупности и измерение
Сколько сексуальных партнеров у британцев на самом деле?
В предыдущей главе мы рассмотрели несколько примечательных результатов недавнего британского исследования, в рамках которого люди сообщали о количестве своих сексуальных партнеров за всю жизнь. Графические методы анализа этих ответов выявили определенные особенности, включая очень длинный хвост, склонность указывать круглые числа (например, 10 и 20) и тот факт, что мужчины называют большее число партнеров, чем женщины. Но исследователей, потративших миллионы фунтов на сбор таких данных, на самом деле интересовали не ответы конкретных респондентов (в конце концов, всем им гарантировалась полная анонимность), а общие закономерности сексуального поведения британцев, которые они на основе этих ответов хотели обнаружить.
Читать дальшеИнтервал:
Закладка: