Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Выводы
• Интервалы неопределенности – важная часть информации о характеристиках выборки.
• Бутстрэппинг – это метод создания из первоначальной выборки новых наборов данных одинакового размера посредством перевыборок с возвратом.
• Выборочные характеристики, вычисленные с помощью бутстрэп-выборок, для больших наборов данных близки к нормальному распределению – независимо от формы исходного распределения данных.
• Интервалы неопределенности, построенные с помощью бутстрэппинга, используют вычислительные мощности современных компьютеров, не требуют предположений о математическом виде генеральной совокупности и сложной теории вероятностей.
Глава 8. Вероятность – язык неопределенности и случайности
В 1650-х годах самозваный шевалье [156]де Мере столкнулся во время игры с дилеммой. Не то чтобы он был уж слишком азартным игроком (хотя играл довольно увлеченно), но тем не менее хотел знать, в какой из двух игр у него больше шансов на победу.
Вариант 1. Правильная игральная кость бросается четыре раза, игрок побеждает, если хотя бы раз выпадает шестерка.
Вариант 2. Пара правильных игральных костей бросается 24 раза, игрок побеждает, если хотя бы раз выпадает пара шестерок.
На что выгоднее поставить?
В соответствии с эмпирическими статистическими принципами шевалье де Мере решил сыграть в обе игры много раз и посмотреть, насколько часто он выигрывает. Это потребовало немало времени и усилий, но в причудливой параллельной вселенной, где были компьютеры, но не было теории вероятностей, шевалье не потратил бы столько времени на сбор данных, а просто смоделировал бы тысячи игр.
На рис. 8.1 представлены результаты такого моделирования – доля побед по мере увеличения количества прохождений игр. Хотя какое-то время Вариант 2 кажется выгоднее, примерно после 400 игр становится ясно, что Вариант 1 лучше и что в (очень) долгосрочной перспективе шевалье может рассчитывать на победу примерно в 52 % игр для Варианта 1 и только 49 % игр для Варианта 2.
Рис. 8.1
Компьютерное моделирование 10 тысяч повторений двух вариантов игр. В Варианте 1 вы выигрываете, если шестерка выпадает хотя бы раз при четырех бросаниях кости, а в Варианте 2 – если пара шестерок выпадет хотя бы раз при 24 бросаниях пары костей. После первых 100 подбрасываний в каждом из вариантов (верхняя диаграмма) вроде бы выгоднее кажется Вариант 2, однако после тысяч игр (нижняя диаграмма) становится ясно, что Вариант 1 несколько лучше
Примечательно, что де Мере играл достаточно часто, чтобы прийти к аналогичному выводу: Вариант 1 немного лучше. Это шло вразрез с его (ошибочными) попытками вычислить шансы на победу [157], поэтому он обратился за помощью в модный парижский салон Мерсенна [158]. К счастью, его частым посетителем был философ Блез Паскаль, который, познакомившись с задачей, написал о ней своему другу Пьеру де Ферма (да-да, автору той самой Великой теоремы!). Вместе в последующей переписке они сделали первые шаги на пути к созданию теории вероятностей.
Несмотря на то что люди тысячелетиями играли в азартные игры и делали ставки на то, какой стороной упадут игральные кости, формальная теория вероятностей – сравнительно недавняя идея. В течение следующих пятидесяти лет после работ Паскаля и Ферма в 1650-х годах были заложены математические основы, и сегодня вероятность используется в физике, страховании, пенсионных расчетах, торговле на финансовых рынках, прогнозировании и, конечно же, в азартных играх. Но почему нужно использовать теорию вероятностей при статистических расчетах?
Мы уже встречались с концепцией «случайного выбора» из общего распределения в совокупности – ваша подруга из главы 3, родившая ребенка с низким весом, была нашим первым примером знакомства с вероятностью. Мы должны предположить, что любой элемент генеральной совокупности с равными шансами может попасть в нашу выборку: вспомните аналогию Гэллапа о перемешивании супаперед тем, как его попробовать. И мы видели, что при намерении делать какие-то статистические заключения о неизвестных аспектах мира, включая прогнозы, наши выводы неизбежно будут иметь некоторую неопределенность.
В предыдущей главе мы обсудили, как использовать бутстрэппинг, чтобы узнать, какого разброса в характеристиках выборки можно ожидать, делая раз за разом перевыборку, а затем применить эти данные для указания степени неопределенности в отношении истинной, но неизвестной характеристики всей генеральной совокупности. Опять же для этого нужна концепция «случайного выбора» – идея, которую легко улавливают даже маленькие дети как выразители справедливого выбора.
Традиционно курс статистики начинается с вероятности – именно так я всегда делал, когда преподавал в Кембридже, – однако такое математическое вступление может быть препятствием в понимании важных идей, изложенных в предыдущих главах, где теория вероятности не требуется. Напротив, эта книга – часть того, что можно назвать новой волной в преподавании статистики, в которой формальная теория вероятностей как основа для статистических выводов появляется гораздо позже [159]. Мы уже видели, что компьютерное моделирование – очень мощный инструмент как для изучения возможных будущих событий, так и для бутстрэппинга с помощью прошлых данных, однако это довольно неуклюжий и грубый способ проведения статистического анализа. Поэтому, несмотря на то что мы долгое время избегали формальной теории вероятностей, настало время познакомиться с ее жизненно важной ролью в обеспечении «языка неопределенности».
Но почему за последние 350 лет развилось нежелание использовать эту блестящую теорию? Меня часто спрашивают, почему люди склонны считать вероятность сложной и интуитивно неясной идеей, и я отвечаю, что после 40 лет исследований и преподавания пришел к выводу, что вероятность действительно сложная и интуитивно неясная идея. Я сочувствую любому, кто считает вероятность трудной и запутанной. Даже после десятилетий работы статистиком, когда мне задают школьный вопрос на вероятность, я предпочитаю уединиться, чтобы молча посидеть в тишине с ручкой и бумагой, попробовать несколько разных способов и наконец озвучить (как я надеюсь) правильный ответ.
Давайте начнем с моего любимого метода решения задач, который мог бы избавить от смущения некоторых политиков.
В 2012 году 97 парламентариев спросили: «Если вы подбросите монетку дважды, какова вероятность выпадения двух орлов?» Большинство – 60 из 97 – не смогли дать правильный ответ [160]. Как политики могли бы улучшить результаты?
Читать дальшеИнтервал:
Закладка: