Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Адольф Кетле – бельгийский статистик, социолог и астроном XIX века – одним из первых привлек внимание к потрясающей предсказуемости общей картины, составленной из отдельных непредсказуемых событий. Он был заинтригован появлением нормального распределения при различных явлениях (например, распределении веса новорожденного, как описывалось в главе 3) и предложил идею «среднего человека» ( l’homme moyen ), который вобрал в себя среднее значение всех характеристик. Кетле развил идею «социальной физики», поскольку регулярные закономерности социальной статистики, казалось, отражали какой-то почти механический процесс, лежащий в ее основе. Так же как случайные молекулы газа, соединяясь, обеспечивают предсказуемые физические свойства, непредсказуемые действия миллионов отдельных людей в совокупности генерируют национальный уровень самоубийств, который из года в год практически не меняется.
К счастью, нам незачем верить, что реальные события обусловлены чистой случайностью (что бы это ни было). Просто предположение о «случайности» заключает в себе всю неизбежную непредсказуемость мира или то, что иногда называют естественной изменчивостью. Поэтому мы установили, что вероятность образует надлежащий математический фундамент как для «чистой» случайности, проистекающей из субатомных процессов, монет, костей и так далее, так и для «естественной» неизбежной изменчивости, проявляющейся в весе новорожденных, уровне выживаемости после операций, результатах экзаменов, количестве убийств и других явлениях, которые нельзя точно предсказать.
В следующей главе мы обратимся к поистине замечательной теме: как объединить эти два аспекта вероятности, чтобы получить строгую основу для формальных статистических выводов.
Выводы
• Теория вероятностей предоставляет формальный язык и математические инструменты для работы со случайными явлениями.
• Вероятностные выводы не бывают интуитивно понятными, однако понимание можно улучшить с помощью идеи ожидаемого количества.
• Вероятности полезны даже тогда, когда нет явного применения механизма рандомизации.
• Многие социальные явления в целом демонстрируют удивительную закономерность, в то время как отдельные события совершенно непредсказуемы.
Глава 9. Объединяем вероятность и статистику
Предупреждение. Это, пожалуй, самая сложная глава в книге, но, проявив настойчивость и изучив ее, вы обретете ценное понимание статистических выводов.
Мы обнаружили, что в случайной выборке из 100 человек 20 – левши. Что можно сказать о доле левшей во всей генеральной совокупности?
В предыдущей главе мы обсуждали идею случайной величины – одного элемента данных, извлеченного из какого-то вероятностного распределения, описываемого определенными параметрами. Но нас редко интересует только один элемент – обычно у нас большой массив данных, для которого мы вычисляем среднее, медиану и другие статистики. Фундаментальный шаг, который мы сделаем в этой главе, – рассмотрим эти статистики как случайные величины, извлеченные из их собственных распределений.
Это существенный шаг, создавший проблемы не только поколениям статистиков, но и математикам, которые пытались выяснить, из каких распределений мы извлекаем эти статистики. С учетом обсуждения бутстрэппинга в главе 7разумно задаться вопросом, зачем нам вообще нужна вся эта математика, когда мы можем узнать интервалы неопределенности и прочее, используя моделирование методом бутстрэппинга. Например, на вопрос, поставленный в начале главы, можно было ответить, взяв наблюдаемую выборку из 20 левшей и 80 правшей и многократные повторные выборки с возвратом по 100 наблюдений из этого набора, посмотреть на распределение наблюдаемой доли левшей.
Но такое моделирование неуклюже и затратно по времени, особенно для больших объемов данных, да и в более сложных ситуациях не так просто решить, что нужно моделировать. Напротив, формулы, предлагаемые теорией вероятностей, обеспечивают и понимание, и удобство и (в отличие от моделирования) всегда дают один и тот же ответ. Оборотная сторона в том, что эта теория опирается на предположения, и мы должны быть очень осторожны, чтобы впечатляющие выкладки не ввели нас в заблуждение и не привели к необоснованным выводам. Позже мы поговорим об этом подробнее, а пока, уже оценив полезность нормального и пуассоновского распределений, введем еще одно важное вероятностное распределение.
Предположим, что мы составляем выборки разного размера из совокупности, содержащей ровно 20 % левшей и 80 % правшей, и вычисляем вероятность получения различных возможных долей левшей. Конечно, здесь все наоборот – мы хотим по известной выборке узнать о неизвестной генеральной совокупности. Однако для этого нужно сначала исследовать, как известная совокупность порождает различные выборки.
Простейший случай – выборка из одного человека. Тогда доля леворуких будет 0 или 1 (в зависимости от того, выберем мы правшу или левшу) и вероятность этого события составит 0,8 и 0,2 соответственно. Полученное распределение вероятностей представлено на рис. 9.1(a).
Рис. 9.1
Вероятностное распределение наблюдаемой доли левшей в случайных выборках по 1, 2, 5, 10 и 1000 человек, где истинная доля левшей в генеральной совокупности равна 0,2. Вероятность получения не менее 30 % левшей в выборке вычисляется путем сложения вероятностей для всех значений справа от 0,3
Если мы выберем случайным образом двух человек, то доля левшей может быть 0 (оба правши), 0,5 (один левша и один правша) или 1 (оба левши). Вероятность таких событий равна 0,64, 0,32 и 0,04 соответственно [168], и это распределение показано на рис. 9.1(b). Аналогично с помощью теории вероятностей мы можем найти распределение для наблюдаемых долей левшей в выборках по 5, 10, 100 и 1000 человек (рис. 9.1). Такое распределение известно как биномиальное, а часть диаграммы, лежащая правее какого-либо значения, называется его хвостом.
Среднее значение случайной величины также известно как математическое ожидание, и в наших выборках мы можем ожидать долю левшей 0,2, или 20 %: все распределения, представленные на рис. 9.1, имеют среднее 0,2. Среднеквадратичное отклонение для каждого из них зависит от параметров распределения (в нашем случае 0,2) и размера выборки. Обратите внимание, что стандартное отклонение какой-то статистики обычно называют стандартной ошибкой, чтобы отличить от стандартного (среднеквадратичного) отклонения в распределении, из которого взяты данные.
Рис. 9.1демонстрирует некоторые отличительные особенности. Во-первых, по мере увеличения выборки форма распределения становится более правильной и симметричной (так же как мы наблюдали при использовании бутстрэппинга), во-вторых, распределения сужаются. В следующем примере показано, как простое применение этих идей позволяет быстро определить, насколько статистическое утверждение обоснованно.
Читать дальшеИнтервал:
Закладка: