Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Однако сначала рассмотрим ситуации 1 и 2. Непосредственно перед тем, как запустить рандомизирующее устройство, мы предполагаем, что у нас есть набор возможных результатов, которые можно наблюдать, а также их соответствующие вероятности – например, монета может выпасть орлом или решкой с вероятностью каждого исхода 1 / 2. Связав все возможные исходы с вероятностями их появления, мы можем сказать, что у нас есть случайная величина с каким-то вероятностным распределением. В ситуации 1 рандомизирующее устройство гарантирует, что наши наблюдения случайным образом извлекаются из этого распределения, но когда наблюдение сделано, вся случайность пропадает и все потенциально возможные пути развития будущего события сводятся к одному фактическому варианту. Аналогично, в ситуации 2, если мы случайным образом выбираем человека и, например, измеряем его доход, то мы фактически извлекаем случайное наблюдение из распределения доходов в генеральной совокупности.
Таким образом, вероятность явно важна при работе с рандомизирующим устройством. Но б о льшую часть времени мы просто рассматриваем все доступные на какой-то момент измерения, которые могли быть собраны без соблюдения формальностей или (как мы видели в главе 3) даже могут представлять все возможные наблюдения: вспомните об уровне выживаемости после операций на сердце у детей в различных больницах или результатах экзаменов у британских детей – оба включают все имеющиеся данные и никакой случайной выборки здесь просто нет.
В главе 3мы обсуждали идею метафорической генеральной совокупности, включающей все возможные случайности, которые могли бы произойти, но не произошли. Сейчас нам надо приготовиться к явно иррациональному шагу – действовать так, как будто данные получены каким-то случайным механизмом из общей совокупности, хотя мы прекрасно знаем, что это не так.
Если мы все наблюдаем, то откуда появляется вероятность?
Как часто мы ожидаем семь или более отдельных случаев убийства в Англии и Уэльсе за один день?
Когда несколько экстремальных событий происходят в тесной последовательности (например, череда крушений самолетов или природных катастроф), появляется естественное подозрение, что между ними существует какая-то связь. В этом случае важно выяснить, насколько необычны такие события, в чем нам и поможет следующий пример.
Чтобы оценить, насколько редок «кластер» из как минимум семи убийств в день, давайте изучим данные за три года (1095 дней) между апрелем 2014-го и мартом 2016-го. За этот период в Англии и Уэльсе было совершено 1545 убийств, то есть в среднем 1545/1095 = 1,41 в день. Ни одного дня с семью и более случаями убийства [166]за это время не наблюдалось, однако было бы весьма наивно полагать, что такое событие невозможно. Если мы сумеем построить разумное вероятностное распределение для количества убийств в день, то сможем ответить на поставленный вопрос.
Но каковы обоснования для построения такого вероятностного распределения? Число убийств, регистрируемых в стране, – это просто факт, тут нет никакой случайной выборки и явного случайного элемента, генерирующего каждое преступление. Просто невообразимо сложный и непредсказуемый мир. Но какова бы ни была наша личная философия по отношению к удачам и неудачам, оказывается, полезно действовать так, словно все эти события были порождены каким-то случайным процессом, основанным на вероятности.
Давайте представим, что в начале каждого дня у нас есть огромная популяция людей, в которой у каждого ее члена есть очень малая вероятность стать жертвой убийства. Такого рода данные можно считать наблюдениями из распределения Пуассона, предложенного французским математиком Симеоном Пуассоном в 1837 году для описания вероятности вынесения неправомерных обвинительных приговоров за год. С тех пор оно использовалось для моделирования всего – от количества голов, забитых футбольной командой в матче, и еженедельного числа выигрышных лотерейных билетов до ежегодного числа прусских офицеров, убитых ударом копыта их лошадей. Во всех этих ситуациях для наступления события есть очень большое число предпосылок, но каждая с ничтожно малым шансом на реализацию, что и приводит к необычайно универсальному распределению Пуассона.
Тогда как нормальное (гауссовское) распределение, описанное в главе 3, требует двух параметров (среднее значение и среднеквадратичное отклонение), у распределения Пуассона только один параметр (он имеет смысл среднего). В нашем конкретном примере это ожидаемое ежедневное число случаев убийства, которое мы принимаем равным 1,41, поскольку таково среднее значение за трехлетний период. Однако нам нужно тщательно проверить, насколько разумно предположение о распределении Пуассона, чтобы мы могли обращаться с количеством убийств так, словно это случайное наблюдение, взятое из пуассоновского распределения с параметром 1,41.
Например, зная это среднее, мы можем использовать формулу для распределения Пуассона или стандартное программное обеспечение, чтобы вычислить, что вероятность совершения пяти убийств в день равна 0,001134. А значит, за 1095 дней можно ожидать 1095 × 0,001134 = 12,4 дней, когда будут наблюдаться ровно пять случаев убийства.
Удивительно, но реальное число дней с пятью убийствами за трехлетний период… 13.
На рис. 8.5 приведено сравнение ожидаемого распределения для ежедневного числа убийств на основании распределения Пуассона и фактического эмпирического распределения для 1095 дней. Соответствие очень хорошее, и в главе 10 я покажу, как формально проверить, оправдано ли предположение о пуассоновском распределении данных.
Рис. 8.5
Наблюдаемое и ожидаемое (при условии распределения Пуассона) ежедневное количество зарегистрированных убийств за 2014–2016 годы в Англии и Уэльсе [167]
Чтобы ответить на вопрос, поставленный в начале этого раздела, мы можем вычислить вероятность семи и более убийств в день, исходя из распределения Пуассона. Она равна 0,07 %, а значит, такое событие можно ожидать в среднем раз в 1535 дней, то есть примерно раз в четыре года. Напрашивается вывод, что при нормальном ходе вещей оно маловероятно, но не невозможно.
Соответствие между этим математическим распределением и эмпирическими данными подозрительно хорошее. Несмотря на то что за каждой трагедией стоит какая-то личная история, и практически любая из них непредсказуема, данные ведут себя так, словно их сгенерировал какой-то известный случайный механизм. Благодаря способности представлять, что могли бы быть (но не были) убиты другие люди, мы наблюдаем один из множества возможных миров, которые могли реализоваться; точно так же как, подбрасывая монету, наблюдаем одну из возможных последовательностей.
Читать дальшеИнтервал:
Закладка: