Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Если задуматься, то мы окружены эпистемической неопределенностью в отношении вещей, которые определены, но нам пока неизвестны. Игроки ставят на следующую карту, мы покупаем билеты мгновенной лотереи, обсуждаем пол будущего ребенка, ломаем голову над детективом, спорим о количестве тигров, оставшихся в дикой природе, и получаем оценки возможного числа мигрантов или безработных. Все это объективно существующие факты или числа, просто мы их не знаем. Снова подчеркну, что с байесовской точки зрения для представления нашего личного незнания этих фактов и чисел удобно использовать вероятности. Мы можем даже подумать о присвоении вероятностей альтернативным научным теориям, но этот вопрос более спорный.
Конечно, эти вероятности будут зависеть от наших нынешних знаний: вспомните пример из главы 8, где вероятность выпадения орла или решки зависит от того, посмотрели мы на монету или нет. Байесовские вероятности с необходимостью субъективны – они зависят от наших отношений с окружающим миром, а не являются свойствами самого мира. Такие вероятности должны меняться по мере получения нами новой информации.
Это приводит нас ко второму крупному вкладу Байеса – результату, который позволяет постоянно пересматривать текущие вероятности в свете новых доказательств. Он известен как теорема Байесаи фактически предоставляет формальный механизм обучения на опыте – блестящее достижение для малоизвестного священника из маленького английского курортного городка [214].
Наследие Байеса обеспечивает фундаментальное понимание того, что данные не говорят сами за себя – центральную роль здесь играет наше внешнее знание и наши суждения. Это может показаться несовместимым с научным процессом, тем не менее наши фоновые знания и понимание всегда были частью извлечения информации из данных, разница лишь в том, что в байесовском подходе они обрабатываются формальным математическим образом.
О выводах из работы Байеса рьяно спорили многие статистики и философы, возражающие против идеи, что субъективное суждение играет в статистике какую-либо роль. Поэтому будет справедливо, если я проясню собственную позицию: меня познакомили с субъективистской байесовской школой статистических рассуждений в начале моей карьеры [215], и она до сих пор кажется мне наиболее удовлетворительным подходом.
У вас в кармане три монеты: на одной два орла, на другой две решки, третья обычная. Вы наугад вытаскиваете монету, подбрасываете ее, и выпадает орел. Какова вероятность, что на другой стороне монеты тоже орел?
Это классическая задача с эпистемической неопределенностью: как только монета падает после подбрасывания, никакой случайности не остается и любое высказывание о вероятности – всего лишь выражение вашего нынешнего личного незнания о другой стороне монеты.
Многие бы решили, что ответ – 1/2, поскольку монета либо обычная, либо с двумя орлами, и вероятность выбрать одну из них одинакова. Существует много способов это проверить, но проще всего использовать идею с ожидаемыми количествами, описанную в главе 8.
На рис. 11.1 показано, чего можно ожидать, если проделать такой эксперимент шесть раз. В среднем каждая монета будет выбрана дважды, и каждая из сторон выпадет по разу. Орел выпадает в трех случаях, причем в двух на второй стороне также будет орел. Поэтому вероятность того, что на второй стороне монеты тоже орел, равна 2/3, а не 1/2. По сути, выпадение орла повышает вероятность выбора монеты с двумя орлами, ведь у такой монеты есть два варианта упасть орлом вверх, а у симметричной – только один.
Рис. 11.1
Дерево ожидаемых количеств для задачи с тремя монетами, показывающее, чего можно ожидать в случае шести экспериментов
Если этот результат не кажется вам интуитивно понятным, то следующий пример удивит вас еще больше.
Предположим, что точность некой проверки на допинг в спорте – 95 %, то есть правильно будут определены 95 % тех, кто принимает допинг, и 95 % тех, кто не принимает. Допустим, что 1 из 50 атлетов действительно принимает допинг. Если тест спортсмена показал положительный результат, то какова вероятность, что он точно допингист?
Этот тип потенциально сложной задачи опять же лучше всего решать с помощью ожидаемых количеств, аналогично проверке женщин на рак молочной железы из главы 8 и ситуации с высокой долей неверных результатов в научных публикациях из главы 10.
Дерево на рис. 11.2 начинается с 1000 спортсменов, из которых 20 употребляли допинг, а 980 нет. Все допингисты, кроме одного, выявлены (95 % от 20 = 19), однако положительные тесты также оказались у 49 атлетов, не употреблявших допинг (95 % от 980 = 931). Следовательно, в общей сложности мы можем ожидать 19 + 49 = 68 положительных тестов, из которых только 19 действительно отражают допинг. Поэтому вероятность, что атлет с положительным допинг-тестом истинный допингист, составляет всего 19/68 = 28 %, а оставшиеся 72 % будут ложными обвинениями. Итак, хотя объявлено, что точность тестирования на допинг 95 %, большинство людей с положительным допинг-тестом на самом деле будут невиновными. Нетрудно представить все проблемы, которые этот парадокс может вызвать в реальной жизни, когда спортсменов незаслуженно клеймят за проваленный допинг-тест.
Рис. 11.2
Дерево ожидаемых количеств для задачи о допинге, показывающее, чего можно ожидать при проверке 1000 спортсменов, когда допинг принимает 1 из 50, а «точность» тестирования составляет 95 %
Один из способов осмыслить этот процесс – «поменять порядок» в дереве, сначала поставив тестирование, а затем раскрыв истину. Это показано на рис. 11.3.
Рис. 11.3
«Обращенное» дерево ожидаемых количеств для задачи о допинге, перестроенное так, чтобы сначала шли результаты тестов, а затем истинное положение вещей
Это «обращенное» дерево дает в точности те же числа, но учитывает временной порядок, в котором мы получаем информацию (тестирование → допинг), а не порядок по фактической временн о й шкале (допинг → тестирование). Это «обращение» как раз и есть тем, что делает теорема Байеса; на самом деле байесовское мышление до 1950-х именовалось «обратной вероятностью».
Пример со спортивным допингом показывает, насколько легко спутать вероятность наличия допинга при условии положительного теста (28 %) с вероятностью положительного теста при условии наличия допинга (95 %). Мы уже сталкивались со случаями, когда вероятность события А при условии, что произошло событие В, путали с вероятностью события В при условии, что произошло событие А:
• неправильная интерпретация P-значений, когда вероятность какого-то факта при условии нулевой гипотезы смешивается с вероятностью нулевой гипотезы при условии этого факта;
Читать дальшеИнтервал:
Закладка: