Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
• ошибка прокурора в судебных разбирательствах, когда вероятность факта при условии невиновности путается с вероятностью невиновности при условии такого факта.
Разумный наблюдатель может подумать, что формальное байесовское мышление внесло бы ясность и строгость в работу с доказательствами в судебных разбирательствах, а потому точно удивится, узнав, что британские суды фактически запрещают теорему Байеса. Прежде чем объяснить, почему, нам нужно рассмотреть статистическую величину, которая в суде разрешена, – отношение правдоподобия.
Отношение шансов и отношение правдоподобия
Пример с допингом демонстрирует логические шаги, позволяющие добраться до той величины, которая действительно важна при принятии решения: среди спортсменов с положительным тестом доля реальных допингистов 19/68. Дерево ожидаемых количеств показывает, что эта величина зависит от трех ключевых чисел: доли атлетов, принимающих допинг (1/50, или 20 человек из 1000 в нашем дереве), доли допингистов, которые тест определяет правильно (95 %, или 19/20 в дереве), и доли честных атлетов с ложноположительным результатом теста (5 %, или 49/980 в дереве).
С помощью дерева ожидаемых количеств анализ становится вполне интуитивно понятным, хотя теорема Байеса также предоставляет удобную формулу для выражения в вероятностях. Но сначала мы должны вернуться к идее шансов, введенной в главе 1, хотя опытные игроки, по крайней мере в Британии, прекрасно с ней знакомы. Шансы на какое-то событие – это вероятность того, что оно произойдет, деленная на вероятность того, что оно не произойдет. Например, если мы бросаем игральную кость, то шансы на выпадение шестерки – 1 к 5. На самом деле вероятность выпадения шестерки равна 1/6, а вероятность выпадения нешестерки – 5/6; поэтому шансы на выпадение шестерки равны 1/6: 5/6 = 1/5 [216](обычно именуется «один к пяти» или «пять против одного», если вы используете британский метод выражения шансов в азартных играх).
Теперь нам нужно ввести идею отношения правдоподобия – понятия, ставшего критически важным при выражении силы судебных доказательств в уголовном судопроизводстве. Судьи и адвокаты постепенно учатся понимать отношения правдоподобия, которые фактически сравнивают относительную поддержку, предоставляемую неким фактом (свидетельством, доказательством) для двух конкурирующих гипотез, назовем их А и В, часто означающих виновность и невиновность. С технической точки зрения отношение правдоподобия – это вероятность факта при условии гипотезы А, деленная на вероятность факта при условии гипотезы В.
Давайте посмотрим, как это работает в случае с пробой на допинг, когда судебный факт – это положительный результат теста, гипотеза А – спортсмен принимал допинг, а гипотеза В – не принимал. Мы приняли, что 95 % допингистов сдают положительный тест, значит, вероятность такого факта при условии гипотезы А равна 0,95. Мы знаем, что 5 % атлетов, не принимающих допинг, сдают положительный тест, поэтому вероятность такого факта при условии гипотезы В составляет 0,05. Следовательно, отношение правдоподобия равно 0,95/0,05 = 19, то есть положительный результат теста в 19 раз более вероятен, когда спортсмен виновен, чем когда невиновен. На первый взгляд это может показаться довольно веским доказательством, но вскоре мы увидим отношения правдоподобия, составляющие миллионы и миллиарды.
Давайте соединим все это в теореме Байеса, которая просто говорит, что
начальные шансы какой-то гипотезы × отношение правдоподобия = конечные шансы для этой гипотезы [217].
В примере с допингом начальные шансы гипотезы «спортсмен принимал допинг» составляют 1 к 49, а отношение правдоподобия равно 19, поэтому теорема Байеса гласит, что конечные шансы равны
1/49 × 19 = 19/49.
Шансы 19 к 49 можно преобразовать в вероятность 19/(19 + 49) = 28 %. Таким образом, вероятность, которую мы получили более простым путем из дерева ожидаемых количеств, можно вывести и из теоремы Байеса.
На более формальном языке начальные шансы именуются априорными , а конечные – апостериорными [218]. Формулу можно применить еще раз, и тогда апостериорные шансы после первого факта станут априорными перед учетом второго, независимого, факта. При объединении всех этапов процесс эквивалентен умножению независимых отношений правдоподобия и формированию общего составного отношения правдоподобия.
Теорема Байеса выглядит обманчиво простой, но на самом деле в ней заключен чрезвычайно мощный способ получения информации из данных.
Отношения правдоподобия и судебная экспертиза
В субботу 25 августа 2012 года археологи начали раскопки под автостоянкой в Лестере в поисках останков Ричарда III. Через несколько часов был найден первый скелет. Какова вероятность, что он принадлежит Ричарду III?
Согласно популярному мнению, распространению которого активно способствовал сторонник Тюдоров Уильям Шекспир, Ричард III (последний король из династии Йорков) был злобным горбуном. И хотя это довольно спорная (впоследствии опровергнутая) точка зрения, доподлинно известно, что он был убит в битве при Босворте 22 августа 1485 года в возрасте 32 лет, что фактически положило конец войне Алой и Белой розы. Тело его было после смерти изувечено и захоронено в монастыре Грейфрайерс в Лестере, который впоследствии был разрушен, а через какое-то время на его месте построили автостоянку.
С учетом только предоставленной информации мы можем предположить, что скелет принадлежит Ричарду III, если истинны все нижеперечисленные условия:
• он действительно похоронен в монастыре Грейфрайерс;
• его тело не было выкопано, перемещено или уничтожено за следующие 527 лет;
• первый обнаруженный скелет действительно принадлежит Ричарду.
Предположим с изрядной долей пессимизма, что история о его похоронах правдива с вероятностью 50 % и что вероятность того, что скелет по-прежнему находится в месте захоронения в Грейфрайерсе, тоже 50 %. Представьте, что в указанном месте похоронено еще 100 тел (археологи хорошо знали, где копать, поскольку сообщалось, что Ричард похоронен в хоре монастыря). Тогда вероятность того, что все вышеуказанные события подлинны, равна 1/2 × 1/2 × 1/100 = 1/400. Это довольно низкая вероятность того, что найденный скелет – Ричард III; исследователи, которые первоначально проводили анализ, приняли «скептическую» априорную вероятность равной 1/40, так что мы гораздо скептичнее [219].
Однако детально исследовав скелет, археологи получили несколько примечательных результатов криминалистических экспертиз: 1) данные радиоуглеродного анализа костей (который дал 95-процентную вероятность, что они датируются периодом с 1456 по 1536 год); 2) подтверждение, что это был мужчина в возрасте около 30 лет с признаками сколиоза (искривления позвоночника); 3) доказательства того, что тело было изувечено после смерти. Генетический анализ с участием известных потомков его близких родственников (сам Ричард детей не имел) показал общую митохондриальную ДНК (через его мать). Связь по мужской Y-хромосоме не подтвердилась, но это можно легко объяснить разрывом в мужской линии из-за неправильно определенного отцовства.
Читать дальшеИнтервал:
Закладка: