Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Возможно, им стоило бы знать правила работы с вероятностями, но большинство людей их не знают. Однако в качестве альтернативы можно использовать более интуитивную идею, которая (как показали многочисленные психологические эксперименты) позволяет людям лучше понять суть вероятностей.

Это идея «ожидаемого количества». Столкнувшись с задачей о двух монетах, вы спрашиваете себя: «Что будет, если я проведу такой эксперимент несколько раз?» Например, вы подбрасываете одну монету, потом вторую – всего делаете так четыре раза. Подозреваю, что даже политик мог бы, слегка подумав, прийти к выводу, что можно ожидать результатов, показанных на рис. 8.2.

Рис. 8.2

Дерево ожидаемых частот для подбрасывания двух монет, повторенного четыре раза. Например, вы ожидаете, что среди первых четырех подбрасываний будут два орла, а на втором подбрасывании в одном случае выпадет орел, а во втором – решка

Таким образом, один раз из четырех вы могли бы ожидать выпадения двух орлов. Поэтому вероятность, что оба орла выпадут в единственной попытке, составляет 1 / 4. К счастью, это и есть правильный ответ.

Дерево ожидаемых частот можно преобразовать в «дерево вероятностей», если для каждой «развилки» указать долю соответствующих случаев (см. рис. 8.3). Тогда становится ясно, что общая вероятность всей ветви дерева (например, выпадения орла после орла) получается путем умножения дробей, стоящих на частях ветви, то есть 1 / 2 × 1 / 2 = 1 / 4.

Рис. 8.3

Дерево вероятностей для подбрасывания двух монет. На каждой «развилке» указана доля событий. Вероятность целой ветви дерева определяется путем умножения дробей на всех ее частях

Деревья вероятностей – весьма распространенный и крайне эффективный способ изучения вероятностей в школе. В самом деле, мы можем использовать этот простой пример с двумя монетами для ознакомления со всеми правилами вероятностей. Дерево показывает следующее:

1. Вероятность события – это число от 0 до 1, где 0 – вероятность невозможных событий (например, не выпали ни орлы, ни решки), а 1 – вероятность достоверных событий (выпала какая-то из четырех возможных комбинаций).

2. Правило дополнения. Дополнением к событию А называется событие, которое произойдет в случае, если А не произошло. Вероятность его наступления равна единице минус вероятность события А. Например, вероятность события «выпала хотя бы одна решка» равна единице минус вероятность события «выпало два орла»: 1–1 / 4 = 3 / 4.

3. Правило сложения (правило «ИЛИ»): если события несовместны (то есть не могут произойти одновременно), то вероятность того, что произойдет хотя бы какое-то одно из них, равна сумме вероятностей отдельных событий. Например, вероятность «выпадения хотя бы одного орла» составляет 3 / 4, так как включает три несовместных события: «выпало два орла», ИЛИ «выпал сначала орел, а потом решка», ИЛИ «сначала выпала решка, а потом орел» – каждое с вероятностью 1 / 4.

4. Правило умножения (правило «И»): при наличии последовательности независимых событий(то есть одно не влияет на другое) вероятность наступления всех событий в последовательности равна произведению вероятностей отдельных событий. Например, вероятность выпадения двух орлов равна 1 / 2 × 1 / 2 = 1 / 4.

Эти основные правила позволяют решить задачу шевалье де Мере, показывая, что на самом деле в варианте 1 его шансы на победу составляли 52 %, а в варианте 2 – 49 % [161].

Мы по-прежнему делаем сильные предположения – даже в простейшем примере с подбрасыванием монет. Мы полагаем, что монета симметрична, что результат при ее подбрасывании не будет предсказуем, что она не упадет на ребро, что после первого броска в Землю не врежется астероид и так далее. Задача всех этих серьезных (за исключением, пожалуй, падения астероида) соображений – подчеркнуть, что все используемые нами вероятности условны : не существует безусловной вероятности события; всегда есть какие-то предположения и иные факторы, которые могут на нее влиять. И, как мы сейчас увидим, нам нужно проявлять осторожность в отношении того, на чем мы основываемся.

Условная вероятность – когда вероятности зависят от других событий

При диагностике рака молочной железы точность маммографии – примерно 90 %, то есть она правильно определяет 90 % женщин с раком и 90 % женщин без рака. Предположим, что 1 % обследуемых женщин действительно больны. Какова вероятность, что у случайно выбранной женщины окажется положительная маммограмма, и если так, то какова вероятность, что у женщины на самом деле рак?

В случае с двумя монетами события независимы, поскольку вероятность выпадения орла на второй монете не зависит от результата подбрасывания первой монеты. В школе мы обычно узнаем о зависимых событиях, когда нам начинают задавать несколько утомительные вопросы, скажем, о разноцветных носках, которые вытаскивают из ящика. Пример выше гораздо ближе к реальной жизни.

Подобные задачи – классические в тестах оценки интеллекта, и их не так легко решать. Однако идея ожидаемого количества существенно упрощает проблему. Ее суть – подумать, чего можно ожидать для большой группы женщин (скажем, 1000), как показано на рис. 8.4.

Рис. 8.4

Дерево ожидаемых частот, отображающее наши ожидания для 1000 женщин, проходящих скрининг рака молочной железы. Мы предполагаем наличие рака у 1 % женщин, а маммография верно классифицирует 90 % женщин с раком молочной железы и 90 % женщин без рака. Всего мы можем ожидать 9 + 99 = 108 положительных маммограмм, из которых девять окажутся истинно правильными

Из 1000 женщин у 10 (1 %) действительно выявляют рак молочной железы. Из этих 10 у девяти (90 %) обследование даст положительный результат. Однако из 990 здоровых женщин (без рака) у 99 (10 %) маммография будет ложноположительной. В общей сложности мы получим 9 + 99 = 108 положительных маммограмм, а значит, вероятность того, что у случайно выбранной женщины будет положительный результат, равна 108 / 1000 ≈ 11 %. Но среди этих 108 реально больны раком только 9, поэтому вероятность, что у женщины на самом деле рак, равна 9 / 108 ≈ 8 %.

Это упражнение на условную вероятность помогает понять весьма парадоксальный результат: несмотря на «90-процентную точность» маммографии, подавляющее большинство женщин с положительной маммограммой на самом деле не больны. Легко перепутать «вероятность положительного теста при условии наличия рака» с «вероятностью рака при условии положительного теста».

Такая путаница известна как «заблуждение прокурора», поскольку часто встречается в судебных разбирательствах, связанных с анализом ДНК. Например, судебно-медицинский эксперт может утверждать, что «если обвиняемый невиновен, то вероятность того, что его ДНК совпадет с ДНК, найденной на месте преступления, только один шанс на миллиард». Но это неверно интерпретируется как «учитывая данные анализа ДНК, есть только один шанс на миллиард, что обвиняемый невиновен» [162].

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x