Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Предположим, что мы, основываясь исключительно на теоретических соображениях, оценили бы вероятность существования бозона Хиггса в 50 %, то есть шансы на его существование – 1:1. Данные, рассмотренные в предыдущей главе, дали P-значение, примерно равное 1 / 3 500 000. Можно вычислить, что это приводит к коэффициенту Байеса 80 000 в пользу существования бозона Хиггса, что считается очень сильным подтверждением даже по юридической шкале.

Соединив это значение коэффициента и априорные шансы 1:1, мы получим апостериорные шансы 80 000:1, или вероятность 0,99999 существования бозона Хиггса. Однако ни юридическое, ни научное сообщество не одобряют подобный анализ, даже если его использовать для идентификации останков Ричарда III.

Идеологическая битва

В этой книге мы перешли от неформального изучения данных путем знакомства с характеристиками выборки (статистиками) к использованию вероятностных моделей для получения доверительных интервалов, P-значений и так далее. Эти стандартные математические инструменты, с которыми сражались поколения учащихся, известны как «классические» или «частотные» методы, поскольку они основаны на свойствах больших выборок.

Альтернативный байесовский подход базируется на совершенно иных принципах. Как мы видели, внешние факты о неизвестных величинах, выраженные в виде априорного распределения в сочетании с вероятностной моделью для данных (правдоподобие) дают итоговое апостериорное распределение, которое становится основой для всех заключений.

Если мы всерьез принимаем такую статистическую философию, выборочные свойства становятся неактуальными. И, потратив годы на изучение того, что 95-процентный доверительный интервал не означает, что истинное значение лежит в нем с вероятностью 95 % [236], бедный студент теперь должен все это забыть: байесовский 95-процентный интервал неопределенности означает в точности последнее.

Однако дискуссии о «правильном» способе статистических выводов еще сложнее, чем простые споры между «частотниками» и «байесовцами». Как и политические движения, каждая школа делится на несколько фракций, которые нередко конфликтуют друг с другом.

В 1930-е годы в научных кругах вспыхнула трехсторонняя схватка. Площадкой для спора стало Королевское статистическое общество, которое тогда (как и сейчас) тщательно протоколировало и публиковало дискуссии о работах, представленных на его заседаниях. Когда в 1934 году Ежи Нейман предложил теорию доверительных интервалов, Артур Боули, ярый сторонник байесовского подхода, тогда известного как обратная вероятность, отмечал: «Я совсем не уверен, что “доверие” – это не “злоупотребление доверием”». А затем предложил байесовский подход: «Действительно ли это продвигает нас дальше?.. Действительно ли ведет нас к тому, что нам необходимо, – к шансам, что во Вселенной, где мы берем выборки, эта доля находится в… определенных границах? Я думаю, что нет». Издевательское связывание доверительных интервалов со злоупотреблением доверием в последующие десятилетия продолжилось.

В следующем, 1935 году началась открытая война между двумя небайесовскими лагерями – Рональдом Фишером с одной стороны и Ежи Нейманом и Эгоном Пирсоном – с другой. Подход Фишера базировался на оценивании с использованием функции правдоподобия, выражающей относительное подтверждение для различных значений параметра, которое давали данные, а проверка гипотез основывалась на P-значениях. Напротив, подход Неймана – Пирсона, известный как «индуктивное поведение», в значительной степени фокусировался на принятии решений: если вы решаете, что истинный ответ находится в 95-процентном доверительном интервале, то будете правы 95 % времени и должны контролировать ошибки первого и второго рода при проверке гипотез. Ученые даже предлагали «принимать» нулевую гипотезу, если она включала 95-процентный доверительный интервал, – концепция, которая Фишеру казалась кощунством (и впоследствии была отвергнута статистическим сообществом).

Сначала Фишер обвинил Неймана «в ряде заблуждений, выявленных в его статье». Тогда на защиту Неймана встал Пирсон, сказав, что, «хотя он знает о распространенной вере в непогрешимость профессора Фишера, он должен в первую очередь просить позволения усомниться в мудрости обвинений какого-нибудь коллеги в некомпетентности, если при этом не продемонстрированы успехи в овладении предметом спора». Желчные дискуссии между Фишером и Нейманом длились десятилетиями.

Борьба за идеологическое лидерство в статистике продолжилась и после Второй мировой войны, но со временем более классические небайесовские школы стали применять прагматичное сочетание подходов: эксперименты в целом разрабатывались с использованием теории ошибок первого и второго рода по Нейману – Пирсону, а их анализ проводился с фишеровской точки зрения – с P-значениями в качестве меры подтверждения. Как мы видели в контексте клинических испытаний, этот странный сплав, похоже, неплохо себя проявил, и в итоге выдающийся (байесовский) статистик Джером Корнфилд заметил: «Парадокс состоит в том, что, несмотря ни на что, возникла прочная конструкция непреходящей ценности, которой не хватает всего лишь надежного логического фундамента, на котором она, как изначально предполагалось, должна быть построена» [237].

Предполагаемые преимущества традиционных статистических методов перед байесовским подходом включают явное отделение фактов в данных от субъективных факторов, общую простоту вычислений; распространенность и установившиеся критерии «значимости»; доступность программного обеспечения; существование робастных методов, при которых нет нужды делать сильные предположения о форме распределения. В то же время сторонники байесовской теории утверждают, что сама возможность использовать внешние и даже явно субъективные элементы – это то, что позволяет делать более мощные выводы и прогнозы.

Статистическое сообщество долгое время было втянуто в злобные споры об основах предмета, но сейчас объявлено перемирие и нормой стал более универсальный подход, когда методы выбираются в соответствии с практическими потребностями, а не идеологическими сертификатами, выданными школами Фишера, Неймана – Пирсона или Байеса. Это выглядит разумным и прагматичным компромиссом в дискуссии, которая нестатистикам может показаться довольной запутанной. Я думаю, что разумные статистики в целом придут к сходным заключениям, несмотря на расхождения в отношении фундаментальных основ. Проблемы, возникающие в статистике, обычно появляются не из-за различной философии, лежащей в основе используемых методов. Чаще их причина – не лучший проект эксперимента, данные со смещением, неправильные предположения и – возможно, самое важное – отсутствие надлежащей научной практики. И в следующей главе мы рассмотрим эту темную сторону статистики [238].

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x