Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Первый шаг – построение регрессионной модели для вероятности голосования определенным образом при данных характеристиках ячейки, поэтому наша задача сводится к оцениванию коэффициентов уравнения регрессии. Но их по-прежнему слишком много для надежной оценки с помощью стандартных методов, вот тут и приходят на помощь байесовские идеи. Коэффициенты для различных областей предполагаются сходными – своего рода промежуточная точка между предположением, что они в точности одинаковы, и предположением, что они совершенно не связаны.

Можно показать, что это предположение эквивалентно тому, что все эти неизвестные величины извлечены из одного и того же априорного распределения, и это позволяет нам смещать многие отдельные, довольно неточные оценки ближе друг к другу, что в итоге приводит к более уверенным выводам, на которые не так сильно влияет несколько странных наблюдений. Сделав такие более надежные оценки поведения при голосовании внутри каждой из тысяч ячеек, можно объединить все результаты и спрогнозировать, как проголосует вся страна.

На президентских выборах в США в 2016 году опросы, основанные на многоуровневой регрессии и постстратификации, правильно определили победителя в 50 случаях из 51 (50 штатов и округ Колумбия), исходя из ответов всего 9485 человек за несколько недель до выборов, и ошиблись только для Мичигана. Аналогичные хорошие прогнозы были сделаны и для выборов 2017 года в Соединенном Королевстве, где компания YouGov опросила 50 тысяч человек, не заботясь о репрезентативности выборки, а затем с помощью метода MRP предсказала подвешенный парламент [231], где консерваторы получат 42 % голосов, что в действительности и произошло. А вот опросы, использовавшие более традиционные методы, с треском провалились [232].

Так можем ли мы сделать пресловутый шелковый кошелек из подходящего неслучайного свиного уха? MRP не панацея – если большое количество респондентов систематически дают недостоверные ответы и тем самым не представляют свою «ячейку», то никакой сложный статистический анализ не компенсирует этой ошибки. Однако, по-видимому, байесовское моделирование полезно использовать для каждого отдельного участка голосования и, как мы увидим позже, это на удивление эффективно в экзитполах, проводимых в день голосования.

Байесовское «сглаживание» может добавить точность очень скудным данным, и такие методы все чаще применяются, например, для моделирования распространения болезней во времени и пространстве. Байесовское обучение сейчас рассматривается как фундаментальный процесс осознания человеком окружающей обстановки, когда у нас есть априорные ожидания того, что мы увидим в каком-то контексте, а далее нужно обращать внимание только на неожиданные изменения в нашем видении, которые затем используются для обновления наших текущих представлений. Эта идея лежит в основе так называемого байесовского мозга [233]. Те же самые процедуры обучения были реализованы в самоуправляемых автомобилях, которые имеют вероятностную «ментальную карту» окружающей местности, постоянно обновляющуюся по мере распознавания светофоров, людей, других машин и так далее. «По сути, робот-автомобиль “думает” о себе как о вероятностном пузырьке, путешествующем по байесовской дороге» [234].

Эти проблемы касаются оценки величин, описывающих мир, однако использование байесовских методов для оценки научных гипотез более спорно. Как и при проверке гипотез методом Неймана – Пирсона, нам сначала нужно сформулировать две конкурирующие гипотезы. Нулевая гипотеза H 0обычно означает отсутствие чего-либо, например отсутствие бозона Хиггса или эффекта от какого-то метода лечения. Альтернативная гипотеза H 1утверждает, что нечто важное существует.

Идеи, лежащие в основе проверки байесовских гипотез, по сути, те же, что и в судебных разбирательствах, когда нулевая гипотеза обычно означает невиновность, а альтернативная – вину, и мы каждым фактом-доказательством выражаем поддержку той или иной гипотезы в виде отношения правдоподобия. Для проверки научных гипотез точным эквивалентом отношения правдоподобия служит коэффициент Байеса, с той лишь разницей, что научные гипотезы обычно содержат неизвестные параметры, например реальный эффект при альтернативной гипотезе. Коэффициент Байеса можно получить только посредством усреднения по отношению к априорному распределению неизвестных параметров, что делает именно априорное распределение критически важным. Это самая спорная часть байесовского анализа. Поэтому попытки заменить стандартные проверки значимости байесовскими коэффициентами (в частности, в психологии) стали источником серьезных споров; при этом критики указывают, что за любым байесовским коэффициентом скрываются предположительные априорные распределения для любых неизвестных параметров в обеих – нулевой и альтернативной – гипотезах.

Роберт Касс и Адриан Рафтери – два известных байесовских статистика – предложили широко используемую шкалу для байесовских коэффициентов (табл. 11.3). Обратите внимание на ее контраст со шкалой из табл. 11.2для словесных интерпретаций отношения правдоподобия, применяемых в юриспруденции, где для объявления какого-то факта «очень сильным подтверждением» отношение правдоподобия должно быть 10 000, в отличие от научных гипотез, для которых нужен байесовский коэффициент больше 150. Возможно, это отражает необходимость установить вину на уровне «вне разумных сомнений», в то время как о научных открытиях заявляют на основании более слабых доказательств, многие из которых опровергаются в ходе дальнейших исследований.

Таблица 11.3

Шкала Касса и Рафтери для интерпретации коэффициентов Байеса в пользу какой-либо гипотезы [235]

В главе о проверке гипотез говорилось что Pзначение 005 эквивалентно только - фото 28

В главе о проверке гипотез говорилось, что P-значение 0,05 эквивалентно только «слабому подтверждению». Частично такое утверждение основано на коэффициентах Байеса: можно показать, что P = 0,05 соответствует (при некоторых разумных априорных условиях при альтернативной гипотезе) коэффициентам Байеса, лежащим между 2,4 и 3,4, что, согласно табл. 11.3, будет «слабым подтверждением». Как мы узнали из главы 10, это привело к предложению понизить пороговый уровень P-значения для объявления об «открытии» до 0,005.

В отличие от проверки значимости нулевой гипотезы, коэффициенты Байеса обращаются с обеими гипотезами симметрично и поэтому могут активно поддерживать нулевую гипотезу. И при готовности поставить в гипотезы априорные вероятности мы могли бы даже вычислить апостериорные вероятности для альтернативных теорий об устройстве мира.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x