Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Изделия, сходящие с производственной линии, проверяли на соответствие стандарту, а весь процесс контролировался посредством постепенно накапливавшегося общего количества отклонений от стандарта – ровно так же, как при отслеживании избыточной смертности. Ученые поняли, что из закона повторного логарифма следует, что повторное тестирование всегда приводит к предупреждению, что промышленный процесс вышел из-под контроля, даже если на самом деле все функционирует нормально. Независимо друг от друга статистики из США и Соединенного Королевства разработали метод, известный как последовательный критерий отношения вероятностей (ПКОВ), представляющий собой статистику, которая отслеживает накапливающуюся информацию об отклонениях и может быть в любой момент сопоставлена с простыми пороговыми значениями. Как только один из этих порогов преодолевается, срабатывает сигнал тревоги и производственная линия исследуется [205]. Эти методы позволили создать более эффективные промышленные процессы, а позже были адаптированы к использованию в так называемых последовательных клинических испытаниях, при которых накапливаемые результаты регулярно отслеживаются, чтобы понять, не пересечен ли порог, указывающий на полезное лечение.

Я был одним из команды разработчиков варианта ПКОВ, который можно применить к данным о Шипмане. Рис. 10.4 отображает картину для мужчин и женщин в случае, когда в качестве альтернативной гипотезы выступает предположение, что смертность у Шипмана вдвое больше, чем у его коллег. У этого критерия есть пороговые значения, которые контролируют вероятность ошибки первого (альфа) и второго (бета) рода для значений 1 из 100, 1 из 10 000 и 1 из 1 000 000: ошибка первого рода – это общая вероятность того, что статистика пересечет пороговое значение в какой-нибудь точке, если бы у Шипмана был ожидаемый уровень смертности, а ошибка второго рода – общая вероятность статистики не пересечь пороговое значение в какой-нибудь точке, если бы у Шипмана был удвоенный ожидаемый уровень смертности [206].

Рис. 10.4

Статистика для последовательного критерия отношения вероятностей (ПКОВ) для обнаружения удвоения риска смертности: пациенты в возрасте >64 лет, умершие дома / на приеме. Прямые линии отображают пороговые значения «сигнала тревоги» для показанных общих величин ошибок первого (альфа) и второго (бета) рода – предполагается, что они совпадают. Если смотреть на линию для женщин, видно, что Шипман пересек бы внешний порог в 1985 году

Поскольку насчитывается около 25 тысяч семейных врачей, разумно взять пороговое P-значение 0,05/25 000, или 1 на 500 000. Для одних только женщин Шипман преодолел бы более строгий порог α = 0,000001, или 1 на миллион, в 1985 году, а суммарно для женщин и мужчин – в 1984-м. Поэтому последовательный критерий забил бы тревогу в тот же момент, что и примитивный повторяемый тест значимости.

Мы пришли к выводу, что если бы кто-то занимался таким отслеживанием и на Шипмана в 1984 году завели бы уголовное дело и осудили, то тем самым спасли бы примерно 175 жизней. И все исключительно с помощью применения простой процедуры статистического мониторинга.

После этого была запущена система наблюдения для врачей, которая немедленно выявила врача с еще более высоким уровнем смертности, чем у Шипмана! Расследование показало, что он работал в городке на южном побережье, где было много домов престарелых и множество стариков, и сознательно помогал многим пациентам оставаться дома до смерти, не настаивая на госпитализации в последние дни жизни. Было бы несправедливо осуждать этого доктора за выдачу большого числа свидетельств о смерти. Урок заключается в том, что, хотя статистические системы способны обнаружить выбросы, они не могут предложить их объяснения, поэтому нужно тщательно разбираться в каждом из них, чтобы избежать ложных обвинений. Еще одна причина быть осторожными с алгоритмами.

Что может быть не так с P-значениями?

Рональд Фишер развил идею P-значения как меры совместимости данных с какой-то предварительно сформулированной гипотезой. Таким образом, если вы вычислите P-значение и оно будет маленьким, это означает, что если ваша гипотеза верна, а значение статистики получилось крайне большим или малым, то это маловероятно; стало быть, либо произошло нечто удивительное, либо ваша исходная гипотеза неверна. Такая логика довольно запутанна, но мы видели, насколько полезной может быть эта базовая идея. Так что же может пойти не так?

Оказывается, многое. Фишер описывал ситуации, как в первых примерах этой главы, – с одним набором данных, одной характеристикой результата и одной проверкой совместимости. Но за последние несколько десятилетий P-значения существенно распространились в научной литературе – одно исследование насчитало 30 тысяч t -статистик и соответствующих P-значений всего лишь за три года публикации в восемнадцати журналах по психологии и нейробиологии [207].

Итак, давайте посмотрим, что можно ожидать при, скажем, 1000 исследований, каждое с размером 5 % (α) и мощностью 80 % (1 – β), хотя заметим, что на практике у большинства исследований мощность значительно ниже 80 %. Да, в реальном мире эксперименты проводятся в надежде сделать открытие, тем не менее нужно признать, что большинство нулевых гипотез верны (хотя бы приблизительно). Итак, предположим, что только 10 % проверенных нулевых гипотез на самом деле ложны: при испытаниях новых препаратов даже это число, вероятно, завышено – процент успехов здесь весьма низкий. Тогда, аналогично описанной в главе 8схеме, рис. 10.5 показывает, чего мы можем ожидать при 1000 исследований.

Рис. 10.5

Ожидаемые количества для результатов 1000 проверок гипотез с размером 5 % (вероятность ошибки первого рода, α) и мощностью 80 % (1 – β, при вероятности ошибки второго рода β). Только 10 % (100) нулевых гипотез ложны, и мы правильно обнаружим 80 % из них (80). Из 900 нулевых гипотез, которые истинны, мы неправильно отвергнем 5 % (45). В целом из 125 «открытий» ложными окажутся 36 % (45)

Получается, что можно ожидать заявления о 125 «открытиях», из которых 45 ложноположительные: иными словами, 36 % (больше трети) отклоненных нулевых гипотез («открытий») – это ложные утверждения. Столь мрачная картина усугубляется еще сильнее, если учесть, что на самом деле происходит в научной литературе, ориентированной на публикацию положительных результатов. После проведения аналогичного анализа Джон Иоаннидис, профессор школы медицины Стэнфордского университета, сделал в 2005 году свое знаменитое заявление, что «большинство публикуемых результатов исследований ложны» [208]. Мы вернемся к причинам его столь печального заключения в главе 12.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x