Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Другими словами, если истинный эффект лечения составляет 25-процентное снижение смертности от сердечно-сосудистых заболеваний и 15-процентное – от всех причин (альтернативные гипотезы), то исследование имеет мощность примерно 90 %, а размер α = 1 %. Такие требования диктуют размер выборки свыше 20 000. Фактически, как показывает табл. 10.4, итоговые результаты дают 13-процентное уменьшение смертности от всех причин, что весьма близко к тому, что планировалось.

Идея о необходимости достаточно большой выборки для выявления правдоподобной альтернативной гипотезы прочно укоренилась при планировании медицинских испытаний. Однако исследования в психологии и нейробиологии часто используют размер выборок, определяемый удобством или традицией, и он может ограничиваться всего 20 объектами для каждого исследуемого состояния. В слишком маленьких исследованиях верные и интересные альтернативные гипотезы можно просто пропустить, поэтому сейчас наконец признали, что и в других областях исследований нужно задуматься о мощности проводимых экспериментов.

Как мы увидим в следующей главе, Нейман и Пирсон вели яростные, порой оскорбительные споры с Фишером по поводу правильного метода проверки гипотез, и этот конфликт так и не разрешился принятием какого-то единого «правильного» подхода. Как показывает исследование по защите сердца, клинические испытания, как правило, разрабатываются по теории Неймана – Пирсона, однако, строго говоря, размер и мощность не имеют значения, когда эксперимент уже фактически проведен. В этот момент испытания анализируются с помощью доверительных интервалов, демонстрирующих правдоподобные значения для эффектов лечения, а фишеровские P-значения показывают степень свидетельств против нулевой гипотезы. Таким образом, некая странная смесь идей Фишера и Неймана – Пирсона оказалась на удивление эффективной.

Можно ли было поймать Гарольда Шипмана раньше?

Из введениямы узнали, что доктор Гарольд Шипман за двадцать лет убил более двухсот пациентов, прежде чем был разоблачен. Семьи его жертв, естественно, очень взволновало то, что ему удавалось так долго совершать преступления, не вызывая подозрений, поэтому последовавшее общественное расследование должно было установить, существовал ли шанс заподозрить его раньше. До начала расследования подсчитали количество свидетельств о смерти, подписанных Шипманом для его пациентов с 1977 года, а затем сравнили это число с тем, которого можно было бы ожидать, исходя из возраста всех пациентов Шипмана и уровней смертности у других врачей, практикующих в данном районе. При проведении таких сравнений учитываются местные условия, например изменения температуры воздуха или вспышки гриппа. На рис. 10.3 представлены результаты, полученные путем вычитания ожидаемого количества из наблюдаемого числа свидетельств о смерти, выданных Шипманом с 1977 года до своего ареста в 1998 году. Эту разницу можно называть его «избыточной» смертностью.

Рис. 10.3

Совокупное количество свидетельств о смерти, подписанных Шипманом для пациентов 65 лет и старше, с вычетом числа ожидаемых смертей (с учетом возраста пациентов)

К 1998 году его избыточная смертность для людей в возрасте 65 лет и старше составила 174 женщины и 49 мужчин. Это почти точное количество пожилых людей, которые в ходе расследования были признаны его жертвами, что показывает поразительную точность этого чисто статистического анализа, куда не входили сведения о конкретных случаях [203].

Предположим, в какой-то вымышленной истории некто год за годом отслеживал смерти пациентов Шипмана и производил вычисления, необходимые для составления рис. 10.3. В какой момент ему следовало бить тревогу? Например, такой человек мог бы проводить проверку значимости в конце каждого года. У большого количества людей малая вероятность такого события, как смерть, поэтому можно считать, что количество смертей, подобно количеству убийств, имеет распределение Пуассона, а значит, нулевая гипотеза будет состоять в том, что совокупное число наблюдаемых смертей соответствует распределению Пуассона со средним значением, которое определяется числом ожидаемых смертей.

Если бы это было сделано с общим числом смертей для мужчин и женщин, которые показаны на рис. 10.3, то уже в 1979 году, то есть всего через три года наблюдений, появилось бы одностороннее P-значение 0,004, отражающее разницу между наблюдаемыми 40 смертями и ожидаемыми 25,3 [204]. Результаты могли бы быть объявлены статистически значимыми, и Шипман был бы разоблачен.

Однако существуют две причины, по которым такая статистическая процедура была бы крайне неуместна для отслеживания уровня смертности пациентов у врачей общей практики. Во-первых, если у нас нет веской причины подозревать именно Шипмана и наблюдать только за ним, то нам придется вычислять P-значения для всех семейных врачей в Соединенном Королевстве, а на тот момент их было около 25 тысяч. Но по примеру с мертвым лососем мы знаем, что при проведении достаточно большого количества проверок мы обязательно получим ложные сигналы. Если при пороге 0,05 протестировать 25 тысяч врачей, то каждый двадцатый из совершенно невинных докторов (то есть 1300 человек) покажет «статистически высокий уровень» при каждой проведенной проверке, а значит, в отношении него нужно вести расследование, что абсолютно абсурдно. А вот Шипман, наоборот, имел шанс потеряться среди всех этих ложноположительных случаев.

Альтернативой может считаться метод Бонферрони, то есть требование, чтобы P-значение равнялось 0,05/25 000, или 1 на 500 000. В этом случае Шипман был бы пойман в 1984 году, когда при ожидаемом количестве 59,2 у него было 105 смертей, то есть на 46 больше.

Но даже это не будет надежной процедурой для всех врачей в стране. Вторая проблема заключается в проведении повторных проверок на значимость, поскольку ежегодно добавляются новые данные и производится очередная проверка. Существует один замечательный, но сложный теоретический результат, именуемый очаровательным термином «закон повторного логарифма», который показывает, что, выполняя такое повторное тестирование, даже при справедливости нулевой гипотезы, мы определенно отвергнем ее при любом выбранном уровне значимости.

Это настораживает, потому что означает, что при долгосрочной проверке какого-нибудь доктора в итоге мы гарантированно посчитаем, что нашли доказательства избыточной смертности, хотя в реальности его пациенты не подвергаются никакому излишнему риску. К счастью, существуют статистические методы для решения проблемы последовательного тестирования, изначально разработанные во время Второй мировой войны группой статистиков, которая не имела ничего общего со здравоохранением, а трудилась над задачами контроля качества при производстве вооружения и других военных материалов.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x