Нейт Сильвер - Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет
- Название:Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет
- Автор:
- Жанр:
- Издательство:Array Литагент «Аттикус»
- Год:2015
- Город:Москва
- ISBN:978-5-389-09938-8
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Нейт Сильвер - Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет краткое содержание
О том, как этому научиться, рассказывает Нейт Сильвер, политический визионер и гуру статистики, разработавший систему прогнозов, позволившую дважды максимально точно предсказать результаты президентских выборов почти во всех штатах Америки. Его книга во многом близка исследованиям Нассима Талеба и столь же значима для всех, кто имеет дело с большими объемами данных и просчитывает различные варианты развития событий. И если Талеб говорит о законах зарождения «черных лебедей», Сильвер исследует модели и способы, позволяющие поймать этих птиц в расставленные нами сети. Он обобщает опыт экспертов-практиков, изучает различные модели и подходы, позволяющие делать более точные прогнозы. Как и Даниэль Канеман, автор бестселлера «Думай медленно… Решай быстро», наблюдая за поведением и мышлением людей, оценивающих неопределенные события, Сильвер утверждает: да, компьютеры незаменимы при работе с огромными массивами данных, но для максимальной точности результатов необходим гибкий человеческий ум и опыт, ведь прогнозирование – это планирование в условиях неопределенности.
Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Экстраполяция приводит к одной из самых значительных проблем при исследовании как роста населения, так и распространения болезней, когда изучаемый показатель увеличивается по экспоненте. В начале 1980‑х гг. совокупное количество случаев заболевания СПИДом, диагностированных в США, росло в геометрической прогрессии {497}: в 1980 г. было 99 случаев, в 1981 г. – 434, а к 1984 г. оно достигло 11 148. Эти цифры можно нанести на график, как сделали некоторые ученые в то время {498}, и попытаться его экстраполировать, чтобы выявить закономерность. В этом случае можно было бы сделать прогноз о том, что количество случаев СПИДа, диагностированных в США, могло бы вырасти к 1995 г. до 270 тыс. Довольно неутешительный прогноз, однако на самом деле все стало гораздо хуже: к 1985 г. СПИДом заболело около 560 тыс. человек, то есть примерно в два раза больше (рис. 7.2).

Рис. 7.2.Общее количество случаев заболевания СПИДом, диагностированных в США: реальное до 1984 г. и экстраполированное до 1995 г.
Возможно, однако, что с точки зрения статистики точные прогнозы, основанные на экстраполяции по экспоненциальной шкале, вообще нельзя делать. Даже корректная версия этого метода {499}, учитывающая предел погрешности, показывает, что количество случаев заболевания СПИДом в 1995 г. могло колебаться в пределах от 35 тыс. до 1,8 млн. Этот диапазон слишком широк, чтобы дать какую-то разумную основу для прогноза.
Почему оказались неудачными предсказания, касающиеся эпидемии гриппа в 2009 г.
Хотя статистические методы, используемые эпидемиологами при анализе вспышек гриппа, не так просты, как в описанных выше примерах, при их использовании все равно приходится сталкиваться с проблемой экстраполяции. Это связано с тем, что обычно имеется только небольшое количество потенциально сомнительных базовых точек данных.
Одной из самых полезных переменных при прогнозировании распространения болезни является так называемое репродуктивное число, обычно обозначаемое R0. Значение R0 показывает, какое количество неинфицированных людей потенциально могут заразиться от единственного инфицированного человека. Например, значение R0, равное 4, означает, что – при отсутствии вакцин или других средств защиты – заболевший человек передаст болезнь еще четырем людям до того момента, как выздоровеет (или умрет).
Теоретически любая болезнь с R0 > 1 распространится со временем (при отсутствии вакцин и карантинов) на все население. Однако порой значение R0 бывало обманчивым: оно приближалось к 3 для «испанки», к 6 для оспы и к 15 для кори. В случае малярии, одной из самых смертельно опасных болезней в истории цивилизации, до сих пор отвечающей примерно за 10 % смертей в некоторых уголках мира, значение этого показателя может достигать сотен {500}(табл. 7.1).
Таблица 7.1.Медианные значения [94]R0 для различных заболеваний {501}

Проблема состоит в невозможности сформулировать надежные расчеты R0 до тех пор, пока болезнь не распространится по всему сообществу и пока у вас не появится достаточно времени для тщательного изучения статистики. Поэтому эпидемиологи вынуждены делать экстраполяции, основываясь на ранних и немногих данных. Измерить на ранних этапах другой ключевой статистический показатель заболеваемости, смертность, может быть столь же сложно. Мы сталкиваемся с ситуацией «Уловки-22»; болезнь невозможно точно предсказать без этой информации, однако надежные количественные расчеты чаще всего оказываются невозможными, пока болезнь не наберет обороты.
Данные о первых вспышках инфекционных заболеваний часто бывают искаженными. Например, приведенные выше цифры о первых поставленных диагнозах СПИДа в США стали доступными лишь через несколько лет после заражений. Но даже скорректированные статистические данные не позволили улучшить качество прогнозов. Однако если бы мы были вынуждены положиться на данные, реально доступные ученым в то время {502}, то результаты могли оказаться еще хуже. Это связано с тем, что в первые годы своего развития СПИД плохо воспринимался и вызывал чувство стыда как у пациентов, так и у врачей {503}. Множество странных синдромов с симптомами, напоминавшими СПИД, оставались без диагноза или диагностировались неправильно – иногда причиной смерти считались другие инфекции, вызываемые СПИДом. Лишь многие годы спустя, когда врачи начали заново открывать старые истории болезней, им удалось лучше оценить развитие СПИДа в первые годы.
Неточные данные также послужили причиной плохих прогнозов распространения свиного гриппа в 2009 г. Смертность, связанная с H1N1, была, по всей видимости, достаточно высокой в Мексике, однако оказалась невероятно низкой в США. Хотя отчасти это было связано с различиями в эффективности здравоохранения в каждой стране, значительная часть различий представляла собой на самом деле статистическую иллюзию.
Само понятие смертности представляет собой простое отношение количества смертельных случаев, вызванных болезнью, к количеству случаев заболеваний. Однако оба элемента этого соотношения вызывают целый ряд вопросов. С одной стороны, в Мексике имелась тенденция относить к жертвам H1N1 людей, умерших от других форм гриппа или вообще других болезней. Лабораторные тесты показали, что не менее четверти смертей, ранее связывавшихся с действием вируса H1N1, в реальности не имели никаких черт, присущих гриппу. С другой стороны, в ряде случаев данные о заболеваниях, вызванных вирусом H1N1, передавались не в полном объеме. В таких развивающихся странах, как Мексика, не развиты ни такая сложная система отчетов, как в Соединенных Штатах, ни культура посещения врача при первых признаках заболевания {504}. Факт быстрого распространения заболевания после того, как оно оказалось на территории США, заставляет предположить, что в Мексике имелись десятки, а то и десятки тысяч заболевших, о которых не было известно властям.
Фактически вирус H1N1 мог циркулировать по южной и центральной Мексике на протяжении ряда месяцев, пока на него не обратила внимание медицинская общественность (занятая в то время поисками следов птичьего гриппа в Азии). Отчеты о вспышке респираторного заболевания появились сначала в небольшом городке Ла Глория, штат Веракрус, в начале марта 2009 г., после того как гриппом заболело большинство жителей, однако поначалу мексиканские власти полагали, что это вызвано более привычным штаммом вируса под названием H3N2 {505}.
Читать дальшеИнтервал:
Закладка: