Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных
- Название:Искусство статистики. Как находить ответы в данных
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2021
- Город:Москва
- ISBN:9785001692508
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.
Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Этот спорный вывод, опубликованный в 2001 году, внес свою лепту в длительные, до сих пор продолжающиеся дискуссии о том, сколько больниц в Великобритании должны проводить подобные операции.
Более сложные модели регрессии
Методы, описанные в этой главе, прекрасно работали с момента их появления более века назад. Однако доступность огромных объемов данных и колоссальное увеличение вычислительных мощностей позволили создать более сложные модели. В широком смысле различные группы исследователей используют четыре основные стратегии моделирования:
• Достаточно простые математические представления зависимостей, такие как описанные в этой главе линейные регрессии. Статистики, как правило, предпочитают именно их.
• Сложные детерминистские модели, основанные на научном понимании физических процессов, например, используемые при прогнозировании погоды. Они предназначены для реалистичного воспроизведения механизмов, лежащих в их основе, и разрабатываются, как правило, прикладными математиками.
• Сложные алгоритмы, используемые для принятия решений и прогнозов, основанных на анализе большого количества прошлых случаев – например, для рекомендации книг, которые вы, возможно, хотели бы купить в сетевом магазине. Создаются в мире компьютерных наук и машинного обучения. Они часто будут «черными ящиками» в том смысле, что могут делать хорошие прогнозы, но их внутренняя структура в какой-то степени непостижима (см. следующую главу).
• Регрессионные модели, которые делают заключения о причинно-следственных связях; за них выступают экономисты.
Это значительные обобщения. К счастью, профессиональные барьеры рушатся, и, как мы увидим позже, формируется все более универсальный подход к моделированию. Но какая бы стратегия ни была принята, при создании и использовании модели возникают общие проблемы.
Хорошая аналогия состоит в том, что модель похожа на карту, а не на саму территорию. Все мы знаем, что одни карты лучше, чем другие: простой карты может быть достаточно для поездки из одного города в другой, но для прогулки в сельской местности нужно что-то более подробное. Британский статистик Джордж Бокс прославился бесценным афоризмом: «Все модели неверны, но некоторые полезны». Это поучительное заявление основывалось на опыте применения статистики в промышленных процессах, который позволял Боксу оценивать и силу моделей, и опасности излишней веры в них.
Но такие предостережения легко забываются. Как только какая-то модель принимается (и особенно тогда, когда она уходит из рук создателей, понимающих ее ограничения), она может превратиться в своего рода оракула. Финансовый кризис 2007–2008 годов в значительной степени был вызван чрезмерным доверием к сложным финансовым моделям, которые использовались для определения рисков, например ипотечных пакетов. Эти модели предполагали лишь умеренную корреляцию между неисполнением обязательств по ипотеке и успешно работали, пока рынок недвижимости процветал. Но когда условия изменились и возникли проблемы с выплатами, оказалось, что проблемы начались по всем фронтам: модели сильно недооценили риски из-за корреляций, которые оказались намного выше, чем предполагалось. Руководители просто не поняли хрупкости фундамента, на котором строились эти модели, упустив из виду тот факт, что модели всего лишь упрощение реального мира, то есть карты, а не территории. Результатом стал один из тяжелейших мировых кризисов в истории.
Выводы
• Регрессионные модели обеспечивают математическое представление отношений между набором независимых (объясняющих) переменных и зависимой переменной (переменной отклика).
• Коэффициенты в регрессионной модели показывают, какое изменение в отклике мы можем ожидать при изменении независимой переменной.
• Регресс к среднему наблюдается, когда отклонения возвращаются к долговременному среднему значению, поскольку такие выбросы были чисто случайными.
• Регрессионные модели могут включать различные виды зависимой и независимых переменных, а также нелинейные взаимосвязи.
• При интерпретации моделей нужно быть осторожным. Помните: «Все модели неверны, но некоторые полезны».
Глава 6. Алгоритмы, аналитика и прогнозирование
До сих пор акцент в этой книге делался на том, как статистика может помочь нам лучше понять, как устроен мир, будь то потенциальный вред от поедания сэндвичей с беконом или взаимосвязь между ростом родителей и их детей. По сути, это научное исследование, где выясняется, что происходит на самом деле, а что (если пользоваться терминами, введенными в предыдущей главе) – просто остаточная ошибка, к которой нужно относиться как к неизбежной изменчивости, поскольку ее нельзя смоделировать.
Однако основные идеи статистической науки сохраняются, когда мы пытаемся решить не научную, а практическую задачу. Желание найти сигнал в шуме уместно и тогда, когда нам просто нужен метод для конкретного случая в повседневной жизни. Тема этой главы – решение практических задач с помощью имеющихся данных, то есть использование какого-то алгоритма, механической формулы, которая будет автоматически выдавать ответ для каждого нового случая, возникающего без или с минимальным вмешательством человека. Фактически это уже не наука, а «технология».
У такого алгоритма есть два широких класса задач:
• Классификация (также известна как разделение, контролируемое обучение, обучение с учителем): сообщить, с какой ситуацией мы столкнулись. Например, пристрастия и предубеждения онлайн-покупателя или является ли объект в поле зрения робота ребенком или собакой.
• Прогнозирование: сообщить, что будет дальше. Например, какая погода будет на следующей неделе, какая может быть завтра цена акций, какие продукты может купить этот клиент и не выбежит ли тот ребенок перед нашим самоуправляемым автомобилем.
Хотя эти задачи и различаются в том смысле, что одна касается настоящего, а вторая – будущего, обе имеют одинаковую природу: взять набор наблюдений, относящихся к текущей ситуации, и сделать соответствующее заключение. Такой метод называется предсказательной аналитикой, но здесь мы уже вторгаемся на территорию искусственного интеллекта (ИИ), когда воплощенные в машинах алгоритмы используются либо для выполнения задач, которые обычно требуют участия человека, либо для предоставления людям советов экспертного уровня.
В узком смысле термин ИИ относится к системам, которые могут выполнять строго предписанные задачи, причем есть ряд крайне успешных примеров, основанных на машинном обучении, которые включают разработку алгоритмов посредством статистического анализа больших массивов данных, взятых из прошлого. Среди заметных успехов – системы распознавания речи, встроенные в телефоны, планшеты и компьютеры; программы типа Google Translate, которые не знакомы с грамматикой, зато научились подбирать тексты из необъятного опубликованного архива; программное обеспечение для компьютерного зрения, использующее прошлые изображения, чтобы «научиться» распознавать, например, лица на фотографиях или другие автомобили, попадающие в поле зрения самоуправляемого автомобиля. Наблюдается значительный прогресс и в системах, играющих в различные игры, таких как программное обеспечение DeepMind. Они изучают правила компьютерных игр и становятся опытными игроками, обыгрывающими чемпионов мира по шахматам и «Го», пока компьютер IBM Watson обыграл людей в викторине, где требуются общие знания. Эти системы начинались не с попыток закодировать человеческий опыт и знания, а с огромного числа примеров, и обучались методом проб и ошибок, как обычный ребенок, играя в игры сам с собой.
Читать дальшеИнтервал:
Закладка: