Владимир Савельев - Статистика и котики
- Название:Статистика и котики
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Владимир Савельев - Статистика и котики краткое содержание
И все это — на простых и понятных примерах из жизни милых и пушистых котиков, которые дарят нам множество приятных эмоций.
Статистика и котики - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Чем больше получившаяся сумма, тем хуже прямая описывает наши данные. И суть регрессионного анализа заключается в том, чтобы подобрать такую прямую, при которой эта сумма была бы минимальной.
А теперь пару слов о том, почему регрессионный анализ считается одним из самых крутых статистических методов. Дело в том, что он способен работать с большим количеством переменных одновременно. И если вы умудритесь провести тотальный замер ваших котиков на предмет того, что может приносить им счастье, и прогоните эти данные через регрессионный анализ, вы можете получить настоящую формулу счастья.
По этой формуле вы сможете выяснить, какие факторы наиболее сильно влияют на котиковое счастье, и предсказывать, насколько будет счастлив тот или иной котик по их значениям.
Однако здесь важно сделать предостережение — если вы вычислили такую формулу, это вовсе не означает, что то, что в ней справа — причины, а слева — следствие. В конце концов, может быть, еда делает котиков счастливыми, а может, и наоборот — у счастливых котиков лучше аппетит.
Помимо самой формулы вы также можете получить информацию о том, можно ли в нее что-нибудь добавить. В этом вам поможет коэффициент детерминации R 2. Он изменяется в промежутках от 0 до 1, и чем ближе к единице, тем лучше ваша формула объясняет наблюдаемые данные. Низкий коэффициент детерминации говорит о том, что нужно поискать, какие еще переменные могут быть связаны с котиковым счастьем.
НЕМАЛОВАЖНО ЗНАТЬ!
Нелинейная регрессия
Вообще-то говоря, связь между переменными не всегда является линейной. Например, существует определенный момент, после которого котика начинает тошнить от дополнительных порций, хотя до этого момента каждая новая порция делала его более счастливым.
Такую взаимосвязь можно описать с помощью квадратного (или, как говорят математики, полиномиального ) уравнения , с которым мы знакомы со школы. И составить такое уравнение можно с помощью метода полиномиальной регрессии .
Определить целесообразность использования этого или сходных с ним методов можно, предварительно построив точечные диаграммы. Помимо линейных и полиномиальных взаимосвязей могут быть еще и такие.
Увидев, что ваша взаимосвязь похожа на что-нибудь из этого, вы можете либо найти подходящий метод регрессионного анализа, либо преобразовать одну из переменных таким образом, чтобы можно было бы воспользоваться методами линейной регрессии.
Глава 11.
Котики счастливые и несчастные
или логистическая регрессия и дискриминантный анализ
Из предыдущей главы вы узнали, как с помощью линейной регрессии понять, насколько сильно те или иные факторы влияют на уровень котикового счастья. Однако, у обычного регрессионного анализа есть одно существенное ограничение — уровень счастья должен быть достаточно точно измерен с помощью какого-нибудь прибора или теста. К сожалению, мы зачастую не располагаем подобным оборудованием. Максимум, что мы можем сделать, это прикинуть, является ли данный конкретный котик счастливым или несчастным.
Можем ли мы при таких условиях найти факторы, предсказывающие котиковое счастье?
Разумеется да. И для этого существуют два очень хороших метода. Первый называется логистической регрессией , а второй — дискриминантным анализом .
Логистическая регрессия во многом похожа на линейную. Однако вместо уровня счастья в левой части уравнения стоит величина, которая позволяет рассчитать вероятность того, что данный котик счастлив. Эта величина называется логарифмом шанса.
Слово «шанс» достаточно часто встречается в русском языке, как правило, обозначая то, что ни в коем случае нельзя упустить. Но с точки зрения статистики шанс — это вероятность того, что данный котик счастлив, деленная на вероятность того, что он несчастлив.
По некоторым математическим причинам от шанса берут натуральный логарифм и подставляют эту величину в регрессионное уравнение. Если логарифм шанса будет положительным, то данный котик считается счастливым, а если отрицательным — то несчастным.
Альтернативным методом является дискриминантный анализ. Чтобы разобраться, что это такое, обратимся к рисунку.
На нем представлены счастливые котики (Барсики) и несчастные (Мурзики), а также информация о том, кто из них сколько ест. Очевидно, что Барсики едят в целом больше, и мы можем провести четкую границу между котиками по этому фактору. И если такая граница возможна, то мы делаем вывод, что фактор связан с уровнем счастья. Иной случай выглядит так.
Здесь невозможно построить такую границу, чтобы Барсики оказались по одну ее сторону, а Мурзики — по другую. Соответственно, в этом случае количество еды не связано с уровнем счастья.
Алгоритм нахождения таких границ и называется дискриминантным анализом, а формула, которая задает границы, — дискриминантной функцией . По итогу дискриминантного анализа вы получаете таблицу, в которой обозначается, по каким факторам удалось провести внятные границы, а по каким — нет.
Дискриминантный анализ может работать и с большим количеством групп. Например, если мы добавим к нашим Барсикам и Мурзикам группу философских котиков, дискриминантный анализ сможет найти границы между ними всеми. Число таких границ всегда будет на одну меньше, чем количество групп.
Если же вы являетесь поклонником регрессионного анализа, то при большом количестве групп вы можете вычислить так называемую мультиномиальную регрессию.
НЕМАЛОВАЖНО ЗНАТЬ!
Мультиколлиниарность и переобучение
С методами регрессионного и дискриминантного анализов связаны две проблемы, которые существенным образом могут испортить вам все ваши выводы.
Первая из них — проблема мультиколлиниарности — возникает в случаях, когда некоторые факторы сильно коррелируют между собой, и приводит к неустойчивости получившегося уравнения. Проявляется это в двух формах.
1. При добавлении всего одного-двух котиков в выборку это уравнение может измениться до неузнаваемости.
2. Формулы, построенные на двух сходных выборках котиков, будут различаться.
Как правило, эту проблему преодолевают тремя способами.
1. Исключают одну из коррелирующих переменных из анализа.
2. Предварительно проводят процедуру факторного анализа (о нем будет рассказано далее), заменяющего эти переменные одной искусственной, которая и будет включена в регрессию.
3. Проводят процедуру пошаговой регрессии . Такая регрессия постепенно включает в уравнение по одной переменной и сразу же после этого пересчитывает вклад всех остальных. В итоге если одна из коррелирующих переменных была выбрана в качестве фактора, вторая туда скорее всего не попадет.
Читать дальшеИнтервал:
Закладка: