Чарльз Уилан - Голая статистика
- Название:Голая статистика
- Автор:
- Жанр:
- Издательство:Array Литагент «МИФ без БК»
- Год:2016
- Город:Москва
- ISBN:978-5-00057-953-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Чарльз Уилан - Голая статистика краткое содержание
Эта книга будет полезной для студентов, которые не любят и не понимают статистику, но хотят в ней разобраться; маркетологов, менеджеров и аналитиков, которые хотят понимать статистические показатели и анализировать данные; а также для всех, кому интересно, как устроена статистика.
Голая статистика - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Ниже перечислены семь самых типичных злоупотреблений этим замечательным инструментом.
Использование регресии для анализа нелинейной связи [67]. Приходилось ли вам читать предостережение, которое обычно наносится на корпус фена для волос: «Не пользоваться во время мытья в ванне»? Читая эти слова, вы, наверное, думали: «Какой болван может до такого додуматься?» Ведь это электроприбор, им нельзя пользоваться в воде . Электроприборы для этого не предназначены. Если бы регрессионный анализ снабжался подобным предостережением, то оно должно было бы гласить: «Не пользоваться, когда между анализируемыми переменными существуют нелинейные зависимости». Запомните: коэффициент регрессии описывает степень наклона «линии наилучшего приближения» для рассматриваемых вами данных; непрямая линия будет характеризоваться разными степенями наклона в разных точках. Рассмотрим, например, следующую гипотетическую связь между числом уроков игры в гольф, которые я беру в течение месяца (объясняющая переменная), и моим средним результатом для восемнадцатилункового раунда за тот же месяц (зависимая переменная). Как нетрудно заметить из приведенной ниже диаграммы разброса данных, в этом случае отсутствует устойчивая линейная зависимость.

Итак, мы видим некую картину, которую невозможно описать с помощью одной прямой линии. Первые несколько уроков игры в гольф, похоже, привели к быстрому улучшению моих показателей (количество очков уменьшилось – в гольфе это считается положительным результатом). На этом отрезке времени наблюдается отрицательная зависимость между уроками и набранным мною количеством очков; наклон линии отрицательный. Чем больше уроков, тем меньше очков.
Но когда я начинаю тратить на уроки игры в гольф от 200 до 300 долларов в месяц, это, по-видимому, не оказывает на мои результаты вообще никакого влияния. На данном отрезке времени не наблюдается какой-либо четкой взаимосвязи между дополнительными уроками и моими результатами; наклон линии – нулевой.
Наконец наступает момент, когда уроки становятся контрпродуктивными. Если сумма, потраченная на уроки игры в гольф, достигает 300 долларов в месяц, дополнительные уроки ассоциируются с б о льшим количеством набранных мною очков; на этом отрезке времени наблюдается положительный наклон линии. (Ниже в этой главе мы обсудим вероятность того, что плохие результаты игры в гольф могут стимулировать брать дополнительные уроки, а не наоборот.)
Самое важное здесь то, что с помощью единственного коэффициента регрессии мы не можем точно выразить зависимость между уроками и результатами. Наилучшей интерпретацией описанной выше картины будет то, что уроки игры в гольф характеризуются несколькими линейными связями с моими результатами. Вы можете видеть это, а пакет статистического программного обеспечения – нет. Если вы введете эти данные в уравнение регрессии, то компьютер выдаст вам единственный коэффициент. И он не будет точно отражать истинную взаимосвязь между интересующими нас переменными. Полученные результаты будут представлять собой статистический эквивалент использования фена для волос во время принятия ванны.
Регрессионный анализ предназначен для использования в случае линейной зависимости между переменными [68]. В солидных учебниках по статистике указаны также другие базовые условия его применения. Как и при использовании любого другого инструмента, чем больше вы отклоняетесь от заранее оговоренных условий его применения, тем менее эффективным – и даже потенциально опасным – он становится.
Корреляция и причинно-следственные зависимости – не одно и то же. Регрессионный анализ может лишь продемонстрировать взаимосвязь между двумя переменными. Как я уже упоминал, с помощью только статистики невозможно доказать, что изменение одной переменной обусловило изменение другой переменной. Вообще говоря, неправильное уравнение регрессии может указать на существование внушительной и статистически значимой зависимости между двумя переменными, которые в действительности между собой никак не связаны. Допустим, мы планируем выявить потенциальные причины роста числа случаев аутизма в Соединенных Штатах за последние два десятилетия. Наша зависимая переменная – исход, который мы хотели бы объяснить, – могла бы служить показателем заболеваемости аутизмом, таким как количество диагностированных случаев на каждых 1000 детей определенного возраста. Если бы мы включили в качестве объясняющей переменной годовой доход на душу населения в Китае, то почти наверняка выявили бы положительную и статистически значимую зависимость между повышением доходов в Китае и ростом заболеваемости аутизмом в США за последние два десятилетия.
Чем это объясняется? Всего лишь тем, что оба показателя резко увеличились за указанный период. Между тем, я очень сомневаюсь, что наступление экономической рецессии в Китае приведет к снижению заболеваемости аутизмом в США. (Справедливости ради должен заметить, что если бы я наблюдал четкую связь между быстрым экономическим ростом в Китае и заболеваемостью аутизмом только в Китае, то я, возможно, приступил бы к поиску какого-либо фактора окружающей среды, связанного с экономическим ростом (например, загрязнение окружающей среды отходами промышленного производства), который мог бы объяснить подобную зависимость.)
Только что продемонстрированный мной род ложной зависимости между двумя переменными – лишь один пример более универсального явления, известного как фиктивные причинно-следственные связи. Существует несколько других вариантов, когда связь между A и B может быть неправильно интерпретирована.
Обратная причинно-следственная зависимость. Статистическая зависимость между A и B не доказывает, что A является причиной B. Вообще говоря, не исключено, что B – это причина A. Я указывал на такую вероятность ранее в примере с уроками игры в гольф. Допустим, что когда я построил сложную модель, чтобы объяснить свои результаты в гольфе, оказалось, что переменная, обозначающая количество уроков игры в гольф, демонстрирует четкую взаимосвязь с ухудшением моих показателей. Чем больше уроков я беру, тем хуже результаты! Одним из объяснений может быть то, что мне попался очень плохой тренер. Более правдоподобное объяснение: я обычно беру дополнительные уроки, когда начинаю плохо играть, то есть плохие результаты являются причиной увеличения количества уроков, а не наоборот. (Существует ряд простых методологических исправлений проблем такого рода. Например, я мог бы включить количество уроков игры в гольф в одном месяце в качестве объясняющей переменной для моих показателей в следующем месяце .)
Читать дальшеИнтервал:
Закладка: