Владимир Савельев - Статистика и котики
- Название:Статистика и котики
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Владимир Савельев - Статистика и котики краткое содержание
И все это — на простых и понятных примерах из жизни милых и пушистых котиков, которые дарят нам множество приятных эмоций.
Статистика и котики - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Таким образом, разнообразие размеров складывается как из принадлежности животного к тому или иному виду, так и из абсолютно «левых» факторов. И наша задача — сравнить между собой их вклады.
Как мы помним, одной из основных мер, определяющих разнообразие, является дисперсия. И дисперсионный анализ работает именно с ней. Он выделяет ту часть дисперсии, которая обусловлена фактором вида ( межгрупповую дисперсию ), и ту, которая определяется прочими факторами ( внутригрупповую дисперсию ), а затем сравнивает их по F-критерию Фишера, с которым мы встречались раньше. И чем больше будет значение этого критерия, тем сильнее фактор вида влияет на размер животных.
К большому сожалению, дисперсионный анализ является параметрическим методом, а следовательно, не очень любит выбросы и ненормальные распределения данных. Если у вас такая ситуация, то рекомендуется воспользоваться его непараметрическим кузеном — H-критерием Краскела-Уоллеса . Последний очень похож на критерий Манна-Уитни, который мы рассматривали в одном из предыдущих разделов.
Мы точно так же объединяем всех животных в одну группу, упорядочиваем их от самого большого до самого маленького и присваиваем им ранги.
Затем они снова делятся на группы, ранги внутри групп складываются, и их суммы сравниваются между собой. Логика здесь такая: чем сильнее различаются суммы рангов, тем больше вероятность отвергнуть нулевую гипотезу. И коэффициент Краскела-Уоллеса как раз и отражает различия в этих суммах.
В заключение напомним, что после вычисления любого из этих критериев необходимо найти соответствующий им p-уровень значимости. Именно он и покажет, существует ли связь между размерами и биологическим видом.
НЕМАЛОВАЖНО ЗНАТЬ!
Проблема множественных сравнений
К большому сожалению, если мы получили значимые результаты по дисперсионному анализу, мы не сможем по ним сказать, кто от кого отличается по размеру: слоники от котиков или песики от слоников. Мало того — мы не можем просто взять и сравнить их попарно с помощью t-критерия Стьюдента. Истоки этого — в основах теории вероятности, и мы не будем на них подробно останавливаться. Просто отметим, что с каждым таким сравнением вы серьезно увеличиваете свои шансы ошибиться в выводах. Эта неприятная вещь называется проблемой множественных сравнений .
Поэтому такие сравнения необходимо проводить с помощью других, так называемых апостериорных критериев (или критериев post hoc ).
Простейший из них называется t-критерием Стьюдента с поправкой Бонферрони . Вычисляется он как самый обычный t Стьюдента. Поправка же касается критического значения, с которым мы сравниваем p-уровень значимости (0,05). Это значение нужно поделить на количество попарных сравнений.
Если вы сравниваете три вида животных, то таких сравнений тоже будет три (котики с песиками, песики со слониками и слоники с котиками). А вот если их четыре, то количество сравнений увеличивается до шести. И тогда критическое значение будет равно 0,05 / 6.
Применив поправку Бонферрони, посмотрите на ваш p-уровень значимости. Если он ниже получившегося значения, то песики и котики различаются, если же нет, то нет.
Помимо t-критерия Стьюдента с поправкой Бонферрони существует еще, по крайней мере, 17 апостериорных критериев, которые применяются в различных ситуациях. В первом приближении мы можем разбить их на две группы. В первую входят те критерии, которые применяются, если дисперсии котиков, песиков и слоников не отличаются друг от друга, а вот вторая группа содержит критерии для случая неравных дисперсий. Самые популярные из них представлены ниже.
Глава 6.
Диета для котиков
или многофакторный дисперсионный анализ
Из предыдущей главы мы узнали, как определить взаимосвязь между биологическим видом животного и его размером с помощью дисперсионного анализа. Однако, помимо вида, на размер могут повлиять и другие факторы, например, питание.
При этом на котиков, песиков и слоников оно может влиять по-разному. Так, мясная диета будет очень нравиться котикам и песикам, в то время как слоники от нее загрустят и будут голодать.
Чтобы разобраться во всех этих влияниях, статистики пользуются многофакторным дисперсионным анализом . Простейший из них — двухфакторный — разбивает дисперсию на четыре части. Первая отвечает за влияние вида на размер, вторая — за влияние диеты, третья — за взаимодействие этих факторов, а последняя определяется всякими левыми причинами.
Проверяем мы аж три нулевые гипотезы.
1. Биологический вид не связан с размером.
2. Диета не связана с размером.
3. Диета действует на всех животных одинаково.
Соответственно, для каждой из них считается свой критерий Фишера. И — как и в однофакторном дисперсионном анализе — чем его значение больше, тем больше влияние того или иного фактора.
Для интерпретации результатов двухфакторного дисперсионного анализа легче всего воспользоваться вот такими графиками. Они отражают и средние значения, и дисперсию, и влияние каждого фактора, и их взаимодействие.
В частности из этого графика мы можем сделать следующие выводы.
1. В среднем самые большие животные — слоники, а самые маленькие — котики.
2. Диета по-разному влияет на животных в зависимости от вида. Котики, будучи облигатными хищниками, лучше растут при мясной диете, слоники — наоборот, а вот песикам по большому счету все равно, что есть.
3. Если не учитывать влияние вида, то разные формы диеты не влияют на средний размер животных. Если бы такое влияние существовало, то и котики, и песики, и слоники вырастали бы больше при употреблении мяса, чем при употреблении капусты.
Дисперсионные анализы для трех и более факторов строятся подобным образом: мы проверяем влияние каждого фактора, а также все возможные взаимодействия между ними.
НЕМАЛОВАЖНО ЗНАТЬ!
Сколько нужно котиков?
К настоящему моменту мы продвинулись довольно-таки далеко в вопросах применения статистических критериев для изучения особенностей котиков и других видов животных. Однако за бортом остался очень важный вопрос: сколько котиков необходимо измерить, чтобы критерии давали надежный результат?
Дело в том, что, если вы измерите слишком мало котиков, песиков и слоников, вы можете не зафиксировать даже ощутимые различия. Это может произойти, например, если вам случайно попались очень большие котики и очень маленькие слоники, что при маленьких выборках время от времени случается.
В то же самое время, если вы наберете слишком большую выборку, то даже минимальное отклонение от нулевой гипотезы будет давать значимый результат.
Читать дальшеИнтервал:
Закладка: