Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Искусство статистики. Как находить ответы в данных
Автор:

Дэвид Шпигельхалтер
Жанр:

Математика
Издательство:

Манн, Иванов и Фербер
Год:

2021
Город:

Москва
ISBN:

9785001692508
Рейтинг:

3/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
60

1

2

3

4

5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

В главе 3мы представили классическую колоколообразную кривую, также известную как нормальное (гауссовское) распределение, когда показывали, что оно хорошо описывает распределение веса новорожденных в США, и объяснили, что вес детей зависит от огромного количества факторов, каждый из которых оказывает небольшое влияние; складывая все эти маленькие воздействия, в итоге мы получаем нормальное распределение.

Именно это лежит в основе так называемой центральной предельной теоремы, впервые доказанной в 1733 году французским математиком Абрахамом де Муавром [171]для частного случая биномиального распределения. Однако к нормальному распределению сходится среднее не только для биномиальных случайных величин – примечательно то, что какое бы распределение для наших наблюдений мы ни взяли, можно считать, что при больших размерах выборки среднее значение наблюдений имеет нормальное распределение [172]. При этом его среднее совпадает со средним исходного распределения, а среднеквадратичное отклонение (как уже упоминалось, его часто называют стандартной ошибкой) имеет простую связь со среднеквадратичным отклонением для исходного распределения [173].

Фрэнсис Гальтон не только написал работы о мудрости толпы, корреляции, регрессии и на многие другие темы, но и считал настоящим чудом то, что нормальное распределение (называемое в то время законом распределения ошибок) каким-то упорядоченным образом возникает из видимого хаоса:

Я едва ли знаю что-либо, способное воздействовать на воображение так, как чудесная форма космического порядка, выраженная «Законом Распределения Ошибок». Если бы древние греки знали этот закон, они бы персонифицировали и обожествили его. Он безмятежно царит среди самой дикой сумятицы. Чем больше толпа, чем больше видимая анархия, тем совершеннее его владычество. Это высший закон среди неразумности. Всякий раз, когда мы берем множество хаотичных элементов и расставляем их по величине, появляется неожиданная и доселе скрытая прекраснейшая закономерность.

Он был прав – это действительно выдающийся закон природы.

Как теоретические рассуждения помогают определить точность наших оценок

Вся эта теория хорошо помогает при попытке что-то узнать о распределении статистик, основанных на данных, взятых из известных совокупностей, но не это нас больше всего интересует. Мы должны найти способ развернуть данный процесс: то есть вместо того чтобы по известным исходным распределениям говорить что-то о возможных выборках, попробовать по одной выборке что-то сказать о возможном распределении. Это процесс индуктивного вывода, описанный в главе 3.

Предположим, у меня есть монета, и я спрашиваю вас, с какой вероятностью выпадет орел. Вы радостно отвечаете «50 процентов» или нечто подобное. Затем я подбрасываю ее и накрываю, пока никто не увидел результат, и снова спрашиваю, с какой вероятностью будет орел. Если вы типичный человек, то, как показывает мой опыт, после паузы, скорее всего, довольно неохотно скажете: «50 процентов». Потом я смотрю на монету, не показывая вам, и повторяю вопрос еще раз. И снова, если вы относитесь к большинству, вы бормочете: «50 процентов».

Это простое упражнение показывает главное различие между двумя типами неопределенности: стохастической неопределенностью [174] до подбрасывания монеты (когда мы имеем дело с будущим непредсказуемым событием) и эпистемической неопределенностью [175] после подбрасывания монеты (выражением недостатка наших знаний об уже произошедшем событии). Это как разница между лотерейным билетом (где результат зависит от случая) и билетом мгновенной лотереи (где результат уже предопределен, просто вы его еще не знаете).

Статистика используется при наличии эпистемической неопределенности в отношении какой-то величины. Например, мы проводим опрос, когда не знаем истинной доли людей в популяции, считающих себя религиозными, или фармакологическое испытание, когда не знаем истинного среднего эффекта какого-то препарата. Как мы уже говорили, эти фиксированные, но неизвестные величины называются параметрами и часто обозначаются греческими буквами [176]. Как и в примере с подбрасыванием монеты, до проведения экспериментов у нас есть стохастическая неопределенность в отношении их результатов из-за случайного составления выборок или случайного назначения пациентам препарата или плацебо. После проведения исследования и получения данных мы используем эту вероятностную модель, чтобы справиться с текущей эпистемической неопределенностью – точно так же, как вы говорили «50 процентов» о накрытой монете. Таким образом, теория вероятностей, которая говорит нам, чего ожидать в будущем, используется, чтобы сказать, что можно узнать из наших наблюдений в прошлом. Это и есть (довольно примечательная) основа для статистических выводов.

На этой фундаментальной идее построена процедура получения интервала неопределенности вокруг нашей оценки или погрешности, включающая три этапа.

1. Мы используем теорию вероятностей, чтобы для конкретных параметров генеральной совокупности получить интервал, в котором наблюдаемая статистика будет лежать с вероятностью 95 %. На рис. 9.2 такие 95-процентные интервалы прогнозирования изображены в виде внутренней воронки.

2. Затем мы наблюдаем конкретную статистику.

3. И наконец (и это самое трудное) определяем диапазон возможных параметров генеральной совокупности, для которых наша статистика попадает в 95-процентные интервалы прогнозирования. Этот диапазон мы называем «95-процентным доверительным интервалом». Он включает величину 95 %, поскольку при большом числе повторений 95 % таких интервалов будут содержать истинное значение параметра [177].

Все ясно? Если нет, не расстраивайтесь: вы просто присоединились ко многим поколениям озадаченных студентов. Конкретные формулы приведены в глоссарии, но детали не так важны, как сам фундаментальный принцип: доверительный интервал – это тот диапазон параметров генеральной совокупности, при котором наша наблюдаемая статистика будет правдоподобным следствием.

Вычисление доверительных интервалов

Понятие доверительных интервалов было формализовано в 1930-е годы в Университетском колледже Лондона Ежи Нейманом, блестящим польским математиком и статистиком, и Эгоном Пирсоном, сыном Карла Пирсона [178]. До этого работа по определению необходимых вероятностных распределений для коэффициентов корреляции и коэффициентов регрессии велась десятилетиями; математические детали таких распределений входят в стандартные академические курсы статистики. К счастью, результаты всех этих трудов теперь содержатся в статистическом программном обеспечении, так что практики могут сосредоточиться на важных вопросах и не отвлекаться на сложные формулы.