Пере Грима - Том13. Абсолютная точность и другие иллюзии. Секреты статистики
- Название:Том13. Абсолютная точность и другие иллюзии. Секреты статистики
- Автор:
- Жанр:
- Издательство:«Де Агостини»
- Год:2014
- Город:Москва
- ISBN:978-5-9774-0706-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Пере Грима - Том13. Абсолютная точность и другие иллюзии. Секреты статистики краткое содержание
Статистика — наука, которая кажется знакомой, ведь мы привыкли слышать упоминания о ней в СМИ. Иногда к ней относятся несерьезно, потому что статистические прогнозы не всегда сбываются. Однако этот факт не отменяет чрезвычайной важности статистических исследований. Цель статистики — получить знания объективным способом на основе наблюдений и анализа реальности. В этой книге затронуты некоторые наиболее интересные аспекты статистики, например, вопросы о том, как провести сбор данных и как представить информацию с помощью графиков. Читатель совершит экскурс в теорию вероятностей, а также узнает о статистических исследованиях, предвыборных опросах и о том, какие рассуждения лежат в основе всех статистических тестов.
Том13. Абсолютная точность и другие иллюзии. Секреты статистики - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
От числа погибших от удара копытом лошади в прусской армии к числу забитых мячей в чемпионате Испании по футболу: распределение Пуассона Если переменная подчиняется биномиальному закону распределения, можно подсчитать, сколько раз она примет определенное значение (число качественных и число бракованных деталей). Эта переменная также будет иметь предельное значение: число качественных деталей не может превышать общего числа деталей в партии.
Иногда мы сталкиваемся с переменными, которые обозначают число событий, произошедших в единицу времени или на единицу площади. Такие переменные не имеют верхней границы, по крайней мере с теоретической точки зрения. К классическим примерам подобных переменных относится число посещений интернет-страницы в день, число поломок лифта в год, число звонков на АТС в час и, разумеется, число писем, ежедневно приходящих вам по электронной почте. К примерам событий, происходящих в пространстве, можно отнести следующие: число точек, пораженных ржавчиной, на метр проволоки, число дефектов на квадратный метр (или 10 квадратных метров) ткани, число изюминок в ложке с хлопьями, которые вы едите на завтрак.
В 1837 году французский математик Симеон Пуассон решил найти способ изменить формулу биномиального распределения так, чтобы ее можно было применить к подобным ситуациям. Он открыл любопытное выражение, в котором для расчета вероятности любого числа событий достаточно знать лишь среднее число событий ( λ ). Формула вычисления вероятности того, что некое событие произойдет х раз, выглядит так:


Французский математик XIX века Симеон Пуассон.
Так, если лифт ломается в среднем два раза в год ( λ = 2), вероятность того, что в течение года он не сломается ни разу, такова:

Если на интернет-страницу в среднем заходит 100 посетителей в день (будем считать, что число посетителей неизменно в любой день недели, хотя очевидно, что будет существовать определенная разница между рабочими и выходными днями), то вероятность того, что в конкретный день страницу посетит менее 80 человек, такова:

Выполнять расчеты по этой формуле не очень удобно, но нам опять помогут электронные таблицы:

В 1898 году русский экономист и статистик Владислав Борткевич опубликовал книгу, в которой доказал, что распределение Пуассона можно использовать для объяснения статистической закономерности, наблюдаемой при редких событиях. Он использовал данные о самоубийствах и несчастных случаях со смертельным исходом, но самым известным примером его работ является анализ числа солдат, умерших от удара копытом лошади в 14 корпусах прусской армии за 20 лет (с 1875 по 1894 год).

Владислав Борткевич, русский статистик, открывший новые способы применения распределения Пуассона.
В следующей таблице фактическая частота соответствует числу армейских корпусов, умноженному на число лет (14·20 = 280). Среднее число умерших за год в пересчете на один корпус равно (91 + 2·32 + 3·11 + 4·2)/280. Используя это значение в вышеприведенной формуле, получим теоретические значения частоты, приведенные в таблице.

Если мы хотим найти более современный пример, то можно рассмотреть число голов, забитых командой во время футбольного матча. Эта переменная прекрасно соответствует требованиям распределения Пуассона: события происходят в течение четко обозначенного периода времени (футбольного матча), предельного числа событий не существует, а число незабитых голов подсчитать нельзя. Так, на диаграмме слева представлено число голов, забитых каждой командой в каждом из 380 матчей испанского чемпионата 2008–2009 годов. На диаграмме справа представлены данные, вычисленные по нашей формуле.

Фактическое и теоретическое (вычисленное по модели Пуассона) распределение числа мячей, забитых каждой командой в 380 матчах сезона 2008–2009 чемпионата Испании по футболу.
Диаграммы очень похожи. Модель Пуассона хорошо объясняет изменение числа мячей, забитых командой в течение матча.
Колокол Гаусса , или нормальное распределение
Колокол Гаусса встречается в математике очень часто. Его форма соответствует форме гистограммы, на которой представлено большое множество значений, подчиняющихся так называемому нормальному распределению. Например, мешки с сахаром весом 1 кг весят не ровно 1000,000… г — некоторые весят немного больше, другие — немного меньше. Подобное колебание веса неизбежно. Оно вызвано множеством незначительных факторов, по отдельности незаметных, но в сумме имеющих ощутимый эффект. На диаграмме ниже показано, что большинство значений находятся вблизи центрального значения, и по мере удаления от него соответствующие значения встречаются все реже и реже. Это классический колокол Гаусса, или диаграмма нормального распределения.

Возможное распределение фактического веса мешков с сахаром весом 1 кг. Диаграмма имеет форму колокола Гаусса.
Математическое выражение, описывающее форму этого колокола, впервые получил французский математик Абрахам де Муавр в 1733 году. Однако эта диаграмма носит имя немецкого математика Карла Фридриха Гаусса, который использовал ее в 1809 году в своей теории ошибок измерения, в частности ошибок, возникающих при астрономических наблюдениях. Гаусс показал, что вне зависимости от расстояния до измеряемого объекта и от его размеров при повторении измерений в одних и тех же условиях полученные значения будут распределяться особым образом.
Однако нормальное распределение занимает в статистике особое место не только потому, что оно используется в теории ошибок, но и потому, что оно очень часто встречается в природе.
Читать дальшеИнтервал:
Закладка: