Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Искусство статистики. Как находить ответы в данных
Автор:

Дэвид Шпигельхалтер
Жанр:

Математика
Издательство:

Манн, Иванов и Фербер
Год:

2021
Город:

Москва
ISBN:

9785001692508
Рейтинг:

3/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
60

1

2

3

4

5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

отсекаемый отрезок картинка 49 . Прямая по методу наименьших квадратов проходит через центр тяжести картинка 50 ;

i -й остаток – разность между i -м наблюдением и его предсказанным значением Искусство статистики Как находить ответы в данных - изображение 51 ;

скорректированное значение i -го наблюдения – это сумма остатка и отсекаемого отрезка, то есть Искусство статистики Как находить ответы в данных - изображение 52 . Это значение мы наблюдали бы в «среднем» случае, если бы имели а не x = x i ;

остаточная сумма квадратов – это сумма квадратов всех остатков, то есть Искусство статистики Как находить ответы в данных - изображение 54 . Прямая, построенная по методу наименьших квадратов, определяется как прямая, минимизирующая сумму квадратов разностей;

коэффициент наклона b 1и коэффициент корреляция Пирсона r связаны формулой b 1 = rs y / s x . Поэтому в случае, когда стандартные отклонения для x и y одинаковы, коэффициент угла наклона в точности равен коэффициенту корреляции;

множественная линейная регрессия:предположим, что для каждого отклика y i есть набор из p предикторных переменных ( x i 1, x i 2,…, x ip ). Тогда множественная линейная регрессия по методу наименьших квадратов определяется уравнением

Искусство статистики Как находить ответы в данных - изображение 55

где коэффициенты b 0, b 1,…, b p выбираются так, чтобы минимизировать сумму остатков Искусство статистики Как находить ответы в данных - изображение 56 . Отсекаемый отрезок b 0 – это просто среднее картинка 57 , а формулы остальных коэффициентов сложны, но легко вычисляются. Обратите внимание, что является спрогнозированным значением наблюдения y , если предикторные переменные были средними Искусство статистики Как находить ответы в данных - изображение 59 , и, как в случае линейной регрессии, скорректированные определяются суммой остатка и отсекаемого отрезка, или Искусство статистики Как находить ответы в данных - изображение 60 ;

многоуровневая регрессия и постстратификация (MRP):современный способ создания выборки, при котором из многих областей берутся достаточно небольшие количества респондентов с похожими характеристиками. Затем строится регрессионная модель для откликов в соответствии с демографическими факторами, что допускает дополнительный разброс между областями. Знание демографии для всех областей позволяет делать прогнозы на местном и национальном уровне с соответствующей неопределенностью;

множественная проверка гипотез:выполнение сразу нескольких проверок, что увеличивает вероятность получения хотя бы одного ложноположительного результата (ошибка первого рода);

мода (вероятностного распределения):для дискретного распределения – самое вероятное значение, для непрерывного – точка максимума плотности;

мода (выборки):значение, которое встречается в выборке чаще всего;

мощность критерия:вероятность правильного отклонения нулевой гипотезы при условии справедливости альтернативной гипотезы. Равна 1 – β, где β – вероятность ошибки второго рода для статистического критерия;

мудрость толпы:идея, согласно которой характеристика, определяемая групповым мнением, ближе к истине, чем предположения большинства отдельных людей;

наука о данных:изучение и применение методов получения информации из данных, включая построение алгоритмов для прогнозов. Традиционная статистика – часть науки о данных, в которую также входят кодирование и управление данными;

независимая (предикторная) переменная:переменная, которая фиксируется посредством проекта или наблюдения, чья связь с зависимой переменной может представлять интерес;

независимые события:события A и B независимы, если наступление A не влияет на вероятность наступления B , то есть ( B | A ) = p ( B ), или, что эквивалентно, p ( BA ) = p ( B ) p ( A ) [280];

непрерывная случайная величина:случайная величина X , которая может (по крайней мере, в принципе) принимать любое значение в пределах определенного промежутка. Непрерывная величина имеет плотность вероятности [281] – такая функция ƒ, что , а ее математическое ожидание определяется формулой Искусство статистики Как находить ответы в данных - изображение 62 . Вероятность того, что X попадет в промежуток ( A,B ), равна ;

нормальное распределение:случайная величина имеет нормальное (гауссовское) распределение со средним μ и дисперсией σ 2, если ее плотность имеет вид

Математическое ожидание E X μ дисперсия D X σ 2 - фото 64

Математическое ожидание E ( X ) = μ, дисперсия D ( X ) = σ 2, среднеквадратичное отклонение SD ( X ) = σ.

Стандартизованная случайная величина Искусство статистики Как находить ответы в данных - изображение 65 имеет среднее 0 и дисперсию 1, и тогда говорят, что у нее стандартное нормальное распределение. Функцию распределения для стандартной нормальной величины Z обозначают Φ. Например, Φ(–1) = 0,16 – это вероятность того, что стандартная гауссовская случайная величина не превосходит –1, или (что эквивалентно) вероятность того, что произвольная гауссовская случайная величина с параметрами μ и σ принимает значение, которое меньше μ−σ·100 p %.% процентиль для стандартного нормального распределения – такое число z p , что P ( Z ≤ z p ) = p . Как значения функции Φ, так и величины z p можно найти в таблицах или в стандартных программах: например, 75-й процентиль для стандартного нормального распределения равен z 0,75 = 0,67;