Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Искусство статистики. Как находить ответы в данных
Автор:

Дэвид Шпигельхалтер
Жанр:

Математика
Издательство:

Манн, Иванов и Фербер
Год:

2021
Город:

Москва
ISBN:

9785001692508
Рейтинг:

3/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
60

1

2

3

4

5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

специфичность:доля «отрицательных» случаев, которые правильно определены при классификации или тестировании. Единица минус специфичность – это доля ложноположительных наблюдений (ошибка первого рода);

Спирмена ранговый коэффициент корреляции:ранг наблюдения – это его номер в вариационном ряду (упорядоченном наборе), причем равным величинам приписывается одинаковый средний ранг. Например, если у нас есть набор данных (3, 2, 1, 0, 1), то соответствующий набор рангов – (5, 4, 2,5, 1, 2,5). Ранговый коэффициент корреляции Спирмена – это просто коэффициент корреляции Пирсона, в котором наборы x и y заменены их соответствующими рангами;

среднее (выборки):1) в широком смысле – общий термин для какой-то одной величины, характеризующей набор чисел, например среднее арифметическое, медиана или мода; 2) в узком смысле – то же, что среднее арифметическое (также говорят выборочное среднее). Предположим, что у нас есть выборка (набор чисел) x 1, x 2,…, x n . Тогда их выборочное среднее определяется формулой m = ( x 1 + x 2 +…+ x n )/ n , что можно записать в виде Например если пять человек сообщили о количестве своих детей и получилась - фото 73 . Например, если пять человек сообщили о количестве своих детей и получилась выборка 3, 2, 1, 0, 1, то среднее число детей равно (3 + 2 + 1 + 0)/5 = 7/5 = 1,4;

среднее (популяции):см. математическое ожидание ;

среднеквадратичная ошибка:мера качества прогноза; если спрогнозированы значения t 1, t 2,…, t n , а сделаны наблюдения x 1, x 2,…, x n , то среднеквадратичная ошибка равна Искусство статистики Как находить ответы в данных - изображение 74 ;

среднеквадратичное (стандартное) отклонение:квадратный корень из дисперсии выборки или распределения. Для хорошо себя ведущих разумно симметричных распределений без длинных хвостов можно ожидать, что подавляющее большинство наблюдений будут лежать в пределах двух стандартных отклонений от выборочного среднего;

стандартная ошибка:стандартное отклонение выборочного среднего, когда оно рассматривается как случайная величина. Предположим, что X 1, X 2,…, X n – это независимые одинаково распределенные случайные величины, взятые из распределения со средним μ и среднеквадратичным отклонением σ. Тогда их среднее Y = ( X 1 + X 2 +…+ X n )/ n имеет среднее μ и дисперсию σ 2/ n . Стандартное отклонение для Y равно σ/√ n и известно как стандартная ошибка. Оценкой будет s /√ n , где s – выборочное стандартное отклонение для наблюдаемых величин X ;

статистика:1) дисциплина, занимающаяся изучением мира на основе данных; как правило, включает цикл решения проблем наподобие PPDAC; 2) какая-либо функция от данных. Например, наибольшее значение выборки, выборочное среднее, интерквартильный размах, выборочная дисперсия – различные статистики;

статистическая значимость:наблюдаемый эффект считается статистически значимым, когда P-значение, соответствующее нулевой гипотезе, меньше некоторого заранее установленного уровня, например 0,05 или 0,001. Это означает, что такой экстремальный результат маловероятен при справедливости нулевой гипотезы и всех прочих предположениях при моделировании;

статистическая модель:математическое представление вероятностного распределения какого-либо набора случайных величин, содержащее неизвестные параметры;

статистическое заключение:процесс использования данных выборки, для того чтобы что-либо узнать о неизвестных параметрах, лежащих в основе статистической модели;

стохастическая неопределенность:неизбежная непредсказуемость будущего, также известная как случайность, случай и так далее;

судебная эпидемиология:использование знаний о причинах заболеваний в популяциях при вынесении суждений о случаях болезни у отдельных людей;

счетные переменные:переменные, которые могут принимать целочисленные значения 0, 1, 2 и так далее или быть взаимнооднозначно сопоставлены с такими значениями;

тест перестановки/рандомизации:форма критерия для проверки гипотезы, когда распределение тестовой статистики при нулевой гипотезе получается не с помощью детальной статистической модели для случайных величин, а путем перестановки «меток» данных. Предположим, что нулевая гипотеза такова: какая-то «метка» (например, мужчина это или женщина) не связана с результатом обследования. Тесты рандомизации исследуют все возможные способы перестановки таких меток для отдельных элементов данных, при этом при нулевой гипотезе все они равновероятны. Для каждой перестановки вычисляется тестовая статистика, а P-значение определяется как доля тех перестановок, где получаются более экстремальные значения тестовой статистики, нежели реально наблюдаемые;

уровень ложноположительных результатов:при проверке многих гипотез доля положительных утверждений, которые оказываются ложноположительными;

фрейминг:выбор способа подачи информации, влияющего на впечатление аудитории;

центральная предельная теорема:общее название нескольких теорем, утверждающих, что при определенных условиях выборочное среднее для множества случайных величин сходится к нормальному распределению вне зависимости (за некоторыми исключениями) от исходного распределения этих случайных величин. Если у нас есть n независимых наблюдений с математическим ожиданием μ и дисперсией σ 2, то при широких условиях их выборочное среднее является оценкой для μ и приближенно имеет нормальное распределение со средним μ, дисперсией σ 2/ n и среднеквадратичным отклонением σ√ n (также известным как стандартная ошибка оценки);

цикл PPDAC:предлагаемая структура «цикла данных», куда входят проблема, планирование, сбор данных, анализ (поисковый или подтверждающий), заключение и коммуникация ;

чувствительность:доля «положительных» случаев, которые правильно определены при классификации или тестировании; часто называется долей истинно положительных наблюдений. Единица минус чувствительность – это доля ложноотрицательных наблюдений (ошибка второго рода);

шансы, отношения шансов:если вероятность какого-то события равна p , то шансы для такого события определяются как картинка 75 . Если шансы для какого-то события в группе с воздействием равны Искусство статистики Как находить ответы в данных - изображение 76 , а шансы в группе без воздействия – , то отношение шансов составит . Если p и q малы, то отношение шансов близко к относительному риску p/q , но если абсолютные риски значительно превышают 20 %, то отношения шансов и относительные риски начинают различаться;