Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

97

Испытания организации Behavioural Insights Team описаны на сайтах http://www.behaviouralinsights.co.uk/education-and-skills/helping-everyone-reach-their-potential-new-education-results/и http://www.behaviouralinsights.co.uk/trial-results/measuring-the-impact-of-body-worn-video-cameras-on-police-behaviour-and-criminal-justice-outcomes/.

98

H. Benson et al., ‘Study of the Therapeutic Effects of Intercessory Prayer (STEP) in Cardiac Bypass Patients: A Multicenter Randomized Trial of Uncertainty and Certainty of Receiving Intercessory Prayer’, American Heart Journal 151 (2006), 934–42.

99

Хотя A/B-тестирование широко применяется в веб-дизайне, его можно использовать и в других областях – например, написать два электронных письма с каким-либо предложением двум группам людей. Прим. пер.

100

J. Heathcote, ‘Why Do Old Men Have Big Ears?’, British Medical Journal 311 (1995), https://www.bmj.com/content/311/7021/1668. См. также ‘Big Ears: They Really Do Grow as We Age’, The Guardian, 17 July 2013.

101

К сожалению, маловероятно, что на подобные исследования найдется финансирование.

102

На самом деле буква M в аббревиатуре STEM традиционно означает математику (Science, Technology, Engineering and Mathematics). Иногда при добавлении к ним медицины пишут STEMM. Прим. пер.

103

Назван в честь английского статистика Эдварда Симпсона (1922–2019), описавшего парадокс в 1951 году. Впрочем, об этом эффекте упоминал Карл Пирсон еще в 1899 году и шотландский математик Джордж Удни Юл в 1903-м. Прим. пер.

104

‘Waitrose Adds £36,000 to House Price’, Daily Mail, 29 May 2017.

105

‘Fizzy Drinks Make Teenagers Violent’, Daily Telegraph, 11 October 2011.

106

S. Coren and D. F. Halpern, ‘Left-Handedness: A Marker for Decreased Survival Fitness’, Psychological Bulletin 109 (1991), 90–106. Критику см. в работе ‘Left-Handedness and Life Expectancy’, New England Journal of Medicine 325 (1991), 1041–3.

107

J. A. Hanley, M. P. Carrieri and D. Serraino, ‘Statistical Fallibility and the Longevity of Popes: William Farr Meets Wilhelm Lexis’, International Journal of Epidemiology 35 (2006), 802–5.

108

J. Howick, P. Glasziou and J. K. Aronson, ‘The Evolution of Evidence Hierarchies: What Can Bradford Hill’s “Guidelines for Causation” Contribute?’, Journal of the Royal Society of Medicine 102 (2009), 186–94.

109

Менделевская рандомизация использовалась, например, для проверки спорного вопроса о том, приносит ли умеренное потребление алкоголя пользу здоровью. У людей, которые никогда не употребляли алкоголь, как правило, более высокий уровень смертности, чем у умеренно пьющих, но есть разногласия во мнениях, обусловлено это алкоголем или трезвенники менее здоровы по каким-то иным причинам. Одна версия гена связана с пониженной переносимостью алкоголя, поэтому унаследовавшие его люди пьют меньше. Носители гена и те, у кого его нет, должны быть сбалансированы по всем остальным факторам, из-за чего какая-либо систематическая разница в их здоровье может быть приписана именно этому гену – словно в рандомизированном испытании. Исследователи обнаружили, что люди с этим геном, как правило, более здоровы, и пришли к заключению, что в целом алкоголь вреден. Однако для подтверждения такого вывода нужны дополнительные предположения, и споры не утихают. См. Y. Cho et al., ‘Alcohol Intake and Cardiovascular Risk Factors: A Mendelian Randomisation Study’, Scientific Reports, 21 December 2015.

110

Как писал Гальтон, «я ставлю Лондон на первое место по красоте, а Абердин на последнее».

111

M. Friendly et al., ‘HistData: Data Sets from the History of Statistics and Data Visualization’ (2018), https://CRAN.R-project.org/package=HistData.

112

Вот для сравнения российские данные примерно того же времени. Дмитрий Николаевич Анучин приводит величины среднего роста новобранцев в Российской империи для второй половины XIX века: Московская губерния – 164,4 см; Нижегородская – 164,0 см; Варшавская – 162,1 см. Выше всего средний рост призывников в Курляндской губернии – 167,0 см. «Очень высокорослыми рекрутами» именуются люди с ростом выше 177,8 см. (Д. Н. Анучин, «О географическом распределении роста мужского населения России [по данным о всеобщей воинской повинности в Империи за 1874–1883 гг.]: сравнительно с распределением роста в других странах: (с десятью раскрашенными картами)» / [соч.] проф. Д. Н. Анучина. – С.-Петербург: в тип. В. Безобразова и К°, 1889). Прим. пер.

113

Можно было бы проводить прямую, которая минимизирует сумму абсолютных величин этих остатков, а не сумму их квадратов, однако без современных компьютеров это практически невозможно.

114

То есть возвратом. Прим. пер.

115

Например, мы можем предсказать рост дочери, используя формулу: средний рост всех дочерей + 0,33 × (рост матери – средний рост всех матерей).

116

См. статью о методе наименьших квадратов в глоссарии.

117

J. Pearl and D. Mackenzie, The Book of Why: The New Science of Cause and Effect (Basic Books, 2018), p. 471.

118

Прекрасное обсуждение рисков моделирования см. в работе: A. Aggarwal et al., ‘Model Risk – Daring to Open Up the Black Box’, British Actuarial Journal 21:2 (2016), 229–96.

119

По сути, мы говорим, что изменения будут коррелировать с исходными измерениями, даже если в реальности никаких изменений в базовом процессе не происходит. Мы можем выразить это математически. Предположим, я беру случайное наблюдение X из генеральной совокупности с каким-то распределением. Потом беру другое независимое наблюдение Y с тем же распределением и смотрю на их разность Y – X. Справедливо замечательное утверждение: коэффициент корреляции между величиной X – Y и первым наблюдением X равен –1/√2 = –0,71, причем вне зависимости от распределения генеральной совокупности. Например, если у какой-то женщины есть ребенок, а затем ребенок появляется у ее подруги, то они начинают сравнивать вес детей, вычитая вес второго ребенка из веса первого. Тогда эта разность будет иметь корреляцию –0,71 с весом первого ребенка. Объяснение тут простое: если первый ребенок легкий, то мы, по всей вероятности, можем ожидать, что второй будет тяжелее, поэтому разница будет положительной. А если первый ребенок тяжелый, то мы ожидаем, что второй будет легче, и разница между их весом будет отрицательной.

120

L. Mountain, ‘Safety Cameras: Stealth Tax or Life-Savers?’, Significance 3 (2006), 111–13.

121

Слово «линейный» отражает тот факт, что в итоговое уравнение входит линейная комбинация независимых переменных (то есть сумма переменных, умноженных на какие-то коэффициенты). Такая модель называется линейной.

122

Независимые переменные стандартизированы путем вычитания выборочного среднего. Таким образом, чтобы спрогнозировать рост сына, мы используем формулу: 69,2 + 0,33 (рост матери – средний рост матерей) + 0,41 (рост отца – средний рост отцов).

123

Следующая таблица показывает виды множественной регрессии, используемые для различных типов зависимых переменных, а также интерпретацию коэффициента для каждой независимой переменной. (Для просмотра таблицы перейти в текст сноски.)

124 Коэффициент 0001 логистической регрессии означает что логарифм для - фото 79

124

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x