Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных

Тут можно читать онлайн Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных - бесплатно ознакомительный отрывок. Жанр: Математика, издательство Манн, Иванов и Фербер, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.
  • Название:
    Искусство статистики. Как находить ответы в данных
  • Автор:
  • Жанр:
  • Издательство:
    Манн, Иванов и Фербер
  • Год:
    2021
  • Город:
    Москва
  • ISBN:
    9785001692508
  • Рейтинг:
    3/5. Голосов: 11
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 60
    • 1
    • 2
    • 3
    • 4
    • 5

Дэвид Шпигельхалтер - Искусство статистики. Как находить ответы в данных краткое содержание

Искусство статистики. Как находить ответы в данных - описание и краткое содержание, автор Дэвид Шпигельхалтер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики. На русском языке публикуется впервые.

Искусство статистики. Как находить ответы в данных - читать онлайн бесплатно ознакомительный отрывок

Искусство статистики. Как находить ответы в данных - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Дэвид Шпигельхалтер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Но потом выяснилось, что все это было преднамеренным обманом. Йоханнес Боханнон оказался журналистом Джоном Боханноном, Института диеты и здоровья вообще не существовало; правда, данные исследования оказались несфабрикованными. Однако в каждой группе было всего по пять испытуемых, тесты проводились многократно, но сообщили только о существенных различиях.

Авторы этой сфальсифицированной работы сразу же признались в обмане. Однако далеко не все статистические махинации осуществляются с благими намерениями указать таким способом на слабые места экспертной оценки.

Преднамеренный обман

Умышленная фабрикация данных действительно практикуется, но считается, что достаточно редко. Проверка анонимных самоотчетов показала, что 2 % ученых признались в фальсификации данных, в то время как Национальный научный фонд и Отдел по обеспечению добросовестности в исследованиях сталкиваются с довольно небольшим числом заведомо нечестных действий, хотя обнаруженное количество наверняка занижено [249].

Кажется вполне логичным, чтобы мошенничество в статистике выявила сама статистика. Ури Симонсон, психолог из Пенсильванского университета, проверял статистические данные, описывающие предположительно рандомизированные испытания, которые должны демонстрировать типичный случайный разброс, но оказывались либо неправдоподобно похожими, либо неправдоподобно различными. Например, он заметил, что в одном отчете все три стандартных отклонения составили 25,11, хотя предполагалось, что их вычисляли для трех разных групп по 15 человек. Симонсон получил исходные данные и показал с помощью моделирования, что шансы получить такие одинаковые стандартные отклонения исчезающе малы, после чего исследователь, ответственный за этот отчет, был снят с должности [250].

Британский психолог Сирил Берт, известный своим исследованием наследственности IQ, был посмертно обвинен в мошенничестве, когда выяснилось, что коэффициенты корреляции, которые он приводил для IQ разлученных близнецов, практически не менялись со временем, несмотря на постоянное увеличение группы близнецов: коэффициент был равен 0,770 в 1943 году, 0,771 в 1955-м и 0,771 в 1966-м. Психолога обвинили в подтасовке данных, но поскольку все его записи были после его смерти сожжены, вопрос до сих пор остается спорным. Некоторые утверждают, что тут просто закралась ошибка, ведь обман слишком очевиден, вряд ли ученый мог его совершить.

Все было бы гораздо проще, если бы единственными проблемами статистики – пусть даже серьезными – были только некомпетентность и нечестность. Мы могли бы обучать, проверять, воспроизводить, открывать данные для проверки и так далее, об этом мы поговорим в последней главе, посвященной правильным методам работы. Но, увы, существует более масштабная и тонкая проблема, и именно она, по мнению некоторых, и есть главный фактор кризиса воспроизводимости.

«Сомнительные исследовательские практики»

Даже если данные подлинные, анализ произведен правильно, а статистика и соответствующее P-значение корректны, могут возникнуть затруднения с интерпретацией полученных результатов, если мы точно не знаем, исходя из чего исследователи сделали такие выводы.

Мы видели какие проблемы возникают, когда исследователи сообщают только о значимых результатах, но, возможно, более важен тот сознательный или неосознанный набор мелких решений, которые принимает исследователь в зависимости от того, что, как ему кажется, показывают данные. Такие поправки могут касаться изменения структуры эксперимента; решения о прекращении сбора данных; того, какие данные нужно исключить, какие коэффициенты подправить, какие группы выделить, на каких характеристиках сосредоточиться, на какие группы разделить непрерывные переменные, как обработать недостающие данные, и так далее. Симонсон называет такие решения «степенями свободы исследователя», в то время как Эндрю Гельман описывает их более поэтично – «сад расходящихся тропок». Все эти ухищрения увеличивают шансы на получение статистической значимости и все подпадают под общее название «сомнительной исследовательской практики».

Важно различать поисковыеи подтверждающие исследования. Поисковые эксперименты – как раз то, о чем говорит их название: это гибкие исследования с целью рассмотреть многие возможности и выдвинуть гипотезы для последующей проверки с помощью более формальных подтверждающих экспериментов. В поисковых исследованиях можно применять самые разные настройки, но подтверждающие исследования нужно проводить в соответствии с заранее установленным и предпочтительно публичным протоколом. Любой может использовать P-значения, чтобы охарактеризовать силу доказательств для своих выводов, но эти P-значения надо четко различать и по-разному интерпретировать.

Действия, направленные на получение статистически значимых результатов, известны как P-хакинг [251], и хотя самый очевидный метод – выполнить несколько проверок, а опубликовать только наиболее значимый результат, есть гораздо более тонкие способы, позволяющие исследователям реализовать свои «степени свободы».

Делает ли вас прослушивание песни «Битлз» When I’m Sixty-Four моложе?

Вы можете быть вполне уверены в правильном ответе на этот вопрос. Что делает его еще более впечатляющим, учитывая, что Симонсон с коллегами ухитрились (нужно признать, довольно мудреными средствами) получить существенный положительный результат [252].

Студенты Пенсильванского университета, распределенные случайным образом, слушали композиции When I’m Sixty-Four группы «Битлз», или Kalimba, или Hot Potato группы The Wiggles. Затем испытуемых спрашивали, когда они родились, на сколько лет себя ощущают и еще задавали несколько абсолютно не относящихся к делу вопросов [253].

Симонсон с коллегами постоянно анализировали эти данные всеми способами, до которых смогли додуматься, и продолжали набирать участников, пока не обнаружили некоторую значимую связь. Это случилось после 34 испытуемых, и хотя между их возрастом и записями, которые они слушали, не было выявлено никакой связи, при сравнении только When I’m Sixty-Four и Kalimba удалось получить P < 0,05 в регрессии, учитывавшей возраст отца. Естественно, исследователи сообщили только о значимом результате, не упомянув о бесчисленном количестве манипуляций и избирательной отчетности – все это было раскрыто только в конце статьи, которая стала классической преднамеренной демонстрацией практики, получившей название «харкинг» – выдвижение гипотез после того, как известны результаты [254].

Сколько людей на самом деле участвуют в сомнительных исследовательских практиках?

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Дэвид Шпигельхалтер читать все книги автора по порядку

Дэвид Шпигельхалтер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Искусство статистики. Как находить ответы в данных отзывы


Отзывы читателей о книге Искусство статистики. Как находить ответы в данных, автор: Дэвид Шпигельхалтер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x