Чарльз Уилан - Голая статистика
- Название:Голая статистика
- Автор:
- Жанр:
- Издательство:Array Литагент «МИФ без БК»
- Год:2016
- Город:Москва
- ISBN:978-5-00057-953-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Чарльз Уилан - Голая статистика краткое содержание
Эта книга будет полезной для студентов, которые не любят и не понимают статистику, но хотят в ней разобраться; маркетологов, менеджеров и аналитиков, которые хотят понимать статистические показатели и анализировать данные; а также для всех, кому интересно, как устроена статистика.
Голая статистика - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Ваш начальник предлагает вам заказать пиццу и быть готовым к тому, что придется поработать вечером (или даже всю ночь). На этот раз статистические боги оказываются к вам милостивы. Вам на стол кладут данные второго экзитпола, для проведения которого использовалась выборка из 2000 избирателей. Его результаты таковы: кандидат-республиканец – 52 % голосов, кандидат-демократ – 45 % голосов, независимый кандидат – 3 % голосов. На этот раз ваш босс совершенно взбешен, поскольку эти данные показывают, что разрыв между кандидатами сократился, а это еще больше затрудняет своевременное предсказание итогов голосования. Но не нужно спешить с выводами! Вы указываете (стараясь сохранять присутствие духа), что размер второй выборки (2000) в четыре раза больше первой, которая использовалась при проведении первого экзитпола. Таким образом, стандартная ошибка существенно уменьшилась. Новая стандартная ошибка для кандидата от республиканцев равняется √[0,52(0,48)/2000], что составляет 0,01.
Если вашего начальника по-прежнему устраивает 95 %-ный доверительный интервал, то вы можете объявить победителем кандидата от республиканцев. С учетом вашей новой стандартной ошибки 0,01 95 %-ные доверительные интервалы для кандидатов таковы: кандидат-республиканец: 52 ± 2, или между 50 и 54 % голосов избирателей; кандидат-демократ 45 ± 2, или между 43 и 47 % голосов избирателей. Теперь между этими двумя доверительными интервалами нет никакого взаимного перекрытия. Вы можете в прямом эфире сообщить, что на выборах победил кандидат от республиканцев; такой прогноз окажется правильным более чем в 95 случаях из 100 [52].
Но это даже лучше. Из центральной предельной теоремы вам известно, что в 99,7 % случаев пропорция долей выборки будет отстоять от истинной пропорции долей совокупности на расстоянии, не превышающем трех стандартных ошибок. В нашем примере с выборами 99,7 %-ные доверительные интервалы для двух кандидатов таковы: кандидат от республиканцев: 52 ± 3 %, или между 49 и 55 % голосов избирателей; кандидат от демократов 45 ± 3 %, или между 42 и 48 % голосов избирателей. То есть после того как вы объявите победителем выборов кандидата-республиканца, благодаря новой выборке из 2000 избирателей останется лишь ничтожная вероятность того, что вы вместе со своим начальником будете уволены.
Вы, наверное, обратили внимание, что использование большей по объему выборки снижает стандартную ошибку. Именно за счет этого крупные общенациональные опросы позволяют получить необычайно точные результаты. В то же время выборки меньшего размера увеличивают величины стандартных ошибок и, следовательно, доверительный интервал (или «предел ошибки выборочного исследования», как принято говорить среди специалистов по проведению опросов общественного мнения). Текст, набранный мелким шрифтом в опросе The New York Times / CBS News, гласит, что предел погрешности для вопросов по поводу праймериз республиканцев составляет 5 процентных пунктов в сравнении с 3 процентными пунктами для других вопросов, включенных в опрос общественного мнения. Эти вопросы задавались лишь тем, кто сам назвал себя сторонником Республиканской партии, и тем, кто участвовал в голосованиях на закрытых собраниях ее членов, поэтому размер выборки для данной подгруппы вопросов снизился до 455 (общее количество избирателей, участвовавших в опросе, составило 1650).
Как обычно, примеры, приведенные в этой главе, «грешат» многими упрощениями. Вы, наверное, обратили внимание, что в примере с выборами у кандидатов от Республиканской и Демократической партий должна была быть своя собственная стандартная ошибка. Вернемся еще раз к приведенной выше формуле: SE = √[ p (1 − p )/ n ]. Размер выборки n один и тот же для обоих кандидатов, однако p и (1 − p ) будут несколько разниться. Во втором экзитполе (когда размер выборки был увеличен до 2000 избирателей) стандартная ошибка для кандидата от Республиканской партии составила √[0,52 × (0,48)/2000] = 0,01117; для кандидата от Демократической партии – √[0,45× (0,55)/2000] = 0,01112. Разумеется, какими бы ни были наши намерения и цели, эти два числа должны быть одинаковы [53]. Именно поэтому я остановил свой выбор на общепринятом соглашении: из двух значений стандартной ошибки использовать большее значение для всех кандидатов. В любом случае такой подход вносит в доверительные интервалы небольшую дополнительную меру предосторожности.
При проведении многих общенациональных опросов общественного мнения, включающих в себя большое число вопросов, идут еще дальше. В случае опроса The New York Times / CBS News для каждого вопроса должна быть, строго говоря, своя стандартная ошибка (в зависимости от ответа). Например, стандартная ошибка, относящаяся к ситуации, когда 9 % участников опроса одобряют деятельность Конгресса США, должна быть меньше стандартной ошибки, относящейся к ситуации, когда 46 % участников опроса одобряют деятельность Обамы на посту президента США, поскольку 0,09 × 0,91 меньше, чем 0,46 × 0,54: 0,0819 против 0,2484. (Интуитивные соображения, на которых основывается эта формула, объясняются в приложениик настоящей главе.)
Поскольку использование собственной стандартной ошибки для каждого вопроса было бы неудобным и вносило бы излишнюю путаницу, при проведении подобных опросов общественного мнения обычно предполагается, что доля выборки для каждого вопроса равняется 0,5 (или 50 %) – что порождает максимально возможную стандартную ошибку для любого размера выборки, – и именно такая стандартная ошибка используется при вычислении предела ошибки выборки для опроса в целом [54].
При соответствующей организации опросы общественного мнения становятся поистине замечательными инструментами. Согласно Фрэнку Ньюпору, главному редактору Gallup Organization, опрос 1000 человек позволяет с высокой степенью точности оценить настроения в обществе в целом. С точки зрения статистики Фрэнк Ньюпор, несомненно, прав. Но чтобы получить столь значимые и точные данные, мы должны надлежащим образом провести опрос, а затем правильно интерпретировать его результаты, что порой намного легче сказать , чем сделать . Неправильные результаты опросов обычно обусловлены не ошибкой в математических расчетах при вычислении стандартных ошибок, а являются следствием некорректно сформированной выборки, или неправильно сформулированных вопросов, или того и другого. Выражение «мусор на входе – мусор на выходе» полностью применимо к проведению социологических опросов. Ниже перечислены ключевые методологические вопросы, которые необходимо задать при проведении любого опроса общественного мнения или оценивании чьей-то работы.
Действительно ли данная выборка является репрезентативной (представительной) из совокупности, настроения которой мы пытаемся выяснить? Многие типичные проблемы, связанные с данными, уже обсуждались в главе 7. Тем не менее мне придется еще раз указать на опасность систематической ошибки выбора, особенно систематической ошибки самоотбора. Любой опрос, результаты которого зависят от людей, попадающих в выборку по собственной инициативе, например в ходе ток-шоу на радио или при проведении добровольных интернет-опросов, будет отражать мнения лишь тех, кто сам пожелал его высказать. В подобных случаях мы узнаем лишь мнения людей, которые проявляют повышенный интерес к рассматриваемому вопросу или располагают избытком свободного времени. Очевидно, что ни та ни другая группа не может отражать общие настроения общества. Однажды я сам участвовал в ток-шоу на радио в качестве гостя. Один из слушателей программы, ехавший в это время в автомобиле по каким-то своим делам, позвонил на радиостанцию и выразил категорическое несогласие с моим мнением. Мои взгляды возмутили его до такой степени, что он не поленился свернуть с автомагистрали к телефонной будке, которую заметил возле обочины, чтобы позвонить в радиостудию. Хотелось бы верить, что те слушатели, которые во время этого ток-шоу не свернули с автомагистрали, разделяли мои взгляды.
Читать дальшеИнтервал:
Закладка: