Чарльз Уилан - Голая статистика
- Название:Голая статистика
- Автор:
- Жанр:
- Издательство:Array Литагент «МИФ без БК»
- Год:2016
- Город:Москва
- ISBN:978-5-00057-953-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Чарльз Уилан - Голая статистика краткое содержание
Эта книга будет полезной для студентов, которые не любят и не понимают статистику, но хотят в ней разобраться; маркетологов, менеджеров и аналитиков, которые хотят понимать статистические показатели и анализировать данные; а также для всех, кому интересно, как устроена статистика.
Голая статистика - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Впечатляющие данные, приведенные выше, давали политическим аналитикам обильную пищу для изучения настроений американцев за год до президентских выборов. Правда, возникает резонный вопрос: откуда все это известно? Как удалось сделать столь далекоидущие выводы о настроениях сотен миллионов взрослых американцев? И почему мы должны верить, что эти выводы верны?
Ответ очевиден: это результат опросов общественного мнения. К тому же в приведенном выше примере их проводили The New York Times и CBS News. (То обстоятельство, что две конкурирующие новостные организации совместно реализовывали проект, подобный этому, является первым указанием на то, что такие исследования довольно затратны.) Я не сомневаюсь, что вы знакомы с результатами этих опросов. Возможно, не столь явно выраженным кажется тот факт, что методология их проведения представляет собой всего лишь еще одну форму статистического вывода. Опрос общественного мнения – это получение выводов о настроениях определенной совокупности людей, основанных на мнениях, высказанных некоторой выборкой, сформированной из генеральной совокупности.
Эффективность опросов обусловливается использованием того же источника, что и в предыдущих примерах с выборками, – центральной предельной теоремы. Если мы опрашиваем достаточно большую репрезентативную выборку избирателей (или любую другую группу), то у нас есть все основания полагать, что она будет очень похожа на совокупность, из которой извлечена. Если ровно половина взрослых американцев не одобряют однополые браки, то мы вполне можем рассчитывать, что в репрезентативной выборке из 1000 американцев примерно половина ее членов также выступят против однополых браков.
И наоборот (что гораздо важнее для проведения опросов общественного мнения), если в репрезентативной выборке из 1000 американцев удалось выявить определенные настроения, например 46 % недовольны деятельностью Обамы на посту президента США, то это дает веский повод думать, что среди населения в целом – примерно в такой же пропорции – также присутствуют подобные настроения. Вообще говоря, мы можем рассчитать вероятность того, что результаты, полученные с помощью нашей выборки, будут значительно отклоняться от доминирующих настроений в обществе. Когда вы читаете, что статистическая погрешность составляет ±3 %, в действительности речь идет о том же 95 %-ном доверительном интервале, который мы вычисляли в предыдущей главе. Наш «95 %-ный доверительный интервал» означает, что если бы мы провели 100 разных опросов общественного мнения в выборках, сформированных из одной и той же совокупности, то, предположительно, полученные ответы в 95 из 100 опросов отличались бы (в ту или другую сторону) от истинных настроений этой совокупности не более чем на 3 %. В контексте вопроса об оценке деятельности Обамы на посту президента США, фигурировавшего в опросе, проводившемся The New York Times и CBS News, мы могли на 95 % быть уверены, что истинная доля американцев, не одобряющих его деятельность, находится в диапазоне 46 ± 3 %, то есть от 43 % до 49 %. Если вы прочитаете сопроводительный текст к опросу, набранный мелким шрифтом (между прочим, я бы настоятельно рекомендовал вам всегда это делать), то увидите, что его смысл заключается в следующем: «Теоретически в 19 случаях из 20 результаты, базирующиеся на таких выборках, будут отличаться не более чем на 3 % (в ту или другую сторону) от результатов, которые были бы получены в ходе опроса всех взрослых американцев».
Одно из фундаментальных отличий опросов общественного мнения от других форм использования метода выборки состоит в том, что интересующим нас статистическим показателем выборки будет не среднее значение (например, 187 фунтов веса), а некий процент или доля (например, 47 % избирателей, или 0,47). В остальном же процессы идентичны. При наличии крупной репрезентативной выборки (опрос общественного мнения) можно ожидать, что доля респондентов, охваченных определенными настроениями (например, 9 % респондентов в этой выборке одобряют деятельность Конгресса США), примерно равна доле американских избирателей в целом, испытывающих аналогичные настроения. Это в принципе ничем не отличается от предположения о том, что средний вес выборки из 1000 мужчин-американцев должен примерно равняться среднему весу всех мужчин-американцев. Тем не менее мы допускаем вероятность какого-то разброса от выборки к выборке доли тех, кто одобряет деятельность Конгресса США, точно так же как у нас есть все основания ожидать какого-то разброса в средних значениях веса при использовании разных произвольных выборок из 1000 мужчин-американцев. Если бы The New York Times и CBS News провели еще один опрос – задавая те же вопросы другой выборке из 1000 взрослых американцев, – то очень маловероятно, что его результаты полностью бы совпали с результатами первого опроса. С другой стороны, можно ожидать, что ответы, полученные в ходе первого и второго опросов, будут незначительно отличаться между собой. (Воспользуюсь метафорой, к которой уже прибегал в этой книге: если вы попробуете ложку супа из кастрюли, затем хорошенько перемешаете суп и попробуете ложку супа еще раз, то его вкус, скорее всего, покажется вам примерно таким же) Стандартная ошибка – вот что указывает на то, какого разброса результатов от выборки к выборке (в данном случае от опроса к опросу) мы можем ожидать.
Формула расчета стандартной ошибки в случае, когда речь идет о процентной величине или доле, несколько отличается от формулы, с которой вы уже познакомились; впрочем, интуитивные соображения остаются такими же. Для любой произвольной выборки, сформированной надлежащим образом, стандартная ошибка равняется √( p (1 − p )/ n ), где p – доля респондентов, выражающих определенную точку зрения, (1 − p ) – доля респондентов, имеющих противоположную точку зрения, а n – общее количество респондентов в выборке. Обратите внимание, что стандартная ошибка будет уменьшаться с увеличением размера выборки, поскольку n находится в знаменателе. Стандартная ошибка также будет уменьшаться с увеличением разности между p и (1 − p ). Например, стандартная ошибка будет меньше в случае опроса, в ходе которого 95 % респондентов выражают определенную точку зрения, чем в случае опроса, в котором мнения респондентов разделяются примерно 50 на 50. Это чисто математический результат, поскольку 0,05×0,95 = 0,047, тогда как 0,5×0,5 = 0,25; меньшая величина в числителе формулы ведет к уменьшению стандартной ошибки.
Допустим, что в результате проведения простого экзитпола репрезентативной выборки из 500 избирателей выяснилось, что 53 % проголосовали за кандидата от республиканцев, 45 % – за кандидата от демократов и 2 % поддержали независимого кандидата. Если использовать кандидата от республиканцев как интересующую нас долю, то стандартная ошибка для этого экзитпола составит: √[(0,53)(1–0,53)/500] = √[(0,53)(0,47)/500] = √[0,25/500] = √0,0005 = 0,02236
Читать дальшеИнтервал:
Закладка: