Том Чиверс - Цифры врут. Как не дать статистике обмануть себя
- Название:Цифры врут. Как не дать статистике обмануть себя
- Автор:
- Жанр:
- Издательство:неизвестно
- Год:неизвестен
- ISBN:978-5-6046877-9-6
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Том Чиверс - Цифры врут. Как не дать статистике обмануть себя краткое содержание
Каждый день медиа пишут о сенсационных открытиях и шокирующих результатах исследований. Но не всем им можно верить: статистические погрешности, намеренные фальсификации и неочевидные огрехи никто не отменял.
Из-за пандемии COVID-19 человечество было вынуждено пройти ускоренный курс статистики: теперь мы неплохо разбираемся в графиках, кое-что слышали о нормальном распределении и знакомы с ошибкой выжившего. Но нам еще многое предстоит узнать: как работают математические модели? Чем отличаются абсолютные и относительные риски? О чем говорят рейтинги? Что такое ошибка техасского стрелка? Научный журналист Том Чиверс и преподаватель экономики в Даремском университете Дэвид Чиверс на примерах громких заголовков ковидного времени показывают, как не дать себя обмануть с помощью чисел.
В формате PDF A4 сохранен издательский макет книги.
Цифры врут. Как не дать статистике обмануть себя - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
К счастью, пути искажения чисел бывают вполне предсказуемыми. Например, эффектный результат можно получить, выбрав какую-то экстремальную точку или удачное начало отсчета, а также многократно перебирая данные, пока не найдется что-то интересное. Результат можно преувеличить, если говорить не о реальном изменении, а о процентном. С помощью чисел создается видимость причинно-следственной связи там, где есть простая корреляция. Существует и масса других способов. Эта книга научит вас замечать некоторые из них.
Мы вовсе не утверждаем, что никаким цифрам из СМИ нельзя верить. Мы просто хотим научить вас разбираться, каким и когда верить можно.
Математику мы постарались свести к минимуму. Почти все, что похоже на уравнение, вынесено из основного текста в отдельные врезки. Их читать необязательно – вы и так все поймете.
Но мы не могли совсем обойтись без технических понятий, поэтому изредка в книге будут попадаться выражения типа p = 0,049 или r = —0,4; пусть они вас не пугают. Это лишь краткие формы записи совершенно простых житейских понятий – вы их, несомненно, легко поймете.
Книга разделена на 22 короткие главы. В каждой – на примерах, взятых из СМИ, – рассматривается какой-то один способ неправильной интерпретации чисел. Мы надеемся, что к концу каждой главы вы поймете, в чем проблема, и научитесь ее распознавать. Нам кажется, что лучше всего начать с чтения первых восьми глав – в них изложены идеи, которые помогут понять остальное. Но если вам нравится перескакивать с одного на другое – так тоже можно. Если мы опираемся на что-то уже описанное, то указываем на это.
В конце книги мы излагаем ряд предложений по совершенствованию работы СМИ – то, как можно избежать ошибок, которые мы обсуждаем. Мы надеемся, что эта книга станет своего рода руководством по правильной подаче статистики. Будет здорово, если вы посоветуете следовать ему тем СМИ, которые читаете или смотрите.
А теперь вперед.
Глава 1
Как числа могут вводить в заблуждение
Со статистикой врать легко, а без – еще легче.
Приписывается статистику Фредерику МостеллеруИз-за COVID-19 человечество прошло ускоренный (и весьма дорогостоящий!) курс статистики. Все были вынуждены в сжатые сроки познакомиться с экспоненциальными кривыми и интервалами неопределенности, ложноположительностью и ложноотрицательностью, усвоить разницу между уровнем инфекционной смертности и показателем летальности. Некоторые из этих понятий, бесспорно, сложны, но даже те, что на первый взгляд кажутся простыми, – например, количество умерших от вируса – на поверку вызывают затруднения. В первой главе мы рассмотрим, как обычные с виду числа могут удивительным образом сбивать с толку.
Одним из первых люди усвоили коэффициент распространения (R). Если еще в декабре 2019 года вряд ли хотя бы один человек из пятидесяти знал о нем, то уже к концу марта 2020-го этот показатель упоминался в новостях практически без всяких пояснений. Но поскольку числа могут вести себя очень коварно, искренние попытки сообщить аудитории об изменениях R вводили читателей и зрителей в заблуждение.
Напомним: R – это репродуктивное число чего-либо. Оно применимо ко всему, что распространяется или воспроизводится: мемам, людям, зевоте и новым технологиям. В эпидемиологии инфекционных болезней R – это число людей, которых в среднем заражает один заболевший. Если у инфекции коэффициент распространения равен пяти, то каждый инфицированный заражает в среднем пятерых.
Конечно, этот показатель не так прост: это всего лишь среднее. При R = 5 каждый из сотни человек может заразить ровно пятерых, но может случиться и так, что 99 человек не заразят никого, а один заразит 500 человек. Возможен и любой промежуточный вариант.
Причем с течением времени коэффициент распространения меняется. R может быть сильно больше в самом начале эпидемии, когда ни у кого еще нет иммунитета и никакие превентивные меры – социальное дистанцирование или ношение масок, – скорее всего, еще не приняты. Одна из задач здравоохранения в этот момент – с помощью вакцинации или выработки у населения новых привычек снизить R. Ведь если он выше единицы, инфекция будет распространяться экспоненциально, а если ниже – эпидемия сойдет на нет.
Но даже с учетом всех этих тонкостей можно было бы ожидать, что в случае вируса есть одно простое правило: если R растет, это плохо. Поэтому в начале мая 2020 года никого не удивлял тон сообщений, заполонивших британскую прессу: «коэффициент распространения вируса снова превысил единицу», вероятно из-за «скачка заболеваемости в домах престарелых».
Но, как обычно, всё несколько сложнее.
С 2000 по 2013 год медианная заработная плата в США выросла примерно на 1 % в реальном выражении (то есть с учетом инфляции).
Эту врезку читать необязательно, но, если вы не помните разницу между медианой и средним арифметическим, не пропускайте ее.
Понятия среднего арифметического, медианы и моды вы могли узнать в школе. Что такое среднее арифметическое, наверное, даже помните – нужно сумму нескольких чисел разделить на их количество. А медиана – это среднее число в последовательности чисел.
Разница вот в чем. Пусть население – 7 человек, причем один из них зарабатывает 1 фунт в год, один – 2 фунта и так далее – до 7. Если все эти числа сложить, получится 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28. Разделив 28 на число людей (7), получим 4 фунта. Среднее арифметическое – 4 фунта.
А чтобы узнать медиану, числа не складывают, а располагают по возрастанию: с левого края заработок в 1 фунт, потом – 2, и так до 7 с правого края. Так вы увидите, кто оказался в середине – человек, получающий 4 фунта. Так что и медиана у нас равна 4 фунтам.
Теперь представим, что тот, кто зарабатывает 7 фунтов, продает свой технический стартап компании Facebook за миллиард. Наше среднее арифметическое внезапно становится равно (1 + 2 + 3 + 4 + 5 + 6 + 1 000 000 000) / 7 = 142 857 146 фунтам. Таким образом, хотя положение 6 из 7 человек никак не изменилось, «среднестатистический гражданин» стал мультимиллионером. [3] Принадлежит компании Meta, которая признана экстремистской организацией и запрещена в РФ. – Прим. ред.
В подобных случаях неравномерного распределения статистики часто предпочитают иметь дело с медианой. Если мы снова выстроим людей по порядку возрастания их зарплат, то в середине опять окажется тот, кто зарабатывает 4 фунта. При изучении реального населения, состоящего из миллионов человек, медиана дает лучшее представление о ситуации, чем среднее арифметическое, особенно если оно искажено зарплатами нескольких суперпреуспевающих работников.
А мода – это самое частое значение. Поэтому, если у вас есть 17 человек, зарабатывающих по 1 фунту, 25 – по 2 и 42 – по 3, то мода – 3 фунта. Все несколько усложняется, когда статистики принимаются с помощью моды описывать непрерывные величины вроде высоты, но об этом мы пока постараемся не думать…
Читать дальшеИнтервал:
Закладка: