Саманта Клейнберг - Почему
- Название:Почему
- Автор:
- Жанр:
- Издательство:Литагент МИФ без БК
- Год:2017
- Город:Москва
- ISBN:978-5-00100-593-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Саманта Клейнберг - Почему краткое содержание
Книга будет интересна аналитикам, философам, исследователям, медикам, экономистам, юристам, начинающим ученым, всем, кто имеет дело с массивами данных и хочет научиться критическому мышлению.
На русском языке публикуется впервые.
Почему - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Итак, даже если корреляция истинна и надежна, она может оказаться бесполезной для прогнозирования, если мы попытаемся перенести ее на другую группу населения, не обладающую нужными свойствами для срабатывания взаимосвязи (подробнее об этом в главе 9). Корреляция ничего не говорит о том, почему эти предметы взаимосвязаны, то есть почему покупатели – именно конкретные подростки 16–17 лет, которые готовятся к экзаменам по углубленной программе, а также любят телешоу с персонажами такого же возраста. Значит, ее трудно применять для прогнозирования в других ситуациях.
Мы привели весьма однозначный пример, однако были и другие, с менее четким механизмом действия. В 1978 году спортивный журналист в шутку предложил новый индикатор фондового рынка: если команда Американской футбольной лиги выигрывает Супербоул [124], к концу года рынок упадет; если нет – пойдет вверх [125]. Нет никакой специфической причины, по которой между этими событиями должна быть связь, но, если взять все возможные индикаторы поведения рынка, именно этот работает достаточно часто, убеждая некритично настроенную аудиторию. И все же без понимания того, почему это срабатывает, мы никогда не сумеем предсказать, в какие годы конкретный паттерн даст сбой. Может ведь оказаться, что с того момента, как этот индикатор получил широкую известность, знание о корреляции (пусть и безосновательно возведенной в ранг достоверных) влияет на поведение.
Аналогичные сомнения возникают, когда нужно использовать данные наблюдений (например, поисковые результаты в интернете или посты в соцсетях) для выявления трендов. Простое знание о том, что люди этим занимаются, приводит к изменениям в пользовательском поведении (возможно, благодаря освещению в СМИ), а также к злонамеренным азартным играм в системе.
Итак, хотя корреляции способны быть полезными для прогнозирования, прогнозы могут оказаться неверными, а измеренная корреляция – ложной.
Почему корреляция не причинно-следственная связь
Когда я читала лекцию о причинном осмыслении, один студент задал вопрос: «Разве Юм не утверждал, что причинность – всего лишь корреляция?»
И да, и нет. Да, причинно-следственная связь возможна, но мы не можем знать наверняка. А то, что мы способны наблюдать, – по сути, корреляция (или особый вид закономерности). Это, однако, не означает, что причинность представляет взаимосвязь только потому, что мы способны ее наблюдать. Это говорит еще и о том, что в большинстве работ, связанных с выявлением и оценкой причинных зависимостей, разрабатываются способы отличия каузальных корреляций от остальных.
Это можно проделать на основе экспериментов или статистических методов, но дело не только в том, чтобы выявить корреляцию. В этой книге мы проанализируем ситуации, в которых причинно-следственная связь кажется очевидной, но в реальности ее нет. В последующих главах мы также рассмотрим некоторые случаи, когда соотношения возникают без соответствующей причинной зависимости.
Первое – меры корреляции симметричны. Соотношение роста и возраста в точности соответствует зависимости между возрастом и ростом. С другой стороны, причинно-следственная связь может быть асимметрична. Если кофе вызывает бессонницу, это не значит, что бессонница также должна стать причиной потребления кофе, хотя такое может случиться, когда не выспавшийся ночью человек утром вынужден пить больше кофе.
Точно так же любая мера значимости причин (например, условные вероятности) отличается в двух направлениях. Если мы выявили корреляцию, не имея никакой информации о том, какой фактор имеет место в начале, то с равной вероятностью каждый из них может оказаться причиной другого (или будет наличествовать петля обратной связи), а мера взаимосвязи сама по себе не дает представления о различиях между двумя (или тремя) возможностями.
Если мы попытаемся придумать историю причинной взаимосвязи для пары коррелирующих вещей, нам придется, основываясь на базовых знаниях, предположить, какая из них, вероятнее всего, повлечет за собой другую. Например, даже если пол человека связан с риском инсульта, трудно представить, чтобы инсульт определял пол. Но если мы выявили соотношение между набором веса и пассивным образом жизни, никакие данные о том, как коррелируют эти факторы, не скажут о направленности найденной взаимосвязи.
Ошибочные корреляции могут возникать по многим причинам. В случае с СХУ и вирусом XMR соотношение возникло из-за загрязнения экспериментальных образцов. В других ситуациях это мог быть баг в компьютерной программе, ошибки в расшифровке результатов или некорректный анализ данных. Видимая связь может также возникнуть из-за статистических отклонений или простого совпадения, как в примере с фондовым рынком и футболом. Но есть еще одна причина – необъективность. Иногда, если выборка нерепрезентативна, мы можем увидеть корреляцию там, где ее нет. Точно та же проблема приводит к обнаружению соотношения и без причинной зависимости.
Важно понимать, что причинно-следственные связи не единственное, хотя и возможное в ряде случаев, объяснение корреляций. К примеру, мы нашли соотношение в ситуации, когда человек, съевший плотный завтрак, вовремя успевает на работу; однако, вероятно, оба фактора имеют общую причину: человек рано встал, а значит, у него было время хорошо позавтракать, вместо того чтобы в спешке бежать на службу. Выявив корреляцию между двумя переменными, нужно проверить, способен ли подобный неизмеренный фактор (общая причина) объяснить эту взаимосвязь.
В ряде случаев (о которых мы поговорим в главе 4) таким общим фактором оказывается время. Можно обнаружить множество ошибочных корреляций между факторами с устойчивыми по времени тенденциями. К примеру, если количество пользователей интернета всегда увеличивается и национальный долг – тоже, эти факторы будут взаимосвязаны. Но в целом мы ссылаемся на переменную или набор переменных, объясняющих корреляцию. Например, можно задуматься: действительно ли усердное учение обеспечивает лучшие оценки, или более вероятно, что лучшие студенты и усердно учатся, и получают высокие оценки. Возможно, врожденная способность становится общей причиной и оценок, и времени, проведенного за учебниками. Если бы была возможность изменить способность, это могло повлиять и на оценки, и на время обучения, но любое экспериментирование с оценками и усердием в учении не оказало бы никакого воздействия на два других фактора.
Аналогичная причина корреляции без прямой причинной зависимости – промежуточная переменная. Скажем, проживание в городе соотносится с низким индексом массы тела (ИМТ), поскольку горожане больше ходят, чем ездят на машине, и проявляют высокую физическую активность. Таким образом, жизнь в городе косвенно приводит к низкому ИМТ, однако переезд в город и постоянное использование транспорта – плохая стратегия для желающих похудеть. Б о льшую часть времени мы ищем косвенные причины (например, курение вызывает рак легких, а не особые биологические процессы, посредством которых и происходит воздействие), но, если знать механизм (как именно причина производит следствие), можно найти лучшие пути для вмешательства.
Читать дальшеИнтервал:
Закладка: