Саманта Клейнберг - Почему
- Название:Почему
- Автор:
- Жанр:
- Издательство:Литагент МИФ без БК
- Год:2017
- Город:Москва
- ISBN:978-5-00100-593-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Саманта Клейнберг - Почему краткое содержание
Книга будет интересна аналитикам, философам, исследователям, медикам, экономистам, юристам, начинающим ученым, всем, кто имеет дело с массивами данных и хочет научиться критическому мышлению.
На русском языке публикуется впервые.
Почему - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Теперь, рассмотрев все случаи, когда методики не работают, а ученые и политики совершают досадные каузальные ошибки, вы можете спросить: а какое нам до этого дело? Мы же более не связаны рамками маломасштабных экспериментов, когда приходится систематически изменять только один объект за раз, чтобы узнать, как работает система. Теперь мы располагаем громадными объемами данных о покупательских привычках, медицинских записях и активности в Сети, и все это – в цифровом формате. Теперь, куда бы вы ни направлялись, можете взять с собой датчик ускорений и GPS «в одном флаконе» (то есть смартфон), а ваша деятельность в Сети отслеживается множеством способов. Природа интернета, распространение электронных медкарт и вездесущие сенсоры сделали возможным генерирование огромного объема информации о великом количестве видов деятельности большего числа людей, чем когда бы то ни было. При таком массиве исходного материала, может, и не слишком важно, как что-то там работает. Можно отыскать информацию для корреляции – и хватит [405].
Когда есть столько информации, да еще такой детальной – последовательность книг, которые приобретает человек; каждый шаг, который он делает; результаты миллионов телефонных звонков в рамках политической кампании, – продавцы могут составлять рекламные объявления в расчете на целевых покупателей, фитнес-центры – оценивать, сколько калорий вы сожгли, а политики – выискивать избирателей, которых можно привлечь на свою сторону. Да, огромный объем данных в самом деле может повысить точность прогнозов, и если все, что мы желаем знать, это кто с большей вероятностью купит пару туфель, увидев рекламу, тогда, возможно, и не важно, как эта реклама работает. Даже если какие-то прогнозы окажутся ошибочными.
В таком случае забудьте про теорию и объяснения механизмов действия; все ответы уже содержатся в имеющихся данных.
Конечно, слово «причина» используется не всегда. Анализ данных может охватывать ассоциации, корреляции, связи, тенденции, взаимоотношения, взаимосвязи и факторы риска. И даже в тех случаях, когда язык каузальности звучит уж слишком туманно, выводы и заключения часто все равно применяются так, как если бы они причинами и были. В конце концов, мы оперируем сведениями, чтобы выяснить вероятный итог и иметь возможность изменить его или проконтролировать.
Даже если вам не приходится анализировать данные такого рода по долгу службы и неинтересно забираться в дебри функционирования девайсов вроде вашего фитнес-трекера, вам все равно не укрыться от результатов аналитической работы, которую выполняют другие.
Стоит ли поддерживать новую политику, предусматривающую снижение страховой премии людям, которые носят шагомеры? Почему мы выбираем одно лекарство, а не другое? Как мы уже видели, корреляции здесь не помогут. Даже если бы мы могли делать безошибочные прогнозы и осуществлять вмешательства на их основе, мы все равно всегда хотим знать, почему происходит то или иное, – и дети со своим назойливым «почему», и взрослые, которым нужно решить, где ошибка и кто виноват.
Ни в коей мере не выступая в роли «реликта ушедшей эпохи», как утверждал больше века назад Бертран Рассел [406], [407], причинность – и способность ее критического осмысления – необходима больше, чем когда-либо, именно сейчас, когда мы собираем эти громадные базы данных. Осознание того, когда можно, а когда нельзя выяснить причину, – умение столь же фундаментальное, как способность читать и писать. Мы проводим миллионы экспериментов, чтобы вычленить какой-нибудь значимый сигнал в горах цифрового щебня, и шансы найти нечто ценное по чистой случайности все растут, как и необходимость скептического отношения ко всем находкам без исключения [408].
Там, где невозможна экспериментальная валидация каждой отдельной находки, на помощь приходит статистика, с помощью которой мнимые открытия можно контролировать (до известной степени). Но знание о том, почему возникают ложные взаимосвязи, также поможет понять, когда полученный вывод – всего лишь корреляция.
Существует неверное понимание, что так называемые большие данные [409] – это всего-навсего больше сведений: больше людей, временн ы х точек, переменных. Но сбор таких данных – это не просто расширение малого массива.
Чтобы получить несколько телефонных номеров, можно просмотреть адресную книгу и методично проверить каждый контакт. Звоня приятелю по телефону, мы точно знаем, кому соответствует этот номер, персональный он или принадлежит всему домовладению, домашний или мобильный. С другой стороны, когда нам нужны миллионы телефонных номеров, мы просто не способны знать каждого человека лично и должны собирать сведения из совокупности таких источников, как коммерческие базы данных и списки обзвона, которые, возможно, устарели или неверны и которые нельзя верифицировать в индивидуальном порядке. Кто-то мог переехать, кто-то зарегистрировал несколько номеров под разными именами, а кто-то просто отключил телефон.
Чем больше данных, тем выше шансы помех и ошибок, поэтому сопоставление не настолько однозначно, как кажется. По сравнению с небольшими контролируемыми наборами сведений возникает больше вопросов о качестве данных и потенциальных источников ошибок, смещений и упущенных моментов. При больших массивах информации переменные сложнее интерпретировать, а данные часто собираются по другим временн ы м графикам.
Вместо того чтобы исчезнуть, становится только насущнее необходимость знать, почему происходит то или иное.
Мы нуждаемся не только в причинной зависимости, но и в глубоком знании соответствующего предмета, чтобы просто понять, был ли эксперимент успешным, и интерпретировать его результаты.
В ходе одного проекта я анализировала данные пациентов неврологического отделения интенсивной терапии, чтобы выяснить, что вызывает вторичные мозговые травмы у больных с инсультом. Чтобы ускорить исцеление, они содержатся в прохладных условиях, и у некоторых регистрировалась температура тела 20 °C. Этот показатель кажется необычно низким, но у таких пациентов вообще многие показатели аномальные, потому что они серьезно больны. Чтобы понимать, что 20 °C означают очень сильную гипотермию, и скептически отнестись к такому значению, нужно обладать определенными знаниями из области физиологии. А чтобы точно определить, почему зарегистрирована такая низкая температура, требуется еще больше специальных знаний. Многие клиницисты, однако, способны только взглянуть на этот показатель и немедленно понять, что произошло. Температура измеряется катетером, который вводится в мочевой пузырь, поэтому, если катетер выскальзывает, он начинает измерять температуру комнаты, которая как раз составляет около 20 °C. Это очевидно, если взглянуть на ситуацию в ретроспективе, но только тот, кто разбирается в данных и знает, откуда они берутся, способен все объяснить.
Читать дальшеИнтервал:
Закладка: