Cет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё
- Название:Все лгут. Поисковики, Big Data и Интернет знают о вас всё
- Автор:
- Жанр:
- Издательство:Литагент 5 редакция
- Год:2018
- Город:Москва
- ISBN:978-5-04-090836-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Cет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё краткое содержание
Все лгут. Поисковики, Big Data и Интернет знают о вас всё - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Сложность конкурирования с хедж-фондами – не самая основная проблема, с которой мы с Саммерсом столкнулись, продумывая возможность использования новых больших наборов данных для победы на фондовых рынках.
Проклятие числа размерностей
Предположим, ваша стратегия прогнозирования на фондовом рынке – подбрасывание монетки. Но при этом она создана на основе тщательного тестирования. Вот ваша методика: вы наносите метки на тысячу монет – от 1 до 1000. Каждое утро в течение двух лет вы подбрасываете все монеты, записывая, падают они орлом или решкой, а затем смотрите, идет ли индекс Standard & Poor’s в тот день вверх или вниз. Вы постоянно анализируете всю статистику. И вуаля! Вы что-то обнаружили. Получается, что при 70,3 % подбрасываний монета № 391 падает решкой вверх тогда, когда индекс S&P растет. Связь статистически значимая, ее уровень высокий. Вы нашли свою счастливую монету!
Теперь просто каждое утро подбрасывайте ее и покупайте акции, когда она выпадает решкой. Ваши дни в футболке и с ужином пустой лапшой закончились. Монета 391 – это ваш билет в хорошую жизнь!
Или нет.
Вы стали очередной жертвой одного из самых дьявольских аспектов «проклятия числа размерностей». Он может нанести удар, когда у вас имеется много переменных (или «размерностей») и не так много наблюдений: в данном случае, тысяча монет и 504 торговых дня за эти два года соответственно. Одна из этих размерностей – монета 391 – скорее всего, счастливая. Уменьшите количество переменных – подбрасывайте всего сто монет. И вероятность того, что вам повезет, существенно уменьшится. Увеличьте число наблюдений, попытавшись предсказать поведение индекса S&P за 20 лет – и монеты постараются «не ударить в грязь лицом».
«Проклятия размерности» является серьезной проблемой при работе с большими данными, поскольку новые наборы данных никогда не дают нам экспоненциально больше переменных, чем традиционные источники – каждый поисковой запрос, каждая категория твитов и т. д. Многие люди, утверждающие, что способны прогнозировать динамику рынка, используя какой-то большой источник данных, просто оказались в плену этого проклятия. Все, что они действительно сделали – нашли эквивалент монеты 391.
Возьмем, к примеру, команду ученых-компьютерщиков из университета штата Индиана и университета Манчестера. Эти специалисты утверждали, что могут спрогнозировать динамику рынков, основываясь на сообщениях в Twitter {173}. Они построили алгоритм обработки каждодневного настроения твитов всего мира, используя методы, подобные анализу настроений, рассматриваемому в главе 3. Однако они учитывали не одно настроение, а множество – счастье, злость, доброту и многие другие. И обнаружили, что повышенное число твитов с выражением спокойствия – таких как «я спокоен» – позволяет предположить повышенную вероятность роста промышленного индекса Доу – Джонса через шесть дней. Для использования их результатов был основан хедж-фонд.
В чем здесь проблема?
Основная загвоздка заключается в том, что ученые протестировали слишком много элементов. Если вы в случайном порядке исследуете достаточно много переменных, одна из них окажется статистически значимой. Они изучили много эмоций, они тестировали каждую эмоцию за день, два, три, семь до дня, поведение фондового рынка в который пытались предсказать. И все эти переменные были использованы для того, чтобы попытаться объяснить взлеты и падения индекса Доу – Джонса всего за несколько месяцев.
За шесть дней до этого спокойствие не было легитимным прогностическим фактором фондового рынка. В тот момент оно было эквивалентом нашей гипотетической монеты 391 для больших данных. Хедж-фонд на базе твитов был закрыт через месяц после запуска вследствие малой отдачи {174}.
Не только хедж-фонды, пытающиеся предсказать динамику рынков, страдали от «проклятия размерности». Те же проблемы возникли у ученых, пытавшихся найти генетические ключи, объясняющие, кто мы есть.
Благодаря проекту «геном человека» теперь можно собрать и проанализировать полную ДНК человека. Потенциал этого проекта казался огромным.
Возможно, нам удалось бы найти ген, ответственный за шизофрению. Может быть, мы могли бы обнаружить ген, вызывающий болезни Альцгеймера, Паркинсона и боковой амиотрофический склероз. Может быть, мы могли бы найти ген, отвечающий – ух ты! – за высокий уровень интеллекта. Есть ли ген, который в состоянии добавить кучу пунктов к IQ? Есть ли ген, создающий гения?
В 1998 году Роберт Пломин, видный поведенческий генетик, утверждал, что нашел ответ. Он получил набор данных, включавший ДНК и уровни интеллекта сотен студентов. Он сравнил ДНК «умников» (учащихся с IQ от 160 и выше) с ДНК студентов со средним уровнем IQ.
И обнаружил поразительную разницу в ДНК этих двух групп. Это различие было расположено в одном маленьком уголке 6-й хромосомы – неясный, но мощный ген, задействованный в метаболизме мозга. Одна версия этого гена, названного IGF2r, у более умных встречалась в два раза чаще.
«Сообщается о находке первого гена, связанного с высоким уровнем интеллекта», – запестрели заголовки «Нью-Йорк Таймс».
Можете задуматься о многочисленных этических вопросах, возникших после открытия Пломина. Следует ли разрешить родителям проводить тестирование детей на наличие гена IGF2r? Должны ли быть разрешены аборты, если у плода выявлен низкий уровень IQ? Можно ли генетически модифицировать людей, чтобы обеспечить им высокий уровень IQ? Коррелирует ли IGF2r с расой? Хотим ли мы знать ответ на этот вопрос? Следует ли продолжить исследования в области генетики, связанные с IQ?
Прежде чем специалисты по биоэтике, которым приходилось заниматься подобными острыми вопросами, занялись решением проблемы, перед генетиками – в том числе перед самим Пломиным – встал более простой вопрос: насколько точным был результат? Неужели правда, что IGF2r предопределяет уровень интеллекта? Неужели правда, что гении вдвое чаще являются носителями этого гена?
Нет. Через несколько лет после первого исследования, Пломин получил доступ к данным другой выборки людей, также включавшей ДНК и показатели IQ. На этот раз IGF2r с IQ не коррелировал. Пломин – и это показатель добросовестного ученого – отказался от своих заявлений.
Это, по сути, реализация общей схемы исследований в области генетики и IQ. Во-первых, ученые сообщили, что нашли генетический фактор, определяющий уровень IQ. Затем они получили новые данные и обнаружили, что исходное утверждение было неправильным.
Например, недавно группа ученых под руководством Кристофера Шабри исследовала 12 громких заявлений о вариантах генома, связанных с IQ. Специалисты изучили данные о 10 тысячах человек и не смогли воспроизвести корреляции ни для одной из 12 заявок {175}.
Читать дальшеИнтервал:
Закладка: