Сет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё
- Название:Все лгут. Поисковики, Big Data и Интернет знают о вас всё
- Автор:
- Жанр:
- Издательство:Литагент 5 редакция «БОМБОРА»
- Год:2018
- Город:Москва
- ISBN:978-5-04-090836-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Сет Cтивенс-Давидовиц - Все лгут. Поисковики, Big Data и Интернет знают о вас всё краткое содержание
Все лгут. Поисковики, Big Data и Интернет знают о вас всё - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Теперь пришло время более подробно поговорить о каждой из этих великолепных особенностей и разобраться, почему большие данные настолько важны.
Глава 3
Переосмысление данных
В 6 часов утра в определенную пятницу каждого месяца улицы большей части Манхэттена будут практически пустыми. Магазины будут закрыты, их фасады скрыты за стальными ставнями, а в квартирах над ними будет темно и тихо.
Напротив, все этажи здания Goldman Sachs, всемирно известного инвестиционного банковского учреждения, расположенного в Нижнем Манхэттене, будут ярко освещены, его лифты будут сновать туда-сюда, поднимая тысячи людей, едущих к своему рабочему месту. К 7 утра большинство столов будут заняты.
Можно без сомнения назвать этот час здесь в любой другой день сонным. Однако в эту пятницу тут будут кипеть энергия и азарт, потому что в этот день должна прибыть информация, которая окажет значительное влияние на фондовый рынок.
Через несколько минут после появления она будет растиражирована на новостных сайтах. Еще через несколько секунд она начнет обсуждаться и рассматриваться со всех сторон – в Goldman и сотнях других финансовых компаний. Но основная часть действий в области финансов в эти дни происходит за миллисекунды. Goldman и другие финансовые компании платят десятки миллионов долларов, чтобы получить доступ к оптоволоконным кабелям, сокращающим время передачи информации из Чикаго в Нью-Джерси на четыре миллисекунды (с 17 до 13). У финансовых фирм имеются алгоритмы [50] Matthew Leising, «HFT Treasury Trading Hurts Market When News is Released» («Как показывают данные, HFT Treasury Trading наносит удар по рынку»), Bloomberg Markets, 16 декабря, 2014 года; Nathaniel Popper, «The Robots Are Coming for Wall Street» («Роботы идут на Уолл-Стрит»), New York Times Magazine , 28 февраля 2016, MM56; Richard Finger, «High Frequency Trading: Is It a Dark Force Against Ordinary Human Traders and Investors?» («Высокочастотная торговля: это темные силы против простых трейдеров, и инвесторов?») Forbes , 30 сентября 2013 года, http://www.forbes.com/sites/richardfinger/2013/09/30/high-frequency-trading-is-it-a-dark-force-against-ordinary-human-traders-and-investors/#50875fc751a6.
для чтения информации и торговли на ее основе, и все это происходит за мгновения. После получения важнейших для финансового рынка данных они будут действовать быстрее, чем вы моргаете.
Так что это за важные данные, которые так ценны для Goldman и ряда других финансовых институтов?
Месячная ставка по безработице.
Эта ставка, однако, оказывает такое огромное влияние на фондовый рынок, что финансовые учреждения сделали все от них зависящее для увеличения скорости получения этих данных, их анализа и реагирования в соответствии с полученной информацией. Последняя является результатом телефонного опроса, который проводит Бюро статистики труда, и к моменту опубликования она уже устареет примерно на три недели – или 2 миллиарда миллисекунд.
При том что фирмы тратят миллионы долларов для ускорения поступления потока информации на миллисекунды, вам может показаться более чем странным тот факт, что правительству для вычисления уровня безработицы требуется так много времени.
Действительно, ускорение получения этих цифр было одним из самых важных пунктов в повестке дня Алана Крюгера [51] Я брал интервью у Алана Крюгера по телефону 8 мая 2015 года.
, когда он в 2011 году занял пост председателя президентского совета по экономике США при Бараке Обаме. Это ему не удалось. «Либо BLS (Бюро трудовой статистики Министерства труда США) не хватает ресурсов, – заключил он, – либо их мышление застряло в ХХ веке».
Поскольку правительство в ближайшее время явно не наберет нужный темп, возникает вопрос: есть ли способ быстрее получить хотя бы приблизительное представление о статистике безработицы? В нашу высокотехнологичную эпоху, когда почти каждый клик любого человека в интернете где-то записывается, неужели нам действительно придется ждать несколько недель, чтобы выяснить, сколько людей остались без работы?
Одно из возможных решений родилось под влиянием работы бывшего инженера компании Google Джереми Гинзберга. Он заметил, что данные о состоянии здоровья, как и сведения по безработице, правительство выпускает с задержкой. Центрам по контролю и профилактике заболеваний требуется неделя для подготовки данных об эпидемии гриппа [52] Исходный документ – Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski, and Larry Brilliant, «Detecting Influenza Epidemics Using Search Engine Query Data» («Обнаружение эпидемий гриппа с помощью поискового запроса данных») Nature 457, no. 7232 (2009). Недостатки в исходной модели обсуждались в David Lazer, Ryan Kennedy, Gary King, and Alessandro Vespignani, «The Parable of Google Flu: Traps in Big Data Analysis» («Притча о гриппе в Google: ловушки в анализе Больших Данных»), Science 343, no. 6176 (2014). Исправленная модель представлена ShihaoYang, Mauricio Santillana, and S. C. Kou, «Accurate Estimation of Influenza Epidemics Using Google Search Data Via ARGO» («Точная оценка эпидемии гриппа с использованием данных поиска в Googleе и с помощью „АРГО“»), Proceedings of the National Academy of Sciences 112, no. 47 (2015).
, хотя врачам и больницам было бы полезно иметь такие сведения как можно раньше.
Гинзберг подозревал, что заболевание гриппом напрямую связано с поисковыми запросами относительно его лечения. В сущности, люди сообщают о своих симптомах Google. Джереми решил, что эти запросы могут дать достаточно точную оценку текущему состоянию заболеваемости гриппом. И действительно, такие поисковые фразы как «симптомы гриппа» и «боль в мышцах» оказались важными показателями скорости распространения этого заболевания [53] Первоначальная версия Google Flu имела существенные недостатки, поэтому исследователи недавно создали намного более успешную модель. – Прим. авт.
.
Тем временем инженеры компании Google создали сервис Google Correlate, дающий внешним исследователям средства экспериментирования с тем же типом анализа в достаточно широком диапазоне полей, а не только в здоровье. Исследователи могут взять любой ряд данных, которые они отслеживают, и посмотреть, какие поисковые запросы в Google наиболее явно коррелируют с ним.
Например, с помощью Google Correlate мы с Хэлом Варианом, главным экономистом Google, сумели выяснить, какие поисковые запросы позволяют наиболее точно отслеживать динамику изменения цен на жилье [54] Seth Stephens-Davidowitz and Hal Varian, «A Hands-on Guide to Google Data» («Практическое руководство по использованию данных Google»), мимеограф, 2015.
. Когда последние растут, американцы, как правило, используют для поиска такие фразы, как «80/20 ипотека», «новый дом от застройщика» и «увеличение стоимости капитала». Когда же они падают, люди чаще всего ищут «процесс продажи без покрытия», «отрицательная ипотечная стоимость» и «снижение ипотечной задолженности».
Так может быть, поиск в Google можно использовать в качестве лакмусовой бумажки для оценки безработицы таким же образом, как он используется для оценки стоимости жилья или распространения эпидемии гриппа? В состоянии ли мы, просто оценивая запросы людей в Google, сказать, сколько из них не имеют работы? И можно ли сделать это достаточно точно до того, как правительство соберет и обнародует свои результаты опросов?
Читать дальшеИнтервал:
Закладка: