Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Тут можно читать онлайн Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - бесплатно полную версию книги (целиком) без сокращений. Жанр: Прочая околокомпьтерная литература, издательство Манн, Иванов и Фербер, год 2014. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - описание и краткое содержание, автор Виктор Майер-Шенбергер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
С появлением новой науки открылась удивительная возможность с точностью предсказывать, что произойдет в будущем в самых разных областях жизни. Большие данные — это наша растущая способность обрабатывать огромные массивы информации, мгновенно их анализировать и получать порой совершенно неожиданные выводы. По какому цвету покраски можно судить, что подержанный автомобиль находится в отличном состоянии? Как чиновники Нью-Йорка определяют наиболее опасные люки, прежде чем они взорвутся? И как с помощью поисковой системы Google удалось предсказать распространение вспышки гриппа H1N1? Ключ к ответу на эти и многие другие вопросы лежит в больших данных, которые в ближайшие годы в корне изменят наше представление о бизнесе, здоровье, политике, образовании и инновациях.

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать книгу онлайн бесплатно, автор Виктор Майер-Шенбергер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Вот почему служба Google Flu Trends полагается не на случайную выборку, а на исчерпывающий набор из миллиардов поисковых интернет-запросов в США. Используя все данные, а не выборку, можно повысить точность анализа настолько, чтобы прогнозировать распространенность какого-либо явления не то что в государстве или всей нации, а в конкретном городе. [31] Google Flu Trends: прогнозирование на уровне городов с 75%-ной точностью: Dugas et al. Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics // CID Advanced Access. — January 8, 2012. Исходная система Farecast использовала выборку из 12 000 точек данных и хорошо справлялась со своими задачами. Но, добавив дополнительные данные, Орен Эциони улучшил качество прогнозирования. В итоге система Farecast стала учитывать все ценовые предложения на авиабилеты по каждому маршруту в течение всего года. «Это временные данные. Просто продолжайте собирать их — и со временем вы станете все лучше и лучше понимать их закономерности», — делится Эциони. [32] Эциони о временн ы х данных: интервью Кукьеру (октябрь 2011 года).

Таким образом, в большинстве случаев мы с удовольствием откажемся от упрощенного варианта (выборки) в пользу полного набора данных. При этом понадобятся достаточные мощности для обработки и хранения данных, передовые инструменты для их анализа, а также простой и доступный способ сбора данных. В прошлом каждый из этих элементов был головоломкой. Мы по-прежнему живем в мире ограниченных ресурсов, в котором все части головоломки имеют свою цену, но теперь их стоимость и сложность резко сократились. То, что раньше являлось компетенцией только крупнейших компаний, теперь доступно большинству.

Используя все данные, можно обнаружить закономерности, которые в противном случае затерялись бы на просторах информации. Так, мошенничество с кредитными картами можно обнаружить путем поиска нетипичного поведения. Единственный способ его определить — обработать все данные, а не выборку. В таком контексте наибольший интерес представляют резко отклоняющиеся значения, а их можно определить, только сравнив с массой обычных транзакций. В этом заключается проблема больших данных. А поскольку транзакции происходят мгновенно, анализировать нужно тоже в режиме реального времени.

Компания Xoom специализируется на международных денежных переводах и опирается на хорошо известные большие данные. Она анализирует все данные, связанные с транзакциями, которые находятся в обработке. Система подняла тревогу, заметив незначительное превышение среднего количества транзакций с использованием кредитных карт Discover Card в Нью-Джерси. «Система обнаружила закономерность там, где ее не должно быть», — пояснил Джон Кунце, президент компании Xoom. [33] Исполнительный директор компании Xoom: Rosenthal, Jonathan. Special report: International banking // The Economist. — May 19, 2012. — P. 7–8. Сами по себе транзакции выглядели вполне законно. Но оказалось, что они инициированы преступной группировкой, которая пыталась обмануть компанию. Обнаружить отклонения в поведении можно было, только изучив все данные, чего не сделаешь с помощью выборки.

Использование всех данных не должно восприниматься как сверхзадача. Большие данные не обязательно таковы в абсолютном выражении (хотя нередко так и есть). Служба Flu Trends базируется на сотнях миллионов математических модельных экспериментов, использующих миллиарды точек данных. Полная последовательность человеческого генома содержит около трех миллиардов пар оснований. Однако само по себе абсолютное число точек данных (размер набора данных) не делает их примером больших данных как таковых. Отличительной чертой больших данных является то, что вместо упрощенного варианта случайной выборки используется весь имеющийся набор данных, как в случае службы Flu Trends и врачей Стива Джобса.

Насколько значимо применение подхода « N = всё», отлично иллюстрирует следующая ситуация. В японском национальном спорте — борьбе сумо — выявилась практика договорных боев. Обвинения в проведении «боев в поддавки» всегда сопровождали соревнования в этом императорском виде спорта и строго запрещались. Стивен Левитт, предприимчивый экономист из Университета Чикаго, загорелся идеей научиться определять такие бои. Как? Просмотрев все прошлые бои без исключения. В своей замечательной исследовательской статье, опубликованной в American Economic Review, [34] Корректировка боев сумо: Duggan, Mark. Winning Isn’t Everything: Corruption in Sumo Wrestling / Mark Duggan & Steven D. Levitt // American Economic Review. — 2002. — Vol. 92. — P. 1594–1605. URL: http://pricetheory.uchicago.edu/levitt/Papers/DugganLevitt2002.pdf. он описывает пользу изучения всех данных. Позже эта идея найдет свое отражение в его бестселлере «Фрикономика». [35] Левитт С., Дабнер С . Фрикономика. М. : Манн, Иванов и Фербер, 2011.

В поиске отклонений Левитт и его коллега Марк Дагген просмотрели все бои за последние 11 лет — более 64 000 поединков. И попали в десятку. Договорные бои действительно имели место, но не там, где их искало большинство людей. Речь шла не о чемпионских поединках, которые могли фальсифицироваться. Данные показали, что самое занятное происходило во время заключительных боев турнира, которые оставались незамеченными. Казалось, что на карту поставлено немного, ведь у борцов фактически нет шансов на завоевание титула.

Одна из особенностей сумо в том, что борцам нужно победить в большинстве из 15 боев турнира, чтобы сохранить свое положение и доходы. Иногда это приводит к асимметрии интересов, например, если борец со счетом 7:7 сталкивается с противником со счетом 8:6. Результат имеет огромное значение для первого борца и практически безразличен второму. Левитт и Дагган обнаружили, что в таких случаях, скорее всего, победит борец, который нуждается в победе. На первый взгляд, это «подарок» одного борца другому. Но в тесном мире сумо все взаимосвязано.

Может, парень просто боролся решительнее, поскольку цена победы была столь высока? Возможно. Но данные говорят об обратном: борцы, которые нуждаются в победе, побеждают примерно на 25% чаще, чем следовало ожидать. Вряд ли дело лишь в одном адреналине. Дальнейший разбор данных также показал, что при следующей встрече тех же двух борцов тот, кто проиграл в предыдущем бою, в три-четыре раза вероятнее выиграет, чем при третьем или четвертом спарринге.

Эта информация всегда была очевидной, была на виду. Но анализ случайной выборки может не выявить такие закономерности. Анализ больших данных, напротив, показывает ее с помощью гораздо большего набора данных, стремясь исследовать всю совокупность боев. Это похоже на рыбалку, в которой нельзя сказать заранее, удастся ли что-то поймать и что именно .

Набор данных не всегда измеряется терабайтами. В случае сумо весь набор данных содержал меньше бит, чем обычная цифровая фотография. Но так как анализировались большие данные, в расчет бралось больше данных, чем при случайной выборке. В этом и общем смысле «большой» — скорее относительное понятие, чем абсолютное (в сравнении с полным набором данных).

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Виктор Майер-Шенбергер читать все книги автора по порядку

Виктор Майер-Шенбергер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим отзывы


Отзывы читателей о книге Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим, автор: Виктор Майер-Шенбергер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x