Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Тут можно читать онлайн Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - бесплатно полную версию книги (целиком) без сокращений. Жанр: Прочая околокомпьтерная литература, издательство Манн, Иванов и Фербер, год 2014. Здесь Вы можете читать полную версию (весь текст) онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - описание и краткое содержание, автор Виктор Майер-Шенбергер, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
С появлением новой науки открылась удивительная возможность с точностью предсказывать, что произойдет в будущем в самых разных областях жизни. Большие данные — это наша растущая способность обрабатывать огромные массивы информации, мгновенно их анализировать и получать порой совершенно неожиданные выводы. По какому цвету покраски можно судить, что подержанный автомобиль находится в отличном состоянии? Как чиновники Нью-Йорка определяют наиболее опасные люки, прежде чем они взорвутся? И как с помощью поисковой системы Google удалось предсказать распространение вспышки гриппа H1N1? Ключ к ответу на эти и многие другие вопросы лежит в больших данных, которые в ближайшие годы в корне изменят наше представление о бизнесе, здоровье, политике, образовании и инновациях.

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать книгу онлайн бесплатно, автор Виктор Майер-Шенбергер
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

* * *

Большинство неудобств связаны с тем, что случайную выборку трудно масштабировать, поскольку разбивка результатов на подкатегории существенно увеличивает частоту ошибок. И это понятно. Предположим, у вас есть случайная выборка из тысячи людей и их намерений проголосовать на следующих выборах. Если выборка достаточно случайна, вполне вероятно, что настроения людей в рамках выборки будут разниться в пределах 3%. Но что если плюс-минус 3% — недостаточно точный результат? Или нужно разбить группу на более мелкие подгруппы по половому признаку, географическому расположению или доходу? Или если нужно объединить эти подгруппы в целевую группу населения?

Допустим, в общей выборке из тысячи избирателей подгруппа «обеспеченных женщин из северо-восточного региона» составила гораздо меньше сотни. Используя лишь несколько десятков наблюдений, невозможно точно прогнозировать, какого кандидата предпочтут все обеспеченные женщины в северо-восточном регионе, даже если случайность близка к идеальной. А небольшие погрешности в случайности выборки сделают ошибки еще более выраженными на уровне подгруппы.

Таким образом, при более внимательном рассмотрении интересующих нас подкатегорий данных выборка быстро становится бесполезной. То, что работает на макроуровне, не подходит для микроуровня. Выборка подобна аналоговой фотопечати: хорошо смотрится на расстоянии, но при ближайшем рассмотрении теряется четкость деталей.

Далее, выборка требует тщательного планирования и реализации. Данные выборки не смогут дать ответы на новые вопросы, если они не продуманы заранее. Поэтому выборка хороша в качестве упрощенного варианта, не более. В отличие от целого набора данных, выборка обладает недостаточной расширяемостью и эластичностью, благодаря которым одни и те же данные можно повторно анализировать совершенно по-новому — не так, как планировалось изначально при сборе данных.

Рассмотрим анализ ДНК. Формируется новая отрасль индивидуального генетического секвенирования, что обусловлено грандиозным падением стоимости технологии и многообещающими медицинскими возможностями. В 2012 году цена декодирования генома упала ниже 1000 долларов США — неофициальной отраслевой отметки, при которой технология приобретает массовый характер. Так, начиная с 2007 года стартап Кремниевой долины 23andme [29] 23andme — частная компания в Маунтин-Вью, Калифорния, где разрабатываются новые биотехнологические методы. стал предлагать анализ ДНК всего за пару сотен долларов. Этот анализ позволяет выявить особенности генетического кода человека, которые повышают его предрасположенность к развитию определенных заболеваний, например рака молочной железы или проблем с сердцем. А объединяя информацию о ДНК и здоровье своих клиентов, 23andme рассчитывает выявить новые закономерности, которые невозможно обнаружить другим способом.

Компания секвенирует крошечную часть ДНК человека из нескольких десятков участков, которые являются «маркерами». Они указывают на определенную генетическую слабость и представляют собой лишь выборку всего генетического кода человека. При этом миллиарды пар оснований ДНК остаются несеквенированными. В результате 23andme может ответить только на те вопросы, которые связаны с заданными маркерами. При обнаружении нового маркера потребуется еще раз секвенировать ДНК человека (точнее, его соответствующую часть). Работа с выборкой, а не целым набором данных имеет свои недостатки: позволяя проще и быстрее находить нужные данные, она не в состоянии ответить на вопросы, которые не были поставлены заранее.

Легендарный руководитель компании Apple Стив Джобс выбрал другой подход к борьбе против рака, став одним из первых людей в мире, просеквенировавших всю свою ДНК, а также ДНК своей опухоли. Это обошлось ему в шестизначную сумму, которая в сотни раз превышала обычный тариф 23andme. Зато Стив Джобс получил не просто выборку или набор маркеров, а целый набор данных, содержащий весь генетический код.

При лечении среднестатистического онкобольного врачам приходится рассчитывать, что ДНК пациента достаточно похожа на пробу, взятую для исследования. А у команды врачей Стива Джобса была возможность подбирать препараты, ориентируясь на их эффективность для конкретного генетического материала. Всякий раз, когда один препарат становился неэффективным из-за того, что рак мутировал и стал устойчивым к его воздействию, врачи могли перейти на другой препарат, «перескакивая с одной кувшинки на другую», как говорил Стив Джобс. В то время он язвительно заметил: «Я стану одним из первых, кто сумеет обойти рак, или одним из последних, кто умрет от него». И хотя его предсказание, к сожалению, не сбылось, сам метод получения всего набора данных (а не просто выборки) продлил жизнь Стива Джобса на несколько лет. [30] Генетическое секвенирование Стива Джобса: Isaacson, Walter. Steve Jobs. — 2011.

От малого к большему

Выборка — продукт эпохи ограниченной обработки информации. Тогда мир познавался через измерения, но инструментов для анализа собранных показателей не хватало. Теперь выборка стала пережитком того времени. Недостатки в подсчетах и сведении данных стали гораздо менее выраженными. Датчики, GPS-системы мобильных телефонов, действия на веб-страницах и Twitter пассивно собирают данные, а компьютеры могут с легкостью обрабатывать их.

Понятие выборки подразумевает возможность извлечь максимум пользы из минимума материалов, подтвердить крупнейшие открытия с помощью наименьшего количества данных. Теперь же, когда мы можем поставить себе на службу большие объемы данных, выборки утратили прежнюю значимость. Технические условия обработки данных резко изменились, но адаптация наших методов и мышления не поспевает за ней.

Давно известно, что цена выборки — утрата подробностей. И как бы мы ни старались не обращать внимания на этот факт, он становится все более очевидным. Есть случаи, когда выборки являются единственным решением. Однако во многих областях происходит переход от сбора небольшого количества данных до как можно большего, а если возможно, то и всего: «N = всё».

Используя подход « N = всё», мы можем глубоко изучить данные. Не то что с помощью выборки! Кроме того, уже упоминалось, что мы могли бы достичь 97%-ной точности, экстраполируя результаты на все население. В некоторых случаях погрешность в 3% вполне допустима, однако при этом теряются нюансы, точность и возможность ближе рассмотреть некоторые подгруппы. Нормальное распределение, пожалуй, нормально. Но нередко действительно интересные явления обнаруживаются в нюансах, которые невозможно в полной мере уловить с помощью выборки.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Виктор Майер-Шенбергер читать все книги автора по порядку

Виктор Майер-Шенбергер - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим отзывы


Отзывы читателей о книге Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим, автор: Виктор Майер-Шенбергер. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x