Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Название:Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2014
- Город:М.
- ISBN:978-5-91657-936-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Результат, получаемый на выходе, не настолько точен, как в случае реляционных баз данных: на него нельзя рассчитывать при запуске космического корабля или при подтверждении реквизитов банковского счета. Но со многими менее важными задачами, где суперточный ответ не требуется (скажем, с задачами по сегментированию клиентов для проведения специальных маркетинговых кампаний), Hadoop справляется намного быстрее, чем другие. С помощью Hadoop компания по выпуску кредитных карт Visa сумела сократить время обработки тестовых записей, накопленных за два года (73 миллиарда транзакций) с одного месяца до каких-то 13 минут. Подобное сокращение времени обработки ведет к преобразованиям в деловой сфере. Возможно, оно не годится для формального учета, зато исключительно полезно, когда некоторая погрешность вполне допустима. [52] Кукьер: трудности считывания данных по беспроводной связи: Data, data, everywhere // The Economist. — February 27, 2010. Система, безусловно, не является непогрешимой: причиной пожара на нефтеперерабатывающем заводе BP Cherry Point в феврале 2012 года оказались ржавые трубы.
Принимая беспорядочность, взамен мы получаем чрезвычайно ценные услуги, недоступные при использовании традиционных методов и инструментов, учитывая всю масштабность данных. По некоторым оценкам, только 5% всех цифровых данных «структурированы», то есть представлены в форме, подходящей для традиционных баз данных. Отказываясь от беспорядочности, мы теряем оставшиеся 95% неструктурированных данных, таких как веб-страницы и видео. Допуская неточность, мы открываем окно в непознанный мир открытий.
Общество пошло на два неявных компромисса, которые уже настолько укоренились в нашем быту, что воспринимаются как естественный порядок вещей. Во-первых, мы не замахиваемся на огромные массивы данных, поскольку исходим из того, что это невозможно. Но этот сдерживающий фактор становится все менее актуальным, и мы можем многого добиться, ориентируясь на подход « N = всё».
Второй компромисс — качество информации. В эпоху малых данных точность ставилась превыше всего, ведь тогда собирали только малую часть информации, поэтому она должна была быть как можно более точной. Во многом это актуально и сейчас. Но в большинстве случаев важнее не строго соблюсти точность, а быстро получить общее представление о данных или тенденциях их развития.
Представление о том, как использовать всю совокупность информации, а не ее часть, и постепенное осознание преимуществ менее точных данных коренным образом меняют взаимодействие людей с окружающим миром. По мере того как методы работы с большими данными становятся неотъемлемой частью повседневной жизни, общество в целом устремляется к всеобъемлющему, более широкому, чем раньше, пониманию явлений — своего рода мышлению « N = всё». Возможно, мы станем менее требовательными к точности и однозначности в областях, где полагались на четкость и определенность (пусть даже сомнительные). Мы согласимся с таким подходом при условии, что взамен получим более полную картину явлений. Так на картинах импрессионистов мазки кажутся беспорядочными при ближайшем рассмотрении, но отступите на шаг — и вы увидите величественную картину.
Большие данные со свойственной им полнотой и беспорядочностью помогают нам ближе подойти к осознанию реального положения вещей, чем это удавалось в условиях зависимости от малых данных и точности. Призыв к частичным, но точным данным вполне понятен. Наше постижение мира, возможно, было неполным, а порой и вовсе неверным в условиях ограниченности данных, поддающихся анализу, зато они давали ощущение уверенности и обнадеживающей стабильности. Кроме того, поскольку мы могли собрать и изучить лишь ограниченный объем данных, не возникало непреодолимого желания получить их абсолютно все и рассмотреть со всех возможных сторон. В узких рамках малых данных мы могли гордиться точностью, но, даже измеряя все до мельчайших подробностей, упускали из виду более масштабную картину.
Большие данные могут потребовать, чтобы мы научились спокойнее относиться к беспорядочности и неопределенности. Представления о точности, которые, казалось бы, служат нам ориентирами (например, что круглые фигуры подходят круглым отверстиям, существует только один ответ на вопрос и т. п.), лучше поддаются изменениям, чем мы можем предположить. Вместе с тем такое предположение, принятое на веру, приближает нас к пониманию реального положения вещей.
Описанные изменения образа мышления знаменуют радикальные преобразования. Они ведут к третьему шагу, который может во многом подорвать устои общества, основанного на понимании причин всех событий. Вместе с тем поиск логических взаимосвязей между данными и выполнение действий с ними (что и является темой следующей главы) зачастую дают вполне достойный результат.
Глава 4
Корреляция
В 1997 году 24-летний Грег Линден на время отложил свою докторскую диссертацию в области искусственного интеллекта в Вашингтонском университете, чтобы поработать над местным стартапом по продаже книг в интернете. Этот онлайн-магазин появился всего два года назад, но уже вел оживленную торговлю. «Мне очень понравилась идея продавать книги, продавать знания, а еще помогать людям находить следующий источник знаний, с которым они с удовольствием бы ознакомились», — вспоминает Грег. Этим магазином был Amazon.com, и Линден был нанят в качестве инженера-программиста для обеспечения бесперебойной работы сайта.
Среди сотрудников компании Amazon были не только технари. В то время там работала дюжина литературных критиков и редакторов, которые писали отзывы и предлагали новые наименования. Хотя история сайта Amazon хорошо знакома большинству людей, мало кто помнит о том, что его контент первоначально создавался вручную. Редакторы выбирали наименования, которые рекомендовались на веб-страницах Amazon. Редакторский отдел отвечал за так называемый «голос Amazon», который по праву считался гордостью компании и источником ее конкурентного преимущества. Примерно в то же время вышла статья в Wall Street Journal, в которой сотрудников отдела чествовали как самых влиятельных литературных критиков страны, поскольку им удавалось стимулировать высокий уровень продаж.
Затем Джефф Безос, основатель и СЕО [53] Chief Executive Officer — главный исполнительный директор.
Amazon, начал экспериментировать с многообещающей идеей: что если рекомендовать конкретные книги отдельным клиентам в зависимости от их предыдущих покупок? С момента начала деятельности Amazon компания накопила массу данных о каждом клиенте: о покупках, о просмотренных, но не приобретенных книгах и времени, затраченном на их просмотр, а также о книгах, приобретенных одновременно.
Интервал:
Закладка: