Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Название:Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2014
- Город:М.
- ISBN:978-5-91657-936-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Объем данных был настолько внушительным, что поначалу Amazon приходилось обрабатывать их обычным способом — путем отбора выборки и ее анализа с целью выявить сходство между клиентами. Рекомендации выходили приблизительными. Купив книгу о Польше, вы получили бы массу предложений по Восточной Европе, а купив книгу о детях — завалены подобной литературой. «Как правило, вам предлагались небольшие вариации на тему вашей предыдущей покупки. И так до бесконечности, — вспоминает Маркус Джеймс, литературный критик Amazon в 1996–2001 годах, в своих мемуарах Amazonia. — Создавалось ощущение, что вы отправились за покупками с бестолковым советчиком». [54] Цитата Маркуса: Marcus, James. Amazonia: Five Years at the Epicenter of the Dot.Com Juggernaut // The New Press. — June, 2004. — P. 199.
Грег Линден нашел решение. Он понял, что рекомендательной системе, по сути, не нужно сравнивать одних людей с другими, что к тому же было технически обременительно. Нужно всего лишь найти ассоциации среди самих продуктов. В 1998 году Линден и его коллеги заявили патент на метод совместной фильтрации «предмет-предмет». Изменение подхода принесло большую пользу.
Поскольку расчеты проводились заранее, рекомендации выдавались молниеносно. К тому же они были универсальными и включали товары из разных категорий. Поэтому, когда компания Amazon расширила ассортимент, рекомендательная система могла предлагать не только книги, но и фильмы или, скажем, тостеры. Кроме того, рекомендации стали намного точнее, поскольку система использовала все данные. «В отделе шутили, что, если система отлично себя зарекомендует, на сайте Amazon достаточно будет показывать только одну книгу — ту, которую вы купите следующей», — вспоминает Линден. [55] Линден: интервью Кукьеру (март 2012 года).
Теперь перед компанией стоял выбор, что отображать: отзывы, написанные штатными литературными критиками Amazon, или контент, созданный компьютером (личные рекомендации, списки бестселлеров и пр.); то, что говорят критики, или то, на что указывают действия клиентов? Это в буквальном смысле была борьба человека против компьютера.
Линден сравнил продажи, которые последовали за отзывами литературных критиков, и контент, созданный компьютером. Разница оказалась внушительной. По словам Линдена, материалы, полученные на основе данных, принесли практически в сто раз больше продаж. Возможно, компьютеру и было неизвестно, почему клиент, читающий Хемингуэя, пожелает приобрести Фрэнсиса Скотта Фицджеральда. Но, похоже, это не имело значения. Продажи текли рекой. Редакторам озвучили точный процент продаж, которые компания Amazon недополучала при каждой публикации их отзывов в интернете, и отдел распустили. «Мне было очень жаль, что результат редакторского отдела оказался ниже, — вспоминает Линден. — Но данные не лгут, а цена была очень высока».
Сегодня считается, что третью всех своих продаж компания Amazon обязана своим рекомендательным системам, а также системам персонализации. С их помощью компания не только вытеснила с рынка большие книжные и музыкальные магазины, но и сотни местных книготорговцев, которые думали, что их личный подход укроет их от ветра перемен. Работа Линдена поистине произвела революцию в сфере электронной коммерции, поскольку этот метод был подхвачен практически всеми. Компания Netflix, которая занимается сдачей фильмов напрокат в интернете, три четверти новых заказов получает благодаря рекомендациям. [56] Информация о ценах Netflix: Amatriain, Xavier. Netflix Recommendations: Beyond the 5 stars (Part 1) / Xavier Amatriain and Justin Basilico // Блог Netflix. — 6.04.2012.
Следуя примеру Amazon, тысячи сайтов могут рекомендовать продукты, контент, друзей и группы для подписки, не зная толком, чем это все может заинтересовать их пользователей.
Для рассматриваемой задачи знание почему может быть полезно, но не столь важно. А вот знание что приводит к конкретным действиям. Эта истина способна изменить помимо электронной коммерции многие отрасли. Продавцам из разных сегментов рынка долгое время твердили, что им нужно понять, что заставляет клиентов совершить покупку, понять причины их решений. Высоко ценились профессиональные навыки и многолетний опыт работы. Но большие данные показывают, что есть и другой, в некотором смысле более эффективный подход. Рекомендательным системам Amazon удалось выявить любопытные корреляции, не зная их первопричины. Так что знания что , а не почему вполне достаточно.
Прогнозы и предрасположенности
Корреляции полезны в области малых данных. Но по-настоящему они раскрывают свой потенциал в контексте больших данных. С их помощью мы можем рассматривать явления проще, быстрее и отчетливее, чем раньше.
По сути, корреляция — количественное выражение статистической связи между двумя значениями. Сильная корреляция означает, что при увеличении одних значений данных другие значения, вероятнее всего, тоже увеличатся. Такие корреляции мы наблюдали, когда описывали Google Flu Trends: чем больше людей в конкретном географическом регионе ищут определенные ключевые слова в поисковой системе Google, тем выше заболеваемость гриппом в этом регионе. С другой стороны, слабая корреляция означает, что при увеличении одних значений данных другие значения практически не изменятся. Так, если провести корреляцию между размером обуви людей и тем, насколько они счастливы, мы обнаружим, что размер обуви мало что может рассказать о счастье человека.
Корреляции помогают анализировать объекты, выявляя не принципы их работы, а полезные закономерности. Безусловно, даже сильные корреляции не идеальны. Вполне возможно, что похожее поведение двух объектов — не более чем совпадение. Нет никаких гарантий, что даже сильные корреляции сумеют объяснить каждый случай. Не каждая рекомендация книг на сайте Amazon безошибочна. Корреляции дают не определенность, а лишь вероятность. Но в случае сильной корреляции между явлениями высока вероятность, что они взаимосвязаны. Многие могут подтвердить это, указав на полку, уставленную книгами по рекомендациям Amazon.
Корреляции дают возможность определять ценные закономерности явлений, чтобы подмечать их в настоящем и прогнозировать в будущем. Например, если событие А часто сопровождается событием B, нужно следить за B, чтобы спрогнозировать А. Такой подход позволяет уловить, чего вероятнее всего ожидать от события А, даже если мы не можем измерить или проследить его напрямую. Более того, это позволяет нам спрогнозировать дальнейшие события. Конечно, корреляции не могут предсказывать будущее — они лишь могут спрогнозировать его с определенной вероятностью. Но и это чрезвычайно ценно.
Walmart — крупнейшая в мире сеть розничной торговли, которая насчитывает более двух миллионов сотрудников. Ее объем продаж составляет около 400 миллиардов долларов — больше, чем ВВП большинства стран. Перед наплывом огромных массивов данных, порожденных интернетом, компания Walmart располагала, пожалуй, самым большим хранилищем данных среди коммерческих компаний в США. В 1990-х годах она произвела переворот в розничной торговле, внедрив учет всей продукции в виде данных с помощью сети Retail Link. Компания Walmart предоставила поставщикам возможность самим контролировать темпы и объемы продаж и запасов. Благодаря такой прозрачности Walmart удалось вынудить поставщиков самостоятельно заботиться о своей логистике. В большинстве случаев Walmart не выступает «собственником» продукта до момента продажи, тем самым снимая с себя риск обесценения запасов и снижая затраты. По сути, с помощью данных Walmart удалось стать крупнейшим комиссионным магазином.
Читать дальшеИнтервал:
Закладка: