Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Название:Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2014
- Город:М.
- ISBN:978-5-91657-936-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Компании Netflix и Amazon умело используют информацию о покупках клиентов, чтобы рекомендовать новые продукты. При этом у компаний возникает соблазн многократно использовать эти записи в течение многих лет. В такой ситуации можно было бы утверждать, что в рамках соблюдения обязательных нормативов (например, закона о неприкосновенности частной жизни) компаниям следует хранить цифровые записи всегда или по крайней мере пока это экономически целесообразно. Однако все не так просто.
Информация с течением времени теряет часть своей первичной пользы. В таких условиях дальнейшее использование старых данных может не только не добавить ценности, но и фактически нивелировать пользу более новых данных. Положим, вы купили книгу на сайте Amazon лет десять назад. Вряд ли она все еще отражает ваши интересы. Если Amazon будет отталкиваться от нее, рекомендуя вам другие книги, вы вряд ли их купите, а может, вообще перестанете обращать внимание на последующие рекомендации сайта. Поскольку рекомендации основываются на всех собранных данных, наличие устаревших данных сводит на нет всю пользу новых (все еще ценных).
Таким образом, у Amazon есть огромный стимул использовать данные ровно до тех пор, пока это продуктивно. Компания должна постоянно сортировать свою базу данных, удаляя информацию, которая уже утратила свою ценность. А как узнать, что данные стали бесполезными? Ориентироваться исключительно на время не всегда эффективно. Поэтому Amazon и другие компании разработали сложные модели, которые позволяют отделить полезные данные от бесполезных. Если клиент просматривает или покупает книгу, которая была рекомендована на основе его предыдущей покупки, интернет-магазин берет на заметку, что старые покупки по-прежнему отражают текущие предпочтения клиента. Это позволяет оценить полезность старых данных и, следовательно, смоделировать более конкретную «степень обесценения».
Не все данные обесцениваются. Некоторые компании имеют веские причины хранить данные как можно дольше, даже если регулирующие органы или общество предпочли бы их удалить или сделать анонимными в кратчайший срок. Вот почему Google давно сопротивляется призывам удалить полные IP-адреса старых поисковых запросов (вместо этого спустя 18 месяцев удаляются только четыре последние цифры, чтобы сделать поисковый запрос анонимным). Компания оставляет за собой возможность сравнивать данные (например, поисковые запросы для предпраздничного шопинга) в годовом исчислении. Кроме того, сведения о местоположении пользователей, выполняющих поиск, помогают повысить релевантность результатов. Если большинство жителей Нью-Йорка набирают Turkey (англ. «Турция», «индейка») и открывают сайты, связанные со страной, а не птицей, алгоритм будет ранжировать эти страницы выше и для остальных нью-йоркцев. Даже если ценность данных для первичного использования снижается, их альтернативная ценность может оставаться высокой.
Понятие альтернативной ценности наводит на мысль, что организациям следует собирать как можно больше данных в пределах своих возможностей для их хранения, а также передавать эти сведения третьим лицам при условии, что они сохраняют за собой так называемые «сквозные» права (термин, заимствованный из патентного лицензирования). Если повторное использование данных дает определенный коммерческий результат, первоначальный владелец этих данных может получить свою долю. Разумеется, что организации, собирающие данные и владеющие ими, не могут вообразить все возможные способы их повторного применения.
Ценность выбросов данных
Повторное использование данных иногда производится в скрытой форме. Интернет-компании записывают данные обо всех действиях пользователей на своем сайте, а затем обрабатывают каждое отдельно взятое взаимодействие как «сигнал» обратной связи для персонализации сайта, улучшения обслуживания или создания нового цифрового продукта. Интересной иллюстрацией служит рассказ о двух средствах проверки правописания.
В течение двадцати лет корпорация Microsoft разрабатывала надежное средство проверки правописания для своей программы Word. Его работа заключалась в том, чтобы сравнивать часто обновляемый словарь правильно написанных терминов с потоком символов, вводимых пользователем. Известные слова сверялись со словарем, а похожие варианты, не зафиксированные в нем, система расценивала как опечатки и предлагала исправить. Из-за усилий, затрачиваемых на формирование и обновление каждого словаря, средство проверки правописания в Microsoft Word было рассчитано только на наиболее распространенные языки. Создание и поддержка системы обошлись компании в миллионы долларов.
Посмотрим, что сделала Google. Эта компания имеет, пожалуй, наиболее полное из современных средств проверки правописания практически для всех языков мира. Система постоянно совершенствуется и непрерывно добавляет новые слова — это результат ненамеренной деятельности людей, ежедневно использующих поисковую систему. Сделали опечатку в слове iPad? Не страшно, система и так поймет. Ввели Obamacare? Запрос принят! Это важнее, чем может показаться. Золотое правило поисковиков звучит так: 10% запросов вводятся с ошибкой. (Поскольку средство проверки правописания Google постоянно совершенствуется, люди не обращают особого внимания на правильный ввод поисковых запросов, ведь Google в любом случае прекрасно справится с их обработкой.)
Компания Google получила свое средство проверки правописания практически «даром». Оно основано на опечатках, которые вводятся в окне поиска среди трех миллиардов запросов, обрабатываемых ежедневно. Продуманная обратная связь указывает системе, что пользователь на самом деле имел в виду. Пользователи могут непосредственно «сообщить» поисковой системе Google ответ на вопрос, отображаемый в верхней части страницы результатов (например: «Вы имели в виду эпидемиология ?»), выбрав новый поиск с правильным термином. Или же веб-страница, на которую переходит пользователь, неявно сигнализирует о правильном написании, так как она, вероятно, сильнее коррелирует с правильно написанным словом, чем неправильным.
Система проверки правописания Google демонстрирует, что «плохие», «неправильные» или «дефектные» данные могут быть очень полезными. Интересно, что компания Google не первая загорелась этой идеей проверки правописания. Примерно в 2000 году Yahoo увидела возможность создания средства проверки правописания по опечаткам в запросах пользователей. Но идея не была реализована. Данные старых поисковых запросов рассматривались по большей части как балласт. Популярные когда-то поисковые системы Infoseek и Alta Vista в свое время тоже располагали наиболее полной базой данных слов с ошибками, но недооценили ее значимость. Их системы в ходе процесса, невидимого пользователям, рассматривали опечатки как «связанные термины» и выполняли поиск. Но эти системы были основаны на словарях (которые явно указывали системе, что правильно), а не на живом, динамичном взаимодействии с пользователем.
Читать дальшеИнтервал:
Закладка: