Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Название:Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2014
- Город:М.
- ISBN:978-5-91657-936-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Виктор Майер-Шенбергер - Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим краткое содержание
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
Только Google удалось разглядеть в отрывочных данных о взаимодействии пользователей поистине золотой песок, который можно было собрать и превратить в драгоценный слиток. Как считает один из ведущих инженеров Google, их средство проверки правописания работает на порядок лучше, чем средство Microsoft (хотя при некотором давлении инженер признал, что не проводил надлежащего исследования). Он высмеял идею «бесплатной» разработки. «Сырье (опечатки), возможно, и дается даром, но у Google на разработку системы ушло наверняка намного больше средств, чем у Microsoft», — сказал он, широко улыбаясь.
Разные подходы двух компаний чрезвычайно показательны. Корпорация Microsoft видела ценность средства проверки правописания только в одном — обработке текстов. Google, напротив, ясно понимала его значение. Используя опечатки, она не только разработала передовое в мире средство проверки правописания, чтобы улучшить поиск, но и применила его ко многим другим службам, таким как «автозаполнение» в поисковой системе, Gmail, Google Диск и даже собственная система машинного перевода.
Для описания цифрового следа, который пользователи оставляют на сайте, был придуман специальный термин — «выбросы данных». Под ним подразумевается побочный продукт взаимодействия пользователей в интернете: где и что они нажимают, как долго смотрят на страницу, где проводят курсором мыши, что печатают и т. д. Многие компании разрабатывают собственные системы, для того чтобы собирать выбросы данных и перерабатывать их для улучшения существующей службы или разработки новой. В этом отношении, как ни странно, лидирует Google. Она применяет принцип рекурсивного «обучения на основе данных» во многих своих службах. Каждое действие пользователя считается «сигналом», который Google анализирует и передает обратно в систему.
Google четко знает, сколько раз пользователи искали тот или иной термин, а также другие связанные с ним термины или же переходили по ссылке, после чего (не найдя ничего ценного) возвращались на страницу поиска, чтобы начать заново. Компания знает, по каким ссылкам переходил пользователь (будь то восьмая ссылка на первой странице или первая ссылка на восьмой странице) и отказался ли он от поиска в целом. Возможно, Google и не была первой, у кого возникла такая идея, зато она реализовала ее с необычайной эффективностью.
Такая информация очень ценна. Если множество пользователей выбирают результат поиска в нижней части страницы результатов, система предположит, что он более актуален, и алгоритм ранжирования Google автоматически поместит его выше на страницах последующих поисков (то же самое относится к рекламным объявлениям). «Нам нравится учиться у больших, “шумных” наборов данных», — делится один из сотрудников Google. [104] Цитата Мунди: специальный отчет The Economist на основе интервью (декабрь 2009 года).
Выбросы данных — это механизм, лежащий в основе многих компьютеризированных служб, таких как распознавание голоса, спам-фильтры, переводчики и других. Когда пользователь указывает в программе распознавания голоса, что она неправильно поняла произнесенное слово, он, по сути, «тренирует» систему, совершенствуя ее.
Многие компании начинают подобным образом проектировать собственные системы сбора и использования информации. В начале деятельности компании Facebook ее специалисты по обработке данных изучили широкую базу выбросов данных и обнаружили, что пользователь чаще всего предпринимает то или иное действие (публикует материал, нажимает значок и пр.) по примеру своих друзей. Компания сразу модернизировала свою систему так, чтобы почти все действия пользователя становились известными его друзьям, и это вызвало новую волну активности на сайте.
Идея распространилась далеко за пределы интернет-сектора — в каждую компанию, у которой есть возможность собирать данные обратной связи с пользователем. Устройства для чтения электронных книг записывают большие объемы данных о литературных предпочтениях и привычках людей, которые ими пользуются: как быстро они читают страницу или раздел, пролистывают ли некоторые страницы, едва прочитав, или, может, вовсе не дочитывают книгу. Книги фиксируют, если читатели подчеркивают отрывки или делают заметки на полях. Возможность собирать такого рода информацию превращает чтение, которое долгое время считалось сугубо индивидуальным, в коллективную деятельность. Объединенные выбросы данных расскажут издателям и авторам то, что им ни за что не удалось бы узнать с помощью количественных измерений: предпочтения людей и свойственные им модели чтения. Это коммерчески ценная информация: компании — производители электронных книг могут продавать ее издателям для улучшения содержания и структуры книг. Компания Barnes & Noble проанализировала данные со своих устройств для чтения электронных книг Nook, в результате чего выяснила, что люди, как правило, забрасывали чтение длинных книг научного содержания на полпути. Это открытие вдохновило компанию на создание Nook Snaps — коротких тематических выпусков, посвященных актуальным вопросам, таким как здоровье и текущие события. [105] Компания Barnes & Noble проанализировала данные со своих устройств для чтения электронных книг Nook: Alter, Alexandra. Your E-Book Is Reading You // WSJ. — June 29, 2012. URL: http://online.wsj.com/article/SB10001424052702304870304577490950051438304.html.
Программы дистанционного обучения, такие как Udacity, Coursera и edX, отслеживают взаимодействия студентов в интернете, чтобы определить наиболее удачные педагогические подходы. «Вместимость» аудитории порой превышает десятки тысяч студентов, что обеспечивает чрезвычайно большой объем данных. Теперь профессора могут увидеть, что многие студенты повторно просмотрели тот или иной отрывок лекции, и предположить, что определенный момент в ней был непонятен. Профессор Стэнфордского университета Эндрю Нг, преподавая курс машинного обучения в рамках программы Coursera, отметил, что около 2000 студентов неправильно поняли вопрос в домашнем задании, но выдали совершенно одинаковые ответы. Очевидно, они все делали одну и ту же ошибку. Но какую?
Проведя небольшое исследование, Эндрю понял, что студенты изменили порядок алгебраических уравнений в алгоритме. Впредь, если другие студенты сделают ту же ошибку, система не просто сообщит им, что что-то не так, но и посоветует проверить вычисления. Система также работает с большими данными, анализируя каждое сообщение на форуме, прочитанное студентами, и правильность выполненного ими домашнего задания. Это позволяет спрогнозировать вероятность того, что студент, прочитавший то или иное сообщение, правильно решит задание, а значит, определить какие сообщения наиболее полезны. Все это невозможно было узнать прежде. И эти знания могут навсегда изменить подход к преподаванию.
Читать дальшеИнтервал:
Закладка: