Андреас Вайгенд - BIG DATA. Вся технология в одной книге
- Название:BIG DATA. Вся технология в одной книге
- Автор:
- Жанр:
- Издательство:Литагент 5 редакция
- Год:2018
- ISBN:978-5-04-094117-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Андреас Вайгенд - BIG DATA. Вся технология в одной книге краткое содержание
BIG DATA. Вся технология в одной книге - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Многовариантный анализ полезен во многих областях жизни. Вообразите себя выпускником школы, которого принимают и в Гарвард, и в Стэнфорд. Какой из университетов выбрать? И как принимать решение? В 2014 году социальная сеть LinkedIn запустила сервис University Pages, который анализирует огромный массив размещенных на сайте резюме, чтобы выяснить, где работают выпускники определенного университета и как складываются их карьеры. Такая «обогащенная» информация может помочь принять решение на основе многовариантного причинно-следственного анализа, сфокусированного как на изначальных допущениях (какой университет), так и на результатах (вероятная карьера). Если у будущего студента уже есть карьерный ориентир (например, пойти работать в Google, McKinsey, Monsanto или Всемирный фонд дикой природы), он может проверить, отличает ли выпускников данного университета необычно высокая вероятность устроиться на работу к определенному работодателю. Можно посмотреть, какие университеты являются главными поставщиками кадров для определенных профессий, включая такие увлекательные занятия, как консультант общественных организаций, сценарист телесериалов или инженер по керамике. Можно поэкспериментировать с фильтрами, чтобы выяснить, какие специальные курсы, помимо основных общеобразовательных, увеличивают шансы попасть на желаемую работу после выпуска [422].
Как и во многих ситуациях выбора, планирование пенсионных накоплений и выбор высшего учебного заведения подразумевают, что придется чем-то поступиться. Часто люди не знают, насколько сильно им что-то нужно, до тех пор пока их не заставят отказаться от этого. Именно рассматривая альтернативы, мы приходим к пониманию того, какие результаты устраивают нас больше, а какие – меньше. Экспериментируя с настройками, люди получат возможность заранее оценить предстоящие варианты. Право на эксперимент открывает новые просторы для обоснования наших решений.
Как и с правами на изменение, размытие и эксперимент, право на перенос имеет целью расширение свободы выбора. В предыдущей главе я утверждал, что право доступа к данным есть нечто большее, чем право видеть свои биты и байты. Это право увидеть информацию в нужном и понятном виде, например в сравнении с агрегированными данными или эталонными значениями. Для целей разумной прозрачности надо иметь возможность интерпретировать свои данные. На основании права доступа можно потребовать от инфопереработчика предоставить копию своих данных [423], но в подавляющем большинстве случаев это не принесет большой пользы в отсутствие возможности обработать их где-то еще. Полноценная свобода выбора означает, что вы можете свободно пользоваться своими данными – как хотите и где хотите. В этом заключается фундаментальный смысл права на перенос.
Вывоз или ввоз реальных предметов подразумевает их перемещение из одного места в другое. При переносе данных информация продолжает существовать там, где она создавалась. Возьмем типичный случай – выпускник бакалавриата хочет направить справку об успеваемости нескольким потенциальным работодателям или в несколько магистратур. Несомненно, что все сведения об оценках останутся в университете и после того, как справка об успеваемости будет разослана. Но даже этот элементарный пример дает представление о сложностях, присущих переносу данных для их дальнейшего использования в других местах. Прежде всего получатели должны будут иметь возможность проверки подлинности справки, выданной университетом. Далее выпускник может захотеть убедиться, что справку отправили только указанным им адресатам. Он может задуматься по поводу оценок и решить, есть ли смысл отправлять подробную ведомость успеваемости всем адресатам. Если это сделать, то плохие оценки можно будет объяснить в сопроводительном письме или на собеседовании, то есть дополнить информацию. Выставить справку об успеваемости на всеобщее обозрение или отправить ее копии будет означать, что влияние выпускника на процесс ознакомления с информацией уменьшится.
В течение многих лет все это делалось вручную: выпускник получал выписки в запечатанных конвертах и рассылал их по своему усмотрению. В этом случае ручная система работала, потому что масштаб данных был относительно невелик: ежегодно в магистратуру зачисляли примерно миллион студентов, и немногочисленные адресаты получали небольшой объем информации, созданный на протяжении достаточно долгого периода времени, то есть отчет об учебе выпускника в течение четырех лет, выраженный в виде академических оценок.
Для переноса данных, создающихся каждым новым кликом или свайпом миллиарда человек, требуются более изощренные технологии. Кроме того, поскольку одной из важных функций инфопереработчика является обобщение результатов репутационного анализа, ему приходится проявлять повышенное внимание к возможности появления информации неизвестного происхождения. Системы оценок и отзывов, наподобие разработанных в eBay или Amazon, могут быть уязвимыми для мошенников, размещающих сфабрикованную информацию о своих блистательных успехах у потребителей на других сайтах. Утрата доверия пользователей к репутационным данным чревата утратой доверия к инфопереработчику и экосистеме в целом. Чтобы оставаться функциональной, перенесенная информация должна быть аутентифицирована и верифицирована.
Верификация может осуществляться при помощи ключей шифрования, которые уже сейчас широко используются в электронных коммуникациях. У вас есть два ключа – известный только вам индивидуальный и общедоступный, открытый. Предположим, вы собираетесь отправить сообщение, а получателю нужно будет удостовериться, что оно действительно от вас. Вы шифруете информацию с помощью индивидуального ключа, а получатель сможет верифицировать ее, использовав ваш открытый ключ. Система двух ключей позволяет решить и другую проблему, возникающую в ситуации, когда вы хотите, чтобы отправляемое сообщение не смог прочитать никто, кроме его адресата. Вы шифруете свое послание с помощью открытого ключа адресата, после чего его сможет открыть и расшифровать только тот, кто знает и его индивидуальный ключ. Сочетание этих подходов позволяет верифицировать отправителя и ограничивать возможность несанкционированного чтения сообщений. Шифрование следует применять во всех случаях переноса информации.
Передавать информацию можно порциями, направляя ряд электронных писем подобно тому, как печатаются и рассылаются университетские справки об успеваемости. Но то, что вполне подходит для системы высшего образования, никак не соответствует масштабу многообразной информации, которую могут запрашивать миллиарды активных пользователей платформ социальных данных. Кроме того, верифицированная информация должна передаваться в формате, позволяющем адресату обрабатывать ее непосредственно по получении. К счастью, такой протокол информационного обмена уже существует: это интерфейс прикладных задач API. Интерфейсы API позволяют разработчикам получать данные от инфопереработчиков в автоматическом режиме, без необходимости отправки последовательных запросов с последующей интерпретацией поочередно получаемых результатов. С помощью API сайты путешествий вроде Hipmunk могут за считаные секунды получать информацию о тарифах и расписаниях полетов десятков авиакомпаний. API предоставляет разработчикам возможность создавать новые продукты и услуги на основе информации из различных источников.
Читать дальшеИнтервал:
Закладка: