Андреас Вайгенд - BIG DATA. Вся технология в одной книге
- Название:BIG DATA. Вся технология в одной книге
- Автор:
- Жанр:
- Издательство:Литагент 5 редакция
- Год:2018
- ISBN:978-5-04-094117-9
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Андреас Вайгенд - BIG DATA. Вся технология в одной книге краткое содержание
BIG DATA. Вся технология в одной книге - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
В 2013 году Стиллуэлл, его коллега Майкл Косински и группа исследователей из Microsoft Research решили выяснить, насколько точно можно судить об интеллектуальном уровне, этнической принадлежности, политических взглядах, сексуальной ориентации и наличии наркозависимости по поведению человека в Facebook. Для этого они создали приложение YouAreWhatYouLike. По утверждению авторов, в 88 процентах случаев их модель «проводила точные различия между мужчинами гетеросексуальной и гомосексуальной ориентации» исключительно на основе лайков, причем не обязательно в темах, связанных с политикой или правами человека [103]. По данным исследования, достоверными признаками мужской гомосексуальности были, в частности, лайки на «Косметику MAC» и мюзикл «Злая», а среди явных признаков мужской гетеросексуальности была реакция на Wu Tang Clan [104] [105]. Проверяя кандидатов на позицию, работодатели используют тесты на ай-кью и личностные качества. Вполне возможно, что в один прекрасный день вас попросят установить специальное приложение, чтобы оценить справедливость ваших утверждений о своей высокой организованности или стрессоустойчивости [106].
Данные о личных качествах могут формироваться и без активного участия человека. Один из таких примеров – несметное число фотографий, выложенных в сеть. Появление ваших изображений в интернете – вне вашего контроля, а права на них – и подавно. Если вас случайно сфотографировали во время какого-то мероприятия, идентификация вашей личности всего лишь вопрос времени. В лаборатории искусственного интеллекта Facebook, которую возглавляет Ян Лекун, разработана система DeepFace, которая может определять идентичность лиц на фотографиях с очень высокой точностью [107]. Система пока не может самостоятельно определять имя человека на изображении, но если фото подписано, алгоритм присвоит эту подпись всем остальным фото с похожими лицами. Создается и другая программа, которая будет анализировать место действия, то есть сможет различать, сфотографированы ли вы в людном баре или на пустынном холме. В зависимости от того, где вас фотографируют чаще, система отнесет вас либо к любителям потусоваться, либо к одиноким странникам.
Научный сотрудник Microsoft Research Синтия Дворк с коллегами доказали, что сам факт существования баз данных подразумевает информационную открытость любого человека. Базы данных существуют для того, чтобы предоставлять ответы, и можно сформировать такую последовательность вопросов, утвердительным ответам на которые будет соответствовать единственный человек в базе. Обычно Синтия демонстрирует это на таком примере: сначала она спрашивает, сколько человек с признаками серповидноклеточной анемии значится в медицинской базе данных сотрудников Microsoft. Затем уточняет, сколько из них мужчин с вьющимися волосами в должности старшего научного сотрудника. Поскольку Синтия – единственный в Microsoft старший научный сотрудник – женщина с вьющимися волосами и признаками серповидноклеточной анемии, разница между ответами на два ее вопроса точно указывает на нее [108].
Люди предоставляют данные для переработки, чтобы получать результаты, помогающие в принятии решений. В базах данных, похожих на базу из примера Синтии Дворк, собирается относительно специфическая информация ограниченного объема. Это так называемые малые данные. Они не сопоставимы с уму непостижимым количеством «следов», которые накапливают современные центры обработки «больших данных». Чтобы получить от инфопереработчика нечто действительно полезное, надо предоставить ему точные исходные данные, например о ваших интересах и предпочтениях. Если вы не готовы поделиться этой информацией, придется удовлетвориться рекомендациями для среднестатистического гражданина, то есть тем, что пользуется популярностью или подходит большинству обывателей. Если вы предоставите неверные исходные данные, то, скорее всего, получите совершенно бесполезные результаты на выходе. Альтернатива выглядит так – незначительный выигрыш в приватности оборачивается проигрышем в полезности.
Решение предоставлять или не предоставлять личную информацию влечет за собой последствия. В одной ситуации раскрытие своих идентификационных данных может оказаться рискованным или вредным; в другой ситуации то же самое может произойти, если они не предоставлены. Цифровые следы, оставленные нами, делают анонимность практически невозможной.
Тем не менее использование реальных имен на социальных платформах начало становиться нормой только с появлением Facebook. До этого обычно использовались псевдонимы. Отчасти это было обусловлено чисто техническими причинами. Некоторые имена распространены настолько широко, что в случае использования настоящих имен различать пользователей было бы невозможно; кроме того, некоторые сайты не принимали имена с большим количеством букв. В то же время были люди, осознанно не желавшие раскрывать имя, опасаясь хищений личных данных или неприятностей в связи со своими высказываниями, не совпадающими с общепринятым мнением. Так или иначе, но при желании можно было создавать разные имена пользователей или даже несколько для каждого сервиса или интернет-форума. В результате в первые десятилетия существования интернет предоставлял неслыханные ранее возможности для фрагментирования собственной персоны. А различные псевдонимы позволяли человеку исследовать новые способы взаимодействия с окружающими.
Исторически человека идентифицировали по ряду простых признаков, вроде имени, даты рождения, роста, цвета глаз, национальности и места жительства. Эта базовая информация использовалась для подтверждения того, что человек действительно тот, кем он представляется. Возможность подтвердить личность – необходимое условие выполнения многих законов и правил. Веками для доказательства права на посещение территорий использовались паспорта [109], а чеки и гарантийные письма служили подтверждением того, что в каком-то далеком банке у нас есть средства, достаточные для оплаты покупки [110]. Возраст или гражданство предоставляют определенные права и обязанности по отношению к обществу, например избирательное право или право употреблять алкоголь в общественных местах, или обязанность платить налоги, или нести воинскую повинность. Мы приучены к тому, что в огромном количестве жизненных ситуаций необходимо предъявить официальное удостоверение личности или сообщить его номер, ввести пароль или ответить на ряд вопросов, диапазон которых – от количества часов, проводимых в авиаперелетах, до домашних животных, которые были у нас в детстве.
Многие из оставляемых вами цифровых следов создаются через взаимодействие с физическими устройствами, и в этом взаимодействии есть немало характерных особенностей, позволяющих вас идентифицировать. Поскольку для выхода в интернет все чаще используются мобильные телефоны и планшеты, многие инфопереработчики вкладывают значительные ресурсы в исследования возможностей идентификации личности на основе устойчивых особенностей поведения при использовании разных устройств. Самым простым способом является требование регистрации пользователя, однако существуют более тонкие признаки, например установленные шрифты. Кроме того, многим людям свойственно постоянно делать одни и те же опечатки. Эта особенность также может быть установлена.
Читать дальшеИнтервал:
Закладка: