Джон Келлехер - Наука о данных. Базовый курс
- Название:Наука о данных. Базовый курс
- Автор:
- Жанр:
- Издательство:Альпина Паблишер
- Год:2020
- Город:Москва
- ISBN:978-5-9614-3378-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Джон Келлехер - Наука о данных. Базовый курс краткое содержание
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.
Наука о данных. Базовый курс - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:

Другим примером полицейского контроля на основе данных является Стратегический список подозреваемых (SSL), который используется отделом полиции Чикаго для снижения уровня преступности, связанной с применением огнестрельного оружия. Этот список был создан в 2013 г. и на тот момент включал 426 человек, которые были признаны вероятными участниками преступлений с применением огнестрельного оружия. В попытке предотвратить эти преступления полицейское управление Чикаго связалось со всеми людьми из списка, чтобы предупредить их, что они находятся под наблюдением. При этом как минимум несколько человек были крайне удивлены, что попали в эту категорию: у них были судимости, но за мелкие, ненасильственные правонарушения {23} . Отсюда вытекает первый вопрос: насколько точна эта технология? Недавнее исследование показало, что люди, попавшие в SSL в 2013 г., «с той же степенью вероятности могут стать жертвами убийства или стрельбы, что и случайные участники контрольной группы» {24} . В то же время в докладе указывалось, что лица, включенные в список, с большей вероятностью будут арестованы за стрельбу, причем это может быть вызвано самим фактом их наличия в списке, что подразумевает повышенную осведомленность полиции об этих людях {25} . Отвечая на это исследование, полицейское управление Чикаго заявило, что оно обновляет алгоритм, используемый для регулярной компиляции SSL, а его эффективность заметно улучшилась с 2013 г. {26} . Второй вопрос, который следует задать: как человек попадает в этот список? В версии SSL 2013 г., по-видимому, кроме прочих атрибутов личности, использовался анализ социальных сетей, включая истории арестов за стрельбу среди друзей {27} , {28} . С одной стороны, идея анализа социальных сетей имеет смысл, но при этом она вскрывает серьезную проблему виновности и связей. Один из аспектов этой проблемы заключается в том, что бывает очень сложно определить наличие прочной связи между людьми. Достаточно ли для этого жить на одной улице? Кроме того, в Америке, где подавляющее большинство заключенных — мужчины африканского и латиноамериканского происхождения, очевидно, что алгоритмы полицейского прогнозирования будут ориентироваться на цвет кожи {29} .
Предупреждающий характер полицейского прогнозирования означает, что отношение к человеку определяется не тем, что он сделал, а выводами, основанными на данных, о том, что он может сделать. В результате такие типы систем способны усиливать дискриминацию, копируя закономерности из исторических данных, и создавать самосбывающиеся пророчества.
Если вы потратите некоторое время на изучение коммерческой пропаганды, которая окружает науку о данных, у вас появится ощущение, что любая проблема может быть решена с использованием ее технологий при наличии достаточного объема корректных данных. Этот маркетинг возможностей порождает иллюзию того, что подход к управлению, основанный на данных, является наилучшим решением сложных социальных проблем, таких как преступность, бедность, образование и здравоохранение: все, что от нас требуется, — это внедрить повсеместно датчики, затем объединить данные и запустить алгоритмы, чтобы сгенерировать ключевые идеи, которые обеспечат решение.
Но после того, как эти аргументы приняты, на первый план выходят два процесса. Во-первых, общество становится более технократическим по своей природе, и многие аспекты жизни начинают регулироваться системами на основе данных. Такое технологическое регулирование уже существует: так, в некоторых юрисдикциях наука о данных используется на слушаниях об условно-досрочном освобождении {30} и при вынесении приговоров {31} . Из других примеров, за пределами судебной системы, можно привести технологии умного города, которые регулируют потоки городского трафика с помощью алгоритмов, динамически определяющих, какой из потоков получит приоритет на перекрестке в зависимости от часа дня {32} . Побочным продуктом этого технократического всплеска является засилье датчиков, поддерживающих автоматизированные системы регулирования. Второй процесс, получающий развитие, — «расползание контроля», когда данные, собранные для одной цели, перенаправляются и используются для другой {33} . Например, дорожные камеры, установленные в Лондоне для регулирования заторов, были в дальнейшем использованы для задач безопасности {34} . Или пример технологии под названием ShotSpotter, состоящей из общегородской сети микрофонов, предназначенных для распознавания выстрелов из огнестрельного оружия и их локализации. Она также используется для записи разговоров, часть из которых уже стали основанием для вынесения приговоров по уголовным делам {35} . Или использование автомобильных навигационных систем для отслеживания водителей, которые выезжают за пределы штата, и их штрафования {36} , {37} .
Одним из аспектов расползания контроля является стремление объединить данные из разных источников, чтобы обеспечить более полную социальную картину и таким образом попытаться достичь более глубокого понимания системных проблем. Часто приводятся веские причины для перепрофилирования данных, звучат призывы объединить данные из разных ветвей власти с целью, например, поддержки исследований в области здравоохранения или удобства для государства и граждан. Однако с точки зрения гражданских свобод эти тенденции вызывают беспокойство. Усиленный надзор, интеграция данных из нескольких источников, расползание контроля и упреждающее управление (например, использование программ полицейского прогнозирования) могут привести к тому, что человек станет вызывать подозрение только потому, что последовательность не связанных между собой невинных действий и/или встреч совпадет с моделью, которую система управления данными считает подозрительной. Жизнь в таком обществе превратит нас из свободных граждан в заключенных паноптикума Бентама [30], заставляя самодисциплинироваться из опасения этих неверных выводов. Различие между людьми, которые верят в то, что они свободны от надзора и ведут себя соответственно, и людьми, которые самодисциплинируются внутри паноптикума, является главным различием между свободным обществом и тоталитарным государством.
В поисках утраченной приватности
Поскольку современные люди взаимодействуют и живут в технически развитом обществе, они неизбежно оставляют цифровые следы. Повсеместное внедрение видеонаблюдения означает, что данные о человеке могут собираться в любое время и где бы он ни был — на улице, в магазине, на парковке, не говоря уже о возможности отслеживания мобильных телефонов. Реальные примеры сбора данных включают учет покупок по кредитным картам, использование схем лояльности в супермаркетах, снятие наличных в банкоматах, звонки по мобильному телефону и проч. В интернете данные о людях собираются, когда они посещают сайты или входят в систему, отправляют электронную почту, совершают онлайн-покупки, назначают даты, посещают ресторан или магазин, пользуются устройством для чтения электронных книг, смотрят лекцию на открытых онлайн-курсах или публикуют что-то в социальной сети. Чтобы можно было составить представление об объеме данных, собираемых в среднем на одного человека, отметим, что, согласно отчету голландского управления по защите данных за 2009 г., среднестатистический гражданин Нидерландов был включен в 250–500 различных баз, а для более социально активных людей этот показатель достигает 1000 {38} . Собранные вместе точечные данные и определяют цифровой след человека.
Читать дальшеИнтервал:
Закладка: