Джон Келлехер - Наука о данных. Базовый курс
- Название:Наука о данных. Базовый курс
- Автор:
- Жанр:
- Издательство:Альпина Паблишер
- Год:2020
- Город:Москва
- ISBN:978-5-9614-3378-4
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Джон Келлехер - Наука о данных. Базовый курс краткое содержание
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.
Наука о данных. Базовый курс - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Источники
‹1›. Linoff, Gordon S., and Michael JA Berry. 2011. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. John Wiley & Sons.
Глава 6. Конфиденциальность и этика
Самый большой вопрос, стоящий сегодня перед наукой о данных, — как найти баланс между свободой частной жизни отдельных лиц и меньшинств и безопасностью и интересами всего общества. В контексте науки о данных этот старый вопрос формулируется с точки зрения того, что считать разумными способами сбора и использования персональных данных в таких разнообразных контекстах, как борьба с терроризмом, улучшение медицины, исследования государственной политики, борьба с преступностью, выявление мошенничества, оценка кредитного риска, страхование и таргетированная реклама.
Наука о данных предлагает свой способ для того, чтобы понять мир. В нынешнюю эпоху больших данных это предложение очень заманчиво, и действительно существует целый ряд аргументов в поддержку разработки и внедрения инфраструктуры и технологий, основанных на данных. Первый аргумент связан с повышением эффективности, экономичности и конкурентоспособности — аргумент, который в контексте бизнеса подтверждается научными исследованиями. Например, исследование, проведенное в 2011 г. с участием 179 крупных публичных компаний, показало, что чем больше решений принимается на основе данных, тем выше производительность: «Мы видим, что фирмы, которые принимают решения на основе данных, имеют производительность на 5‒6 % выше, чем можно было бы ожидать, учитывая другие их инвестиции и использование информационных технологий» {1} .
Еще один аргумент в пользу широкого внедрения методов науки о данных связан с безопасностью. Правительства часто его используют, оправдывая наблюдение и слежку долгосрочным повышением уровня безопасности. Как бы то ни было, начиная с 11 сентября 2001 г. и с каждым новым терактом этот аргумент набирал силу. Его использовали в публичных дебатах, которые начались после того, как Эдвард Сноуден раскрыл информацию о программе наблюдения PRISM Агентства национальной безопасности (АНБ) США, регулярно собирающей данные об американских гражданах. Красноречивым примером силы этого аргумента являются $1,7 млрд, инвестированные АНБ в центр обработки данных в Блаффдейле, штат Юта, который способен хранить огромное количество перехваченных сообщений {2} .
В то же время общество, государственные структуры и бизнес пытаются понять долгосрочные последствия применения науки о данных в мире больших данных. Учитывая быстрое развитие технологий сбора, хранения и анализа данных, неудивительно, что действующая правовая база и более широкие дискуссии вокруг этой темы, в том числе о неприкосновенности частной жизни, пытаются идти в ногу с достижениями прогресса. Несмотря на это, существуют основные правовые принципы сбора и использования данных, которые применимы почти всегда и которые важно понимать. Кроме того, дискуссии об использовании данных и конфиденциальности выявили ряд тревожных тенденций, о которых мы должны знать.
Коммерческие интересы против частной жизни
Науку о данных можно представить как процесс создания процветающего и безопасного мира. Но одни и те же аргументы могут использовать организации, имеющие очень разные повестки. Мы видим противоположные призывы: с одной стороны, от групп защиты гражданских свобод к большей открытости правительств в отношении данных, чтобы граждане могли привлекать правительства к ответственности, и с другой — призывы деловых кругов использовать эти же данные для увеличения прибыли {3} . Поэтому наука о данных — это палка о двух концах. Она может быть использована для улучшения жизни за счет повышения эффективности государственного управления, развития медицины и здравоохранения, удешевления страховки, создания умных городов, снижения уровня преступности и прочего. Но в то же время ее можно использовать для слежки, таргетирования нежелательной рекламы и поведенческого контроля — как в открытую, так и тайно (страх слежки может влиять на нас не менее негативно, чем сама слежка).
Часто противоречивость аспектов науки о данных можно увидеть в одном и том же приложении. Например, в андеррайтинге в сфере медицинского страхования используются сторонние маркетинговые наборы данных, которые содержат такую информацию, как покупательские привычки, история веб-поиска, а также сотни других атрибутов, касающихся частной жизни людей {4} . Использование таких данных от третьих сторон вызывает беспокойство, поскольку может привести к тому, что люди начнут избегать определенных видов активности, скажем посещения сайтов экстремальных видов спорта из-за боязни повышения страховых взносов {5} . В оправдание использования этих данных приводится тот факт, что они выступают в роли аналога более агрессивных и дорогих источников информации, таких как анализы крови, и в долгосрочной перспективе сокращают расходы и страховые премии, таким образом увеличивая количество застрахованных людей {6} .
Линия раскола между сторонниками коммерческих преимуществ и сторонниками этических соображений становится особенно очевидной в дискуссиях об использовании персональных данных для целевого маркетинга. С точки зрения рекламного бизнеса стимулом к такому использованию является наличие связи между персонализацией услуг и продуктов и эффективностью маркетинга. Было показано, что использование персональных данных из социальных сетей, например, для идентификации потребителей, связанных с действующими клиентами, повышает эффективность прямой почтовой рассылки от телекоммуникационных компаний в 3‒5 раз по сравнению с традиционным подходом {7} . Аналогичные заявления были сделаны о персонализации интернет-маркетинга на основе данных. Например, проведенное в 2010 г. исследование стоимости и эффективности таргетированной онлайн-рекламы в США сравнило сетевой маркетинг [25]с поведенческим таргетингом [26] {8} . Исследование показало, что поведенческий таргетинг в среднем обходится в 2,68 раза дороже, но и коэффициент конверсии в этом случае превышает аналогичный показатель сетевого маркетинга более чем в два раза. Другое совместное исследование эффективности интернет-рекламы, основанной на данных, было проведено учеными из Университета Торонто и Массачусетского технологического института {9} . В этом исследовании эффективность онлайн-рекламы в пределах Европейского союза, где был введен новый закон о защите конфиденциальности [27], ограничивающий возможность рекламных агентств отслеживать действия пользователей в интернете, сравнивалась с эффективностью онлайн-рекламы в США и других странах, где не действовали новые ограничения. Исследование показало, что из-за новых ограничений эффективность интернет-рекламы значительно снизилась: падение покупательской активности участников исследования составило 65 %. Результаты этого исследования были оспорены (см., например, {10} ), но они продолжают использоваться в поддержку аргумента, что чем больше доступно информации о человеке, тем более эффективна направленная на него реклама. Зачастую сторонники целевого маркетинга подают этот аргумент как беспроигрышный и для рекламодателя, и для потребителя, утверждая, что рекламодатели снижают маркетинговые затраты за счет сокращения расходов на рекламу и достижения лучших показателей конверсии, а потребители получают более релевантную рекламу.
Читать дальшеИнтервал:
Закладка: