Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres]
- Название:Роман с Data Science. Как монетизировать большие данные [litres]
- Автор:
- Жанр:
- Издательство:Издательство Питер
- Год:2021
- Город:Санкт-Петербург
- ISBN:978-5-4461-1879-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres] краткое содержание
Эта книга предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет вам полезна, если вы менеджер, который хочет ставить задачи аналитике и управлять ею. Если вы инвестор, с ней вам будет легче понять потенциал стартапа. Те, кто «пилит» свой стартап, найдут здесь рекомендации, как выбрать подходящие технологии и набрать команду. А начинающим специалистам книга поможет расширить кругозор и начать применять практики, о которых они раньше не задумывались, и это выделит их среди профессионалов такой непростой и изменчивой области. Книга не содержит примеров программного кода, в ней почти нет математики.
В формате PDF A4 сохранен издательский макет.
Роман с Data Science. Как монетизировать большие данные [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
И наконец, настоятельно рекомендую посмотреть на результат работы собственными глазами. Например, в рекомендациях можно сделать визуальный отчет – выбрать несколько десятков самых популярных и случайных товаров, построить по ним старые и новые рекомендации, вывести в единый отчет с картинками и названиями товаров. Посмотрите на него честно, дайте покритиковать другим. Что там нравится, а что нет? Можете найти товар, для которого новый алгоритм должен был сработать по-другому, стали ли рекомендации лучше? Я с помощью таких отчетов ищу ошибки, которые метрики иногда пропускают. Можно сказать, что они – истина в последней инстанции.
Конвейер экспериментов
Теперь мы знаем, что в компании должен быть список гипотез развития, выстроенных в порядке важности, которым управляют менеджеры по развитию бизнеса или продуктологи. Каждый раз в работу берется первая гипотеза из списка, если нужно – она моделируется и проверяется с помощью офлайн-тестов, последний шаг – тестирование с помощью А/Б-теста, затем происходит пост-анализ результатов, по итогам которого принимается решение – внедряем гипотезу или нет.
Если вы сможете упорядочить этот процесс, то получите самый настоящий конвейер экспериментов. Он действительно похож на промышленный конвейер – гипотеза движется по статусам: принято в работу, моделирование, офлайн-тестирование, онлайн-тестирование, анализ, отклонена, внедрена. Это скорее механический, а не творческий процесс. У меня он был упакован в столбцы Trello, где карточка перемещалась слева направо. Такой подход позволяет масштабировать эксперименты, у него есть свои метрики, например «время между статусами», «взято в работу», «отклонено/внедрено».
В этот момент вы поймете, что время прохождения гипотезы от начала до конца конвейера – очень большое. Особенно время на А/Б-тесты. И скорее всего, сделаете вывод, что было бы неплохо «убивать» неудачные гипотезы до того, как они пройдут хотя бы половину пути [23]. Это очень здравая идея – как можно раньше отвергнуть неудачную гипотезу, чтобы не тратить время и силы на обреченный проект. Именно таким способом мне в Retail Rocket удалось уменьшить среднее время прохождения гипотез через наш конвейер экспериментов с 90 дней до 45.
Глава 11
Этика данных

В наше время данные используются повсеместно – вопрос в том, насколько это безопасно для людей. В сфере программирования существует понятие «жадный алгоритм» – это алгоритм, ориентированный на получение сиюминутной краткосрочной выгоды. Так вот, коммерческие компании в большинстве случаев тоже руководствуются «жадными» алгоритмами и хотят извлекать прибыль из всего, что возможно. В том числе и данных, которые мы явно или неявно оставляем. Здесь я хочу поговорить об этической стороне вопроса. Я думаю, с каждым бывало – вы поговорили с кем-то, например, о стиральной машине с вертикальной загрузкой, а через несколько минут увидели в своей ленте в соцсети рекламу этих самых стиральных машин. Это означает, что кто-то подслушал ваш разговор и воспользовался вашими данными? Конечно, это миф, но сам факт слежения за нами дает пищу для ума. Законно ли это? И если да, то насколько этично?
Как за нами следят
Наши цифровые следы можно разделить на два вида: явные (explicit) и неявные (implicit). Явные данные – те, которые мы предоставляем сознательно: заполняем анкету на сайте, ставим галочку подтверждения обработки цифровых данных, подписываем заявление или договор. Неявные – это вся информация, которую мы о себе оставляем, так называемый цифровой след: наша геопозиция через мобильную связь и систему распознавания лиц на уличных или транспортных камерах, геопозиция наших автомобилей через распознавание номеров, наши контакты, посещенные страницы в интернете. Неявных данных намного больше, чем явных, а провайдеры и потребители относятся к ним беспечно. При этом если явные данные в нашей стране хоть как-то защищаются законом о персональных данных, то неявные – вне правового поля. В Европе они стали защищенными совсем недавно с введением европейского закона GDPR [107].
Яркий пример того, как используются неявные данные, – когда по фото и видео с митингов распознают и арестовывают их участников, а тех, кто нарушил режим самоизоляции во время пандемии COVID-19, распознают по камерам наблюдения и штрафуют. Всего каких-то пятнадцать лет назад это казалось фантастикой. Эндрю Ын, главный эксперт, который стоит за алгоритмами распознавания по изображениям и которого я не раз упоминал в этой книге, сказал, что это двойственная технология: с одной стороны, она служит добру, с другой – ею легко злоупотреблять.
В наше время технология распознавания лиц уже отлично отработана, нужен всего лишь хороший датасет и доступ к камере. В статье «Мы создали “невероятную” систему распознавания лиц» [91] журналисты собрали небольшой датасет из публично доступных фотографий людей, работающих в районе Bryant Park. Они загрузили их в соответствующий сервис Amazon и буквально за 9 часов получили 2750 совпадений лиц с их датасетом. На все было потрачено всего 60 долларов. В принципе, такой датасет несложно собрать на основе социальных сетей – там есть сопоставление имени и фотографии. Раньше был условно-бесплатный сервис findface.ru (сейчас findface.pro), в который можно загрузить фотографию человека и получить его имя. В качестве датасета была использована социальная сеть «ВКонтакте».
Следующий источник неявных данных – считывание нашей точной геопозиции через смартфоны. Газета New York Times в конце 2019 года создала специальный проект «The Privacy Project» [87], где в серии статей освещаются разные вопросы сбора и использования наших данных. В статье из этой серии «One Nation Tracked» [88] рассказывается про то, как журналисты раздобыли очень большой датасет. В нем находится 50 миллионов геопозиций мобильных телефонов 12 миллионов американцев нескольких крупных городов США, включая Вашингтон, Нью-Йорк, Сан-Франциско и Лос-Анджелес. Каждая строка датасета включает в себя точное местоположение отдельного смартфона в течение нескольких месяцев 2016–2017 годов. Журналисты сделали исследование датасета и шикарную анимацию этих данных. Вроде бы данные полностью анонимизированные и поэтому безопасны, но, к великому сожалению, это не так. Пол Ом (Paul Ohm), профессор права и исследователь конфиденциальности Джорджтаунского университета, заявил в статье, что попытка представить данные геопозиций как анонимные – совершенно ложное утверждение, которое было опровергнуто множеством исследований. «Действительно точную геолокацию невозможно анонимизировать», он также добавил: «ДНК – это единственная вещь, которую сложнее анонимизировать, чем геолокацию». В большинстве случаев перемещение смартфона между домом и работой позволяет идентифицировать человека. Стал бы еще какой-то другой смартфон перемещаться между вашим домом и работой, кроме вашего? Эта статья подтверждает мое мнение, что использование неявных данных плохо защищается.
Читать дальшеИнтервал:
Закладка: