Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres]
- Название:Роман с Data Science. Как монетизировать большие данные [litres]
- Автор:
- Жанр:
- Издательство:Издательство Питер
- Год:2021
- Город:Санкт-Петербург
- ISBN:978-5-4461-1879-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres] краткое содержание
Эта книга предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет вам полезна, если вы менеджер, который хочет ставить задачи аналитике и управлять ею. Если вы инвестор, с ней вам будет легче понять потенциал стартапа. Те, кто «пилит» свой стартап, найдут здесь рекомендации, как выбрать подходящие технологии и набрать команду. А начинающим специалистам книга поможет расширить кругозор и начать применять практики, о которых они раньше не задумывались, и это выделит их среди профессионалов такой непростой и изменчивой области. Книга не содержит примеров программного кода, в ней почти нет математики.
В формате PDF A4 сохранен издательский макет.
Роман с Data Science. Как монетизировать большие данные [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Я сравнивал разные гипотезы и их отдачу. Эволюционные гипотезы, где один параметр слегка оптимизируется, в случае успеха дают меньший эффект по сравнению с революционными гипотезами, где подход принципиально иной. Но вероятность успеха как такового у эволюционной гипотезы выше.
Планируем тест гипотезы
Пусть у нас есть готовая гипотеза, которую бизнес признал самой горячей. У нас есть все ресурсы, и мы готовы взять ее в работу. Какая еще информация нужна? Во-первых, цель гипотезы – какую количественную метрику она будет оптимизировать? Мы уже понимаем, что количественные метрики неидеальны, но нам она нужна для отслеживания изменений. Здесь метрика – это то число, значимо улучшив которое можно покупать ящик шампанского.
Во-вторых, нужно понимать, как мы будем тестировать гипотезу и где. В машинном обучении есть два вида тестирования: офлайн и онлайн. Офлайн дает метрики на уже существующих данных – о них я писал в главе 8 «Алгоритмы машинного обучения». В онлайн-тестировании нужно получить интересующие метрики и сравнить их с помощью статистических тестов.
Основоположник планирования экспериментов (тестирования гипотез) сэр Рональд Фишер в 1925 году написал монографию «Статистические методы для исследователей», в которой изложил такие понятия, как статистический критерий значимости, правила проверки статистических гипотез, дисперсионный анализ, планирование эксперимента. Это определило наш сегодняшний подход к планированию экспериментов. Вы наверняка слышали про тестирование вакцины от COVID-19 – ее тестировали методом двойного слепого рандомизированного плацебо-контролируемого исследования. Это самое достоверное клиническое исследование, применяемое в доказательной медицине. Рандомизированное – значит распределение пациентов по опытной и контрольной группам происходит случайно. Для чистоты эксперимента крайне важно, чтобы исследователи не могли собрать более легких больных в опытную группу, а более тяжелых – в контрольную. Поэтому существуют специальные методы рандомизации (перемешивания), чтобы в итоге различия между группами стали статистически недостоверными, а результаты исследования более точными. Именно Фишер предложил способ планирования и проведения таких экспериментов. Он некоторое время работал в лаборатории сельского хозяйства в Ротамстеде. Планируя эксперимент с удобрениями [76], исследователь не знает о множестве факторов, которые могут повлиять на результат. Поэтому, пытаясь ответить на вопрос «Какое удобрение лучше?», нет смысла сравнивать рост растений в разных теплицах, в каждой из которых вносили свое удобрение. Сравнивать нужно рост одного и того же растения, получившего два вида удобрений в одной теплице. Кроме того, даже в одной теплице солнечный свет будет падать под разным углом на разные участки, и влажность тоже может быть неравномерной. Поэтому при выборе удобрения А или удобрения Б для каждой лунки нужно подкидывать монетку – орел или решка. Фишер назвал такой подход к планированию эксперимента принципом рандомизации. Только в этом случае можно определить, является ли разница между удобрениями значимой. И лишь соблюдая этот принцип, мы имеем право сказать, что два удобрения находились настолько в равных условиях, насколько это возможно, и почти все неконтролируемые различия устранены.
До Фишера распределение в таких экспериментах производилось систематически, что могло искажать результаты. Интересно, что многие ученые не сразу приняли его метод, считая свой систематический подход верным. Кроме обычных A/Б-тестов, Фишер предложил схемы для более сложных многофакторных тестов. На деле даже с обычными тестами с двумя группами часто возникают проблемы, и до многофакторных тестов, когда проверяется сразу несколько изменений одновременно, редко кто доходит. Поэтому в этой книге я буду фокусироваться на самых простых тестах с двумя группами.
Итак, для проведения теста нам нужны метрика и рандомизация. Тесты проводят с контрольной группой. В медицине группу пациентов делят случайно на две – первой группе дают исследуемое лекарство, второй – лекарство-пустышку под названием плацебо. В маркетинге делается аналогично. Во времена почтовой торговли промоскидки отправляли одной группе клиентов, письма-пустышки (без скидок) – второй. При рассылке email-сообщений интернет-магазина контрольной группе обычно не отправляют ничего. Amazon.com, который был пионером тестирования в интернете, использовал А/Б-тесты (split test) для показа одной группе пользователей старой версии сайта, а второй – новой, и сравнивал их поведение, чтобы выбрать лучшую версию. Перед запуском полноценного боевого теста нужно проверить весь механизм работы, делается это с помощью симуляционного и реального тестов. Также можно использовать А/А-тесты – расскажу о них далее.
Что такое гипотеза в статистике
Для статистической проверки гипотез нам понадобится два важных понятия – генеральная совокупность и выборка. Генеральная совокупность (general population) – это все объекты, относительно которых нужно сделать выводы в исследовании. Выборка (sample) – это часть объектов генеральной совокупности, которые мы смогли пронаблюдать.
Пусть у нас есть огромный резервуар с шарами разного диаметра. В самом резервуаре сотни тысяч шаров. Средний диаметр неизвестен, и нам нужно его определить. Весь резервуар посчитать невозможно, слишком много работы нужно затратить. Для экономии средств и времени мы сделаем случайную выборку с замещением (возвращаем шар обратно после определения диаметра) определенного количества шаров. В этой задаче резервуар с шарами – это генеральная совокупность, средний диаметр шара – неизвестный параметр, который нам нужно определить, и мы сделаем это с помощью случайной выборки. Параметр в генеральной совокупности является истинным, параметр выборки является его оценкой.
Когда я слышу слово «распределение» – представляю себе гистограмму частот появления значений. В нашем примере это будет гистограмма с диаметрами шаров. Мы работаем с непрерывными числовыми значениями, вся шкала гистограммы разбивается на диапазоны, как правило, равной длины (0–10, 10.01–20…). На основе гистограммы сложно принимать решения, поэтому в гипотезах обычно оценивают какой-то отдельный параметр распределения, например среднее или медиану. Строим по ним гистограмму (рис. 10.1).
Такие гистограммы (распределения) очень сложно сравнить друг с другом, поэтому и используются числовые статистики распределений.
Генеральная совокупность имеет свое распределение шаров, выборка – свое. Чем больше выборочное распределение похоже на распределение генеральной совокупности – тем лучше. Случайность вытаскивания шаров очень важна для этого – ведь шары в резервуар могли насыпать сначала одного диаметра, потом другого. Тогда на поверхности могут оказаться самые большие шары, и если мы их будем брать преимущественно оттуда, то наше распределение шаров внутри выборки окажется смещенным в сторону большего диаметра, поэтому наши выводы могут оказаться неверными.
Читать дальшеИнтервал:
Закладка: