Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres]
- Название:Роман с Data Science. Как монетизировать большие данные [litres]
- Автор:
- Жанр:
- Издательство:Издательство Питер
- Год:2021
- Город:Санкт-Петербург
- ISBN:978-5-4461-1879-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres] краткое содержание
Эта книга предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет вам полезна, если вы менеджер, который хочет ставить задачи аналитике и управлять ею. Если вы инвестор, с ней вам будет легче понять потенциал стартапа. Те, кто «пилит» свой стартап, найдут здесь рекомендации, как выбрать подходящие технологии и набрать команду. А начинающим специалистам книга поможет расширить кругозор и начать применять практики, о которых они раньше не задумывались, и это выделит их среди профессионалов такой непростой и изменчивой области. Книга не содержит примеров программного кода, в ней почти нет математики.
В формате PDF A4 сохранен издательский макет.
Роман с Data Science. Как монетизировать большие данные [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Минусы:
• У бесплатных версий привязка к облаку вендора. Например, Google Dashboard привязан к облаку Google.
• Неполный набор коннекторов. Например, у Google Dashboard нет коннектора к Clickhouse. Но сама такая идея под большим вопросом из-за безопасности. Клиент Google работает из облака, а значит, придется открывать доступ к вашим внутренним БД из интернета, а это не самая лучшая идея.
Пакеты статистического анализа данных
Мое знакомство с анализом данных началось именно с этих инструментов, когда меня взяли на стажировку в компанию StatSoft. Электронные таблицы и системы визуального анализа очень слабы в статистическом анализе, а именно это является необходимым атрибутом анализа данных. Допустим, вы наблюдаете разницу в показателях – как определить, она действительно существует или случайна? Для этого нужно рассчитать ее статистическую значимость.
Пакеты стат-анализа данных обычно представляют собой десктопные приложения (рис. 7.3), в которых вычисления происходят локально. Данные загружаются в виде электронных таблиц. Как правило, есть несложный визуальный ETL, как в Tableau. Есть встроенный язык программирования для автоматизации действий.
Плюсы:
• Очень богатые возможности для статистического анализа. Справка этих пакетов успешно конкурирует с учебниками по прикладному анализу данных. Сами статистические функции тщательно протестированы, в отличие от общедоступных статистических калькуляторов в интернете.
• Хорошие графические возможности.
• Внимание к деталям, что важно для научных исследований.
• С данными можно работать офлайн.
Минусы:
• Высокий порог входа. Вы должны понимать, что делать, какой именно статистический критерий использовать. Обязательно требуются базовые знания математической статистики.
• Коммерческие продукты стоят дорого.

Рис. 7.3.STATISTICA
Работа с данными в облаках
В эпоху развития удаленной работы все больше инструментов уходит в облака. Я связываю это с тем, что бизнесы, а значит источники данных, стали располагаться на облачных серверах. Перекачивать большие объемы данных по интернету то еще удовольствие. Согласно Гартнеру [46], к 2022 году публичные облачные сервисы закроют 90 % потребностей в анализе данных.
Уже практически все вендоры облаков разработали инструменты визуального анализа: Google Data Studio, Microsoft Power BI, Amazon Quick Sight, Yandex DataLens.
Плюсы:
• Данные и средства анализа находятся внутри одного периметра безопасности. Легко управлять доступом к данным. Не нужно явно подвергать себя риску и открывать доступ к данным через интернет.
• Данные доступны внутри сети одного облака – скорость работы выше.
• Нативная возможность совместной работы. Думаю, вы работали с сервисами наподобие Google Docs. Насколько удобнее получается совместная работа, чем работа со стандартным офисным пакетом.
• Тонкий клиент – все действия делаются в браузере. Не нужно ставить программы на ваш компьютер.
• Гибкое ценообразование – цена зависит от частоты использования и нагрузок.
• Расходы на администрирование системы меньше.
Минусы:
• Цена. Даже если облако предоставляет визуализацию бесплатно, за сами вычисления и агрегацию данных придется платить. Эта модель схожа с каршерингом: если вы очень активный пользователь, в какой-то момент становится выгоднее купить свой автомобиль. Так же и с облаками.
• Ваши данные находятся у одного вендора, а это порождает зависимость. Если объем информации составляет петабайты, то очень нелегко их перевести на свои сервера или облако другого вендора.
В целом мне нравится этот тренд – миграция данных и их анализа в облачные сервисы, это делает разработку аналитических систем легче и часто дешевле покупки корпоративных систем.
Что такое хорошая отчетная система
Опишу типичную ситуацию, которая возникает при запуске аналитической системы. В компании Х появляется хранилище данных и аналитическая система к нему. Аналитики проводят первое общее собрание, показывают систему, демонстрируют, какие данные доступны. Самые любознательные сотрудники (берегите их), которым этого не хватало, начинают работать с новым хранилищем и системой, и вскоре от них начинают сыпаться комментарии: это неудобно, тут тормозит, здесь не хватает данных. Поговорим о минимальных требованиях к отчетной системе, которые я встречал на практике.
Для начала выделим две функции таких систем: предоставление дашбордов и служебных отчетов. О дашбордах я писал в прошлых главах. Служебные отчеты предназначены для автоматизации и упрощения задач сотрудника. Например, это могут быть контакты проблемных клиентов для прозвона, скоринг клиентов по эффективности внедрения системы рекомендаций на сайт, поисковые фразы с пустой страницей результатов. Эти отчеты даже встраивают как компонент в существующие бизнес-процессы.
Любой отчет, или дашборд, состоит из блоков: таблиц и графиков. Блоки часто бывают независимы друг от друга, но связаны общими параметрами. Отличный пример такого параметра – дата и время. Атрибут практически любого отчета – период, который этот отчет охватывает. В хорошей отчетной системе этот параметр несложно «пробросить» на все блоки. Как это выглядит для пользователя: пользователь открывает в браузере нужный отчет, вводит период (дата начала и конца), ждет некоторое время и получает результат. Как это выглядит для разработчика: разработчик собирает несколько блоков в отчет, указывает имена общих параметров в каждом блоке, указывает имена параметров в общем отчете и публикует отчет. Выглядит просто, но не во всех отчетных системах это сделано удобно. Мой недавний пример из Retail Rocket: для хранилища на ClickHouse вначале выбрали SuperSet. Столкнулись с огромным количеством неудобств в параметрах. В итоги перешли на Metabase, где подобные параметрические отчеты делаются намного проще. Обе системы полностью бесплатны, с открытым исходным кодом.
Толстый или тонкий клиент? Толстый клиент означает наличие специальной программы на компьютере для просмотра отчетов, тонкий – вся работа идет через браузер. Обычно предпочитают работать через тонкий клиент из-за низкого порога входа: нужно авторизоваться через браузер и начать пользоваться системой. В толстых клиентах намного больше возможностей, но на их обучение придется потратить больше времени. Толстые клиенты важны для работы с мобильных телефонов, они адаптируют интерфейсы, пусть и урезанные.
Читать дальшеИнтервал:
Закладка: