Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres]
- Название:Роман с Data Science. Как монетизировать большие данные [litres]
- Автор:
- Жанр:
- Издательство:Издательство Питер
- Год:2021
- Город:Санкт-Петербург
- ISBN:978-5-4461-1879-3
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Роман Зыков - Роман с Data Science. Как монетизировать большие данные [litres] краткое содержание
Эта книга предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет вам полезна, если вы менеджер, который хочет ставить задачи аналитике и управлять ею. Если вы инвестор, с ней вам будет легче понять потенциал стартапа. Те, кто «пилит» свой стартап, найдут здесь рекомендации, как выбрать подходящие технологии и набрать команду. А начинающим специалистам книга поможет расширить кругозор и начать применять практики, о которых они раньше не задумывались, и это выделит их среди профессионалов такой непростой и изменчивой области. Книга не содержит примеров программного кода, в ней почти нет математики.
В формате PDF A4 сохранен издательский макет.
Роман с Data Science. Как монетизировать большие данные [litres] - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Третья часть – практическая. Мы вместе с соискателем садимся за один компьютер и решаем несложную задачу его любимым способом. От кандидата на должность аналитика данных требуется обработать данные и сделать выводы. Здесь важна скорость – если есть практические навыки, то он справится быстро. Однажды меня позвали в одну группу поиграть на гитаре. Тогда я играл по табам (схемы, где обозначено, какую струну и когда зажать), аккордов не мог строить, но знал, как они устроены, теоретически. Чтобы что-то сыграть, мне нужно было построить и выучить каждый аккорд. Это отнимало много времени, я тормозил. Конечно, меня туда не взяли – у музыкантов не было времени ждать, пока я заиграю. Также с аналитикой и инженерией – простые вещи нужно уметь делать быстро. Если их делать медленно, то это будет тормозить рабочий процесс и всю команду. Этому можно научиться только на практике, и хорошая школа для развития таких навыков – Kaggle.
Требования к кандидатам
Приведу здесь базовые требования к аналитику данных (здесь я подразумеваю, что машинным обучением занимается инженер ML, а не аналитик данных).
Хороший аналитик должен разбираться в области, которой он занимается – будь то маркетинг, логистика, финансы, веб-аналитика или что-то еще. Обладать этим доменным знанием важно, потому что оно поможет быстро разобраться в рабочих вопросах.
Технические средства для аналитика – всего лишь инструменты. Я выступаю за разнообразие и начал бы, как ни странно, с Excel. Это действительно очень мощный инструмент и стандарт в финансах. На втором месте SQL – язык для работы с базами данных. Это самый популярный способ получения данных и их первоначальной обработки. Третью строчку моего личного рейтинга занимает базовая теория вероятностей и математическая статистика: среднее, медиана, дисперсия, корреляция, статистические критерии проверки гипотез. На четвертом – инструменты программирования: блокноты на Python (Jupyter Notebooks) или R.
Иногда в некоторых вакансиях требуется знание определенного софта. Не стоит переживать, если вы его не знаете, – когда есть база, отдельные навыки приобретаются легко.
Инженеров я бы разделил на две категории – инженеры по данным, задачей которых является обеспечение работы системы, и инженеров ML, которые работают над ML-моделями. С моей точки зрения, инженер по данным должен:
• уметь работать с Unix/Linux Shell;
• знать принципы MapReduce;
• уметь работать с Hadoop в случае необходимости;
• уметь работать с Kafka или другим стримовым софтом;
• работать с DAG-софтом (AirFlow, Oozie…) – системой, которая стоит граф расчетов.
Инженер ML должен:
• владеть базовыми алгоритмами машинного обучения так, чтобы он мог самостоятельно написать их. Иногда необходимо выходить за рамки стандартных библиотек ML и писать свое;
• владеть искусством создания фич (feature engineering) – этому можно научиться только на практике, например, решая задачи на Kaggle;
• уметь пользоваться системой контроля версий Git;
• уметь работать с контейнеризацией моделей и средствами ML Ops, например с ML Flow.
Кроме того, и те и другие инженеры должны хорошо владеть двумя языками программирования – Python и любым компилируемым из списка (С++, C#, Java, Scala), а также знать SQL
Вы приняли оффер
Поздравляю! Помните, что испытательный срок, который обычно составляет два или три месяца, является испытательным и для компании тоже. Если вы попали в ситуацию, когда слова, сказанные при найме, сильно расходятся с делами, – уходите. Еще и поэтому не стоит рвать отношения с другими потенциальными работодателями (и даже с прошлым) сразу, когда вы принимаете предложение. Вполне нормально продолжать ходить на собеседования, выйдя на испытательный срок в новой компании. Это не нравится работодателям, но что поделать – вы должны вести свою игру. Может оказаться, что работа вам не подходит или вы не подойдете работодателю. У меня были сотрудники, которые не принимали мой оффер, уходили в другое место, но через несколько недель все-таки возвращались.
И еще. Любые отношения с работодателем выстраиваются в самом начале. Их сложно менять с течением времени – как вы себя поставите на испытательном сроке, так, скорее всего, и будет.
Как развиваться и работать
В хорошей компании вас не оставят один на один с непонятной работой, в идеале вам должны назначить наставника и написать программу на испытательный срок. Выполнив ее, вы останетесь работать в компании. Сейчас это стандарт для работы со стажерами и новичками, но на заре моей карьеры так было только в крупных компаниях.
И вот вы, пройдя испытательный срок, стали полноценным членом команды. Что дальше? Было бы хорошо договориться со своим менеджером об индивидуальном плане работы, из которого было бы понятно, где вам развиваться. Мы практикуем это в Retail Rocket – я убежден, что составление такого плана – работа менеджера, и если она не выполняется, можно его об этом попросить. В этот план могут быть включены навыки и знания, которые в дальнейшем должны привести к повышению вашего дохода или должности. Не нужно стесняться своих профессиональных амбиций – о них нужно заявлять. Те, кто это делает, добиваются большего. У менеджера много работы, он не обязан думать о ваших карьерных устремлениях. В нашей области нужно постоянно развиваться, проходит буквально несколько лет, и стандарты работы меняются. Ваш план развития не позволит вам выпасть из обоймы. Кроме того, нужно соблюдать баланс работы и развития, иначе легко застрять на одном месте. У меня очень большая занятость, но время на то, чтобы читать хорошие книги по специальности и проходить онлайн-курсы на Coursera, я стараюсь находить всегда.
Нам всем нужна обратная связь, чтобы понимать, где нужно улучшиться и насколько. Для этого придумали встречи в формате один на один (one-to-one) с вашим менеджером, которые проводятся в одно и то же время раз в неделю. Если в компании процесс управления задачами настолько отлажен, что для их постановки такие встречи не требуются, – все равно настаивайте на их проведении с вашим менеджером. Обычно все совещания коллективные, и там о многом политкорректно молчат. На встречах one-to-one намного проще говорить открыто и даже дать свою обратную связь руководителю (если вам, конечно, настолько повезло с руководителем). Я сам был и в роли подчиненного, и в роли менеджера, работал в тех компаниях, где был принят формат one-to-one, и в тех, где это не практиковали, – так что я могу сравнивать. Я уверен, что такие встречи однозначно полезны и даже необходимы.
Простой исполнитель делает то, что ему скажут, – но когда речь идет об интеллектуальном труде, это не работает. Интеллектуальный труд сродни искусству – одну и ту же задачу можно сделать по-разному. И здесь, когда вам ставят задачу, иметь свое собственное мнение о ней нужно, даже если вы его не озвучиваете. Когда ваш репутационный вес вырастет, эта привычка вам пригодится.
Читать дальшеИнтервал:
Закладка: