Евгений Штольц - Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData

Тут можно читать онлайн Евгений Штольц - Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - бесплатно ознакомительный отрывок. Жанр: Прочая научная литература, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData
Автор:

Евгений Штольц
Жанр:

Прочая научная литература
Издательство:

неизвестно
Год:

2021
ISBN:

нет данных
Рейтинг:

3/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
60

1

2

3

4

5

Евгений Штольц - Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData краткое содержание

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - описание и краткое содержание, автор Евгений Штольц, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

В этой книге Главный Архитектор Департамента Архитектуры Управления Технической Архитектуры (Центра Облачных Компетенций Cloud Native и Корпоративного университета архитекторов) и архитектор решения Сбербанка делится знаниями и опытом с читателей в области ML, полученных в работе Школе архитекторов. Автор:
* проводит читателя через процесс создания, обучения и развития нейронной сети, показывая детально на примерах
* повышает кругозор, показывая, какое она может занимать место в BigData с точки зрения Архитектора
* знакомит с реальными моделями в продуктовой среде

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - читать онлайн бесплатно ознакомительный отрывок

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Евгений Штольц

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

США – 210% Канада – 270% Австралия – 210% Сингапур – 250% Германия – 220% Италия – 170% Франция – 160% Китай – 130%

В курсах по AI доля Machine Learning составляет 42%.

Если же говорить об рабочих местах и о смещении на технологические рабочие места. Часто, компании, которые автоматизируют рабочие места, заявляют, что сотрудники которые их занимали могут переквалифицироваться и начать управлять этими автоматизированными системами. Обычно, люди со стороны относятся к этому с недоверием, так как непонятно, зачем автоматизировать и потом оставляют тоже количество людей, ведь автоматизация подразумевает в их понятие автономность. Но, это не так, так как автоматизация подразумевает наличие огромного количества людей, разрабатывающих и обслуживающих эти системы. Так, в одной из крупнейших компаний России есть план, который подразумевает освобождение нескольких тысяч мест продавцов, кассиров и других операторов, но вместе с тем запланирован найм большего количества тысяч рабочих мест специалистов обслуживающих системы AI. Ожидается качественный и масштабируемый прирост показателей услуг, предоставляемых компанией, а большей степени отрытие новых ниш развития компании. Количество в среднем останется таким же, так как большой набор проектный (единичный), а отток – плановый (ежегодный). Но, конечно, продавцы и кассиры маловероятно, что переквалифицируются в разработчиков, аналитиков и учёных с сфере ИИ. Хотя, большими компаниями делаются попытки в этом направлении – создаются курсы и очное обучение на несколько месяцев для переквалификации сотрудников. Обычно, люди с умирающих профессий переквалифицируются в другие умирающие профессии, у которых умирание произойдёт с небольшим запозданием. Это связано с тем, что люди бегут с простых работ на работы чуть сложнее, чем были до этого, ожидая быструю и разовую переквалификацию. Например, продавцы могут переквалифицироваться в таксистов, где требуется чуть больше технических навыков, чем их прежняя работа, и автоматизация, чуть сложнее и чуть менее эффективна. Такая ситуация была всегда, и связана она с любой автоматизацией, не только компьютерной. Общей чертой профессий, подлежащих автоматизации является рентабельность, то есть они достаточно массовы и легко автоматизируются, чтобы это стало выгодным. Популярность профессии для перехода с умирающей и является, что она скоро станет массовой, а лёгкость переквалификации связана со стандартизацией. Так, курсы по переквалификации уже говорят, что есть алгоритм и он будет применён многократно, пока только на этапе переквалификации, а не на этапе постоянной работы. Отсюда вытекает следствия, что столь популярная профессия как Web программист с понятными навыками, понятными заданиями может быть автоматизирована. Не секрет, что в разработке формализован стиль кода, фреймворки, подходы, постановка задач. И действительно, современные готовые (предобученные) нейронные сети могут генерировать работающий программный код, но об этом позже в этой книге. Но, программисты, гораздо ближе к эффективной переквалификации, если он если они не занимаются простым кодированием. Но, только 2020, нейронные сети могут формировать только простой код на языке программирования, а насколько – в соответствующем разделе. Поэтому программисты разделяются на два лагеря – программисты пишущие типовой код, которым сложно адаптироваться, но которых это коснётся и программистов, которых могут переквалифицироваться, который понемногу будут вытеснять первая группа программистов, и которым, скорее всего интереснее и перспективнее это будет сделать. Правда тут не всё так однозначно, так с 2018 года, нейронные сети уже умеют проектировать другие специализированные нейронные сети с помощью технологии AutoML.

Что, касается самой профессии Data scines – это аналитик данных, который на основе понимания предметной области может с помощью статистических методов используя инструменты (языки, системы) получить предсказания. Более подробно о навыках:

* математическая статистика и теория вероятностей, чтобы мог выбрать статистические методы, где ML не нужен;

* алгоритмы ML: регрессия, классификация, кластеризация, порождения (генерации), сопоставление;

* программирование: аналитика на R, написание моделей на Python и подключение данных из Java+SQL (Hadoop, Hive, Spark, Pig), управление жизненным циклом модели (DevOps, SRE);

* мягки навыки: понимание предметной области (ориентация на бизнес результат), проектное управление (коммуникация для построения запуска модели), аналитика для проверки гипотез.

Пишем свою сеть

Для примера возьмём прописные числа от нуля до девяти, которые мы будет сопоставлять с печатными. Если прописные точно попадают в контур – то всё просто, нам нужно просто перебрать контура печатных и получить подходящий вариант. Такая задача не относится к задачам машинного обучения. Теперь усложним задачу – числа у нас не точно попадают под шаблон. Если прописные числа немного не вписываются в контур – мы просто находим какое–то отклонение. И тут возникает сложность при категоризации прописного числа на ноль и девятку, когда размер хвостика отделяет небрежное написание нуля от девятки. Другой момент в категоризации восьмёрки и девятки. Так, если кончик отгибается – это десятка, а если загибается и прикасается – то восьмёрка. Для решения подобной ситуации нужно разделить цифру на области и в зависимости и присвоить им разные коэффициенты. Так, соединение хвостика нижней части имеет очень высокое значение, нежели форма самих окружностей в классификации на восьмёрки и девятки. Определить помогут статистические данные по заранее данной выборке соответствия фигур восьмёркам и девяткам, где исследователь сможет определить, когда уже можно высчитать нижнее кольцо замкнутым и говорить о соответствии восьмёрке фигуры, а когда нет, говорить о соответствии девятке. Такой метод сортировки, основанный на выделении отдельных компонент, на различии которых и принимается решение о сортировке, называется методом главных компонент. Но мы можем программным способом разделить цифры на сектора и присвоить им коэффициенты.

Другой сложностью может быть то, что цифра может быть не в наблюдаемой области, а в произвольной, например, в углу. Для анализа самой цифры нам нужно переместить анализирующее окно в то место, где находится цифра. Для простоты пока будем полагать, что габариты анализирующего окна равны габаритам исследуемой цифры. Для решения этой задачи перед сетью ставят анализирующий слой, образующий карту нахождения цифры. Задача этого слоя определить местоположение цифры на картинке. Для простоты возьмём чёрное изображение на белом листе. Нам нужно пройтись анализатором цифры построчно по всему листку и определить местоположение. В качестве индикатора возьмём площадь чёрного цвета на индикаторе. После прохождения по листку бумаги и определения площади мы получим матрицу с цифрами площадей чёрного цвета. Где площадей чёрного цвета больше – в том месте цифра максимально вписалась в индикатор. Преобразование картинки в матрицу площадей называется операцией свёртки, а если это выполняет нейронный слой – свёрточный слой. Принцип работы был позаимствован у биологического зрительного нерва. Нейронные сети, в которых присутствует свёрточный слой (Conv Layers) называются свёрточными нейронными сетями (Convolutional Neural Network, CNN). Такие сети используют при распознавании изображения, а после при должном развитии их адаптировали для распознавания речи и текстов. Классически, CNN применяется для решения трёх задач при работе с изображениями: