Евгений Штольц - Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData

Тут можно читать онлайн Евгений Штольц - Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - бесплатно ознакомительный отрывок. Жанр: Прочая научная литература, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Читать книгу

Название:

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData
Автор:

Евгений Штольц
Жанр:

Прочая научная литература
Издательство:

неизвестно
Год:

2021
ISBN:

нет данных
Рейтинг:

3/5. Голосов: 11
Избранное:

Добавить в избранное
Отзывы:

Читать комментарии
Ваша оценка:
60

1

2

3

4

5

Евгений Штольц - Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData краткое содержание

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - описание и краткое содержание, автор Евгений Штольц, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru

В этой книге Главный Архитектор Департамента Архитектуры Управления Технической Архитектуры (Центра Облачных Компетенций Cloud Native и Корпоративного университета архитекторов) и архитектор решения Сбербанка делится знаниями и опытом с читателей в области ML, полученных в работе Школе архитекторов. Автор:
* проводит читателя через процесс создания, обучения и развития нейронной сети, показывая детально на примерах
* повышает кругозор, показывая, какое она может занимать место в BigData с точки зрения Архитектора
* знакомит с реальными моделями в продуктовой среде

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - читать онлайн бесплатно ознакомительный отрывок

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Евгений Штольц

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

* 2016 год – Google Translate основан на нейронных сетях, выигрыш Google DeepMind AlphaGo у чемпиона мира по Go,

* 2017 год – выигрыш у чемпионов в коллективную 3D игру Dota2,

* 2018 год – беспилотные такси Alphabet Waymo на общих дорогах в Аризоне,

* 2019 год – победа Libratus чемпионов в покер,

* 2020 год – чат-бот на GPT-3 был не распознан собеседниками в социальной сети, видео-интерьвью с авотаром я не отличил от естественного,

* 2021 год – OpenAI Codex создаёт программы по детальному описанию задачи на естественном языке.

Достижения последнего времени:

* распознавание речи по движению губ;

* выигрыши в в 2D игры и 3D игры;

* выигрыши в настольные игры: шахматы, Go;

* синхронный перевод в Skype: разговор между людьми без знания языков друг друга;

* автопилот в автомобилях;

* FindFace распознаёт лица;

* описание изображение текстом и наоборот.

Достижения на 2019 год:

* чтение по губам лучше профессионала (DeepMind Lip Reading);

* изображения: фотореалистичная генерация изображений (Google bigGAN), трансформация видео (NVIDEA vid-to-vid), создание изображений по макетам (NVIDEA gauGAN), обучение беспилотников по виртуальным маршрутам (NVIDEA Drive);

* текст: GPT, BERT, BART, T5, ELMo и другие архитектуры развиваются, расширяют свою сферу применения, эволюционируют;

* звук: умные колонки, с умением автоответчика вести разговор;

* соревнования: AlphaZero обыграла чемпионов в Go и шахматы, другие сети обыграли в StartCraft, Dota-2, покер;

* медицина: визуализация снимков;

* автоматизация: AliBaba автоматизировала Ханджоу (светофоры, инфраструктура), Google автоматизировал охлаждение своих Data центров, автопилоты и другие Edge AI;

* доступность: дообучение готовых моделей в Cloud.

Достижения на 2020 год:

* Intel создал нейроморфную машину Loihi с 1024 нейронами и IBM TrueNorth с миллионом нейронов;

* модель MuZero сама учится играть в неизвестные ей игры (Atari + Go + шахматы + японские шахматы) без начальных знаний, обучающих партий людей и программ и выигрывает у узкоспециализированной AlphaZero, традиционных программ Stockfish и людей в шахматы;

* модель mT5 обучена на более 100 языках для переводов;

* GPT-3 и ruGPT умеют писать программы;

* Модель GPT-3 написала передовицу для газеты Гардиан;

* Модель NVidia StyleGAN2 генерирует правдоподобные лица людей.

Достижения на 2021 год:

* создание ML с несколькими навыками, таких как GPT-3;

* генерация изображения по текстовому описанию: нейронная сеть OpenAI DALL-E (GPT-3 13 + автоинкодер) от OpenAI;

* генераторы музыки: Pod Music Transformet (нотная модель), OpenAI Jukebox (звуковая модель: голос и музыка);

* нейронная сеть создаёт Atari игры по образцу;

* OpenAI Codex создаёт программы по детальному описанию задачи на естественном языке.

Но, в 2021 году более интересны проекты, которые имеют применение нейронных сетей в бизнесе:

* генерация генотипа человека для обхода закона о запрете экспериментов над необезличенным генотипом;

* Яндекс выпустил беспилотных доставляющих роботов;

* одна из нейронных сетей одержала победу над реальным пилотом истребителя и бедет внедряться в боевые беспилотники;

* Яндекс продемонстрировал работу беспилотного такси Yandex Self-Driving Car на дрогах общего пользования города после снегопада;

* чат-бот от Microsoft имитирующий старшеклассница Tay долгое время оставался нераспознанным к бот;

* генерация изображения по текстовому описанию: нейронная сеть Николай Иронов от студии дизайна Студии Артемия Лебедева генерит коммерческие логотипы.

* внедрены системы управления бизнес процессами на основе обучения с подкреплением (игрового принципа обучения);

* многие страны создали стратегии развития AI на государственном уровне, так в России принята стратегия указом №490 "О развитии искусственного интеллекта в Российской Федерации";

* на законодательном уровне формируется экосистема для AI: в России принят закон посвящённых AI (Закон об искусственном интеллекте 123-ФЗ).

* обучение на малых датасетах: копирование голоса по записи длительностью в 4 часа как SaaS продукт.

* виртуальная ведущая Елена от Сбербанка эмулирует мимику во время разговора, но не очень естественно, на мой взгляд.

Но не стоит забывать про стандартные задачи:

* Intelligent document processing – извлечение структурированных данных из неструктурированных бумажных документов;

* Process Mining – описание реальных процессов по цифровым следам, определение узких мест и зацикливаний и возможных решений.

Достижения это хорошо, но это демонстрация потенциальных возможностей. Давайте посмотрим, что добились нейронные сети в индустрии на основании отчёт об искусственном интеллекте Artificial Intelligence Index Report 2021.

Посмотрим на качественный прогресс в IMAGENET Calange. Это соревнование по распознаванию картинок нейронными сетями. Создана очень большая база изображений (датасет). В этот датасет входят разные изображения по 200 категориям. В категории TOP-1 accuracy нейронная сеть должна с одной попытки угадать категорию, например, это самолёт или туфли. В категории TOP-5 accuracy нейронная сеть должна с пятью попыток угадать категорию. Как мы увидим, прогресс постепенно выходит на плато:

год – TOP-1 – TOP-5 2013 – 65% – 85% 2014 – 74% – 87% 2015 – 79% – 92% 2016 – 83% – 95% 2017 – 84% – 97% 2018 – 85% – 97.5% 2019 – 86% – 97.6% 2020 – 86% – 97.7% 2021 – 86.5% – 97.9%

Давайте посмотрим другие показатели. Так до 2017 года дополнительные данные не давали преимущества, а лишь ухудшали результат. В 2017 году результаты сравнялись, а после с дополнительными данными результаты линейно обгоняют простого обучения на датасете. Сейчас TOP-1 = 90.2%, TOP-5 = 98.8. Возможно, именно в них и будет прогресс.

Также скорость обучения выросла: 2018 – 6.2…10 минуты, 2019 – 1.3…9 минуты, 2020 – 47 секунд до 1 минуты. Время всё же снижается кратно, хоть и по убывающей, а ресурсы увеличиваются экспоненциально, но и сложность нейронных сетей возрастает, чтобы показывать результаты более высокие. Но, хоть и ресурсов требуется гораздо больше, но в реальности нас интересует стоимость, а она постоянно снижается: 2018 – 500$, 2019 – 10$, 2020 – 8$, хоть и затухающе.

Может быть ситуация связан с утиханием интереса среди учёных к искусственному интеллекту? Но, нет, доля публикаций в AI со времени прорыва в распознавании изображений относительно всех публикаций экспоненциально растёт:

год – % 2011 – 1.4 2012 – 1.2 2013 – 1.2 2014 – 1.3 2015 – 1.5 2016 – 1.8 2017 – 2.0 2018 – 2.5 2019 – 3.8

Общее число публикаций тоже растёт, причём экспоненциально:

2011 – 0.1 тысяч 2012 – 0.2 тысяч 2013 – 0.3 тысяч 2014 – 0.5 тысяч 2015 – 1.1 тысяч 2016 – 1.9 тысяч 2017 – 3.0 тысяч 2018 – 3.5 тысяч 2019 – 5.8 тысяч 2020 – 6.5 тысяч

Рассмотрим США, так как она занимает лидирующее место по публикациям (36,3%) в AI от других стран в совокупи, что не удивительно, ведь доля PHD полученных в США от всех стран в совокупи в AI составляет 81,8%. PHD по компьютерным наукам специализация на ML/AI лидирует с долей 25% от всех направлений по компьютерным наукам, отрываясь от Теории алгоритмов с долей 8%. При этом скорость роста популярности за год у ML/AI самая высокая: 9%. А подробнее про рост с 2019 по 2020 (остальные показывают снижение популярности):