Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект
- Название:Совместимость. Как контролировать искусственный интеллект
- Автор:
- Жанр:
- Издательство:Альпина нон-фикшн
- Год:2021
- Город:Москва
- ISBN:978-5-0013-9370-2
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект краткое содержание
В своей новаторской книге автор рассказывает, каким образом люди уже научились использовать ИИ, в диапазоне от смертельного автономного оружия до манипуляций нашими предпочтениями, и чему еще смогут его научить. Если это случится и появится сверхчеловеческий ИИ, мы столкнемся с сущностью, намного более могущественной, чем мы сами. Как гарантировать, что человек не окажется в подчинении у сверхинтеллекта?
Для этого, полагает Рассел, искусственный интеллект должен строиться на новых принципах. Машины должны быть скромными и альтруистичными и решать наши задачи, а не свои собственные.
О том, что это за принципы и как их реализовать, читатель узнает из этой книги, которую самые авторитетные издания в мире назвали главной книгой об искусственном интеллекте.
Все, что может предложить цивилизация, является продуктом нашего интеллекта; обретение доступа к существенно превосходящим интеллектуальным возможностям стало бы величайшим событием в истории. Цель этой книги — объяснить, почему оно может стать последним событием цивилизации и как нам исключить такой исход.
Введение понятия полезности — невидимого свойства — для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения.
Первыми, кто действительно выиграет от появления роботов в доме, станут престарелые и немощные, которым полезный робот может обеспечить определенную степень независимости, недостижимую иными средствами. Даже если робот выполняет ограниченный круг заданий и имеет лишь зачаточное понимание происходящего, он может быть очень полезным.
Очевидно, действия лояльных машин должны будут ограничиваться правилами и запретами, как действия людей ограничиваются законами и социальными нормами. Некоторые специалисты предлагают в качестве решения безусловную ответственность.
Совместимость. Как контролировать искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
252
Статья Института изучения машинного интеллекта поднимает много связанных вопросов: Scott Garrabrant and Abram Demski, «Embedded agency», AI Alignment Forum , November 15, 2018.
253
Классическая работа по теории многомерной полезности: Ralph Keeney and Howard Raiffa, Decisions with Multiple Objectives: Preferences and Value Tradeoffs (Wiley, 1976).
254
Статья, представляющая идею IRL: Stuart Russell, «Learning agents for uncertain environments», in Proceedings of the 11th Annual Conference on Computational Learning Theory (ACM, 1998).
255
Первая статья о структурном оценивании процессов принятия решения Маркова: Thomas Sargent, «Estimation of dynamic labor demand schedules under rational expectations», Journal of Political Economy 86 (1978): 1009–44.
256
Первые алгоритмы IRL: Andrew Ng and Stuart Russell, «Algorithms for inverse reinforcement learning», in Proceedings of the 17th International Conference on Machine Learning , ed. Pat Langley (Morgan Kaufmann, 2000).
257
Более совершенные алгоритмы IRL: Pieter Abbeel and Andrew Ng, «Apprenticeship learning via inverse reinforcement learning», in Proceedings of the 21st International Conference on Machine Learning , ed. Russ Greiner and Dale Schuurmans (ACM Press, 2004).
258
Понимание обратного обучения с подкреплением как Байесова обновления: Deepak Ramachandran and Eyal Amir, «Bayesian inverse reinforcement learning», in Proceedings of the 20th International Joint Conference on Artificial Intelligence , ed. Manuela Veloso (AAAI Press, 2007).
259
Как научить вертолет летать и выполнять фигуры высшего пилотажа: Adam Coates, Pieter Abbeel, and Andrew Ng, «Apprenticeship learning for helicopter control», Communications of the ACM 52 (2009): 97–105.
260
Первоначальное название игры в ассистента — игра на кооперацию в рамках обратного обучения с подкреплением , или CIRL. См.: Dylan Hadfield-Menell et al., «Cooperative inverse reinforcement learning», in Advances in Neural Information Processing Systems 29, ed. Daniel Lee et al. (2016).
261
Числа выбраны так, чтобы игра стала интереснее.
262
Равновесное решение для этой игры можно найти в процессе так называемого итерационного наилучшего ответа: взять любую стратегию для Гарриет; взять лучшую, с учетом стратегии Гарриет, стратегию для Робби; взять лучшую, с учетом стратегии Робби, стратегию для Гарриет и т. д. Если этот процесс достигает неподвижной точки, когда ни одна из стратегий не меняется, это значит, что решение найдено. Процесс протекает следующим образом:
1. Начинаем со стратегии жадного человека для Гарриет: изготавливать две скрепки, если она предпочитает скрепки, по одной скрепке и скобке, если ей все равно, либо две скобки, если она отдает предпочтение скобкам.
2. Робби должен рассмотреть три варианта, исходя из этой стратегии Гарриет.
a) Если Робби видит, что Гарриет производит две скрепки, то делает вывод, что она предпочитает скрепки, следовательно, теперь он считает, что ценность скрепки равномерно распределена между 50 центами и $1 со средним значением 75 центов. В этом случае лучший план для него состоит в том, чтобы изготовить для Гарриет 90 скрепок с ожидаемой ценностью $67,5.
b) Если Робби видит, что Гарриет производит по одной скрепке и скобке, то заключает, что она оценивает оба товара в 50 центов, и лучшим выбором для него оказывается произвести по 50 штук того и другого.
c) Если Робби видит, что Гарриет делает две скобки, то, по той же логике, что и в шаге 2 (а), ему следует произвести 90 скобок.
3. С учетом этой стратегии Робби теперь лучшая стратегия для Гарриет несколько отличается от жадной стратегии шага 1. Если Робби собирается отвечать на изготовление ею одной скрепки и одной скобки выпуском 50 штук каждого товара, то для нее лучше так и делать не только в случае, если она абсолютно индифферентна, но и сколько-нибудь близка к индифферентности. В действительности теперь оптимальная политика — делать по штуке того и другого, если она оценивает скрепки в любую сумму от примерно 44,6 цента до 55,4 цента.
4. С учетом новой стратегии Гарриет стратегия Робби остается неизменной. Например, если она выбирает по одной штуке того и другого, он заключает, что ценность скрепки равномерно распределена между 44,6 цента и 55,4 цента со средним значением 50 центов, следовательно, лучший выбор — делать по 50 штук каждой. Поскольку стратегия Робби та же, что и на шаге 2, наилучший ответ Гарриет будет таким же, как на шаге 3, то есть мы нашли равновесие.
263
Более полный анализ игры в выключение см. в статье: Dylan Hadfield-Menell et al., «The off-switch game», in Proceedings of the 26th International Joint Conference on Artificial Intelligence , ed. Carles Sierra (IJCAI, 2017).
264
Доказательство общего результата довольно простое, если вас не пугают знаки интегралов. Пусть P (u) — исходная плотность вероятностей Робби относительно полезности для Гарриет предлагаемого действия а . Тогда ценность продолжения выполнения а равна:
EU (a) = ∫∞−∞ P (u) ∙ u du = ∫∞−∞ P (u)udu ∙ ∫∞0P (U) ∙ u du.
(Вскоре мы поймем, почему интеграл раскладывается именно так.) В то же время ценность действия d , обратиться к Гарриет, состоит из двух частей: если u > 0, то Гарриет позволяет Робби продолжить, следовательно, ценность равна u , но если u < 0, то Гарриет выключает Робби и ценность равна 0:
EU (d) = ∫0−∞P (u) ∙ 0 du + ∫∞0P (u) ∙ u du.
Сравнив выражения для EU (a) и EU (d), мы сразу видим, что EU (d) ≥ EU (a), потому что в выражении для EU (d) область с отрицательной полезностью умножается на ноль и выпадает. Два варианта выбора имеют одинаковую ценность только при нулевой вероятности отрицательной области, а именно — если Робби уже убежден, что Гарриет нравится предлагаемое действие. Эта теорема является прямой аналогией хорошо известной теоремы о неотрицательной ожидаемой ценности информации.
265
Пожалуй, следующий шаг развития ситуации в случае «один человек — один робот» — это рассмотреть некую Гарриет, которая еще не знает собственных предпочтений относительно некоторых аспектов мира или предпочтения которой еще не сформированы.
266
Чтобы в точности увидеть, как именно Робби приходит к неверному убеждению, рассмотрим модель, в которой Гарриет слегка иррациональна и ошибается с вероятностью, уменьшающейся экспоненциально с ростом величины ошибки. Робби предлагает Гарриет четыре скрепки в обмен на одну скобку; она отказывается. Согласно убеждению Робби, это иррационально: даже при стоимости скрепки в 25 центов и скобки в 75 центов четыре первых следовало бы обменять на одну вторую. Значит, она совершила ошибку, но эта ошибка намного более вероятна при истинной ценности скрепки 25 центов, а не, допустим, 30 центов, поскольку цена ошибки для нее существенно возрастает, если она оценивает скрепки в 30 центов. Теперь в вероятностном распределении Робби 25 центов — самая вероятная величина, потому что она представляет собой наименьшую ошибку со стороны Гарриет с экспоненциально уменьшающимися вероятностями для цены выше 25 центов. Если он продолжит ставить этот эксперимент, то распределение вероятностей будет все сильнее концентрироваться около 25 центов. В пределе Робби приобретает уверенность в том, что для Гарриет ценность скрепки составляет 25 центов.
Читать дальшеИнтервал:
Закладка: