Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект
- Название:Совместимость. Как контролировать искусственный интеллект
- Автор:
- Жанр:
- Издательство:Альпина нон-фикшн
- Год:2021
- Город:Москва
- ISBN:978-5-0013-9370-2
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект краткое содержание
В своей новаторской книге автор рассказывает, каким образом люди уже научились использовать ИИ, в диапазоне от смертельного автономного оружия до манипуляций нашими предпочтениями, и чему еще смогут его научить. Если это случится и появится сверхчеловеческий ИИ, мы столкнемся с сущностью, намного более могущественной, чем мы сами. Как гарантировать, что человек не окажется в подчинении у сверхинтеллекта?
Для этого, полагает Рассел, искусственный интеллект должен строиться на новых принципах. Машины должны быть скромными и альтруистичными и решать наши задачи, а не свои собственные.
О том, что это за принципы и как их реализовать, читатель узнает из этой книги, которую самые авторитетные издания в мире назвали главной книгой об искусственном интеллекте.
Все, что может предложить цивилизация, является продуктом нашего интеллекта; обретение доступа к существенно превосходящим интеллектуальным возможностям стало бы величайшим событием в истории. Цель этой книги — объяснить, почему оно может стать последним событием цивилизации и как нам исключить такой исход.
Введение понятия полезности — невидимого свойства — для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения.
Первыми, кто действительно выиграет от появления роботов в доме, станут престарелые и немощные, которым полезный робот может обеспечить определенную степень независимости, недостижимую иными средствами. Даже если робот выполняет ограниченный круг заданий и имеет лишь зачаточное понимание происходящего, он может быть очень полезным.
Очевидно, действия лояльных машин должны будут ограничиваться правилами и запретами, как действия людей ограничиваются законами и социальными нормами. Некоторые специалисты предлагают в качестве решения безусловную ответственность.
Совместимость. Как контролировать искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Первое «да» благоприятно: в общем, пока первоначальные представления Робби о предпочтениях Гарриет приписывают некоторую вероятность, сколь угодно малую, ее реальным предпочтениям, чем более уверенным становится Робби, тем чаще он будет прав. Постепенно он придет к убеждению, что предпочтения Гарриет именно таковы, какие они есть, в действительности. Например, если Гарриет оценивает скрепки в 12 центов, а скобки в 88 центов, Робби со временем усвоит эти ценности. В этом случае Гарриет не важно, советуется ли с ней Робби, поскольку она знает, что он всегда сделает именно то, что сделала бы она сама на его месте. Невозможна ситуация, когда Гарриет захочется выключить Робби.
Второе «да» менее благостно. Если Робби априори исключает предпочтения, имеющиеся у Гарриет, он никогда эти истинные предпочтения не узнает, но его представления могут обратиться в неверное представление. Иными словами, со временем он становится все более убежденным в ошибочных представлениях о предпочтениях Гарриет. В типичной ситуации это ложное представление будет связано с тем, какая гипотеза из всех, которые Робби изначально допускает, наиболее близка к истинным предпочтениям Гарриет. Например, если Робби абсолютно убежден, что Гарриет определяет ценность скрепки между 25 и 75 центами, тогда как ее истинная ценность, с точки зрения Гарриет, равна 12 центам, робот постепенно придет к убеждению, что она оценивает скрепку в 25 центов [266].
Приближаясь к определенности в отношении предпочтений Гарриет, Робби все больше станет напоминать старые недобрые ИИ-системы с фиксированными целями: он не станет спрашивать разрешения и не предоставит Гарриет возможности выключить его, а также будет преследовать неверную цель. С этим еще можно мириться, когда речь идет о скрепках и скобках, но не в случае необходимости выбирать между качеством и продолжительностью жизни, если Гарриет тяжело больна, или между численностью населения и потреблением ресурсов, если от Робби ожидались действия в интересах всего человечества.
Итак, у нас появляется проблема, если Робби заранее отбрасывает предпочтения, возможно, имеющиеся у Гарриет: он может прийти к твердому, но ошибочному убеждению о ее предпочтениях. Решение кажется очевидным: не делать этого! Всегда приписывать некоторую вероятность, сколь угодно малую, логически возможным предпочтениям. Например, с точки зрения логики возможно, что Гарриет настолько хочет избавиться от скобок, что готова вам приплатить, лишь бы вы их забрали. (Может быть, она в детстве пригвоздила свой палец к столу такой скобкой и теперь даже видеть их не может.) Следовательно, мы должны допустить отрицательные соотношения цен, вследствие чего задача несколько усложняется, но остается абсолютно решаемой [267].
Что, однако, делать, если Гарриет ценит скрепки в 12 центов по будним дням и в 80 центов по выходным? Это новое предпочтение не описывается никаким единственным числом, и Робби фактически вынужден заведомо им пренебречь. Оно попросту отсутствует в его комплексе возможных гипотез о предпочтениях Гарриет. В общем случае для Гарриет могут быть важны еще очень и очень многие вещи, кроме скрепок и скобок. (Честное слово!) Представим, например, что изначальные представления Робби допускают гигантский список возможных предметов заботы Гарриет, в том числе уровень Мирового океана, глобальную температуру, количество атмосферных осадков, ураганы, озонную дыру, паразитные виды и уничтожение лесов. Тогда Робби будет наблюдать за поведением и выбором Гарриет и постепенно совершенствовать свою теорию ее предпочтений, чтобы понять, какой вес она приписывает каждому пункту списка. Однако, как и в примере со скрепкой, Робби не узнает о том, что не входит в этот список. Допустим, Гарриет также беспокоится из-за цвета неба — гарантирую, вы не найдете этого среди типичных тревог климатологов. Если Робби сможет чуть лучше оптимизировать уровень океана, глобальную температуру, количество осадков и т. д., сделав небо оранжевым, то сделает это без колебаний.
У этой проблемы опять-таки есть решение: не допускайте этого! Никогда не отбрасывайте заранее возможные атрибуты мира, которые могут быть частью структуры предпочтений Гарриет. На словах все прекрасно, но на деле заставить эту схему работать труднее, чем в случае, когда предпочтения Гарриет описываются одним числом. Изначальная неопределенность Робби должна допускать неограниченное количество неизвестных атрибутов, возможно, входящих в предпочтения Гарриет. Тогда, если решения Гарриет необъяснимы с точки зрения атрибутов, которые Робби уже знает, он может сделать вывод, что тут, вероятно, участвует один или несколько прежде неизвестных атрибутов (к примеру, цвет неба), и попытаться выяснить, что это за атрибуты. Таким образом, Робби избегает проблем, вызываемых слишком ограничивающим изначальным представлением. Насколько я знаю, пока не существует рабочих образцов Робби такого типа, но общая идея присутствует в современной мысли о машинном обучении [268].
Неопределенность относительно человеческих целей может быть не единственным способом убедить робота не запрещать свое выключение, когда он подает кофе. Выдающийся логик Моше Варди предложил более простое решение на основе запрета [269]: вместо того чтобы ставить перед роботом цель «подавать кофе», задайте ему цель «подавать кофе, не препятствуя своему выключению ». К сожалению, робот с такой целью будет удовлетворять букве закона, противореча его духу — например, окружив выключатель рвом с водой, кишащим пираньями, или просто ударяя током любого, кто пройдет возле выключателя. Написать такой запрет в форме, защищенной от дурака, — все равно что пытаться написать закон о налогообложении, в котором нет ни одной лазейки, — задача, над которой мы безуспешно бьемся не одну тысячу лет. Достаточно интеллектуальное существо с сильным стимулом избежать уплаты налогов, скорее всего, найдет такую возможность. Назовем это принципом лазейки : если достаточно интеллектуальная машина имеет стимул создать определенное условие, то в общем случае для простых людей станет невозможно создать запреты на эти действия, чтобы воспрепятствовать ей в этом или аналогичном действии.
Лучшее решение для предотвращения уклонения от уплаты налогов — гарантировать, чтобы рассматриваемое существо хотело платить налоги. В случае ИИ-системы, потенциально ведущей себя неправильно, лучшим решением будет гарантировать ее желание подчиняться людям.
Запросы и инструкции
На данный момент вывод представляется следующим: нам следует избегать «закладывать в машину цель», если воспользоваться словами Норберта Винера. Представим, однако, что робот все-таки получает от человека прямой приказ, например: «Подай мне чашку кофе!» Как робот должен понимать этот приказ?
Читать дальшеИнтервал:
Закладка: