Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект
- Название:Совместимость. Как контролировать искусственный интеллект
- Автор:
- Жанр:
- Издательство:Альпина нон-фикшн
- Год:2021
- Город:Москва
- ISBN:978-5-0013-9370-2
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект краткое содержание
В своей новаторской книге автор рассказывает, каким образом люди уже научились использовать ИИ, в диапазоне от смертельного автономного оружия до манипуляций нашими предпочтениями, и чему еще смогут его научить. Если это случится и появится сверхчеловеческий ИИ, мы столкнемся с сущностью, намного более могущественной, чем мы сами. Как гарантировать, что человек не окажется в подчинении у сверхинтеллекта?
Для этого, полагает Рассел, искусственный интеллект должен строиться на новых принципах. Машины должны быть скромными и альтруистичными и решать наши задачи, а не свои собственные.
О том, что это за принципы и как их реализовать, читатель узнает из этой книги, которую самые авторитетные издания в мире назвали главной книгой об искусственном интеллекте.
Все, что может предложить цивилизация, является продуктом нашего интеллекта; обретение доступа к существенно превосходящим интеллектуальным возможностям стало бы величайшим событием в истории. Цель этой книги — объяснить, почему оно может стать последним событием цивилизации и как нам исключить такой исход.
Введение понятия полезности — невидимого свойства — для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения.
Первыми, кто действительно выиграет от появления роботов в доме, станут престарелые и немощные, которым полезный робот может обеспечить определенную степень независимости, недостижимую иными средствами. Даже если робот выполняет ограниченный круг заданий и имеет лишь зачаточное понимание происходящего, он может быть очень полезным.
Очевидно, действия лояльных машин должны будут ограничиваться правилами и запретами, как действия людей ограничиваются законами и социальными нормами. Некоторые специалисты предлагают в качестве решения безусловную ответственность.
Совместимость. Как контролировать искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Машина, предполагающая, что идеально знает истинную задачу, будет настойчиво ее преследовать. Она никогда не спросит, правилен ли определенный порядок действий, поскольку уже знает, что это оптимальное решение данной задачи. Она будет игнорировать людей, мечущихся вокруг нее с криками: «Остановись, ты сейчас уничтожишь мир!» — потому что это всего лишь слова. Убежденность в совершенном знании задачи отделяет машину от человека: что делает человек, уже не важно, раз машина знает цель и преследует ее.
Напротив, машина, не уверенная в истинной цели, будет проявлять нечто вроде смирения, например подчиняться людям и позволять себя выключить. Она рассуждает, что человек отключит ее, только если она делает что-то неправильное, то есть противоположное предпочтениям человека. По первому принципу она хочет избежать таких действий, но по второму принципу знает, что это возможно, поскольку ей неизвестно наверняка, «что не так». Получается, если человек все-таки отключает машину, то машина избегает совершения неправильного действия, чего она и желает. Иными словами, машина имеет положительный стимул позволить себя выключить. Она остается связанной с человеком как потенциальным источником информации, которая позволит ей избежать ошибок и лучше сделать свою работу.
Неопределенность является главной темой в разработке ИИ с 1980-х гг.; выражение «современный ИИ» часто относится к революции, совершившейся, когда неопределенность была, наконец, признана закономерностью принятия решений в реальном мире. Тем не менее неопределенность задачи ИИ-системы попросту игнорировалась. Во всех работах по максимизации полезности, достижению целей, минимизации затрат, максимизации вознаграждения и минимизации потерь предполагалось, что функция полезности, целевая функция, функция издержек, функция вознаграждения, функция потерь в точности известна. Но почему? Как сообщество разработчиков ИИ (а также специалистов по теории управления, исследованию операций и статистике) может так долго не замечать огромное слепое пятно {13} 13 Замечу, что в теории принятия решений уже полвека проводятся исследования по оптимизации неизвестной или неопределенной целевой функции. Простейший пример — задачи оптимизации предпочтений ЛПР (лица, принимающего решения) в ситуации, когда эти предпочтения неизвестны и выявляются в диалоге с ЛПР. — Прим. науч. ред.
, признавая неопределенность во всех остальных сторонах принятия решений? [241] Специалист по философии морали Тоби Орд привел тот же довод, комментируя ранний вариант этой книги: «Примечательно, что это справедливо и в исследовании философии морали. Неопределенность в отношении нравственной ценности результатов почти совершенно упускалась из виду философией морали вплоть до самого недавнего времени. Между тем именно неопределенность в нравственных вопросах заставляет людей обращаться к другим за советом в этой сфере, да и вообще заниматься исследованиями в области философии морали!»
Можно приводить довольно сложные объяснения [242] Одним из оправданий пренебрежения неопределенностью в плане предпочтений является то, что формально она эквивалентна обычной неопределенности в следующем смысле: не знать точно, чего я хочу, равносильно точному знанию о том, что мне нравятся нравящиеся вещи, и незнанию того, что это за вещи. Это всего лишь уловка, переносящая неопределенность в мир, делая «привлекательность для меня» свойством объектов, а не моим свойством В теории игр эта уловка полностью узаконена с 1960-х гг. после цикла статей моего покойного коллеги, нобелевского лауреата Джона Харсаньи: John Harsanyi: «Games with incomplete information played by ‘Bayesian’ players, Parts I–III», Management Science 14 (1967, 1968): 159–82, 320–34, 486–502. В теории принятия решений эталон задан следующей публикацией: Richard Cyert and Morris de Groot, «Adaptive utility», in Expected Utility Hypotheses and the Allais Paradox , ed. Maurice Allais and Ole Hagen (D. Reidel, 1979).
, но я подозреваю, что исследователи ИИ, за некоторыми досточтимыми исключениями [243] Очевидное исключение — исследователи ИИ, работающие в сфере выявления предпочтений. См., например: Craig Boutilier, «On the foundations of expected expected utility», in Proceedings of the 18th International Joint Conference on Artificial Intelligence (Morgan Kaufmann, 2003). См. также: Alan Fern et al., «A decision-theoretic model of assistance», Journal of Artificial Intelligence Research 50 (2014): 71–104.
, попросту уверовали в стандартную модель, переносящую понятие человеческого разума на машинный: люди имеют цели и преследуют их, значит, и машины должны иметь цели и преследовать их. Они — точнее говоря, мы — никогда всерьез не анализировали это фундаментальное допущение. Оно встроено в существующие подходы к конструированию интеллектуальных систем.
Третий принцип, согласно которому основным источником информации о человеческих предпочтениях является человеческое поведение, решает две задачи.
Первая состоит в создании надежного основания для понятия предпочтения человека . По определению, предпочтения человека не заложены в машину, и она не может наблюдать их непосредственно, тем не менее должна иметься однозначная связь между машиной и человеческими предпочтениями. Принцип гласит, что эта связь устанавливается путем наблюдения за человеческим выбором : мы предполагаем, что любой выбор неким (возможно, очень сложным) образом связан с базовыми предпочтениями. Чтобы понять, почему эта связь принципиально важна, рассмотрим противоположную ситуацию: если некоторое предпочтение человека не оказывает совершенно никакого влияния на какой бы то ни было реальный или гипотетический выбор, который может быть сделан человеком, то бессмысленно говорить о существовании этого предпочтения.
Вторая задача — дать машине возможность становиться более полезной, больше узнавая, чего мы хотим. (В конце концов, если она ничего не знает о предпочтениях человека, то будет для нас бесполезной.) Мысль весьма проста: всякий выбор человека открывает информацию о его предпочтениях. В случае выбора между пиццей с ананасами и пиццей с сосисками это очевидно. Если выбирают между вариантами будущей жизни, причем выбор делается с целью повлиять на поведение робота, ситуация становится более интересной. В следующей главе я объясню, как формулировать и решать подобные задачи. Однако настоящая трудность возникает потому, что люди не вполне рациональны: между нашими предпочтениями и выбором отсутствует идеальное совпадение, и машина должна учитывать эти несовершенства, чтобы интерпретировать выбор как проявление предпочтений человека.
Прежде чем погрузиться в детали, я хочу исключить возможное недопонимание.
Читать дальшеИнтервал:
Закладка: