Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект
- Название:Совместимость. Как контролировать искусственный интеллект
- Автор:
- Жанр:
- Издательство:Альпина нон-фикшн
- Год:2021
- Город:Москва
- ISBN:978-5-0013-9370-2
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект краткое содержание
В своей новаторской книге автор рассказывает, каким образом люди уже научились использовать ИИ, в диапазоне от смертельного автономного оружия до манипуляций нашими предпочтениями, и чему еще смогут его научить. Если это случится и появится сверхчеловеческий ИИ, мы столкнемся с сущностью, намного более могущественной, чем мы сами. Как гарантировать, что человек не окажется в подчинении у сверхинтеллекта?
Для этого, полагает Рассел, искусственный интеллект должен строиться на новых принципах. Машины должны быть скромными и альтруистичными и решать наши задачи, а не свои собственные.
О том, что это за принципы и как их реализовать, читатель узнает из этой книги, которую самые авторитетные издания в мире назвали главной книгой об искусственном интеллекте.
Все, что может предложить цивилизация, является продуктом нашего интеллекта; обретение доступа к существенно превосходящим интеллектуальным возможностям стало бы величайшим событием в истории. Цель этой книги — объяснить, почему оно может стать последним событием цивилизации и как нам исключить такой исход.
Введение понятия полезности — невидимого свойства — для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения.
Первыми, кто действительно выиграет от появления роботов в доме, станут престарелые и немощные, которым полезный робот может обеспечить определенную степень независимости, недостижимую иными средствами. Даже если робот выполняет ограниченный круг заданий и имеет лишь зачаточное понимание происходящего, он может быть очень полезным.
Очевидно, действия лояльных машин должны будут ограничиваться правилами и запретами, как действия людей ограничиваются законами и социальными нормами. Некоторые специалисты предлагают в качестве решения безусловную ответственность.
Совместимость. Как контролировать искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Эта теорема требует одного решающего дополнительного (и несформулированного) допущения: все индивиды имеют одни и те же фактические исходные убеждения о мире и о том, как он будет развиваться. Однако каждый родитель знает, что это неверно даже в отношении их детей, не говоря уже о людях из разных социальных слоев и культур. Что же происходит, если индивиды имеют разные убеждения? Нечто весьма странное [286]: вес, приписываемый полезности каждого индивида, должен меняться со временем пропорционально тому, насколько исходные убеждения данного индивида соответствуют раскрывающейся реальности.
Эта весьма неэгалитарная формула, хорошо знакома каждому родителю. Скажем, роботу Робби поручили приглядывать за двумя детьми, Алисой и Бобом. Алиса хочет пойти в кино и уверена, что сегодня будет дождь, Боб рвется на пляж и настаивает, что день будет солнечный. Робби мог бы заявить: «Мы идем в кино», — сделав Боба несчастным, или: «Мы идем на пляж», — сделав несчастной Алису, либо он может сказать: «Если будет дождь, пойдем в кино, а если солнце, то на пляж». Последний план делает счастливыми и Алису, и Боба, поскольку каждый из них верит своим собственным убеждениям.
Утилитаризм — одно из предложений, возникших из длительного поиска человечеством нравственного ориентира; среди их множества оно сформулировано наиболее четко — поэтому весьма уязвимо для лазеек. Философы ищут их больше ста лет. Например, Дж. Э. Мур, возражая Бентаму, делавшему акцент на максимизацию удовольствия, представлял себе «мир, в котором не существует абсолютно ничего, кроме удовольствия, — ни знания, ни любви, ни наслаждения красотой, ни нравственных качеств» [287]. В современности это наблюдение находим в замечании Стюарта Армстронга, что сверхинтеллектуальные машины, перед которыми поставлена задача максимизации удовольствия, могут «замуровать всех и каждого в бетонных гробах на героиновой игле» [288]. Другой пример: в 1945 г. Карл Поппер предложил достойную цель минимизации человеческого страдания [289], утверждая, что аморально обменивать боль одного человека на удовольствие другого, на что Р. Н. Смарт ответил, что легче всего этого достичь, добившись вымирания человеческой расы [290]. В настоящее время идея, что машина может положить конец страданиям людей, покончив с нашим существованием, является основной в дебатах об экзистенциальном риске, который несет ИИ [291]. Третьим примером является подчеркнутая Дж. Э. Муром идея реальности источника счастья, корректирующая более ранние определения, которые, как представляется, оставляют лазейку, позволяющую максимизировать счастье путем самообольщения. Современные аналоги этого варианта включают «Матрицу» (где современная реальность оказывается иллюзией, созданной компьютерным моделированием) и недавнюю работу по проблеме самообмана в обучении с подкреплением [292].
Эти и другие примеры убеждают меня, что сообщество разработчиков ИИ должно обращать пристальное внимание на атаки и контратаки, совершаемые в ходе философских и экономических дебатов вокруг утилитаризма, имеющих непосредственное отношение к нашей задаче. Две самые важные темы с точки зрения разработки ИИ-систем, полезных для множества индивидов, связаны со сравнениями полезностей между индивидами и между популяциями разной величины. Споры вокруг обеих тем ведутся не менее 150 лет, что заставляет подозревать, что путь к их удовлетворительному разрешению будет извилистым.
Дебаты вокруг межличностного сравнения полезностей важны, потому что Робби не может максимизировать сумму полезностей Алисы и Боба, пока их полезности нельзя будет сложить, а сложить их можно, только если они измеряются в одной и той же шкале. Британский логик и экономист XIX в. Уильям Стэнли Джевонс (изобретатель раннего механического компьютера, так называемого логического пианино) утверждал в 1871 г., что межличностные сравнения невозможны [293]:
Восприимчивость одного ума, насколько нам известно, может быть в тысячу раз больше, чем другого. Однако при условии, что восприимчивость различается в одинаковом соотношении по всем направлениям, мы никогда не сможем обнаружить даже самую вопиющую разницу. Таким образом, любой ум непостижим для любого другого ума, и никакой общий знаменатель чувств невозможен.
Американский экономист Кеннет Эрроу, основатель современной теории социального выбора, лауреат Нобелевской премии 1972 г., был столь же непреклонен:
Здесь мы будем придерживаться той точки зрения, что межличностное сравнение полезностей не имеет смысла и что в действительности нет смысла сравнивать благосостояние, измеряя индивидуальную полезность.
Трудность, которую имеют в виду Джевонс и Эрроу, заключается в отсутствии очевидного способа установить, оценивает ли Алиса уколы булавкой и леденцы по шкале от −1 до +1 или от −1000 до +1000 в смысле своего субъективного переживания счастья. В любом случае она отказалась бы от одного леденца, чтобы избежать одного укола. Действительно, если бы Алиса была человекоподобным роботом, внешне она могла бы вести себя так же даже в отсутствие какого бы то ни было субъективного переживания счастья.
В 1974 г. американский философ Роберт Нозик предположил, что, даже если бы межличностное сравнение полезностей было возможно, максимизация суммы полезностей все равно была бы плохой идеей, потому что вступила бы в противоречие с монстром полезности — абстрактным человеком, чьи ощущения удовольствия и боли во много раз интенсивнее, чем у обычных людей [294]. Такой человек счел бы, что любая дополнительная единица ресурсов привела бы к большему увеличению общей суммы счастья человечества, если бы досталась ему, а не другим. Тогда и отнимать ресурсы у других во благо монстра полезности также было бы хорошей идеей.
Казалось бы, это нежелательное последствие, но консеквенциализм сам по себе здесь бессилен: проблема заключается в том, как мы измеряем желательность последствий. Один из возможных ответов состоит в том, что монстр полезности — теоретический конструкт, таких людей не бывает. Однако вряд ли такой ответ сработает: в определенном смысле все люди являются монстрами полезности по сравнению, скажем, с крысами и бактериями, поэтому мы и не обращаем внимания на предпочтения крыс и бактерий, вырабатывая меры общественной политики.
Если мысль о том, что разные сущности имеют разные шкалы полезности, уже встроена в наше мышление, то кажется более чем вероятным, что и у разных людей имеются разные шкалы.
Другая возможная реакция заключается в том, чтобы воскликнуть: «Что ж, не повезло!» — и действовать исходя из предположения, что у всех одна и та же шкала, даже если это не так [295]. Можно также попытаться изучить этот вопрос научными средствами, недоступными Джевонсу, например измерить уровни дофамина или степень электрического возбуждения нейронов в ответ на удовольствие и боль, счастье и несчастье. Если химические и нервные отклики Алисы и Боба на леденец практически одинаковы, как и их поведенческие реакции (они улыбаются, причмокивают губами и т. д.), представляется нелепым настаивать, что их субъективные степени удовольствия все равно отличаются в тысячу или миллион раз. Наконец, можно было бы воспользоваться единой валютой скажем, временем (которого у всех нас, очень приблизительно, поровну), — например, соотнеся леденцы и булавочные уколы, допустим, с пятью минутами дополнительного ожидания в зоне вылета аэропорта.
Читать дальшеИнтервал:
Закладка: