Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект
- Название:Совместимость. Как контролировать искусственный интеллект
- Автор:
- Жанр:
- Издательство:Альпина нон-фикшн
- Год:2021
- Город:Москва
- ISBN:978-5-0013-9370-2
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект краткое содержание
В своей новаторской книге автор рассказывает, каким образом люди уже научились использовать ИИ, в диапазоне от смертельного автономного оружия до манипуляций нашими предпочтениями, и чему еще смогут его научить. Если это случится и появится сверхчеловеческий ИИ, мы столкнемся с сущностью, намного более могущественной, чем мы сами. Как гарантировать, что человек не окажется в подчинении у сверхинтеллекта?
Для этого, полагает Рассел, искусственный интеллект должен строиться на новых принципах. Машины должны быть скромными и альтруистичными и решать наши задачи, а не свои собственные.
О том, что это за принципы и как их реализовать, читатель узнает из этой книги, которую самые авторитетные издания в мире назвали главной книгой об искусственном интеллекте.
Все, что может предложить цивилизация, является продуктом нашего интеллекта; обретение доступа к существенно превосходящим интеллектуальным возможностям стало бы величайшим событием в истории. Цель этой книги — объяснить, почему оно может стать последним событием цивилизации и как нам исключить такой исход.
Введение понятия полезности — невидимого свойства — для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения.
Первыми, кто действительно выиграет от появления роботов в доме, станут престарелые и немощные, которым полезный робот может обеспечить определенную степень независимости, недостижимую иными средствами. Даже если робот выполняет ограниченный круг заданий и имеет лишь зачаточное понимание происходящего, он может быть очень полезным.
Очевидно, действия лояльных машин должны будут ограничиваться правилами и запретами, как действия людей ограничиваются законами и социальными нормами. Некоторые специалисты предлагают в качестве решения безусловную ответственность.
Совместимость. Как контролировать искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Еще одна очевидная особенность действий людей — ими часто движут эмоции. В некоторых случаях это хорошо: такие эмоции, как любовь и благодарность, без сомнения, играют роль в наших предпочтениях, и движимые ими действия могут быть рациональными, даже не являясь в полной мере преднамеренными. В других случаях эмоциональная реакция ведет к действиям, которые даже глупые люди оценивают как не особенно рациональные — разумеется, задним числом. Например, рассерженная Гарриет, в сердцах шлепнувшая заупрямившуюся 10-летнюю Алису, может сразу же пожалеть об этом поступке. Робби, наблюдающий это действие, должен бы (обычно, хотя не всегда) объяснить его злостью и разочарованием, а также недостатком самоконтроля, а не осознанным садизмом ради садизма. Чтобы эта схема работала, Робби должен иметь некоторое понимание эмоциональных состояний человека, включая их причины, развитие во времени в ответ на внешние раздражители и их влияние на действие. Специалисты по нейробиологии начинают постигать принципы некоторых эмоциональных состояний и их связь с другими когнитивными процессами [314], и существует ряд полезных работ по вычислительным методам обнаружения и прогнозирования эмоциональных состояний человека и управления ими [315], но предстоит узнать намного больше. Опять-таки машины находятся в неблагоприятном положении, когда речь идет об эмоциях: они не могут выполнить внутреннее моделирование опыта, чтобы узнать, какое эмоциональное состояние он вызовет.
Эмоции не только влияют на наши действия, но и дают ценную информацию о глубинных предпочтениях. Например, маленькая Алиса отказывается делать уроки, и Гарриет рассержена и разочарована, потому что искренне хочет, чтобы Алиса хорошо училась и смогла устроиться в жизни лучше ее самой. Если Робби наделен способностью это понять — пусть не может испытать это сам, — он очень многое узнает из далеко не рациональных действий Гарриет. Следовательно, появится возможность создать рудиментарные модели эмоциональных состояний человека, достаточные для того, чтобы избегать самых грубых ошибок в суждении о человеческих предпочтениях, исходя из поведения.
Действительно ли у людей есть предпочтения?
Вся эта книга исходит из того, что существуют варианты будущего, которые нам понравились бы, и варианты, которых мы предпочли бы избежать, скажем, наше скорое исчезновение или превращение в фермы живых батареек, как в фильме «Матрица». В этом смысле люди, разумеется, имеют предпочтения. Однако, если погрузиться в детали того, какой люди желали бы видеть свою жизнь, ситуация осложняется.
Очевидной особенностью людей, если подумать, является то, что они не всегда знают, чего хотят. К примеру, фрукт дуриан вызывает у людей разную реакцию: одним кажется, что он «по вкусу превосходит все остальные фрукты в мире» [316], а другие сравнивают его с «нечистотами, застарелой рвотой, струей скунса и использованными хирургическими тампонами» [317]. Я сознательно не стал пробовать дуриан до выхода этой книги и могу занять нейтральную позицию по этому вопросу: я попросту не знаю, к какому лагерю примкнул бы. То же самое можно сказать о многих людях в отношении будущей карьеры, будущих партнеров, будущих занятий по выходе на пенсию и т. д.
Неопределенность в отношении предпочтений бывает как минимум двух типов. Первая — это реальная неопределенность вроде той, что испытываю я в вопросе о дуриане [318]. Сколько ни размышляй, эту неопределенность не устранить. Это эмпирический факт бытия, и я могу узнать больше, попробовав дуриан, сравнив свою ДНК с ДНК любителей и ненавистников дуриана и т. д. Неопределенность второго типа является следствием ограничения вычислительных возможностей: глядя на две позиции на доске для игры го, я не могу решить, какую предпочесть, поскольку варианты развития обеих совершенно недоступны моему пониманию.
Неопределенность также возникает из того факта, что варианты выбора, которые нам предлагаются, обычно неполно сформулированы — иногда настолько неполно, что их вообще с трудом можно назвать вариантами выбора. Когда Алиса оканчивает школу, консультант по профориентации может предложить ей выбор между «библиотекарем» и «шахтером», и она вполне разумно ответит: «Я не знаю, что предпочесть». Здесь неопределенность следует из реальной неопределенности в вопросе о том, что она сама предпочитает, угольную пыль или книжную, из вычислительной неопределенности, когда она пытается понять, как можно было бы извлечь максимум возможного из обоих вариантов профессиональной карьеры, а также из бытовой неопределенности в мире, скажем, ее сомнений в плане долгосрочной жизнеспособности местной угольной шахты.
Поэтому плохая идея отождествлять человеческие предпочтения с простым выбором между неполно описанными вариантами, в которых невозможно оценить и учесть элементы неизвестной желательности. Такой выбор дает косвенное свидетельство о глубинных предпочтениях, но не составляет эти предпочтения. Вот почему я говорил о предпочтениях в понятиях будущих жизней — например, представьте, что вы могли бы увидеть в сокращенном виде два разных фильма о вашей будущей жизни, а затем выбрать из них предпочтительный. Разумеется, этот мысленный эксперимент невозможно поставить в реальности, но можно представить, что во многих случаях четкое предпочтение сформируется задолго до того, как все детали каждого фильма будут показаны и полностью восприняты. Вы можете не знать заранее, какой из них предпочтете, даже если дать вам краткое изложение сюжетов, но на реальный вопрос имеется ответ, основывающийся на том, кто вы сейчас, как есть ответ на вопрос, понравится ли вам дуриан, когда вы его попробуете.
Тот факт, что вы можете пребывать в неопределенности о собственных предпочтениях, не вызывает особых проблем для подхода на основе предпочтений к созданию доказуемо полезного ИИ. В действительности уже существуют некоторые алгоритмы, учитывающие неопределенность как Робби, так и Гарриет, в отношении предпочтений Гарриет и допускающие возможность того, что Гарриет может узнавать о своих предпочтениях одновременно с Робби [319]. Как неуверенность Робби в смысле предпочтений Гарриет можно уменьшить путем наблюдения за поведением Гарриет, так и ее неопределенность в отношении собственных предпочтений можно уменьшить, наблюдая ее реакции на то, что она испытывает. Два типа неопределенности необязательно должны быть непосредственно связаны, и Робби необязательно испытывает большую неопределенность, чем Гарриет, в вопросе о ее предпочтениях. Например, Робби может быть способен обнаружить, что Гарриет имеет сильную генетическую предрасположенность к тому, чтобы отвергнуть вкус дуриана. В этом случае он вряд ли будет сомневаться в ее предпочтениях в отношении дуриана, несмотря на то что сама она пребывает в полном неведении.
Читать дальшеИнтервал:
Закладка: