Ник Бостром - Искусственный интеллект
- Название:Искусственный интеллект
- Автор:
- Жанр:
- Издательство:Манн, Иванов и Фербер
- Год:2015
- ISBN:9785000578100
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Ник Бостром - Искусственный интеллект краткое содержание
Искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
Рассмотрим другое развитие событий: например, критический рубеж преодолеют сразу несколько агентов, имеющих относительно одинаковый уровень потенциала, в силу чего может возникнуть новый многополярный мир. Что произойдет в этом случае? Допустим, речь не идет о медленном взлете. Тогда, чтобы достичь власти и сохранить разумное соотношение сил, от всех лидирующих агентов потребуется тщательно согласовать программы, время и динамику действий, то есть совместными усилиями не дать вырваться вперед ни одному игроку и совершить абсолютно скоординированный взлет9. Предположим, в результате сформируется многополярная модель, но даже при таком варианте социальную интеграцию нельзя считать идеальным выходом. Если положиться на нее как на метод решения проблемы контроля, основные риски все равно могут перевесить потенциальный эффект. Хотя принцип равновесия сил предотвращает захват власти над миром каким-то одним ИИ, у него все же хватит власти, чтобы влиять на судьбу человечества, и если эта власть окажется направленной на достижение произвольных конечных целей — скажем, производство максимального количества скрепок, — это, вероятно, будет не в интересах принципала. Вернемся к нашему миллиардеру, основавшему благотворительный фонд, и теперь представим, что он формулирует его основное предназначение с помощью генератора случайных слов — вряд ли это поставит под угрозу существование человеческого вида, но точно будет свидетельствовать об упущенной возможности.
Близкая по духу и в то же время существенно отличающаяся от предыдущей идея состоит в том, что ИИ, свободно взаимодействуя с человеческим обществом, приобретет новые, дружественные для всей земной цивилизации конечные цели. На нас, людей, подобный процесс социализации, как правило, оказывает положительное влияние. Общаясь друг с другом, мы легче постигаем чуждые нам нормы жизни и непонятные мировоззренческие идеалы, начинаем больше ценить других людей. Но этот фактор не является универсальным для любой действующей разумной силы. Мы не раз говорили, что в разных ситуациях у многих агентов будут возникать конвергентные инструментальные причины ни в коем случае не допустить изменения своих конечных целей. (Можно попытаться разработать целую систему целеполагания, которая позволяла бы ИИ устанавливать конечные цели таким же образом, как это делают люди, но данная проблема не относится к методам контроля над возможностями. Некоторые способы обретения ценностей мы рассмотрим в главе двенадцатой.)
Контроль над возможностями сверхразума за счет социальной интеграции и установления равновесия сторон основан на разных общественных силах, которые как вознаграждают, так и осуждают ИИ. Следующим стимулирующим методом является создание таких условий, при которых вознаграждение и наказание ИИ осуществляется в рамках самого проекта, в результате чего стимулируются его действия в интересах принципала. Чтобы этого добиться, ИИ нужно поместить в контекстную среду, позволяющую непрерывно наблюдать за его поведением и оценивать его и в ручном, и автоматическом режиме. Такой ИИ должен знать, что положительная оценка будет означать получение вознаграждения, а отрицательная — невозможность такового. Теоретически в качестве вознаграждения можно рассмотреть достижение какой-либо конвергентной инструментальной цели. Однако без знания специфики мотивационной системы конкретного ИИ настроить механизм вознаграждения довольно трудно. Например, наш ИИ готов был бы рискнуть практически всем ради небольшого шанса обеспечить себе контроль над значительной частью Вселенной. В таком случае, видимо, будет слишком расточительно предлагать ИИ в качестве вознаграждения за сотрудничество более высокую ожидаемую полезность, чем ту, которую он надеется получить, отказавшись сотрудничать и попытавшись сбежать10.
Лучшей альтернативой стало бы объединение этого стимулирующего метода с модами выбора мотивации — тогда появилась бы возможность наделить ИИ конечной целью, которую было бы намного проще брать под контроль. Допустим, какой-то ИИ разработан таким образом, что его конечная цель — не допустить нажатия красной кнопки в гипотетическом командном бункере. Поскольку этот акт имеет негативное значение, присущее ему по умолчанию, а не вызванное его возможными последствиями, кнопка может быть нерабочей и даже сделанной из пластилина. Более того, даже несущественно, узнает ли ИИ, была ли хоть когда-нибудь эта кнопка нажата. Важно другое: ИИ верит, что кнопка с большей вероятностью окажется ненажатой, если он будет действовать в интересах принципала, нежели если восстанет против него.
Условия можно уточнить. Вместо того чтобы наделять ИИ конечной целью, привязанной к конкретной кнопке, создадим ИИ, конечной целью которого станет получение потока неких зашифрованных наградных знаков11. Это могут быть последовательности цифр, служащие ключами к шифрам, созданным до разработки ИИ и встроенным в его систему мотивации12. Такие цифровые последовательности должны быть чрезвычайно желанными для ИИ и представлять собой награду, которую ИИ неспособен получить вследствие прямого стимулирования13. Ключи должны храниться в безопасном месте, где было бы удобнее их быстро уничтожить в случае попытки ИИ завладеть ими. Однако пока ИИ проявляет готовность сотрудничать, их нужно выдавать ему на регулярной основе.
Затем ИИ можно было бы наделить ограниченной функцией полезности, например, чтобы ИИ получал 99 процентов максимально доступной ему полезности, получив первый наградной знак; 99 процентов оставшегося потенциала полезности — второй и так далее. Сохраняя высокую «ставку дисконтирования» и передавая ИИ наградные знаки по сравнительно высокой цене, можно было бы предотвратить попытки ИИ разработать долгосрочный план, повышающий ожидаемое количество наградных знаков в будущем ценой некоторого риска, что его поток наград скоро закончится или что следующий наградной знак будет отменен и ликвидирован. Если ИИ поверит, что его ошибка (то есть любые действия не в интересах принципала) несет минимум двухпроцентный риск лишения следующего наградного знака, в то время как сотрудничество снизит риск лишения жетона до уровня меньше чем один процент, тогда максимизирующий полезность ИИ всегда будет готов к сотрудничеству.
Что могло бы пойти не так в этой схеме стимулирования? Есть вероятность, что ИИ не поверит в готовность оператора-человека предоставить ему обещанную награду. Кривая надежности человека как партнера несколько отличается от прямой линии идеального совершенства. ИИ может вполне обоснованно решить, что оператор способен передумать, повысить планку или отказаться признать, что ИИ выполнил свою часть работы. Кроме того, ИИ может беспокоить, что оператор по той или иной причине покинет свое рабочее место. Совокупный риск этих неудач может превысить риск, связанный с попыткой захватить контроль над механизмом вознаграждения. Наделенный сверхмощью ИИ, даже находясь в заблокированном состоянии, представляет собой грозного соперника. (Для ИИ, не помещенного в «песочницу», взломать управляемый человеком механизм вознаграждения — все равно что конфету у ребенка отобрать.)
Читать дальшеИнтервал:
Закладка: