Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект

Тут можно читать онлайн Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект - бесплатно ознакомительный отрывок. Жанр: Прочая околокомпьтерная литература, издательство Альпина нон-фикшн, год 2021. Здесь Вы можете читать ознакомительный отрывок из книги онлайн без регистрации и SMS на сайте лучшей интернет библиотеки ЛибКинг или прочесть краткое содержание (суть), предисловие и аннотацию. Так же сможете купить и скачать торрент в электронном формате fb2, найти и слушать аудиокнигу на русском языке или узнать сколько частей в серии и всего страниц в публикации. Читателям доступно смотреть обложку, картинки, описание и отзывы (комментарии) о произведении.

Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект краткое содержание

Совместимость. Как контролировать искусственный интеллект - описание и краткое содержание, автор Стюарт Рассел, читайте бесплатно онлайн на сайте электронной библиотеки LibKing.Ru
В массовом сознании сверхчеловеческий искусственный интеллект — технологическое цунами, угрожающее не только экономике и человеческим отношениям, но и самой цивилизации. Конфликт между людьми и машинами видится неотвратимым, а его исход предопределенным. Выдающийся исследователь ИИ Стюарт Рассел утверждает, что этого сценария можно избежать.
В своей новаторской книге автор рассказывает, каким образом люди уже научились использовать ИИ, в диапазоне от смертельного автономного оружия до манипуляций нашими предпочтениями, и чему еще смогут его научить. Если это случится и появится сверхчеловеческий ИИ, мы столкнемся с сущностью, намного более могущественной, чем мы сами. Как гарантировать, что человек не окажется в подчинении у сверхинтеллекта?
Для этого, полагает Рассел, искусственный интеллект должен строиться на новых принципах. Машины должны быть скромными и альтруистичными и решать наши задачи, а не свои собственные.
О том, что это за принципы и как их реализовать, читатель узнает из этой книги, которую самые авторитетные издания в мире назвали главной книгой об искусственном интеллекте.
Все, что может предложить цивилизация, является продуктом нашего интеллекта; обретение доступа к существенно превосходящим интеллектуальным возможностям стало бы величайшим событием в истории. Цель этой книги — объяснить, почему оно может стать последним событием цивилизации и как нам исключить такой исход.
Введение понятия полезности — невидимого свойства — для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения.
Первыми, кто действительно выиграет от появления роботов в доме, станут престарелые и немощные, которым полезный робот может обеспечить определенную степень независимости, недостижимую иными средствами. Даже если робот выполняет ограниченный круг заданий и имеет лишь зачаточное понимание происходящего, он может быть очень полезным.
Очевидно, действия лояльных машин должны будут ограничиваться правилами и запретами, как действия людей ограничиваются законами и социальными нормами. Некоторые специалисты предлагают в качестве решения безусловную ответственность.

Совместимость. Как контролировать искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок

Совместимость. Как контролировать искусственный интеллект - читать книгу онлайн бесплатно (ознакомительный отрывок), автор Стюарт Рассел
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Давайте рассмотрим своеобразную теорему, которую в дальнейшем захотим доказать, — о машинах, полезных для людей. Вот один из возможных вариантов:

Предположим, машина имеет компоненты А, В и С , соединенные друг с другом таким-то образом и в определенной среде, а также внутренние алгоритмы обучения lA, lB, lC , оптимизирующие вознаграждение с внутренней обратной связью rA, rB, rC , определяемые таким-то образом, и [еще несколько условий] … тогда с очень высокой вероятностью поведение машины будет очень близко в смысле полезности (для людей) к наилучшему возможному поведению, реализуемому в любой машине с теми же вычислительными и физическими возможностями.

Суть в том, чтобы такая теорема выполнялась независимо от того, насколько умными стали компоненты, — то есть судно никогда не дало бы течь и машина всегда оставалась бы полезной для людей.

Имеет смысл отметить еще три момента в отношении теорем этого типа. Во-первых, нечего и пытаться доказать, что машина ведет себя оптимально (или хотя бы близким к оптимальному образом) по отношению к нам, потому что это почти наверняка невозможно сделать путем вычислений. Например, мы можем захотеть, чтобы машина безупречно играла в го, но есть все основания полагать, что это не может быть сделано за любой разумный промежуток времени в любой физически реализуемой машине. Поэтому в теореме говорится о «наилучшем возможном», а не «оптимальном» поведении.

Во-вторых, мы говорим «с очень высокой вероятностью…очень близко», потому что это обычно лучшее, чего можно добиться от обучающейся машины. Скажем, если машина учится играть в рулетку в наших интересах и 40 раз подряд выпадает зеро, машина может обоснованно заключить, что имеет место жульничество, и делать соответствующие ставки. Однако это все-таки может быть и случайностью, таким образом, всегда есть малая, возможно, исчезающе малая, вероятность заблуждения из-за дурацкого совпадения. Наконец, нам еще очень далеко до способности доказать подобную теорему для реальных интеллектуальных машин, действующих в реальном мире!

В сфере ИИ есть и аналог атаки по сторонним каналам. Например, теорема начинается с фразы: «Предположим, машина имеет компоненты А, В и С , соединенные друг с другом таким-то образом…» Это типично для всех теорем о корректности в программировании: они начинаются с описания программы, корректность которой доказывается. В сфере ИИ мы обычно проводим различие между агентом (программой, принимающей решения) и средой (в которой действует агент). Поскольку мы разрабатываем агента, представляется разумным предположить, что он имеет ту структуру, которую мы ему придаем. Для дополнительной безопасности мы можем доказать, что процесс обучения в состоянии изменить эту программу лишь определенными описанными методами, не способными привести к проблемам. Достаточно ли этого? Нет. Как и в случае атаки по сторонним каналам, допущение, что программа действует внутри цифровой системы, некорректно. Даже если алгоритм обучения в силу своей структуры не способен переписать собственный код цифровыми средствами, он тем не менее может научиться тому, как убедить людей сделать ему «операцию на мозге», — нарушить разграничение между агентом и средой и изменить код физическими средствами [252] Статья Института изучения машинного интеллекта поднимает много связанных вопросов: Scott Garrabrant and Abram Demski, «Embedded agency», AI Alignment Forum , November 15, 2018. .

В отличие от логики строительного конструирования с ее жесткими балками, мы имеем очень мало опыта работы с допущениями, которые впоследствии лягут в основу теорем о доказуемо полезном ИИ. Скажем, в этой главе мы будем обычно иметь в виду рационального человека. Это несколько отличается от допущения о жесткой балке, поскольку в реальности совершенно рациональных людей не существует. (Вероятно, ситуация намного хуже, так как люди даже не приближаются к рациональности.) Теоремы, которые мы можем доказать, обещают дать нам определенное понимание, которое выдержит даже включение некоторой степени случайности человеческого поведения, но до сих далеко не ясно, что происходит, если учитывать сложность реальных людей.

Таким образом, мы должны быть очень внимательными при анализе своих допущений. Успешно доказав безопасность системы, мы должны убедиться, что успех не стал следствием нереалистично сильных предположений или слишком расплывчатого определения безопасности. Если доказательство безопасности оказывается несостоятельным, нужно избегать искушения усилить предположения, чтобы доказательство заработало, — например, добавив допущение, что программный код остается неизменным. Наоборот, мы должны «закрутить все гайки» в дизайне ИИ-системы, к примеру гарантировав, что у нее нет стимула для изменения критических элементов своего кода.

Некоторые допущения я отношу к категории НТММРПД (аббревиатура от «ну тогда мы можем расходиться по домам»), а именно — если эти допущения ложны, то игра закончена и сделать ничего нельзя. Например, разумно предположить, что Вселенная функционирует согласно постоянным и до некоторой степени выявляемым законам. Если это не так, у нас нет гарантии, что процессы обучения — даже самые изощренные — вообще сработают. Другое базовое допущение состоит в том, что людям не все равно, что происходит; в ином случае доказуемо полезный ИИ не имеет смысла, ведь само понятие пользы бессмысленно. Здесь « не все равно» означает наличие более или менее последовательных и устойчивых предпочтений в отношении будущего. В следующей главе я рассматриваю следствия пластичности человеческих предпочтений, представляющей серьезный философский вызов для самой идеи доказуемо полезного ИИ.

Пока что я сосредоточиваюсь на простейшем случае — мире, где есть один человек и один робот. Этот случай позволяет представить основные идеи, но полезен и сам по себе: представьте, что один человек представляет все человечество, а один робот — все машины. При рассмотрении множества людей и множества машин возникают дополнительные сложности.

Изучение предпочтений по поведению

Экономисты судят о предпочтениях людей, предлагая им сделать выбор [253] Классическая работа по теории многомерной полезности: Ralph Keeney and Howard Raiffa, Decisions with Multiple Objectives: Preferences and Value Tradeoffs (Wiley, 1976). . Этот прием широко используется в разработке продуктов, маркетинге и интерактивных системах электронной торговли. Например, предложив испытуемым на выбор автомобили, отличающиеся цветом, расположением мест, величиной багажника, емкостью батареи, наличием держателей для чашек и т. д., конструктор автомашин узнает, насколько важны для людей различные характеристики машины и сколько они готовы за них заплатить. Другое важное применение этот метод находит в медицине: онколог, рассматривающий возможность ампутации конечности, может захотеть знать, что важнее для пациента — мобильность или ожидаемая продолжительность жизни. Разумеется, пиццерии хотят знать, насколько больше человек готовы заплатить за пиццу с колбасой по сравнению с простой пиццей.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать


Стюарт Рассел читать все книги автора по порядку

Стюарт Рассел - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки LibKing.




Совместимость. Как контролировать искусственный интеллект отзывы


Отзывы читателей о книге Совместимость. Как контролировать искусственный интеллект, автор: Стюарт Рассел. Читайте комментарии и мнения людей о произведении.


Понравилась книга? Поделитесь впечатлениями - оставьте Ваш отзыв или расскажите друзьям

Напишите свой комментарий
x