Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект
- Название:Совместимость. Как контролировать искусственный интеллект
- Автор:
- Жанр:
- Издательство:Альпина нон-фикшн
- Год:2021
- Город:Москва
- ISBN:978-5-0013-9370-2
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Стюарт Рассел - Совместимость. Как контролировать искусственный интеллект краткое содержание
В своей новаторской книге автор рассказывает, каким образом люди уже научились использовать ИИ, в диапазоне от смертельного автономного оружия до манипуляций нашими предпочтениями, и чему еще смогут его научить. Если это случится и появится сверхчеловеческий ИИ, мы столкнемся с сущностью, намного более могущественной, чем мы сами. Как гарантировать, что человек не окажется в подчинении у сверхинтеллекта?
Для этого, полагает Рассел, искусственный интеллект должен строиться на новых принципах. Машины должны быть скромными и альтруистичными и решать наши задачи, а не свои собственные.
О том, что это за принципы и как их реализовать, читатель узнает из этой книги, которую самые авторитетные издания в мире назвали главной книгой об искусственном интеллекте.
Все, что может предложить цивилизация, является продуктом нашего интеллекта; обретение доступа к существенно превосходящим интеллектуальным возможностям стало бы величайшим событием в истории. Цель этой книги — объяснить, почему оно может стать последним событием цивилизации и как нам исключить такой исход.
Введение понятия полезности — невидимого свойства — для объяснения человеческого поведения посредством математической теории было потрясающим для своего времени. Тем более что, в отличие от денежных сумм, ценность разных ставок и призов с точки зрения полезности недоступна для прямого наблюдения.
Первыми, кто действительно выиграет от появления роботов в доме, станут престарелые и немощные, которым полезный робот может обеспечить определенную степень независимости, недостижимую иными средствами. Даже если робот выполняет ограниченный круг заданий и имеет лишь зачаточное понимание происходящего, он может быть очень полезным.
Очевидно, действия лояльных машин должны будут ограничиваться правилами и запретами, как действия людей ограничиваются законами и социальными нормами. Некоторые специалисты предлагают в качестве решения безусловную ответственность.
Совместимость. Как контролировать искусственный интеллект - читать онлайн бесплатно ознакомительный отрывок
Интервал:
Закладка:
267
Робби мог бы, например, иметь нормальное (Гауссово) распределение для своего исходного убеждения относительно обменного курса в интервале от −∞ до +∞.
268
Пример математического анализа, который может потребоваться, см. в статье: Avrim Blum, Lisa Hellerstein, and Nick Littlestone, «Learning in the presence of finitely or infinitely many irrelevant attributes», Journal of Computer and System Sciences 50 (1995): 32–40. См. также: Lori Dalton, «Optimal Bayesian feature selection», in Proceedings of the 2013 IEEE Global Conference on Signal and Information Processing , ed. Charles Bouman, Robert Nowak, and Anna Scaglione (IEEE, 2013).
269
Здесь я немного перефразирую вопрос, поставленный Моше Варди на Асиломарской конференции по полезному ИИ в 2017 г.
270
Michael Wellman and Jon Doyle, «Preferential semantics for goals», in Proceedings of the 9th National Conference on Artificial Intelligence (AAAI Press, 1991). Эта статья основана на значительно более раннем предложении Георга фон Райта: Georg von Wright, «The logic of preference reconsidered», Theory and Decision 3 (1972): 140–67.
271
Мой покойный коллега из Беркли заслужил честь стать именем прилагательным. См.: Paul Grice, Studies in the Way of Words (Harvard University Press, 1989).
272
Первая статья о прямой стимуляции центров удовольствия в головном мозге: James Olds and Peter Milner, «Positive reinforcement produced by electrical stimulation of septal area and other regions of rat brain», Journal of Comparative and Physiological Psychology 47 (1954): 419–27.
273
Эксперимент, в котором крысам позволили нажимать на кнопку: James Olds, «Self-stimulation of the brain; its use to study local effects of hunger, sex, and drugs», Science 127 (1958): 315–24.
274
Эксперимент, в котором людям позволили нажимать на кнопку: Robert Heath, «Electrical self-stimulation of the brain in man», American Journal of Psychiatry 120 (1963): 571–77.
275
Первое математическое объяснение токовой стимуляции, показывающее, как она происходит у агентов при обучении с подкреплением: Mark Ring and Laurent Orseau, «Delusion, survival, and intelligent agents», in Artificial General Intelligence: 4th International Conference , ed. Jürgen Schmidhuber, Kristinn Thórisson, and Moshe Looks (Springer, 2011).
276
Возможность безопасного осуществления взрывоподобного роста интеллекта: Benja Fallenstein and Nate Soares, «Vingean reflection: Reliable reasoning for self-improving agents», technical report 2015–2, Machine Intelligence Research Institute, 2015.
277
Трудность, с которой сталкиваются агенты, рассуждая о себе и своих преемниках: Benja Fallenstein and Nate Soares, «Problems of self-reference in self-improving space-time embedded intelligence», in Artificial General Intelligence: 7th International Conference , ed. Ben Goertzel, Laurent Orseau, and Javier Snaider (Springer, 2014).
278
Демонстрация того, почему агент может преследовать цель, отличающуюся от его истинной цели, если его вычислительные возможности ограниченны: Jonathan Sorg, Satinder Singh, and Richard Lewis, «Internal rewards mitigate agent boundedness», in Proceedings of the 27th International Conference on Machine Learning , ed. Johannes Fürnkranz and Thorsten Joachims (2010), icml.cc/Conferences/2010/papers/icml2010proceedings.zip.
279
Высказывается мнение, что биология и нейробиология также имеют непосредственное отношение к этому вопросу. См., например: Gopal Sarma, Adam Safron, and Nick Hay, «Integrative biological simulation, neuropsychology, and AI safety», arxiv.org/abs/1811.03493(2018).
280
О возможности возлагать на компьютеры ответственность за причиненный вред: Paulius Čerka, Jurgita Grigienė, and Gintarė Sirbikytė, «Liability for damages caused by artificial intelligence», Computer Law and Security Review 31 (2015): 376–89.
281
Блестящее введение в общепринятые этические теории и их следствия для разработки ИИ-систем: Wendell Wallach and Colin Allen, Moral Machines: Teaching Robots Right from Wrong (Oxford University Press, 2008).
282
Первоисточник утилитаризма: Jeremy Bentham, An Introduction to the Principles of Morals and Legislation (T. Payne & Son, 1789).
283
Развитие Миллем идей его наставника Бентама оказало громадное влияние на либеральную мысль: John Stuart Mill, Utilitarianism (Parker, Son & Bourn, 1863).
284
Статья, вводящая понятия утилитаризма предпочтений и автономии предпочтений: John Harsanyi, «Morality and the theory of rational behavior», Social Research 44 (1977): 623–56.
285
Аргумент в пользу общественного агрегирования посредством взвешенных сумм полезностей при принятии решения от имени многочисленных индивидов: John Harsanyi, «Cardinal welfare, individualistic ethics, and interpersonal comparisons of utility», Journal of Political Economy 63 (1955): 309–21.
286
Распространение теоремы общественного агрегирования Харсаньи на случай неравной априорной уверенности: Andrew Critch, Nishant Desai, and Stuart Russell, «Negotiable reinforcement learning for Pareto optimal sequential decision-making», in Advances in Neural Information Processing Systems 31, ed. Samy Bengio et al. (2018).
287
Источник идеалистического утилитаризма: G. E. Moore, Ethics (Williams & Norgate, 1912).
288
Новостная статья, цитирующая приводимый Стюартом Армстронгом выразительный пример неверно ориентированной максимизации полезности: Chris Matyszczyk, «Professor warns robots could keep us in coffins on heroin drips», CNET , June 29, 2015.
289
Теория негативного утилитаризма (название позже предложено Смартом) Поппера: Karl Popper, The Open Society and Its Enemies (Routledge, 1945).
290
Опровержение негативного утилитаризма: R. Ninian Smart, «Negative utilitarianism», Mind 67 (1958): 542–43.
291
Типичный аргумент о рисках, обусловленных командой «покончить с человеческими страданиями», см. в работе: «Why do we think AI will destroy us?», Reddit, reddit.com/r/Futurology/comments/38fp6o/why_do_we_think_ai_will_destroy_us.
292
Хороший источник по стимулам-самообманам для ИИ: Ring and Orseau, «Delusion, survival, and intelligent agents».
293
О невозможности межличностного сравнения полезностей: W. Stanley Jevons, The Theory of Political Economy (Macmillan, 1871).
294
Монстр полезности появляется в кн.: Robert Nozick, Anarchy, State, and Utopia (Basic Books, 1974).
295
Например, мы можем установить полезность немедленной смерти равной 0, а максимально счастливой жизни — 1. См.: John Isbell, «Absolute games», in Contributions to the Theory of Games , vol. 4, ed. Albert Tucker and R. Duncan Luce (Princeton University Press, 1959).
296
Сверхупрощенный подход Таноса, проявившийся в политике уполовинивания населения, рассматривается в статье: Tim Harford, «Thanos shows us how not to be an economist», Financial Times , April 20, 2019. Еще до премьеры фильма защитники Таноса стали собираться на подфоруме r/thanosdidnothingwrong/. В соответствии с девизом подфорума, 350 000 из 700 000 его участников впоследствии были удалены.
297
О полезности для популяций разных размеров: Henry Sidgwick, The Methods of Ethics (Macmillan, 1874).
298
Отталкивающий вывод и другие запутанные проблемы утилитаристской мысли: Derek Parfit, Reasons and Persons (Oxford University Press, 1984).
299
Краткий обзор аксиоматических подходов к популяционной этике: Peter Eckersley, «Impossibility and uncertainty theorems in AI value alignment», in Proceedings of the AAAI Workshop on Artificial Intelligence Safety , ed. Huáscar Espinoza et al. (2019).
300
Расчеты долгосрочной экологической емкости Земли: Daniel O’Neill et al., «A good life for all within planetary boundaries», Nature Sustainability 1 (2018): 88–95.
301
Приложения нравственной неопределенности к популяционной этике: Hilary Greaves and Toby Ord, «Moral uncertainty about population axiology», Journal of Ethics and Social Philosophy 12 (2017): 135–67. Более полный анализ: Will MacAskill, Krister Bykvist, and Toby Ord, Moral Uncertainty (Oxford University Press, forthcoming).
Читать дальшеИнтервал:
Закладка: