Искусственный интеллект
- Название:Искусственный интеллект
- Автор:
- Жанр:
- Издательство:ИИнтелл
- Год:2006
- ISBN:нет данных
- Рейтинг:
- Избранное:Добавить в избранное
-
Отзывы:
-
Ваша оценка:
Искусственный интеллект краткое содержание
Авторы статей - философы, психологи, специалисты в области компьютерных наук, логики, математики, биологии, нейрофизиологии, лингвистики.
Искусственный интеллект - читать онлайн бесплатно полную версию (весь текст целиком)
Интервал:
Закладка:
В России исследования АП пока ведутся скромными усилиями ученых-энтузиастов, среди этих работ следует отметить:
• модели поискового адаптивного поведения на основе спонтанной активности [11,12,32] (В.А. Непомнящих, Институт биологии внутренних вод им. И.Д. Папанина РАН);
• концепции и модели автономного адаптивного управления на основе аппарата эмоций [33] (А.А. Жданов, Инстшут системного программирования РАН);
• разработку принципов построения систем управления антропоморфных и гуманоидных роботов [34] (Л.А. Станкевич, Санкт-Петербургский политехнический университет);
• разработку нейросетевых моделей поведения роботов и робототехнических устройств [35] (А.А. Самарин, НИИ нейрокибернетики им. А.Б. Когана РТУ);
• модели АП на основе эволюционных и нейросетевых методов, в частности, модели эволюционного возникновения целенаправленного адаптивного поведения [36-38] (В.Г. Редько, М.С. Бурцев, О.П. Моса-лов, Институт оптико-нейронных технологий РАН, Институт прикладной математики им. М.В. Келдыша РАН).
2.3. Проект «Мозг Анимата» [39]
Анализ исследований в рамках анимат-подхода показывает, что разработанные модели пока еще очень фрагментарны и иллюстрируют только отдельные стороны адаптивного поведения. Поэтому было бы целесообразно предложить общую «платформу» для систематического построения моделей адаптивного поведения. В работах [39,40] предложен проект «Мозг Анимата», который нацелен на формирование общей схемы построения таких моделей. Проект основан на теории функциональных систем П.К. Анохина [41]. Кратко опишем данный проект, следуя [39], где предложена архитектура системы управления аниматом, основанная на нейросетевых адаптивных критиках. Нейро-сетевые адаптивные критики - схемы автономного адаптивного управления, основанные на методе обучения с подкреплением [22].
Предполагается, что система управления аниматом имеет иерархическую архитектуру. Базовым элементом системы управления является отдельная функциональная система (ФС). Верхний уровень соответствует основным потребностям организма: питания, размножения, безопасности, накопления знаний. Более низкие уровни соответствуют тактическим целям поведения. Блоки всех этих уровней реализуются с помощью ФС. Управление с верхних уровней может передаваться на нижние уровни (от «суперсистем» к «субсистемам») и возвращаться назад. Предполагается, что система управления аниматом функционирует в дискретном времени t= 1, 2, ..., и в каждый такт времени активна только одна ФС.
Предполагается простая формализация ФС на основе адаптивных критиков. Формальная ФС моделирует следующие важные особенности ее биологического прототипа: а) прогноз результата действия, б) сравнение прогноза и результата, и в) коррекцию прогноза путем обучения в соответствующих нейронных сетях.
Схема адаптивного критика. Рассматриваемая схема адаптивного критика состоит из двух нейронных сетей: Модель и Критик. Предполагается, что производные по весам синапсов нейронных сетей могут быть вычислены обычным методом обратного распространения ошибки [42]. Также предполагается, что адаптивный критик предназначен для выбора одного из нескольких действий. Например, при управлении движением действиями могут быть: двигаться вперед, поворачивать вправо, поворачивать влево, стоять на месте. В каждый момент времени t адаптивный критик должен выбрать одно из возможных действий.
Цель адаптивного критика - максимизировать функцию суммарной награды «, U(t):
U{t) = Y Jr Jr{t J) , t = t 0,t ht 2,-,
J =о
где r(tj) - текущее подкрепление (награда r(l.j) > 0, или наказание r(tj) < 0), полученное адаптивным критиком в данный момент времени tj , у - коэффициент забывания, 0 < у < 1. т = t J+\ - tj - шаг по времени. Коэффициент забывания учитывает, что чем дальше анимат «заглядывает» в будущее, тем меньше у него уверенность в оценке награды («рубль сегодня стоит больше, чем рубль завтра»).
Модель имеет два типа входов: 1) входы, характеризующие текущую ситуацию S(0 (сигналы из внешней и внутренней среды анимата), и 2) входы, характеризующие действия. Предполагается, что число возможных действий п а невелико. Роль Модели - прогноз следующей ситуации S p',(? г) для всех возможных действий о,, /—1,2,..., Па-
РоЛЬ Критика - оценка качества ситуаций F(S), в частности, прогнозируемых ситуаций S p',(t I т) для всех возможных действий. Величина F(S) есть оценка аниматом функции суммарной награды U(t), которую можно получить в будущем, исходя из данной ситуации S. Эта оценка постепенно уточняется в процессе обучения.
При выборе действия применяется е -жадное правило [22]:
- с вероятностью 1 - £ выбирается действие с максимальным значением F(S pr,(M-i)):
к = arg max г{ F(S p,',(?+x))},
- с вероятностью s выбирается произвольное действие а к,
О < £ « 1,
к - индекс выбираемого действия.
Применение этого правила означает, что с большой вероятностью выбирается действие, для которого максимальна оценка суммарной награды U(i). ожидаемой в будущем.
Обучение Модели проводится обычным методом обратного распространения ошибки [42]. Смысл обучения Модели -уточнение прогнозов будущих ситуаций.
Обучение Критика проводится методом ошибки временной разности [22]. Смысл обучения Критика состоит в том, чтобы итеративно уточнять оценки качества ситуаций F(S(/)) в соответствии с поступающими подкреплениями г.
Функционирование системы управления аниматом.
Предполагается следующая схема работы ФС в рамках функционирования всей системы управления аниматом. Каждая ФС представляет собой адаптивный критик, имеющий связи с некоторой суперсистемой (системой более высокого уровня иерархии) и, возможно, одной или несколькими субсистемами (системами более низкого уровня иерархии). ФС активизируется командой от суперсистемы; Модель и Критик функционируют так, как описано выше. В результате осуществляется выбор действия а к. Дальнейшее зависит от вида действия а к. Если действие - команда для исполнительных элементов, то такое действие выполняется сразу. Далее анимат получает подкрепление г из внешней или внутренней среды, и производится обучение в нейронных сетях Модели и Критика.
Другой тип действий - команды для субсисгем. Для такого действия подается команда активизации определенной субсистемы (выбор конкретной субсистемы определяется номером действия а к). В этом случае сравнение прогноза и результата, оценка подкрепления г и обучение нейронных сетей откладывается до получения отчета от субсистемы.
После выполнения всех этих действий ФС посылает отчет об окончании своей работы суперсистеме.
Читать дальшеИнтервал:
Закладка: