5.4. Эволюции популмщии автоматов

Развитие искусственного интеллекта характеризуется интеграцией различных подходов, концепций и направлений, что связано с пересмотром места ряда базовых понятий и возвратом в контексте происходящей интеграции к ряду старых идей и моделей. Так, к числу таких идей и методов

относятся эволюционное моделирование, начало которому было фактически положено теорией самовоспроизводящихся автоматов Дж. фон Неймана [140], а также два крупных направления, зародившиеся и активно развивавшиеся еще в 60-х годах в Советском Союзе — теория коллективного поведения автоматов [47, 141, 142], которая актуализируется в связи с развитием работ по распределенному искусственному интеллекту и многоагентным системам [143,144], и семиотическое моделирование, связанное с организацией ситуационного управления в сложных системах [145] и развитием интегрированных интеллектуальных систем. Подобные идеи, модели и подходы, объединяясь с неклассическими математическими подходами, приводят к формированию новых интегральных направлений, как в самом искусственном интеллекте, так и в пограничных областях. Примерами здесь служат «Мягкие вычисления» (Soft Computing), «Машинный или вычислительный интеллект» (Computational Intelligence) и «Искусственная жизнь» (Artificial Life) [146-147].

Естественным фундаментом работ по искусственной жизни служат биологические дисциплины, позволяющие определить основной круг понятий, рассматриваемый в искусственной жизни: самовоспроизведение, эволюция, естественный и искусственный отбор, генетическая связь, морфогенез, онтогенез и филогенез, генотип и фенотип, хромосома, организм, популяция и пр.

В России у истоков исследований научного направления «искусственная жизнь» стояли Н. Амосов [148], В. Глушков [149], А. Колмогоров [150], А. Ляпунов [151], Д. Поспелов [152-154], М. Цетлин [141] и др. Они считали, что сущность жизни определяется не столько свойствами материального субстрата жизни (белковых соединений или структур ДНК), сколько организацией элементов и процессов в целостную систему. Если искусственно созданная организация в существенных чертах эквивалентна организации живого, а функции на выходе этой системы и обычной биологической структуры одинаковы, то такую систему (модель) можно назвать живой. Комбинация большого числа дискретных элементов создает и новые качества.

Одним из наиболее важных математических методов, имеющих отношение к искусственной жизни, является теория автоматов, в первую очередь, теория коллективного поведения автоматов и теория клеточных автоматов.

В основе моделей коллективного поведения, которые рассматривались в 60-х годах М. Цетлиным и его последователями [141], лежало допущение о полном априорном незнании автоматом свойств той среды, в которой он действует. Автомат, в частности, не имел априорной информации о наличии кроме него самого каких-либо других автоматов. А их действия воспринимались им как свойства самой среды (рис. 5.17). Автомат может воспринимать и интерпретировать сигналы, поступающие из среды в определенные моменты времени, и может выдавать в среду формируемые им сигналы. То есть, автомат обладает свойством реактивности. Он способен оценивать сигналы среды как полезные (поощрение за правильно выданный в среду сигнал) или вредные (штраф за неправильно выданный сигнал) с точки зрения достижения своей внутренней цели.

М. Цетлина интересовал вопрос о возможности моделирования устройством (автоматом) минимальной сложности целесообразного поведения в подобной среде. Термин «целесообразное поведение» понимался при этом следующим образом. Пусть на месте автомата А находится датчик равновероятных сигналов, значения которого берутся из некоторого множества М. Когда на вход этого датчика подается очередной сигнал о состоянии среды, датчик реагирует на него выдачей одного сигнала из М. Датчик, таким образом, не использует никак информацию из среды. Если за достаточно большой отрезок «своей жизни» датчик накапливал суммарное значение положительных откликов из среды, равное W*, а некоторый автомат за тот же период накапливал W, то поведение агента естественно считать целесообразным, если W > W*, и нецелесообразным в противном случае.

Как показал М. Цетлин, если среда является вероятностной и стационарной (за действия автомата реакция среды выдается с неизменным для каждого действия распределением), то конечный автомат определенной простой структуры достаточно целесообразно взаимодействует со средой.

В [152] эта модель обсуждается с точки зрения поведения живых существ. Она полностью соответствует процедурам адаптации к неизвестным условиям среды, изучаемым в рамках стимульно-реактивной модели поведения животных и человека. Однако относительно простые автоматы оказались малопригодными в средах, где стационарность отсутствует.

Нас же, с точки зрения эволюционного моделирования, интересует поведение популяции автоматов, обладающих свойством воспроизведения себе подобных. Способность к репликации рассматривается многими исследователями как наиболее характерная особенность жизни [155]. Понимание механизма возникновения репликации в ходе эволюции отождествляется с собственно решением проблемы происхождения жизни. Внимание к явлениям репликации в контексте проблемы происхождения жизни оправдано. Оно действительно играет ключевую роль. Но не потому, что в репликации состоит феномен жизни, а потому, что репликация — необходимый элемент трансформации акта упорядочения на микроскопическом уровне в макроскопическое событие. Репликация реализует итеративный характер биологического упорядочения.

Итак, исследуем вопрос способности коллектива автоматов к саморегулированию по численности с целью оптимизации численности коллектива таким образом, чтобы повысить «уровень жизни» каждого индивида по

средством стремления самого коллектива к рациональному числу особей в популяции по отношению к ресурсам внешней среды.

Концептуальная схема, которая лежит в основе моделирования, следующая:

-    популяция из К автоматов существует в некоторой среде. Каждый из них взаимодействует со средой самостоятельно, не зная не только о действиях других членов популяции, но и об их существовании. Для каждого автомата остальные участники коллектива как бы растворяются в среде, выступают по отношению к данному автомату как часть среды;

-    с другой стороны, популяция выступает как одно целое. Она интерпретируется как многоклеточный организм, который, состоя из большого числа клеток, молекул, казалось бы независимых друг от друга, в то же время выступает как единое целое, объединенное общими целями и задачами. В данном случае уместно употреблять выражение «интеллект роя». В основе поведения популяции лежит гипотеза простоты, высказанная М. Цетли- ным. Суть ее сводится к тому, что любое достаточно сложное поведение слагается из совокупности простых поведенческих актов. Их совместная реализация и простейшее взаимодействие приводит в результате к весьма сложным поведенческим процессам. Клетки человеческого тела, пчелы улья или муравьи муравейника могут выступить в качестве иллюстрирующего примера.

Первый рассматриваемый тип автомата — это автомат с линейной тактикой; пример такого автомата, способного выдавать в среду три различных сигнала, приведен на рисунке (рис. 5.18) [47]. Число лепестков равно числу действий, доступных автомату. В каждом лепестке выделено четыре устойчивых состояния, в которых может находиться автомат. В любом из состояний, образующих лепесток ромашки, устойчиво выдает в среду сигнал действия, приписанного данному лепестку. Смена состояний происходит с учетом сигналов оценок за действия, поступающих от внешней среды. Это — двоичные сигналы: (штраф, приз). Сплошные стрелки показывают,

как происходит изменение состояния автомата при получении им приза, а пунктирные — при получении штрафного сигнала от среды.

В приведенном на рисунке автомате в каждом лепестке — по четыре состояния. Каждый лепесток может содержать не четыре, а любое другое число состояний. Обозначим это число через q. Оно называется глубиной памяти автомата. Выбор этого числа состояний произволен. Смысл этого параметра заключается в следующем. Чем больше q, тем более инерционен автомат, ибо тем большая последовательность штрафов вынуждает его к смене действий.

На рисунке 5.19 приведена схема автомата, предложенного Г. Роббинсом. Он похож на автомат с линейной тактикой, и действует при получении штрафа аналогично автомату с линейной тактикой. Но при получении штрафа его поведение резко отличается от поведения автомата с линейной тактикой. Такой автомат можно назвать «доверчивым» [47].

Эволюция популяции автоматов в стационарной среде не представляет большого интереса, так как в этом случае скорее всего должен существовать стационарный режим, в который и должна прийти популяция. Поэтому рассмотрим нестационарную среду и проведем имитационное моделирование популяции автоматов в этой среде.

Законы изменения параметров внешней среды могут быть различными. Далее для моделирования динамической среды с помощью единственной по следовательно сти, генерирующей случайные числа с равномерным распределением, выбиралась реакция среды в зависимости от того выпавшее число больше или меньше границы, определяющей получение реакции «Приз» или «Штраф». Изменение положения границы определяет изменение вероятностей получения реакции «Приз» или «Штраф», а, следовательно, и динамичность среды.

Отличительной особенностью внешней среды является то, что по сути не требуется ее динамическое изменение в течении прогона имитационной

модели. Стоит задача анализа способности популяции автоматов к саморегулированию (достижение некоторого оптимума) по численности в данных конкретных условиях внешней среды. То есть, мы устанавливаем параметры среды и затем отслеживаем поведение популяции автоматов в данной среде с целью определения их поведения и характера приближения популяции к оптимальной численности. Затем, меняя характеристики среды проводим те же наблюдения, но в среде с другими параметрами. Изменение характера среды, в основном, сводится к изменению вероятностей получения автоматами реакции «Штраф» и «Приз». Именно это определяет среду как Дружелюбную, Нейтральную или Враждебную. Вид среды влияет на поведение автоматов, на их способность к размножению и, в конечном итоге, на численность популяции.

Дружелюбная среда характеризуется тем, что вероятность получения реакции «Приз» в популяции возрастает для всех автоматов одинаково в зависимости от количества призов, полученных ими на предыдущем шаге. Дифференцированная дружелюбная среда отличается тем, что взаимодействует с автоматами индивидуально. То есть, изменение вероятностей получения призов и штрафов происходит индивидуально на каждой ветке каждого автомата в отдельности независимо от поведения других членов популяции (рис. 5.20, сплошная линия).

Враждебная среда — это ситуация, при которой вероятность получения реакции «Приз» в популяции убывает дискретно для всех автоматов одинаково в зависимости от количества призов, полученных автоматами на предыдущем шаге. Дифференцированная враждебная среда аналогична дифференцированной дружелюбной среде за исключением того, что вероятность получения призов уменьшается (рис. 5.20 пунктирная линия).

Меняющаяся среда, в которой вероятность получения призов убывает до некоторого числа накопленных в системе призов, а затем начинает расти (рис. 5.21). Дифференцированная меняющаяся среда, в которой вероятность получения призов меняется от уменьшения к увеличению, отличается также тем, что это изменение распределяется на каждый автомат по отдельности (т. е. накопление призов до определенного значения происходит внутри каждого автомата независимо от других).

Интерес представляет, прежде всего, способность сообщества регулировать свою численность в зависимости от ресурсов внешней среды. Оптимальность численности коллектива характеризуется некоторой величиной, так называемым «уровнем жизни». Он определяется как отношение общего количества «Призов», полученного коллективом автоматов на данном шаге моделирования к общему количеству автоматов (особей) в сообществе на данном шаге моделирования. Суть заключается в том, чтобы проследить способность сообщества автоматов к самостоятельному саморегулированию по численности. Таким образом, оптимальность данного коллектива (его жизнеспособность) определяется «уровнем жизни» коллектива, который складывается из «уровней жизни» отдельных его членов. Чем больше «Призов» получает сообщество автоматов, тем казалось бы выше его жизнеспособность и оптимальность. Но при этом вовсе не значит, что «уровень жизни» отдельных членов коллектива достигает своего наиболее высокого значения. Таким образом, за характеристику оптимальности коллектива принимается «уровень жизни» организации, которая может принимать более совершенное устройство в том случае, когда «уровень жизни» каждого отдельного члена сообщества (доля от общего количества «Призов», полученного коллективом) выше.

Розыгрыш реакции среды в имитационной модели производится следующим образом:

-    в программе используется последовательность, вычисляющая значения на основе генератора псевдослучайных чисел, как равномерно распределенные на заданном диапазоне вещественные числа;

-    после того, как сгенерировано любое число на интервале от 0 до 10 осуществляется преобразование его в конкретную реакцию «Приз» или «Штраф». Для этого полученное число сравнивается с границей, которая разграничивает те области на интервале, которые относятся к реакциям «Приз» или «Штраф». То есть, если сгенерированное число больше границы, то реакции присваивается значение «Приз», а если меньше — то значение «Штраф». Изменение вероятности (т. е. случай динамической среды) осуществляется путем передвижения границ. В случае дифференцированных сред изменение границы происходит независимо для каждой ветки каждого автомата в зависимости от реакции, полученной автоматом на предыдущем шаге. В случае дифференцированной враждебной среды граница передвигается таким образом, чтобы увеличивать вероятность получения реакции «Штраф» в случае, если автоматом на предыдущем шаге была получена реакция «Приз». В случае дифференцированной дружелюбной среды граница передвигается таким образом, чтобы увеличивать вероятность получения реакции «Приз» в случае, если автомат на предыдущем шаге получил «Приз». В случае дифференцированной среды, изменяющей свое отношение с враждебного на дружелюбное, граница передвигается таким образом, чтобы увеличивать вероятность получения реакции «Штраф» до момента, когда автомат накопит определенное число «Призов», а затем увеличивает вероятность получения реакции «Приз». Это происходит для каждого автомата в отдельности, независимо от поведения и состояния дру

гих автоматов. В случае недифференцированной среды, изменяющей свое отношение с враждебного на дружелюбное, граница передвигается таким образом чтобы увеличивать вероятность получения реакции «Штраф» до момента, когда в системе накопится определенное число «Призов» (как сумма «Призов» полученных всеми автоматами), а затем увеличивает вероятность получения реакции «Приз». Граница меняется для всех автоматов одинаково.

Результаты имитационного моделирования в дифференцированной среде, свойства которой менялись в зависимости от числа особей в популяции, приведены на рисунках 5.22 и 5.23. В начале имитации в популяции было по 10 автоматов каждого типа. Из графиков видно, что в системе имеется некоторый установившийся режим, к которому стремится численность популяции. При этом автоматы Роббинсона в среднем быстрее находят этот режим.

Таким образом, популяция сравнительно простых автоматов, способных к воспроизведению себе подобных, демонстрирует способность адаптироваться в изменяющейся среде.