§ 8.4. Алгоритмы обучения

Известно, что обучающиеся системы улучшают свое функционирование в процессе работы, модифицируя свою структуру или значения параметров [26]. Предложено большое число способов описания и построения обучающихся систем. Все они предполагают решение следующих задач: выбор измерений (свойств, рецепторов) [12]; поиск отображения пространства рецепторов в пространство признаков, которые осуществляют вырожденное отображение объектов [17]; поиск критерия отбора признаков.

Причем в разных задачах для получения хороших признаков могут понадобиться разные критерии отбора [4, 5]. При обучении необходимо отвлечься от различий внутри класса, сосредоточить внимание на отличии одного класса от другого и на сходстве внутри классов [4]. Необходим достаточный уровень начальной организации обучающейся системы. Для сложной структурной информации необходима многоуровневая обучающаяся система [14].

Следует выделить следующие группы нечетких алгоритмов обучения; обучающийся нечеткий автомат, обучение на основе условной нечеткой меры; адаптивный нечеткий логический регулятор; обучение при лингвистическом описании предпочтений.

Рекуррентные соотношения в алгоритмах первых двух групп позволяют получать функцию принадлежности исследуемого понятия на множестве заранее известных элементов. В третьей группе алгоритм обучения осуществляет модификацию нечетких логических правил для удержания управляемого процесса в допустимых границах. В четвертой группе нечеткий алгоритм обучения осуществляет поиск вырожденного отобран^ения пространства свойств в пространство полезных признаков и модификацию на их основе описания предпочтения.

8.4.1. Обучающийся нечеткий автомат. В [54] предлагается печеткий автомат в качестве модели обучающейся системы. Рассматривается автомат с четким входом i(t) и зависимым от времени нечетким отношением перехода 8{t). Пусть s{t)—нечеткое состояние автомата в момент времени t на конечном множестве состояний S = {si, ..., s„} и it — оценка значения i{t). Состояние автомата в момент времени (f + 1) определяется шах-тіп композицией:

или аналогично с min-max композицией. Обучение направлено на изменение нечеткой матрицы переходов:

где 0<ccft<l, 0<Xft(t)^l, k = l, ..., п. Константа а?, определяет скорость обучения. Начало работы автомата возможно без априорной информации (s^) = О или 1, а также с априор

ной информацией    Величина Xk{t) зависит от

оценки функционирования автомата. Доказано, что имеет место сходимость матрицы переходов, независимо от того, есть ли априорная информация (т. е. Н'Т(о) может быть любым значением из интервала [О, 1]) .

Описанная модель в [27] используется для выделения оптимальных стратегий в игре двух автоматов с нулевой суммой,

а в [54] — для классификации образцов. На рис. 8.3 изображена модель классификации образов. Роль входа и выхода можно кратко объяснить следующим образом. Во время каждого интервала времени классификатор образов получает новый образец

х' из неизвестной внешней среды. Далее х' обрабатывается в рецепторе, из которого поступает как в блок «обучаемый» (или «студент»), так и в блок «учитель» для оценки. Критерий оценки должен быть выбран так, чтобы его минимизация или максимизация отражала свойства классификации (классов образов). Поэтому, благодаря естественному распределению образов, критерий может быть включен в систему, чтобы служить в качестве учителя для классификатора. Модель обучения формируется следующим образом. Предполагается, что классификатор имеет в распоряжении множество дискриминантных функций нескольких переменных. Система адаптируется к лучшему решению. Лучшее решение выделяет множество дискриминантных функций, которые дают минимум нераснознавания среди множества дискриминантных функций для данного множества образцов.

Близкая модель обучения предложена в [34, 18, 19, 29]. Моделируется поиск глобального экстремума функции:

—    область определения целевой функции делится на некоторое число подобластей (форма подобластей постоянно меняется) и описывается некоторым множеством точек;

—    каждой точке приписывается состояние автомата, причем функция принадлежности в каждом состоянии указывает степень близости к оптимуму;

—    выбирается состояние с максимальным значением функции принадлежности (эта точка называется кандидатом);

—    формируется новая подобласть из точек, окружающих кандидата (размер подобласти растет, когда значения целевой функции в точке кандидата меньше чем в других точках подобласти, и уменьшается в противоположном случае);

—    когда подобласть пересекается с некоторой другой, или две точкп-капдидаты находятся в одной подобласти, то подобласти разделяются, если степень разделения большая, или объединяются, если степень разделения малая;

—    точки-кандидаты выбираются на этапе локального поиска в подобласти, затем во всей области среди точек-кандидатов ищется глобальная оптимальная точка;

—    глобальный и локальный поиск осуществляется поочередно.

Алгоритм поиска глобального экстремума приведен на рис. 8.4.

Пусть S — множество состояний, V — выходной универсум, о — функция выхода (функция принадлежности, указывающая

степень оптимума в состоянии s). 1{і)—текущее значение целевой функции, /о — среднее значение I{t).

Используется следующий алгоритм изменения функций перехода и выхода в случае глобального поиска:

если I{t)>Io, то попытка успешна и

если 7(f) ^/о, то попытка неудачна и

где а = 1 — I (/(f) —/о)//о1; а < 1 — гарантирует сходимость.

В случае локального поиска:

если I{t)> Іо, то

если I{t)^Ia, то

Приложение описанного алгоритма к проблемам ядерпой энергетики описано в [46] к структурной идентификации — в [49].

8.4.2. Обучение на основе условной нечеткой меры. В [47, 50] описывается модель обучения, использующая понятия нечеткой меры и нечеткого интеграла.

Пусть X = {агі, ..., аг„} — множество причин (входов)' и Y = {уі, ..., ут) — множество результатов. Если h — функция из X в интервал [О, 1], h{xi)<..,<h{x„) и gx —нечеткая мера на X, то

где Я, = {агі, х„).

Задача состоит в оценке (уточнении)’ причин по нечеткой информации.

Пусть gr — нечеткая мера на Y, gy связана с gx условной нечеткой мерой Оу(-,|а:):

Предполагается следующая интерпретация вводимых мер; gx оценивает степень нечеткости утверждения «один из элементов X был причиной», Oy{A\x), A<=Y, оценивает степень нечеткости утверждения «один из элементов А является результатом благодаря причине х»; griiy)) характеризует степень нечеткости утверждения; «у — действительный результат».

Пусть Ha(i/) описывает точность информации А, тогда по определению

откуда следует, что  где

Метод обучения должен быть таким, чтобы при получении информации А нечеткая мера gx менялась таким образом, чтобы gr(4) возрастала. Предположим, что gx{-) и ау{-\х) удовлетворяет Я-правилу. Пусть аг{А\Хі) является убывающей, тогда

где Fi = [хі, ..., Хі). При этих условиях существует I:

Обучение может быть осуществлено увеличением тех значений g' (і = 1, ..., п) нечеткой меры gx, которые увеличивают gy(4), и уменьшением тех значений g' (і=1, ..., п) меры gx, которые не увеличивают griA). Можно показать, что на величину ^у(Л) влияют только такие g\ что 1 < г < L Следовательно, алгоритм обучения следующий:

Параметр а е [О, 1] регулирует скорость обучения, т. е. скорость сходимости g\ Чем меньше а, тем сильнее изменяется g‘. В приведенном алгоритме нет необходимости увеличивать g’ (і = і, ..., п) больше, чем на ат(А\хі), так как большее увеличение g' не влияет на ^у(Л). Приведем некоторые свойства модели обучения.

Свойство 8.4. Если повторно поступает одна и та же информация, то имеет место следующее:

а)   новое g* больше старого g‘ (і = 1, ..., I) и новое g* меньше старого g* (і = /+1, ..., п), следовательно, новая мера gr(4) не меньше старой меры gy(4) и новая мера:і

б)   при предположении Gy{A\xi)> Gy{A\x2), к<1, g* сходится к аг{А\хі) и g* сходится к О для f = 2, ..., п.

Свойство 8.5. Если поступает одна и та же информация

повторно: Ьа(у)=с для всех у, то сту (Л | ж) = ^ с = ау (• | ж) = с,

у

ау(Л) = с Д gx{X). Следовательно, 1 = п ш g* сходится к с для всех і.

Свойство 8.6. Предельное значение g^ не зависит от начального значения тогда, когда на вход повторно поступает одна и та же информация.

Пример 8.7 [47]. Пусть Оу({і/Лжі) подчиняется Я-правилу и имеет вид:

Ясно, что уі является результатом в основном причины Xj. На рис. 8.5 показано изменение априорной нечеткой плотности gx при

повторном появлении на входе одной и той же информации. На рис. 8.5, в на вход поступает переменно два различных множества:

В случае рис. 8.5, а на вход поступает кл = (0, О, 1, О, 0), а в случае рис. 8.5, б на входе На = (0,3, 0,5, 0,8, 0,5, 0,3). На рисунке числа указывают номер итерации.

Обучающаяся модель достаточно хорошо работает с нечеткой информацией, но скорость сходимости в этом случае меньше.

Пример 8.8. В [50, 53] описывается обучающаяся модель, разработанная на основе изложенного подхода и используемая для глобального поиска экстремума неизвестной функции с несколькими локальными экстремумами. Для поиска глобального экстремума формируются критерии в виде некоторых функций:

Хі — оценивает число точек, проанализированных на предыдущих шагах;

Хг — оценивает среднее значение функции по результатам предыдущих шагов;

Хз — оценивает число точек, значение функции в которых принадлежит десятке лучших-в своей области;

Хі,— оценивает максимум по прошлым попыткам;

Хь — оценивает градиент функции.

В описываемом случае gx показывает степень важности подмножеств критериев -п. ат{ІУі)\хі) оценивает предположение о нахождении экстремума в блоке Уі в соответствии с критерием Хі. Например, От{{уі)\хі) может зависеть от числа ранее проанализированных точек в блоке у,. Пусть входная информация А определяется формулой

где Pk максимум анализируемой функции, папденпый к рассматриваемому моменту в блоке Уі- Очевидно, что А сходится к максимизирующему множеству функции. На каждой итерации осуществляется следующее: проверяется заданное число новых точек, число этих точек выбирается пропорционально в

каждой точке уі вычисляется и нормализуется мера Оу(-№)> нормализуется gx, по и <3х вычисляется gy({j/i}), а затем gy(4), посредством правил подкрепления корректируется gx{ixi}). Затем выполняется новая итерация и так до тех пор, пока не сойдется gy.

В [47] приводится сравнительный анализ предлагаемой модели и вероятностной модели обучения [17]. Пусть рх — априорная плотность вероятности на X, ру(-1а;і) —условная плотность вероятности по отношению к Хі. Условная плотность вероятности нечеткого события А вычисляется по формуле:

После получения нечеткой информации А обучение осуществляется по формуле Байеса, которая дает результирующую плотность вероятности рх на X:

Если на вход модели поступает информация постоянной величины іХа{Уі) = с, 7 = 1, •••, пг, то px{Xi\F) = рх{х,), что фактически означает отсутствие обучения. Нечеткая же модель способна различать постоянную информацию и отсутствие информации. Кроме того, в нечеткой модели имеется возможность изменять скорость сходимости посредством параметра а.

8.4.3.    Адаптивный нечеткпп логический регулятор. Нечеткий логический регулетор как простейший нечеткий алгоритм подробно описан в § 8.5. Здесь опишем только способ уточнения правил управления, используемых в адаптивном нечетком логическом регуляторе (АНЛР).

Идея автоматического изменения печетких правил управления впервые изложена в [38]. В [40] описан АНЛР для управляемых техпологи- ческих процессов с одним входом и одним выходом. Соответствующая схема регулятора приведена на рис. 8.6.

АНЛР состоит из двух частей: нечеткого логического регулятора управляемого процесса (НЛРУН) и нечеткого логического регулятора управления (НЛРУ). На рис. 8.6 используются следующие обозначения:

u(.t)—управление, генерируемое НЛРУН,

e{t)—ошибка (отклонение от устанавливаемого выходного значения процесса s),

S — желаемое значение выхода управляемого процесса,

p{t) —модификация управления.

Правила НЛРУП имеют форму: ite = E{ then if с = = Cjthen и = Ui.

Правила НЛРУ имеют форму: ite~Ei then if с =

= Cj then p = Pj.

Здесь Ei, Ej, Ci, Cj, Ui, Pj — предварительно описанные нечеткие множества. Символ p{t) используется для модификации стратегии управления следующим образом: в нечетком правиле і, которое ухудшает течение процесса, заменяется значение управления Ui на Ui = Ui0 Pi{t). Правило i в НЛРУП заменяется на правило if е = Еі then if с = С.- then u=U\.

Рассмотрим далее два алгоритма обучения нри лингвистическом описании предпочтений: алгоритм формирования нечеткого отношения предпочтения на множестве альтернатив, описываемых наборами лингвистических значений признаков [2] и алгоритм уточнения лингвистических критериев 20], которые описываются одним из способов, приведенных в [3, 15, 16, 25].

8.4.4.    Алгоритм формирования нечеткого отношения предпочтения. Пусть R — множество таких альтернатив, что каждое S характеризуется набором оценок по п признакам: S = {ti, ..., t„),

и пусть в — семейство всех непустых конечных подмножеств множества R. Для некоторого R' ^ В известно подмножество выбранных альтернатив R"<=R', т. е. для любых S" ^ R" и S' е R'\R" имеет место доминирование S" > S'. Предварительно, при анализе исходного множества альтернатив, сформирован эталонный набор нечетких оценок Л* = (f“, ...,tn). Значения функции принадлежности нечеткой оценки t\ указывают на степень близости значений г-го признака к значениям, определяющим идеальную альтернативу. Используя множество предпочтений

требуется найти обобщенные правила предпочтения на множестве R. Поясним на примере работу алгоритма, в основе которого лежит модель распознавания классов М. М. Бонгарда [4].

Пример 8.2 [2]. Рассмотрим задачу выбора для добывающего судна рационального района промысла с учетом следующих показателей: м, — время перехода, Мг — прогноз вылова, и, — стоимостная характеристика прогнозируемого объекта лова, щ — гидрометеоусловия. Показатели, в сущности, играют роль лингвистических переменных, лингвистические значения которых, в том числе эталонные значения, приведены соответственно на рис. 8.7, а, б, в, г (численные значения базовых переменных даются условно). Цифрами па рис. 8.7 обозначаются следующие названия термов: 1 •— очень хорошее, 2 — хорошее, 3 — нормальное, 4 — удовлетворительное, 5 — плохое, 6 — очень плохое, 7 — плохой, 8 — нормальный, 9 — хороший, 10 —плохая, 11 — нормальная, 12 — хорошая, 13 — удовлетворительная, 14 — неудовлетворительная.

Лицу, принимающему решения, предложены альтернативы S^ — S, (см. табл. 8.1). Пусть выбрана альтернатива 5,. Для обучения формируются две таблицы:

Для каждой пары наборов {St, Sj) вычисляются оценки сравнения і-го элемента первого набора с і-ш элементом второго набора:

где а определяет конкретный оператор, например, нечеткую меру сходства [1]

 

в результате получаются две таблицы наборов нечетких оценок поэлементного сравнения. На основе полученных таблиц, используя логические операторы и логические функции двух переменных, выделяются полезные логические признаки и минимальный базис, объединение значений истинности которого на

строках первой и второй таблиц приведены на рис. 8.7, Ь. Содержательное значение утверждения, соответствующего минимальному базису, следующее:

іГ — лингвистическое значение к-то показателя, Ф5 — логический признак. Физический смысл приведенного утверждения:

район Si предпочтительнее района Sj, если утверждение [(время перехода до St «меньше», чем до S,) и (прогноз вылова в S, «больше», чем в Sj) и (погодные условия в Si «лучше», чем в 5j)] более истинно, чем обратное утверждение [(время перехода до St «больше», чем до Sj) и (прогноз вылова в St «меньше», чем в Sj) и (погодные условия в Si «хуже», чем в S,)].

Далее предположим, что среди неизвестных ситуаций 5,—5ц (табл. 8.3) необходимо выбрать лучшую альтернативу, используя минимальный базис. В табл. 8.4 изображена матрица предпочтений М = (іл'^(ІІГі) I (/іГг)), элементы которой вычислялись посредством гарантированной оценки

где

— значение /-го логического признака на паре альтернатив (81,82), С]— значение /-го признака па парах альтернатив г-го класса (г = 1, 2). Каждый элемент матрицы содержит два значения. Верхнее значение указывает степень, с которой St доминирует над 8j. Нижнее значение указывает степень, с которой

8j доминирует над 8і. Для построения нечеткого графа предпочтений альтернатив (рис. 8.7, е), используется следующее правило определения отношения домипирования D:

где

Согласно рис. 8.7, е 8ю есть недоминируемая альтернатива, т. е. не существует альтернативы, которая с ненулевой степенью доминирует над Зщ.

8.4.5. Алгоритм уточнения лингвистических критериев. Глобальные представления ЛПР о выборе альтернатив формулируются в виде глобального критерия и решение многокритериальной задачи сводится к построению композиции Мі” М^ — М, где

Q — множества значений признаков, локальных и глобального критериев. Мі и М2 формируются на основе высказываний типа: «если значения признаков Ui, ..., и„, характеризующие альтернативу и\ оцениваются термами іц, ..., Uu то альтернатива удовлетворяет У-му критерию с оценкой і».

Ml и М2 описываются наборами:

Степень удовлетворения глобальному критерию для альтернативы и'^и^ вычисляется следуюпщм образом:

В процессе обучения уточняются оценки локальных и глобального критериев на основе сравнения выбранных ЛПР альтернатив R" из множества предъявленных R' ^ R". М заменяется некоторым М, подтверждающим соответствующий выбор:

Обучение осуществляется в два этапа: формирование обобщенных описаний предпочтений ЛПР ’{нечеткая модель М. М. Бонгарда [2, 20]); модификация М при несовпадении предпочтений ЛПР с порядком оценок w{u). На втором этапе выполняется следующее; генерация допустимых наборов оценок показателей; определение отношения предпочтения на парах сгенерированных альтернатив, выделение из М — MiU М^ наборов, не подтверждающих выявленные предпочтения и, следовательно, подлежащих корректировке; корректировка оценок по критериям.

Пример 8.10. Пусть показатели и,, и лингвистические критерии ^і, Qz, Q оцениваются терм-множеством {1 — «хорошо», 2—«норма», 3—«плохо»}, функции принадлежности которого

изображены на рис. 8.8. Априорные сведения о критериях сформулированы в виде наборов оценок (термов), характеризующих

степень удовлетворения критериям. В табл. 8.5 приведены наборы номеров термов. Анализируемые альтернативы описываются

значениями

Альтернатива u^R" отмечена в табл. 8.5 звездочкой. В результате обучения формируется обобщенное описание предпочтений ЛПР: D{u\u>): (fi ]> & П,(^2     На основании D{u\ и^) сформировано уточненное М, которое приведено на рис. 8.9, в, г.