2.7 Оптимізація параметрів функціонування СППР у режимі кластер-аналізу вхідних даних

 

 

Використання кластер-аналізу в ІЕІ-технології аналізу і синтезу СКО на базі інтелектуальної СППР керування і супроводження навчального процесу дозволяє автоматизувати процес формування апріорно класифікованої навчальної багатовимірної матриці. Кластерізована за  результатами тестування рівня знань слухачів навчальна матриця є нечіткою, оскільки класи розпізнавання (рівні знань) на практиці перетинаються, як це показано на рис. 2.23, де наведено гомоморфне відображення на площину розподілу 488 реалізацій чотирьох класів (клас – «відмінно», клас  – «добре», клас  – «задовільно», клас  –«незадовільно»), сформованих за результатами тестування рівня знань студентів з навчальної дисципліни «Інтелектуальні системи», що викладалася в 2007-2009 р.р. в Сумському державному університеті. Загальна кількість тестів, яка визначала потужність словника ознак розпізнавання, дорівнювала .

Аналіз рис. 2.23 дозволяє зробити два допущення, які спрощують задачу кластеризації вхідних даних:

потужність алфавіту класів є обмеженою і дорівнює ;

алфавіт класів розпізнавання є впорядкованим, тобто двійковий еталонний вектор класу  є найближчим до вершини нульового вектора-реалізації (значення всіх ознак знаходяться поза своїми контрольними допусками, оскільки всі відповіді на тести були помилковими), і еталонний вектор класу  є найближчим до вершини одиничного вектора-реалізації (значення всіх ознак знаходяться в своїх контрольних допусках, оскільки всі відповіді на тести були правильними). І, як показано на рис. 3.23, клас  є найближчим до класу , а клас  – до класу .

Інформаційно-екстремальний алгоритм навчання СППР з кластеризацією вхідних даних згідно з категорійною моделлю, показаною на рис. 2.8, полягає в перетворенні неструктурованої вхідної навчальної матриці  в апріорно нечітку класифіковану багатовимірну навчальну матрицю та відображенні її в дискретний (субпарацептуальний) простір ознак розпізнавання, де шляхом допустимих цілеспрямованих перетворень вхідний математичний опис адаптується з метою максимізації повної ймовірності прийняття правильних рішень СППР в режимі екзамену.

          Оскільки вище в дисертації  досліджено інформаційно-екстремальні алгоритми відновлення контейнерів класів розпізнавання в процесі навчання СППР, то детальніше розглянемо схему ієрархічного агломеративного алгоритму кластер-аналізу вхідних даних, який дозволяє перетворити неструктуровану вхідну навчальну матрицю в нечітку класифіковану багатовимірну навчальну матрицю.

          Крок 1. Формуються двійковий одиничний вектор розмірності  і аналогічно – нульовий вектор .

Крок 2. Обнуляється лічильник кроків зміни радіуса: .

Крок 3. Ініціалізація лічильника кроків прирощення радіуса:.

Крок 4. У вершині вектора    будується таксон    радіуса .

Крок 5. Якщо для будь-якого вектора   має місце , то виконується крок 6, інакше – крок 3.

Крок 6. За дистанційною мірою  в таксоні визначається найближчий до одиничного вектор , вершина якого приймається за центр нового таксона , і виконується крок 2.

Аналогічно знаходиться вектор  , найближчий до нульового, вершина якого приймається за центр нового таксона .

Далі для кожного з таксонів    і   запускається агломеративний алгоритм пошуку відповідних центрів ваги [73]. При цьому відбувається ініціалізація лічильника кроків прирощення радіусів таксонів, яка припиняється за умови  . Використання такої умови дозволяє побудувати на верхньому ієрархічному рівні (рис. 2.24) контейнери класів  і , які включають всі вектори-реалізації із заданого розподілу.

 

Умова (2.7.1) дозволяє вибрати як початкову для процесу агломерації тільки ті реалізації, що знаходяться на поверхні контейнера класу , а умова (2.7.2) вибирає серед них реалізацію, найближчу до центрів класів  і . За аналогічних умов вибирається як початковий вектор :

 

                                              ;                                 (2.7.3)

 

                                           .                    (2.7.4)

 

При цьому вибирались такі обмеження на радіуси таксонів класів  і  відповідно:

                                        ;  .

 

Крім того, одним із обмежень є виконання умови, щоб реалізації, що формували таксон для класу  належали класу , а для класу  – класу .

Для побудови таксону класу  було використано як початкову реалізацію , а для побудови таксону класу  – реалізацію , оскільки ці реалізації з найбільшою ймовірністю відносяться до відповідних класів. На радіуси таксонів класів    і   відповідно накладаються такі обмеження

                                  ;  .

 

На рис. 2.25 показано результати відновлення  контейнерів класів розпізнавання після реалізації базового алгоритму навчання СППР [1].

 

Аналіз рис. 2.25 показує, що максимальні значення нормованих КФЕ навчання СППР не досягають своїх граничних значень (; ; і  ). При цьому радіуси відновлених контейнерів у кодових одиницях відповідно дорівнюють , ,  і . Тобто середнє значення радіусів цих контейнерів дорівнює .

Таким чином, оскільки СКД на ознаки розпізнавання є неоптимальною, то реалізація базового алгоритму навчання не забезпечує побудови безпомилкових вирішальних правил, що є кінцевою метою навчання СППР. Тому згідно з принципом відкладених рішень Івахненка доцільно реалізувати алгоритм навчання з паралельною оптимізацією СКД.

На рис.2.26 показано графік залежності усередненого нормованого критерію Кульбака від параметра поля контрольних допусків, одержаний в процесі навчання СППР з паралельною оптимізацією СКД на ознаки розпізнавання.  

        

Аналіз рис. 2.26 показує, що оптимальне значення параметра поля контрольних допусків на ознаки розпізнавання дорівнює  при максимальному значенні усередненого КФЕ , що дорівнює граничному.

Підтвердженням того, що вже на етапі оптимізації СКД на ознаки розпізнавання побудовано безпомилкові за навчальною матрицею вирішальні правила, є  результати відновлення контейнерів класів розпізнавання, одержані при оптимальному значенні параметра поля контрольних допусків , показані на рис. 2.27.

 

Аналіз рис. 2.27 показує, що оптимальні параметри відновлених контейнерів, визначені при максимальних граничних значеннях нормованих  КФЕ в робочій області визначення їх функції, дорівнюють у кодових одиницях відповідно , ,  і . При цьому середнє значення радіусів цих контейнерів дорівнює , тобто є суттєво меншим у порівнянні із значенням, одержаним за базовим алгоритмом, що відповідає мінімально-дистанційному принципу теорії розпізнавання образів [70].

          Таким чином, у рамках запропонованого інформаційно-екстремального методу навчання СППР з кластеризацією вхідних даних за умови заданої потужності структурованого алфавіту класів розпізнавання, що є характерним для оцінювання рівня знань слухачів, побудовано безпомилкові за навчальною матрицею вирішальні правила, тобто сформоване в процесі кластеризації даних апріорно нечітке розбиття простору ознак перетворено в чітке розбиття еквівалентності.