1.8 Основні задачі інформаційного аналізу і синтезу ІС

 

Виходячи із загальної постановки задачі, інформаційний аналіз і синтез ІС, що навчається, розпадається на ряд самостійних задач, основні з яких наведено на рис. 1.9.

      Перша і друга задачі є типовими задачами математичної статистики. Специфіка другої задачі полягає в тому, що для аналізу результатів спостережень за множиною об’єктів   з метою виявлення емпіричних закономірностей даних розглядаються тільки такі багатовимірні  структури,  які може бути  подано або у вигляді матриць типу (1.7.1), або у вигляді матриць відношень (попарних порівнянь) між об’єктами. У матриці відношень    елемент    визначає результат зіставлення об’єктів    i    у розумінні деякого заданого відношення: схожості (відмінності), взаємозв’язку, переваги, відстані та інше.

Поряд з такими видами взаємозв’язків між компонентами багатовимірної структури даних, як кількісні, якісні, змішані (різновидові) і порядкові, які досліджуються класичними методами статистичного аналізу, об’єктом дослідження класифікаційного аналізу даних є насамперед класифікаційний взаємозв’язок. Саме цей тип взаємозв’язку дозволяє розбивати досліджувану множину об’єктів на підмножини, які знаходяться між собою у відношенні еквівалентності.

 

 

Третя задача оцінки функціональної ефективності ІС, що навчається, пов'язана з проблемою вибору та обчислення КФЕ. Можна виділити два основних підходи до оцінювання функціональної ефективності, один з яких базується на економічних показниках, а інший – на інформаційних. Об’єднуючим є підхід, що базується на узагальненому КФЕ, який дозволяє оцінювати дві складові ефективності: інформаційну здатність системи та зведену вартість її функціонування [43]. Оскільки класифікація здійснюється за критерієм схожості, а мірою відображеної різноманітності є кількість інформації, то застосування інформаційного КФЕ системи є природним.

Четверта задача є центральною при розв'язанні задачі інформаційного синтезу ІС, що навчається. Як параметри функціонування ІС виступають її просторово-часові характеристики, які прямо або непрямо впливають на точнісні характеристики системи. Як параметри, що регулюються, слід розглядати, в першу чергу, параметри навчання системи, які впливають безпосередньо на асимптотичну ефективність її функціонування. Послідовність оптимізації параметрів навчання визначається планом навчання, параметри якого теж можуть, у свою чергу, виступати як параметри функціонування ІС, що регулюються. Взагалі, визначення параметрів, які впливають на ефективність функціонування ІС, потребує ретельного системного аналізу на етапі апріорного моделювання.

Розв’язок п’ятої задачі пониження розмірності ознакового простору, що аналізується, дозволяє збільшити оперативність алгоритмів класифікації і достовірність розпізнавання за рахунок виключення «заважаючих» ознак, які обумовлені впливом внутрішніх і зовнішніх завад як випадкових, так і організованих, наприклад, з метою дезінформації. Передумовою постановки такої задачі є сильна залежність ознак розпізнавання, їх дублювання, можливість їх агрегатування, наприклад, шляхом об’єднання, складання, групування та інше, а так само їх різна інформаційна навантаженість (інформативність). Формальна постановка задачі зниження розмірності ознакового простору така.

Нехай дана вхідна структурована вибіркова послідовність: де – первинні ознаки;  – вторинні ознаки. Нехай задана міра інформаційної спроможності ІС – . Треба вибрати таку послідовність , де    i  , щоб   у класі допустимих перетворень первинних ознак . У випадку  розв’язок цієї задачі є неоптимальним в інформаційному розумінні.

Зниження розмірності ознакового простору  Ω  може здійснюватися з  такою метою:

суттєве стиснення обсягів інформації для підвищення оперативності обробки та ємності її зберігання;

відбір інформативних, вилучення неінформативних і «заважаючих» ознак  та визначення латентних ознак розпізнавання.

Шоста задача інформаційного синтезу ІС, що навчається, полягає в проведенні розвідувального аналізу, який набуває особливої ваги, коли навчальна матриця   є апріорно некласифікованою, що має місце, наприклад, у задачах кластер-аналізу. Суть методів розвідувального аналізу полягає у перевірці статистичної сталості та статистичної однорідності вхідних даних з метою виявлення при заданому рівні довіри моменту переходу функціонального стану ІС в інший. При цьому сучасна комп’ютерна графіка надає можливість візуалізації даних, у тому числі і в інтерактивному режимі та з високою оперативністю.

Сьома задача набуває важливого значення при інформаційному синтезі ІС, що навчається з відкритим алфавітом класів розпізнавання  , який поповнюється або в процесі навчання, або при виявленні нових класів, як це має місце при кластер-аналізі. Особливість цієї задачі полягає в тому, що її розв‘язання дозволяє не тільки оцінювати точнісні характеристики процесу навчання, які визначають асимптотичну ефективність ІС, а й безпосередньо змінювати алгоритм навчання у міру введення в алфавіт нових класів. Розв‘язання цієї задачі насамперед тісно  пов‘язано із застосуванням методів та ідей теорії завадозахищеного кодування [44]. Крім того, для здобуття оцінок допустимих співвідношень між геометричними параметрами контейнерів класів розпізнавання та розмірністю простору ознак важливого значення набуває розроблення теорії упакування такого простору контейнерами різної геометричної форми.

Розв’язання восьмої задачі спрямовано на підтримку функціональної ефективності ІС за умови зміни в часі параметрів розподілу реалізацій образу. Поряд із постановкою задачі перспективного прогнозування зміни функціональної ефективності (інформаційної спроможності) системи так само актуальною є постановка задачі нормативного прогнозування з метою, наприклад, визначення моменту перенавчання ІС. Необхідність перенавчання ІС обумовлена дрейфом у часі та в просторі ознак вершин випадкових векторів – реалізацій образів при незмінних геометричних параметрах вирішальних правил для відповідних класів розпізнавання. Один з можливих шляхів розв‘язання цієї задачі полягає у конструюванні прогнозуючої функції у вигляді одновимірної порядкової статистики, яка чутлива до виходу значень ознак розпізнавання за межі своїх контрольних допусків. Тоді прогнозування моменту перенавчання ІС може здійснюватися через оцінку виходу поточної статистики  , що обчислюється на екзамені, за межі системи довірчих інтервалів для значення відповідної екстремальної порядкової статистики  , що обчислюється на етапі прогностичного навчання.

Оскільки зміна функціонального стану ІС в часі призводить до зміни її точнісних характеристик, то взагалі мова тут може йти про зміну інформаційної спроможності системи, яка оцінюється усередненим значенням КФЕ, який є часовою функцією. Тоді в загальному випадку умовою перенавчання ІС є виконання співвідношення

 

,

де    допустиме мінімальне усереднене значення КФЕ навчання  ІС.