2.4 Визначення мінімального обсягу репрезентативної навчальної вибірки

 

Навчальна вибірка має на практиці скінченний обсяг  n, що обумовлює наявність статистичної похибки    між імовірністю  pi  та емпіричною частотою  ki /n  знаходження значення  i-ї ознаки розпізнавання у своєму контрольному полі допусків  . Верхня оцінка похибки        =|pi  | залежить від кількості випробувань  n  і визначається за теоремою Муавра-Лапласа:

 

            (2.4.1)

 

де  ki  кількість подій, при яких значення  i-ї ознаки знаходиться в полі допусків  ; qi=1 pi  імовірність того, що значення  i-ї ознаки не належить полю допусків  ; Ф(...)  функція Лапласа.

Визначення мінімального обсягу  nmin  репрезентативної навчальної вибірки здійснимо за умови отримання прийнятних з практичних міркувань статистичної похибки та оперативності  алгоритму його обчислення. Ці вимоги є суперечливими, що обумовлює компромісний характер розв’язання задачі. Скористаємося методом динамічного довірчого інтервального оцінювання. Суть методу полягає в побудові після кожного випробування довірчого інтервалу, який оцінює ймовірність  рі  знаходження  i-ї ознаки в полі контрольних допусків з імовірністю довіри  1-Q:

 

       ,             (2.4.2)

 

де  Q  рівень значущості (будь-яке наближене до нуля додатне число).

Визначення максимальної похибки  Q  при заданому рівні значущості  Q  здійснюється із співвідношення

 

                            .                          (2.4.3)

 

З урахуванням властивості функції Лапласа  Ф(х)=1Ф(-х)   перетворимо (2.4.3) до вигляду

                           .                          (2.4.4)

Наприклад, для  Q=0.05  за таблицею значень функції Лапласа з урахуванням виразу (2.4.4) для  Ф(х)=1Q/2= =0.975 знайдемо значення аргументу функції . Тоді похибка  Q  змінюється залежно від обсягу навчальної вибірки  n  за гіперболічним законом

 

                            .                      (2.4.5)

 

На рис. 2.3 наведено графік функції  Q = f(n) (крива 1) і умовно виділено три області значень аргументу, які відрізняються крутизною цієї функції. При цьому область І є забороненою областю, оскільки похибка перебільшує допустиму. Область ІІІ характеризується значними економічними втратами при відносно малій швидкості зменшення похибки  Q. Область II є компромісною і охоплює інтервал приблизно від 40 до 90 випробувань. Легко довести, що при різних значеннях  Q  графік функції  Q = f(n)  буде переміщуватися паралельно по вертикалі, не змінюючи свого вигляду.

 Рисунок 2.3До визначення обсягу навчальної вибірки:

1 графік функції  Q = f(n); 2графік емпіричної частоти ; 3  верхня межа довірчого інтервалу;

4  нижня межа довірчого інтервалу

 

На рис. 2.3 область І є забороненою областю, оскільки похибка перебільшує допустиму. Область ІІІ характеризується значними економічними втратами при відносно малій швидкості зменшення похибки  Q. Область II є компромісною і охоплює інтервал приблизно від 40 до 90 випробувань. Легко довести, що при різних значеннях  Q  графік функції  Q = f(n)  буде переміщуватися паралельно по вертикалі, не змінюючи свого вигляду.

Графічно довірчий інтервал можна побудувати за формулою (2.4.2), обчислюючи для кожного випробування   за виразом (2.4.5)  похибку  Q  i відкладаючи її зверху та знизу від графіка частоти  ki /n  (крива 2). При цьому верхня   (крива 3) та нижня   (крива 4) межі довірчого інтервалу при збільшенні числа випробувань мають тенденцію до зближення з емпіричною частотою.

Для знаходження мінімального числа випробувань  nmin,  яке гарантує прийнятні з практичних міркувань величину похибки і оперативність реалізації алгоритму обчислювання, необхідно задати критерій зупинення випробувань.

Таким моментом можна вважати випробування, при якому поточний довірчий інтервал накривається заданим інтервалом [0,5], де  0,5. Для багатьох практичних задач значення    визначається з інтервалу  0,3;0,4 за алгоритмом, наведеним, наприклад, у праці [138]. Останній (правий) перетин заданого інтервалу з однією з меж довірчого інтервалу визначає  випробування  nmin, яке гарантує з імовірністю 1Q, що максимальна похибка Q  не перебільшує значення функції  εQ =f(n)  при  n=nmin.

Таким чином, вибір nmin   доцільно здійснювати в компромісній області ІІ (на рис. 2.3  nmin=54) за умови відсутності викидів значень емпіричної частоти до значень, близьких до нуля або одиниці.

У загальному випадку треба будувати довірчі інтервали для всіх    ознак і вибирати  nmin  за умови

 

              nmin=(nmin 1, ..., nmin i, ..., nmin N).

 

На практиці для незалежних ознак розпізнавання можна вибирати  nmin  за довірчим інтервалом, побудованим для будь-якої однієї ознаки, що значно знижує обчислювальну трудомісткість алгоритму.