6.5.1. БАЙЕСОВСКИЙ КЛАССИФИКАТОР

Методы максимума правдоподобия не рассматривают вектор параметров Ѳ как случайный — он просто неизвестный. Предварительное знание о возможных значениях Ѳ необязательно, хотя на

практике такое знание можно использовать для выбора хорошей начальной точки при процедуре подъема на вершину. В этом разделе мы используем байесовский подход к обучению без учителя. Предположим, что Ѳ — случайная величина с известным априорным распределением р(Ѳ), и будем использовать выборки для вычисления апостериорной плотности p{Q\S). Весьма интересно, что такой анализ в основном будет подобен анализу байесовского обучения с учителем, что указывает на большое формальное сходство задач.

Начнем с четкого определения основных предположений. Предполагаем, что

1.   Число классов известно.

2.   Априорные вероятности Р((Л]) для каждого класса известны, /=1, . . ., с.

3.   Вид условных по классу плотностей p(x|cOj-, Qj) известен, j—\, . . с, но вектор параметров Ѳ=(Ѳі, . . ., Ѳс) неизвестен.

4.   Часть знаний о Ѳ заключена в известной априорной плотности р(Ѳ).

5.   Остальная часть знаний о Ѳ содержится в множестве из п выборок Хі, . . ., х„, извлеченных независимо из смеси с плотностью

После этого мы могли бы непосредственно начать вычисление Однако давайте сначала посмотрим, как эта плотность используется для определения байесовского классификатора. Предположим, что состояние природы выбирается с вероятностью Р(чіі) и вектор признаков х выбран в соответствии с вероятностным законом р{х\(і)і, Ѳ,). Чтобы вывести байесовский классификатор, мы должны использовать всю имеющуюся информацию для вычисления апостериорной вероятности Р((0(|х).

Покажем явно роль выборок, записав это в виде Р((Оі\х, ^). По правилу Байеса

Так как выбор состояния природы сог был сделан независимо от ранее полученных выборок: Р (ѵ)і\^)=Р то мы получим

Введем вектор неизвестных параметров, написав

Поскольку сам х не зависит от выборок, то р(х|Ѳ, ю,, 3^)= =р(х1(0ь Ѳг). Аналогично, так как знание состояния природы при выбранном X нам ничего не говорит о распределении Ѳ, имеем р(Ѳ|(Оь ^)=p{Q\a:).

Таким образом, получаем

То есть наша наилучшая оценка для p(x|(Oj) получена уореднением р(х[(Ог, Ѳг) по в,. Хорошая это или плохая оценка, зависит от природы p(0|J"), и мы должны, наконец, заняться этой плотностью.