3.1. ОЦЕНКА ПАРАМЕТРОВ И ОБУЧЕНИЕ С УЧИТЕЛЕМ

В гл. 2 рассматривались вопросы разработки оптимального классификатора в случае, когда известны априорные вероятности P((o^) и плотности p{x\(t>j), условные по классу. К сожёлёнию, на практике при распознавании образов полная вероятностная структура задачи в указанном смысле известна далеко не всегда. В типичном случае имеется лишь неопределенное общее представление об исследуемой ситуации и некоторый набор конструктивных выборок — конкретных представителей образов, подлежащих классификации ^). Задача, следовательно, заключается в том, чтобы найти способ построения классификатора, используя эту информацию.

Один из подходов к задаче заключается в ориентировочной оценке неизвестных вероятностей и плотностей по выборКаіа и последующем использовании полученных оценок, как если бы они были истинными значениями. Оценка априорных вероятностей в типичных задачах классификации образов не представляет большой трудности. Иначе обстоит дело с вопросом оценки условных по классу плотностей. Имеющееся количество выборок всегда представляется слишком малым для их оценки, и если размерность вектора признаков х велика, то задача сильно усложняется. Трудность значительно уменьшится, если возможна параметризация условных плотностей, исходя из общего представления о задаче. Допустим, например, что есть некоторые основания предположить, что /?(х|(о^) соответствует нормальному распределению со средним значением и ковариационной матрицей хотя точные значения указанных величин неизвестны. Это упрощает задачу, сводя ее вместо определения функции /?(х|о)у) к оценке параметров цу и 2^.

Задача оценки параметров, относящаяся к классическим задачам математической статистики, может быть решена различными способами. Мы рассмотрим два общепринятых способа — оценку по максимуму правдоподобия и байесовскую оценку. Несмотря на

то что результаты часто оказываются весьма близкими, подход к )ешению при применении этих способов принципиально различен. Іри использовании методов максимального правдоподобия значения параметров предполагаются фиксированными, но неизвестными. Наилучшая оценка определяется как величина, при которой вероятность реально наблюдаемых выборок максимальна. При байесовских методах параметры рассматриваются как случайные переменные с некоторым априорно заданным распределением. Исходя из результатов наблюдений выборок, это распределение преобразуют в апостериорную плотность, используемую для уточнения имеющегося представления об истинных значениях параметров.

Как мы увидим, в байесовском случае характерным следствием привлечения добавочных выборок является заострение формы функции апостериорной плотности, подъем ее вблизи истинных значений параметров. Это явление принято называть байесовским обучением. Следует различать обучение с учителем и обучение без учителя. Предполагается, что в обоих случаях выборки х получаются посредством выбора состояния природы со; с вероятностью Р{(й]), а затем независимого выбора х в соответствии с вероятностным законом p{x\(sij). Различие состоит в том, что при обучении с учителем известно состояние природы (индекс класса) для каждого значения, тогда как при обучении без учителя оно неизвестно. Как и следовало ожидать, задача обучения без учителя значительно сложнее. В данной главе будет рассмотрен только случай обучения с учителем, рассмотрение же случая обучения без учителя отложим до гл. 6.