3.7. ДОСТАТОЧНЫЕ СТАТИСТИКИ И СЕМЕЙСТВО ЭКСПОНЕНЦИАЛЬНЫХ ФУНКЦИЙ

Рассмотрим применение теоремы факторизации для получения достаточных статистик на примере хорошо знакомого случая нормального распределения при р(х|Ѳ)~Л^(Ѳ, 2). Имеем

В этом разложении первый множитель выделяет зависимость p(^t^) от Ѳ, а согласно теореме факторизации, видно, что статисти-

П

ка 2 Xj достаточна для Ѳ. Конечно, любая взаимно однозначная

функция этой статистики также достаточна для Ѳ, в частности и выборочное среднее

также достаточно для Ѳ. Исходя из этой статистики, можно написать

Воспользовавшись формулой (38) или непосредственной подстановкой, можно получить ядро плотности

Из этого выражения сразу же выясняется, что т„ и есть оценка по максимуму правдоподобия для Ѳ. Байесовскую апостериорную плотность можно получить из Я(™п. Ѳ). выполняя интегрирование согласно (39). Если априорная плотность близка к равномерной, то Ѳ).

Такой же общий подход возможен и при определении достаточных статистик для других функций плотности. В частности, он применим к любому из членов экспоненциального семейства, группы функций распределения и плотностей, имеющих простые достаточные статистики. В число членов экспоненциального семейства входят нормальное, экспоненциальное, релеевское, пуассоновское и многие другие известные распределения. Все они могут быть записаны в виде

Таким образом, получаем где можно принять

и

Выражения функций распределения, достаточных статистик и ненормированных ядер для некоторых обычно встречающихся членов экспоненциального семейства приведены в табл. 3.1. Вывод из этих выражений оценок по максимуму правдоподобия и байесовских апостериорных распределений вполне обычная вещь. Выражения, за исключением двух, приведены для случая одной переменной, хотя и могут быть использованы для случаев с многими переменными, если можно допустить статистическую независимость ^).

Было бы приятно отметить в заключение, что полученные результаты составляют набор средств, достаточный для решения большинства задач из области классификации образов. К сожалению, все обстоит иначе. В применении ко многим случаям указанные члены экспоненциального семейства с их плавным изменением и однообразием формы не представляют хорошего приближения реально встречающихся плотностей. Часто применяемое упрощающее предположение о статистической независимости далеко не всегда оказывается справедливым. В случае когда применение функции из экспоненциального семейства и дает хорошее приближение неизвестной плотности, обычно бывает необходимо оценивать множество неизвестных параметров, а в распоряжении имеется только ограниченное число выборок. Как мы увидим, это может привести к тому, что оптимальные оценки дадут малоудовлетворительные результаты, и даже к тому, что «оптимальные» системы будут выполнять свои функции хуже, нежели «почти оптимальные».