3.6.  ДОСТАТОЧНЫЕ СТАТИСТИКИ

На практике формальное решение задачи, задаваемое (14), (34) и (35), лишено привлекательности из-за большого объема вычислений. В задачах классификации образов нередко приходится иметь дело с десятками и сотнями неизвестных параметров и тысячами выборок, что крайне затрудняет непосредственное вычисление и составление таблиц для р {& |Ѳ) или р(Ѳ\SC). Вся надежда на то, что для преодоления трудности вычислений можно будет найти параметрическую форму р(х|Ѳ), которая, с одной стороны, будет соответствовать. существу поставленной задачи, а с другой стороны, даст возможность получить удовлетворительное аналитическое решение.

Рассмотрим, какого рода упрощения можно достичь при решении задачи обучения среднему значению в случае многих нормально распределенных переменных. Если предположить, что априорная плотность р(ц) нормальна, то апостериорная плотность р(ц\&) также будет нормальной. В равной степени важно и то, что, согласно (31) и (32), главная цель наших действий по обработке данных — это просто вычисление выборочного среднего ш„. В этой статистике, вычисление которой не требует сложных математических преобразований, содержится вся информация, получаемая из выборок и требуемая для получения неизвестного среднего по множеству. Может показаться, что простота эта связана всего лишь с еще одним хорошим свойством, присущим именно нормальному распределению, а в других случаях ее трудно было бы ожидать. Хотя это в большой степени и верно, однако существует группа распределений, для которых можно получить решения, удобные с точки зрения вычислений, причем простота их применения заложена в понятии достаточной статистики.

Прежде всего заметим, что любая функция выборок является статистикой. Грубо говоря, достаточная статистика s есть такая

функция выборок sc, которая содержит полную информацию об оценке некоторого параметра Ѳ. Интуитивно может показаться, что под этим определением достаточной статистики подразумевается удовлетворение требованию p(0|s, ^)=p(0|s). Отсюда, однако, последует необходимость обращения с Ѳ как со случайной величиной, из-за чего придется ограничиться байесовским подходом. Стандартное определение поэтому формулируется в следующем виде: говорят, что статистика s будет достаточной для Ѳ, если Ѳ)

не зависит от Ѳ. Полагая Ѳ случайной величиной, можно написать

откуда становится очевидным, что р (0|s, S)=p (0|s), если s достаточна для Ѳ. И обратно, если s есть статистика, для которой р (Ѳ |s, 3^)= =p(0|s), и если p(0|s)#O, то легко показать, что p{3^\s, 0) не зависит от 0. Таким образом, интуитивное и стандартное определения, по сути дела, эквивалентны.

Основной теоремой для достаточных статистик является теорема факторизации, которая утверждает, что s достаточна для 0 тогда и только тогда, когда рфЩ можно представить как произведение двух функций, одна из которых зависит только от s и 0, а другая — только от выборок. К достоинствам теоремы следует отнести то, что при определении достаточной статистикй она позволяет вместо рассмотрения сравнительно сложной плотности p{SC\s, 0) воспользоваться более простой функцией вида

К тому же, согласно теореме факторизации, выясняется, что свойства достаточной статистики полностью определяются плотностью р (х10) и не связаны с удачным выбором априорной плотности р(Ѳ). Доказательство теоремы факторизации для непрерывного случая несколько затруднительно, так как включает вырожденные ситуации, В связи с тем что это доказательство все же представляет определенный интерес, мы приведем его для простейшего дискретного случая.

Теорема факторизации. Статистика s достаточна для 0 тогда и только тогда, когда вероятность Р{^\д) можно записать в виде произведения

Доказательство, а) Допустим сначала, что s достаточна для 0, т. е. P{3^\s, 0) не зависит от 0. Так как наша цель состоит

в том, чтобы показать, что   можно представить в виде про

изведения, сосредоточим внимание на выражении Р(^|Ѳ) через P{SC\s, Ѳ). Проделаем это, суммируя совместные вероятности Р(3^, s|0) для всех значений s;

Но, поскольку s=q> {З^), возможно лишь одно значение для s, так что

Кроме того, так как, согласно предположению, Р (SC [s, Ѳ) не зависит от Ѳ, первый множитель зависит только от ЗС. Отождествляя P(sl0) c^(s, 0), можно видеть, что вероятность P{S\Q) представима в виде произведения, что и требовалось доказать.

б) Для того чтобы показать, что из существования представления Р {SC\b) в виде произведения ^(s, 0) h (Ж) следует достаточность статистики S для 0, надо показать, что такое представление означает независимость условной вероятности Р{Ж\&, 0) от 0. Так как s= =(p(J^), то установление величины s сводит возможные множества выборок к некоторому мн^еству SC. Формально это означает, что Если SC пусто, то никакие заданные значения выборок не могут привести к требуемой величине s, и P(s|0)==O. Исключив такие случаи, т. е. рассматривая только те значения s, которые могут быть получены, придем к выражению

Знаменатель выражения можно вычислить, просуммировав значения числителя для все^^значений Ж. Так как числитель будет ра- кн нулю в случае SC^^, то можно ограничиться суммированием только для a:^SC. Таким образом,

Но в соответствии с соображениями, которыми мы руководствовались ранее, P(SC, s] Ѳ)=Р (.2^10), так как 8=ф(^). Кроме того, следует иметь в виду, что, согласно принятой гипотезе, Р =g(s, 0)/і(.^). Таким образом, приходим к выражению

которое не зависит от Ѳ. Отсюда, согласно определению, s достаточна для Ѳ.

Как будет показано, существуют простые способы построения достаточных статистик. Например, можно определить s как вектор, компоненты которого представлены п выборками Хі, . . х„, так что ^(s, Ѳ)=р(^1Ѳ) и  Можно даже построить скалярную

достаточную статистику, пользуясь приемом вписания цифр в десятичных разложениях компонент для п выборок. Достаточные статистики такого сорта существенного интереса не представляют, так как не приводят к более простым результатам. Возможность представления функции piS'lQ) в виде произведения g{s, Ѳ) h{S) интересна только в случае, когда функция g и достаточная статистика S просты 1).

Следует также заметить, что выражение р(Ж\Ѳ) в виде произведения ^(s, Ѳ) h{^), очевидно, не единственно. Если /(s) есть любая функция от S, то g'(s, 0)=/(s) g(s, Ѳ) и h' (SC)=h{X)lf[s) есть эквивалентные множители. Такого рода неопределенность можно исключить, введя понятие ядра плотности

которое инвариантно для этого вида оценок.

Каково же значение достаточных статистик и ядер плотности при оценке параметров? Общий ответ состоит в том, что функции плотности, содержащие достаточные статистики и простые ядра плотности, используются при практическом оценивании параметров для классификации образов. В случае оценки по максимуму правдоподобия, когда отыскивается величина Ѳ, которая максимизирует p{3^\Q)=g{s, Ѳ) h{^), можно вполне удовлетвориться величиной g{s, Ѳ). В эѴом случае нормирование посредством (38) не дает больших преимуществ, если ^(s, Ѳ) не проще, чем g{s, Ѳ). Удобство применения ядра плотности выявляется в байесовском случае. Если подставить в (34) p(.2^|0)=g(s, Ѳ) h(^), то получим

Если наше апостериорное знание о Ѳ очень неопределенно, то р(Ѳ) близка к постоянной, мало меняясь с изменением Ѳ. Если р (Ѳ) близка к равномерной, то р (Ѳ|^) примерно равна ядру плотности. Грубо говоря, ядро плотности представляет апостериорное

распределение параметрического вектора в случае, когда априорное распределение равномерно ^). Даже когда априорное распределение сильно отличается от равномерного, ядро плотности обычно дает асимптотическое распределение вектора параметров. В частности, когда р(х|Ѳ) не дифференцируема и число выборок велико, g(s, Ѳ) обычно имеет острый пик при некотором значении Ѳ=Ѳ. Если априорная плотность р(Ѳ) непрерывна при Ѳ=Ѳ и р(Ѳ) не равна нулю, то функция р(Ѳі^) приближается к ядру плотности ^($, Ѳ).