3.5. БАЙЕСОВСКОЕ ОБУЧЕНИЕ В ОБЩЕМ СЛУЧАЕ

Только что мы видели, каким образом может использоваться байесовский подход для получения требуемой плотности р в конкретном случае многих нормально распределенных переменных. Этот подход можно распространить на любую ситуацию, при которой допускается параметризация неизвестной плотности. Основные допущения при этом следующие:

1).  Вид плотности р(х|Ѳ) предполагается известным, хотя точное значение параметрического вектора Ѳ неизвестно.

2).  Предполагается, что наше исходное представление о величине Ѳ основано на известной априорной плотности р(Ѳ).

3).  Все прочие знания о Ѳ мы получаем из множества содержащего п выборок хі, . . ., х„, извлекаемых независимо в соответствии с неизвестным вероятностным законом р(х).

Основная задача состоит в вычислении апостериорной плотности p{Q\-^), так кай, имея ее, можно посредством соотношения (14) вычислить

Согласно байесовскому правилу, имеем  а в соответствии с предположением о независимости

Нами получено формальное решение данной задачи. Как оно соотносится с решением по максимуму правдоподобия, видно из выражений (14) и (34). Предположим, что р(^Щ имеет острый пик при Ѳ=Ѳ. Если априорная плотность р(Ѳ) при Ѳ=Ѳ не равна нулю и не претерпевает больших изменений в окрестности этой точки, то рЩЗ^) также имеет пик в этой точке. Из (14), таким образом, следует, что р{х\3^) будет примерно представлять р(х|Ѳ), и результат этот можно было бы получить, используя оценку по максимуму правдоподобия, как если бы она и была истинным значением. Если же пик p{S\Q) не настолько остр, чтобы можно было пренебречь влиянием априорной информации или неопределенностью истинного значения величины Ѳ, то способ использования имеющейся информации для расчета требуемой плотности р{х\3^) подсказывается байесовским решением.

Хотя нами получено формальное байесовское решение задачи, остается еще ряд интересных вопросов. Один из них относится к трудностям проведения указанных вычислений. Другой вопрос имеет отношение к сходимости р к р (х). Сначала кратко обсудим вопрос сходимости, а позже вернемся к вопросу о вычислениях.

Для четкого обозначения числа выборок в.множестве, используем запись вида ^'‘={хи . . ., х„}. Далее из соотношения (35) для п>1 получим

Подставляя это выражение в (34) и применяя байесовское правило, получим для определения апостериорной плотности следующее рекуррентное соотношение;

Многократно применяя эту формулу с учетом того, что р (Ѳ|.2^“)= =р(Ѳ), получим последовательность плотностей р(Ѳ), р(Ѳ|хі), р (Ѳ|Хі, Ха) и т. д. Это и есть так называемый рекурсивный байесовский подход к оценке параметров. Если последовательность плотностей имеет тенденцию сходиться к дельта-функции Дирака с центром вблизи истинного значения параметра, то это часто называют байесовским обучением.

Для большинства обычно встречающихся плотностей р(х|Ѳ) последовательность апостериорных плотностей сходится к дельтафункции. Это, грубо говоря, означает, что в случае большого числа выборок существует лишь одно значение Ѳ, которое приводит р(х|Ѳ) к такому соответствию с реальностью, т. е. что Ѳ может быть однозначноопределено из р(х1Ѳ). В этом случае говорят, что плотность р(хіѲ) идентифицируема. Для строгого доказательства сходимости при указанных условиях нужна точная формулировка тре-

буемых свойств величин р (х|Ѳ) и р (Ѳ) и тщательное обоснование выводов, но серьезных трудностей это не представляет.

Существуют, однако, случаи, при которых одно и то же значение р(х|Ѳ) получается более чем для одного значения Ѳ. В таких случаях величина Ѳ не может быть определена однозначно из р (х|Ѳ), а р (Щ&п) будет иметь пик вблизи каждого из указанных значений Ѳ. К счастью, эта неопределенность исчезает при интегрировании соотношения (14), так как р(х|Ѳ) одинакова для всех указанных значений Ѳ. Таким образом, р(х\№п) будет неизбежно сходиться к р{\) независимо от того, идентифицируема или нет р(х|Ѳ). Хотя в связи с этим проблема идентифицируемости начинает казаться чем-то не заслуживающим внимания, из гл. 6 мы увидим, что она приобретает первостепенное значение в случае обучения без учителя.