6.5.2. ОБУЧЕНИЕ ВЕКТОРУ ПАРАМЕТРОВ

Используя правило Байеса, можем написать

где независимость выборок приводит к

С другой стороны, обозначив через X'' множество п выборок, мы можем записать соотношение (20) в рекуррентной форме

Это основные соотношения для байесовского обучения без учителя. Уравнение (20) подчеркивает связь между байесовским решением и решением по максимуму правдоподобия. Если р(Ѳ) существенно равномерна в области, где имеется пик у p(J^|0), то у рЩ^) имеется пик в том же самом месте. Если имеется только один существенный пик при Ѳ=Ѳ и этот пик очень острый, то соотношения (19) и (18) дают

То есть эти условия ■ оправдывают использование оценки по максимуму правдоподобия, используя ее в качестве истинного значения Ѳ при создании байесовского классификатора.

Естественно, если плотность р(Ѳ) была получена при обучении с учителем с использованием большого множества помеченных вы-

борок, она будет далека от равномерной и это решающим образом повлияет на p{Q\S"), когда п мало. Соотношение (22) показывает, как при наблюдении дополнительных непомеченных выборок изменяется наше мнение об истинном значении Ѳ и особое значение приобретают идеи модернизации и обучения. Если плотность’ смеси р(х|Ѳ) идентифицируема, то с каждой дополнительной выборкой p (Q\S") становится все более острой, и при достаточно общих условиях можно показать, что р(Ѳ\Ж") сходится (по вероятности) к дельта-функции Дирака с центром в истинном значении Ѳ. Таким образом, даже если мы не знаем класса выборок, идентифицируемость дает нам возможность узнать вектор неизвестных параметров Ѳ и вместе с этим узнать плотности компонент p(x|(o,-, Ѳ).

Тогда это и есть формальное байесовское решение задачи обучения без учителя. В ретроспективе тот факт, что обучение без учителя параметрам плотности смеси тождественно обучению с учителем параметрам плотности компонент, не является удивительным. Действительно, если плотность компонент сама по себе является смесью, то тогда действительно не будет существенной разницы между этими двумя задачами.

Однако существуют значительные различия между обучениями с учителем и без учителя. Одно из главных различий касается вопроса идентифицируемости. При обучении с учителем отсутствие идентифицируемости просто означает, что вместо получения единственного вектора параметров мы получаем эквивалентный класс векторов параметров. Однако, поскольку все это приводит к той же плотности компонент, отсутствие идентифицируемости н^ представляет теоретических трудностей, При обучении без учителя отсутствие идентифицируемости представляет более серьезные трудности. Когда Ѳ нельзя определить единственным образом, смесь нельзя разложить на ее истинные кшпоненты. Таким образом, в то время как р {x\S”) может все еще сходиться к р (х), величина р(х|сог, J^”), описываемая выражением (19), в общем не сойдется к p(x|(Oj), т. е. существует теоретический барьер в обучении.

Другая серьезная проблема для обучения без учителя — этр вычислительная сложность. При обучении с учителем возможность нахождения достаточной статистики дает возможность получить решения, которые решаются как аналитическими, так и численными методами. При обучении без учителя нельзя забывать, что выборки получены из плотности смеси

и поэтому остается мало надежды найти простые точные решения дляj}{Q\S'). Такие решения связаны с существованием простой достаточной статистики, и теорема факторизации требует возможности

представления p(S’\Q) следующим образом:

Но по формулам (21) и (1) имеем

Таким образом, р{^\Ь) есть сумма с" произведений плотностей компонент. Каждое слагаемое суммы можно интерпретировать как общую вероятность получения выборок Хі, . . ., х„ с определенными метками, причем сумма охватывает все возможные способы пометки выборок. Ясно, что это приводит к общей смеси Ѳ и всех х, и нельзя ожидать простой факторизации. Исключением является случай, когда плотности компонент не перекрываются, так что, как только в Ѳ изменяется один член, плотность смеси не равна нулю. В этом случае р{Ж\Ѳ) есть произведение п ненулевых членов и может обладать простой достаточной статистикой. Однако, поскольку здесь допускается возможность определения класса любой выборки, это сводит задачу к обучению с учителем и, таким образом, не является существенным исключением.

Другой способ сравнения обучения с учителем и без учителя состоит в подстановке плотности смеси р(х„1Ѳ) в (22) и получении

Если мы рассматриваем особый случай, где Р(соі)=1, а все остальные априорные вероятности равны нулю, соответствующий случаю обучения с учителем, в котором все выборки из класса 1, то формула (23) упрощается до

Сравним уравнения (23) и (24), чтобы увидеть, как дополнительная выборка изменяет нашу оценку Ѳ. В каждом случае мы можем пренебречь знаменателем, который не зависит от Ѳ. Таким образом, единственное значительное различие состоит в том, что в случае обучения с учителем мы умножаем априорную плотность для Ѳ на плотность компоненты р(х„|Юі, Ѳі), в то время как в случае обучения

С

без учителя мы умножаем на плотность смеси ^р(х„|со;-, Ѳ;-)Я(со;).

Предполагая, что выборка действительно принадлежит классу 1, мы видим, что незнание принадлежности какому-либо классу в случае обучения без учителя приводит к уменьшению влияния х„ на

изменение Ѳ. Поскольку х„ может принадлежать любому из с классов, мы не можем использовать его с полной эффективностью для изменения компонент (компоненты) Ѳ, связанных с каким-нибудь классом. Более того, это влияние мы должны распределить на различные классы в соответствии с вероятностью каждого класса.