6.4.3. СЛУЧАЙ 2. ВСЕ ПАРАМЕТРЫ НЕИЗВЕСТНЫ

Если и Р((Оі) неизвестны и на матрицу ковариаций огра

ничения не наложены, то принцип максимума правдоподобия дает бесполезные вырожденные решения.Пусть р{х\\к, а^) —двухкомпонентная нормальная плотность смеси

Функция правдоподобия для п выборок, полученная согласно этому вероятностному закону, есть просто произведение п плотностей р{хи\іі, а*). Предположим, что ц=Хі, так что

Ясно, что для остальных выборок

так что

Таким образом, устремляя о к нулю, мы можем получить произвольно большое правдоподобие, и решение по максимуму правдоподобия будет вырожденным.

Обычно вырожденное решение не представляет интереса, и мы вынуждены заключить, что принцип максимума правдоподобия не работает для этого класса нормальных смесей. Однако эмпирически установлено, что имеющие смысл решения можно все-таки получить, если мы сосредоточим наше внимание на наибольшем из конечных локальных максимумов функции правдоподобия. Предполагая, что функция правдоподобия хорошо себя ведет на таких максимумах, мы можем использовать соотношения (9)—(11), чтобы получить оценки для fi/. 2 г и Р((Ог)- Когда мы включаем элементы матрицы 2 і в элементы вектора параметров Ѳ,, мы должны помнить, что только половина элементов, находящихся вне диагонали, независимы. Кроме этого, оказывается намного удобней считать неизвестными параметрами независимые элементы матрицы а не матрицы Si. После этого дифференцирование

по элементам fi,- и не представляет труда. Пусть Хр{к)~р-ц элемент х^, |jl^,(i)—р-й элемент fi,., apg{i)--pq-yi элемент 2^ и аР9 (і) _ pq.pi элемент Тогда

где 8рд— символ Кронекера. Подставляя эти результаты в (10) и проделав некоторые алгебраические преобразования, мы получим следующие выражения для оценок |Шг, 2j и P((Oj) по локальному максимуму правдоподобия:

где

Хотя обозначения внешне весьма усложняют эти уравнения, их интерпретация относительно проста. В экстремальном случае при P((Oj|Xft, Ѳ^), равном единице, если х^ принадлежит классу (Oj, и равном нулю в противном случае, оценка Р{а>і) есть доля выборок из (і>і, оценка |uij— среднее этих выборок и 2 ^— соответствующая матрица ковариаций выборок. В более общем случае, когда Р((дг|х)г, Ѳ) находится между нулем и единицей, все выборки играют некоторую роль в оценках. Однако и тогда оценки в основном — это отношения частот, средние выборок и матрицы ковариаций выборок.

Проблемы, связанные с решением этих неявных уравнений, сходны с проблемами, рассмотренными в п. 6.4.1. Дополнительная сложность состоит в необходимости избегать вырожденных решений. Из различных способов, которые можно применить для получения решения, самый простой состоит в том, чтобы, используя начальные оценки в (17), получить P((o,|Xft, 0,) и затем, используя соотношения (14)—(16), обновить эти оценки. Если начальные оценки очень хорошие, полученные, возможно, из достаточно большого множества помеченных выборок, сходимость будет очень быстрой. Однако результат зависит от начальной точки, и всегда остается проблема неединственности решения. Более того, повторные вычисления и обращение матриц ковариаций может потребовать много времени.

Значительного упрощения можно достичь, если предположить, что матрицы ковариаций диагональны. Это дает возможность уменьшить число неизвестных параметров, что очень важно, когда число выборок невелико. Если это предположение слишком сильно, то еще возможно получить некоторое упрощение, предполагая, что о матриц ковариаций равны, что тоже снимает проблему вырожденных

решений. Вывод соответствующих уравнений для оценки по максимуму правдоподобия для этого случая рассматривается в задачах 5 и 6.