6.3. ОЦЕНКИ ПО МАКСИМУМУ ПРАВДОПОДОБИЯ

Предположим теперь, что нам дано множество .2^ = {хі, . . . ... , п непомеченных выборок, извлеченных независимо из смеси с плотностью

где вектор параметров Ѳ фиксирован, но неизвестен. Правдоподобие наблюдаемых выборок по определению — это совместная плотность

Оценка по максимуму правдоподобия Ѳ — это то значение Ѳ, которое максимизирует р{^\Ѳ).

Если мы предположим, что р (.2^|Ѳ) — дифференцируемая функция по Ѳ, то можем получить некоторые интересные необходимые условия для Ѳ. Пусть I—логарифм правдоподобия, и пусть щі — градиент I по отношению к 6,. Тогда

и

Если мы предположим, что элементы векторов Ѳг и функционально независимы при іф], и если вводим апостериорную вероятность

то видим, что градиент логарифма правдоподобия можно записать в удобной форме;

Поскольку градиент должен обратиться в нуль при Ѳ,-, которое максимизирует I, оценка по максимуму правдоподобия Ѳг должна удовлетворять условиям

Обратно, среди решений этих уравнений для Ѳ; мы найдем решение, удовлетворяющее максимуму правдоподобия.

Нетрудно обобщить эти результаты, включив априорные вероятности Р{(Лі) в неизвестные величины. В этом случае поиск максимального значения р (^ІѲ) распространяется на Ѳ и Р (coj) при ограничениях

и

Пусть Р (cOj)— оценка по максимуму правдоподобия для Р{(Лі), и пусть Ѳ,—оценка по максимуму правдоподобия для Ѳ(. Прилежный читатель сможет показать, что если функция правдоподобия дифференцируема и если Р(©і)т^о для любого і, то Р (cOj) и Ѳ,- должны удовлетворять соотношениям

и

где