3.10.        БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ

Оценка параметров составляет основной предмет математической статистики, весьма полно представленный во многих классических трудах, таких, как работы Хоула (1971) и Уилкса (1962). Обычно на практике применяются оценки по максимуму правдоподобия и байесовские оценки, причем в качестве последних часто используется среднее значение апостериорного распределения р (Щ&). Оценка по максимуму правдоподобия введена Р. А. Фишером, указавшим на многие ее замечательные свойства. К таким свойствам, в частности, относится возможность избежать решения сложного вопроса выбора соответствующей априорной плотности р (Ѳ).

Необдуманное применение лапласовского принципа недостаточного основания для введения предположения о равномерных априорных распределениях, а также принятие предположения о случайности параметра, который всего-навсего неизвестен, столь сурово осуждались Фишером и Нейманом, что принципиальная основа байесовской оценки стала пользоваться дурной репутацией. В последние годы байесовским методам возвращена их былая респектабельность, что отчасти объясняется той легкостью, с которой они связывают известными условиями неизвестные параметры.

С введением новых принципов, таких, как принцип максимума энтропии, разъяснились некоторые старые парадоксы (Джайнес, 1968). Более спорная, но тем не менее живительная поддержка была оказана «субъективистской» или «индивидуалистской» школой статистиков, рассматривающей априорные распределения как средство выражения нашего представления о неизвестных параметрах (Сэвидж, 1962). Так как в обычных условиях байесовские оценки и оценки по максимуму правдоподобия приводят примерно к одним и тем же результатам, то, если объем выборки достаточен, принципиальное различие этих оценок редко имеет важные последствия.

Віайесовский подход к обучению при распознавании образов основан на предположении, что подходящим путем использования выборок при неизвестных условных плотностях является вычисление P(a)t\x, &) (Браверман, 1962). Абрамсоном и Браверманом (1962) получено рекуррентное байесовское решение для обучения среднему в случае нормальной плотности, а Кин (1965) развил это решение на случай, когда неизвестны вектор среднего значения и ковариационная матрица. Байесовское обучение для ряда нестационарных и отличных от нормального случаев исследовалось Байснером (1968) и Ченом (1969). Как пример использования байесовского обучения в самом общем смысле Лейниотисом (1970) установлена связь между нормальным решением для случая многих переменных и хорошо известными результатами из других областей, а именно кальмановской фильтрацией в теории управления и корреляционно-оценочным детектированием в теории связи. Чином и Фу

(1967) исследовалась сходимость этих оценок посредством сопоставления байесовского обучения и стохастической аппроксимации. Хорошее, сжатое изложение вопросов сходимости предложено Аоки

(1965).

Получение простого выражения для апостериорной плотности р(Ѳ\&) обычно требует тщательного выбора априорной плотности р (Ѳ), так называемой «естественно сопряженной» плотности. Спред- жинсом (1965) показано, что существенное упрощение при использовании воспроизводящих плотностей получается не за счет какого- либо особого свойства априорной плотности, а благодаря наличию простой достаточной статистики для р (х|Ѳ). Введение достаточных статистик — еще один вклад Фишера. Строгое обоснование теоремы факторизации получено Леманом (1959), а анализ плотностей, приводящих к простым достаточным статистикам, проведен Дынки- ным (1951).

Проблемы, связанные с увеличением размерности, ясно разобраны в статье Кенала и Чандрасекарана (1968), оказавшей влияние и на наше отношение к данному вопросу. Задачи эти не сводятся только к параметрическим методам; кстати, применение к ним непараметрических методов более строго будет изложено в гл. 4 и 5. Хотя задачами такого рода насыщены многие из практических проектов, в ранних изданиях им уделялось мало внимания, видимо, в связи со сложностью анализа. Однако следы этих задач можно усмотреть в частых замечаниях о возможном несоответствии или не- представительности имеющихся данных. Кенал и Рендал (1964), рассмотрев задачу оценки ковариационных матриц, пришли к оценке, предложенной для частного случая Т. Дж. Харли, и сочли ее весьма важной. Исчерпывающие исследования, касающиеся линейного разделения, и распространение их на другие виды разделяющих поверхностей опубликованы Ковером (1965), указавшим на возможность их применения при обработке конструктивных выборок. Олейс

(1966)    рассмотрел задачу оценки, в которой переменные были распределены нормально, а для неизвестных параметров использовались оценки по максимуму правдоподобия. На основании проведенного анализа им были обоснованы условия, при которых увеличение числа переменных может повлечь за собой рост ожидаемого квадратичного отклонения, он же пришел к мысли, что сходные явления возможны и в задачах классификации. К сожалению, в простых случаях это явление места не имеет. Результаты, полученные Чандра- секараном (1971), показывают, что если признаки статистически независимы, то эффект этот не проявляется никогда. Таким образом, это явление относится к трудным для анализа зависимым случаям.

Хугс (1968) предложил усреднение по задачам и разрубил этот гордиев узел, объединив задачи классификации всех типов — с полной зависимостью, полной независимостью и все промежуточные случаи. Так как усредненный по задачам уровень ошибки сначала

убывает до некоторого минимума, а затем возрастает с ростом числа признаков, то можно прийти к заключению, что такое поведение типично при ограниченном числе выборок. Нами приведены результаты для случая, когда два класса предполагаются одинаково правдоподобными. Хугсом рассмотрены также уровни ошибок для случаев произвольных априорных вероятностей, но разъяснение этих результатов слишком трудно, поскольку они бывают иногда даже хуже, чем при учете только априорных вероятностей. Абенд и Харли (1969) пришли к выводу, что это поведение обусловлено использованием оценок по максимуму правдоподобия вместо байесовских, а Чандрасекаран и Харли (1969) получили и исследовали усредненный по задачам уровень ошибки для байесовского случая. При равенстве априорных вероятностей и равенстве числа выборок в каждом классе результаты байесовских оценок и оценок по максимуму правдоподобия оказываются одинаковыми.

Другим источником дискуссий в ранних работах по распознаванию образов явился вопрос об оценке действия и сравнении различных классификаторов. Частично это можно представить из заметок по распознаванию рукописных букв, опубликованных в июне 1960 г. и марте 1961 г. в IRE Transactions on Electronic Computers. Общая процедура использования некоторых выборок для построения и резервирования запаса для контроля часто называется удержанием или #-методом. Исследования Хайлимана (1962) указывают на необходимость чрезвычайно большого числа пробных выборок, однако Кенал и Чандрасекаран (1968) показали, что анализ, по существу, и предназначен для случая многих выборок. Проведенное Лахенбруком и Миккей (1968) исследование методом Монте-Карло явилось свидетельством превосходства метода поштучного исключения, который они назвали (/-методом. Хотя при применении этого метода и требуется я-кратное построение классификатора, они показали, что по крайней мере в случае нормального распределения работа, связанная с повторным обращением ковариационных матриц, может быть значительно уменьшена посредством применения тождества Бартлетта (см. задачу 10). Введенные Фукунагой и Кес- селем (1971) простые и точные формулы свидетельствуют о том, что дополнительных расчетов в этом случае требуется совсем немного.