2.13.        БИБЛИОГРАФИЧЕСКИЕ И ИСТОРИЧЕСКИЕ СВЕДЕНИЯ

Теория принятия решений связывается с именами многих известных математиков-статистиков, так что этому вопросу посвящено большое число научных работ. Среди общепринятых учебников по теории принятия решений имеются работы Вальда (1950), Блекуэл- ла и Гиршика (1954) и более элементарная книга Чернова и Мозеса

(1959). Интерес представляет также работа Фергюсона (1967), в которой рассматривается ряд вопросов статйстики с точки зрения принятия решений. Теория принятия решений тесно связана с теорией игр, развитой в классическом труде Неймана и Моргенш- терна (1944) и в работе Льюса и Райфы (1957).

Основополагающий труд по теории принятия решений Неймана и Пирсона (1928, 1933) посвящен вопросам проверки гипотез, с использованием в качестве критерия вероятности ошибки. Дальнейшее развитие эта теория получила у Вальда (1939), который ввел понятия потерь и риска. Определенный круг задач связан с использованием функций потерь и априорных вероятностей. На практике же многие статистики не применяют байесовский подход отчасти из-за того, что имеют дело с задачами, решение в которых принимается лишь однажды (в связи с чем теряет смысл понятие средних потерь), отчасти из-за отсутствия приемлемого способа определения априорных вероятностей. Ни одно из указанных обстоятельств не представляет серьезных трудностей при решении типичной задачи распознавания образов, поэтому классический байесовский подход в данном случае наиболее прост и целесообразен.

Чоу (1957) одним из первых применил байесовскую теорию принятия решений к задаче распознавания образов. В свой анализ он ввел отказ от принятия решения, а в дальнейшем установил основное соотношение между величинами ошибки и коэффициентом отказов (Чоу, 1970). Точный расчет вероятности ошибки весьма сложен, в связи с чем большинство опубликованных результатов связано с определением границ для уровня ошибки (Альбрехт и Вернер, 1964; Ча и Чуй, 1967; Лейниотис и Парк, 1971). Разделяющие функции к задаче классификаций были применены Фишером (1936); его подход будет рассмотрен в гл. 4. Мы используем это понятие, следуя Нильсону (1965). Андерсон (1958) детально ис

следовал случай многомерного нормального распределения и получил квадратичные разделяющие функции несколько иного вида. Мэ- рилл и Грин (1960) показали, как можно применить это решение при распознавании образов. Купер (1964) исследовал другие непрерывные распределения, для которых применение линейных и квадратичных разделяющих функций является оптимальным.

Согласно Нильсону (1965), линейные разделяющие функции для случая двоичных независимых переменных (и многомерных, распределенных по закону Бернулли) получены Дж. В. Джонсом, хотя впервые публикации по этому вопросу появились у Минского

(1961)    и в дальнейшем с различными обоснованиями опубликованы Уиндером (1963) и Чоу (1965). Казмирчаком и Штейнбухом (1963) получены оптимальные квадратичные разделяющие функции для случай тернарных независимых переменных; случай этот легко обобщить для вывода полиномиальных разделяющих функций п-й степени, .определяющих условия оптимальности для случая (п+1)- арных независимых переменных. Если не требовать независимости переменных, то даже для случая бинарных переменных понадобятся полиномы более высоких степеней. После разбора в гл. 4 полиномиальных представлений совместных вероятностей вопрос этот станет более ясным.

Высокая степень полиномов, содержащих большое количество переменных, естественно, нежелательна из-за усложнения расчетов. Поэтому в случаях, когда оптимальная разделяющая функция нелинейна, тем не менее возникает потребность найти оптимальную линейную разделяющую функцию. Однако часто выявляются весьма серьезные трудности при выводе линейной разделяющей функции, удовлетворяющей требованию минимального риска. Кроме полученного Андерсоном и Бахадуром (1962) решения общего многомерного нормального случая для двух классов, других общих решений получено не было. Вместе с тем, как будет показано в гл. 5, решения многих задач можно найти, применяя другие критерии, помимо критерия минимума риска.

Общая байесовская теория составных решений связана с более разнообразными задачами, нежели ранее описанная простая байесовская теория. Объяснение основных положений теории составных решений дано Абендом (1966); им же приведен ряд важных ссылок на соответствующие работы по статистике. Оптимальные процедуры распознавания для случая марковской зависимости состояний природы предложены Равивом (1967) и Абендом (1968), причем Равив сообщает о результатах применения этих процедур при распознавании стандартного английского текста. В работе Абенда, Харли и Кенала (1965) показано, как можно распространить марковский подход с одномерной ситуации на двумерные. Эффективная с точки зрения удобства вычислений методика описана Райзманом

и Эрихом (1971), указавшими на ряд работ по учету контекста в распознавании.

Заметим в заключение, что в части I данной книги везде молчаливо подразумевается, что до того, как принимается решение, производится измерение всех d компонент вектора признаков. Возможен и другой способ, с использованием дерева решений, при котором оценка признаков производится последовательно вплоть до момента, когда решение становится возможным. Статистический анализ такого подхода требует учета цены измерения признаков и цен получаемых ошибок и составляет предмет теории последовательного анализа (Вальд, 1947; Фу, 1968). Слейгл и Ли (1971) показали, как к задачам такого вида применять методы, разработанные для исследования деревьев в теории игр.