2.1. ВВЕДЕНИЕ

Байесовская теория принятия решений составляет основу статистического подхода к задаче классификации образов. Этот подход основан на предположении, что задача выбора решения сформулирована в терминах теории вероятностей и известны все представляющие интерес вероятностные величины. В данной главе изложены основные положения этой теории и показано, что ее можно рассматривать просто как формализацию общепринятых приемов. В последующих главах рассматриваются задачи, возникающие в случаях, когда вероятностная структура известна не полностью.

Прежде чем дать в разд. 2.2 общее строгое изложение байесовской теории решений, остановимся на конкретном примере. Вернемся к рассмотренной в гл. 1 задаче построения классификатора, различающего два вида древесины — ясень и березу. Предположим, что наблюдателю, следящему за выпуском древесины с завода, представляется настолько трудным предсказать, какого вида древесина появится следующей, что последовательность ее видов кажется ему случайной. Используя терминологию теории решений, можно сказать, что появление куска древесины того или иного вида означает, что природа пришла в одно из двух состояний — древесина оказывается либо ясенем, либо березой. Обозначим состояния природы символом со, причем для ясеня со = соь а для березы о)={і)2. Состояние со может рассматриваться как случайная величина в том смысле, что состояние природы не предсказуемо.

Если фабрика выпускает ясеня столько же, сколько березы, то можно сказать, что следующий кусок в равной мере может оказаться или ясенем, или березой. В общем случае предположим, что существует некоторая априорная вероятность Р (со,) того, что следующий кусок окажется ясенем, и Р (со2) — что это будет береза. Эти априорные вероятности отражают исходное знание того, с какой степенью уверенности можно предсказать ясень или березу до их действительного появления. Предполагается, что величины Р(<0і) и Р(со2) неотрицательны и сумма их равна единице1).

Допустим сначала, что требуется решить, какой из видов древесины появится следующим, не видя ее. Единственная информация, которой мы располагаем, это величины априорных вероятностей. Если решение необходимо принять, исходя из столь малой информации, то разумно воспользоваться следующим решающим правилом', принять решение соь если Р(сйі)>Р(сй2), и со2 в противном случае.

Эта процедура может показаться странной в том смысле, что в любом случае принимается одно и то же решение, хотя и известно о возможности появления обоих видов древесины. Насколько она

хороша, зависит от величины априорных вероятностей. Если P(Wl) намного больше, чем Р(со2), то наше решение отдавать предпочтение о)і должно большей частью оправдываться. Если P(to1)= = Р(со2), то у нас 50 шансов из 100 быть правыми. Вообще вероятность ошибки равна в данном случае меньшей из величин Р (соО и Р(со2), а из дальнейшего станет видно, что при таких условиях никакое другое правило решения не даст меньшей вероятности ошибки.

В большинстве случаев при выборе решения не ограничиваются столь малой информацией. В нашем примере в качестве определяющего признака можно взять яркость х оттенка древесины. Разные куски древесины выглядят светлее или темнее, так что естественно выразить это различие с помощью вероятностных законов, а х рассматривать как непрерывную случайную величину, распределение которой зависит от состояния природы. Пусть р (я|со;) — условная плотность распределения величины х в состоянии со;-, т. е. функция плотности распределения случайной величины х при условии, что состояние природы есть со;-. В этом случае различие между р (jc[ojх) и р (х|со2) отражает различие яркости оттенков ясеня и березы (рис. 2.1).

Допустим, что известны как априорные вероятности Р (соД так и условные плотности p(x|to7-). Предположим далее, что мы измеряем яркость оттенка древесины и находим, что это есть х. Ответ на вопрос, в какой мере это измерение повлияет на наше представление об истинном состоянии природы, дает правило Байеса:

где

Правило Байеса показывает, как наличие измеренной величины х позволяет из априорной вероятности Р (со;-) получить апостериорную

вероятность Р (tojpc). Зависимость Р (со;[х) от х для случая Р (со0=2/3 и Р(сог)=1/3 показана на рис. 2.2. Если при наблюдении получено значение х, для которого Р (со^х) больше, чем Р(о)2|л;), то естественно склониться к решению, что истинное состояние природы есть tot. Аналогично, если Р (со2|х) больше, чем Р (cojpc), то естественно склониться к выбору to2. Чтобы обосновать это, вычислим вероятность ошибки при принятии решения, когда наблюдалось определенное значение х:

Очевидно, что в каждом из случаев, когда наблюдается одно и то же значение х, вероятность ошибки можно свести к минимуму, принимая решение to,, если Р (<о1|лг)>/> (со2|л:), и со2, если Р(св4|*)> >Я(юі|х). Разумеется, мы не можем дважды наблюдать точно то же самое значение величины х. Будет ли это правило минимизировать среднюю вероятность ошибки? Да, поскольку средняя веро-

ятность ошибки определяется выражением

и если для каждого х вероятность Р (ошибка|х) достигает наименьшего значения, то и интеграл должен быть минимальным. Этим мы обосновали следующее байесовское решающее правило, обеспечивающее наименьшую вероятность ошибки:

Самим видом решающего правила подчеркивается роль апостериорных вероятностей. Используя уравнение (1), можно выразить это правило через условные и априорные вероятности. Заметим, что р(х) в уравнении (1) с точки зрения принятия решения роли не играет, являясь всего-навсего масштабным множителем, обеспечивающим равенство Р(сйі|х)+Я(со2|х)=1. Исключив его, получим следующее решающее правило, полностью эквивалентное прежнему:

Чтобы пояснить существо вопроса, рассмотрим крайние случаи. Пусть для некоторого х получено, что р (х|соі)=р (х|со2), так что конкретное наблюдение не дает информации о состоянии природы. В этом случае решение, которое мы примем, целиком зависит от априорных вероятностей. С другой стороны, если /3(соі)=/3((о2), то состояния природы априорно равновозможны, и вопрос о принятии решения опирается исключительно на р(х|со>)— правдоподобие (£>j при данном х. В общем случае при выборе решения важны обе указанные величины, что и учитывается правилом Байеса, обеспечивающим наименьшую вероятность ошибки.