5.3. ОБОБЩЕННЫЕ ЛИНЕЙНЫЕ РАЗДЕЛЯЮЩИЕ ФУНКЦИИ

Линейная разделяющая функция g(x) может быть записана в следующем виде:

где коэффициенты Wt являются компонентами весового вектора w. Добавив в это уравнение члены, содержащие произведения двух

компонент вектора х, получим квадратичную разделяющую функцию

Не нарушая обш,ности, можно положить wij=wji, поскольку XiXj= =Х]Хі- Таким образом, в формулу квадратичной разделяюш,ей функции входят d(d+l)/2 дополнительных коэффициентов; это позволяет получать более сложные разделяюш,ие поверхности. Разделяющая поверхность, определяемая уравнением g(x)=0, является поверхностью второго порядка, или гиперквадрикой. Если симметричная матрица W=[wij] невырожденна, то линейные члены в g(x) могут быть исключены путем преобразования системы координат, и основное свойство разделяющей поверхности может быть описано с помощью масштабированной матрицы U?^=W7/(w*W7~iw— —4ш,о)- Если матрица W является положительным кратным единичной матрицы, разделяющая поверхность будет гиперсферой. Если W — положительно определенная матрица, то разделяющая поверхность — гиперэллипсоид. Если некоторые характеристические числа матрицы W положительны, а другие отрицательны, то поверхность является одним из гипергиперболоидов. Как было отмечено в гл. 2, это все виды разделяющих поверхностей, которые появляются в общем случае многомерного нормального распределения.

Продолжая вводить дополнительные члены, такие, как ooijkXiXjXfi, можно получить класс полиномиальных разделяющих функций. Указанные функции можно рассматривать как усеченные разложения в ряд некоторой произвольной функции g(x), что в свою очередь ведет к представлению об обобщенных линейных разделяющих функциях, имеющих следующий вид;

или

где а есть d-мерный весовой вектор, а d функций Уі (х) (иногда называемых ф-функциями) могут быть произвольными функциями от X. Выбирая указанные функции соответствующим образом и полагая d достаточно большим, можно аппроксимировать любую заданную разделяющую функцию таким разложением в ряд. Полученная разделяющая функция нелинейна относительно х, однако линейна относительно у. Отображение точек d-мерного пространства х в d- мерное пространство у осуществляют d функций г/г(х). Однородная разделяющая функция а*у разделяет точки в данном отображенном пространстве посредством гиперплоскости, проходящей через на-

чало координат. Таким образом, переход от х к у сводит задачу к определению однородной линейной разделяющей функции.

Некоторые преимущества и недостатки данного подхода можно продемонстрировать на простом примере. Пусть g(x) будет квадратичной разделяющей функцией

так что трехмерный вектор у задается матрицей

Переход от х к у показан на рис. 5.4. Данные, по существу, остаются одномерными, поскольку изменение х соответствует появлению кривой в трехмерном пространстве у. Таким образом, отсюда сразу

вытекает тот факт, что, если х подчиняется вероятностному закону р(х), отображенная функция плотности р(у) становится вырожденной, обращаясь в нуль везде, кроме кривой, где она принимает бесконечно большие значения.

Приведенный пример представляет собой общую задачу, возникающую в случае, когда d>d, и отображение точек происходит из пространства с меньшей размерностью в пространство с большей размерностью.

Плоскость Н, определяемая уравнением а*у=0, делит пространство у на две области решений: и йг- На рис. 5.5 показана разделяющая плоскость, определяемая вектором а==(—1 1 2)^ и соответствующие области решений cRi и оЯа в пространстве х. Квадратич-

ная разделяющая функция g (х)=—1+х+2х^ положительна, если х<.—1 или если х>0,5, так что область §h является многосвязной. Таким образом, хотя области решений в у-пространстве выпуклые, это отнюдь не обязательно имеет место в х-пространстве. Даже при наличии сравнительно простых функций Уі{х) поверхности решений, отображенные в х-пространство, могут быть весьма сложными.

К сожалению, «проклятие размерности» усложняет практическое использование возможностей классификатора. Полная квадратичная разделяющая функция включает d=(d+l)(d+2)/2 членов. Если d сравнительно велико, скажем d=50, то требуется вы

числение большого числа членов. Включение кубичных членов й членов с более высоким порядком приводит к еще большим значениям d. Более того, d компонент весового вектора а должны определяться из выборок. Если d придается смысл числа степеней свободы разделяющей функции, то естественным будет требование, чтобы число выборок было не меньше, чем это число степеней свободы. Очевидно, что в случае общего разложения в ряд функции g(x) можно легко прийти к совершенно нереальным требованиям в отношении процесса вычислений и необходимых данных.

В случае обобщенной линейной разделяющей функции, хотя и трудно реализовать ее потенциальные преимущества, по крайней мере достигается удобство записи g(x) в виде однородной функции а*у. В частном случае линейной разделяющей функции вида

можно написать и

Данный переход от d-мерного пространства х к (й+1)-мерному пространству у с математической точки зрения тривиален и тем не менее достаточно удобен. Добавление постоянной компоненты к х не нарушает соотношений в расстояниях между выборками. Все получаемые векторы у лежат в d-мерном подпространстве, являю- ш,емся самим х-пространством. Определяемая соотношением а*у=0 гиперплоскость поверхности решений Н всегда проходит через начало координат у-пространства, несмотря на то что соответствуюш,ая гиперплоскость Я может располагаться в х-пространстве произвольным образом. Расстояние от у до Я выражается отношением 1а*у|/Ца||, или |g(x)|/||a|l. Поскольку 1|аЦ>|Н|, то данное расстояние меньше или в лучшем случае равно расстоянию от х до Я. При использовании указанного отображения задача нахождения весового вектора W и величины порога Wo сводится к определению одного весового вектора а.