4.11. МНОЖЕСТВЕННЫЙ ДИСКРИМИНАНТНЫЙ АНАЛИЗ

Для задачи с с классами естественное обобщение линейного дискриминанта Фишера включает с—1 разделяющих функций. Таким образом, проекция будет из d-мерного пространства на (с—1)-мерное пространство, причем принимается, что d^c. Обобщение для матрицы разброса внутри класса очевидное;

где, как и прежде, и

Соответствующее обобщение для не так очевидно. Предположим, что мы определяем полный веюпор средних значений m и полную матрицу разброса посредством

и

Отсюда следует, что

Естественно определять этот второй член как матрицу разброса между классами, так что полный разброс есть сумма разброса внут-

ри класса и разброса между классами:  и

В случае с двумя классами мы обнаружим, что полученная в результате матрица разброса между классами будет в nitijn раз больше нашего предыдущего определения. Мы могли бы переопределить Sg для случая с двумя классами, чтобы добиться полного согласования, но вспомнив замечание Эмерсона о том, что бессмысленное согласование — идол недалеких умов, пойдем дальше.

Проекция из d-мерного пространства в (с—1)-мерное пространство осуществляется с помощью с—1 разделяющих функций

Если считать уі составляющими вектора у, а векторы весовых функций W; столбцами матрицы W размера dx (с—1), то проекцию можно записать в виде одного матричного уравнения

Выборки Хі, . . . , х„ проецируются на соответствующее множество выборок уі, . . . , у„, которые можно описать с помощью их векторов средних значений и матриц разброса. Так, если мы определяем

и

то можно непосредственно получить и

Эти уравнения показывают, как матрицы разброса внутри класса и между классами отображаются посредством проекции в пространство меньшей размерности. Мы ищем матрицу отображения W,

которая в некотором смысле максимизирует отношение разброса между классами к разбросу внутри класса. Простым скалярным показателем разброса является определитель матрицы разброса. Определитель есть произведение собственных значений, а следовательно, и произведение «дисперсий» в основных направлениях, измеряющее объем гиперэллипсоида разброса. Пользуясь этим показателем, получим функцию критерия

Задача нахождения прямоугольной матрицы W, которая максимизирует J, не из легких. К счастью, оказывается, что ее решение имеет относительно простой вид ^). Столбцы оптимальной матрицы W являются обобщенными собственными векторами, соответствующими наибольшим собственным значениям в

Следует сделать несколько замечаний относительно этого решения. Во-первых, если Sг — невырожденная матрица, то задачу, как и прежде, можно свести к обычной задаче определения собственного значения. Однако в действительности это нежелательно, так как при этом потребуется ненужное вычисление матрицы, обратной Su7. Вместо этого можно найти собственные значения как корни характеристического полинома

а затем решить

непосредственно для собственных векторов w^. Поскольку является суммой с матриц ранга единица или менее и поскольку только с—1 из них независимые матрицы, имеет ранг с—1 или меньше. Так что не более с—1 собственных значений не нули и искомые векторы весовых функций соответствуют этим ненулевым собственным значениям. Если разброс внутри класса изотропный, собственные векторы будут просто собственными векторами матрицы Sg, а собственные векторы с ненулевыми собственными значениями стягивают пространство, натянутое на векторы nij—m. В этом частном случае столбцы матрицы W можно найти, просто применяя процедуру ортонормирования Грама — Шмидта к с—1 векторам т^. Наконец, заметим, что, вообще говоря, решение для W не является однозначным. Допустимые преобразования включают вращение и масштабирование осей различными путями. Это все линейные преобразования из (с—1)-мерного пространства в (с—1)-мерное пространство, и они

не меняют значительно положения вещей. В частности, они оставляют функцию критерия J(W) инвариантной.

Как и в случае с двумя классами, множественный дискриминантный анализ в первую очередь позволяет сократить размерность задачи. Параметрические или непараметрические методы, которые могут не сработать в первоначальном (многомерном) пространстве, могут хорошо действовать в пространстве меньшей размерности. В частности, можно будет оценить отдельные ковариационные матрицы для каждого класса и использовать допущение об общем многомерном нормальном распределении после преобразования, что было невозможно сделать с первоначальными данными. Вообще преобразование влечет за собой некоторое ненужное перемешивание данных и повышает теоретически достижимый уровень ошибки, а проблема классификации данных все еще ортается. Существуют другие пути уменьшения размерности данных, и мы вернемся к этой теме в гл. 6. Существуют также другие методы дискриминантного анализа; некоторые из них упоминаются в литературе к этой главе. Одним из самых фундаментальных и наиболее широко используемых методов все же остается метод Фишера.