3.8.2. ОЦЕНКА КОВАРИАЦИОННОЙ МАТРИЦЫ

Начнем наш анализ с задачи оценки ковариационной матрицы. Для этого требуется оценить d {d+1)/2 параметров, из которых d диагональных элементов и d{d—l)/2 независимых недиагональных элементов. Сначала мы видим, что оценка по максимуму правдоподобия

представляет собой сумму ti— 1 независимых матриц размера dxd единичного ранга, чем гарантируется, что она является вырожденной при /г<#. Так как для нахождения разделяющих функций необходимо получить величину, обратную 2, у нас уже есть алгебраические условия, связывающие по крайней мере й-Н выборок. Неудивительно, что сглаживание случайных отклонений для получения вполне приемлемой оценки потребует в несколько раз большего числа выборок.

Часто встает вопрос, как быть, если число имеющихся в распоряжении выборок недостаточно. Одна из возможностей — уменьшить размерность, либо перестраивая выделитель признаков, либо выбирая подходящее подмножество из имеющихся признаков, либо некоторым образом комбинируя имеющиеся признаки1). Другая возможность — это предположить, что все с классов входят в одну ковариационную матрицу, т. е. объединить имеющиеся данные. Можно также попробовать найти лучшую оценку для 2. Если есть какая-нибудь возможность получить приемлемую априорную оценку 2 о, то можно воспользоваться байесовской или псевдобайесов- ской оценкой вида А,20+(1—А,)2. Если матрица 20 диагональная, то уменьшается вредное влияние «побочных» корреляций. С другой стороны, от случайных корреляций можно избавиться эвристически, взяв за основу ковариационную матрицу выборок. Например, можно положить все ковариации, величина коэффициента корреляции в которых не близка к единице, равными нулю. В предельном случае при таком подходе предполагается статистическая независимость, означающая, что все недиагональные элементы равны нулю, хотя это и может противоречить опытным данным. Даже при полной неуверенности в правильности такого рода предположений получаемые эвристические оценки часто обеспечивают лучший образ действий, нежели при оценке по максимуму правдоподобия.

Здебь мы приходим к другому явному противоречию. Можно быть почти уверенным, что классификатор, который строится в предположении независимости, не будет оптимальным. Понятно, что он будет работать лучше в случаях, когда признаки в самом деле независимы, но как улучшить его работу, когда это предположение неверно?

Ответ на это связан с проблемой недостаточности данных, и пояснить ее сущность в какой-то мере можно, если рассмотреть аналогичную поставленной задачу подбора кривой по точкам. На рис. 3.3 показана группа из пяти экспериментальных точек и некоторые кривые, предлагаемые для их аппроксимации. Экспериментальные точки были получены добавлением к исходной параболе независимого шума с нулевым средним значением. Следовательно, если считать, что последующие данные будут получаться таким же

образом, то среди всех полиномов парабола должна обеспечить наилучшее приближение. Вместе с тем неплохое приближение к имеющимся данным обеспечивает и приведенная прямая. Однако мы знаем, что парабола дает лучшее приближение, и возникает вопрос, достаточно ли исходных данных, чтобы можно было это предположить. Парабола, наилучшая для большого числа данных, может оказаться совершенно отличной от исходной, а за пределами приведенного интервала легко может одержать верх и прямая линия.

Отлично аппроксимируются приведенные данные кривой десятого порядка. Тем не менее никто не будет ожидать, что полученное таким образом предполагаемое решение окажется в хорошем соответствии с вновь получаемыми данными. И действительно, для получения хорошей аппроксимации посредством кривой десятого порядка потребуется намного больше выбо рок, чем для кривой второго порядка, хотя последняя и является частным случаем той. Вообще надежная интерполяция или экстраполяция не может быть достигнута, если она не опирается на избыточные данные.