6.6.  ОПИСАНИЕ ДАННЫХ И ГРУППИРОВКА

Вернемся к нашей первоначальной задйче — обучению на множестве непомеченных выборок. С геометрической точки зрения эти выборки образуют облака точек в d-мерном пространстве. Предположим, что эти точки порождаются одномерным нормальным распределением. Тогда все, что мы можем узнать из этих данных, содержится в достаточных статистиках — в средней выборке и в матрице ковариаций выборок. В сущности, эти статистики составляют компактное описание данных. Средняя выборок обозначает центр тяжести облака. Его можно рассматривать как единственную точку х, которая лучше всего представляет все данные с точки зрения минимизации суммы квадратов расстояний от х до выборок. Матрица ковариаций выборок говорит о том, насколько хорошо средняя выборок описывает данные с точки зрения разброса данных в разных направлениях. Если точки действительно нормально распределены, то облако имеет простую гиперэллипсоидную форму, и средняя выборок обычно находится в области наибольшего сгущения точек.

Конечно, если данные не распределены нормально, эти статистики могут дать сильно искаженное описание данных. На рис. 6.7 показаны четыре различных множества данных, у которых одинаковые средние и матрицы ковариаций. Очевидно, статистики второго порядка не в состоянии отобразить структуру произвольного множества данных.

Предположив, что выборки отобраны из смеси с нормальных распределений, мы можем аппроксимировать большее разнообразие ситуаций. В сущности, это соответствует представлению, что выборки образуют гиперэллипсоидные облака различных размеров и ориентаций. Если число компонентных плотностей не ограничено, таким образом можно аппроксимировать практически любую функцию плотности и использовать параметры смеси для описания данных. К сожалению, мы видели, что задача определения параметров смеси не является тривиальной. Более того, в ситуациях, где a priori относительно мало известно о природе данных, предположение об особых параметрических формах может привести к плохим или бессмысленным результатам. Вместо нахождения структуры данных, мы бы навязали им свою структуру.

В качестве альтернативы можно использовать один из непараметрических методов, описанных в гл. 4, для оценки плотности неизвестной смеси. Если говорить точно, результирующая оценка в сущности является полным описанием того, что можно узнать из данных. Области большой локальной плотности, которые могут соответствовать существенным подклассам популяции, можно определить по максимумам оцененной плотности.

Если цель состоит в нахождении подклассов, более целесообразны процедуры группировки (кластерного анализа). Грубо говоря, процедуры группировки дают описание данных в терминах кластеров, или групп точек данных, обладающих сильно схожими внутренними свойствами. Более формальные процедуры используют функции критериев, такие, как сумма квадратов расстояний от центров кластеров, и ищут группировку, которая приводит к экстремуму функции критерия. Поскольку даже это может привести к не

разрешимым вычислительным проблемам, были предложены другие процедуры, интуитивно многообещающие, но приводящие к решениям, не имеющим установленных свойств. Использование этих процедур обычно оправдывается простотой их применения и часто дает интересные результаты, которые могут помочь в применении более схрогих процедур.