6.8.1. КРИТЕРИЙ СУММЫ КВАДРАТОВ ОШИБОК

Самая простая и наиболее используемая функция критерия — это сумма квадратов ошибок. Пусть «г—число выборок в SCи и пусть т« — среднее этих выборок:

Тогда сумма квадратов ошибок определяется как

Эта функция имеет простую интерпретацию. Для данной группы SCi средний вектор Ші лучше всего представляет выборки в SCi, так как он минимизирует сумму квадратов длин векторов «ошибок» х—іпг. Таким образом, измеряет общую квадратичную ошибку, вносимую при представлении п выборок Хі, . . ., х„ центрами с групп mi, . . Шс. Значение зависит от того, как выборки сгруппированы в группы, и оптимальным разделением считается то, которое минимизирует J^. Группировки такого типа называют разделением с минимальной дисперсией.

Какого типа задачи группировки подходят для критерия в виде суммы квадратов ошибок? В основном Л — подходящий критерий в случае, когда выборки образуют облака, которые достаточно хорошо отделены друг от друга. Он хорошо будет работать для двух или трех групп рис. 6. И, но для данных на рис. 6.12 не даст удовлетворительных результатов ^). Менее явные проблемы возникают,

 

когда имеется большое различие между числом выборок из разных групп. В этом случае может случиться, что группировка, которая разделяет большую группу, имеет преимуш,ество перед группировкой, сохраняющей единство группы, только потому, что достигнутое уменьшение квадратичной ошибки умножается на число членов этой суммы (рис. 6.13). Такая ситуация часто вызывается наличием случайных, далеко отстоящих выборок, и возникает проблема интерпретации и оценки результатов группировок. Так как об этом трудно что-либо сказать, мы просто отметим, что если дополнительные условия приводят к тому, что результат минимизации J^ неудовлетворителен, то эти условия должны быть использованы для формулировки лучшей функции критерия.