6.10.1.     ОПРЕДЕЛЕНИЯ

Рассмотрим последовательность разделений п выборок на с групп. Первое из них — это разделение на п групп, причем каждая из групп содержит точно по одной выборке. Следующее разделение на п—1 групп, затем на п—2 и т. д. до «-го, в котором все выборки образуют одну группу. Будем говорить, что находимся на k-м уровне в последовательности, когда c=n—k+1. Таким образом, первый

уровень соответствует п группам, а п-й — одной группе. Если даны любые две выборки х и х', на некотором уровне они будут собраны вместе в одну группу. Если последовательность обладает тем свойством, что, когда две выборки попадают в одну группу на уровне к, они остаются вместе на более высоких уровнях, то такая последовательность называется иерархической группировкой. Классические примеры иерархической группировки можно найти в биологии, где индивидуумы группируются в виды, виды — в роды, роды —

в семейства и т. д. Вообще группировки такого рода проникают и в другие науки.

Для любой иерархической классификации существует соответствующее дерево, называемое дендрограммой, которое показывает, как группируются выборки. На рис, 6.15 представлена дендрограмма для гипотетической задачи, содержащей шесть выборок. Уровень 1 показывает шесть выборок как одиночные группы. На уровне 2 выборки Хз и х^ были сгруппированы в группу, и они остаются віиесте на всех последующих уровнях. Если возможно измерить подобие между группаліи, то дендрограмма изобр^ается в масштабе, чтобы показать подобие между группами, которые объединяются. На рис. 6.15, например, подобие между двумя группами выборок, которые объединены на уровне 6, имеет значение 30. Значения подобия часто используются для определения того, было ли объединение

естественным или вынужденным. Для нашего гипотетического примера можно сказать, что объединения на уровнях 4 и 5 естественны, но значительное уменьшение подобия, необходимое для перехода на уровень 6, делает объединение на этом уровне вынужденным. Мы вскоре увидим, как получить такие значения подобия.

Благодаря простоте понятий иерархические процедуры группировки находятся среди наиболее известных методов. Процедуры можно разделить на два различных класса: агломеративный и делимый. Агломеративные (процедуры снизу-вверх, объединяющие) процедуры начинают с с одиночных групп и образуют последовательность постепенно объединяемых групп. Делимые (сверху-вниз, разделяемые) процедуры начинают с одной группы, содержащей все выборки, и образуют последовательность постепенно расщепляемых групп. Вычисления, необходимые для перехода с одного уровня на другой, обычно проще для агломеративных процедур. Однако, когда имеется много выборок, а нас интересует только небольшое число групп, такое вычисление должно повториться много раз. Для простоты ограничимся агломеративными процедурами, отсылая читателя к литературе по делимым процедурам.