4.2. ОЦЕНКА ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ

Идеи, лежащие в основе методов оценки неизвестной плотности распределения вероятностей, довольно просты, хотя доказательство сходимости этих оценок сопряжено с большими трудностями. Большинство фундаментальных методов опирается на то, что вероятность

р попадания вектора х в область Эі задается выражением

Таким образом, Р есть сглаженный, или усредненный, вариант плотности распределения р (х), и можно оценить это сглаженное значение р посредством оценки вероятности Р. Предположим, что п выборок Хі, . . х„ берутся независимо друг от друга в соответствии с вероятностным законом р (х). Очевидно, что вероятность попадания k т п выборок в Эі задается биномиальным законом

и ожидаемой величиной k будет

Более того, это биномиальное распределение для k имеет довольно резко выраженные максимумы около среднего значения, поэтому мы считаем, что отношение kin будет хорошей оценкой вероятности Р, а следовательно, и сглаженной плотности распределения. Если теперь мы допустим, что р(х) непрерывна и область настолько мала, что р в ее пределах меняется незначительно, то можем написать

где X — это точка внутри Яи V — объем Я. Объединяя уравнения (1) — (3), получаем следующую очевидную оценку для р(х):

Остается решить несколько проблем практического и теоретического плана. Если мы фиксируем объем V и делаем все больше и больше выборок, отношение kin сойдется (по вероятности) требуемым образом, но при этом мы получаем только оценку пространственно усредненной величины р(х):

Если мы хотим получить р(х), а не усредненный ее вариант, необходимо устремить V к нулю. Однако если зафиксировать количество п выборок и позволить V стремиться к нулю, то область в конечном

счете станет настолько малой, что не будет содержать в себе никаких выборок, и наша оценка р(х)»0 будет бесполезной ^).

С практической точки зрения количество выборок всегда ограничено, так что нельзя позволить объему V становиться бесконечно малым. Если приходится пользоваться таким видом оценки, то нужно допускать определенную дисперсию отношения kin и определенное усреднение плотности распределения р(х).

С теоретической точки зрения интересно, как можно обойти эти ограничения при наличии неограниченного количества выборок. Предположим, что мы пользуемся следующей процедурой. Для оценки плотности распределения х мы образуем последовательность областей Эіі, Эіг, . . ., содержащих х. Первая область будет соответствовать одной выборке, вторая — двум и т. д. Пусть будет объемом Эіп, kn— количеством выборок, попадающих в§1„, арп (х)— п-й оценкой р(х):

Если рп (х) должна сойтись к р (х), то, по-видимому, нужны три условия:

1)   ІІШ F„=0,

л-^оо

2)   1іш^„=оо,

3)   lim kjn=^.

Первое условие обеспечивает сходимость пространственно усредненного РІѴ к р (х) при однородном сокращении областей и при непрерывности р в х. Второе условие, имеющее смысл только при р(х)^, обеспечивает сходимость (по вероятности) отношения частот к вероятности Р.

Совершенно ясно, что третье условие необходимо, если р„(х), заданная соотношением (5), вообщедолжна сойтись. Это условие говорит также о том, что, хотя в конечном счете в небольшую область Эіп попадает огромное количество выборок, оно составит лишь незначительно малую часть всего количества выборок.

Существуют два общих способа получения последовательностей областей, удовлетворяющих этим условиям. Первый способ заключается в сжатии начальной области за счет определения объема Ѵ„как некоторой функции от п, такой, чтобы  Затем следует по

казать, что случайные величины и k„ln ведут себя правильно или, имея в виду существо дела, что р„(х) сходится к р(х). В этом заключается метод парзеновского окна, рассматриваемый в следующем разделе. Во втором методе k„ определяется как некоторая функция

от п: k„=y^n. Здесь объем Ѵ„ увеличивается до тех пор, пока не охватит k„ «соседей» х. Это метод оценки по ближайшим соседям. Оба эти метода действительно обеспечивают сходимость, хотя трудно сказать что-либо определенное об их поведении при конечном числе выборок.