4.3.1. ОБЩИЕ СООБРАЖЕНИЯ

Знакомство с методом оценки плотностей распределения с по- мош,ью парзеновского окна можно начать с временного предположения о том, что область 5І„ является d-мерным гиперкубом. Если h„ есть длина ребра этого гиперкуба, то его объем задается как

Аналитическое выражение для k„— количества выборок, попа- даюш,их в этот гиперкуб,— можем получить, определяя следующую функцию окна:

Таким образом, ф(и) определяет единичный гиперкуб с центром в начале координат. Отсюда следует, что ф ((х—хг)/Л„) равняется единице, если Xj находится в гиперкубе объема Ѵ„ с центром в х, или нулю в любом другом случае. Следовательно, количество выборок в этом гиперкубе задается выражением

Подставляя его в (5), получаем оценку

Это соотношение предполагает более общий подход к оценке плотности распределения. Не ограничиваясь функцией окна гиперкуба, данной формулой (7), допускаем более общий класс функций окна. Тогда соотношение (8) выражает нащу оценку р(х) как среднее значение функций от X и выборок Xj, По существу, функция окна используется для интерполяции, причем каждая выборка влияет на оценку в зависимости от ее расстояния до х.

Хотелось бы, чтобы оценка р„(х) была законной плотностью распределения, т. е, неотрицательной, с интегралом, равным единице. Это можно гарантировать, требуя, чтобы функция окна была за-

конной плотностью распределения. Точнее, если мы потребуем, чтобы

и

и если мы сохраняем отношение     то отсюда сразу же следует

что и р„(х) также удовлетворяет этим условиям.

Рассмотрим, какое влияние оказывает на р„(х) ширина окна h„. Если мы определяем функцию б„(х) как

то можем записать р„(х) в виде среднего

Поскольку V„=hi, то h„ влияет как на амплитуду, так и на ширину окна S„(x). Если очень велика, то амплитуда у б„ мала, и X должно находиться достаточно далеко от Хь пока S„(x—х,-) не станет значительно отличаться от б„(0). В этом случае р„(х) есть наложение п широких, медленно меняющихся функций и служит очень сглаженной «несфокусированной» оценкой р(х). С другой стороны, если А„ очень мала, то максимальное значение б„(х—х,) велико и находится вблизи от x=x^. В этом случае р„(х) есть наложение п резких выбросов с центрами в выборках и является ошибочной «зашумленной» оценкой функции р(х). Для любого значения h„ справедливо выражение

Таким образом, по мере устремления h„ к нулю 8„{х—Хі) стремится к дельта-функции Дирака, центрированной в Xj, и р„(х) стремится к наложению дельта-функций, центрированных в выборках.

Ясно, что выбор значения h„ (или Ѵ„) сильно сказывается на р„(х). Если объем Ѵ„ слишком велик, оценка будет плохой из-за слишком малой разрешающей способности. Если Ѵ„ слишком мал, оценка будет плохой в результате слишком большого статистического разброса. При ограниченном количестве выборок самое лучшее решение — пойти на приемлемый компромисс. При неограниченном же количестве выборок можно позволить медленно стремиться к нулю по мере увеличения п и заставить р„ (оо) сойтись к неизвестной плотности распределения р(х).

Говоря о сходимости, мы должны сознавать, что речь идет о сходимости последовательности случайных величин, так как для любого фиксированного х значение р„(х) зависит от значений слу-

чайных выборок Хі, . . х„. Таким образом, р„(х) имеет некоторое среднее р„{\) и некоторую дисперсию а\ (х). Будем говорить, что оценка (х) сходится к р (х), если і)

и

Чтобы доказать сходимость, нужно наложить условия на неизвестную плотность распределения р (х), функцию окна ф(и) и ширину окна /і„. Обычно требуется, чтобы р была непрерывной в х и чтобы выполнялись условия (9) и (10). Можно доказать, что сходимость обеспечивается при следующих дополнительных условиях:

Выражения (16) и (17) способствуют хорошему поведению ф, и этим условиям удовлетворяет большинство плотностей распределения, которые можно взять для функций окна. Уравнения (18) и (19) говорят о том, что объем должен стремиться к нулю, но со скоростью, меньшей чем 1/м. Рассмотрим теперь, почему эти условия— основные условия, обеспечивающие сходимость.