5.5.3. НЕКОТОРЫЕ НЕПОСРЕДСТВЕННЫЕ ОБОБЩЕНИЯ

Правило постоянного приращения можно обобщить с целью выделения связанных между собой алгоритмов. Коротко будут рассмотрены два наиболее интересных варианта. В первом варианте вводится понятие переменного приращения и допуск Ь и предусматривается коррекция, когда величина а^у* является недостаточной для превышения допуска. Алгоритм задается в следующем виде:

где теперь а^у*^й для всех к. Можно показать, что, если выборки линейно разделяемы и если

и

aft сходится к вектору решения а, удовлетворяющему условию й*уі>Ь при всех значениях і. В частности, условия, налагаемые на Рь, выполняются в том случае, если р^ является положительной константой или убывает как l/k.

Следующим вариантом, представляющим интерес, является первоначально рассмотренный алгоритм градиентного спуска для J/.

где й/ft — множество выборок, классифицируемых с ошибкой посредством aft. Легко видеть, что данный алгоритм будет также давать решение, принимая во внимание,-что если а является вектором решения для последовательности у,, . . . , у„, то он правильно классифицирует корректирующий вектор

Таким образом, если выборки являются линейно разделяемыми, то все возможные виды корректирующих векторов составляют линейно разделяемое множество, и если pft удовлетворяет соотношениям (21) — (23), то последовательность весовых векторов, получаемая посредством алгоритма градиентного спуска для Jp, всегда будет сходиться к вектору решения.

Интересно заметить, что условия, налагаемые на pft, удовлетворяются в тех случаях, когда р^ является положительной константой и когда Pft убывает как \jk или даже возрастает с ростом k. Вообще говоря, предпочтение следует отдавать р^, уменьшающемуся с течением времени. Это замечание становится особенно существенным, когда есть основание считать, что множество выборок линейно неразделяемо, поскольку в данном случае уменьшается отрицательное влияние нескольких «плохих» выборок. Однако то, что в случае разделяемых выборок при увеличении р^ получение решения оказывается все же возможным, кажется довольно странным.

Из данного наблюдения вытекает одно из различий между теоретическим и практическим взглядами на эту проблему. С теоретической точки зрения представляется интересным тот факт, что решение можно получить при наличии конечного числа шагов в случае любого ограниченного множества разделяемых выборок, при любом начальном весовом векторе аі, при любом неотрицательном значении допуска Ь и при любом скалярном коэффициенте р^, удовлетворяющем соотношениям (21) — (23). С практической точки зрения желательно прсжзводить разумный выбор указанных величин. Рассмотрим, например, допуск Ь. Если Ь намного меньше р*,||у*|р, т. е. той величины, на которую возрастает а^у* в результате коррекции, то очевидно, что Ь будет оказывать совсем малое влияние. Если Ь намного превосходит величину psHy^HS то потребуется большое число коррекций, чтобы добиться выполнения условия Часто в качестве компромиссного подхода используют величину, близкую к Pftlly*!!'*. Кроме указанных вариантов выбора рь и Ь, большое влияние на результат может оказывать масштабирование компонент вектора у*. Наличие теоремы сходимости не избавляет от необходимости сознательного подхода при использовании данных методик.