5.3. Метод динамічного програмування в неперервній задачі. Рівняння Беллмана

 

Розглянемо застосування методу динамічного програмування для неперервної задачі.

Припустимо, що оптимальне управління  знайдене і йому відповідає траєкторія руху об’єкта . Виберемо на оптимальній траєкторії дві точки, що відповідають моментам часу  та  (рис. 5.4), де  – мала величина.

Тоді згідно з принципом оптимальності ділянки оптимальної траєкторії від  до  і від  до  будуть оптимальними. Як і у випадку дискретної задачі, позначимо мінімальне значення функціонала  цих ділянок через  та  відповідно:

,     (5.15)

.   (5.16)

Визначимо, наскільки змінюється мінімальне значення функціонала при переході від точки  до . Для цього від (5.15) віднімемо (5.16):

 

.

Звідси випливає, що

 

.                        (5.17)

З урахуванням того що  мале, підінтегральна функція  на малому відрізку  мало змінюється і її можна вважати постійною з якоюсь похибкою . Математично це можна записати таким виразом:

,   (5.18)

де  – мала величина порівняно з .

Тепер розглянемо другий доданок у (5.17). Розкладемо функцію  у ряд Тейлора з урахуванням того, що  залежить як від вектора стану , так і від часу :

,  (5.19)

де  – розкладання  у ряд Тейлора;

 та  – сукупність наступних членів ряду Тейлора.

Підставивши (5.18) та (5.19) у (5.17), отримаємо

 

.

Скоротимо обидві частини на  і поділимо вираз, що залишився, на :

 

.                     (5.20)

Проаналізуємо отримане рівняння (5.20). Оскільки , то ним можна знехтувати порівняно з іншими доданками. Похідна , як і функція , не залежить від управління  і може бути винесена за фігурні дужки. Нагадаємо, що згідно з (2.23):

.

Після виконання всіх зазначених операцій рівняння (5.20) перепишемо в такий спосіб:

 

.                  (5.21)

Отримане рівняння (5.21) називається рівнянням Беллмана у векторній формі.

У скалярній формі рівняння Беллмана має вигляд

 

.              (5.22)

Рівняння Беллмана являє собою диференціальне рівняння в часткових похідних. Методика визначення оптимального управління  за допомогою рівняння Беллмана зводиться до таких процедур.

1. Із умови мінімуму виразу у фігурних дужках (5.21) знаходиться оптимальне управління  як функція , , , тобто у формі .

2. Знайдене управління  підставляється у вираз у фігурних дужках, що призведе до нової форми рівняння, яка не містить управління :

.   (5.23)

Це рівняння називається рівнянням типу Гамільтона-Якобі.

3. При розв’язанні рівняння Гамільтона-Якобі (5.23) із урахуванням граничної умови  визначається функція . Способи розв’язання рівняння Гамільтона-Якобі в кожній задачі свої.

4. Визначивши функцію , її підставляють у вираз для оптимального управління , отриманого в пункті 1.

У результаті отримаємо вираз для оптимального управління  як функцію стану  та часу . Це й буде кінцевий розв’язок задачі.

Отримане рівняння Беллмана (5.22) застосовується до неавтономних (зі зворотним зв’язком) систем, тому що в ньому є залежність від часу .

Для автономних систем за відсутності явної залежності функції  від часу   і рівняння Беллмана набуде вигляду

,   (5.24)

а методика обчислень спроститься.