Принцип Максимума Понтрягина

Постановка задачи оптимального управления.
Состояние объекта управления характеризуется n -мерной вектор функцией, например, функцией времени[pic][pic]
Так, шестимерная вектор-функция времени полностью определяет положение самолета как твердого тела в пространстве. Три координаты определяют положение центра масс, а три - вращение вокруг центра масс.
От управляющего органа к объекту управления поступает вектор-функция [pic].
Векторы x' и u' , обычно связаны между собой каким-то соотношением.
Наиболее развитым в настоящее время является уравнение, в котором векторы связаны системой обыкновенных дифференциальных уравнений.
И так, пусть движение управляемого объекта описывается системой дифференциальных уравнений

[pic](1.1) где [pic]- вектор координат объекта или фазовых координат,

[pic]- заданная вектор-функция, [pic]- вектор управлений или просто управление.
В уравнении (1.1) векторы [pic]являются функциями переменной t, обозначающей время, причем[pic], где[pic] - отрезок времени, на котором происходит управление системой.

На управление обычно накладывается условие

[pic], [pic](1.2) где U(t) - заданное множество в [pic]при каждом [pic].

Будем называть далее управлением кусочно-непрерывную на отрезке [pic](т. е. имеющую конечное число разрывов первого рода) r--мерную вектор-функцию и, непрерывную справа в точках разрыва и непрерывную в точке Т. Управление и называется допустимым, если оно удовлетворяет ограничению (1.2).

Заметим, что ограничиться рассмотрением непрерывных управлений оказывается невозможным, так как с их помощью трудно моделировать моменты переключения управления такие, как, например, включение и отключение двигателей, отделение ступеней ракеты, поворот рулей и т. д.

Иногда рассматривают и более широкие классы допустимых управлений, например, класс всех ограниченных измеримых управлений, удовлетворяющих условию (1.2).

Покажем, как при произвольном начальном положении [pic] и допустимом управлении и определяется траектория управляемого объекта. Рассмотрим задачу Коши

[pic][pic](1.3)
Поскольку при разрывных правых частях классическое понятие решения системы дифференциальных уравнений неприменимо, поясним, что понимается в данном случае под решением задачи (1.3). Для этого поступим следующим образом.
Пусть функция и имеет скачки в точках[pic] причем[pic]. Предположим, что задача (1.3) имеет решение х, определенное на всем отрезке [to,[pic]], причем [pic]. Далее рассмотрим задачу Коши

[pic][pic].
Предполагая, что она имеет решение на отрезке [[pic]] и [pic],приходим к задаче

[pic][pic]и т. д.
Если функцию х удалось определить указанным способом на всем отрезке [to.

Т], то будем называть ее решением задачи (1.3) или фазовой траекторией
(иногда просто траекторией), соответствующей управлению и. Отметим, что x - непрерывная по построению функция, удовлетворяющая на отрезке[pic] равенству

[pic]

При выполнении определенных условий на f решение задачи (1.3), соответствующее управлению и, существует и единственно при произвольном начальном положении [pic]и произвольном допустимом управлении и.

Помимо ограничения на управление могут существовать ограничения и на фазовые координаты

[pic][pic](1.4)

Ограничения на концах траектории целесообразно рассматривать отдельно:

[pic](1.5)

здесь[pic], S (Т) - заданные множества из R";

[pic]-заданные множества из R, причем inf [pic]< sup[pic], toВ более подробной покоординатной записи сопряженная система принимает вид

[pic], (2.3)
Система (2.3) имеет при любых начальных условиях единственное решение[pic]
, определенное и непрерывное на всем отрезке [pic].
Следующая теорема выражает необходимые условия оптимальности в задаче
(2.1).

Теорема (принцип максимума Понтрягина).
Пусть функции[pic] и, Ф, g1, ..., gm имеют частные производные по переменным х1, ..., Хn и непрерывны вместе с этими производными по совокупности аргументов х[pic] , и [pic] U, t[pic] [to. Т]. Предположим, что (и, х)-решение задачи (2.1). Тогда существует решение [pic] сопряженной системы (2.3), соответствующей управлению и и траектории х, и константа [pic] такие, что
| [pic] | + || [pic](t) || при t[pic] [to, Т], и выполняются следующие условия: а) (условие максимума) при каждом t[pic] [to. Т] функция Гамильтона[pic], достигает максимума по[pic] при v=u (t), т. е.
H(x(t), u(t),[pic]=max H(x(t), v(t),[pic] (2.4) б)(условие трансверсальности на левом конце траектории) существуют числа[pic], такие, что

[pic](2.5) в) (условие трансверсальности на правом конце траектории) существуют числа [pic] такие, что

[pic](2.6)
Центральным в теореме является условие максимума -(2.4).

Если отказаться от предположения о том, что конечный момент времени Т фиксирован, то теорема останется справедливой за исключением условия трансверсальности на правом конце траектории. Условие (2.6) заменим условием

[pic] и добавить еще одно условие трансверсальности на правом конце траектории:

[pic]

Примеры применения принципа максимума.
1. Простейшая задача оптимального быстродействия.
Пусть точка движется по прямой в соответствии с законом

[pic](3.1) где х - координата. Требуется найти управление и, переводящее точку из начального положения в начало координат за минимальное время Т (задача оптимального быстродействия). При этом скорость точки в конце траектории должна быть нулевой, а управление - удовлетворять условию

[pic].
Применим к сформулированной задаче принцип максимума Понтрягина . Введем фазовые переменные [pic]. Тогда движение управляемого объекта описывается системой двух дифференциальных уравнений первого порядка:

[pic](3.2)
Начальное положение

[pic] при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени
Т не фиксирован.
В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция
Гамильтона имеет вид

[pic]
Общее решение сопряженной системы

[pic][pic] легко выписывается в явном виде [pic] где С, D - постоянные.
Очевидно, что максимум функции Н по и[pic] U достигается при

[pic]
Таким образом, оптимальное управление и может принимать лишь два значения
+1 .
2.Определить управление u(t) , которое дает минимум интегралу

[pic], в процессе, описываемом уравнением [pic](1).

Решение.

Введем дополнительную переменную

[pic](2)

Для этой переменной имеем дифференциальное уравнение [pic]([pic] (3) с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий функционал, используя (2), можно записать в виде I[T]=x2(T).

Построим функцию Гамильтона

[pic]

Запишем сопряженную систему [pic] (3)

Запишем [pic]

?1(Т)=0 (т.к. с1=0)

?2(Т)=-1
Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=- a?1x1+?1u-0,5x12-0,5u2 .

По принципу максимума функция Н при фиксированных х1 и ?1 достигает максимума по u : [pic], [pic], откуда [pic].
Осталось решить систему уравнений (2) и (3) при условии [pic] , ?2(Т)=-1,

[pic], [pic] с граничными условиями [pic]

Сведем данную систему к одному уравнению относительно U.

[pic][pic]

[pic]

Добавим к этому уравнению граничные условия [pic] и решим его. Составим характеристическое уравнение к2 - (а2+1) =0, к1,2=+(-)[pic]

[pic]

Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]

Используя граничные условия найдем С2[pic]

Таким образом, определено оптимальное решение

[pic]

[pic](3.2)
Начальное положение

[pic]
Общее решение сопряженной системы

[pic], в процессе, описываемом уравнением [pic](1).

Решение.

Введем дополнительную переменную

[pic](2)

Построим функцию Гамильтона

[pic]

Запишем сопряженную систему [pic] (3)

Запишем [pic]

?1(Т)=0 (т.к. с1=0)

?2(Т)=-1
Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=- a?1x1+?1u-0,5x12-0,5u2 .

[pic], [pic] с граничными условиями [pic]

Сведем данную систему к одному уравнению относительно U.

[pic][pic]

[pic]

Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]

Используя граничные условия найдем С2[pic]

Таким образом, определено оптимальное решение

[pic]

О методах решения задач оптимального управления
Убедимся вначале, что необходимые условия оптимальности в форме принципа максимума дают, вообще говоря, достаточную информацию для решения задачи оптимального управления (2.1), (2.2).
Условие максимума (2.4) позволяет, в принципе, найти управление и как функцию параметров х, t, [pic]
[pic](2.7)
Рассмотрим систему дифференциальных уравнений
[pic](2.8) объединяющюю систему уравнений движения объекта и сопряженную систему.
Как известно, общее решение системы (2.8), состоящей из 2n обыкновенных дифференциальных уравнений первого порядка, зависит от 2п параметров. Кроме того, система необходимых условий оптимальности содержит т параметров[pic] и параметр ?0. Таким образом, общее число неизвестных равно 2n+m+1.
Для их определения мы имеем 2п условий (2.5), (2.6) и т условий (2.2). Еще одно условие определяется из следующих соображений.
Легко понять, что, в силу линейности функции Н по переменным принцип максимума Понтрягина определяет вектор ([pic]) с точностью до положительного постоянного множителя. Поэтому если в конкретной задаче удается показать, что [pic], то полагают обычно [pic] == - 1. В противном случае накладывают какое-либо условие нормировки, например, [pic]
Таким образом, общее число условий равно 2n+m+1 и совпадает с числом неизвестных параметров, что, в принципе, позволяет определить эти параметры. Изложенные соображения дают возможность в простейших случаях решить задачу оптимального управления в явном виде.
Опишем численный метод, основанный на тех же соображениях. Для этого рассмотрим краевую задачу для системы дифференциальных уравнений (2.8) с краевыми условиями (2.5), (2.6), а также выписанными на основе (2.2) краевыми условиями
[pic](2.9)
Эта задача называется краевой задачей принципа максимума.
Задав произвольные начальные условия[pic]и решив каким-либо численным методом задачу Коши для системы (2.8), можно найти х(Т),[pic](Т). При этом на каждом шаге численного интегрирования значение [pic] находится из решения вспомогательной оптимизационной задачи (2.7) (считаем, что параметр [pic] задан и равен либо 0, либо -1).
Значения х (Г), [pic] являются очевидно, некоторыми функциями от а и Ь:
[pic]). Решение краевой задачи принципа максимума сводится, таким образом, к решению полученной из (2.9), (2.5), (2.6) системы уравнений
[pic]
[pic]
[pic]
Эта система содержит 2п+т неизвестных а, Ь,[pic]и состоит из 2п+т уравнений. Ее решение можно находить известными численными методами, например методом Ньютона.
Отметим, что вычисление значений [pic]весьма трудоемко, так как требует при каждом (а, b) решения задачи Коши для системы дифференциальных уравнений
(2.8). Именно в таких случаях особое значение приобретает изучение вопросов эффективности численных методов и построения оптимальных методов .
При реализации на ЭВМ методов решения задач оптимального управления, основанных на необходимых условиях экстремума, могут встретиться также значительные трудности, вызванные некорректностью постановки исходной и вспомогательных задач и некоторыми особенностями краевой задачи принципа максимума. Это приводит к необходимости применения методов регуляризации, учета специфики конкретной решаемой задачи, ее физического смысла и т. п.
Другие численные методы, не связанные непосредственно с принципом максимума, основаны на редукции исходной задачи к некоторой конечномерной задаче математического программирования. Их называют иногда прямыми методами (впрочем, разделение вычислительных методов на прямые и непрямые довольно условно). Конечномерные аналоги задач оптимального управления имеют особенности, позволяющие эффективно применять некоторые методы нелинейного, динамического программирования и т. д]. Продемонстрируем пример такого подхода.

Рассмотрим следующую задачу оптимального управления
[pic][pic]
[pic] где моменты времени[pic], Т фиксированы. Это задача более общего вида, чем
(2.1), ибо в (2.10) U зависит от времени и имеются фазовые ограничения произвольного вида, которые, в частности, могут содержать ограничения на концах траектории вида (2.2).
Зафиксируем моменты времени [pic] и заменим задачу (2.10) ее конечноразностным аналогом
[pic]
[pic]
Положив [pic] задачу можно переписать в виде [pic] (2.11)
[pic]
Мы получили задачу математического программирования с переменными [pic]
Задав начальное состояние х0 и управление (u0, u1, ..., uN-1), по формулам [pic] легко вычислить траекторию ( х1, ..., хN). Тем самым (2.12) сводится к задаче с переменными х0, u0 , u1, ..., uN-1, и ее размерность, таким образом, оказывается равной n+Nr.
Для решения задачи (2.11) часто применяют метод динамического программирования. В данном случае этот метод выглядит следующим образом.
Ввелем функцию [pic]где минимум берется по таким [pic]что[pic](будем предполагать, что все фигурирующие здесь и ниже минимумы достигаются). Если множество таких наборов (uк, ..., uN-1) пусто, то значение [pic]) не определено. Нетрудно видеть, что [pic] (2.12) где минимум берется по таким [pic], что значение [pic] определено.
Положив [pic] и проводя вычисления по формулам (2.12) при k=N-1,N-2,...,0 можно найти решение задачи (2.11).
Действительно, пусть [pic]- значение управления, реализующее минимум в
(2.12). Ясно, что значение задачи (2.11) , т.е. минимальное значение минимизирующей функции, равно [pic], где минимум берется по таким [pic], что значение [pic] определено. Оптимальное управление и оптимальная траектория находятся, очевидно, по формулам
[pic](2.13)
При численной реализации данного метода задаются сеточные аппроксимации множеств [pic]т.е. некоторые конечные множества [pic]Затем строятся множества [pic], которые служат сеточными аппроксимациями интересующих нас подмножеств [pic]
Далее по формулам (2.12) вычисляются значения [pic]для [pic][pic]и т.д., причем при каждом k минимум в (2.12) берется по [pic] После того как приближенно найдена точка [pic], минимизирующая [pic] решение задачи определяется формулами (2.13).

Заключение:
Отметим, что дискретные задачи оптимального управления встречаются на практике ( например, при описании импульсных систем) и потому представляют интерес не только как конечноразностные аналоги непрерывных задач.
Задачи оптимизации управляемых процессов, или как они будут в дальнейшем называться, задачи оптимального управления, составляют один из широких классов экстремальных задач и имеют важное прикладное значение.
Структурная схема задачи управления состоит из двух звеньев: управляющего органа и объекта управления . В качестве объекта управления может служить, например, космический эксперимент, экономика отрасли промышленности, система машин, семейный бюджет и т. д. Управляющее звено со времени возникновения задач управления претерпело эволюции от простейшего регулятора до современной ЭВМ.

Кыргызско - Российская Академия образования

Доклад

По дисциплине:

ТУТС

Тема: Принцип максимума Понтрягина.

Выполнил:

Бахарев Д. В.ИВТ-1-98.

Проверила: Жданова С. В.

г. Бишкек 2001

МЕНЮ

Принцип Максимума Понтрягина

Принцип Максимума Понтрягина

ИНТЕРЕСНОЕ