УПРАВЛЯЕМЫЙ СЛУЧАЙНЫЙПРОЦЕСС

УПРАВЛЯЕМЫЙ СЛУЧАЙНЫЙ ПРОЦЕСС, случайный процесс, вероятностные характеристики к-рого можно изменять с помощью управляющих воздействий. Осн. цель теории У. с. п.- отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум заданному критерию качества. В простейшем случае управляемых марковских цепей одна из матем. постановок задачи

нахождения оптимального управления формулируется след. образом. Пусть

однородных марковских цепей с конечным числом состояний Е - {0,1,...,N} и матрицами переходных вероятностей

метра d, принадлежащего нек-рому множеству управляющих воздействий D. Набор функций а = {a00),a101),...} со значениями в D называют стратегией, а каждую из функций аn = аn(x0,..., хп) - управлением в момент времени п.

Каждой стратегии а отвечает управляемая

где функция f(d, х)5>= 0 и f(d,0) = 0 (если точка {0} является поглощающим состоянием и f(d,x) = 1, d принадлежит D,x = 1,...,N, то Vа(x) есть матем. ожидание времени попадания из точки х в точку 0). Функцию

наз. ценой, а стратегию а* - оптимальной, если Vа*(x) = V(x) для всех х принадлежит Е.

При довольно общих предположениях о множестве D устанавливается, что цена V(x) удовлетворяет след. уравнению оптимальности (уравнению Белл-мана):

В классе всех стратегий наибольший интерес представляют т. н. однородные марковские стратегии, характеризуемые одной функцией а(х) такой, что аn0, ..., хn)=а(хп) при всех n = 0, 1, ...

След. критерий оптимальности (или достаточное условие оптимальности) может быть использован для проверки того, что данная однородная марковская стратегия является оптимальной: пусть существуют функции а* = а*(х) и V* = V*(x) такие, что для любого d принадлежащего D 0 = f(x, a*(x)) + Lа*V*<=f(x,d)+LdV*(x)

(Ld = Td - 1,1 -

единичный оператор), тогда V* является ценой (V* = V) и стратегия а* = а*(х) является оптимальной.

Лит.: Xовард Р.-А., Динамическое программирование и марковские процессы, пер. с англ., М. 1964. А. Н. Ширяев.




Смотреть больше слов в «Большой советской энциклопедии»

УПРАВЛЯЕМЫЙ ТЕРМОЯДЕРНЫЙСИНТЕЗ →← УПРАВЛЯЕМЫЙ РАЗРЯДНИК

T: 180