УПРАВЛЯЕМЫЙ СЛУЧАЙНЫЙ ПРОЦЕСС, случайный процесс, вероятностные характеристики к-рого можно изменять с помощью управляющих воздействий. Осн. цель теории У. с. п.- отыскание оптимальных (или близких к ним) управлений, доставляющих экстремум заданному критерию качества. В простейшем случае управляемых марковских цепей одна из матем. постановок задачи
нахождения оптимального управления формулируется след. образом. Пусть
однородных марковских цепей с конечным числом состояний Е - {0,1,...,N} и матрицами переходных вероятностей
метра d, принадлежащего нек-рому множеству управляющих воздействий D. Набор функций а = {a0(х0),a1(х0,х1),...} со значениями в D называют стратегией, а каждую из функций аn = аn(x0,..., хп) - управлением в момент времени п.
Каждой стратегии а отвечает управляемая
где функция f(d, х)5>= 0 и f(d,0) = 0 (если точка {0} является поглощающим состоянием и f(d,x) = 1, d принадлежит D,x = 1,...,N, то Vа(x) есть матем. ожидание времени попадания из точки х в точку 0). Функцию
наз. ценой, а стратегию а* - оптимальной, если Vа*(x) = V(x) для всех х принадлежит Е.
При довольно общих предположениях о множестве D устанавливается, что цена V(x) удовлетворяет след. уравнению оптимальности (уравнению Белл-мана):
В классе всех стратегий наибольший интерес представляют т. н. однородные марковские стратегии, характеризуемые одной функцией а(х) такой, что аn(х0, ..., хn)=а(хп) при всех n = 0, 1, ...
След. критерий оптимальности (или достаточное условие оптимальности) может быть использован для проверки того, что данная однородная марковская стратегия является оптимальной: пусть существуют функции а* = а*(х) и V* = V*(x) такие, что для любого d принадлежащего D 0 = f(x, a*(x)) + Lа*V*<=f(x,d)+LdV*(x)
(Ld = Td - 1,1 -
единичный оператор), тогда V* является ценой (V* = V) и стратегия а* = а*(х) является оптимальной.
Лит.: Xовард Р.-А., Динамическое программирование и марковские процессы, пер. с англ., М. 1964. А. Н. Ширяев.
Смотреть больше слов в «Большой советской энциклопедии»