ИСПОЛЬЗОВАНИЕ ДВУХПОРОГОВОЙ СТРАТЕГИИ УПРАВЛЕНИЯ В СЛУЧАЙНОЙ СРЕДЕ С НОРМАЛЬНО РАСПРЕДЕЛЕННЫМИ ДОХОДАМИ

Лазутченко А.Н. 1

1 ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого»

Рассмотрена пороговая стратегия управления в случайной среде с двумя действиями с нормально распределенными доходами. Цель управления задана в минимаксной постановке и состоит в минимизации математического ожидания максимальных потерь полного дохода и понижении суммарных потерь на некотором допустимом множестве параметров среды. С помощью написанной компьютерной программы среда исследуется на суммарные потери полного дохода. После этого суммарные потери вычисляются для двух порогов, оптимальные значения которых определяются после полного исследования всех их допустимых значений. Таким образом, в статье показано, что с помощью двухпороговой стратегии управления в случайной среде можно значительно снизить суммарные потери полного дохода на некотором множестве параметров среды.

Статья в формате PDF

208 KB

минимакс

нормально распределенные доходы

двухпороговая стратегия управления

случайная среда

1. Метод статистических испытаний (Метод Монте-Карло) / Н.П. Бусленко [и др.] – М. : Физматгиз, 1962.

2. Колногоров А.В. Нахождение минимаксных стратегий и риска в случайной среде (задача о двуруком бандите) // Автоматика и телемеханика [В. Новгород]. - 2011. - № 5.

3. Колногоров А.В., Шелонина Т.Н. Об инвариантности функции потерь для пороговой стратегии поведения в случайной среде // Вестн. Новг. гос. ун-та. - 2006. - № 39 - С. 18-21.

4. Лазутченко А.Н. Использование двухпороговой стратегии управления в бинарной случайной среде // Современные проблемы науки и образования. – 2013. – № 3. - URL: www.science-education.ru/109-9552 (дата обращения: 21.03.2014).

5. Срагович В.Г. Адаптивное управление. - М. : Наука, 1981. – 384 с.

6. Vogel W. // Ann. Math. Statist. - 1960. - V. 31. - P. 444–451.

Введение

По аналогии с определением бинарной случайной среды, приведенным в [4], случайная среда (однородный процесс с независимыми приращениями в терминологии [5]) с нормально распределенными доходами – это управляемый случайный процесс , значения которого интерпретируются как доходы, зависящие только от выбираемых в текущие моменты времени действий и имеющие нормальные распределения с плотностями

, (1)

если . При такой постановке задачи случайная среда описывается вектором математических ожиданий . В данном случае параметр фиксирован, но неизвестен лицу, осуществляющему управление.

Постановка задачи

Введем целевую функцию потерь , значениями которой являются потери за время моделирования, где – используемая стратегия. Если параметр известен, то наилучшей стратегией является та, которая применяет только то действие, которому соответствует большая из величин , и максимальный полный доход в этом случае равен . Если же неизвестен, то неизбежно возникают потери вследствие неполноты информации о среде, равные:

. (2)

Здесь представляет собой математическое ожидание потерь полного дохода. Предполагается, что ограничения на множество допустимых значений параметра имеют следующий вид:

(3)

При использовании минимаксного подхода, предложенного, например, в [2], цель управления состоит в минимизации величины потерь полного дохода на множестве параметров по множеству стратегий . При этом минимаксный риск выглядит следующим образом:

. (4)

Для реализации этой цели предлагается использовать пороговую стратегию, предложенную в [6].

Стратегия управления с одним порогом

Итак, рассмотрим пороговую стратегию . Она применяет действия и среды по очереди, накапливая доходы и соответственно. На каждом шаге вычисляется абсолютная разность доходов на действиях . Действия применяются до тех пор, пока эта величина не превысит порога , где – полное время управления, – пороговая константа, или не истечет время управления. Если время управления не истекло, то действие, которому соответствует меньшая величина набранного дохода, исключается из рассмотрения, а оставшееся время применяется только другое действие.

Можно показать, что наибольшие потери полного дохода будут иметь место при

. (5)

На основе пороговой стратегии , рассмотренной выше, была разработана программа. Прежде сделаем замечание. Целевая функция потерь , вообще говоря, зависит от параметров и . Но для расчетов нам удобнее полагать, что она зависит от и , где – пороговая константа, использующаяся пороговой стратегией, – параметр среды.

Итак, алгоритм работы программы построен таким образом, что в ней для каждой пары вычисляется средний доход , где – доход за одно моделирование, – количество моделирований. Затем вычисляются средние потери математического ожидания дохода . После этого при каждой константе определяются минимальные потери . При каждой константе подбираются максимальные потери . Точка, в которой , является минимаксной точкой, в которой достигается минимальная гарантированная величина потерь полного дохода.

В результате вычислений оптимальное значение оказалось равным , при этом максимальные потери соответствуют . Время моделирования выбиралось из условия , количество моделирований , что позволяет говорить о точности вычислений [1]. Анализируя полученные результаты, видно, что параметры случайной среды с нормально распределенными доходами идентичны параметрам бинарной случайной среды [4], а потери примерно в 2 раза выше. Это соответствует теории.

Таблица 1 показывает результаты итоговых вычислений. Все потери в таблице являются приведенными путем деления на . Желтым цветом обозначены локальные минимумы по для каждого , зеленым – локальные максимумы по для каждого , сиреневым – точка, в которой минимум по равен максимуму по .

Таблица 1 – Значения

	0,43	0,46	0,49	0,52	0,55	0,58	0,61	0,64	0,67	0,7
2,0	0,652	0,645	0,639	0,637	0,634	0,637	0,638	0,641	0,644	0,651
2,5	0,721	0,713	0,706	0,702	0,698	0,700	0,704	0,709	0,713	0,720
3,0	0,766	0,756	0,744	0,740	0,738	0,739	0,743	0,749	0,756	0,767
3,5	0,788	0,774	0,764	0,758	0,756	0,761	0,764	0,772	0,783	0,793
4,0	0,793	0,779	0,766	0,762	0,761	0,765	0,771	0,782	0,794	0,806
4,5	0,787	0,772	0,762	0,758	0,758	0,760	0,770	0,781	0,796	0,812
5,0	0,775	0,758	0,749	0,745	0,748	0,755	0,764	0,777	0,795	0,811
5,5	0,756	0,740	0,735	0,731	0,735	0,741	0,754	0,769	0,788	0,807
6,0	0,733	0,721	0,714	0,715	0,722	0,731	0,745	0,761	0,781	0,803
6,5	0,710	0,702	0,697	0,700	0,708	0,717	0,736	0,755	0,775	0,797

Двухпороговая стратегия управления

Рассмотрим теперь потери на множестве допустимых параметров для следующих двух случаев. На диаграмме линия 1 показывает минимальные потери для минимальных для каждого , линия 2 – потери для фиксированного (все потери также являются приведенными).

Как нетрудно заметить, начиная с и до потери за моделирование практически идентичны. После этого потери для случая с фиксированным увеличиваются и в определенный момент устанавливаются на величине порога . Очевидно, это связано с тем, что при больших значениях параметра лучшее действие определяется достаточно быстро (так как, например, при математические ожидания на действиях различаются значительно, ), но большое значение пороговой константы (при порог ) требует значительного времени на достижение этого порога. Этот недостаток стратегии можно устранить, если ввести дополнительный порог , с помощью которого при больших оптимальное действие будет определяться быстрее. В

Рисунок 1 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного .

этом случае стратегия будет выглядеть следующим образом. Начиная с некоторого времени текущий порог заменяется на , после чего моделирование продолжается в обычном порядке.

Очевидно, что теперь при высоких значениях неоптимальное действие будет в среднем исключаться из рассмотрения быстрее. Введем новую величину , которая будет показывать суммарные потери на всём множестве . Рассматривание данной величины вполне уместно, так как можно считать, что значения множества распределены равномерно.

Расчет значений

Итак, рассчитаем значения для приведенных выше данных. Более конкретно, нас интересуют следующие значения: – для первого случая, – для случая фиксированного и – для случая двойного порога. Вычисления показывают, что , . Далее был проведен полный расчет значений суммарных потерь за время моделирования при , , , , , . Искались такие параметры и , при которых будет наименьшим, при этом ни одно из значений потерь не превышает вычисленной величины гарантированных потерь полного дохода . В итоге удалось достигнуть значения при , . Диаграмма это демонстрирует, потери при таких параметрах обозначены на диаграмме:

Рисунок 2 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного , линия 3 – потери при фиксированном , , .

Это позволяет судить о том, что введение дополнительного порога позволяет уменьшить потери на 22% по сравнению с фиксированным , делая их сравнимыми с потерями первого случая.

Заключение

Итак, рассмотрена пороговая стратегия управления в случайной среде с нормально распределенными доходами с двумя действиями. Найдены оптимальные значения пороговой константы и параметра среды. Также рассмотрены суммарные потери дохода на множестве допустимых параметров среды и показано, что их можно значительно снизить с помощью введения дополнительного порога.

Автор благодарит профессора А.В. Колногорова за помощь в постановке задачи и обсуждение полученных результатов.

Рецензенты:

Кирьянов Б.Ф., д.т.н., профессор, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.

Едемский В.А., д.ф.-м.н., профессор кафедры ПМИ, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.

Библиографическая ссылка

Лазутченко А.Н. ИСПОЛЬЗОВАНИЕ ДВУХПОРОГОВОЙ СТРАТЕГИИ УПРАВЛЕНИЯ В СЛУЧАЙНОЙ СРЕДЕ С НОРМАЛЬНО РАСПРЕДЕЛЕННЫМИ ДОХОДАМИ // Современные проблемы науки и образования. 2014. № 2. ;
URL: https://science-education.ru/ru/article/view?id=12590 (дата обращения: 14.02.2026).

Сетевое научное издание
Современные проблемы науки и образования

ISSN 2070-7428

"Перечень" ВАК

ИФ РИНЦ = 0,936

ИСПОЛЬЗОВАНИЕ ДВУХПОРОГОВОЙ СТРАТЕГИИ УПРАВЛЕНИЯ В СЛУЧАЙНОЙ СРЕДЕ С НОРМАЛЬНО РАСПРЕДЕЛЕННЫМИ ДОХОДАМИ

Библиографическая ссылка

Современные проблемы науки и образования
Сетевое научное издание | ISSN 2070-7428 | ЭЛ № ФС 77 - 80954