Введение
По аналогии с определением бинарной случайной среды, приведенным в [4], случайная среда (однородный процесс с независимыми приращениями в терминологии [5]) с нормально распределенными доходами – это управляемый случайный процесс , значения которого интерпретируются как доходы, зависящие только от выбираемых в текущие моменты времени действий и имеющие нормальные распределения с плотностями
, (1)
если . При такой постановке задачи случайная среда описывается вектором математических ожиданий
. В данном случае параметр фиксирован, но неизвестен лицу, осуществляющему управление.
Постановка задачи
Введем целевую функцию потерь , значениями которой являются потери за время моделирования, где
– используемая стратегия. Если параметр
известен, то наилучшей стратегией является та, которая применяет только то действие, которому соответствует большая из величин
, и максимальный полный доход в этом случае равен
. Если же
неизвестен, то неизбежно возникают потери вследствие неполноты информации о среде, равные:
. (2)
Здесь представляет собой математическое ожидание потерь полного дохода. Предполагается, что ограничения на множество допустимых значений параметра
имеют следующий вид:
(3)
При использовании минимаксного подхода, предложенного, например, в [2], цель управления состоит в минимизации величины потерь полного дохода на множестве параметров по множеству стратегий
. При этом минимаксный риск
выглядит следующим образом:
. (4)
Для реализации этой цели предлагается использовать пороговую стратегию, предложенную в [6].
Стратегия управления с одним порогом
Итак, рассмотрим пороговую стратегию . Она применяет действия
и
среды по очереди, накапливая доходы
и
соответственно. На каждом шаге вычисляется абсолютная разность доходов на действиях
. Действия применяются до тех пор, пока эта величина не превысит порога
, где
– полное время управления,
– пороговая константа, или не истечет время управления. Если время управления не истекло, то действие, которому соответствует меньшая величина набранного дохода, исключается из рассмотрения, а оставшееся время применяется только другое действие.
Можно показать, что наибольшие потери полного дохода будут иметь место при
. (5)
На основе пороговой стратегии , рассмотренной выше, была разработана программа. Прежде сделаем замечание. Целевая функция потерь
, вообще говоря, зависит от параметров
и
. Но для расчетов нам удобнее полагать, что она зависит от
и
, где
– пороговая константа, использующаяся пороговой стратегией,
– параметр среды.
Итак, алгоритм работы программы построен таким образом, что в ней для каждой пары вычисляется средний доход
, где
– доход за одно моделирование,
– количество моделирований. Затем вычисляются средние потери математического ожидания дохода
. После этого при каждой константе
определяются минимальные потери
. При каждой константе
подбираются максимальные потери
. Точка, в которой
, является минимаксной точкой, в которой достигается минимальная гарантированная величина потерь полного дохода.
В результате вычислений оптимальное значение оказалось равным
, при этом максимальные потери
соответствуют
. Время моделирования выбиралось из условия
, количество моделирований
, что позволяет говорить о точности вычислений
[1]. Анализируя полученные результаты, видно, что параметры случайной среды с нормально распределенными доходами идентичны параметрам бинарной случайной среды [4], а потери примерно в 2 раза выше. Это соответствует теории.
Таблица 1 показывает результаты итоговых вычислений. Все потери в таблице являются приведенными путем деления на . Желтым цветом обозначены локальные минимумы по
для каждого
, зеленым – локальные максимумы по
для каждого
, сиреневым – точка, в которой минимум по
равен максимуму по
.
Таблица 1 – Значения
|
0,43 |
0,46 |
0,49 |
0,52 |
0,55 |
0,58 |
0,61 |
0,64 |
0,67 |
0,7 |
2,0 |
0,652 |
0,645 |
0,639 |
0,637 |
0,634 |
0,637 |
0,638 |
0,641 |
0,644 |
0,651 |
2,5 |
0,721 |
0,713 |
0,706 |
0,702 |
0,698 |
0,700 |
0,704 |
0,709 |
0,713 |
0,720 |
3,0 |
0,766 |
0,756 |
0,744 |
0,740 |
0,738 |
0,739 |
0,743 |
0,749 |
0,756 |
0,767 |
3,5 |
0,788 |
0,774 |
0,764 |
0,758 |
0,756 |
0,761 |
0,764 |
0,772 |
0,783 |
0,793 |
4,0 |
0,793 |
0,779 |
0,766 |
0,762 |
0,761 |
0,765 |
0,771 |
0,782 |
0,794 |
0,806 |
4,5 |
0,787 |
0,772 |
0,762 |
0,758 |
0,758 |
0,760 |
0,770 |
0,781 |
0,796 |
0,812 |
5,0 |
0,775 |
0,758 |
0,749 |
0,745 |
0,748 |
0,755 |
0,764 |
0,777 |
0,795 |
0,811 |
5,5 |
0,756 |
0,740 |
0,735 |
0,731 |
0,735 |
0,741 |
0,754 |
0,769 |
0,788 |
0,807 |
6,0 |
0,733 |
0,721 |
0,714 |
0,715 |
0,722 |
0,731 |
0,745 |
0,761 |
0,781 |
0,803 |
6,5 |
0,710 |
0,702 |
0,697 |
0,700 |
0,708 |
0,717 |
0,736 |
0,755 |
0,775 |
0,797 |
Двухпороговая стратегия управления
Рассмотрим теперь потери на множестве допустимых параметров для следующих двух случаев. На диаграмме линия 1 показывает минимальные потери для минимальных
для каждого
, линия 2 – потери для фиксированного
(все потери также являются приведенными).
Как нетрудно заметить, начиная с и до
потери за моделирование практически идентичны. После этого потери для случая с фиксированным
увеличиваются и в определенный момент устанавливаются на величине порога
. Очевидно, это связано с тем, что при больших значениях параметра
лучшее действие определяется достаточно быстро (так как, например, при
математические ожидания на действиях различаются значительно,
), но большое значение пороговой константы
(при
порог
) требует значительного времени на достижение этого порога. Этот недостаток стратегии можно устранить, если ввести дополнительный порог
, с помощью которого при больших
оптимальное действие будет определяться быстрее. В
Рисунок 1 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных
для каждого
, линия 2 – потери для фиксированного
.
этом случае стратегия будет выглядеть следующим образом. Начиная с некоторого времени текущий порог
заменяется на
, после чего моделирование продолжается в обычном порядке.
Очевидно, что теперь при высоких значениях неоптимальное действие будет в среднем исключаться из рассмотрения быстрее. Введем новую величину
, которая будет показывать суммарные потери на всём множестве
. Рассматривание данной величины вполне уместно, так как можно считать, что значения множества
распределены равномерно.
Расчет значений
Итак, рассчитаем значения для приведенных выше данных. Более конкретно, нас интересуют следующие значения:
– для первого случая,
– для случая фиксированного
и
– для случая двойного порога. Вычисления показывают, что
,
. Далее был проведен полный расчет значений суммарных потерь за время моделирования при
,
,
,
,
,
. Искались такие параметры
и
, при которых
будет наименьшим, при этом ни одно из значений потерь не превышает вычисленной величины гарантированных потерь полного дохода
. В итоге удалось достигнуть значения
при
,
. Диаграмма это демонстрирует, потери при таких параметрах обозначены на диаграмме:
Рисунок 2 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных
для каждого
, линия 2 – потери для фиксированного
, линия 3 – потери при фиксированном
,
,
.
Это позволяет судить о том, что введение дополнительного порога позволяет уменьшить потери на 22% по сравнению с фиксированным , делая их сравнимыми с потерями первого случая.
Заключение
Итак, рассмотрена пороговая стратегия управления в случайной среде с нормально распределенными доходами с двумя действиями. Найдены оптимальные значения пороговой константы и параметра среды. Также рассмотрены суммарные потери дохода на множестве допустимых параметров среды и показано, что их можно значительно снизить с помощью введения дополнительного порога.
Автор благодарит профессора А.В. Колногорова за помощь в постановке задачи и обсуждение полученных результатов.
Рецензенты:
Кирьянов Б.Ф., д.т.н., профессор, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.
Едемский В.А., д.ф.-м.н., профессор кафедры ПМИ, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.
Библиографическая ссылка
Лазутченко А.Н. ИСПОЛЬЗОВАНИЕ ДВУХПОРОГОВОЙ СТРАТЕГИИ УПРАВЛЕНИЯ В СЛУЧАЙНОЙ СРЕДЕ С НОРМАЛЬНО РАСПРЕДЕЛЕННЫМИ ДОХОДАМИ // Современные проблемы науки и образования. – 2014. – № 2. ;URL: https://science-education.ru/ru/article/view?id=12590 (дата обращения: 02.06.2023).