Сетевое издание
Современные проблемы науки и образования
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 0,940

ИСПОЛЬЗОВАНИЕ ДВУХПОРОГОВОЙ СТРАТЕГИИ УПРАВЛЕНИЯ В БИНАРНОЙ СЛУЧАЙНОЙ СРЕДЕ

Лазутченко А.Н. 1
1 ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого»
Рассмотрена пороговая стратегия управления в случайной среде с двумя действиями с бинарными доходами. В данной постановке задачи вероятности выигрыша на действиях в процессе управления фиксированы, но неизвестны лицу, осуществляющему управление. Цель управления задана в минимаксной постановке и состоит в минимизации математического ожидания максимальных потерь полного дохода и понижении суммарных потерь на некотором множестве параметров среды. С помощью написанной компьютерной программы было проведено моделирование заданной случайной среды и найдено значение минимакса, а также параметры среды, при которых он был найден. Также среда была исследована на суммарные потери полного дохода в предположении, что значения множества параметров среды распределены равномерно, а пороговое значение фиксировано. После этого суммарные потери были вычислены для двух порогов, оптимальные значения которых были определены после полного исследования всех их допустимых значений. Как оказалось, введение дополнительного порога позволило на ранних этапах отбрасывать не самый оптимальный вариант раньше, что существенно улучшает итоговый доход. Таким образом, в работе показано, что с помощью двухпороговой стратегии управления в случайной среде можно значительно снизить суммарные потери полного дохода на некотором множестве параметров среды.
минимакс
бинарный доход
пороговая стратегия управления
случайная среда
1. Метод статистических испытаний (Метод Монте-Карло) / Н.П. Бусленко [и др.] – М. : Физматгиз, 1962.
2. Колногоров А.В. Нахождение минимаксных стратегий и риска в случайной среде (задаче о двуруком бандите) // Автоматика и телемеханика [В. Новгород]. - 2011. - № 5.
3. Колногоров А.В., Шелонина Т.Н. Об инвариантности функции потерь для пороговой стратегии поведения в случайной среде // Вестн. Новг. гос. ун-та. - 2006. - № 39. - С. 18-21.
4. Срагович В.Г. Адаптивное управление. - М. : Наука, 1981. – 384 с.
5. Vogel W. // Ann. Math. Statist. - 1960. - V. 31. - P. 444–451.

Введение

Случайная среда (однородный процесс с независимыми значениями в терминологии [4]) с бинарно распределенными доходами – это управляемый случайный процесс , принимающий значения 0 и 1, интерпретируемые как текущие доходы и зависящие только от выбираемых в текущие моменты времени действий , т.е.

(1)

Такая среда описывается векторным параметром . В данной постановке задачи параметр фиксирован, но неизвестен тому, кто управляет процессом.

Постановка задачи

Введем целевую функцию потерь , значениями которой являются потери за время моделирования, где определяет вероятности выигрыша на действиях, – используемая стратегия. Если параметр известен, то наилучшей стратегией является та, которая применяет только то действие, которому соответствует большая из величин , и максимальный полный доход в этом случае равен . Если же неизвестен, то неизбежно возникают потери вследствие неполноты информации о среде, равные:

. (2)

Здесь представляет собой математическое ожидание потерь полного дохода. Предполагается, что ограничения на множество допустимых значений параметра имеют следующий вид:

. (3)

При использовании минимаксного подхода, предложенного, например, в [2], цель управления состоит в минимизации величины потерь полного дохода на множестве параметров по множеству стратегий . При этом минимаксный риск выглядит следующим образом:

. (4)

Для реализации этой цели предлагается использовать пороговую стратегию, предложенную в [5].

Стратегия управления с одним порогом

Итак, рассмотрим пороговую стратегию . Она применяет действия и среды по очереди, накапливая доходы и соответственно. На каждом шаге вычисляется абсолютная разность доходов на действиях . Действия применяются до тех пор, пока эта величина не превысит порога , где – полное время управления, , – пороговая константа и дисперсия соответственно , или не истечет время управления. Если время управления не истекло, то действие, которому соответствует меньшая величина набранного дохода, исключается из рассмотрения, а оставшееся время применяется только другое действие.

Можно показать, что наибольшие потери полного дохода при достаточно больших будут иметь место при

, (5)

где . Ограничения на накладываются, исходя из свойства инвариантности функции потерь [3]. Очевидно, что в таком случае дисперсия оказывается максимальной, т.е. этот случай представляет наибольший теоретический интерес для исследования.

На основе пороговой стратегии , рассмотренной выше, была разработана программа. Прежде сделаем замечание. Целевая функция потерь , вообще говоря, зависит от параметров и . Но для расчетов нам удобнее полагать, что она зависит от и , где – пороговая константа, использующаяся пороговой стратегией, – параметр среды.

Итак, алгоритм работы программы построен таким образом, что в ней для каждой пары вычисляется средний доход , где – доход за одно моделирование, – количество моделирований. Затем вычисляются средние потери математического ожидания дохода . После этого при каждой константе определяются минимальные потери . При каждой константе подбираются максимальные потери . Точка, в которой , и является минимаксной точкой, в которой достигается минимальная гарантированная величина потерь полного дохода.

В результате вычислений выяснилось, что достаточно рассмотреть , , поскольку предварительные значения и оказались заключенным именно в этих интервалах. При этом максимальные потери . Более точные вычисления, достигающиеся за счет уменьшения шага изменения параметров, дают следующие результаты: , , . Время моделирования выбиралось из условия , количество моделирований , что позволяет говорить о точности вычислений [1].

Таблица 1 показывает результаты предварительных вычислений. Все потери в таблице являются приведенными путем деления на . Желтым цветом обозначены локальные минимумы по для каждого , зеленым – локальные максимумы по для каждого , сиреневым – точка, в которой минимум по равен максимуму по .

Таблица 1 – Значения

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

1

0,229

0,226

0,216

0,211

0,206

0,205

0,206

0,208

0,211

0,215

2

0,432

0,400

0,360

0,340

0,323

0,317

0,321

0,330

0,342

0,357

3

0,612

0,532

0,445

0,404

0,375

0,366

0,372

0,389

0,413

0,440

4

0,770

0,624

0,484

0,424

0,383

0,374

0,386

0,411

0,444

0,480

5

0,905

0,683

0,489

0,412

0,369

0,364

0,382

0,414

0,452

0,495

6

1,019

0,713

0,470

0,387

0,347

0,348

0,374

0,410

0,454

0,501

7

1,116

0,717

0,439

0,356

0,324

0,334

0,366

0,407

0,453

0,501

8

1,192

0,706

0,402

0,326

0,304

0,323

0,359

0,404

0,451

0,500

9

1,255

0,679

0,364

0,298

0,288

0,315

0,355

0,402

0,451

0,500

10

1,298

0,645

0,330

0,274

0,276

0,309

0,353

0,401

0,451

0,500

Двухпороговая стратегия управления

Итак, получены значения пороговой константы и параметра при , для которых гарантированные потери полного дохода минимальны. Рассмотрим пример. Предположим, что имеется два беспроводных модема. С помощью них можно передавать данные, однако вероятности передачи данных без ошибок различаются. Необходимо выяснить, который из модемов работает более стабильно. Подразумевается, что вероятности успешной передачи данных на модемах не равны. При вероятностях успешной передачи данных , у первого и второго модемов соответственно тестирование модемов следует проводить до тех пор, пока разница между количеством успешных передач достигнет величины 29.

Рассмотрим теперь потери на множестве допустимых параметров для следующих двух случаев. На диаграмме линия 1 показывает минимальные потери для минимальных для каждого , линия 2 – потери для фиксированного (все потери также являются приведенными):

Рисунок 1 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного .

Как нетрудно заметить, начиная с и до потери за моделирование практически идентичны. После этого потери для случая с фиксированным увеличиваются и в определенный момент устанавливаются на величине порога . Очевидно, это связано с тем, что при больших значениях параметра лучшее действие определяется достаточно быстро (так как, например, при вероятности выигрыша на действиях ), но большое значение пороговой константы (при порог ) не позволяет исключить из рассмотрения неоптимальное действие раньше, чем будет достигнут порог.

Итак, большие потери дохода для случая фиксированного имеют место в силу того факта, что на достижение порога при больших требуется фиксированное время. Этот недостаток стратегии можно устранить, если ввести дополнительный порог , с помощью которого при больших оптимальное действие будет определяться быстрее. В этом случае стратегия будет выглядеть следующим образом. Начиная с некоторого времени текущий порог заменяется на , после чего моделирование продолжается в обычном порядке.

Очевидно, что теперь при высоких значениях неоптимальное действие будет в среднем исключаться из рассмотрения быстрее. Однако не совсем понятно, что будет происходить на этапе, где мало. Попробуем взять тестовые параметры и и посмотрим на результаты. Возьмем, например, , . Полученные результаты отобразим на диаграмме:

Рисунок 2 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного , линия 3 – потери при фиксированном , , .

Линия 3 показывает значения потерь при выбранных случайных параметрах. Как видно, параметры оказались удачны: ни одно из значений потерь не превышает вычисленной ранее величины гарантированных потерь полного дохода, и при больших значениях потери снизились, видно, что получившиеся потери совпадают с потерями для случая простого порога. Однако отметим, что сравнивать результаты в таком виде не очень удобно. Поэтому введем новую величину , которая будет показывать суммарные потери на всём множестве . Рассматривание данной величины вполне уместно, так как можно считать, что значения множества распределены равномерно.

Расчет значений

Итак, рассчитаем значения данной величины для приведенных выше данных. Более конкретно нас интересуют следующие значения: – для первого случая, – для случая фиксированного и – для случая двойного порога. Вычисления показывают, что , , . Как видно, введение второго порога для тех «тестовых» параметров, которые мы рассматривали, позволило в среднем снизить суммарные потери по сравнению с одиночным фиксированным порогом, и довольно значительно (на 37%). В предположении, что имеются более оптимальные параметры, был проведен полный расчет значений суммарных потерь за время моделирования при , , , , , . Искались такие параметры и , при которых будет наименьшим, при этом ни одно из значений потерь не превышает вычисленной величины гарантированных потерь полного дохода. В итоге удалось достигнуть значения при , . Диаграмма это демонстрирует, потери при таких параметрах обозначены линией 4:

Рисунок 3 – Графики значений функции потерь на множестве значений . Линия 1 показывает потери при минимальных для каждого , линия 2 – потери для фиксированного , линия 3 – потери при фиксированном , , .

Это позволяет судить о том, что введение дополнительного порога позволяет значительно уменьшить потери по сравнению с фиксированным , делая их сравнимыми с потерями первого случая.

Заключение

Итак, рассмотрена пороговая стратегия управления в случайной среде с бинарными доходами с двумя действиями. Найдены оптимальные значения пороговой константы и параметра среды. Также рассмотрены суммарные потери дохода на множестве допустимых параметров среды и показано, что их можно значительно снизить с помощью введения дополнительного порога.

Автор благодарит А.В. Колногорова за помощь в постановке задачи и обсуждение полученных результатов.

Рецензенты:

Едемский Владимир Анатольевич, доктор физико-математических наук, профессор кафедры ПМИ, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.

Кирьянов Борис Федорович, доктор технических наук, профессор, ФГБОУ ВПО «Новгородский государственный университет имени Ярослава Мудрого», г. Великий Новгород.


Библиографическая ссылка

Лазутченко А.Н. ИСПОЛЬЗОВАНИЕ ДВУХПОРОГОВОЙ СТРАТЕГИИ УПРАВЛЕНИЯ В БИНАРНОЙ СЛУЧАЙНОЙ СРЕДЕ // Современные проблемы науки и образования. – 2013. – № 3. ;
URL: https://science-education.ru/ru/article/view?id=9552 (дата обращения: 25.09.2021).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.074