БАЙЕСОВСКИЙ ПОДХОД В ЭКОНОМЕТРИКЕ И ЕГО РЕАЛИЗАЦИЯ В ПРОГРАММНОЙ СРЕДЕ R

Бабешко Л.О. 1

1 ФГОБУ ВО Финансовый университет при Правительстве РФ

Процедура байесовского оценивания применима к широкому спектру моделей, рассматриваемых в рамках дисциплин эконометрического блока: регрессионных моделей, моделей с дискретной зависимой переменной, моделей временных рядов, систем одновременных уравнений, моделей для панельных данных. Она обладает значительным преимуществом по сравнению с классическими методами в точности статистического вывода при небольших объемах выборок данных, которые характерны для эконометрических исследований. В работе рассмотрены примеры оценивания модели множественной регрессии байесовским методом и выполнено сравнение аналитического решения с результатом оценивания методом MCMC (Markov Chain Monte Carlo) в программной среде R. Алгоритм цепи заключается в последовательном совершении переходов от одного распределения плотности вероятности к другому. В результате переходов получается выборка из большого числа распределений. Важным этапом оценивания в рамках МСМС, для получения корректных оценок математических ожиданий на основе сгенерированных инвариантных распределений, является проверка выполнения двух ограничений: эргодичность и сходимость Марковской цепи. Для выполнения тестирования данных предпосылок в программной среде R имеется целый арсенал тестов в пакете coda. В работе приводятся результаты диагностики при помощи теста raftery.diag() (Raftery, A.E. and Lewis, S).

Статья в формате PDF

173 KB

байесовская регрессия

функция правдоподобия

метод гиббса

метод метрополиса-гастингса

пакет coda

метод монте-карло по схеме марковской цепи

1. Де Гроот М. Оптимальные статистические решения. М.: МИР, 1974. 491 c.

2. Айвазян С.А., Фантаццини Д. Эконометрика-2: Продвинутый курс с приложениями в финансах: учебник. М.: Магистр: Инфра-Ь, 2014. 944 c.

3. Бабешко Л.О., Бич М.Г., Орлова И.В. Эконометрика и эконометрическое моделирование: учебник. М.: Вузовский учебник: ИНФРА-М, 2017. 385 c.

4. Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. Тольятти: «Кассандра», 2013. 305 c.

5. Martin A.D., Quinn K.M., Park J.H. MCMCpack: Markov Chain Monte Carlo in R. Journal of Statistical Software. 2011. Vol. 42. Issue 9. 21 p.

6. Fornalski K.W. Applications of the robust Bayesian regression analysis. International Journal of Society Systems Science. 2015. Vol. 7. № 4. P. 314-333.

7. Гущин Ю.В. Интерактивные методы обучения в высшей школе // Психологический журнал. 2012. № 2. С. 1-18.

В настоящее время, с развитием информационных технологий, байесовские методы нашли широкое применение в теории и практике эконометрических исследований и включены в учебные программы магистерской подготовки ведущих университетов в качестве дисциплин по выбору, основное назначение которых - дать представление о современных подходах байесовского оценивания и методах их реализации в статистических пакетах прикладных программ.

В байесовском подходе оптимальным образом используется информация из двух источников: априорная информация о моделируемом объекте (информация, полученная из предыдущих исследований или теоретических предположений) и статистическая информация, содержащаяся в результатах наблюдений. Обновленная информация (апостериорная вероятность) - результат применения формулы Байеса:

, (1)

для непрерывных случайных переменных: - совместная функция плотности распределения вероятностей для вектора случайных наблюдений и случайного вектора параметров ,- плотность априорного распределения, - функция распределения плотности вероятностей для наблюдений Y при определенном векторе (функция правдоподобия),

- полная вероятность, выполняющая роль нормирующего множителя и не зависящая от вектора параметров, поэтому формулу «обновления» (1) записывают в виде

, (2)

где - апостериорная функция плотности вероятности (ФПВ), включающая как априорную (через априорную плотность распределения вектора параметров), так и выборочную (через функцию правдоподобия) информацию, символ ~ знак пропорциональности. Полученную апостериорную ФПВ можно охарактеризовать мерами центральной тенденции (математическим ожиданием или модой), дисперсии и скошенности.

Основное преимущество применения байесовского подхода в его унифицированности, вне зависимости от типа моделей, и включает следующие этапы: выбор стохастической модели, генерирующей наблюдения; формулировка априорных допущений относительно значений параметров; формирование выборки; информация об апостериорной ФПВ и её обобщающих характеристиках (меры центральной тенденции и дисперсии, апостериорные интервалы). Байесовские методы имеют точностные преимущества по сравнению с классическими в условиях малых выборок, что характерно для эконометрических данных.

Работа нацелена на апробацию алгоритмов байесовского метода оценивания в рамках аналитического и численного МСМС-подхода, с выполнением оценивания и диагностики предпосылок метода в программной среде R.

Результаты исследования и их обсуждение. Процедура байесовского оценивания применима к широкому спектру моделей, рассматриваемых в рамках дисциплин эконометрического блока: регрессионных моделей, моделей с дискретной зависимой переменной, моделей временных рядов, систем одновременных уравнений, моделей для панельных данных. Программы дисциплин байесовского подхода в эконометрике, как правило, включают байесовский анализ классической модели линейной регрессии и байесовский подход с применением метода Монте-Карло по схеме Марковской цепи.

Выбор априорного распределения, задающего начальное представление о поведении параметров модели, базируется на семействе сопряженных распределений, для которых априорное и апостериорное распределения принадлежат одному и тому же семейству распределений.

Для существования сопряженного семейства априорных распределений функция правдоподобия должна быть представлена в виде произведения достаточных статистик:

, (3)

где - неотрицательная функция, зависящая от Y только через , - положительная функция от выборочных данных, не зависящая от параметров [1].

Для формирования семейства распределений, сопряжённого с наблюдаемой генеральной совокупностью, в случае представления функции правдоподобия в виде произведения (3) достаточно одного перехода. При этом в качестве априорных распределений при решении практических задач применяют два вида функций [2]:

для параметров, принимающих как положительные, так и отрицательные значения на числовой оси, априорная функция плотности принимает постоянное значение

, (4)

и поскольку в данном случае в функции (4) нет никакой информации о параметрах модели, в обозначении используется индекс САЗ - скудность априорных знаний;

для параметров, принимающих только положительные значения на числовой оси

, (5)

где случайный параметр. Таким образом, для построения семейства априорных распределений, сопряженных с наблюдаемой генеральной совокупностью, необходимо проверить возможность представления функции правдоподобия в виде произведения достаточных статистик и в зависимости от знаков параметров модели выбрать САЗ-апостериорное распределение:

. (6)

В байесовских моделях эконометрики в качестве элементов вектора включают вектор параметров моделей, дисперсии возмущений, автоковариационные матрицы возмущений и оценок параметров. Оценим модель множественной линейной регрессии байесовским методом:

. (7)

В (7) используются традиционные обозначения: - вектор значений эндогенной переменной, - число наблюдений, - матрица регрессоров, - вектор параметров модели, - вектор возмущений, имеющий нормальное распределение , с числовыми характеристиками: математическое ожидание, автоковариационная матрица , где - единичная матрица,- дисперсия случайного возмущения, - параметр точности (precision metrics).

Вектор эндогенных переменных модели также имеет нормальное распределение

с числовыми характеристиками: математическое ожидание, автоковариационная матрица , и плотностью распределения:

. (8)

Можно показать, что достаточной статистикой плотности распределения функции (8) является функция, которая зависит от произведений матрицы регрессоров и вектора значений эндогенной переменной модели множественной линейной регрессии (7): , , . Это значительно упрощает процедуру оценивания неизвестных параметров модели и в рамках байесовского подхода, т.к. приводит к выполнению условия (3).

Для представления плотности (8) через оценки параметров модели и дисперсии возмущений, вектор отклонений выражается через ошибки оценивания:

и аргумент функции представляет собой функцию двух слагаемых:

, (9)

первое слагаемое включает ошибку оценки (прогноза) эндогенной переменной, второе - ошибку оценки вектора параметров. Выразим первое слагаемое через несмещенную оценку дисперсии возмущений

и подставим оба слагаемых в формулу плотности (8):

. (10)

САЗ-апостериорное распределение (6) для параметров модели множественной регрессии, с учетом того что параметр точности принимает положительные значения, правила (5) и формулы (10), принимает вид многомерного гамма-нормального распределения с параметром сдвига , матрицей точности и параметрами и :

, (11)

где , ,

. (12)

Для определения параметров байесовской регрессии аналитическим способом, необходимо вычислить параметры сопряженного с наблюдаемой генеральной совокупностью априорного распределения. Обычно для этой цели применяется метод моментов, использующий оценки числовых характеристик, полученные по выборочным данным в рамках ММП-оценивания.

В качестве примера рассмотрим оценку параметров модели линейной регрессии байесовским методом по данным таблицы 1.

Таблица 1

Выборочные данные [3]

№	Y	X	№	Y	X
1	6,7	2,8	8	10,8	4,8
2	6,9	2,8	9	10,6	4,9
3	7,2	3	10	10,7	5,2
4	7,3	2,9	11	11,1	5,4
5	8,4	3,4	12	11,8	5,5
6	8,8	3,9	13	12,1	6,2
7	8,5	4	14	12,4	7

Оценим частное распределение параметра точности h в нормальной части распределения (12). Он имеет гамма-распределение с параметрами и . Используя значения числовых характеристик и метод моментов, получим:

, (13)

, . (14)

Оценим частное распределение параметра , имеющего обобщённое ()-мерное распределение Стьюдента с числом степеней свободы, параметром сдвига и матрицей точности . Числовые характеристики параметра определяются по формулам:

, (15)

где диагональные элементы матрицы точности представляют собой априорные (заданные) значения дисперсий элементов вектора параметров . Далее вычисляются точечные оценки параметров апостериорного распределения (12) и параметры частного апостериорного гамма-распределения параметра точности:

где

Интервальные оценки вычисляются через элементы матрицы точности:

, (16)

по формулам:

, (17)

, (18)

. (19)

При практической реализации алгоритма байесовского оценивания, в пакетах прикладных программ, выполняется многократное генерирование случайных величин с заданным распределением. Эффективными средствами генерации таких выборок являются итерационные методы Монте-Карло, использующие цепи Маркова MCMC (Monte Carlo Markov chain) [4]. Для генерации выборки, как правило, используются методы Гиббса (Gibbs sampler) и Метрополиса-Гастингса (Metropolis-Hastings sampler). В генераторе Гиббса вначале инициализируется начальный вектор параметров, например для рассматриваемой регрессионной модели с двумя параметрами , . Затем генерируются последовательности случайных величин из условных апостериорных распределений [5; 6]:

, ,

где - номер итерации. В итерационном алгоритме Метрополиса-Гастингса используются два распределения: априорное () - вероятности перехода в цепи Маркова и целевое апостериорное , учитывающее априорное и функцию правдоподобия. Для начального вектора параметров вычисляются исходные значения цепи . Далее с учетом распределения текущий вектор преобразуется в и вычисляется отношение апостериорных плотностей , определяющее параметры следующего звена цепи - (итерация принимается), либо остаются значения цепи предыдущего шага. Результат итерационного процесса - точечная аппроксимация распределения [4]. Число итераций назначается достаточно большим, , для того чтобы марковская цепь успела сойтись к своему стационарному распределению.

Точечную и интервальную оценку параметров регрессионной модели байесовским методом в программной среде R можно выполнить при помощи функции MCMCregress пакета MCMCpack

MCMCregress(formula, data, b0=b0,B0=B0)

с основными параметрами: formula – спецификация регрессионной модели; data - данные в форме data.frame; b0 - априорное среднее значение вектора параметров; B0 - априорное значение автоковариационной матрицы оценок параметров. В таблице 2 приведен фрагмент протокола результатов оценивания регрессионной модели байесовским методом по данным таблицы 1.

Таблица 2

Результаты оценивания

Результаты MCMC-оценивания

Результаты МНК-оценивания

1. Empirical mean and standard deviation for each variable, plus standard error of the mean:

Mean SD Naive SE Time-series SE

(Int) 2.797 0.366 0.004 0.0037

X 1.526 0.081 0.001 0.0008

sigma2 0.252 0.118 0.001 0.0013

2. Quantiles for each variable:

2.5% 25% 50% 75% 97.5%

(Int) 2.069 2.560 2.807 3.040 3.500

X 1.371 1.472 1.524 1.578 1.688

sigma2 0.112 0.172 0.224 0.299 0.561

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.43118 0.36076 6.739 3.20e-05

X 1.62947 0.08263 19.720 6.22e-10

Residual standard error: 0.3387 on 11 degrees of freedom

Multiple R-squared: 0.9725, Adjusted R-squared: 0.97

F-statistic: 388.9 on 1 and 11 DF, p-value: 6.217e-10

confint(fm, level=0.90)

5 % 95 %

(Intercept) 1.783295 3.079061

X 1.481071 1.777860

Важным этапом оценивания в рамках МСМС, для получения корректных оценок математических ожиданий на основе сгенерированных инвариантных распределений, является проверка выполнения двух ограничений: эргодичности и сходимости Марковской цепи. Для выполнения тестирования данных предпосылок в программной среде R имеется целый арсенал тестов в пакете coda: geweke.diag ( ) (Geweke), gelman.diag( ) (Gelman and Rubin), heidel.diag( ) (Heidelberger and Welch), raftery.diag( ) (Raftery and Lewis). Ниже приводится протокол результатов диагностики при помощи теста raftery.diag():

raftery.diag(m)

Quantile (q) = 0.025

Accuracy (r) = +/- 0.005

Probability (s) = 0.95

Burn-in Total Lower bound Dependence

(M) (N) (Nmin) factor (I)

(Intercept) 3 4095 3746 1.090

X 2 3771 3746 1.010

sigma2 2 3741 3746 0.999

В последнем столбце протокола - оценка «коэффициента зависимости» степени, до которой автокорреляция увеличивает требуемый размер выборки (bound Dependence factor (I)). Значения указывают на сильную автокорреляцию, которая может быть связана с плохим выбором начального значения или высокими апостериорными корреляциями. В рассматриваемом примере этот показатель меньше 5 для всех параметров модели, следовательно, проблем со сходимостью нет.

Заключение. Результат оценивания модели множественной регрессии (7), по данным таблицы 1, в рамках аналитического байесовского подхода, алгоритм которого включает: проверку условия существования сопряженного семейства априорных распределений; определение общего вида семейства априорных распределений, сопряженных с функцией правдоподобия, и подбор значений их параметров; трансформацию значений параметров при переходе от априорного сопряженного распределения к апостериорному - показывает значительное повышение точности интервального оценивания по сравнению с классическим ММП-оцениванием и оценками в рамках метода MCMC.

Данный факт особенно важен для повышения мотивации бакалавров экономических направлений вузов к изучению байесовского подхода в статистике и эконометрике и к его использованию при изучении специальных дисциплин, ориентированных на будущую профессию. Задача преподавателей - разработать методику обучения байесовского подхода в эконометрике с использованием современных эконометрических пакетов в форме специально адаптированных программных продуктов. В данной статье для реализации байесовского подхода в эконометрике предлагается использовать программную среду R, которая пользуется широкой поддержкой научного сообщества, сообщества разработчиков и пользователей и применяется при решении базовых задач высшей математики студентами общеэкономических специальностей Финансового университета. R позволяет создавать программы с высокой степенью интерактивности обучаемого, что очень важно для процесса обучения [7].

Библиографическая ссылка

Бабешко Л.О. БАЙЕСОВСКИЙ ПОДХОД В ЭКОНОМЕТРИКЕ И ЕГО РЕАЛИЗАЦИЯ В ПРОГРАММНОЙ СРЕДЕ R // Современные проблемы науки и образования. – 2019. – № 3. ;
URL: https://science-education.ru/ru/article/view?id=28938 (дата обращения: 25.04.2024).

Переводная версия журнала "Современные проблемы науки и образования"
"Modern Problems of Science and Education. Surgery» (ISSN - 2686-9101)

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Современные проблемы науки и образования» список ВАК ИФ РИНЦ = 1,006

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674

«Современные наукоемкие технологии» список ВАК ИФ РИНЦ = 0,940

«Успехи современного естествознания» список ВАК ИФ РИНЦ = 0,775

«Международный журнал прикладных и фундаментальных исследований» ИФ РИНЦ = 0,593

«Международный журнал экспериментального образования» ИФ РИНЦ = 0,425

«Научное Обозрение. Биологические Науки» ИФ РИНЦ = 0,400

«Научное Обозрение. Медицинские Науки» ИФ РИНЦ = 0,801

«Научное Обозрение. Экономические Науки» ИФ РИНЦ = 0,871

«Научное Обозрение. Педагогические Науки» ИФ РИНЦ = 0,733

«Научное Обозрение. Технические Науки» ИФ РИНЦ = 0,695

«European journal of natural history» ИФ РИНЦ = 0,301

«Международный студенческий научный вестник»

Издание научной и учебно-методической литературы ISBN РИНЦ DOI

РЕЦЕНЗИИ и ОТЗЫВЫ
кандидатов и докторов наук
на статьи, авторефераты, диссертации, монографии, учебники, учебные пособия

Академия Естествознания готовит к изданию реестр новых научных направлений, разработанных российскими учеными

Сетевое издание
Современные проблемы науки и образования

ISSN 2070-7428

"Перечень" ВАК

ИФ РИНЦ = 1,006

Библиографическая ссылка

Современные проблемы науки и образования
Сетевое издание | ISSN 2070-7428 | ЭЛ № ФС 77 - 80954