Целью нашего исследования было построить адекватную модель для описания влияния промышленных сбросов ЗВ в водные источники на заболеваемость населения Кемеровской области РЖ.
Данные о количестве сбросов ЗВ в водные источники Кузбасса с 1990 по 2009 г. взяты из ежегодных Государственных докладов «О состоянии и охране окружающей среды Кемеровской области» и «Угольная промышленность Российской Федерации» [1,5].
Данные о количестве впервые выявленных случаев заболеваемости РЖ в Кемеровской области выбраны из основных форм медицинской документации ГУЗ «Областной клинический онкологический диспансер» г. Кемерово (форма № 7 «Сведения о заболеваемости ЗН») в промежутке с 1990 по 2010 г. Данные о возрастной структуре населения Кузбасса представлены Областным управлением статистики.
Информационную базу данных сформировали с помощью компьютерной программы "Excel-2000".
Расчет стандартизованных показателей заболеваемости РЖ (на 100000 населения) проводили прямым методом стандартизации по общепринятой методике [2]. За стандарт была принята возрастная структура населения Кемеровской области в 2001 г.
Математическую обработку результатов выполняли, используя общепринятые методы медицинской статистики [2] с помощью компьютерной программы "Excel-2000" и пакета прикладных программ STATISTICA 6.0 (серийный номер № 31415926535897) [4,6].
Статистическая обработка информации строилась с учетом характера распределения данных (критерий Шапиро-Уилко, W).
Для выявления зависимости стандартизованных показателей РЖ (параметр y) с 1990 по 2005 гг. от количества сбросов ЗВ в водные источники (фактор x) с 1985 по 2005 гг. в Кемеровской области использовали метод расчета коэффициента прямой, линейной (парной) корреляции с выявлением статистически значимым коэффициентом корреляции (p<0,05) и определением временного сдвига (t). Далее, при построении уравнения регрессии проверяли линейную модель для моделирования влияния фактора х на параметр у.
Алгоритм линейной модели регрессионного анализа включал в себя вычисление параметров уравнения линейной регрессии и коэффициента регрессии с проверкой значимости (t-критерий Стьюдента, p=0,05), вычисляли остаточный компонент, проверяли выполнение предпосылок метода наименьших квадратов (МНК), находили коэффициент детерминации с проверкой значимости (F-критерий Фишера, p=0,05), коэффициент эластичности и среднюю относительную ошибку аппроксимации. После оценки модели мы попытались рассчитать прогноз показателей заболеваемости РЖ на 2006-2010 годы при 80 % от имеющихся фактических данных количества сбросов ЗВ в водные источники в предыдущие годы. Расчетные показатели заболеваемости сопоставлены с фактическими за тот же период.
Результаты исследования и их обсуждение
В 90-е годы уровни заболеваемости РЖ в Кемеровской области колебались от 42,0 в 1990 г. до 33,0 на 100000 нас. в 1999 г. и уже к 2004-2009 гг. снизилась до 24,0 - 26,0.
Значения показателей заболеваемости населения РЖ и количества сбросов ЗВ в водные источники в исследуемые промежутки времени имеют нормальное распределение (W=0,9305; р=0,158 и W=0,9116; р=0,068 соответственно).
На рисунке 1 показана взаимосвязь во времени показателей заболеваемости РЖ с количеством сбросов ЗВ в водные источники, с промежутком t между ними равным 4 года.
Рисунок 1. Взаимосвязь во времени заболеваемости населения раком желудка (РЖ) со сбросами загрязняющих веществ (ЗВ) в водные источники Кемеровской области
По оси абсцисс: x1 - интервал заболеваемости раком желудка с 1994 по 2005 гг., x2 - интервал сбросов загрязняющих веществ в водные источники с 1990 по 2001 гг.; по осям ординат: y1 - стандартизованные показатели заболеваемости раком желудка на 100000 населения, y 2 - сбросы загрязняющих веществ в водные источники, тыс.т.
Анализ поступления ЗВ со сточными водами в водные объекты Кемеровской области за период с 1990 по 2009 г. показал, что вплоть до 2001 г. количество сбросов снижалось (с 650,62 до 494,66 тыс.т), затем наметилась небольшая тенденция к ее росту (в 2009 г. - 570,96 тыс.т).
По рисунку 2 видно, что между исследуемыми параметрами х и у существует прямая, сильная корреляционная связь (r=0,85; p=0,000).
Рисунок 2. Корреляция показателей заболеваемости населения раком желудка со сбросами загрязняющих веществ (ЗВ) в водные источники Кемеровской области
По оси абсцисс: сбросы загрязняющих веществ в водные источники, тыс. тонн; по оси ординат: стандартизованные показатели заболеваемости раком желудка на 100000 населения.
Сначала мы рассмотрели линейную модель:
Параметры уравнения линейной регрессии приведены в таблице 1.
Таблица 1. Параметры уравнений линейной и нелинейной регрессий между показателями заболеваемости населения раком желудка и количеством сбросов загрязняющих веществ
в водные источники Кемеровской области
Параметры
Модель |
a |
р- значение |
b |
р- значение |
R2 |
Se |
|
Eотн_i, % |
Линейная |
0,4426 |
0,9457* |
0,0561 |
0,0005 |
0,72 |
2,373 |
0,99 |
4,86 |
Степенная |
-1,3186 |
0,0398 |
1,0265 |
0,0005 |
0,72 |
0,032 |
1,03 |
5,13 |
Показательная |
1,0774 |
0,0000 |
0,0008 |
0,0006 |
0,70 |
0,033 |
0,99 |
5,28 |
Гиперболическая |
66,6590 |
0,0000 |
-19283,6316 |
0,0003 |
0,74 |
2,284 |
1,03 |
4,54 |
Примечание: * - р>0,05
Уравнение регрессии имеет следующий вид:
Коэффициенты регрессии a=0,4426 (t=0,070; р=0,946), b=0,0561 (t=5,083; р=0,000). Коэффициент b означает, что при увеличении количества сбросов ЗВ в водные источники на 1 тыс.т в год заболеваемость РЖ увеличивается в среднем на 0,056 на 100000 населения.
Выполнение предпосылок МНК согласно условиям Гаусса-Маркова включает в себя проверку: 1) случайности остаточной компоненты (критерий поворотных точек); 2) равенства нулю математического ожидания остаточной компоненты Ē=0 и постоянства дисперсии (критерий Голдфелда-Квандта); 3) независимости уровней ряда остатков (критерий Дарбина-Уотсона); 4) соответствия ряда остатков закону распределения (R/S-критерий).
1) По графику остатков (рис. 3) определяли количество поворотных точек. В нашем случае их количество равно 5 (р=5), при ркр=[2,1]=2. Критическое значение вычисляли по формуле (1):
, при n =12 (количество наблюдений) (1).
Следовательно, свойство случайности для ряда остатков выполняется: р=5>ркр=2.
Рисунок 3. График остатков линейной регрессии
По оси абсцисс: сбросы загрязняющих веществ в водные источники, тыс. тонн; по оси ординат: остатки.
2) В данной модели выполняется и второе условие Гаусса-Маркова: равенство нулю математического ожидания остаточной компоненты для линейной модели Ē=0.
При проверке постоянства дисперсии на гетероскедастичность (критерий Голдфелда -Квандта) F=FS2/FS1=0,53/0,43=1,23 (где FS1 и FS2 остаточная сумма квадратов по первым и последним пяти наблюдениям нашей модели). Критическое значение при уровне α=5 % и числах степеней свобода k1=k2=4-1-1=2 составило Fкр=19,0. Следовательно, наша линейная модель соответствует неравенству Fкр=19,0>F=1,23. Это говорит о постоянстве дисперсии остатков, т.е. модель гомоскедастичная.
3) Далее, для проверки независимости уровней ряда остатков, использовали критерий d (Дарбина-Уотсона, STATISTICA 6.0). Критерий d=1,43 и эта величина больше dU=1,33 и меньше 4-dU=2,67, следовательно, автокорреляция отсутствует (H0:ρ=0).
4) Проверка соответствия ряда остатков закону распределения (R/S-критерий) показала, что для построенной модели свойство нормального распределения остаточной компоненты выполняется согласно формуле: (2); где emax и emin - значения остатков (5,496 и -2,166 соответственно), Se - стандартная ошибка регрессии, рассчитанная по формуле: =2,373 (3), где SSост (остаточная сумма квадратов) составила 56,3014 (таблица 2).
Таблица 2. Дисперсионный анализ показателей количества сбросов загрязняющих веществ в водные источники и заболеваемости населения Кемеровской области раком желудка
Параметры |
df |
Сумма квадратов, SS |
Дисперсия, MS |
F- критерий |
Fкр |
р- значение |
Степень влияния, % |
Регрессия |
1 |
145,4478 |
145,44776 |
25,833 |
4,96 |
0,0005 |
72 |
Остаток |
10 |
56,3014 |
5,6301402 |
|
|
|
28 |
Итого |
11 |
201,7492 |
|
|
|
|
100 |
Критический интервал границ R/Sкр =2,80 - 3,91, при n=12. Следовательно, для построенной линейной модели свойство нормального распределения остаточной компоненты выполняется (2,80 <3,23< 3,91).
Таким образом, проведенная проверка предпосылок регрессионного анализа показала, что для линейной модели выполняются все условия Гаусса-Маркова.
Коэффициент детерминации и статистическую значимость по F-критерию Фишера вычисляли по формулам (4) и (5):
(4); (5)
Значение R2 =0,72 при F(1,10)=25,83; p=0,0004; Fкр=4,96.
Следовательно, влияние сбросов ЗВ в водные источники на заболеваемость населения РЖ составляет 72 %, остальные 28 % следует отнести к неучтенным факторам.
Стандартная ошибка регрессии линейной модели Se (3) говорит о том, что чем меньше в целом разброс точек наблюдений около прямой регрессии, тем надежней будет уравнение как оценочная функция.
Полученный по формуле коэффициент эластичности 0,99 % (6.1).
Это значит, что при увеличении сбросов ЗВ в водные источники на 1 % заболеваемость населения РЖ возрастает на 0,99 %
Проверка значимости полученного уравнения регрессии с помощью F-критерий Фишера показала, что уравнение модели является значимым F=25,83>Fкр=4,96 (р=0,006).
Для определения точности выбранной модели вычисляли среднюю относительную ошибку аппроксимации по формуле:
(7).
где - среднее значение относительной погрешности остатков.
Значение Eотн_i =4,86%<10%, следовательно, модель является точной.
Таким образом, на основании проверки предпосылок МНК выполняются все условия Гаусса-Маркова, значения коэффициента регрессии b, F-критерия Фишера и величины R2 в линейной модели статистически значимы, но свободный коэффициент a оказался статистически не значимым (р>0,05) и, следовательно, им можно пренебречь. Однако, использование этой модели для прогнозирования не целесообразно, т.к. анализ будет грубым.
Далее мы рассмотрели нелинейные модели регрессионного анализа (См. таблицу 1).
Степенная модель:
Исходную модель путем логарифмирования , преобразовали в линейную модель. Уравнение регрессии приобрело следующий вид: ŷ = a + b×x
Коэффициенты b и а были рассчитанные по формулам (8.1 и 8.2):
(8.1); t=5,0649; р=0,0005
(8.2); t=-2,3628; р=0,0398
Выполнив потенцирование линейного уравнения, мы получили следующее уравнение:
Вычислили по формулам (4 и 5): коэффициент детерминации R2=0,72 при F(1,10)=25,65; p=0,0005; стандартную ошибку регрессии: Se=0,032 (3);
коэффициент эластичности:
(6.2);
среднюю ошибку аппроксимации: Eотн_i=5,13% (4).
Таким образом, в степенной модели коэффициенты a и b статистически значимые (р<0,05), коэффициент детерминации высокий (R2=0,72), модель точная (Eотн_i<10%), что позволяет использовать в дальнейшем данную модель в прогнозировании заболеваемости населения РЖ.
Показательная модель: ŷ = a× bx
Для построения этой модели мы также произвели линеаризацию переменных путем логарифмирования обеих частей уравнения: и получили следующее линейное уравнение регрессии: ŷ = a× b× x
Коэффициенты b и а были рассчитаны по формулам (8.3 и 8.2):
(8.3); t= 4,8882; р=0,0006
a=1,0774 (8.2); t= 12,1709; р=0,0000
После потенцирования линейного уравнения регрессии получили следующее уравнение:
Далее рассчитали: R2=0,70 (4), при F(1,10)= 23,89; p=0,0006(5); Se=0,033 (3);
Eотн_i=5,28% (7) и
(6.3)
Таким образом, параметры показателей степенной модели оказались статистически значимыми, и эта модель может быть также использована для расчета прогнозов заболеваемости РЖ населения Кемеровской области.
Гиперболическая модель: ŷ = a× b/x
Линеаризацию модели произвели путем замены x на 1/х=X и получили следующее линейное уравнение: ŷ = a× b×X
Коэффициенты регрессии :
(8.4); t= -5,3534; р=0,0003
(8.5); t= 10,3739; р=0,0000
Значения R2=0,74 (4) при F(1,10)= 28,66; p=0,0003 (5); Se=2,284 (3); Eотн_i=4,54% (7) и
(6.4)
Следовательно, параметры показателей гиперболической модели оказались статистически значимыми, и описанная модель может быть использована в дальнейшей работе для расчета прогнозов заболеваемости РЖ.
В результате анализа линейной, степенной, показательной и гиперболической моделей для дальнейшей работы мы остановились только на нелинейных моделях и рассчитали по ним прогнозируемые средние значения показателя заболеваемости населения РЖ (ŷ) на 2006-2013 гг., при уровне значимости р=0,05, при 80 % от имеющихся фактических данных количества сбросов ЗВ в водные источники (x*) за 2002-2019 гг.
Расчетные прогнозируемые показатели заболеваемости населения РЖ (ŷ) за 2006-2010 гг. по описанным моделям сопоставили с фактическими за тот же период времени (y). Полученные результаты представлены в таблице 3.
В результате выяснилось, что прогнозируемые показатели заболеваемости РЖ отклоняются от фактических меньше всего в показательной модели - до 10 %. Для степенной модели данные отклонения составили до 14,0 %, а для гиперболической - до 30,0 %.
Таблица 3. Сопоставление фактических (y) и расчетных (прогнозируемых, ŷ) показателей заболеваемости населения Кемеровской области раком желудка в 2006- 2010 гг.
Год |
2002 |
2003 |
2004 |
2005 |
2006 |
Фактические показатели сбросов ЗВ, тыс.тонн (x) |
425,87 |
416,97 |
397,94 |
405,77 |
441,29 |
Год |
2006 |
2007 |
2008 |
2009 |
2010 |
Фактические показатели заболеваемости РЖ, на 100000 населения (y) |
24,1 |
25,4 |
26,0 |
24,4 |
23,4 |
Прогнозируемые показатели заболеваемости РЖ, на 100000 населения (ŷ) |
|||||
Степенная модель |
24,0 (0,4%) |
23,5 |
22,4 |
22,8 |
24,9 |
Доверительный интервал, р=0,05 |
23,95-24,05 |
23,45-23,55 |
22,34-22,46 |
22,74-22,86 |
24,85-24,95 |
Показательная модель |
25,1 (4,0%) |
24,7 (2,9%) |
23,9 (8,2%) |
24,2 (0,8%) |
25,7 (10,0%) |
Доверительный интервал, р=0,05 |
25,00-25,11 |
24,62-24,73 |
23,81-23,93 |
24,14-24,26 |
25,69-25,79 |
Гиперболическая модель |
21,4 (11,3%) |
20,4 (19,4%) |
18,2 (30,0%) |
19,1 (21,6%) |
23,0 (1,9%) |
Доверительный интервал, р=0,05 |
17,76-25,04 |
16,57-24,23 |
13,96-22,44 |
15,03-23,17 |
19,69-26,31 |
Примечание: в скобках указаны отклонения прогнозируемых показателей от фактических.
Таким образом, полученные в степенной, показательной и гиперболической модели коэффициенты регрессий a и b статистически значимы (p<0,05), имеют высокие и статистически значимые коэффициенты детерминации R2=0,70-0,74, связь между фактором x и результативным признаком ŷ у моделей Эi=0,99-1,03%. Так же оказалось, что нелинейные модели точные Eотн_i<10, но у степенной и показательной моделей стандартные ошибки регрессии оказались меньше (Se=0,032 и Se=0,033, соответственно), чем у гиперболической модели (Se=2,284), что говорит о надежности уравнений регрессий степенной и показательной моделей как оценочных функций (таблица 1). При сравнении прогнозируемых показателей заболеваемости населения РЖ с фактическими данными (за 2006-2010 гг.) наименьшие отклонения были у показательной модели (0,8-10,0 %), поэтому показательная модель и была использована нами для дальнейшего прогнозирования заболеваемости РЖ населения Кемеровской области до 2013 г.
Точность и надежность прогнозируемых значений ŷ в показательной модели оценивали 95 % доверительным интервалом по формуле (9): Y = ŷ ± t95×mŷ
где: ŷ - прогнозируемые значения показателя заболеваемости населения РЖ; t95 (10)=2,23; mŷ - стандартная ошибка прогнозирования, рассчитанная по формуле (10):
(10),
где Se=0,033 - стандартная ошибка показательной модели.
На рисунке 3 представлен прогноз заболеваемости РЖ населения Кемеровской области с 2006 по 2013 г., рассчитанный с помощью показательной модели на основе фактических данных о количестве сбросов ЗВ в водные источники за 2002-2009 гг.
Рисунок 3. Прогноз заболеваемости раком желудка населения Кемеровской области на 2006-2013 гг.
По оси абсцисс: года; по оси ординат: прогнозируемые показатели заболеваемости раком желудка на 100000 населения.
Заключение
При анализе взаимосвязей показателей заболеваемости населения раком желудка с количеством сбросов загрязняющих веществ в водные источники Кемеровской области показательная модель оказалась наиболее адекватной по всем статистическим условиям и критериям. Рассчитанные с помощью этой модели показатели заболеваемости раком желудка за 2006-2010 гг. отличаются от фактических не более чем на 10,0 % с надежностью 95 %. Поэтому показательная модель может быть рекомендована для дальнейшего прогнозирования заболеваемости раком желудка населения Кемеровской области на 2011-2013 гг. с учетом фактических данных сбросов загрязняющих веществ в водные источники за 2007- 2009 гг. По нашим расчетам заболеваемость раком желудка в 2011 г. составит 29,3±0,04; в 2012 г. - 28,2±0,03 и в 2013 г. - 26,4±0,04 на 100000 населения Кемеровской области.
Рецензенты:
- Устьянцева И.М., д.б.н., заместитель директора по клинической лабораторной диагностике ФГБЛПУ «Научно-клинический центр охраны здоровья шахтеров», г. Ленинск-Кузнецкий.
- Байбулатов Р.А., д.м.н., профессор кафедры онкологии КемГМА, г. Кемерово.
Работа получена 08.09.2011.
Библиографическая ссылка
Мун С.А., Ларин С.А., Глушков А.Н. ВЛИЯНИЕ СБРОСОВ ЗАГРЯЗНЯЮЩИХ ВЕЩЕСТВ В ВОДНЫЕ ИСТОЧНИКИ НА ЗАБОЛЕВАЕМОСТЬ РАКОМ ЖЕЛУДКА НАСЕЛЕНИЯ КЕМЕРОВСКОЙ ОБЛАСТИ // Современные проблемы науки и образования. – 2011. – № 4. ;URL: https://science-education.ru/ru/article/view?id=4740 (дата обращения: 14.09.2024).