Scientific journal
Modern problems of science and education
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 0,737

INFLUENCE OF POLLUTANT DISCHARGES IN WATER SOURCES FOR STOMACH CANCER POPULATION OF THE KEMEROVO REGION

Mun S.A. 1 Larin S.A. 1 Glushkov A.N. 1
1 Institute of Human ecology, Siberian Branch of Russian Academy of Sciences, Kemerovo, Russia
В работе описаны линейная, степенная, показательная и гиперболическая модели регрессионного анализа для выявления зависимости стандартизованных показателей заболеваемости раком желудка от количества сбросов загрязняющих веществ в водные источники с 1990 по 2005 гг. в Кемеровской области и их применение в прогнозировании заболеваемости.
This paper describes linear, extent, exponential and hyperbolic models of regression analysis to identify the dependence of standardized incidence rates of stomach cancer on the amount of pollutant discharges in water sources from 1990 to 2005 in the Kemerovo region and their use in morbidity predicting.
stomach cancer
water pollutants
prognosis of cancer morbidity
Очевидность взаимосвязей между спадом производства и соответствующего уменьшения количества сбросов загрязняющих веществ (ЗВ) в водные источники, с одной стороны, и снижением уровней заболеваемости населения Кемеровской области раком желудка (РЖ) [3], с другой стороны, послужило основанием для более детального исследования влияния загрязнений водных источников на онкологическую заболеваемость. При этом следовало учесть длительность латентного периода возникновения рака, исходя из общих представлений о канцерогенезе. Иными словами, было необходимо определить промежутки времени (t) между величиной сбросов ЗВ и показателями заболеваемости РЖ. Это имеет большое значение, как для исследования искомых взаимосвязей, так и для определения прогнозов заболеваемости. Для решения подобных задач используют разные математические модели (линейную и нелинейные модели).

Целью нашего исследования было построить адекватную модель для описания влияния промышленных сбросов ЗВ в водные источники на заболеваемость населения Кемеровской области РЖ.

Данные о количестве сбросов ЗВ в водные источники Кузбасса с 1990 по 2009 г. взяты из ежегодных Государственных докладов «О состоянии и охране окружающей среды Кемеровской области» и «Угольная промышленность Российской Федерации» [1,5].

Данные о количестве впервые выявленных случаев заболеваемости РЖ в Кемеровской области выбраны из основных форм медицинской документации ГУЗ «Областной клинический онкологический диспансер» г. Кемерово (форма № 7 «Сведения о заболеваемости ЗН») в промежутке с 1990 по 2010 г.  Данные о возрастной структуре населения Кузбасса представлены Областным управлением статистики.

Информационную базу данных сформировали с помощью компьютерной программы "Excel-2000".

Расчет стандартизованных показателей заболеваемости РЖ (на 100000 населения) проводили прямым методом стандартизации по общепринятой методике [2]. За стандарт была принята возрастная структура населения Кемеровской области в 2001 г.

Математическую обработку результатов выполняли, используя общепринятые методы медицинской статистики [2] с помощью компьютерной программы "Excel-2000" и пакета прикладных программ STATISTICA 6.0 (серийный номер № 31415926535897) [4,6].

Статистическая обработка информации строилась с учетом характера распределения данных (критерий Шапиро-Уилко, W).

Для выявления зависимости стандартизованных показателей РЖ (параметр y) с 1990 по 2005 гг. от количества сбросов ЗВ в водные источники (фактор x) с 1985 по 2005 гг. в Кемеровской области использовали метод расчета коэффициента прямой, линейной (парной) корреляции с выявлением статистически значимым коэффициентом корреляции (p<0,05) и определением временного сдвига (t). Далее, при построении уравнения регрессии проверяли линейную модель для моделирования влияния фактора х на параметр у.

Алгоритм линейной модели регрессионного анализа включал в себя вычисление параметров уравнения линейной регрессии и коэффициента регрессии с проверкой значимости (t-критерий Стьюдента, p=0,05), вычисляли остаточный компонент, проверяли выполнение предпосылок метода наименьших квадратов (МНК), находили коэффициент детерминации с проверкой значимости (F-критерий Фишера, p=0,05), коэффициент эластичности и среднюю относительную ошибку аппроксимации. После оценки модели мы попытались рассчитать прогноз показателей заболеваемости РЖ на 2006-2010 годы при 80 % от имеющихся фактических данных количества сбросов ЗВ в водные источники в предыдущие годы. Расчетные показатели заболеваемости сопоставлены  с фактическими за тот же период.

Результаты исследования и их обсуждение

В 90-е годы уровни заболеваемости РЖ в Кемеровской области колебались от 42,0 в 1990 г. до 33,0 на 100000 нас. в 1999 г. и уже к 2004-2009 гг. снизилась до 24,0 - 26,0.

Значения показателей заболеваемости населения РЖ и количества сбросов ЗВ в водные источники в исследуемые промежутки времени имеют нормальное распределение (W=0,9305; р=0,158 и W=0,9116;  р=0,068 соответственно).

На рисунке 1 показана взаимосвязь во времени показателей заболеваемости РЖ с количеством сбросов ЗВ в водные источники, с промежутком t между ними равным 4 года.

Рисунок 1. Взаимосвязь во времени заболеваемости населения раком желудка (РЖ) со сбросами загрязняющих веществ (ЗВ) в водные источники  Кемеровской области

По оси абсцисс: x1 - интервал  заболеваемости раком желудка с 1994 по 2005 гг., x- интервал сбросов загрязняющих веществ в водные источники с 1990 по 2001 гг.;  по осям ординат: y1 - стандартизованные показатели заболеваемости раком желудка на 100000 населения,  y 2 - сбросы загрязняющих веществ в водные источники, тыс.т.    

Анализ поступления ЗВ со сточными водами в водные объекты Кемеровской области за период с 1990 по 2009 г. показал, что вплоть до 2001 г. количество сбросов снижалось (с 650,62 до 494,66 тыс.т), затем наметилась небольшая тенденция к ее росту (в 2009 г. - 570,96 тыс.т).

По рисунку 2 видно, что между исследуемыми параметрами х и у существует прямая, сильная корреляционная связь (r=0,85; p=0,000).

Рисунок 2. Корреляция показателей заболеваемости населения раком желудка со сбросами загрязняющих веществ (ЗВ) в водные источники  Кемеровской области

По оси абсцисс: сбросы загрязняющих веществ в водные источники, тыс. тонн; по оси ординат: стандартизованные показатели заболеваемости раком желудка на 100000 населения.

 

Сначала мы рассмотрели линейную модель

Параметры уравнения линейной регрессии приведены в таблице 1.

Таблица 1. Параметры уравнений линейной и нелинейной регрессий между показателями заболеваемости населения раком желудка и количеством сбросов загрязняющих веществ

в водные источники Кемеровской области

            Параметры

 

Модель

a

р-

значение

b

р-

значение

R2

Se

Eотн_i,

%

Линейная

0,4426

0,9457*

0,0561

0,0005

0,72

2,373

0,99

4,86

Степенная

-1,3186

0,0398

1,0265

0,0005

0,72

0,032

1,03

5,13

Показательная

1,0774

0,0000

0,0008

0,0006

0,70

0,033

0,99

5,28

Гиперболическая

66,6590

0,0000

-19283,6316

0,0003

0,74

2,284

1,03

4,54

Примечание: * - р>0,05

Уравнение регрессии имеет следующий вид:   

Коэффициенты регрессии a=0,4426 (t=0,070; р=0,946), b=0,0561 (t=5,083; р=0,000). Коэффициент b означает, что при увеличении количества сбросов ЗВ в водные источники на 1 тыс.т в год заболеваемость РЖ увеличивается в среднем на 0,056 на 100000 населения.

Выполнение предпосылок МНК согласно условиям Гаусса-Маркова включает в себя проверку: 1) случайности остаточной компоненты (критерий поворотных точек); 2) равенства нулю математического ожидания остаточной компоненты Ē=0 и постоянства дисперсии (критерий Голдфелда-Квандта); 3) независимости уровней ряда остатков (критерий Дарбина-Уотсона); 4) соответствия ряда остатков закону распределения (R/S-критерий).

1) По графику остатков (рис. 3) определяли количество поворотных точек. В нашем случае их количество равно 5 (р=5), при ркр=[2,1]=2. Критическое значение вычисляли по формуле (1):

, при n =12 (количество наблюдений)   (1).

Следовательно, свойство случайности для ряда остатков выполняется:  р=5>ркр=2.

Рисунок 3. График остатков линейной регрессии

По оси абсцисс: сбросы загрязняющих веществ в водные источники, тыс. тонн; по оси ординат: остатки.

2) В данной модели выполняется и второе условие Гаусса-Маркова: равенство нулю математического ожидания остаточной компоненты для линейной модели Ē=0.

При проверке постоянства дисперсии на гетероскедастичность (критерий Голдфелда -Квандта) F=FS2/FS1=0,53/0,43=1,23 (где FS1 и FS2 остаточная сумма квадратов по первым и последним пяти наблюдениям нашей модели). Критическое значение при уровне α=5 % и числах степеней свобода k1=k2=4-1-1=2 составило Fкр=19,0. Следовательно, наша линейная модель соответствует неравенству Fкр=19,0>F=1,23. Это говорит о постоянстве дисперсии остатков, т.е. модель гомоскедастичная.

3) Далее, для проверки независимости уровней ряда остатков, использовали критерий d (Дарбина-Уотсона, STATISTICA 6.0). Критерий d=1,43 и эта величина больше dU=1,33 и меньше 4-dU=2,67, следовательно, автокорреляция отсутствует (H0:ρ=0).

4) Проверка соответствия ряда остатков закону распределения (R/S-критерий) показала, что для построенной модели свойство нормального распределения остаточной компоненты выполняется согласно формуле: (2); где emax и emin - значения остатков (5,496 и -2,166 соответственно), Se - стандартная ошибка регрессии, рассчитанная по формуле: =2,373 (3), где SSост (остаточная сумма квадратов) составила 56,3014 (таблица 2).

Таблица 2. Дисперсионный анализ показателей количества сбросов загрязняющих веществ в водные источники и заболеваемости населения Кемеровской области раком желудка

Параметры

df

Сумма

квадратов,

SS

Дисперсия,

MS

F-

критерий

Fкр

р-

значение

Степень влияния, %

Регрессия

1

145,4478

145,44776

25,833

4,96

0,0005

72

Остаток

10

56,3014

5,6301402

 

 

 

28

Итого

11

201,7492

 

 

 

 

100

Критический интервал границ R/Sкр =2,80 - 3,91, при n=12. Следовательно, для построенной линейной модели свойство нормального распределения остаточной компоненты выполняется (2,80 <3,23< 3,91).

Таким образом, проведенная проверка предпосылок регрессионного анализа показала, что для линейной модели выполняются все условия Гаусса-Маркова.

Коэффициент детерминации и статистическую значимость по F-критерию Фишера вычисляли по формулам (4) и (5):

                                      (4);     (5)

 

Значение R2 =0,72 при F(1,10)=25,83; p=0,0004; Fкр=4,96.

Следовательно, влияние сбросов ЗВ в водные источники на заболеваемость населения РЖ составляет 72 %, остальные 28 % следует отнести к неучтенным факторам.

Стандартная ошибка регрессии линейной модели Se (3) говорит о том, что чем меньше в целом разброс точек наблюдений около прямой регрессии, тем надежней будет уравнение как оценочная функция.

Полученный по формуле коэффициент эластичности 0,99 % (6.1).

Это значит, что при увеличении сбросов ЗВ в водные источники на 1 % заболеваемость населения РЖ возрастает на 0,99 %

Проверка значимости полученного уравнения регрессии с помощью F-критерий Фишера показала,  что уравнение модели является значимым F=25,83>Fкр=4,96 (р=0,006).

Для определения точности выбранной модели вычисляли среднюю относительную ошибку аппроксимации по формуле:

    (7).

                                                                                                                                                          

где   - среднее значение относительной погрешности остатков.  

Значение Eотн_i =4,86%<10%, следовательно, модель является точной.

Таким образом, на основании проверки предпосылок МНК выполняются все условия Гаусса-Маркова, значения коэффициента регрессии b, F-критерия Фишера и величины R2 в линейной модели статистически значимы, но свободный коэффициент a оказался статистически не значимым (р>0,05) и, следовательно, им можно пренебречь. Однако, использование этой модели для прогнозирования не целесообразно, т.к. анализ будет грубым.

Далее мы рассмотрели нелинейные модели регрессионного анализа (См. таблицу 1).

Степенная модель:

Исходную модель путем логарифмирования , преобразовали в линейную модель. Уравнение регрессии приобрело следующий вид: ŷ = a + b×x

Коэффициенты b и а были рассчитанные по формулам (8.1 и 8.2):


  (8.1);  t=5,0649; р=0,0005

 (8.2);  t=-2,3628; р=0,0398

Выполнив потенцирование линейного уравнения, мы получили следующее уравнение:

Вычислили по формулам (4 и 5): коэффициент детерминации R2=0,72 при F(1,10)=25,65; p=0,0005; стандартную ошибку регрессии: Se=0,032 (3);

коэффициент эластичности:

 (6.2);

 

среднюю ошибку аппроксимации: Eотн_i=5,13%   (4).

Таким образом, в степенной модели коэффициенты a и b статистически значимые (р<0,05), коэффициент детерминации высокий (R2=0,72), модель точная (Eотн_i<10%), что позволяет использовать в дальнейшем данную модель в прогнозировании заболеваемости населения РЖ.

Показательная модель:    ŷ = a× bx

Для построения этой модели мы также произвели линеаризацию переменных путем логарифмирования обеих частей уравнения:  и получили следующее линейное уравнение регрессии: ŷ = a× b× x

Коэффициенты b и а были рассчитаны по формулам (8.3 и 8.2):

 (8.3);  t= 4,8882; р=0,0006 

 a=1,0774 (8.2);  t= 12,1709; р=0,0000 

 

После потенцирования линейного уравнения регрессии получили следующее уравнение:

Далее рассчитали: R2=0,70 (4), при F(1,10)= 23,89; p=0,0006(5); Se=0,033 (3);

Eотн_i=5,28%  (7)  и

 (6.3)  

Таким образом, параметры показателей степенной модели оказались статистически значимыми, и эта модель может быть также использована для расчета прогнозов заболеваемости РЖ населения Кемеровской области.

Гиперболическая модель:   ŷ = a× b/x

Линеаризацию модели произвели путем замены x на 1/х=X и получили следующее линейное уравнение: ŷ = a× b×X

Коэффициенты регрессии :                                                 

 (8.4);  t= -5,3534; р=0,0003

 (8.5);  t= 10,3739; р=0,0000

Значения R2=0,74 (4) при F(1,10)= 28,66; p=0,0003 (5); Se=2,284 (3); Eотн_i=4,54% (7)  и                                                                   

 (6.4)

Следовательно, параметры показателей гиперболической модели оказались статистически значимыми, и описанная модель может быть использована в дальнейшей работе для расчета прогнозов заболеваемости РЖ.

В результате анализа линейной, степенной, показательной и гиперболической моделей для дальнейшей работы мы остановились только на нелинейных моделях и рассчитали по ним прогнозируемые средние значения показателя заболеваемости населения РЖ (ŷ) на 2006-2013 гг., при уровне значимости р=0,05, при 80 % от имеющихся фактических данных количества сбросов ЗВ в водные источники (x*) за 2002-2019 гг.

Расчетные прогнозируемые показатели заболеваемости населения РЖ (ŷ) за 2006-2010 гг. по описанным моделям сопоставили с фактическими за тот же период времени (y). Полученные результаты представлены в таблице 3.

В результате выяснилось, что прогнозируемые показатели заболеваемости РЖ отклоняются от фактических меньше всего в показательной модели - до 10 %. Для степенной модели данные отклонения составили до 14,0 %, а для гиперболической - до 30,0 %.

 

Таблица 3. Сопоставление фактических (y) и расчетных (прогнозируемых,  ŷ) показателей заболеваемости населения Кемеровской области раком желудка в 2006- 2010 гг.

Год

2002

2003

2004

2005

2006

Фактические показатели

сбросов ЗВ, тыс.тонн (x)

425,87

416,97

397,94

405,77

441,29

Год

2006

2007

2008

2009

2010

Фактические показатели

заболеваемости РЖ, на 100000 населения (y)

24,1

25,4

26,0

24,4

23,4

Прогнозируемые показатели заболеваемости РЖ, на 100000 населения (ŷ)

Степенная модель

24,0

(0,4%)

23,5
(7,5%)

22,4
(13,9%)

22,8
(6,4%)

24,9
(6,4%)

Доверительный интервал,

р=0,05

23,95-24,05

23,45-23,55

22,34-22,46

22,74-22,86

24,85-24,95

Показательная модель

25,1

(4,0%)

24,7

(2,9%)

23,9

(8,2%)

24,2

(0,8%)

25,7

(10,0%)

Доверительный интервал,

р=0,05

25,00-25,11

24,62-24,73

23,81-23,93

24,14-24,26

25,69-25,79

Гиперболическая модель

21,4

(11,3%)

20,4

(19,4%)

18,2

(30,0%)

19,1

(21,6%)

23,0

(1,9%)

Доверительный интервал,

р=0,05

17,76-25,04

16,57-24,23

13,96-22,44

15,03-23,17

19,69-26,31

Примечание: в скобках указаны отклонения прогнозируемых показателей от фактических.

Таким образом, полученные в степенной, показательной и гиперболической модели коэффициенты регрессий a и b статистически значимы (p<0,05), имеют высокие и статистически значимые коэффициенты детерминации R2=0,70-0,74, связь между фактором x и результативным признаком ŷ у моделей Эi=0,99-1,03%. Так же оказалось, что нелинейные модели точные Eотн_i<10, но у степенной и показательной моделей стандартные ошибки регрессии оказались меньше (Se=0,032 и Se=0,033, соответственно), чем у гиперболической модели (Se=2,284), что говорит о надежности уравнений регрессий степенной и показательной моделей как оценочных функций (таблица 1). При сравнении прогнозируемых показателей заболеваемости населения РЖ с фактическими данными (за 2006-2010 гг.) наименьшие отклонения были у показательной модели (0,8-10,0 %), поэтому показательная модель и была использована нами для дальнейшего прогнозирования  заболеваемости РЖ населения Кемеровской области до 2013 г.

Точность и надежность прогнозируемых значений ŷ в показательной модели оценивали 95 % доверительным интервалом по формуле (9): Y = ŷ ± t95×mŷ

где: ŷ - прогнозируемые значения показателя заболеваемости населения РЖ; t95 (10)=2,23; mŷ - стандартная ошибка прогнозирования, рассчитанная по формуле (10):

  (10),

где Se=0,033 - стандартная ошибка показательной модели.

На рисунке 3 представлен прогноз заболеваемости РЖ населения Кемеровской области с 2006 по 2013 г., рассчитанный с помощью показательной модели на основе фактических данных о количестве сбросов ЗВ в водные источники за 2002-2009 гг.

Рисунок 3. Прогноз заболеваемости раком желудка населения Кемеровской области на 2006-2013 гг.

По оси абсцисс: года; по оси ординат: прогнозируемые показатели заболеваемости раком желудка на 100000 населения.

Заключение

При анализе взаимосвязей показателей заболеваемости населения раком желудка с количеством сбросов загрязняющих веществ в водные источники  Кемеровской области показательная модель оказалась наиболее адекватной по всем статистическим условиям и критериям. Рассчитанные с помощью этой модели показатели заболеваемости раком желудка за 2006-2010 гг. отличаются от фактических не более чем на 10,0 % с надежностью 95 %. Поэтому показательная модель может быть рекомендована для дальнейшего прогнозирования заболеваемости раком желудка населения Кемеровской области на 2011-2013 гг. с учетом фактических данных сбросов загрязняющих веществ в водные источники  за 2007- 2009 гг.  По нашим расчетам заболеваемость раком желудка в 2011 г. составит 29,3±0,04; в 2012 г. - 28,2±0,03 и в 2013 г. - 26,4±0,04 на 100000 населения Кемеровской области.

Рецензенты:

  • Устьянцева И.М., д.б.н., заместитель директора по клинической лабораторной диагностике ФГБЛПУ «Научно-клинический центр охраны здоровья шахтеров», г. Ленинск-Кузнецкий.
  • Байбулатов Р.А., д.м.н., профессор кафедры онкологии КемГМА, г. Кемерово.

Работа получена 08.09.2011.