Введение
Рак легкого является одной из ведущих причин онкологической смертности в мире, что в значительной степени связано с выявляемостью на запущенных стадиях [1; 2]. Традиционные методы визуализации, такие как низкодозовая компьютерная томография, обладают ограниченной специфичностью и характеризуются высокой частотой ложноположительных результатов [3]. В этой связи растет интерес к разработке неинвазивных методов диагностики на основе анализа биомаркеров крови [4]. В последние годы влияние на развитие биомаркерной диагностики рака легкого оказывает внедрение методов искусственного интеллекта, машинного обучения и анализа больших данных [5]. Современные молекулярные исследования генерируют высокоразмерные мультиомные данные (геномные, транскриптомные, протеомные), интерпретация которых затруднительна с использованием традиционных статистических подходов [5; 6]. Алгоритмы машинного обучения позволяют выявлять сложные нелинейные взаимосвязи между молекулярными признаками и клиническими характеристиками, формируя диагностические сигнатуры на основе циркулирующей опухолевой ДНК, микроРНК и белковых панелей. В ряде исследований применение алгоритмов машинного обучения ассоциировано с более высокой дискриминационной способностью тестов по сравнению с использованием отдельных биомаркеров и способствует более точной стратификации пациентов по риску и вероятности ответа на терапию [6-8].
Цель исследования: обобщение и критический анализ современных данных о диагностической эффективности циркулирующих биомаркеров крови при раке лёгкого с акцентом на мультимаркерные панели и модели, основанные на методах машинного обучения, а также оценка их потенциала и ограничений для диагностических целей в реальной клинической практике.
Материалы и методы исследования
Настоящая работа выполнена в формате нарративного обзора литературы, авторы выполнили обобщение современных данных о применении биомаркеров крови в диагностике рака лёгкого и результатов возможностей их интеграции с методами машинного обучения. Поиск публикаций проводился в базах данных PubMed, MEDLINE, Scopus и Web of Science за период с 2010 по 2025 год с использованием комбинаций ключевых слов: lung cancer, blood biomarkers, liquid biopsy, circulating tumor DNA, microRNA, protein markers, machine learning, artificial intelligence, diagnosis, early detection. Авторы включали в работу оригинальные клинические исследования, метаанализы и систематические обзоры, оценивающие диагностическую значимость циркулирующих биомаркеров крови, таких как циркулирующая опухолевая ДНК (цоДНК), микроРНК, белковые маркеры и аутоантитела у пациентов с установленным диагнозом «рак легкого». Авторы исключали экспериментальные исследования на животных и клеточных моделях и работы, посвященные прогнозу и мониторингу терапии. Отобранные публикации анализировались качественно с учётом дизайна исследований, характеристик выборок, применяемых алгоритмов машинного обучения и показателей диагностической ценности (чувствительность, специфичность, AUC ROC).
Результаты исследования и обсуждение
Все рассмотренные авторами исследования были посвящены использованию биомаркеров крови для диагностики рака лёгкого и включали подходы от валидации одиночных биомаркеров до разработки комплексных мультимаркерных панелей. В большинстве работ в качестве биологического материала использовались сыворотка или плазма крови. Дизайн исследований включал как первичные клинические исследования, так и систематические обзоры и метаанализы.
Анализ данных показал, что одиночные маркеры обладают ограниченной диагностической ценностью, особенно на ранних стадиях заболевания. Комбинированные панели позволяют учитывать многокомпонентную природу опухолевого процесса. Оценка диагностической эффективности чаще всего основывается на чувствительности, специфичности и площади под ROC-кривой.
В проанализированных работах часто используются ретроспективные выборки, преимущественно с дизайном «случай – контроль». Подобный подход может влиять на получаемые оценки и в ряде случаев приводить к их завышению. При этом валидация нередко проводится на тех же данных, на которых разрабатывались модели, тогда как проверка на независимых выборках встречается значительно реже. Это важно учитывать при интерпретации результатов.
Дополнительные сложности связаны с неоднородностью исследуемых популяций. В разных работах варьируют стадии заболевания, гистологические подтипы и клинико-демографические характеристики пациентов. Такие различия могут отражаться на уровне циркулирующих биомаркеров и, как следствие, влиять на диагностические показатели, что затрудняет сопоставление результатов между исследованиями.
В ряде публикаций отмечается, что наибольшая клиническая значимость биомаркеров проявляется при их использовании в группах повышенного риска, что имеет особое значение для задач раннего выявления рака легкого. Вместе с тем остается нерешенной проблема стандартизации преданалитического этапа. Условия забора, обработки и хранения биоматериала нередко различаются между исследованиями, что может приводить к существенной вариабельности результатов даже при использовании сходных лабораторных методов.
С учётом указанных ограничений полученные данные требуют осторожной интерпретации. Дальнейшее развитие данного направления, по-видимому, связано с унификацией методологических подходов и проведением проспективных многоцентровых исследований с внешней валидацией.
Различные классы биомаркеров
Циркулирующие микроРНК обнаруживаются в крови пациентов с онкологическими заболеваниями и сохраняют стабильность в условиях анализа, что обусловило интерес к их использованию в диагностике [9]. При этом наибольшая информативность, по данным ряда исследований, достигается при применении панелей микроРНК, тогда как отдельные маркеры демонстрируют менее устойчивые диагностические показатели. В метаанализе Yanlong Yang и соавт. (2017) на основании данных 134 исследований была показана объединённая чувствительность 0,83 (95% ДИ: 0,80–0,85), специфичность 0,84 (95% ДИ: 0,82–0,86) и AUC 0,90 (95% ДИ: 0,88–0,93). Комбинированные панели микроРНК характеризовались более высокой диагностической ценностью по сравнению с одиночными микроРНК: чувствительность составила 0,87 против 0,79, специфичность 0,87 против 0,78, а значения AUC 0,94 против 0,85, соответственно [10]. Ограничениями метода являются отсутствие единых протоколов выделения и стабилизации микроРНК, а также влияние преаналитических факторов, таких как гемолиз, на достоверность результатов [11].
Классические белковые маркеры, такие как РЭА, NSE, CYFRA21-1 и ProGRP, были широко изучены в научных исследованиях. Их диагностическая ценность варьирует в зависимости от гистологического подтипа опухоли. Так, Huijuan Bi и соавт. (2023) показали, что РЭА более информативен при аденокарциноме легкого, тогда как NSE и ProGRP более эффективен при мелкоклеточном раке легкого [12]. Комбинации белковых маркеров позволяют повысить суммарную чувствительность, однако часто это сопровождается снижением специфичности. Так, комбинированное применение ProGRP, CEA, NSE, CYFRA21-1, CA19-9, SCCA продемонстрировало чувствительность 70,6% для плоскоклеточного рака, 77,4% для аденокарциномы и 80% для мелкоклеточного рака легкого [13].
H. Yoon и соавт. (2016) оценили комбинацию опухолевых маркеров (HE4, CEA) с воспалительными и метаболическими показателями (RANTES, ApoA2, TTR, sVCAM-1), продемонстрировав высокую диагностическую эффективность. Так, значения AUC составили 0,986 в обучающей выборке и 0,988 в валидационной выборке, при чувствительности 93,33% и специфичности 94%. При этом показатели AUC для отдельных биомаркеров варьировали от 0,552 для sVCAM-1 до 0,867 для ApoA2 [14].
Аутоантитела против опухолевых антигенов характеризуются высокой специфичностью, но низкой чувствительностью, что ограничивает их применение в качестве скринингового инструмента. Тем не менее они могут быть полезны на этапе дифференциальной диагностики или подтверждения диагноза [15].
В ряде исследований комбинированные панели демонстрируют улучшение диагностических показателей при сочетании различных типов биомаркеров. Так, J. Vykoukal и соавт. (2022) провели оценку 30 циркулирующих микроРНК и установили, что пять из них (miR-320a-3p, miR-210-3p, miR-92a-3p, miR-21-5p и miR-140-3p) были статистически значимо повышены у пациентов с раком лёгкого (p < 0,05). При объединении трёх микроРНК с панелью из четырёх белковых маркеров (Pro-SFTPB, CA125, CEA, CYFRA21-1) чувствительность при уровне специфичности 95% увеличивалась на 19,1% (95% ДИ: 0,0–28,6; p = 0,006) по сравнению с использованием только белковой панели, при этом значение площади под ROC-кривой (AUC) достигло 0,81 [16].
Ограничения и преимущества биомаркерной диагностики
Большинство исследований в области изучения биомаркеров в качестве диагностических инструментов при раке легкого характеризуются ограниченным размером выборок и отсутствием внешней валидации, что препятствует внедрению данных подходов в клиническую практику. Белковые биомаркеры могут выявляться не только при раке лёгкого, но и при других заболеваниях, а также у здоровых лиц, что ограничивает их специфичность [17; 18]. Анализ опухоль-ассоциированных аутоантител, выполненный Zhenming Tang и соавт. (2017), также выявил ряд ограничений, включая анализ работ, опубликованных только на английском и китайском языках, что может приводить к публикационному смещению. Кроме того, значительная гетерогенность составов панелей аутоантител и методов их детекции между исследованиями создаёт серьёзные трудности для стандартизации данных подходов [15].
Другим критическим фактором, влияющим на достоверность результатов анализа биомаркеров, является отсутствие унифицированных протоколов преданалитического этапа. Вариабельность условий забора крови, используемых пробирок, объема образца, времени и условий хранения приводит к деградации биоматериала и снижению воспроизводимости данных [19; 20].
Высокая стоимость технологий остаётся серьёзным ограничением доступности биомаркеров крови. Методы, основанные на секвенировании нового поколения, требуют значительных финансовых вложений, что делает их применение затруднительным для региональных клиник и систем здравоохранения с ограниченными ресурсами [21]. Инфраструктурные барьеры включают дефицит специализированных лабораторий, нехватку обученного персонала и сложность организации многоцентровых исследований, необходимых для клинической валидации биомаркеров. В результате этого внедрение жидкостной биопсии носит фрагментарный характер и географически неравномерно [22].
Преодоление существующих ограничений требует комплексного и скоординированного подхода. В области стандартизации приоритетными являются разработка и внедрение унифицированных протоколов преданалитического и аналитического этапов, а также межлабораторная гармонизация методик. Технический прогресс должен сопровождаться автоматизацией процессов, развитием высокочувствительных методов детекции и интеграцией нескольких биомаркеров для повышения диагностической точности. Экономическая устойчивость может быть достигнута за счёт оптимизации технологий, масштабирования производства и разработки моделей возмещения затрат [22; 23].
Следует отметить, что большинство рассмотренных авторами исследований использовали внутреннюю перекрестную валидацию или разделение выборки на обучающую и тестовую. Однако внешняя валидация на независимых когортах выполнялась редко, что создает риск переобучения моделей.
При этом стоит отметить, что результаты внешней валидации зависят от клинического контекста. Было показано, что набор контрольной группы из здоровых добровольцев демонстрирует более высокие показатели AUC по сравнению с популяцией пациентов с наличием доброкачественных заболеваний легких. Так, в работе Schlegel Anne и соавт. (2016) в валидационном исследовании панели маркеров метилирования ДНК SHOX2/PTGER4 AUC панели составил 0.88 по сравнению с AUC 0.91-0.98 в трех ранее проведенных исследованиях дизайна «случай - контроль» [24].
Перспективы биомаркерной диагностики в эпоху машинного обучения и больших данных
Интерес к использованию методов машинного обучения в диагностике онкологических заболеваний в последние годы заметно возрос, прежде всего из-за увеличения объёма доступных биомедицинских данных. Это напрямую связано с развитием «омиксных» технологий (геномики, транскриптомики, протеомики и метаболомики), при применении которых формируются высокоразмерные наборы данных, плохо поддающиеся анализу в рамках классических статистических подходов.
В отличие от традиционного анализа отдельных биомаркеров, в данном случае речь идёт о построении комплексных диагностических моделей. Например, показано, что при использовании данных циркулирующей опухолевой ДНК в сочетании с другими молекулярными маркерами возможно повышение точности ранней диагностики рака лёгкого, в том числе за счёт снижения числа ложноположительных результатов [6]. При этом степень улучшения показателей существенно варьирует между исследованиями.
Отдельное направление связано с попытками объединения разнородных типов данных. В ряде работ используются модели, интегрирующие результаты жидкостной биопсии, клинические характеристики пациентов и данные лучевой диагностики (радиомика). Такие подходы рассматриваются не только в контексте диагностики, но и для решения прогностических задач - в частности, оценки ответа на терапию и вероятности рецидива [7; 8].
Подходы, основанные на анализе больших популяционных выборок, также использовались для разработки персонализированных моделей риска. Например, в исследовании ASCEND-LUNG Jin Y. и соавт. (2024) была предложена модель, сочетающая клинические и радиологические данные для задач скрининга рака легкого и мониторинга легочных узлов, однако ее дальнейшая валидация в независимых когортах остаётся необходимой [25].
Широкое использование методов искусственного интеллекта не устраняет существующих методологических проблем. Среди них - различия в подходах к обработке биологических данных, несогласованность лабораторных протоколов и ограниченная воспроизводимость алгоритмов при их применении в разных клиниках, риск переобучения [26]. Переход к клиническому применению таких алгоритмов требует дополнительной проверки их эффективности в рамках проспективных исследований на больших выборках пациентов. Наряду с этим пока не сформированы единые подходы к регулированию и сертификации медицинских систем, использующих методы искусственного интеллекта [27].
Заключение
Критический анализ современной литературы о роли биомаркеров в диагностике рака легкого показывает, что циркулирующие биомаркеры крови могут рассматриваться как перспективный инструмент неинвазивной диагностики рака легкого. В ряде исследований показано, что более высокие диагностические показатели достигаются при использовании мультимаркерных панелей, включающих микроРНК, циркулирующую опухолевую ДНК, белковые маркеры и аутоантитела. Дополнительный эффект наблюдается при их совместном анализе с клинико-демографическими характеристиками пациентов с применением методов машинного обучения.
Вместе с тем интерпретация этих данных остаётся неоднозначной. Существенная часть результатов получена в ретроспективных исследованиях, чаще всего с дизайном «случай – контроль» и использованием внутренней валидации. Это может влиять на воспроизводимость и приводить к завышенной оценке диагностической эффективности. Дополнительные ограничения связаны с отсутствием единых подходов к преаналитическому этапу, а также с различиями в используемых пороговых значениях и алгоритмах анализа, что затрудняет сопоставление результатов между исследованиями.
Использование биомаркеров крови в сочетании с методами машинного обучения представляет интерес с точки зрения диагностики и стратификации риска. Однако данных, подтверждающих эффективность такого подхода в популяционном скрининге рака лёгкого, в настоящее время недостаточно. Для уточнения его клинической значимости необходимы проспективные многоцентровые исследования с внешней валидацией моделей и более согласованными лабораторными и аналитическими процедурами.
Конфликт интересов
Финансирование
Библиографическая ссылка
Жиленкова А.В., Орлова Е.В., Секачева М.И. БИОМАРКЕРЫ КРОВИ В ДИАГНОСТИКЕ РАКА ЛЕГКОГО В ЭПОХУ МАШИННОГО ОБУЧЕНИЯ: ПОТЕНЦИАЛ И ОГРАНИЧЕНИЯ ИСПОЛЬЗОВАНИЯ // Современные проблемы науки и образования. 2026. № 5. ;URL: https://science-education.ru/ru/article/view?id=34595 (дата обращения: 14.06.2026).
DOI: https://doi.org/10.17513/spno.34595



