Введение
Патоморфологическая диагностика по-прежнему является «золотым стандартом» для большого числа видов рака, имея несомненное преимущество по сравнению с другими методами медицинской визуализации, такими как магнитно-резонансная томография (МРТ), компьютерная томография (КТ), трансректальное ультразвуковое исследование (ТРУЗИ), маммография и многими другими [1]. Гистопатологические изображения являются важным источником первичной информации в клинической практике, они помогают патологоанатомам диагностировать опухолевые и опухолеподобные состояния с помощью идентификации морфологических признаков на клеточном и тканевом уровнях [2]. Кроме того, с развитием цифровой патоморфологии и анализа полноразмерных цифровых копий (whole slide image, WSI) гистологических препаратов, полученных с помощью сканирующих микроскопов, получила развитие новая область знаний, так называемая патомика [3, с. 16–19]. Патомика представляет собой раздел омиксных наук, в основе которой лежит получение дополнительной информации и биологии опухоли на основании оценки данных гистологических препаратов с помощью технологии глубокого обучения [4].
В цифровой патоморфологии гистопатологические слайды (WSI) представляют собой иерархическое образование визуальных токенов на различных уровнях разрешения и могут иметь размер пикселей до 160 000 × 160 000 при увеличении в 20 раз [5]. Цифровая патоморфология, то есть метод оцифровки гистопатологических изображений, представляет собой новый подход к сбору данных изображений для технологий искусственного интеллекта [6]. В последние годы методы искусственного интеллекта, такие как глубокое обучение, особенно сверточные нейронные сети (CNN), стали широко применяться для обработки и анализа гистопатологических изображений как в научных исследованиях, так и в клинической практике. CNN достигли значительных результатов во многих задачах компьютерного зрения [7, 8].
Недавно появилась альтернативная система компьютерной диагностики (CAD), способная моделировать долгосрочные зависимости между пикселями, такие как трансформеры. Трансформеры стали одной из последних технологических разработок в области глубокого обучения, показавшей высокие результаты в решении множества задач компьютерного зрения [9, 10]. Изначально они были разработаны как мощный пример использования глубокого обучения для решения последовательных задач в области обработки естественного языка (NLP) [11]. В архитектуре Vision Transformer (ViT), предложенной Dosovitskiy и др., трансформеры применялись для задач классификации изображений, показав, что использование CNN для классификации изображений необязательно и что чистый трансформер, применяемый напрямую к последовательностям фрагментов изображения, может давать отличные результаты [12].
Трансформеры, в отличие от подходов на основе CNN, лишены предвзятости, вызванной свертками, что позволяет им захватывать долгосрочные контекстные зависимости и изучать более сложные взаимосвязи данных изображений. Это особенно полезно при анализе гистопатологических изображений, где важно учитывать не только интересующую область, но и окружающие ткани при диагностике определенного заболевания. С другой стороны, трансформеры требуют больших объемов данных и вычислительных мощностей, что может стать серьезной проблемой, особенно в области гистопатологических изображений, где доступ к ресурсам может быть ограничен из-за конфиденциальности данных пациентов [13, 14].
В настоящее время проведено множество исследований в области гистопатологических изображений с использованием подходов на основе трансформеров, включая сегментацию изображений, классификацию, обнаружение, представление, кросс-модальный поиск, генерацию изображений, анализ выживаемости и предсказание выживаемости [15–17]. Однако на основе недавно опубликованных исследований показано, что архитектуры на основе трансформеров способны достичь более высоких показателей производительности по сравнению с предыдущими моделями в различных задачах обработки гистопатологических изображений.
Целью исследования является предоставление всестороннего обзора применения трансформеров в области анализа гистопатологических изображений и демонстрация того, как трансформеры используются для решения различных задач.
Материалы и методы исследования
Для написания данного обзора литературы проанализированы статьи научных баз данных Web of Science, Scopus, Pubmed, Google Scholar, Российского индекса научного цитирования, из которых 52 источника были указаны в списке литературы, за период с 1997 по 2024 г. Из них более 70 % источников опубликованы за последние 10 лет. Для подготовки статьи использовались рекомендуемые принципы подготовки научных обзоров [18].
Результаты исследования и их обсуждение
Предпосылки для поиска новых решений в области глубокого обучения:
архитектуры с использованием сверточных нейросетей
На протяжении нескольких лет CNN показывали хорошие результаты при анализе данных изображений и являются наиболее часто используемыми глубокими нейронными сетями для решения медицинских и клинических задач, особенно в области анализа гистопатологических изображений. Это связано с тем, что сверточные операции в CNN накладывают ограничения на веса, что заставляет идентичные веса распределяться по каждому пикселю изображения. Основным преимуществом подходов на основе CNN является их способность автоматически выделять важные признаки на изображении без какого-либо вмешательства со стороны человека [19, 20].
Процесс построения любой архитектуры CNN для анализа гистопатологических изображений – это совместная работа исследователей и медицинских специалистов. Эти новшества в основном движимы большим количеством архитектурных усовершенствований, улучшением функций потерь, доступностью специализированных аппаратных устройств и публично доступных библиотек, созданных для конкретных целей [21, 22].
Несмотря на значительное количество архитектурных улучшений в методах на основе CNN за последние годы, их применение в полной мере к задачам анализа гистопатологических изображений ограничено зависимостью от больших объемов размеченных наборов данных. Исследования в области гистопатологических изображений для различных клинических задач также были улучшены моделями CNN. Однако CNN иногда функционируют как «черный ящик», и обычно их сложнее объяснить [23]. Успех методов на основе CNN в основном объясняется их способностью извлекать полезную информацию из входных изображений, устраняя необходимость в традиционных ручных методах обработки изображений. Несмотря на расширение области восприятия, CNN по-прежнему сталкиваются с многочисленными проблемами в моделировании долгосрочной информации, а также пространственных зависимостей из-за ограниченности сверточных операций [24].
Местная природа сверток в CNN является основной проблемой, поскольку она мешает захватывать долгосрочные семантические зависимости в исходных изображениях. Таким образом, требуется альтернативная система компьютерной диагностики (CAD), такая как трансформеры, которая способна моделировать долгосрочные пиксельные зависимости для достижения более точных результатов по сравнению с предыдущими моделями [25].
Трансформеры: основы
Архитектуры на основе трансформеров представляют собой наиболее продвинутую технику для работы с последовательностями. Они используют механизмы внимания (attention mechanisms) из-за их способности моделировать долгосрочную семантическую информацию. Трансформеры также используют стратегию проектирования на основе энкодера-декодера (encoder-decoder), что позволяет генерировать выходные данные без использования рекуррентных слоев и сверток. Для начала представим основные идеи, лежащие в основе механизма внимания, а затем подробно объясним работу трансформера [26].
Механизм внимания
Механизм внимания естественным образом эволюционировал для решения задач, связанных с последовательностями данных. Сегодня он часто используется для выделения несущественной информации из данных с одновременным акцентом на важные части информации. Механизм внимания может применяться к ряду архитектур глубокого обучения в разных клинических областях и для различных задач. Механизм внимания впервые был разработан для улучшения работы архитектуры энкодера-декодера в задаче машинного перевода. Он был впервые предложен авторами для задачи перевода языков, чтобы решить проблему узкого места, вызванную использованием вектора фиксированной длины при кодировании, когда декодер имел ограниченный доступ к информации, передаваемой входными данными [27].
Архитектура трансформеров
Трансформеры, как правило, проектируются для работы с последовательностями и решения задач, связанных с долгосрочными зависимостями. В ставшей пионерской работе «Attention Is All You Need» была представлена стандартная архитектура трансформера, использующая структуру энкодера-декодера. В этой архитектуре блок энкодера преобразует входную последовательность в серию непрерывных представлений, а декодер генерирует результирующую последовательность на основе этих представлений. Энкодер трансформера состоит из идентичных слоев, которые последовательно извлекают признаки из входной последовательности [28]. Каждый слой включает две подслойные структуры, известные как механизм многоголового самовнимания (MHSA) и полносвязная нейронная сеть (FFN). Кроме того, через каждый подслой проходит остаточная связь, за которой следует нормализация по слоям. Сначала многоголовое внимание рассчитывается в каждом блоке, затем применяется блок нормализации по слоям. Сумма входных и выходных данных многоголового внимания рассчитывается с использованием нормализации по слоям. После применения полносвязного слоя входные и выходные данные MHSA также суммируются с нормализацией по слоям [29].
Декодер трансформера использует извлеченные признаки для генерации выходной последовательности. Он состоит из идентичных слоев с некоторыми модификациями [30]. Дополнительный подслой добавляется поверх закодированного выхода, который выполняет многоголовое внимание по результатам энкодера. Так как предсказание основывается на известном состоянии, в первом блоке самовнимания используется маскирование, чтобы предотвратить добавление новых данных к уже обработанному состоянию. В дополнение к выходному слою декодера добавлены линейный и softmax слои для генерации окончательного результата.
Vision Transformer (ViT)
Изначально трансформеры были представлены для задач обработки естественного языка, где целью было понимание текста и получение полезных выводов. Архитектуры трансформеров достигли значительных результатов в этой области и стали стандартом в области NLP благодаря их обобщающим способностям и простоте. После успеха в задачах NLP исследователи начали адаптировать архитектуры трансформеров к различным задачам компьютерного зрения [31]. Одной из наиболее известных архитектур на основе трансформеров для задач компьютерного зрения является ViT (Vision Transformer). Было обозначено, что применение CNN больше не требуется и что чистая архитектура трансформера, применяемая непосредственно к последовательностям фрагментов изображений, может давать отличные результаты, особенно в задачах классификации изображений. Входное изображение разбивается на несколько фрагментов, каждый из которых кодируется с использованием пространственного кодирования для передачи пространственной информации. ViT продемонстрировали лучшие или даже превосходящие результаты по сравнению с передовыми (SOTA) CNN в решении многих задач, особенно при предварительном обучении на больших наборах данных [32].
Трансформеры широко используются во многих задачах компьютерного зрения и доказали свою способность давать лучшие результаты по сравнению с другими методами глубокого обучения. Некоторые преимущества трансформеров в задачах компьютерного зрения:
1. Эффективная параллельная обработка – благодаря механизмам внимания, они могут обрабатывать последовательности данных параллельно, что делает их более эффективными и быстрыми по сравнению со стандартными рекуррентными нейронными сетями.
2. Адаптивность к последовательностям переменной длины: архитектуры трансформеров могут работать с последовательностями данных разной длины, что упрощает их применение в различных задачах.
3. Эффективное управление глобальными зависимостями: трансформеры хорошо справляются с глобальными зависимостями благодаря механизмам самовнимания, что делает их подходящими для задач, требующих учета информации с разных частей изображения.
4. Высокая пропускная способность сети: трансформеры обладают большей емкостью для обучения более сложных зависимостей в данных [33, 34].
Однако у трансформеров есть и недостатки, такие как:
1. Высокие вычислительные затраты: трансформеры требуют больше вычислительных ресурсов по сравнению с другими методами глубокого обучения из-за механизма самовнимания, что приводит к значительным затратам времени и ресурсов на обучение.
2. Подверженность переобучению: поскольку трансформеры могут моделировать сложные взаимосвязи, они могут быть склонны к переобучению при недостатке данных.
3. Неэффективность в работе с небольшими объемами данных: трансформеры требуют большого количества данных для эффективного обучения, что становится проблемой в задачах, где доступен ограниченный набор размеченных данных [35, 36].
Сравнение методов трансформеров и CNN
На протяжении многих лет CNN показали выдающиеся результаты в анализе гистопатологических изображений, в то время как трансформеры, такие как ViT, показали более высокие результаты по сравнению с передовыми (SOTA) моделями CNN для многих задач. CNN обладают преимуществом в работе с массивами пикселей и поэтому легче в изучении и применении по сравнению с архитектурами трансформеров. Однако CNN ограничены в захвате дальнобойных корреляций между областями изображения из-за своего узкого поля восприятия. С другой стороны, трансформеры используют механизм самовнимания, который обрабатывает информацию из всего изображения, что позволяет им захватывать более отдаленные и важные части изображения [37–39].
Различные способы использования трансформеров для гистопатологических изображений
Недавно было проведено множество исследований по применению трансформеров для анализа гистопатологических изображений. Некоторые исследования пытались использовать чисто трансформеры (то есть трансформеры без сверточных блоков), в то время как другие интегрировали преимущества трансформеров (например, DETR, ViT, DeiT, BEiT, Swin-transformer) и CNN (например, EfficientNet, Unet, ResNet) для различных задач. В этом разделе они классифицированы на три типа:
1. Чистые трансформеры: к чистым трансформерам относятся архитектуры на основе ViT, которые не включают значительных структурных изменений. Они превосходят традиционные модели CNN по масштабируемости и эффективности как для малых, так и для больших вычислительных данных [40].
2. Графовые методы на основе трансформеров: эти сети вводят графы в традиционные Vision Transformers. Графы представляют собой типы данных, которые часто используются для представления биологических или социальных сетей, что делает их применимыми для анализа гистопатологических изображений. Примером такой модели является графовая сеть трансформеров (Graph Transformer Network, GTN) [41].
3. Гибридные трансформеры и CNN: в области анализа гистопатологических изображений существует множество способов комбинирования трансформеров с CNN для создания гибридной модели. Одним из самых простых способов является замена части сети на трансформер или интеграция трансформера в структуру сети с использованием CNN в качестве основы [42].
Классификация гистопатологических изображений
Vision Transformer (ViT) продемонстрировал выдающиеся результаты в задачах классификации естественных изображений с момента его появления. Согласно предыдущим исследованиям, подходы на основе трансформеров, использованные для изучения и прогнозирования рака, часто называют задачами классификации и разделяют на три категории. Во-первых, это прямое применение архитектур трансформеров к гистопатологическим изображениям. Во-вторых, это использование архитектур трансформеров в сочетании с конволюциями для лучшего изучения локальных признаков. В-третьих, это использование трансформеров вместе с графовыми представлениями для более эффективного управления данными сложных размеров [43, 44].
Таким образом, авторы могут обобщить текущие применения трансформеров для классификации гистопатологических изображений следующим образом:
1. Архитектуры трансформеров достигли равных или лучших результатов по сравнению с моделями на основе CNN в задачах классификации.
2. Трансформеры в настоящее время несколько ограничены в их применении, особенно в области гистопатологической визуализации, из-за необходимости в большом количестве аннотированных данных. Предобучение может стать альтернативным подходом для решения этой проблемы.
3. Обучение трансформеров на гигапиксельных изображениях требует значительных вычислительных затрат. Поэтому важно снизить вычислительные затраты моделей и разрабатывать облегченные архитектуры.
4. Большинство существующих архитектур трансформеров ориентированы на 2D-анализ гистопатологических изображений, но растет интерес к разработке моделей для работы с 3D-данными.
5. Гибридные трансформеры, которые объединяют в себе преимущества как трансформеров, так и традиционных сетей, таких как CNN и графовые нейронные сети (GNN), получают все большее внимание [45, 46].
Возможности трансформеров для гинекологической патоморфологии
Применение ИИ в области гинекологической патоморфологии не столь распространено, как при раке молочной железы, раке толстой кишки и простаты, однако с каждым годом появляется все больше и больше решений в данной области. В этом разделе мы рассмотрим представленные решения по различным локализациям органов женской репродуктивной системы.
Шейка матки
Применение цитологических изображений для диагностики рака и предрака шейки матки давно используется в рамках коммерческих решений, однако почти все они основаны на применении CNN. Однако в работе Pacal представлена усовершенствованная архитектурная структура Multi-Axis Vision Transformer (MaxViT), разработанная для решения таких проблем, как вариабельность заключений в зависимости от уровня подготовки цитолога, а также качества преаналитической подготовки мазков. Адаптация MaxViT для данных Пап-теста позволила создать легковесную модель, обеспечивающую высокую точность и скорость анализа. Всего для каждого из включенных в исследование набора данных было использовано 106 моделей глубокого обучения, включая 53 модели CNN и 53 модели трансформеров для обработки изображений. В сравнении с экспериментальными и современными методами предложенный подход показал выдающуюся точность, превзойдя существующие решения (диагностическая точность составила 99,02–99,48 %) [47].
Тело матки
В одном из недавних исследований была представлена модель глубокого обучения EndoNet, которая может точно классифицировать препараты с раком эндометрия по категориям низкой и высокой степени злокачественности, что помогает патологоанатомам в диагностике и планировании лечения. Главная идея данного исследования состоит в том, что EndoNet, использующая сверточные нейронные сети (CNN) и Vision Transformer (ViT), демонстрирует высокую точность в классификации слайдов с раком эндометрия, что было подтверждено результатами тестирования как на внутренних, так и на внешних наборах данных [48].
Кроме того, в исследовании применения трансформеров для предикции статуса микросателлитной нестабильности были протестированы различные алгоритмы глубокого обучения, включая CNN и модели Vision Transformers. Исследование показало, что модели CNN, такие как ResNet, продемонстрировали более высокую точность в предсказании статуса MMR по сравнению с Vision Transformers. Тем не менее ViT оказались полезными, так как они предложили новый способ анализа изображений, фокусируясь на конкретных областях интереса с помощью механизма внимания [49].
В исследовании Volinsky-Fremond и соавт. глубокое обучение на основе трансформеров было применено для прогнозирования отдаленного рецидива рака эндометрия, что имеет решающее значение для персонализированного подбора адъювантной терапии. Была разработана система HECTOR (Histopathology-based Endometrial Cancer Tailored Outcome Risk) – мультимодальная прогностическая модель глубокого обучения, использующая окрашенные гематоксилином и эозином изображения гистологических препаратов и стадию опухоли в качестве входных данных. Модель была обучена на данных 2072 пациентов из 8 когорт РЭ, включая рандомизированные исследования PORTEC-1/-2/-3. HECTOR продемонстрировал индекс согласия (C-индекс) 0,789; 0,828 и 0,815 на внутренних (n = 353) и двух внешних (n = 160 и n = 151) тестовых наборах данных соответственно, превзойдя современный «золотой стандарт». Модель также идентифицировала группы пациентов с резко различающимися прогнозами: вероятность 10-летнего безрецидивного течения для групп низкого, среднего и высокого риска по HECTOR составила 97,0 %, 77,7 % и 58,1 % соответственно (по анализу Каплана – Мейера). Было показано, что HECTOR также лучше, чем текущие методы, прогнозировал пользу от адъювантной химиотерапии. Экстракция морфологических и геномных характеристик выявила корреляции с группами риска по HECTOR, некоторые из которых имеют терапевтический потенциал [50].
Яичники
В исследовании Alahmadi представлен передовой фреймворк компьютерной диагностики для классификации рака яичников, объединяющий модели Vision Transformer (ViT) и метод локальных интерпретируемых объяснений, независимых от модели (Local Interpretable Model-agnostic Explanations, LIME). Модели ViT, включая ViT-Base-P16-224-In21K, ViT-Base-P16-224, ViT-Base-P32-384 и ViT-Large-P32-384, продемонстрировали исключительную точность, полноту, чувствительность и общую надежность по разнообразным метрикам оценки. Использование составной (stacked) модели дополнительно повысило общую производительность. Результаты экспериментов, проведенных на тренировочных и тестовых наборах данных в данном исследовании, подчеркивают высокую эффективность моделей ViT в точной классификации подтипов рака яичников на основе гистопатологических изображений. Модель ViT-Large-P32-384 была выделена как наиболее эффективная, достигнув точности 98,79 % на тренировочном этапе и 97,37 % на этапе тестирования. Визуализация, включая ROC-кривые и метод LIME, показала важные данные о дискриминативных способностях моделей, что свидетельствует о потенциальном повышении интерпретируемости результатов. Таким образом, предложенный фреймворк CAD представляет собой значительный прорыв в диагностике рака яичников, предлагая перспективный подход для точной и прозрачной многоклассовой классификации гистопатологических изображений [51].
В работе, посвященной индексу цифровой патологии рака яичников (OCDPI), авторы использовали графовую модель глубокого обучения, разработанную для прогноза выживаемости и реакции на адъювантную терапию у пациентов с раком яичников с использованием полноразмерных сканированных копий срезов, окрашенных гематоксилином и эозином. Модель была разработана на основе данных из проекта TCGA-OV и прошла внешнюю валидацию на двух независимых когортах. OCDPI продемонстрировала значительные прогностические способности в отношении общей выживаемости в обеих валидационных когортах и стабильно выступала в качестве независимого прогностического фактора, даже с учетом клинико-патологических факторов. Модель также эффективно прогнозировала лучшую выживаемость и более низкие показатели рецидивов у пациентов с низкими значениями OCDPI после адъювантной терапии. Кроме того, модель показала хорошие результаты в группах пациентов с низкодифференцированными опухолями или с дефицитом гомологичной рекомбинации (HRD), что указывает на ее потенциал в персонализации лечения [52].
Таким образом, можно заключить, что в области гинекологической патоморфологии, так же как и в диагностике злокачественных заболеваний других локализаций, трансформеры обычно имеют преимущества в решении задач классификации грейдинга опухоли, предикции мутационного статуса и прогноза выживаемости благодаря своим механизмам внимания, которые позволяют модели фокусироваться на ключевых особенностях внутри WSI. Это может усилить способность таких алгоритмов улавливать как локальные, так и глобальные гистологические паттерны, улучшая точность прогноза и ответа на лечение, особенно в случае сложных и гетерогенных опухолей, таких как рак яичников. Эффективность трансформеров в обработке изображений всего слайда на большом масштабе также делает алгоритмы с их использованием инструментами, экономящими трудозатраты, что способствует более информированному и персонализированному принятию решений в лечении пациентов с гинекологическими раками разных локализаций.
Выводы
На основе проведенного обзора можно сделать следующие выводы:
1) трансформеры продемонстрировали выдающиеся результаты в задачах классификации и сегментации гистопатологических изображений;
2) существующие архитектуры трансформеров имеют определенные ограничения, связанные с высокими вычислительными затратами и потребностью в больших наборах данных для обучения;
3) будущие исследования должны быть направлены на разработку более легких и эффективных моделей, которые смогут работать с меньшими объемами данных и меньшими затратами на вычисления;
4) активное развитие гибридных архитектур, объединяющих преимущества как трансформеров, так и CNN, является перспективным направлением;
5) в будущем возможна интеграция трехмерных трансформеров для работы с объемными данными, что может значительно улучшить результаты в задачах анализа медицинских изображений.
Заключение
Архитектуры на основе трансформеров открыли новые горизонты для анализа гистопатологических изображений. Эти методы доказали свою эффективность, особенно в задачах сегментации и прогнозирования выживаемости. Несмотря на текущие успехи, дальнейшие исследования необходимы для решения проблем, связанных с высокой сложностью моделей и потребностью в большом количестве данных. Гибридные подходы, сочетающие CNN и трансформеры, предоставляют исследователям уникальные возможности для разработки новых методов анализа медицинских данных. Первые успехи в использовании таких архитектур в решении задач гинекологической патоморфологии открывают новые перспективы для разработки эффективных инструментов для диагностики, прогнозирования и предикции злокачественных новообразований матки и яичников, а также в области репродуктивной патологии.