Введение
Особенность поисковых НИР и НИОКР заключается в том, что заранее не известно о возможных взаимосвязях и закономерностях, которые будут получены в результате выполнения НИР и НИОКР [1, 2]. По этой причине накопление данных может происходить неправильно [3, 4]. Результатом могут быть и неполный комплект данных, необходимых для описания явления, и недостаточная периодичность сбора данных, и неструктурированность базы данных (непригодность для дальнейшей обработки), и прочее [5, 6]. Помимо этого, в практике работы научных учреждений до сих пор нет реестров полученных научных результатов, нет взаимосвязи между лабораториями и научными группами [7, 8]. Такая ситуация постоянно реализуется из-за отсутствия понимания того, каким образом необходимо упорядочить данные, для каких целей собирать данные в общую базу данных [9]. Таким образом, на разных уровнях (от отдельного научного сотрудника до научных организаций) ощущается отсутствие систематизации получаемых научных результатов.
Хорошим примером проблемы систематизации данных могут служить медицинские организации, где сотрудники, как правило, не имеют опыта и знаний в области естественных наук и программирования, но при этом сталкиваются со значительным объемом медицинских данных. Медицинские данные требуют валидации и верификации, и эти данные чувствительны ко времени. Изначально неправильная структура базы данных может привести к потере важных данных, которые невозможно впоследствии восстановить (из-за смерти пациента или из-за его излечения). Ценность баз данных, содержащих медицинскую информацию, напрямую зависит от начальной структуры баз данных. Избыточные блоки базы данных (совокупность переменных) способны привести к избыточной нагрузке (по ведению базы данных) на медицинский персонал. Однако недостаток медицинской информации может сильно ограничить возможности статистического анализа. Еще более трудная ситуация складывается в авиакосмической медицине и биологии, где сочетаются сложность взаимосвязей, новизна и малый объем данных. По вполне понятным причинам ценность данных в авиакосмической медицине и биологии многократно выше, чем аналогичных данных «земной» медицины и биологии.
Цель исследования: провести обзор методов систематизации данных с целью выработать общий подход, который позволил бы оптимизировать сбор и анализ данных, полученных в авиакосмической медицине и биологии.
Материалы и методы исследования
Работа выполнена в соответствии с рекомендациями, изложенными в публикации [10]. Для поиска научной литературы использовалась поисковая система Google Scholar. Глубина поиска составила 5 лет. Языки поиска: русский; английский. Поисковый запрос: Систематизация данных в авиационной и космической медицине. Найдено 649 источников на русском и 11800 на английском языках. Отобрано к рассмотрению: 77 источников на русском языке и 361 на английском языке. Использовалось в анализе: 33 публикаций на русском языке и 17 на английском языке.
Результаты исследования и их обсуждение
Область применения баз данных
Ниже автор представил лишь незначительную часть тех областей знаний, где применяются базы данных.
Базы данных находят свое применение: в математике [11]; в биологии [12]; в географических исследованиях [13]. Базы данных создаются для гуманитарных наук, например в теории права [14, 15]. Наиболее значимыми считаются базы данных в медицинских науках [16, 17]. Несмотря на обширность областей применения баз данных, к ним предъявляются основные функциональные требования [18, с. 35]: поиск данных в базе данных; сортировка; использование фильтра данных; запросы на выборку; хранение данных; построение зависимостей; операции с данными.
Однако есть глобальные базы данных, к которым предъявляется расширенный список требований.
Активно создаются международные базы данных с открытым доступом для реализации различных цифровых решений [19]. Эти базы данных отличают высокая структурированность и интегрируемость. Как правило, это базы биологических и медицинских дата-сетов [20]. Именно в этих областях знаний наиболее остро встает вопрос о структуре и функциональности будущей базы данных, поскольку эти базы данных должны быть интегрируемы в медицинские информационные системы [21]. Сложность и многофакторность медицинских и биологических баз данных обусловлены тем, что данные могут быть различных форматов (числовые, текстовые) и связи между этими данными могут быть неоднозначны. В связи с этим особое внимание уделяют предварительному анализу возможных взаимосвязей внутри базы данных. По этой причине изучают способы формализации данных [22].
В целом, базы данных можно считать основой для всех методов анализа данных. Схематично можно изобразить эту зависимость от баз данных в последовательности методов анализа данных: базы данных; статистика; теория информации; методы оптимизации; data mining; распознавание образов; машинное обучение; нейрокомпьютерные вычисления; искусственный интеллект.
По сути, метод анализа данных зависит от того, насколько база данных многомерна и структурирована.
Подходы и методы структурирования баз данных
Первым этапом построения функциональной и структурированной базы данных является проверка самих данных на наличие в них ошибок. К наиболее распространенным ошибкам данных можно отнести: формальные ошибки; ошибки сбора данных; ошибки, допущенные при обработке исходных данных; ошибки, допущенные при регистрации данных [23].
Как правило, формальные ошибки заметны на этапе фиксирования данных в базе данных. Ошибки сбора данных отслеживать достаточно сложно, но можно предусмотреть некую границу возможных значений данных, и при несоответствии этой границе данные могут обратить на себя внимание оператора. Ошибки, допущенные при обработке исходных данных, легко обнаруживаются на дополнительном этапе машинной проверки вычислений. Ошибки, допущенные при регистрации данных, относятся к тем видам ошибок, которые возникают на этапе планирования структуры базы данных. Существует хорошо зарекомендовавшая себя стратегия подготовки данных к их регистрации в базе данных [24]. В этой стратегии считается важным использование оптимального числа независимых переменных (факторов). Независимость факторов можно предварительно проверить путем попарного нахождения взаимосвязей между факторами. Необходимо оставить только те факторы, которые отвечают целям и задачам исследования. Лишние факторы приводят к сложности интерпретации полученных моделей и взаимосвязей. Помимо этого, следует помнить о сложности вычислений, которые могут быть описаны как О(n3), где n – исходный объем данных [25, с.67].
Для упрощения анализа данных часто перед структуризацией базы данных используют интеллектуальный анализ данных: анализ предметной области, формулировка целей и задач исследования; извлечение и сохранение данных; обработка данных; содержательный анализ; интерпретация результатов; генерация и использование новых знаний [26].
При этом выделяют следующие варианты закономерностей, которые помогают проводить классификацию внутри базы данных: ассоциация; последовательность; классы; кластеры; временные ряды; статистические модели; феноменологические модели. Автор рассмотрел все 7 типов закономерностей и может сказать, что для использования и анализа будет достаточно только два типа данных. Как правило, в медико-биологических исследованиях для структуризации и классификации достаточно применять категориальные и количественные данные [27].
Базы данных и искусственный интеллект
С развитием искусственного интеллекта (ИИ) значимость баз данных увеличивается многократно. Появились такие виды баз данных, которые ориентированы на ИИ [28]. Эти базы данных лежат в основе так называемых экспертных систем [29]. В этих базах данных информация максимально структурирована и классифицирована. В ряде работ отмечено, что системы с ИИ обучаются на множестве примеров и уже начинают конкурировать с экспертными системами, иногда дополнять, а иногда и замещать их [30, 31].
Перспективным решением в области ИИ являются миварные технологии. Мивар – наименьший структурный элемент, который способен описать рассматриваемый объект с заданной полнотой связей (даже потенциальных связей). По сути, мивар можно представить как некий универсальный классификатор, способный описать некую совокупность данных. Однако мивар – это и прообраз базы данных, пригодной для работы объяснимого искусственного интеллекта. Такие базы данных подойдут для моделей машинного обучения – обучение «с учителем», где происходит обучение на исходной выборке, на которой можно выявить решающее правило (феноменологическую модель или дерево решений) [32, 33].
Однако основным ориентиром являются непосредственно заказчики, которые работают с данными и которым необходима помощь в создании баз данных. С целью выяснения функциональных характеристик баз данных в авиакосмической медицине и биологии был проведен анализ требований, которые заказчики (сотрудники ИМБП РАН) предъявляют к базам данных.
Систематизация данных в авиационной и космической медицине
Систематизацию данных в авиационной медицине производят, прежде всего, в целях безопасности полетов [34, 35, 36]. В космической медицине мы можем наблюдать особенно выраженную систематизацию данных относительно кардио- [37, 38] и респираторной системы космонавтов [39]. Также кардиореспираторная система находится в центре внимания авиационной медицины [40, 41]. В целом, физическое состояние космонавтов [42, 43] предлагается оценивать в стандартных протоколах. В авиационной медицине давно используются стандартные протоколы для летчиков [44, 45], что позволяет заниматься систематизацией этих результатов. Особого внимания заслуживает атлас космической омики и медицины (SOMA) – это значительное достижение в области космической медицины, представляющее собой интегрированное хранилище клинических, клеточных и мультиомных исследований, полученных в ходе различных космических миссий. SOMA представляет собой значительное увеличение количества общедоступных данных по омике человека в космосе, что упрощает прецизионную аэрокосмическую медицину, предлагая обширные молекулярные и физиологические профили [46]. Системный анализ и математическое моделирование были использованы для понимания физиологической адаптации к космическим полетам, о чем свидетельствует всесторонний анализ данных Skylab. Этот подход объединяет биомедицинские данные, позволяющие лучше понять, как адаптироваться к микрогравитации, и способствует разработке прогнозных моделей для космической медицины [47]. Помимо этого, значительный объем структурированной информации в области психологии и нейрофизиологии представлен в современных публикациях [48–50].
Требования, предъявляемые к базам данных
С 2018 года были собраны требования к разрабатываемым базам данных среди заказчиков (сотрудников ИМБП РАН) и проведен их анализ. Эти требования были связаны с созданием и последующей систематизацией, структурированием и обработкой баз данных из имеющихся у заказчиков данных. Были оценены требования 57 заказчиков. Все заказчики были сотрудниками Института медико-биологических проблем РАН, работающими в области авиакосмической медицины и биологии. С каждым заказчиком была проведена беседа с целью разъяснения возможных вариантов работы с данными заказчиков. Помимо этого, фиксировались знания и понимание заказчиков в тематике обработки информации, проверялась как структура исходных баз данных, так и сами значения в ячейках данных. Фиксировались типы ошибок, которые допускались заказчиками. Оценивались возможные последствия допущенных ошибок с целью определения приоритетных направлений разработки метода структурирования баз данных.
В результате проведенной работы был обнаружен значительный разрыв между современными возможностями анализа и обработки информации и знаниями и опытом заказчиков. Однако удалось собрать ряд характерных требований, предъявляемых к базам данных.
Ниже в таблице 1 представлены требования, предъявляемые заказчиками к выполняемым работам.
Таблица 1
Требования к базам данных
№ |
Требования |
N |
1 |
Государственная регистрация базы данных (РОСПАТЕНТ) |
57 |
2 |
Использование для хранения и наполнения базы данных Microsoft Excel |
57 |
3 |
Описательная статистика |
57 |
4 |
Сравнительная статистика |
33 |
5 |
Построение регрессионных моделей |
30 |
6 |
Построение прогностических моделей |
27 |
7 |
Корреляционный анализ |
20 |
8 |
Построение статистических моделей |
17 |
9 |
Дисперсионный анализ |
17 |
10 |
Построение феноменологических моделей |
10 |
11 |
Создание баз данных, пригодных для использования объяснимого ИИ |
10 |
12 |
Факторный анализ |
5 |
Проанализированы характеристики баз данных (табл. 2). Эти базы данных были согласованы с заказчиками и соответствовали их задачам и целям. Была проведена государственная регистрация всех баз данных в РОСПАТЕНТ, тем самым были подтверждены эффективность построения структуры баз данных и эффективность выбранных инструментов для анализа и проверки баз данных заказчиков.
Таблица 2
Характеристики баз данных
№ |
Характеристики баз данных |
N |
1 |
Табличная модель данных |
57 |
2 |
Реляционные базы данных |
57 |
3 |
Не более 10 группирующих признаков |
57 |
4 |
До 500 значений для каждой переменной |
50 |
5 |
Более 500 значений для каждой переменной |
7 |
В данной работе автор постарался учесть как запрос заказчиков к базам данных, так и возможность разнообразных методов анализа и обработки данных. Так сформировались некий образ востребованных в авиакосмической медицине и биологии баз данных и их характеристики.
Заключение
На основе анализа методов структурирования баз данных наиболее подходящей формой признана реляционная (с двумя типами данных – категориальные и количественные данные). Структурирование и моделирование внутри баз данных можно проводить на основе феноменологических моделей, поскольку эти модели включают в себя все возможные формы взаимосвязей. Помимо этого, таким способом структурированные базы данных пригодны для государственной регистрации в РОСПАТЕНТ.
Основными заказчиками баз данных, требования которых были рассмотрены в данной работе, были сотрудники, занятые в области авиационной и космической биологии и медицины. Анализ потребностей и специфики требований заказчиков подтвердил начальную гипотезу о том, что исходные базы данных заказчиков плохо структурированы, имеют ошибки в данных и в самой структуре базы. Заказчики, как правило, не способны провести предварительный интеллектуальный анализ данных из-за отсутствия исходной структуры базы данных и соответствующего опыта. В большинстве случаев базы данных заказчикам нужны для статистического анализа и поиска закономерностей внутри базы данных.
Описанные выше результаты говорят об актуальности проблемы систематизации информации, а наиболее приемлемое решение – систематизация в виде структурированных баз данных. Эти результаты актуальны не только для области авиакосмической медицины, но и для всей медицины и биологии в целом. По сути, структурированные базы данных с валидированной и верифицированной информацией представляют значительный интерес как со стороны науки, так и со стороны бизнеса. Это обусловлено тем, что качественные базы данных позволяют использовать различные инструменты анализа данных и получать важные результаты. Ценность баз данных со временем и возрастанием их объема только увеличивается. Однако необходимо заранее планировать структуру базы данных и особенности накопления этих данных, чтобы будущая база данных имела значительную ценность.