В настоящее время проводится активная модернизация системы высшего образования с целью повышения ее качества, в частности, значительное внимание уделяется увеличению доли научной составляющей в образовательном процессе, вопросам интеграции научной, инновационной и образовательной деятельностей, а также развитию научной деятельности в целом. Данный процесс сопровождается резким ростом требований ко всем участникам научно-образовательного процесса – преподавателям, магистрантам и аспирантам [11]. Среди основных требований можно выделить увеличение объема научных исследований в работе, число публикаций, активное участие в научных мероприятиях, количество полученных патентов и выигранных грантов [5]. Изменения, проводимые в деятельности вуза, требуют внедрения современных автоматизированных систем управления образовательными процессами и создания инфраструктуры для поддержки деятельности сотрудников и обучающихся. Эффективность реализации процессов научной деятельности определяется качеством решения следующих задач: поиск и обеспечение доступа к научно-исследовательским работам, выполняемым по схожим тематикам, своевременное информирование о проведении научных мероприятий и планирование участия в них, обеспечение возможности публикации полученных научных результатов в высокорейтинговых изданиях.
Постановка задачи
Для анализа процесса реализации научной деятельности обучающихся (магистранты и аспиранты) и преподавателей вуза была построена информационная модель верхнего уровня, представленная на рисунке 1. Данная модель описывает процессы взаимодействия участников и результаты их научной деятельности в информационной системе университета.
Рис. 1. Информационная модель научной деятельности
Анализ модели и предметной области позволил выделить основные проблемные области, связанные с принятием решений и поиском соответствующей информации:
· Выбор научного руководителя или обучающихся с учетом научных интересов.
· Поиск подходящих периодических изданий для публикации научных результатов.
· Выбор актуальных научных мероприятий для участия.
· Выбор конкурсов и грантов для финансирования проводимых научных исследований. В университете организована структура проектных менеджеров, которые регулярно отслеживают новости об открываемых конкурсах и фондах и отбирают те из них, которые могут заинтересовать преподавателей и обучающихся [12].
· Поиск значимых публикаций по заданным тематикам.
В построенной модели можно выделить следующие ключевые объекты:
· Научные руководители и обучающиеся – пользователи информационной системы.
· Научные мероприятия – конференции, конгрессы, семинары, круглые столы и прочие.
· Конкурсы – конкурсы, ориентированные на материальную поддержку преподавателей и обучающихся.
· Публикации – статьи, опубликованные в периодических издания.
· Издания – периодические издания.
В представленной модели, основные информационные объекты, связаны через ключевые слова, которые формируют профиль объекта или так называемую «область научных интересов». Использование методов частотного анализа и информационных технологий позволяют выполнять анализ связей между научными интересам участников, проводимыми исследованиями, актуальными конкурсами и мероприятиями. По результатам анализа формируются рекомендации для решения вопросов, озвученных выше.
Особенно важной задачей при использовании данного подхода является формирование научного профиля пользователя информационной системы и таких объектов как издания, публикации, конкурсы, мероприятия. Поскольку от полноты информации о профиле будет зависеть качество и точность формируемых рекомендаций, а следовательно эффективность развития научной деятельности вуза. Решение данной задачи имеет свои особенности, так как при формировании профиля используется множество источников информации, и при анализе информации необходимо правильно определять приоритеты тех или иных научных интересов.
В данной статье рассмотрен процесс формирования научного профиля для участника научно-исследовательской деятельности вуза, а также других связанных информационных объектов на примере научного профиля издания.
Формирование научного профиля пользователя
Формирование научных интересов пользователя в информационной системе университета происходит за счет самостоятельного ввода информации при заполнении личного профиля в информационной системе, а также автоматического сбора сведений о ключевых словах. Автоматический сбор сведений основывается на формализации и последующей интеграции информации из наукометрических баз данных, анализа поведения пользователей в информационной системе, его научно-практических результатов на основе методов частотного анализа и алгоритмов нечеткого поиска (см. рис. 2). Под наукометрическими базами данных понимают библиографические и реферативные базы данных, а также инструмент для отслеживания цитируемости научных статей [6].
Рис. 2. Информационная модель научных интересов пользователя в информационной системе университета (ИСУ)
Автоматическое наполнение профилей ключевыми словами позволяет значительно расширить выборку, на которой в дальнейшем будет основываться инструмент предоставления рекомендаций по поставленным задачам, и повысить качество полученных рекомендаций.
Научные интересы пользователя – это множество его ключевых слов .
где – множество ключевых слов, указанных пользователем, а – множество ключевых слов, автоматически выбранных с учетом частоты их появления.
где – множество автоматически полученных ключевых слов, – частота появления ключевого слова , – пороговое значение для частоты появления ключевого слова.
где – количество источников, на основании которых формируется множество . Множество формируется за счет:
· Посещения пользователем информационной системы. – множество ключевых слов, полученных по результатам посещения страниц, содержащих ключевые слова и тематики;
· Анализа схожих интересов между пользователями, посетившими одинаковые страниц. – множество ключевых слов пользователей со схожими интересами [3, 4];
· Анализа тематик публикаций, автором которых является пользователь. – множество ключевых слов, полученных на основе анализа публикационной активности пользователя;
· Анализа схожести интересов между соавторами публикаций, автором которых является пользователь. – множество ключевых слов соавторов публикаций пользователя;
· Получения сведений о подписки пользователя на рассылку в информационной системе. – множество ключевых слов, указанных пользователям для получения рассылки в информационной системе;
· Анализа профиля пользователя в наукометрических базах данных. – множество ключевых слов пользователя, полученных из наукометрических баз данных.
где – множество ключевых слов страницы, – количество страниц. В статье рассматриваются страницы информационной системы, которые посещает пользователь.
где – множество ключевых слов пользователя , – множество пользователей, посетивших – страницу, за исключением рассматриваемого пользователя, – мера Жаккара (), а – пороговое значение схожести.
где – множество ключевых слов публикации, – количество публикаций пользователя.
где – множество ключевых слов пользователя , – множество соавторов публикации , за исключением рассматриваемого пользователя, – мера Жаккара, а – пороговое значение схожести.
где – множество ключевых слов пользовательского профиля , – множество авторских профилей наукометрической базы данных для рассматриваемого пользователя, – количество наукометрических баз данных. В статье рассматриваются наиболее распространенные наукометрические базы данных и их идентификаторы авторских профилей:
1. РИНЦ (российский индекс научного цитирования) – используется уникальный идентификатор SPIN-код [9];
2. Web of Science – самая авторитетная в мире база данных по научному цитированию института научной информации (Institute of Scientific Information - ISI) – используемый уникальный идентификатор ResearcherID [9];
3. Scopus – это крупнейшая в мире единая мульти дисциплинарная реферативная база данных, представляющая уникальную систему оценки частоты цитирования. Используемый уникальный идентификатор ORCID [9];
Авторский профиль из наукометрических базах данных в информационной системе представлен следующим образом:
где – множество публикаций авторского профиля,– идентификатор авторского профиля.
Анализ ключевых слов авторских профилей , полученных из наукометрических баз данных, начинается с определения связей между пользователями информационной системы (авторами публикаций) и наукометрическими базами данных. Множество авторов публикаций в информационной системе представлено следующий образом:
где – количество уникальных авторов.
Определение связей авторских профилей, полученных с наукометрических баз данных, и пользователями информационной системы является первостепенной задачей. Один из возможных подходов идентификации авторов публикаций из различных баз данных публикаций – это проведение анализа возможных внешних идентификаторов авторов и сопоставление их с внутренними (университетскими) идентификаторами [1]. Такие связи идентификаторов не всегда существуют, возникают новые авторские коллективы, автор может изменить фамилию, также в авторитетных базах данных авторы могут не иметь уникальный идентификатор, или один и тот же автор может быть связан с разными идентификаторами. В настоящее время в мире нет единого стандартизованного способа идентификации журнальных статей, авторов, их мест работы и др., несмотря на то, что в последние годы введены в действие немалое число различных идентификаторов [8]. При идентификации авторов большое значение имеет аффилиация. Некоторые авторы не указывают аффилиацию с университетом, что приводит к затруднению их идентификации. В случае работы с аффилиациями можно выделить следующие возможные варианты:
· Указана аффилиация – автор является сотрудником университета и указал ссылку на университет [1].
· Отсутствие аффилиации – автор является сотрудником университета и не указал ссылку на университет [1].
· Частичная аффилиация – автор является сотрудником университета и указал ссылку на несколько университетов [1].
Профиль автора в информационной системе имеет следующий вид:
где – множество ключевых слов – го автора, – множество публикаций, – множество идентификаторов профилей в наукометрических базах данных, – множество написаний автора на иностранном языке.
где – количество уникальных иностранных написаний.
В качестве основного правила транслитерации была использована технология «OVIR of Russia regulations». В информационной системе университета предусмотрена возможность хранения различных вариантов транслитерации фамилии авторов, что позволяет использовать любые правила транслитерации и их комбинации. В связи с тем, что существуют различные методы транслитерации, не всегда возможно однозначно получить русскоязычное написание фамилии авторов. С учетом данного фактора возможно также и неоднозначное определение потенциальных авторов из базы физических лиц университета. Для обработки такой неоднозначности, необходима специализированная обработка данных [10]. В качестве обработки таких данных был разработан модуль анализа авторских коллективов публикаций авторских профилей , наиболее схожих по написанию с . Метод идентификации авторов заключается в определении потенциальных авторов по написанию авторов статьи с учетом научных коллективов и частоты их появления .
где – количество потенциальный сотрудников, подходящих написанию .
В данной статье научные коллективы представлены следующим образом:
где – соавторы по публикациям автора , – сотрудники подразделений в котором работает или работал , – обучающиеся под руководством , – участники проектов, в которых участвует .
На рисунке 3 представлены возможные варианты идентификации авторов. Рассмотрим пример, представленный на рисунке 3а, более детально. У публикации на английском языке указаны два автора: Dzerzhauskaya T.A., Varenikov D.A. Для того чтобы идентифицировать сотрудников, являющихся авторами данной публикации, необходимо по иностранному написанию фамилии, имени и отчеству найти в базе данных соответствующих сотрудников [2]. Для рассматриваемого примера были найдены следующие совпадения:
1. Автор 1 - Dzerzhauskaya T.A. Для данного автора были найдены следующие схожие написания:
– Dzerzhauskaya T.A. Данное написание указано у двух пользователей:
– Дзержавская Т.А.
– Державская Т.А.
– Dziarzhauskaya T.A. Данное написание определено на основании анализа иностранного написания фамилий авторов, хранящихся в системе у одного сотрудника:
– Дзиржавская Т.А.
2. Автор 2 - Varenikov D.A. Для данного автора было найдено одно написание:
– Varenikov D.A.
– Вареников Д.А.
Таким образом, однозначно определить связь Автора 1 с пользователем информационной системы невозможно, в отличие от Автора 2, для которого была найдена только одна связь с . Для того чтобы определить Автора 1, используется анализ авторских коллективов. С помощью проведенного анализа удалось определить, что из потенциальных авторов , , только сотрудник участвовал в авторском коллективе с сотрудником .
Кроме того, возможен вариант неоднозначного определения соавтора после анализа авторских коллективов (см. рис. 3 б) и дополнительных сведений об авторах, в этом случае система оставляет данного автора нераспознанным и формирует подсказу для специалиста, который в дальнейшем будет обрабатывать публикацию. Чем больше авторов приведено в публикации и чем полнее они описаны, тем точнее происходит идентификация авторов на основе авторских коллективов (см. рис 3 в). На рисунке 3 г показан пример неоднозначного определения автора после транслитерации. В данном примере идентификация соавтора происходит только после анализа авторского коллектива и обработки специалистами публикации, на основании рекомендаций, представленных системой. Данный пример демонстрирует наполнение авторского профиля различными вариантами транслитерации его фамилии, что в дальнейшем позволяет идентифицировать его более точно [1].
Рис. 3. Подход к идентификации авторов
Метод идентификации авторов, основанный на определении потенциальных авторов по написанию, с учетом научных коллективов и частоты их появления, позволил повысить качество определения и связи авторских профилей с наукометрическими базами данных и пользователями информационной системы. Рассмотренные подходы в дальнейшем будут применены к определению соответствия между пользователями информационной системы университета и их профилями в открытых научных Интернет-ресурсах [13].
Формирование профиля публикации
Информационная модель профиля публикации, представлена на Рис. 4. Одним из показателей профиля публикации являются ключевые слова . Данный показатель важен при формировании рекомендаций и поиска публикаций.
где – количество источников ключевых слов для периодического издания. Множество ключевых слов публикаций формируются на основе:
· Множества ключевых слов, указанных авторами, – ;
· Множества ключевых слов, полученных из наукометрических баз данных, – . В наукометрических базах данных существует отдельное описание публикаций ключевыми словами и тематиками, соответствующим справочникам конкретной наукометрической базы;
· Множества ключевых слов периодического издания, к которому относится данная публикация, – .
Рис. 4. Информационная модель профиля публикации
Формирования научных профилей конкурсов и научных мероприятий производится по схожей схеме и в статье не рассматриваются.
Заключение
В результате выполненной работы предложены подходы по автоматизации формирования научных профилей, которые позволили значительно расширить выборку, на основе которой в дальнейшем строятся рекомендации для пользователей информационной системы по выбору научного руководителя или обучающегося, научного мероприятия, грантов, публикаций и периодических изданий для публикации научных результатов. Полнота полученных данных позволила оптимизировать учет публикаций специалистами и, как следствие, повысить качество отчетных данных. Предложенные методы были реализованы в информационной системе управления университета.
Рецензенты:
Арустамов С.А., д.т.н., профессор, профессор кафедры проектирования и безопасности компьютерных систем, Университет ИТМО, г. Санкт-Петербург;
Коробейников А.Г., д.т.н., профессор, заместитель директора по науке СПбФ ИЗМИ РАН, г. Санкт-Петербург.
Библиографическая ссылка
Вареников Д.А., Шлей М.Д., Муромцев Д.И. ПОСТРОЕНИЕ НАУЧНЫХ ПРОФИЛЕЙ УЧАСТНИКОВ НАУЧНО - ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА В ИНФОРМАЦИОННОЙ СИСТЕМЕ УНИВЕРСИТЕТА // Современные проблемы науки и образования. – 2015. – № 2-2. ;URL: https://science-education.ru/ru/article/view?id=23109 (дата обращения: 18.01.2025).