Scientific journal
Modern problems of science and education
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 1,006

APPLYING SERVICES FOR INTERNET SOCIAL MEDIA MONITORING AND FREQUENCY ANALYSIS OF INTERNET SEARCH QUERIES AS INSTRUMENTS FOR SOCIAL PROBLEMS STUDY

Bikkulov A.S. 1, 2 Bershadskaya L.A. 1 Zhuk D.V. 1
1 St.Petersburg National Research University of Information Technologies, Mechanics and Optics
2 St.Petersburg State University
In the article еру authors demonstrate the relevance of computer social networks in Russia as a sufficiently representative field for humanitarian empirical studies (some of the social networks have a reach of audience close to the audiences of central Russian TV channels, the level of Internet use in Russia has reached a level of 50% (and in large cities and age groups up to 45 years - significantly higher), the level of social network use by Russian Internet users is close to 90%. Then authors give an overview of the methods of research in the humanities on the Internet, both adapted traditional methods and new automated methods. Finally the authors propose a research approach based on a content analysis of the Internet discussions of social problems in social networks by means of social media monitoring services, and the search activity by means of frequency analysis of search queries; describe the research capabilities of these atypical instruments in application to social problems studies.
frequency analysis of search queries
social media monitoring services
social problems
automated research tools
research methods in humanities

Введение. Актуальность компьютерных социальных сетей как поля для эмпирических исследований

В последние десятилетия широкое распространение и использование социальных сетей поставило с новой остротой вопрос об изучении процессов, происходящих в них.

По данным социологического опроса, проведенного агентством РБК.research в октябре 2011 года, уже 86,5% интернет-пользователей (проживающих в городах с населением более 100 тыс. в возрасте от 18 до 54 лет) зарегистрированы и общаются в социальных сетях [5, с.24].

Наиболее известные и посещаемые российские социальные сети – это ВКонтакте, Одноклассники.ru, МойМир@Mail.ru, Facebook см. Рис.1.

seti-rus.jpg

Рис. 1. Карта соотношения «знают/зарегистрированы среди знающих», % от опрошенных российских интернет-пользователей, 2011 г. Источник - РБК.research [5, с.47].

По данным comScore (февраль 2012 г.), 99,7% от среднесуточной российской аудитории Рунета (т.е. тех, кто пользуется Интернетом каждый день) пользуются социальными сетями, — в абсолютных числах это составляет 30,9 млн. россиян. Время, проводимое российским пользователем в социальных сетях, составляет в среднем 12,8 часов в течение месяца, — это самый высокий показатель в мире (жители других стран проводят в социальных сетях в среднем 5,9 часов в месяц) [6].

За последние пять лет социальные сети стали одними из наиболее популярных и посещаемых ресурсов Интернета, уступив лишь «поисковикам» Яндекс и Google, почтовой службе Mail.ru [5, с.33].

При этом в России наблюдается достаточно высокий уровень использования сети Интернет: в 2012 году по данным Фонда «Общественное мнение» он составил 50% - месячная аудитория, 38% - ежедневная; по данным TNS Web Index, в возрастных группах до 45 лет некоторые интернет-ресурсы, в частности Mail.Ru Group, Яндекс, ВКонтакте сопоставимы по охвату аудитории в абсолютных цифрах с аудиторией центральных телеканалов, - например, ВГТРК и Первым каналом) [6].

Социальные сети сегодня являются серьезной площадкой для формирования поля обсуждения любого рода вопросов, в том числе – и социальных проблем. Вместе с тем, особую практическую значимость представляют задачи сопоставления данных, отражающих объективную картину (офф-лайн опросы общественного мнения, статистика и т.д.), с данными, полученными на основе изучения виртуальных социальных сетей.

Методы гуманитарных исследований в сети Интернет

В ходе проведенного анализа гуманитарных исследований в сети Интернет и используемых в них методов были выделены 3 основных группы подходов:

1. традиционные социологические, психологические и социально-антропологические методы, частично адаптированные для специфических задач исследования процессов в Интернет;

2. автоматизированные методы и инструменты анализа социальных сетей, метод графов;

3. методы агрегирования разрозненной информации Data Mining.

На сегодняшний день, пожалуй, наиболее распространенными в практике гуманитарных исследований виртуальных социальных сетей является первая группа методов, в частности применение выборочного подхода и социально-антропологические методы, что будет более подробно проиллюстрировано ниже. Эти методы хорошо знакомы всем гуманитарным исследователям, требуют минимальных навыков работы с Интернет и практически не требуют специализированного программного обеспечения.

Социально-антропологические методы качественного анализа информации в социальных сетях позволяют анализировать единичные поведенческие акты, а в ситуации исследования виртуальных сообществ – и примеры отдельных коммуникативных практик.

Естественно, данная методика включенного наблюдения за жизнью виртуальных сообществ применяется для изучения неписаных ритуалов, правил, общих разделяемых представлений, ценностей и особенностей построения коммуникации отдельных виртуальных сообществ. В качестве примера можно привести исследования:

· Зайонц В.В. Социально-антропологический подход к исследованию интернет-сообществ // Журнал социологии и социальной антропологии. 2011. Т. XIV. С. 200-205.

· Жуленева Е.С. Структурные особенности малого livejournal-сообщества (на примере сообщества lugovaya_6) / Вестник Воронежского государственного университета. Серия: Филология. Журналистика. 2006. № 2. С. 83-85.

На современном этапе преобладающее большинство проведенных исследований посвящено проблемам формирования сообществ в Интернете, построения их структуры, выявления кластеров. Кроме того, широко распространены исследования конкретных предметных сообществ. Например, Ф. Штуцман и С. Барнс занимались исследованиями угроз. Т. Джагатик, Н. Джонсон, М. Джейкобсон, Ф. Менцзер имеют работы, посвященные проблемам «социального фишинга». А. Ленхард, М. Медден изучали влияние социальных сетей на детей и подростков. Д. Хуссейн изучает дестабилизацию террористических сетей. С. Кришнамерфи и С. Кусук исследуют формирование виртуального сообщества антиглобалистов, участники которого выступают против распространяемых ценностей общества потребления, методом анализа языка их сайтов.

Выборочный метод представляет собой применение классического социологического инструментария. По некоторому заданному исследователями принципу отбираются единицы исследования в объеме, достаточном для получения научно-значимых результатов. Например, могут быть случайным или целенаправленным образом выбраны страницы пользователей виртуальных социальных сетей, а затем к этим пользователям могут быть применены традиционные социометрические методы (например, может быть проведен выборочный контент-анализ, построена социограмма связей «дружбы и подписки» отдельных пользователей). Также отобранные для исследования пользователи могут быть опрошены.

Например, в рамках этого метода С. Хиндуйа и Дж. Патчин в исследовании личных профилей подростков в сети My Space отбирали единицы анализа с помощью генератора случайных чисел. Такие исследователи, как К. Люьис, Дж. Кауфман, А. Виммер, М. Гонсалес, Н. Кристикас, признают расширенные возможности проведения социологических исследований, связанных с анализом данных профилей в социальных сетях. По их мнению, сбор информации, содержащейся в профилях, позволяет снизить статистическую погрешность, которая в случае проведения исследований стандартным социологическим инструментарием повышена за счет возможных ошибок интервьюеров, трудностей во вспоминании каких-то фактов самими респондентами и другими проблемами.

Применение в российской исследовательской практике автоматизированных методов и инструментов сбора данных социальных сетей и их анализа сегодня носит скорее формы отдельных экспериментов. Единственным исключением из этого правила являются сервисы мониторинга социальных медиа, которые активно используются на сегодняшний день скорее компаниями-профессионалами по продвижению и развитию веб-сайтов, прикладными PR-специалистами, а не научно-исследовательскими группами. Именно этот достаточно хорошо и активно развиваемый инструментарий, по мнению авторов, найдет в самое ближайшее время значительно более широкое применение в научно-исследовательской практике, выходящее за рамки прикладных задач PR и имиджмейкинга. Кроме того, в открытом доступе существуют практически совершенно не используемые в гуманитарных исследованиях поддерживаемые поисковыми системами (Яндекс и т.п.) методы анализа частотности поисковых запросов, применяемые в настоящее время практически исключительно специалистами по поисковой оптимизации веб-сайтов.

Кроме того, существует довольно большое число отдельных программных продуктов, к сожалению, в основном с англоязычным интерфейсом и поддержкой, для анализа и визуализации социальных сетей. Предпринимаются инициативы по развитию русскоязычных инструментов для гуманитарных исследований в социальных сетях на базе технологий облачных вычислений, в частности, Web-ориентированный производственно-исследовательский центр «Социодинамика» [10].

Практическое применение в гуманитарной сфере методов агрегирования разрозненной информации Data Mining сегодня можно встретить скорее у профессиональных игроков на рынке интернет-рекламы, так как для развития этих инструментов помимо серьезных программных продуктов необходим доступ к различным базам данных (например, о характеристиках и интернет-активности пользователей), которые обычно являются защищенными и закрытыми данными.

3. Некоторые российские исследования обсуждаемости и общественного мнения по поводу социальных проблем в СМИ и Интернет

Есть масса исследований социальных проблем, проводимыми традиционными для гуманитарных наук методами, но примеров исследований, лежащих на стыке интернет-технологий и исследований социальных проблем не очень много.

Так, например, Позднякова Е.М. [4] анализирует влияние интернет-сообществ на распространение девиантных форм поведения. В своем исследовании автор провела опрос среди школьников, интервью с пользователями интернет-кафе, обследование наркозависимых, а также мониторинг сайтов пронаркотической и антинаркотической направленности в течение трех лет. В результате изучения Интернет-ресурсов установлено, что в современной России сформировалась новая модель наркопотребления, которую можно условно назвать «моделью среднего класса».

Н.Н.Аблажей [1] изучала образ трудового мигранта в СМИ и массовом сознании. На основании анализа данных социологических опросов и материалов СМИ она делает вывод о том, что этническая, расовая и культурная компоненты миграции для России все более нивелируются, уступая место мигрантофобии по отношению ко всем приезжим. О.В.Сараева [7] при изучении образа миграции в СМИ пришла к выводу о том, что анализируемые образы чаще всего опасны и влекут крайне негативное проявление и последствия во внутриполитической жизни страны, истерию по поводу внешней угрозы, взвинченность и напряженную обстановку всеобщей подозрительности и другие проблемы.

4. Сервисы мониторинга социальных медиа в сети Интернет

Как мы упомянули выше, при общей нераспространенности автоматизированных инструментов для исследования виртуальных социальных сетей и форумного интернет-пространства, доступных отдельным исследователям и небольшим коллективам, существует целый ряд сервисов мониторинга социальных медиа, разработанных и активно развиваемых пока в основном для отслеживания репутации и популярности брендов компаний, либо публичных людей в социальных медиа: из наиболее известных на российском пространстве стоит выделить такие сервисы как IQ BUZZ, Babkee, Brandoscope, Buzzlook, Semantic Force, You Scan (всего нами было найдено и рассмотрено около 40 сервисов мониторинга социальных медиа, как на русском, так и на английском языках). Они схожи по функционалу и коммерческой направленности предлагаемой аналитики. В то же время, по мнению авторов, данные инструменты могут быть результативно применены для изучения обсуждаемости не только имиджа компаний, но и самых различных тем, включая социальные проблемы, которые можно описать в виде некоторого набора ключевых слов.

Учитывая приведенный в первом разделе данной статьи широкий охват социальными сетями пользователей Интернет (86,5% от общей российской аудитории Интернет, 99,7% от ежедневной аудитории), а также достаточно высокий уровень использования Интернет в России (в возрастных группах до 45 лет аудитория отдельных интернет-ресурсов приближается к аудиториям центральных телеканалов), такого рода форма контент-анализа социальных медиа позволяет делать достаточно широкие выводы об обсуждаемости в обществе тех или иных тем и проблем.

Именно эти факты заставили нас более внимательно изучить возможности проведения научных исследований с помощью сервисов мониторинга социальных медиа. Учитывая схожий функционал подобных сервисов, рассмотрим для примера один из наиболее удобных и развитых русскоязычных сервисов этой группы, IQ BUZZ [8].

Ресурс IQ BUZZ (Айкубаз) (www.iqbuzz.ru) – это сервис для мониторинга социальных медиа, список которых включает Facebook, Twitter, ВКонтакте, LiveJournal, LiveInternet, Яндекс.Блоги, YouTube, RuTube, различные новостные, развлекательные, специализированные, тематические и региональные порталы, возможно подключение дополнительных интересующих клиента сайтов с форумами. Данный сервис поддерживает мониторинг упоминаний по ключевым словам (что делает его готовым инструментом контент-анализа по сплошной выборке записей социальных сетей), расширенные возможности поиска, включающие «минус» слова, упоминание которых исключает сообщение из выборки, а также автоматическое определение негативного или позитивного окраса сообщений.

Основной инструмент аналитических исследований – интерактивные статистические отчеты по отобранным сообщениям в графической форме, позволяющие при этом выйти на детализацию вплоть до конкретных сообщений и авторов. Пользователям представлено около 10 основных видов интерактивных статистических отчетов/графиков:

- «документы по времени» (график появления новых сообщений с ключевыми словами по датам) – показывает всплески обсуждения и периоды затишья, уровень обсуждаемости заданной тематики;

- «распределение документов по темам» – позволяет объединять отдельные более узкие предметы обсуждения в более общие группы тем;

- «распределение документов по категориям» (негативное, позитивное, нейтральное упоминание) – группирует сообщения по эмоциональному окрасу и позволяет строить все остальные отчеты в разрезе по эмоциональному окрасу;

- «распределение по источникам» – показывает, в каких интернет-источниках, социальных сетях, форумах наиболее активно обсуждалась заданная тема (график количества сообщений в распределении по интернет-ресурсам); отчет схож с «документами по времени», только делит общий график на отдельные графики по каждому интернет-ресурсу;

- «облако ключевых слов» – отражает слова, наиболее часто встречающиеся рядом с заданными ключевыми словами в отобранных сообщениях;

- «активность авторов» и «активность блогов» – определяют наиболее активных участников обсуждения (как в позитивном, так и в негативном ключе), площадки обсуждения; возможность построения частных отчетов по отдельных блогерам и площадкам, а также дают возможность интерактивного перехода к сообщениям конкретного автора/ площадки;

- «распределение авторов по полу» – группирует сообщения по полу авторов и позволяет строить все остальные отчеты в разрезе по полу;

- «распределение авторов по возрасту» – группирует сообщения по возрасту авторов и позволяет строить все остальные отчеты в разрезе по возрасту;

- «местоположение авторов» – группирует сообщения по странам, регионам, а внутри СНГ и РФ - по городам, позволяет строить все остальные отчеты в этих разрезах.

Графики можно построить как по одной конкретной тематике, так и по нескольким тематикам одновременно, что полезно для проведения сравнительного анализа.

Все отчеты являются интерактивными, т.е. возможно перейти из одного отчета в другой с целью детализации данных (drill-down), вплоть до просмотра конкретных сообщений, входящих в рассматриваемую группу.

Таким образом, мы видим, что многие из перечисленных функций, актуальны и для исследования социальных проблем.

Некоторые из перечисленных методов анализа социальных сетей были использованы рамках прошлой работы с участием коллектива авторов данной статьи – в частности, был опробован анализ частотности появления сообщений по тематике обсуждения, связанной с дискуссиями по поводу и вокруг принятия региональных законов против пропаганды гомосексуализма, а также связанными с ней темами гражданских прав и свобод сексуальных меньшинств. Была, в частности, выявлена достаточно высокая корреляция всплесков обсуждений в Живом журнале с публикациями и репортажами в других СМИ (ТВ, он-лайн СМИ), а также узкий круг авторов (не более нескольких десятков из более чем двухмиллионной аудитории Живого журнала), заинтересованных в данной тематике, выявлены наиболее активные авторы в тематике [2]. Перечисленные методы анализа были проведены с помощью разрабатываемого в рамках проекта программного инструментария, однако аналогичные исследования можно проводить и с помощью вышеперечисленных сервисов мониторинга социальных медиа. Кроме того, было бы интересно провести и более глубокий анализ, доступный в перечисленных выше опциях инструментария сервисов мониторинга социальных медиа, что авторы статьи собираются сделать на следующем этапе исследования.

Анализ частотности поисковых запросов

Как мы уже упоминали выше, нам видится, что есть еще один инструмент с высоким исследовательским потенциалом: в открытом доступе существуют практически не используемые в гуманитарных исследованиях поддерживаемые поисковыми системами (Яндекс и др.) методы анализа частотности поисковых запросов, применяемые в настоящее время в основном специалистами по поисковой оптимизации веб-сайтов. Собственно, и расположены эти инструменты в разделе для подбора ключевых слов контекстной рекламы (например, раздел Яндекса сервисы «Для бизнеса»/ «Директ»/ «Подбор слов»). В то же время, по мнению авторов статьи, анализ запросов в наиболее распространенных среди российских пользователей поисковых системах Яндекс и Google, позволяет проследить другую сторону проявления актуальной общественной повестки дня - активный интерес пользователей Интернета к исследуемой тематике, выражающийся в поисковой активности, поисковых запросах. Распределение частоты запросов по темам и их динамика могут многое сказать об интересе пользователей к исследуемой теме.

Эти инструменты могут с успехом быть применены и в исследовании актуализированности социальных проблем в общественном сознании. Как мы показали в первом разделе статьи, в возрастных группах до 45 лет аудитория некоторых интернет-медиа приближается к аудитории центральных каналов ТВ.

В частности, для каждой темы, связанной с некоторой социальной проблемой, может быть найден набор ключевых слов, составляющих облако ключевых слов в этой тематике. Далее возможно получить как абсолютные цифры по количеству запросов по данной тематике, так и график изменений во времени частоты этих запросов в самых различных разрезах – по полу, возрасту и местоположению (географии) пользователей.

В частности, инструмент подбора ключевых слов для контекстной рекламы Яндекс [9] поддерживает следующие очень интересные для исследования социальных проблем функциональные возможности:

- отображение «региональной популярности». В терминах статистики региональная популярность Яндекс - это affinity index. т.е. доля региона в показах по данному слову/словосочетанию, деленная на долю всех показов результатов поиска, пришедшихся на этот регион. Популярность слова/словосочетания, равная 100%, означает, что данное слово в данном регионе ничем не выделяется из всех прочих запросов. Если показатель более 100%, это означает, что в данном регионе существует повышенный интерес к этому слову/словосочетанию, если меньше 100% - пониженный.

- региональную статистику можно смотреть в привязке к мировой карте на уровне стран, а также к карте регионов (и частично – городов) России, Украины, Беларуси, Казахстана.

- есть возможность отображать (как в общем и целом, так и в разрезе по различным регионам мира, регионам и городам РФ, стран СНГ) абсолютную и относительную месячную и недельную статистику запросов, при этом для получения относительного значения абсолютная цифра нормируется на количество показов результатов поиска Яндекса за соответствующий месяц.

Заключение

Как показывает вышеприведенный обзор и анализ, наряду с применяемыми методами социальных исследований в сети Интернет, есть по крайней мере два класса развитых автоматизированных инструментов контент-анализа, абсолютно незаслуженно обойденных сегодня вниманием исследователей в области гуманитарных наук: сервисы мониторинга социальных медиа и сервисы анализа частотности поисковых запросов.

Основная исследовательская задача, на наш взгляд, состоит в сопоставлении картины, полученной в традиционных социальных исследованиях, с результатами анализа обсуждаемости социальных проблем в он-лайн среде, полученными с помощью вышеперечисленных инструментов, хотя и сами по себе исследования обсуждаемости тем различных социальных проблем в сети Интернет могут дать интересную информацию для размышлений и анализа.

При проведении исследований обсуждаемости социальных проблем, планируемых на следующем этапе работ, авторы статьи собираются сочетать методы веб-ориентированных автоматизированных программных инструментов изучения социальных сетей веб-центра «Социодинамика» [10], разработанного в НИУ ИТМО в 2012 году на базе платформы облачных вычислений CLAVIRE [3] с возможностями сервисов мониторинга социальных медиа и сервисов анализа частотности поисковых запросов.

Работа выполнена при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России" на 2009 - 2013 годы» по теме: «Исследование специфики распространения социально-значимой информации в социальных сетях на примере Живого Журнала с помощью автоматизированных программных средств».

Рецензенты:

Ачкасова Вера Алексеевна, доктор политических наук, профессор, заведующая кафедрой социально-политических наук Санкт-Петербургского государственного университета телекоммуникаций им. проф. М. А. Бонч-Бруевича, г.Санкт-Петербург.

Борисов Николай Валентинович, докт. физ.-мат. наук, декан Магистерского корпоративного факультета Санкт-Петербургского национального исследовательского университета информационных технологий, механики и оптики, г.Санкт-Петербург.