Scientific journal
Modern problems of science and education
ISSN 2070-7428
"Перечень" ВАК
ИФ РИНЦ = 1,006

DECISION SUPPORT FOR QUALITY MANAGEMENT BASED ON ARTIFICIAL INTELLIGENCE APPLICATIONS FOR UNSTRUCTED DATA ANALYSIS

Yusupova N.I. 1 Bogdanova D.R. 1 Boyko M.V. 1
1 Ufa State Aviation Technical University
The paper describes the application of decision support in product quality management. To effectively complete this application we propose a conceptual approach to research customer satisfaction based on a profound analysis of consumer reviews put on the Internet in natural language with use of Artificial Intelligence (AI) techniques such as Text Mining, Aspect Sentiment Analysis, Data Mining and Machine Learning are used as tools of AI. Special Internet resources for accumulating customer reviews, such as yelp.com, tripadviser.com, tophotels.ru, are used as data resources. On the basis of the developed approach, a prototype of the Decision Support System that allows to carry out a qualitative and quantitative research of customer satisfaction was realized. To evaluate the efficacy of the proposed approach, we have carried out an experiment on qualitative and quantitative research of hotel client satisfaction. The obtained results prove the efficacy of the proposed approach to decision support in product quality management and the perspective of using it instead of classical methods of qualitative and quantitative research of customer satisfaction.
quality management
decision support system
sentiment analysis

Введение

Для обеспечения качества продукции предприятию необходимо принимать эффективные управленческие решения. Разработка управленческих решений и их принятие должны основываться на знаниях и закономерностях, получаемых в ходе анализа собираемой информации. Для предприятий такой информацией является информация о степени удовлетворенности потребителей (УП), которая выражается в форме потребительских мнений о качестве продукции. Поэтому при управлении качеством ключевой информацией от которой зависит принятие тех или иных решений является удовлетворенность потребителей.

Для сбора данных и оценки УП международный стандарт качества ИСО 10004 рекомендует использовать следующие методы: личные интервью, интервью по телефону, дискуссионные группы, корреспондентское (почтовая рассылка анкет) исследование и обследование в онлайновом режиме (анкетирование) [1]. Общим недостатком рекомендуемых методов является необходимость выполнения большого объема ручной работы: подготовка вопросов анкеты, подбор респондентской базы, рассылка анкеты и сбор результатов, проведение персональных интервью, подготовка отчета по результатам. Все это приводит к удорожанию исследования. Также из-за характерной им дискретности методы не позволяют вести непрерывный мониторинг за уровнем УП. По этой причине анализ данных ограничивается одним временным срезом и не дает представлений о тенденциях и динамике УП. Также страдает своевременность принятия управленческих решений, которая зависит от частоты поступления актуальных данных о мнениях потребителей.

Вопросы вызывают существующие шкалы для оценки УП и субъективность их восприятия респондентами. Получаемые оценки УП выражаются в виде абстрактных индексов удовлетворенности, которые сложны для понимания, сравнения и интерпретации результатов. Методы анализа собираемых данных рекомендуемых стандартом ИСО 10004 позволяют выявлять только линейные зависимости.

Целью исследования является повышение эффективности процесса выработки и принятия решений при управлении качеством товаров и услуг. В данной работе для повышения эффективности управления качеством продукции предлагается подход к поддержке принятия решений на основе исследования УП с применением технологий ИИ.

Предлагаемый подход к принятию решений

Предлагаемый подход поддержки принятия управленческих решений при управлении качеством продукции реализуется посредством объединения методов и алгоритмов сбора и обработки данных об УП в единую интеллектуальную систему поддержки принятия решений (ИСППР). Схема управления качеством продукции, разработанной с помощью ИСППР, представлена на Рисунке 1. Основные действующие лица в процессе управления качеством: потребители продукции и лицо принимающее решения (ЛПР). Под объектом управления понимается качество предоставляемых услуг, от которого зависит эффективность деятельности предприятия. Под субъектом управления понимается ЛПР, принимающее решения по улучшению качества услуг. Под управляющим воздействием понимаются управленческие решения, оказывающие влияние на качество услуги, например, модернизация товара, выбор контрагентов, определение ценовой политики, подбор персонала заданной квалификации, внедрение инноваций, повышение уровня обслуживания, обеспечение ресурсами и др. Процесс выработки и принятия решений обеспечивается посредством интеллектуальной системы поддержки принятия решений (ИСППР). В соответствии со схемой, предприятие производит товары или услуги и поставляет их потребителям. После их использования, потребители опубликовывают свои мнения о качестве продукции в сети Интернет в виде текстовых отзывов. ИСППР производит автоматический сбор отзывов, их очистку и загрузку в подсистему хранения данных. В подсистеме анализа данных ИСППР производится обработка отзывов, оценка УП и извлечение знаний. Результаты анализа отзывов визуализируются в подсистеме взаимодействия с пользователем. На основе полученных результатов ЛПР принимает управленческие решения по повышению качества обслуживания.

Рисунок 1 – Схема управления качеством услуг с использованием ИСППР

На Рисунке 2 представлен алгоритм работы ИСППР. Он состоит из четырех основных этапов. Первый этап содержит процедуры сбора отзывов с интернет-ресурсов, очистку данных и загрузки в базу данных. На втором этапе производится обработка и анализ собранных отзывов. Она включает разметку отзывов по их эмоциональной тональности (например, негативные и позитивные), идентификацию аспектов продукции, определения тональности отдельных высказываний об аспектах. После этапа обработки данных с помощью средств визуализации проводится количественное исследование УП. Качественное исследование УП проводится с помощью построения моделей на основе деревьев решений, где тональность отзыва выступает в качестве зависимой переменной, а тональные высказывания по аспектам продукции являются независимыми переменными. На основе проведенных исследований производится разработка и принятие управленческих решений.

Рисунок 2 ‒ Алгоритм работы интеллектуальной системы поддержки принятия решений

Применяемые технологии искусственного интеллекта

Сбор данных. Сегодня существует большое число интернет-ресурсов, где пользователи могут оставлять свои отзывы о товарах и услугах. Наиболее популярными примерами являются tophotels.ru (635 тыс. отзывов), yelp.com (53 млн. отзыва), tripadvisor.com (путешествия, 130 млн. отзывов). Их достоинство как источника данных для оценки УП заключается в их назначении-аккумулировании потребительских отзывов. В отличие от социальных сетей, страницы интернет-баз используют XML-разметку, которая задает структуру, свойственную отзыву. Такая структура содержит отдельные блоки с названием продукции или предприятия, с отзывом и другие блоки с дополнительной информацией. Это значительно упрощает процесс сбора данных и исключает проблему многозначности ключевых слов. Еще одним достоинством является то, что на многих подобных ресурсах существует модерация отзывов и подтверждения объективности автора.

Существует два основных способа сбора данных с интернет-ресурсов потребительских отзывов: 1) использование API (интерфейс программирования приложений) и 2) web-парсинг. API представляет собой набор готовых инструментов – классов, процедур, функций, предоставляемых приложением (интернет-ресурсом) для использования во внешних программных продуктах. К сожалению, немногие ресурсы, аккумулирующие отзывы, имеют свой API. В этом случае для сбора отзывов можно применить второй способ сбора данных – web-парсинг. Под web-парсингом понимается процесс автоматизированного анализа и сбора контента с html-страниц какого-либо интернет-ресурса с помощью специальных программ.

Анализ тональности отзывов. Когда данные собраны и очищены, можно приступать к процессу их обработки с помощью инструментов анализа текста. Для оценки удовлетворенности автора продукцией в работе используется сентимент-анализ. Под тональностью или сентиментом понимается эмоциональная оценка мнения автора по отношению к объекту, о котором идет речь в тексте.

Можно выделить три основных подхода к анализу тональности: 1) лингвистический, 2) статистический, 3) комбинированный. Лингвистический подход основан на применении правил и тональных словарей [3, 6]. Он достаточно трудоемок из-за необходимости составления тональных словарей, шаблонов и построения правил определения тональности. Но главным недостатком подхода является невозможность получения количественной оценки тональности. Статистический подход основан на методах машинного обучения с учителем и без него [7, 8].

В данной работе используется подход на основе методов машинного обучения с учителем – наивный байесовский классификатор и метод опорных векторов. Они достаточно просты в программной реализации, не требуют построения лингвистических анализаторов или словарей тональности. Оценка тональности текста может выражаться количественно. Для применения данных методов строилась обучающая выборка. Для описания признакового пространства использовалось векторное представление текста отзывов с помощью модели «мешка слов» (bag-of-words). В качестве признаков рассматривались бинарные векторы – наличие или отсутствие слова в тексте отзыва и частотные векторы – число вхождений слова в текст отзыва. Также использовалась процедура лемматизации, приводящая все слова отзыва к начальной форме. Более подробней с используемыми в данной работе методами машинного обучения можно ознакомиться в работах [4, 5].

Аспектный сентимент-анализ. В работе используется тональный анализ высказываний об аспектах или аспектный сентимент-анализ. Под аспектом тональности понимаются характеристики, атрибуты, качества, свойства, характеризующие продукцию, например, аккумулятор телефона или время доставки и т.п. При большом количестве аспектов имеет смысл объединение отдельных аспектов в аспектные группы. Пример подобных аспектных групп представлен на Рисунке 3. Аспектный анализ тональности отзыва является более сложной задачей и состоит из двух этапов – идентификации аспектов и определения тональности высказывания о них. Для решения задачи аспектного анализа тональности был разработан простой и эффективный алгоритм:

Первый этап.

1. Извлечь все существительные на множестве отзывов .

2. Посчитать частоты употреблений существительных на всем множестве отзывов , где – число употреблений всех слов, – число употреблений i-го существительного.

3. Посчитать разность между посчитанными частотами и словарными частотами .

4. Отсортировать множество существительных по убыванию .

5. Разбить множество существительных с на аспектные группы.

Второй этап.

1. Разбить множество отзывов на множество предложений.

2. Для каждого предложения выполнить классификацию тональности.

3. Для каждого предложения выполняется проверка: если оценка тональности предложения (негативная или позитивная) превышает некоторый порог и содержит хотя бы одно существительное из какой-либо аспектной группы, то предложение помечается как позитивное или негативное мнение о данной аспектной группе.

Результаты сентимент-анализа отзывов и аспектного сентимент-анализа представляют собой набор текстовых данных , где – текст i-го потребительского отзыва, – тональность i-го отзыва, – негативные мнения о j-й аспектной группе в i-м отзыве, – позитивные мнения о j-й аспектной группе в i-м отзыве, i – номер отзыва, j – номер аспектной группы.

Последующая обработка данных с помощью деревьев решений. Для проведения качественного анализа был разработан оригинальный метод последующей обработки результатов сентимент-анализа на основе деревьев принятия решений. Построение деревьев решений производилось при помощи алгоритма C4.5. Результаты, получаемые с его помощью, позволяют понять, какие аспектные группы продукции и каким образом влияют на УП. Преимущество разработанного метода анализа – в том, что он позволяет выявлять нелинейные зависимости между общей удовлетворенностью продукцией и удовлетворенностью ее отдельными аспектными группами. Также метод позволяет выявить значимые аспекты продукции и получить ее количественные оценки. Метод состоит из следующих процедур:

1. Преобразование набора текстовых данных в логический тип данных по следующим правилам:

1.1. Если , то , иначе ;

1.2. Если , то , иначе ;

1.3. Если , то , иначе .

2. Построение дерева принятия решений, в которой переменная является зависимой переменной от .

3. Расчет значимостей аспектных групп и интерпретация результатов.

Значимость аспектной группы показывает, насколько сильно тональность отзыва зависит от тональности данной аспектной группы. Рассчитывается после построения дерева классификационных правил. Пусть число аспектных групп равно , тогда число независимых переменных равно(негативные и позитивные высказывания по каждой аспектной группе). Формула для расчета значимости -й переменной будет иметь вид:

, (1)

где – количество узлов, которые были разбиты по атрибуту , – энтропия родительского узла, разбитого по атрибуту , – дочерний узел для -ого, который был разбит по атрибуту , , – количество примеров в соответствующих узлах, – количество дочерних узлов для -ого родительского.

Оценка УП потребителей продукцией рассчитывается по формуле:

, (2)

где – число позитивных отзывов, – число негативных отзывов.

Оценка УП -й аспектной группой продукции рассчитывается по формуле:

, (3)

где – число отзывов содержащих позитивное упоминание по -й аспектной группой, – число отзывов содержащих негативное упоминание по -й аспектной группой.

Эксперимент

Оценка эффективности разработанного прототипа ИСППР проводилась на наборе данных из 635 824 отзывов на русском языке, посвященных курортно-гостиничному бизнесу. Отзывы были собраны с популярного интернет-ресурса tophotels.ru за период 2003-2013 гг. [8]. Данные были предварительно обработаны (удалены дубликаты, фрагменты html-разметки и отзывы длиною менее 30 символов) и загружены в БД SQL Server 2012.

Для классификации тональности отзывов использовалась бинарная шкала (негатив и позитив). Обучающая выборка позитивных и негативных отзывов формировалась с помощью собранной информации об авторских оценках размещения, питания и сервиса. Инернет-ресурс tophotels.ru использует 5-ти бальную оценочную шкалу по которым оцениваются питание, размещение и сервис. В обучающую выборку попали 15790 негативных отзывов, имеющих по 3 и 4 суммарных балла и 15790 позитивных отзывов, имеющих 15 суммарных баллов. При дальнейшей обработке данных авторские оценки не использовались. Разметка оставшихся 604 244 отзывов осуществлялась с помощью обученного классификатора.

С целью построения эффективного классификатора тональности была проведена оценка точности классификации алгоритмов машинного обучения и некоторых особенностей их построения (Таблица 1). Для оценки точности классификации используется соотношение числа правильно классифицированных позитивных и негативных отзывов к их общему количеству. Оценка точности производилась на двух наборах данных. Первый набор (Тест №1) представлял сформированную обучающую. Его тестирование производилось с помощью перекрестной проверки с разбивкой данных на 10 частей. Второй набор (Тест №2) содержал отзывы с разными количествами баллов и был размечен вручную (497 позитивных и 126 негативных). Второй набор использовался для контроля точности классификаторов, обученных на первом наборе данных.

Таблица 1 – Сравнение точности классификации тональности

Методы машинного

обучения

Вектор

Тест №1

Тест №2

1

SVM (линейное ядро)

Частотный

94,2%

83,1%

2

SVM (линейное ядро)

Бинарный

95,7%

84,1%

3

NB

Бинарный

96,1%

83,7%

4

NB

Частотный

97,6%

92,6%

5

NB (слова-исключения)

Частотный

97,7%

92,7%

6

NB (тегирование частиц «не» и «ни»)

Частотный

98,1%

93,6%

Для разметки отзывов и анализа тональности был выбран классификатор №6 на основе метода NB, частотными векторами в качестве признакового пространства и с использованием техник лемматизации и теггирования отрицаний «не» и «ни». С использованием разработанного алгоритма из всего набора отзывов были извлечены аспектные существительные, которые были разбиты на семь основных аспектных групп (Рисунок 3). Далее были извлечены и размечены по тональности предложения с упоминанием слов из аспектных групп.

Было проведено исследование УП для двух 5-ти звездочных отелей – отеля «А» (1692 отзыва) и отеля «Б» (1300 отзывов), расположенных на курорте Шарм-эль-Шейх (63 472 отзыва) в Египте. Результаты количественного анализа представлены ниже. Рисунок 4 показывает динамику УП. Рисунок 5 показывает удовлетворенность по аспектным группам. В категорию «Курорт» входят отзывы обо всех отелях данного курорта.

Рисунок 3 – Аспектные группы объекта тональности «отель»

 

Рисунок 4 – Динамика индикаторов удовлетворенности потребителей по месяцам

Рисунок 5 – Удовлетворенность потребителей по аспектным группам в 2012 и 2013 годах

Для проведения качественного исследования по разработанному методу были построены деревья решений, по отзывам всех отелей курорта и отдельно по отелям «А» и «Б». Извлеченные правила деревьев решений представлены в Таблице 2. Значимости аспектных групп представлены в Таблице 3.

Проведенные количественные и качественные исследования УП для отеля «А» позволили определить проблемные аспектные группы и выявить те из них, которые оказывают наибольшее влияние на УП, с учетом этого определен приоритет принимаемых решений и пути их разрешения в долгосрочной и краткосрочной перспективе.

Таблица 2 – Извлеченные правила c помощью деревьев решений

Правила

Тональность

Поддержка1

Достоверность2

Извлеченные правила по всем отзывам курорта

1

37,2%

97,4%

2

11%

86,2%

3

10,6%

83,9%

4

6,9%

92,3%

5

5,8%

88,4%

Извлеченные правила по отзывам отеля «А»

6

62,9%

88,3%

7

20,5%

74,1%

8

9,4%

86,2%

9

7,2%

65,6%

Извлеченные правила по отзывам отеля «Б»

10

51,2%

95,5%

11

27,9%

81%

12

11,1%

84%

13

9,9%

55,8%

1Поддержка показывает долю отзывов от исходной выборки, содержащих данное правило.

2Достоверность показывает какая доля отзывов, содержащих правило, имеют данную тональность.

Таблица 3 – Значимости аспектных групп

Аспект

Курорт

Отель «А»

Отель «Б»

Аспект

Курорт

Отель «А»

Отель «Б»

34,8%

60,2%

-

0,7%

-

-

30,3%

27,2%

30,3%

0,2%

-

-

16%

-

-

-

-

-

8,5%

12,7%

12,4%

-

-

-

4%

-

57,3%

-

-

-

2,5%

-

-

-

-

-

2,1%

-

-

-

-

-

1%

-

-

-

-

-

Таблица 4 – Применение результатов для выработки управленческих решений для отеля «А»

Проблемные аспектные группы

Значимость

Правила с

итогом

Примеры рекомендуемых управленческих решений

1.

Отель

№6:

Обучить и мотивировать обслуживающий персонала, провести проверку качества ресторанного обслуживания, провести увеселительные мероприятия.

№7:

Курорт

№5:

2.

Отель

-

Разнообразить ассортимент блюд, организовать сбор мусора на пляже.

Курорт

№2:

3.

Отель

-

См. выше

Курорт

-

4.

Отель

-

Не существенны или вне зоны компетенции.

Заключение

Предложенная концепция поддержки принятия решений на базе разработанной методологии обработки и анализа текстовых данных позволяет в автоматизированном режиме проводить количественное и качественное исследование удовлетворенности потребителей и принимать эффективные управленческие решения по управлению качеством продукции. Данная концепция позволяет значительно снизить трудоемкость исследования удовлетворенности потребителей, что делает ее доступной для применения широким кругом предприятий.

На базе предложенной концепции был разработан прототип ИСППР. Проведенный эксперимент показал эффективность подхода при решении реальных задач управления качеством продукции, удовлетворительную точность алгоритмов обработки анализа текста, логичность полученных результатов. ИСППР позволяет принимать решения по управлению качеством на основе аналитической обработки текстовых отзывов из Интернета, содержащих в неявном виде информацию об удовлетворенности потребителей.

Рецензенты:

Черняховская Л.Р., д.т.н., профессор, профессор, ФГБОУ ВПО «Уфимский государственный авиационный технический университет», г. Уфа.

Картак В.М., д.ф.-м.н., профессор, зав. кафедрой прикладной информатики, ФГБОУ ВПО «Башкирский государственный педагогический университет имени М. Акмуллы», г. Уфа.