Журнал Современные проблемы науки и образования

2070-7428

Общество с ограниченной ответственностью "Издательский Дом "Академия Естествознания"

ART-13485

ВЫДЕЛЕНИЕ КЛЮЧЕВЫХ ПОНЯТИЙ В ТЕКСТОВОМ СОДЕРЖИМОМ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКОЙ ОЦЕНКИ

Белая

Т.И.

Belaya

T.I.

studentszip@yandex.ru

Пасечник

П.А.

Pasechnik

P.A.

studentszip@yandex.ru

Санкт-Петербургский государственный университет технологии и дизайна, Северо-западный институт печати St. Petersburg State University of technology and design, Northwestern University Press

11 03 2014

3 101 101

This is an open-access article distributed under the terms of the CC BY 4.0 license.

https://science-education.ru/ru/article/view?id=13485

Проведен анализ проблемы компьютерной обработки русскоязычного текста, нацеленной на выделение ключевых понятий в текстовом содержимом. В качестве объекта рассмотрения выбраны термины, вводимые в текст впервые, а также сопровождающие их определения. Рассмотрены исключительно статистические средства выделения понятий, выделены преимущества над словарными методами. Имеется направленность работы на автоматическое реферирования. Выделены четыре ключевых этапа для решения проблемы, в которых использованы шаблонные конструкции, анализ слов и комбинаций, статистика встречаемости слов в тексте. Выделены формулы для получения вероятностных характеристик терминов и предложений их определяющих. Сформирован алгоритм проведения анализа текста, приведены рекомендации по использованию данного алгоритма в разработке программных средств.

We have done the analysis of text processing using statistical estimation of clauses or particular terms. Main purpose of this article is describing terms evaluation method without using thesaurus methods. As the object of consideration selected terms introduced in the text for the first time , as well as their accompanying definitions. Considered an exclusively statistical tools allocation concepts highlighted advantages over dictionary methods. There is a focus of the work on automatic summarization . Identified four key steps to solve the problem , which are used in the template design , analysis of words and combinations of words in the statistics of occurrence of the text. Select the formula for the probability characteristics of terms and defining their proposals . Formed algorithm analyzes the text provides guidance on the use of this algorithm in the development of software tools. Evaluated data can be used in automation of educational test formation process, science material coverage estimation, translation of Russian texts, grammatical correcting automation and purposes of artificial intelligence theory.

автоматизированная обработка текста выделение понятий реферирование

automated text processing selection of concepts referencing

1. Абрамов В.Е. Автоматическое рубрицирование и реферирование текстовой информации (в том числе на иностранных языках) : автореф. дис. на соиск. учен. степ. канд. техн. наук. – М., 2008. – 27 с.

2. Горошкин А.Н., Обработка и распознавание рукописного текста в системах электронного документооборота : автореф. дис. на соиск. учен. степ. канд. техн. наук. – Красноярск, 2008. – 21 с.

3. Крищенко В.А., Программное обеспечение для метапоиска информации в гипертекстовой среде : автореф.дис. на соиск. учен. степ. . канд. техн. наук. – М., 2002. – 16 с.

4. Вишняков Р. Ю. Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска : автореф. дис. на соиск. учен. степ. канд. техн. наук. – Таганрог, 2012. – 18 с.

5. Суркова А.С. Разработка структурно-статистических методов и алгоритмов идентификации текста : автореф. дис. на соиск. учен. степ. канд. техн. наук спец. – Н. Новгород, 2004. – 19 c.

6. Кадомцев В.И. Распознавание коммуникативной функции составляющих текста (письменной речи) : автореф. дис. на соиск. учен. степени канд. психол. наук. – М., 1975. – 25 с.;

7. Файн В.С., Распознавание образов и машинное понимание естественного языка /Отв. ред. И.Т. Турбович; АН СССР, Ин-т пробл. передачи информ. – М.: Наука, 1987. – 172 с.

8. Шоломов Д.Л. Синтаксические методы контекстной обработки в задачах распознавания текста : дис. на соиск. учен. степ. канд. техн. наук. – М., 2007. – 24 с.