Журнал Современные проблемы науки и образования

2070-7428

Общество с ограниченной ответственностью "Издательский Дом "Академия Естествознания"

ART-9762

ЖАНРОВАЯ КЛАССИФИКАЦИЯ В ГЕНЕРАЛЬНОМ ИНТЕРНЕТ-КОРПУСЕ РУССКОГО ЯЗЫКА

Пиперски

А.Ч.

Piperski

A.Ch.

apiperski@gmail.com

Институт лингвистики ФГБОУ ВПО «Российский государственный гуманитарный университет» Russian State University for the Humanities, Institute of Linguistics

30 04 2013

4 309 309

This is an open-access article distributed under the terms of the CC BY 4.0 license.

https://science-education.ru/ru/article/view?id=9762

Корпуса представляют собой важнейший инструмент современных лингвистических исследований. Для получения достоверных результатов исследователи, пользующиеся корпусами, должны обращать внимание на параметры метатекстовой разметки (информацию о социолингвистической, региональной, жанровой и т. п. принадлежности текста). В большинстве корпусов метатекстовые данные добавляются вручную, однако это невозможно при разработке больших корпусов, создаваемых на основе текстов из Интернета. Одним из таких корпусов является Генеральный интернет-корпус русского языка (ГИКРЯ), в котором применяются автоматические технологии метатекстовой разметки. В частности, предлагается новая схема жанровой разметки, при которой не выделяются априорные категории, а производится кластеризация на основе значений ряда переменных, выполняемая при помощи машинного обучения.

Corpora are indispensable research tool in present-day linguistics. If a scholar wants to achieve reliable results in a corpus-based study, he should take into account metadata, i.e. sociolinguistic, regional and genre-related properties of the texts included into the corpus. In most corpora metadata are added manually, which is not possible when constructing large Web-based corpora. Since the General Internet Corpus of Russian (GICR) is one of such corpora, it has to use automated metadata tagging. The developers of GICR propose a novel approach to genre classification without postulating any a priori categories. Machine learning algorithms are used to cluster texts based on automatically extractable features.

корпусная лингвистика жанры автоматическая разметка кластеризация

corpus linguistics genres automated tagging clustering

1. Беликов В. И., Селегей В. П., Шаров С. А. 2012. Пролегомены к проекту Генерального интернет-корпуса русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая – 3 июня 2012 г.). Вып. 11 (18). – М.: Изд-во РГГУ, 2012. – С. 37–50.

2. Беликов В. И., Копылов Н. Ю., Пиперски А. Ч., Селегей В. П., Шаров С. А. Корпус как язык: от масштабируемости к дифференциальной полноте // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая – 2 июня 2013 г.). – Вып. 12 (19). – М.: Изд-во РГГУ, 2013. – С. 84–95.

3. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. – 2008. – № 2 (16). – С. 7–20.

4. Что такое Корпус?: [Электронный документ]. – (http://ruscorpora.ru/corpora-intro.html). Проверено 01.06.2013.

5. Adamzik, K. Textsorten — Texttypologie. Eine kommentierte Bibliographie. – Münster: Nodus, 1995. – 301 p.

6. Corbett J. Genre and Genre Analysis // Encyclopedia of Language and Linguistics. Ed. by K. Brown. – Amsterdam, Boston: Elsevier, 2006. – P. 26-32.

7. McEnery T., Hardie A. Corpus Linguistics. – Cambridge: Cambridge University Press, 2011. – xv, 294 p.

8. Mehler, A., Sharoff, S., Santini, M. (eds.). Genres on the Web: computational models and empirical studies. – New York: Springer, 2010. – xiv, 362 p.