Журнал Современные проблемы науки и образования

2070-7428

Общество с ограниченной ответственностью "Издательский Дом "Академия Естествознания"

ART-19046

СОЗДАНИЕ НАЦИОНАЛЬНОГО КОРПУСА ЧУВАШСКОГО ЯЗЫКА: ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ

Желтов

П.В.

Zheltov

P.V.

chnk@mail.ru

ФГБОУ ВПО «ЧГУ им. И.Н.Ульянова» Chuvash State University

14 01 2015

1 338 338

This is an open-access article distributed under the terms of the CC BY 4.0 license.

https://science-education.ru/ru/article/view?id=19046

В статье рассматривается задача создания Национального корпуса чувашского языка и связанные с ней проблемы и перспективы. Национальные языковые корпуса включают в себя большие массивы электронных текстов разных жанров и стилей, что дает возможность всесторонне и полно исследовать различные языковые явления. В отсутствии необходимого финансирования предлагается не добиваться создания полной текстовой базы чувашских текстов, а сделать репрезентативную выборку. Составлен минимальный список компьютерных программ, необходимых для работы с этой текстовой базой данных, рассмотрены вопросы разработки разметки для корпуса, а также обеспечения многопользовательского доступа через Интернет. Также рассмотрены вопросы безопасности. Отмечено, что наиболее безопасным будет использование отдельного сервера.

In the paper is analyzed the problem of creating the National corpora of Chuvash language and the problems and perspectives linked with it. The national linguistic corporas include large arrays of electronic text of different genres and styles, which gives the possibility to investigate comprehensively and fully different language phenomenas. While lacking necessary financement is proposed not to seek the creation of a full database of Chuvash texts but to make a representative selection. Was composed a shortlist of computer software, necessary for the work with this textual database, were considered questions of elaboration of a tagging system of the corpora, as well as the provision of multiuser access through the Internet. Were also considered question of security. Was noted that the best strategy would be the use of separate server.

многопользовательский доступ. экстралингвистическая и лингвистическая разметка машинный фонд лингвистический корпус

multiuser access. extra linguistic and linguistic tagging machine foundation linguistic corpora

1. Машинный фонд русского языка: идеи и суждения //Материалы I Всесоюзной конференции по созданию МФРЯ. – М.: Наука, 1986. – 234 с.

2. Материалы II Всесоюзной конференции по созданию МФРЯ. – М.: Наука, 1988. – 230 с.

3. Материалы III Всесоюзной конференции по созданию МФРЯ. – М.: Изд-во МГУ имени М.В. Ломоносова, 1990. – 148 с.

4. Плунгян В.А. Национальный корпус русского языка: опыт создания корпуса текстов современного русского языка / В.А. Плунгян, Д.В. Сичинава // Труды международной конференции «Корпусная лингвистика-2004». – СПб: Изд-во Санкт-Петербургского университета, 2004. – С. 216-238.

5. Бускунбаева Л.А. Система разметок в национальном корпусе башкирского языка /Л.А. Бускунбаева, З.А. Сиразитдинов // Материалы международной конференции «Языки меньшинств в компьютерных технологиях: опыт, задачи и перспективы». – Йошкар-Ола, 2011. – С. 46-51.