<?xml version="1.0" encoding="UTF-8"?>
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="JATS-archive-oasis-article1-4.xsd" article-type="research-article" dtd-version="1.4" xml:lang="ru">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>Журнал Современные проблемы науки и образования</journal-title>
      </journal-title-group>
      <issn>2070-7428</issn>
      <publisher>
        <publisher-name>Общество с ограниченной ответственностью &amp;quot;Издательский Дом &amp;quot;Академия Естествознания&amp;quot;</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="publisher-id">ART-9762</article-id>
      <title-group>
        <article-title>ЖАНРОВАЯ КЛАССИФИКАЦИЯ В ГЕНЕРАЛЬНОМ ИНТЕРНЕТ-КОРПУСЕ РУССКОГО ЯЗЫКА</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <name-alternatives>
            <name xml:lang="ru">
              <surname>Пиперски</surname>
              <given-names>А.Ч.</given-names>
            </name>
          </name-alternatives>
          <name-alternatives>
            <name xml:lang="en">
              <surname>Piperski</surname>
              <given-names>A.Ch.</given-names>
            </name>
          </name-alternatives>
          <email>apiperski@gmail.com</email>
          <xref ref-type="aff" rid="aff3e317161"/>
        </contrib>
      </contrib-group>
      <aff id="aff3e317161">
        <institution xml:lang="ru">Институт лингвистики ФГБОУ ВПО «Российский государственный гуманитарный университет»</institution>
        <institution xml:lang="en">Russian State University for the Humanities, Institute of Linguistics</institution>
      </aff>
      <pub-date date-type="pub" iso-8601-date="2013-04-30">
        <day>30</day>
        <month>04</month>
        <year>2013</year>
      </pub-date>
      <issue>4</issue>
      <fpage>309</fpage>
      <lpage>309</lpage>
      <permissions>
        <license xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This is an open-access article distributed under the terms of the CC BY 4.0 license.</license-p>
        </license>
      </permissions>
      <self-uri content-type="url" hreflang="ru">https://science-education.ru/ru/article/view?id=9762</self-uri>
      <abstract xml:lang="ru" lang-variant="original" lang-source="author">
        <p>Корпуса представляют собой важнейший инструмент современных лингвистических исследований. Для получения достоверных результатов исследователи, пользующиеся корпусами, должны обращать внимание на параметры метатекстовой разметки (информацию о социолингвистической, региональной, жанровой и т. п. принадлежности текста). В большинстве корпусов метатекстовые данные добавляются вручную, однако это невозможно при разработке больших корпусов, создаваемых на основе текстов из Интернета. Одним из таких корпусов является Генеральный интернет-корпус русского языка (ГИКРЯ), в котором применяются автоматические технологии метатекстовой разметки. В частности, предлагается новая схема жанровой разметки, при которой не выделяются априорные категории, а производится кластеризация на основе значений ряда переменных, выполняемая при помощи машинного обучения.</p>
      </abstract>
      <abstract xml:lang="en" lang-variant="translation" lang-source="translator">
        <p>Corpora are indispensable research tool in present-day linguistics. If a scholar wants to achieve reliable results in a corpus-based study, he should take into account metadata, i.e. sociolinguistic, regional and genre-related properties of the texts included into the corpus. In most corpora metadata are added manually, which is not possible when constructing large Web-based corpora. Since the General Internet Corpus of Russian (GICR) is one of such corpora, it has to use automated metadata tagging. The developers of GICR propose a novel approach to genre classification without postulating any a priori categories. Machine learning algorithms are used to cluster texts based on automatically extractable features.</p>
      </abstract>
      <kwd-group xml:lang="ru">
        <kwd>корпусная лингвистика</kwd>
        <kwd>жанры</kwd>
        <kwd>автоматическая разметка</kwd>
        <kwd>кластеризация</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>corpus linguistics</kwd>
        <kwd>genres</kwd>
        <kwd>automated tagging</kwd>
        <kwd>clustering</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <ref>
        <note>
          <p>1. Беликов В. И., Селегей В. П., Шаров С. А. 2012. Пролегомены к проекту Генерального интернет-корпуса русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая – 3 июня 2012 г.). Вып. 11 (18). – М.: Изд-во РГГУ, 2012. – С. 37–50.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>2. Беликов В. И., Копылов Н. Ю., Пиперски А. Ч., Селегей В. П., Шаров С. А. Корпус как язык: от масштабируемости к дифференциальной полноте // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая – 2 июня 2013 г.). – Вып. 12 (19). – М.: Изд-во РГГУ, 2013. – С. 84–95.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>3. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. – 2008. – № 2 (16). – С. 7–20.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>4. Что такое Корпус?: [Электронный документ]. – (http://ruscorpora.ru/corpora-intro.html). Проверено 01.06.2013.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>5. Adamzik, K. Textsorten — Texttypologie. Eine kommentierte Bibliographie. – M&amp;#252;nster: Nodus, 1995. – 301 p.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>6. Corbett J. Genre and Genre Analysis // Encyclopedia of Language and Linguistics. Ed. by K. Brown. – Amsterdam, Boston: Elsevier, 2006. – P. 26-32.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>7. McEnery T., Hardie A. Corpus Linguistics. – Cambridge: Cambridge University Press, 2011. – xv, 294 p.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>8. Mehler, A., Sharoff, S., Santini, M. (eds.). Genres on the Web: computational models and empirical studies. – New York: Springer, 2010. – xiv, 362 p.</p>
        </note>
      </ref>
    </ref-list>
  </back>
</article>
