<?xml version="1.0" encoding="UTF-8"?>
<article xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="JATS-archive-oasis-article1-4.xsd" article-type="research-article" dtd-version="1.4" xml:lang="ru">
  <front>
    <journal-meta>
      <journal-title-group>
        <journal-title>Журнал Современные проблемы науки и образования</journal-title>
      </journal-title-group>
      <issn>2070-7428</issn>
      <publisher>
        <publisher-name>Общество с ограниченной ответственностью &amp;quot;Издательский Дом &amp;quot;Академия Естествознания&amp;quot;</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="publisher-id">ART-9895</article-id>
      <title-group>
        <article-title>ГЕНЕРАЛЬНЫЙ ИНТЕРНЕТ-КОРПУС РУССКОГО ЯЗЫКА И ПОНЯТИЕ РЕПРЕЗЕНТАТИВНОСТИ В КОРПУСНОЙ ЛИНГВИСТИКЕ</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <name-alternatives>
            <name xml:lang="ru">
              <surname>Пиперски</surname>
              <given-names>А.Ч.</given-names>
            </name>
          </name-alternatives>
          <name-alternatives>
            <name xml:lang="en">
              <surname>Piperski</surname>
              <given-names>A.Ch.</given-names>
            </name>
          </name-alternatives>
          <email>apiperski@gmail.com</email>
          <xref ref-type="aff" rid="aff0bcfc078"/>
        </contrib>
      </contrib-group>
      <aff id="aff0bcfc078">
        <institution xml:lang="ru">Институт лингвистики ФГБОУ ВПО «Российский государственный гуманитарный университет»</institution>
        <institution xml:lang="en">Russian State University for the Humanities, Institute of Linguistics</institution>
      </aff>
      <pub-date date-type="pub" iso-8601-date="2013-05-20">
        <day>20</day>
        <month>05</month>
        <year>2013</year>
      </pub-date>
      <issue>5</issue>
      <fpage>577</fpage>
      <lpage>577</lpage>
      <permissions>
        <license xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This is an open-access article distributed under the terms of the CC BY 4.0 license.</license-p>
        </license>
      </permissions>
      <self-uri content-type="url" hreflang="ru">https://science-education.ru/ru/article/view?id=9895</self-uri>
      <abstract xml:lang="ru" lang-variant="original" lang-source="author">
        <p>В данной статье анализируется использование понятия репрезентативности в корпусной лингвистике и делается вывод о том, что в отсутствие точных методов оценки репрезентативность корпуса определяется негласной договоренностью между создателями корпуса и его пользователями. Разрабатываемый в настоящее время Генеральный интернет-корпус русского языка (ГИКРЯ) задумывается как инструмент, позволяющий эксплицировать подобные договоренности и изучать русский язык в его дифференциальной полноте. Исследователи получат ресурс, позволяющий анализировать отдельные сегменты Интернета и создавать подкорпуса на основе метаразметки, извлекаемой автоматически. В настоящее время в ГИКРЯ размечены и доступны для поиска два сегмента русского Интернета: блог-платформа LiveJournal.com и «Журнальный зал». В дальнейшем количество сегментов планируется существенно расширить.</p>
      </abstract>
      <abstract xml:lang="en" lang-variant="translation" lang-source="translator">
        <p>The present article deals with the notion of representativeness in corpus linguistics. It turns out that there are no exact methods for assessing representativeness, and for this reason the representativeness of a corpus is nothing more than a tacit agreement between the creators of a corpus and its users. The General Internet Corpus of Russian (GICR) which is presently under development tries to make such an agreement explicit. It encourages its uses to study register variation in the Russian language of the Internet. The linguistic community will be able to use a research tool to study different segments of the Web and to create subcorpora using automatically extracted metadata. As for June 2013, GICR contains two segments of the Russian Web, namely the blog platform LiveJournal.com and the “Magazine Reading Room” (http://magazines.russ.ru/). More segments will be added soon.</p>
      </abstract>
      <kwd-group xml:lang="ru">
        <kwd>метаразметка</kwd>
        <kwd>репрезентативность</kwd>
        <kwd>Интернет</kwd>
        <kwd>корпусная лингвистика</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>metadata</kwd>
        <kwd>representativeness</kwd>
        <kwd>Internet</kwd>
        <kwd>corpus linguistics</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <ref>
        <note>
          <p>1. Беликов В.И., Селегей В.П., Шаров С.А. 2012. Пролегомены к проекту Генерального интернет-корпуса русского языка // Компьютерная лингвистика и интеллектуальные технологии : по материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая – 3 июня 2012 г.). Вып. 11 (18). - М. : Изд-во РГГУ, 2012. - С. 37–50.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>2. Беликов В.И., Копылов Н.Ю., Пиперски А.Ч., Селегей В.П., Шаров С.А. Корпус как язык: от масштабируемости к дифференциальной полноте // Компьютерная лингвистика и интеллектуальные технологии : по материалам ежегодной Международной конференции «Диалог» (Бекасово, 29 мая – 2 июня 2013 г.). Вып. 12 (19). — М. : Изд-во РГГУ, 2013. - С. 84–95.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>3. Български национален корпус — описание [Электронный ресурс]. — (http://www.ibl.bas.bg/BGNC_classific_bg.htm) (дата обращения: 01.06.2013).</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>4. Что такое корпус? [Электронный ресурс]. — (http://ruscorpora.ru/corpora-intro.html) (дата обращения:  01.06.2013).</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>5. About the British National Corpus [Электронный ресурс]. — (http://www.natcorp.ox.ac.uk/corpus/index.xml) (дата обращения:  01.06.2013).</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>6. McEnery T., Hardie A. Corpus Linguistics. - Cambridge: Cambridge University Press, 2011. xv, 294 p.</p>
        </note>
      </ref>
      <ref>
        <note>
          <p>7. Michigan Corpus of Academic Spoken English [Электронный ресурс]. — (http://quod.lib.umich.edu/m/micase/) (дата обращения: 01.06.2013).</p>
        </note>
      </ref>
    </ref-list>
  </back>
</article>
