<!DOCTYPE article
PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20190208//EN"
       "JATS-journalpublishing1.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" article-type="research-article" dtd-version="1.4" xml:lang="en">
 <front>
  <journal-meta>
   <journal-id journal-id-type="publisher-id">Virtual Communication and Social Networks</journal-id>
   <journal-title-group>
    <journal-title xml:lang="en">Virtual Communication and Social Networks</journal-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Виртуальная коммуникация и социальные сети</trans-title>
    </trans-title-group>
   </journal-title-group>
   <issn publication-format="print">2782-4799</issn>
   <issn publication-format="online">2782-4802</issn>
  </journal-meta>
  <article-meta>
   <article-id pub-id-type="publisher-id">83678</article-id>
   <article-id pub-id-type="doi">10.21603/2782-4799-2024-3-3-245-254</article-id>
   <article-id pub-id-type="edn">NNDMXJ</article-id>
   <article-categories>
    <subj-group subj-group-type="toc-heading" xml:lang="ru">
     <subject>Лингводидактика  в социальных сетях</subject>
    </subj-group>
    <subj-group subj-group-type="toc-heading" xml:lang="en">
     <subject>Linguodidactics in Social Networks</subject>
    </subj-group>
    <subj-group>
     <subject>Лингводидактика  в социальных сетях</subject>
    </subj-group>
   </article-categories>
   <title-group>
    <article-title xml:lang="en">Online Language Education: Principles of Creating a Marked Corpus of Learners’ Mistakes</article-title>
    <trans-title-group xml:lang="ru">
     <trans-title>Языковое образование онлайн: принципы создания размеченного корпуса ошибок в специализированном английском языке русскоязычных работников IT-сферы</trans-title>
    </trans-title-group>
   </title-group>
   <contrib-group content-type="authors">
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Виноградова</surname>
       <given-names>Юлия Сергеевна</given-names>
      </name>
      <name xml:lang="en">
       <surname>Vinogradova</surname>
       <given-names>Yuliya Sergeevna</given-names>
      </name>
     </name-alternatives>
     <xref ref-type="aff" rid="aff-1"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Ильченко</surname>
       <given-names>Игорь Владимирович</given-names>
      </name>
      <name xml:lang="en">
       <surname>Il'chenko</surname>
       <given-names>Igor' Vladimirovich</given-names>
      </name>
     </name-alternatives>
     <email>igvladilchenko@gmail.com</email>
     <xref ref-type="aff" rid="aff-2"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Ширяева</surname>
       <given-names>Полина Сергеевна</given-names>
      </name>
      <name xml:lang="en">
       <surname>Shiryaeva</surname>
       <given-names>Polina Sergeevna</given-names>
      </name>
     </name-alternatives>
     <xref ref-type="aff" rid="aff-3"/>
    </contrib>
    <contrib contrib-type="author">
     <name-alternatives>
      <name xml:lang="ru">
       <surname>Горина</surname>
       <given-names>Мария Сергеевна</given-names>
      </name>
      <name xml:lang="en">
       <surname>Gorina</surname>
       <given-names>Mariya Sergeevna</given-names>
      </name>
     </name-alternatives>
     <xref ref-type="aff" rid="aff-4"/>
    </contrib>
   </contrib-group>
   <aff-alternatives id="aff-1">
    <aff>
     <institution xml:lang="ru">НИУ ВШЭ – Санкт-Петербург</institution>
     <city>Санкт-Петербург</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">National Research University Higher School of Economics (HSE University)</institution>
     <city>St. Petersburg</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-2">
    <aff>
     <institution xml:lang="ru">НИУ ВШЭ – Санкт-Петербург</institution>
     <city>Санкт-Петербург</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">National Research University Higher School of Economics (HSE University)</institution>
     <city>St. Petersburg</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-3">
    <aff>
     <institution xml:lang="ru">НИУ ВШЭ – Санкт-Петербург</institution>
     <city>Санкт-Петербург</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">National Research University Higher School of Economics (HSE University)</institution>
     <city>St. Petersburg</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <aff-alternatives id="aff-4">
    <aff>
     <institution xml:lang="ru">ООО «Яндекс»</institution>
     <city>Москва</city>
     <country>Россия</country>
    </aff>
    <aff>
     <institution xml:lang="en">OOO Yandex</institution>
     <city>Moscow</city>
     <country>Russian Federation</country>
    </aff>
   </aff-alternatives>
   <pub-date publication-format="print" date-type="pub" iso-8601-date="2024-10-01T00:00:00+03:00">
    <day>01</day>
    <month>10</month>
    <year>2024</year>
   </pub-date>
   <pub-date publication-format="electronic" date-type="pub" iso-8601-date="2024-10-01T00:00:00+03:00">
    <day>01</day>
    <month>10</month>
    <year>2024</year>
   </pub-date>
   <volume>3</volume>
   <issue>3</issue>
   <fpage>245</fpage>
   <lpage>254</lpage>
   <history>
    <date date-type="received" iso-8601-date="2024-06-01T00:00:00+03:00">
     <day>01</day>
     <month>06</month>
     <year>2024</year>
    </date>
    <date date-type="accepted" iso-8601-date="2024-08-19T00:00:00+03:00">
     <day>19</day>
     <month>08</month>
     <year>2024</year>
    </date>
   </history>
   <self-uri xlink:href="https://jsocnet.ru/en/nauka/article/83678/view">https://jsocnet.ru/en/nauka/article/83678/view</self-uri>
   <abstract xml:lang="ru">
    <p>Сегодня создание учебных корпусов представляет большой интерес для многих лингвистов. В статье рассматривается значимость учебных корпусов в современной лингвистике и педагогике, их важность как инструмента для выявления типичных ошибок в речи на неродном языке, анализа проблем в освоении языка и создания эффективных методик обучения второму языку. В работе приводятся существующие обзоры на учебные корпусы, а также краткий обзор работ, посвященных классификации ошибок. Наше исследование посвящено созданию устного корпуса ошибок русскоязычных студентов, изучающих специализированный английский язык в сфере информационных технологий. Исследование проводится на материале 50 видеозаписей занятий, на которых студенты общаются с англоговорящими IT-специалистами и выполняют задания на английском языке в формате диалога. Цель создания корпуса – выявить основные трудности в использовании английского языка взрослыми, работающими в IT-сфере. В результате для разметки корпуса была разработана классификация самых частотных ошибок носителей русского языка в речи на английском языке и система тегов для них. Все ошибки делятся по уровню языка на морфологические, синтаксические, лексические и фонетические. Сделан вывод, что созданная в рамках работы классификация ошибок может быть использована для аннотации будущих учебных корпусов речи носителей русского языка на английском языке, а также для автоматизации тегирования ошибок.</p>
   </abstract>
   <trans-abstract xml:lang="en">
    <p>Today, academic corpora are a matter of great interest to many linguists. The article examines the importance of academic corpora in modern linguistics and pedagogy as a tool for identifying typical errors in the speech of foreign language students. They reveal problems in foreign language acquisition and create new teaching methods. The paper reviews the existing academic corpora and error classifications. The authors developed a corpus of oral speech errors typical of Russian-speaking IT students that study English for IT purposes. The corpus relied on 50 video recordings of in-class activities in which students communicated with English-speaking IT specialists and made up dialogues in English. The corpus made it possible to identify the main difficulties experienced by adult learners of English for IT purposes. It involves a tagged classification of typical errors divided by language level into morphological, syntactic, lexical, and phonetic ones. The research demonstrated good prospects for developing other academic speech corpora with automated error tagging based on the speech of English learners.</p>
   </trans-abstract>
   <kwd-group xml:lang="ru">
    <kwd>корпус ошибок</kwd>
    <kwd>учебный корпус</kwd>
    <kwd>аннотация</kwd>
    <kwd>тегирование</kwd>
    <kwd>обнаружение ошибок</kwd>
    <kwd>английский как иностранный</kwd>
   </kwd-group>
   <kwd-group xml:lang="en">
    <kwd>corpus of errors</kwd>
    <kwd>learner corpora</kwd>
    <kwd>abstract</kwd>
    <kwd>tagging</kwd>
    <kwd>error detection</kwd>
    <kwd>English as a foreign language</kwd>
   </kwd-group>
  </article-meta>
 </front>
 <body>
  <p>ВведениеВо многих лингвистических работах появление корпусов сравнивают с новой эпохой в лингвистике. Действительно, их создание и изучение дали новый импульс лингвистическим исследованиям в XXI веке [Рахилина 2016: 20-21]. За последние 50 лет появилось такое количество корпусов, что для них уже составлена своя типология по различным критериям: языку, жанру текстов, задачам корпуса и другим признакам [Хохлова 2023: 59-61, Копотев[1]]. В этой статье мы остановимся на одном из существующих типов корпуса – учебном, или корпусе ошибок. Сегодня создание учебных корпусов представляет большой интерес для лингвистов по нескольким причинам. Во-первых, такие корпусы являются ценным материалом для определения типичных ошибок, совершаемых студентами при изучении неродного языка: фиксируя речь студентов на неродном языке, корпус ошибок предоставляет когнитивным лингвистам и психолингвистам возможность проанализировать не только совершаемые студентами ошибки, но и природу их появления (например, установить, в каких случаях имеет влияние языковая интерференция), их обусловленность закономерностями организации билингвального языкового сознания. Во-вторых, “подсвечивая” проблемные места в речи студентов, учебные корпусы позволяют выявить трудности в освоении языка, с которыми сталкиваются инофоны, что может принести особую пользу преподавателям иностранных языков и методистам при разработке более эффективных методик обучения второму языку [Колмогорова 2019]. В-третьих, современные исследования в области второго языка показывают, что корпусы ошибок обладают огромным потенциалом для понимания особенностей освоения языка, речевого онтогенеза [Захарова 2016].Учебные корпусы могут быть составлены на материале письменных или устных текстов, подготовленной или спонтанной речи, текстов разных жанров и языков и т.д. Наше исследование посвящено созданию корпуса ошибок русскоязычных студентов, обучающихся в рамках онлайн-курса по английскому языку для IT-специалистов. Курс является продуктом одного из крупных российских международных сервисов онлайн-образования[2]. Для исследования были взяты 50 видеозаписей занятий студентов с англоговорящими специалистами в области информационных технологий. Это один из типов занятий, представленных на курсе: студент занимается не с преподавателем, а с англоговорящим IT-специалистом, коммуникация с которым происходит исключительно на английском языке. Кроме того, все задания выполняются в формате диалога – таким образом, материалом корпуса является устная речь русскоязычных студентов на английском языке (подробнее см. Раздел 4). Основная цель создания нашего корпуса ошибок – это определить общие ключевые трудности в использовании английского языка у взрослых обучающихся, работающих в IT-сфере, получив и обработав статистику ошибок. Кроме того, наше исследование направлено на выявление основных проблем в речи студентов, находящихся на начальных этапах курса, что поможет понять основные потребности клиентов платформы, чтобы затем адаптировать к этим потребностям методическую организацию курса. В статье мы последовательно рассмотрим примеры уже существующих учебных корпусов, подробно расскажем о принципах разработки нашего корпуса, его материале, этапах работы и планируемых результатах. Виды учебных корпусов: сбор данных и аннотация ошибок В теоретическом плане, наш проект в основном опирается на работы, посвященные, во-первых, созданию и обработке учебных корпусов, во-вторых – классификации и тегированию ошибок в речи говорящих на неродном языке. Об учебных корпусах написано множество работ, в том числе и обзорных статей. Автор одной из них, М.В. Хохлова, подробно описывает существующие виды корпусов в зависимости от их задач, родного языка учащихся, уровня владения вторым языком, жанра текста и т.д. [Хохлова 2023]. Как и другие исследователи учебных корпусов, Хохлова подчеркивает, что, поскольку устные корпуса требуют больше времени и усилий на запись и расшифровку, большинство корпусов сосредоточены на письменных данных. Действительно, Соён Юн утверждает, что по состоянию на февраль 2020 года в CECL Католического университета Лувена перечислено 177 учебных корпусов, существующих в мире. Более половины из них (105 из 177, 59.3%) ориентированы на английский язык, но всего 35 англоязычных учебных корпусов (33,3%) являются устными или содержат как устные, так и письменные данные [Soyeon 2020: 30-31]. Безусловно, это лишь примерные цифры, особенно на текущий момент, когда появляется все больше новых корпусов, однако данная статистика доказывает, что устных корпусов создается гораздо меньше, чем письменных.Многие исследователи сходятся во мнении о важности, скорее, не объема корпуса, а его репрезентативности. В первую очередь, нужно понимать, для каких задач собирается корпус, и насколько “глубоко” будет проведена с ним работа (например, как именно будет аннотироваться корпус, и будет ли аннотироваться вообще). Для одних целей не хватит и миллионов знаков, для других — будет достаточно и пяти тысяч [Копотев[3]: 8-9].Корпуса ошибок особенно часто используются в педагогических целях. Учителям и преподавателям иностранных языков важно знать о сравнительной характеристике изучаемого и родного для учащегося языков, о потенциальных ошибках, возникающих из-за взаимного влияния этих двух языков, а также о типичных ошибках, которые говорящие на определенном языке могут совершать при изучении другого иностранного языка. Если преподаватель работает с учебными корпусами, то он может постоянно корректировать свою педагогическую деятельность и более эффективно обучать иностранному языку [Грудева и др. 2018].Крайне важный этап при создании корпуса ошибок – его аннотация. Аннотация обычно включает в себя три этапа: выявление ошибок, их классификацию и исправление. В процессе классификации ошибки группируются по определенным типам (например, лексические, морфологические, синтаксические). После выявления ошибки она подлежит исправлению, в результате чего в аннотации фиксируются оба варианта – исходный (с ошибкой) и исправленный. Таким образом, можно выделить два уровня аннотации ошибок: первый связан с разметкой ошибок по их категориям, а второй – с их исправлением [Хохлова 2023: 63].Методической литературы на тему самых распространенных ошибок в английском языке у носителей русского языка крайне мало. Много работ посвящено стратегиям коррекции ошибок [Lyster, Ranta 1997: 44-51; Тишулин 2012: 134-136], существует множество классификаций ошибок в речи на неродном языке с точки зрения причины их возникновения [Богданова 2014: 67-68], степени их грубости [Теренин 2016: 153], уровня языка [Кондрашова 2015: 28-37], однако теоретических работ с подробным описанием типов ошибок внутри их групп по уровням языковой системы мы не обнаружили. С методической точки зрения, в [Edge 1989: 9] автор предлагает разделять все ошибки на три группы: оговорки; ошибки, появляющиеся в пройденном материале; ошибки, возникающие в неизученном материале. Такая общая классификация не подходит для цели нашего исследования. В связи с этим мы разрабатываем собственную классификацию ошибок, речь о которой пойдет далее.Постановка проблемы. Актуальность и новизна.Проанализировав имеющуюся литературу по теме исследования, мы пришли к выводу, что существующие в педагогике типологии ошибок либо не опираются на практический материал, либо описывают наблюдения за речью учеников без структурного статистического анализа. В своей работе мы предлагаем классификацию ошибок, основанную на корпусном материале и отражающую реальные трудности в речи русскоязычных студентов на английском языке. В области корпусных исследований ошибок большинство корпусов посвящены ошибкам в английском языке. Однако наш корпус отличается тем, что представленные в нем учащиеся — взрослые студенты с уверенным знанием английского языка, которые хотят улучшить навыки повседневной устной коммуникации в рамках рабочих задач. Такая специфика позволяет считать наш корпус особенно актуальным и востребованным для преподавателей профессионального английского языка для специалистов IT-сферы.Новизна исследования определяется, в первую очередь, его материалом, которым являются онлайн-занятия русскоязычных студентов с англоговорящими специалистами в области информационных технологий. На момент написания данной статьи подобных корпусов в открытом доступе не было обнаружено, что подчеркивает уникальность работы. Принципиально новым аспектом исследования также является разработка классификации ошибок для корпуса, опирающейся на практический материал и включающей конкретные типы ошибок, распределенные по уровням языка. Кроме того, четкие задачи исследования от компании-заказчика позволяют назвать нашу работу актуальной не только с точки зрения исследований в областях лингвистики и педагогики, но и с точки зрения применения полученных знаний на практике. Исследование поможет модернизировать опыт онлайн-обучения для будущих студентов в данном сервисе онлайн-образования. Это новый взгляд на обучение, который не наказывает студентов за ошибки, а опережает их возникновение, и заранее подготавливает преподавателей к будущим трудностям.План-проспект исследования. Материал.Как уже было упомянуто выше, материалом корпуса являются записи онлайн-занятий студентов-носителей русского языка с англоговорящими IT-специалистами. На данный момент собрано 50 таких записей общей длительностью 42 часа. Остановимся подробнее на объеме и выборке корпуса.На сегодняшний день не существует четких требований к объему корпуса, и мы, вслед за М.В. Хохловой, считаем, что ключевая характеристика любого корпуса − это его качество, а не количество материала [Хохлова 2023: 59]. При выборе объема нашего корпуса учитывалось несколько факторов: задача корпуса, количество разметчиков и выделенное на работу время. Наш корпус является узконаправленным: во-первых, его материал – это устная речь определенной группы студентов, а именно взрослых людей (примерно от 20 до 45 лет), работающих в сфере информационных технологий и владеющих английским языком приблизительно на уровне B1-B2. Во-вторых, корпус состоит из речи студентов, проходящих курс специализированного английского языка. Следовательно, задача нашего корпуса заключается в выявлении проблемных аспектов в изучении английского языка в IT-сфере в рамках указанной группы студентов и конкретного курса от российского международного сервиса онлайн-образования. Таким образом, имея достаточно узкую выборку, наш корпус не требует большого объема материала. Количество исследователей и время на обработку корпуса, к сожалению, также ограничены: сейчас над корпусом работают три человека, и уделить на разметку планируется 5-6 месяцев. В этих условиях обработка именно 50 уроков кажется нам разумной целью. Важно также описать характер анализируемых занятий. Основная цель всего курса длиной в 7 месяцев – подготовить студентов к работе в международной компании на позиции продакт-менеджера, то есть специалиста, отвечающего за разработку и запуск продукта или услуги. Для корпуса мы выбрали один из типов представленных на курсе занятий: беседа с англоговорящим IT-специалистом. Это особые занятия, которые проводятся в конце каждого месяца обучения для закрепления пройденного материала и отработки рабочих ситуаций (собеседование, обсуждение проекта в команде и т.п.). Важно вновь подчеркнуть, что роль преподавателя в таких случаях выполняет именно специалист в сфере информационных технологий, который не является педагогом по образованию, поэтому занятия очень приближены к ситуации общения в международной команде. Для удобства далее в статье мы будем называть их преподавателями, а сами занятия – “симуляциями”, поскольку они симулируют общение студента с будущим “коллегой из международной компании”. Все общение во время симуляций осуществляется в устной форме: выполнение заданий, перед которыми студент имеет несколько минут на подготовку, и свободное общение с IT-специалистом (рассказ о себе, ответы на вопросы вне заданий). Таким образом, материалом нашего корпуса является как подготовленная, так и спонтанная устная речь на английском языке. Стоит также отметить, что мы брали только первые или вторые симуляции курса, поскольку одна из целей исследования – определить языковые проблемы студентов, недавно пришедших на курс. Все отобранные занятия проводились с 2023 по 2024 год. Каждое онлайн-занятие длится один час.Основными этапами нашего исследования являются:Создание классификации ошибок носителей русского языка в речи на английском языке;Присваивание тегов всем типам ошибок;Расшифровка 50 видеозаписей занятий и разметка ошибок;Анализ размеченного корпуса и выявление самых частых типов ошибок.На этапе составления собственной классификации самых распространенных ошибок, совершаемых русскоязычными студентами при изучении английского языка, мы основывались на исследованиях уроков английского языка в русских школах, а также на собственном преподавательском опыте. Например, согласно некоторым исследованиям [Яновская, Нескрёба 2020], чаще всего встречаются ошибки на уровне грамматики, особенно пропуск предлогов и артиклей.На этапе создания тегов мы опирались на уже существующие корпуса с разметкой ошибок, такие как Russian Learner Corpus (RLC) [Рахилина и др. 2016], и работы по автоматизации разметки учебных корпусов [Bryant и др. 2017]. Например, из RLC мы взяли теги Morph, Lex, WO, Tense и др. (см. Таблицу 1). Помимо этого, некоторые теги были расширены, иные – заменены или убраны. Так, мы убрали изначально добавленный тег “Conj” для ошибок в использовании союзов, поскольку при разметке такой тип ошибки не был обнаружен; тег “Pronoun” в группе лексических ошибок был добавлен уже в ходе разметки, так как мы заметили часто встречающиеся ошибки в употреблении местоимений other-another и т.п. При непосредственной разметке расшифровок онлайн-занятий мы столкнулись с некоторыми трудностями: например, с определением дочерних тегов для ошибок на лексическом уровне. Основной вопрос заключался в том, что считать ошибкой в коллокации, а что неверным подбором слова для конкретного контекста. Коллокациям посвящено множество работ [Черноусова 2019; Палийчук 2022], однако термин все еще остается размытым. В рамках нашего исследования мы будем считать ошибкой в коллокации и отмечать тегом “Colloc” те случаи, когда употребленное студентом словосочетание не встречается в речи носителей языка. Например, если студент говорит do a mobile app вместо make a mobile app. В случаях если само словосочетание возможно в языке, но было неверно употреблено в конкретном контексте, мы ставили общий тег “Lex”. Например:So I&amp;#39;m already on module two, but I finished the first one. So I get {have}[Lex] enough knowledge.В данном случае студент, отвечая на вопрос IT-специалиста о его обучении, имел в виду, что он уже прошел первый модуль программы курса, поэтому имеет достаточно знаний для занятия. Хотя словосочетание get knowledge существует в английском языке, в данном контексте, скорее, верным будет вариант have knowledge. Соответственно, проблема возникла не из-за сочетаемости двух слов, а из-за контекста, поэтому мы поставили общий тег “Lex”, без добавления уточняющего тега “Colloc”.В Таблице 1 помещена последняя версия дерева тегов на данный момент. Оно состоит из родительских тегов, соответствующих уровням языка (Morph, Synt, Lex, Pron) и дочерних, уточняющих тип ошибки. Таким образом, большинство ошибок имеют минимум 2 тега. Приведем примеры разметки ошибок каждого уровня. По нашим наблюдениям на данный момент, одной из часто встречающихся ошибок на морфологическом уровне является ошибка в образовании формы слова, например:Maybe I need to make the first one shorter, much more shorter {much shorter}[Morph][WordForm][Adj].В данном случае первый тег указывает на морфологический характер ошибки, второй уточняет, что это ошибка в образовании формы слова, и третий – что это форма прилагательного. Кроме того, для всех ошибок в фигурных скобках мы также указываем исправленный вариант.На синтаксическом уровне студенты достаточно часто ошибаются в выборе времени глагола. В таких случаях дочерним тегом указывается то время, которое является правильным, например:It was in school actually, quite a good preparation {training}[Lex] because we have {had}[Synt][Tense][PastS] a really nice teacher…В этом предложении описывается ситуация, произошедшая в прошлом, о чем свидетельствует начало предложения (It was…), поэтому у слова have поставлен тег уровня языка “Synt”, тег типа ошибки “Tense” и тег “PastS”, уточняющий конкретное время глагола. В этом примере можно также видеть лексическую ошибку, помеченную тегом “Lex”. Подобные ошибки мы не помечаем тегом для коллокаций “Colloc”, поскольку само словосочетание “a good preparation” может существовать, то есть ошибка состоит именно в подборе неверного слова для данного контекста.Приведем пример ошибки в произношении:It&amp;#39;s also [Pron] pretty shiny.Важно отметить, что разметка на фонетическом уровне на данном этапе исследования является скорее предварительной: мы отмечаем только явные ошибки в произношении слов, такие как неправильная постановка ударения, замена одной фонемы на другую (например, в слове process фонему [s] часто заменяют на [ts]) и т.д. Особенности русского акцента (неправильное произношение фонемы [θ] и т.д.) мы не учитываем. Это связано с тем, что для студентов анализируемого курса фонетический аспект языка является наименее важным, поскольку их задача сводится не к достижению уровня носителя языка, а в способности поддерживать коммуникацию в международной команде, где каждый обладает своим акцентом и особенностями произношения.Третьим этапом является расшифровка аудиозаписей. Для этого мы использовали компьютерную модель AI Whisper[4], а именно его «маленькую» версию, так как более глубокая модель Large V2 исправляет некоторые ошибки студентов (например, вставляет пропущенные артикли, меняет форму глагола и т.п.), что мешает нашему исследованию. Безусловно, в автоматических расшифровках встречаются неточности, поэтому перед разметкой они проверяются вручную. Далее в речи студентов мы выделяем ошибки и расставляем теги (речь преподавателя не анализируется, но она будет присутствовать в корпусе для сохранения контекста).Таблица 1. Теги ошибокTable 1. Error tagsУровень языкаТегПодтегТип ошибкиМорфология тег: MorphPlur Неправильная форма числа или выбрано не то число, ex.g:*advices;this-these/that-thoseconstraint - constraintsWordFormVerbAdvNounPronounAdjingFormNumНеправильное словообразование, ex.g.:creative - creativity;to speak - speaking;*winned - wonSVA Нарушение согласования подлежащего и сказуемого,  ex.g.:*he have - he hasСинтаксис тег: SyntArtWArtZeroArtНеверный артикль или пропуск артикляPrepWPrepZeroPrepНеверный предлог или пропуск предлогаWO Неправильный порядок словWordZero Пропуск слова,  ex.g.:пропуск it: “It&amp;#39;s pretty depressing when always snow”.TensePresSPastSFutureSPresContPastContPresPerfPastPerfPresPerfContPastPerfContНеправильный выбор времени глаголаAgrTense Нарушение согласования времен Modal Ошибка в модальных глаголах,  ex.g.:пропуск to и т.п.Constr  Ошибка в конструкции,  ex.g.:*if I will;порядок слов в придаточномLink Ошибка в использовании глагола-связки,  ex.g.: пропуск, вставка лишнего и т.д.Лексикатег: LexColloc Ошибка в сочетаемости слов, ex.g.: do-make, much-manyPronoun Неправильный выбор местоимения,  ex.g.:this-that, other-another, it-heФонетикатег: Pron   Ошибка в произношении  Если правильным вариантом является отсутствие слова (например, когда вставлен лишний предлог), используется прочерк {-}, для неразборчивых фрагментов ставится знак &lt;inaud&gt;. Наряду с тегами, представленными в Таблице 1, мы ввели тег “miscom” для ситуаций нарушения коммуникации: он позволит в дальнейшем отследить ошибки, препятствующие взаимопониманию между собеседниками.Приведем фрагмент транскрипта, размеченный при помощи разработанной нами системы тегов:And I actually need {needed}[Synt][Tense][PastS] to sell this idea to, actually, to prove that there&amp;#39;s only right way {the only right way}[Synt][Art][ZeroArt] in our situation to top {the top}[Synt][Art][ZeroArt] manager of products {product manager}[Lex][Colloc] from other {another}[Lex][Pronoun] department. В ближайшем будущем перед нами стоят две глобальные задачи:Закончить расшифровку и тегирование корпуса, который на данный момент состоит из 50 записанных онлайн-занятий;Собрать статистику, выявить самые частотные категории ошибок и визуализировать результаты.После решения указанных задач мы видим следующие перспективы исследования: 1) более тщательное изучение ошибок в произношении и расширение тегов на фонетическом уровне; 2) использование корпуса для создания основанной на технологии машинного обучения модели автоматического тегирования ошибок русскоговорящих студентов на английском языке.ЗаключениеСовременная лингвистика стремительно развивается, и одним из ключевых инструментов, ставших настоящим прорывом в исследованиях, стали корпуса. В частности, учебные корпуса, также известные как корпуса ошибок, играют важную роль в понимании особенностей освоения иностранного языка студентами. Исследования в этой области позволяют выявлять типичные ошибки, проанализировать проблемные аспекты в освоении языка и создать более эффективные методики обучения.В данной статье мы сфокусировались на принципах разработки нашего учебного корпуса, составленного на материале речи русскоязычных студентов онлайн-курса английского языка для IT-специалистов. Работа с таким корпусом представляет интерес не только для методистов курса, но и для лингвистического сообщества в целом, поскольку изучение ошибок русскоязычных студентов в онлайн-школе английского языка является актуальной задачей в областях лингвистики и педагогики. Это исследование позволит выявить как общие, так и уникальные для онлайн-контекста языковые трудности, открывая новые перспективы для улучшения процесса обучения второму языку. Кроме того, созданная в рамках работы классификация ошибок может быть использована для аннотации будущих учебных корпусов речи носителей русского языка на английском языке, а также для автоматизации тегирования ошибок. Конфликт интересов: Авторы заявили об отсутствии потенциальных конфликтов интересов в отношении исследования, авторства и / или публикации данной статьи.Conflict of interests: The authors declared no potential conflicts of interests regarding the research, authorship, and / or publication of this article.Критерии авторства: Авторы в равной степени участвовали в подготовке и написании статьи.Contribution: All the authors contributed equally to the study and bear equal responsibility for information published in this article.Благодарности: Авторы выражают благодарность своему научному руководителю Колмогоровой Анастасии Владимировне за ценные советы при планировании исследования и рекомендации по оформлению статьи.Acknowledgements: The authors would like to express their gratitude towards their research advisor, Anastasia V. Kolmogorova, for valuable advice on research planning and recommendations for the execution of this article. [1] Копотев М.В. Введение в корпусную лингвистику. Электронное учебное пособие для студентов филологических и лингвистических специальностей университетов. Praha: Animedia, 2014. ISBN: 978-80-7499-067-0[2] Название сервиса и подробности курса находятся под NDA[3] Копотев М.В. Введение в корпусную лингвистику. Электронное учебное пособие для студентов филологических и лингвистических специальностей университетов. Praha: Animedia, 2014. ISBN: 978-80-7499-067-0 [4] https://github.com/openai/whisper </p>
 </body>
 <back>
  <ref-list>
   <ref id="B1">
    <label>1.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Богданова Т. Г. Роль исправления ошибок при обучении иностранному языку в неязыковом вузе. Научный Вестник Южного института менеджмента. 2014. № 4. С. 66–69. https://elibrary.ru/toecrx</mixed-citation>
     <mixed-citation xml:lang="en">Bogdanova T. G. The role of error correction in teaching a foreign languages at business scholls. Scientific bulletin of Uzhny institute of management, 2014, (4): 66–69. (In Russ.) https://elibrary.ru/toecrx</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B2">
    <label>2.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Грудева Е. В., Бучилова И. А., Волкова Н. А. Корпусы ошибок: целевая аудитория, возможная архитектура корпуса. Вестник Череповецкого государственного университета. 2018. № 5. С. 63–72. https://doi.org/10.23859/1994-0637-2018-5-86-7</mixed-citation>
     <mixed-citation xml:lang="en">Grudeva E. V., Buchilova I. A., Volkova N. A. Corpora of Errors: Target audience, a possible architecture of the corpus. Bulletin of Cherepovets State University, 2018, (5): 63–72. (In Russ.) https://doi.org/10.23859/1994-0637-2018-5-86-7</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B3">
    <label>3.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Дмитриев А. В., Коган М. С., Вдовина Е. К. Теоретико-прикладное значение корпусов в компьютерной лингводидактике. Litera. 2020. № 1. С. 200–216. https://doi.org/10.25136/2409-8698.2020.1.32219</mixed-citation>
     <mixed-citation xml:lang="en">Dmitriev A. V., Kogan M. S., Vdovina E. K. Theoretical-applied significance of corpora in computer linguodidactics. Litera, 2020, (1): 200–216. (In Russ.) https://doi.org/10.25136/2409-8698.2020.1.32219</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B4">
    <label>4.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Захарова Е. А. Применение результатов исследований корпусной лингвистики в обучении грамматике английского языка на продвинутом уровне. Вестник Российского университета дружбы народов. Серия: Русский и иностранные языки и методика их преподавания. 2016. № 2. С. 41–49. https://elibrary.ru/vwnqzr</mixed-citation>
     <mixed-citation xml:lang="en">Zakharova E. A. Corpus-based studies in English grammar teaching at the advanced level. Bulletin of Peoples’ friendship university of Russia. Series: Russian and foreign languages. Methods of its teaching, 2016, (2): 41–49. (In Russ.) https://elibrary.ru/vwnqzr</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B5">
    <label>5.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Иванова В. И., Кулагина Т. И. Использование лингвистических корпусов текстов для формирования ино­язычной учебно-познавательной компетенции. Вестник ПНИПУ. Проблемы языкознания и педагогики. 2022. № 3. С. 142–152. https://doi.org/10.15593/2224-9389/2022.3.12</mixed-citation>
     <mixed-citation xml:lang="en">Ivanova V. I., Kulagina T. I. Formation of foreign-language educational and cognitive competence by means of linguistic corpora. PNRPU Linguistics and Pedagogy Bulletin, 2022, (3): 142–152. (In Russ.) https://doi.org/10.15593/2224-9389/2022.3.12</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B6">
    <label>6.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Колмогорова А. В. Эмоциональная тональность как значимый субъективный параметр учебного текста при овладении русским языком как иностранным. Филологический класс. 2019. № 3. С. 95–101. https://doi.org/10.26170/FK19-03-13</mixed-citation>
     <mixed-citation xml:lang="en">Kolmogorova A. V. Emotional tonality as a valuable subjective parameter of study text for Russian as foreign language learners. Philological class, 2019, (3): 95–101. (In Russ.) https://doi.org/10.26170/FK19-03-13</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B7">
    <label>7.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Кондрашова Н. В. Прогнозирование и исправление студенческих ошибок при обучении иностранным языкам. Научный диалог. 2015. № 7. С. 27–47. https:/elibrary.ru/tzymln</mixed-citation>
     <mixed-citation xml:lang="en">Kondrashova N. V. Prediction and correction of students’ mistakes when teaching of foreign languages. Scientific dialogue, 2015, (7): 27–47. (In Russ.) https:/elibrary.ru/tzymln</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B8">
    <label>8.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Копотев М. В. Введение в корпусную лингвистику. Praha: Animedia, 2014. 195 с.</mixed-citation>
     <mixed-citation xml:lang="en">Kopotev M. V. Introduction to corpus linguistics. Praha: Animedia, 2014, 195. (In Russ.)</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B9">
    <label>9.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Павлова О. Ю. Использование языковых корпусов в обучении иностранному языку. Язык и культура. 2021. № 54. С. 283–298. https://doi.org/10.17223/19996195/54/16</mixed-citation>
     <mixed-citation xml:lang="en">Pavlova O. Yu. Linguistic corpora in foreign language teaching. Language and Culture, 2021, (54): 283–298. (In Russ.) https://doi.org/10.17223/19996195/54/16</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B10">
    <label>10.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Палийчук Д. А. Проблема определения понятия коллокация в современной лингвистике. Евразийский гуманитарный журнал. 2022. № 1. С. 20–25. https://elibrary.ru/fnxnkd</mixed-citation>
     <mixed-citation xml:lang="en">Palitchuk D. A. The problem of defining of &quot;collocation&quot; in modern linguistics. Eurasian Humanitarian Journal, 2022, (1): 20–25. (In Russ.) https://elibrary.ru/fnxnkd</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B11">
    <label>11.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Рахилина Е. В. О новых инструментах описания русской грамматики: корпус ошибок. Русский язык за рубежом. 2016. № 3. С. 20–25. https://elibrary.ru/wffcob</mixed-citation>
     <mixed-citation xml:lang="en">Rakhilina E. V. Russian learner corpus as a new tool of grammatical description of Russian. Russian Language Abroad, 2016, (3): 20–25. (In Russ.) https://elibrary.ru/wffcob</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B12">
    <label>12.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Теренин А. В. Место и роль ошибки в языковом развитии. Филологические науки. Вопросы теории и практики. 2016. № 5-3. C. 153–155. https://elibrary.ru/vsmgfh</mixed-citation>
     <mixed-citation xml:lang="en">Terenin A. V. The place and role of an error in the language development. Philological sciences. Issues of theory and practice, 2016, (5-3): 153–155. (In Russ.) https://elibrary.ru/vsmgfh</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B13">
    <label>13.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Тишулин П. Б. Виды языковых ошибок и возможности их исправления при обучении иностранному языку. Известия высших учебных заведений. Поволжский регион. Гуманитарные науки. 2012. № 1. С. 132–137. https://elibrary.ru/oxoqnt</mixed-citation>
     <mixed-citation xml:lang="en">Tishulin P. B. Types of language errors and improving them when teaching a foreign language. University proceedings. Volga region. Humanities, 2012, (1): 132–137. (In Russ.) https://elibrary.ru/oxoqnt</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B14">
    <label>14.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Черноусова А. О. К вопросу о коллокациях. Вестник Московского государственного областного университета. Серия: Лингвистика. 2019. № 1. С. 57–64. https://doi.org/10.18384/2310-712X-2019-1-57-64</mixed-citation>
     <mixed-citation xml:lang="en">Chernousova A. O. On the notion of collocations. Bulletin of Moscow State Regional University. Series &quot;Linguistics&quot;, 2019, (1): 57–64. (In Russ.) https://doi.org/10.18384/2310-712X-2019-1-57-64</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B15">
    <label>15.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Яновская Е. А., Нескрёба А. В. Наиболее типичные ошибки при изучении иностранного языка и некоторые пути их преодоления. Иностранные языки в контексте межкультурной коммуникации: XII Всерос. науч.-практ. конф. с Междунар. участием. (Саратов, 25–26 февраля 2020 г.) Саратов: Сарат. ист-к, 2020. C. 325–330. https://elibrary.ru/vdstmb</mixed-citation>
     <mixed-citation xml:lang="en">Yanovskaya E. A., Neskreba A. V. Typical mistakes in learning a foreign language and some ways to overcome them. Foreign languages in the context of intercultural communication: Proc. XII All-Russian Sci.-Prac. Conf. with Intern. Participation, Saratov, 25–26 Feb 2020. Saratov: Sarat. ist-k, 2020, 325–330. (In Russ.) https://elibrary.ru/vdstmb</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B16">
    <label>16.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Bryant C., Felice M., Briscoe T. Automatic annotation and evaluation of error types for grammatical error correction. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, 30 Jul–4 Aug. Vancouver: Association for Computational Linguistics, 2017, 793–805. https://doi.org/10.18653/v1/P17-1074</mixed-citation>
     <mixed-citation xml:lang="en">Bryant C., Felice M., Briscoe T. Automatic annotation and evaluation of error types for grammatical error correction. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, 30 Jul–4 Aug. Vancouver: Association for Computational Linguistics, 2017, 793–805. https://doi.org/10.18653/v1/P17-1074</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B17">
    <label>17.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Edge J. Mistakes and Corrections. NY: Longman, 1989, 80.</mixed-citation>
     <mixed-citation xml:lang="en">Edge J. Mistakes and Corrections. NY: Longman, 1989, 80.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B18">
    <label>18.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Khokhlova M. V. Learner corpora: Relevant information and an overview of the existing frameworks. Terra Linguistica, 2023, 14(1): 57–69. https://doi.org/10.18721/JHSS.14106</mixed-citation>
     <mixed-citation xml:lang="en">Khokhlova M. V. Learner corpora: Relevant information and an overview of the existing frameworks. Terra Linguistica, 2023, 14(1): 57–69. https://doi.org/10.18721/JHSS.14106</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B19">
    <label>19.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Lyster R., Ranta L. Corrective feedback and learner uptake: Negotiation of form in communicative classrooms. Studies in Second Language Acquisition, 1997, 19(1): 37–66. https://doi.org/10.1017/S0272263197001034</mixed-citation>
     <mixed-citation xml:lang="en">Lyster R., Ranta L. Corrective feedback and learner uptake: Negotiation of form in communicative classrooms. Studies in Second Language Acquisition, 1997, 19(1): 37–66. https://doi.org/10.1017/S0272263197001034</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B20">
    <label>20.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Rakhilina E., Vyrenkova A., Mustakimova E., Ladygina A., Smirnov I. Building a learner corpus for Russian. Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition at SLTC: Proc. Conf., Umeå, 16 Nov 2016. Linköping: LiU Electronic Press, 2016, 66–75.</mixed-citation>
     <mixed-citation xml:lang="en">Rakhilina E., Vyrenkova A., Mustakimova E., Ladygina A., Smirnov I. Building a learner corpus for Russian. Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition at SLTC: Proc. Conf., Umeå, 16 Nov 2016. Linköping: LiU Electronic Press, 2016, 66–75.</mixed-citation>
    </citation-alternatives>
   </ref>
   <ref id="B21">
    <label>21.</label>
    <citation-alternatives>
     <mixed-citation xml:lang="ru">Soyeon Y. The learner corpora of spoken English: What has been done and what should be done? Language Research, 2020, 56(1): 29–51. https://doi.org/10.30961/lr.2020.56.1.29</mixed-citation>
     <mixed-citation xml:lang="en">Soyeon Y. The learner corpora of spoken English: What has been done and what should be done? Language Research, 2020, 56(1): 29–51. https://doi.org/10.30961/lr.2020.56.1.29</mixed-citation>
    </citation-alternatives>
   </ref>
  </ref-list>
 </back>
</article>
