Языковое образование онлайн: принципы создания размеченного корпуса ошибок в специализированном английском языке русскоязычных работников IT-сферы

Виноградова Юлия Сергеевна; Ильченко Игорь Владимирович; Ширяева Полина Сергеевна; Горина Мария Сергеевна

doi:doi:10.21603/2782-4799-2024-3-3-245-254

Языковое образование онлайн: принципы создания размеченного корпуса ошибок в специализированном английском языке русскоязычных работников IT-сферы

Отправить рукопись Скачать PDF
Текст

Цитировать

Цитирований:

ЯЗЫКОВОЕ ОБРАЗОВАНИЕ ОНЛАЙН: ПРИНЦИПЫ СОЗДАНИЯ РАЗМЕЧЕННОГО КОРПУСА ОШИБОК В СПЕЦИАЛИЗИРОВАННОМ АНГЛИЙСКОМ ЯЗЫКЕ РУССКОЯЗЫЧНЫХ РАБОТНИКОВ IT-СФЕРЫ

Журнал: ВИРТУАЛЬНАЯ КОММУНИКАЦИЯ И СОЦИАЛЬНЫЕ СЕТИ Том 3 № 3 , 2024

Рубрики: ЛИНГВОДИДАКТИКА В СОЦИАЛЬНЫХ СЕТЯХ

ВАК 5.9.8 Теоретическая, прикладная и сравнительно-сопоставительная лингвистика

УДК 811 Языки естественные и искусственные

Виноградова Юлия Сергеевна ¹

Ильченко Игорь Владимирович ²

Ширяева Полина Сергеевна ³

Горина Мария Сергеевна ⁴

Информация об авторах и публикации

Авторы:

1. НИУ ВШЭ – Санкт-Петербург

Санкт-Петербург, Россия

2. НИУ ВШЭ – Санкт-Петербург
с 01.01.2023 по 01.01.2025
Санкт-Петербург, Россия

3. НИУ ВШЭ – Санкт-Петербург

Санкт-Петербург, Россия

4. ООО «Яндекс»

Москва, Россия

Тип:

Статья

DOI:

https://doi.org/10.21603/2782-4799-2024-3-3-245-254

EDN:

https://elibrary.ru/NNDMXJ

Страницы:

с 245 по 254

Статус:

Опубликован

Получено:

01.06.2024

Одобрено:

19.08.2024

Опубликовано:

01.10.2024

Классификаторы:

ВАК 5.9.8 Теоретическая, прикладная и сравнительно-сопоставительная лингвистика
УДК 811 Языки естественные и искусственные

Язык материала:

русский

Ключевые слова:

корпус ошибок, учебный корпус, аннотация, тегирование, обнаружение ошибок, английский как иностранный

Аннотация и ключевые слова

Аннотация:
Сегодня создание учебных корпусов представляет большой интерес для многих лингвистов. В статье рассматривается значимость учебных корпусов в современной лингвистике и педагогике, их важность как инструмента для выявления типичных ошибок в речи на неродном языке, анализа проблем в освоении языка и создания эффективных методик обучения второму языку. В работе приводятся существующие обзоры на учебные корпусы, а также краткий обзор работ, посвященных классификации ошибок. Наше исследование посвящено созданию устного корпуса ошибок русскоязычных студентов, изучающих специализированный английский язык в сфере информационных технологий. Исследование проводится на материале 50 видеозаписей занятий, на которых студенты общаются с англоговорящими IT-специалистами и выполняют задания на английском языке в формате диалога. Цель создания корпуса – выявить основные трудности в использовании английского языка взрослыми, работающими в IT-сфере. В результате для разметки корпуса была разработана классификация самых частотных ошибок носителей русского языка в речи на английском языке и система тегов для них. Все ошибки делятся по уровню языка на морфологические, синтаксические, лексические и фонетические. Сделан вывод, что созданная в рамках работы классификация ошибок может быть использована для аннотации будущих учебных корпусов речи носителей русского языка на английском языке, а также для автоматизации тегирования ошибок.

Ключевые слова:
корпус ошибок, учебный корпус, аннотация, тегирование, обнаружение ошибок, английский как иностранный

Текст

Текст (PDF): Читать Скачать

Введение

Во многих лингвистических работах появление корпусов сравнивают с новой эпохой в лингвистике. Действительно, их создание и изучение дали новый импульс лингвистическим исследованиям в XXI веке [Рахилина 2016: 20-21]. За последние 50 лет появилось такое количество корпусов, что для них уже составлена своя типология по различным критериям: языку, жанру текстов, задачам корпуса и другим признакам [Хохлова 2023: 59-61, Копотев^{^[1]}]. В этой статье мы остановимся на одном из существующих типов корпуса – учебном, или корпусе ошибок.

Сегодня создание учебных корпусов представляет большой интерес для лингвистов по нескольким причинам. Во-первых, такие корпусы являются ценным материалом для определения типичных ошибок, совершаемых студентами при изучении неродного языка: фиксируя речь студентов на неродном языке, корпус ошибок предоставляет когнитивным лингвистам и психолингвистам возможность проанализировать не только совершаемые студентами ошибки, но и природу их появления (например, установить, в каких случаях имеет влияние языковая интерференция), их обусловленность закономерностями организации билингвального языкового сознания. Во-вторых, “подсвечивая” проблемные места в речи студентов, учебные корпусы позволяют выявить трудности в освоении языка, с которыми сталкиваются инофоны, что может принести особую пользу преподавателям иностранных языков и методистам при разработке более эффективных методик обучения второму языку [Колмогорова 2019]. В-третьих, современные исследования в области второго языка показывают, что корпусы ошибок обладают огромным потенциалом для понимания особенностей освоения языка, речевого онтогенеза [Захарова 2016].

Учебные корпусы могут быть составлены на материале письменных или устных текстов, подготовленной или спонтанной речи, текстов разных жанров и языков и т.д. Наше исследование посвящено созданию корпуса ошибок русскоязычных студентов, обучающихся в рамках онлайн-курса по английскому языку для IT-специалистов. Курс является продуктом одного из крупных российских международных сервисов онлайн-образования^{^[2]}. Для исследования были взяты 50 видеозаписей занятий студентов с англоговорящими специалистами в области информационных технологий. Это один из типов занятий, представленных на курсе: студент занимается не с преподавателем, а с англоговорящим IT-специалистом, коммуникация с которым происходит исключительно на английском языке. Кроме того, все задания выполняются в формате диалога – таким образом, материалом корпуса является устная речь русскоязычных студентов на английском языке (подробнее см. Раздел 4).

Основная цель создания нашего корпуса ошибок – это определить общие ключевые трудности в использовании английского языка у взрослых обучающихся, работающих в IT-сфере, получив и обработав статистику ошибок. Кроме того, наше исследование направлено на выявление основных проблем в речи студентов, находящихся на начальных этапах курса, что поможет понять основные потребности клиентов платформы, чтобы затем адаптировать к этим потребностям методическую организацию курса.

В статье мы последовательно рассмотрим примеры уже существующих учебных корпусов, подробно расскажем о принципах разработки нашего корпуса, его материале, этапах работы и планируемых результатах.

Виды учебных корпусов: сбор данных и аннотация ошибок

В теоретическом плане, наш проект в основном опирается на работы, посвященные, во-первых, созданию и обработке учебных корпусов, во-вторых – классификации и тегированию ошибок в речи говорящих на неродном языке.

Об учебных корпусах написано множество работ, в том числе и обзорных статей. Автор одной из них, М.В. Хохлова, подробно описывает существующие виды корпусов в зависимости от их задач, родного языка учащихся, уровня владения вторым языком, жанра текста и т.д. [Хохлова 2023]. Как и другие исследователи учебных корпусов, Хохлова подчеркивает, что, поскольку устные корпуса требуют больше времени и усилий на запись и расшифровку, большинство корпусов сосредоточены на письменных данных. Действительно, Соён Юн утверждает, что по состоянию на февраль 2020 года в CECL Католического университета Лувена перечислено 177 учебных корпусов, существующих в мире. Более половины из них (105 из 177, 59.3%) ориентированы на английский язык, но всего 35 англоязычных учебных корпусов (33,3%) являются устными или содержат как устные, так и письменные данные [Soyeon 2020: 30-31]. Безусловно, это лишь примерные цифры, особенно на текущий момент, когда появляется все больше новых корпусов, однако данная статистика доказывает, что устных корпусов создается гораздо меньше, чем письменных.

Многие исследователи сходятся во мнении о важности, скорее, не объема корпуса, а его репрезентативности. В первую очередь, нужно понимать, для каких задач собирается корпус, и насколько “глубоко” будет проведена с ним работа (например, как именно будет аннотироваться корпус, и будет ли аннотироваться вообще). Для одних целей не хватит и миллионов знаков, для других — будет достаточно и пяти тысяч [Копотев^{^[3]}: 8-9].

Корпуса ошибок особенно часто используются в педагогических целях. Учителям и преподавателям иностранных языков важно знать о сравнительной характеристике изучаемого и родного для учащегося языков, о потенциальных ошибках, возникающих из-за взаимного влияния этих двух языков, а также о типичных ошибках, которые говорящие на определенном языке могут совершать при изучении другого иностранного языка. Если преподаватель работает с учебными корпусами, то он может постоянно корректировать свою педагогическую деятельность и более эффективно обучать иностранному языку [Грудева и др. 2018].

Крайне важный этап при создании корпуса ошибок – его аннотация. Аннотация обычно включает в себя три этапа: выявление ошибок, их классификацию и исправление. В процессе классификации ошибки группируются по определенным типам (например, лексические, морфологические, синтаксические). После выявления ошибки она подлежит исправлению, в результате чего в аннотации фиксируются оба варианта – исходный (с ошибкой) и исправленный. Таким образом, можно выделить два уровня аннотации ошибок: первый связан с разметкой ошибок по их категориям, а второй – с их исправлением [Хохлова 2023: 63].

Методической литературы на тему самых распространенных ошибок в английском языке у носителей русского языка крайне мало. Много работ посвящено стратегиям коррекции ошибок [Lyster, Ranta 1997: 44-51; Тишулин 2012: 134-136], существует множество классификаций ошибок в речи на неродном языке с точки зрения причины их возникновения [Богданова 2014: 67-68], степени их грубости [Теренин 2016: 153], уровня языка [Кондрашова 2015: 28-37], однако теоретических работ с подробным описанием типов ошибок внутри их групп по уровням языковой системы мы не обнаружили. С методической точки зрения, в [Edge 1989: 9] автор предлагает разделять все ошибки на три группы: оговорки; ошибки, появляющиеся в пройденном материале; ошибки, возникающие в неизученном материале. Такая общая классификация не подходит для цели нашего исследования. В связи с этим мы разрабатываем собственную классификацию ошибок, речь о которой пойдет далее.

Постановка проблемы. Актуальность и новизна.

Проанализировав имеющуюся литературу по теме исследования, мы пришли к выводу, что существующие в педагогике типологии ошибок либо не опираются на практический материал, либо описывают наблюдения за речью учеников без структурного статистического анализа. В своей работе мы предлагаем классификацию ошибок, основанную на корпусном материале и отражающую реальные трудности в речи русскоязычных студентов на английском языке.

В области корпусных исследований ошибок большинство корпусов посвящены ошибкам в английском языке. Однако наш корпус отличается тем, что представленные в нем учащиеся — взрослые студенты с уверенным знанием английского языка, которые хотят улучшить навыки повседневной устной коммуникации в рамках рабочих задач. Такая специфика позволяет считать наш корпус особенно актуальным и востребованным для преподавателей профессионального английского языка для специалистов IT-сферы.

Новизна исследования определяется, в первую очередь, его материалом, которым являются онлайн-занятия русскоязычных студентов с англоговорящими специалистами в области информационных технологий. На момент написания данной статьи подобных корпусов в открытом доступе не было обнаружено, что подчеркивает уникальность работы. Принципиально новым аспектом исследования также является разработка классификации ошибок для корпуса, опирающейся на практический материал и включающей конкретные типы ошибок, распределенные по уровням языка. Кроме того, четкие задачи исследования от компании-заказчика позволяют назвать нашу работу актуальной не только с точки зрения исследований в областях лингвистики и педагогики, но и с точки зрения применения полученных знаний на практике. Исследование поможет модернизировать опыт онлайн-обучения для будущих студентов в данном сервисе онлайн-образования. Это новый взгляд на обучение, который не наказывает студентов за ошибки, а опережает их возникновение, и заранее подготавливает преподавателей к будущим трудностям.

План-проспект исследования. Материал.

Как уже было упомянуто выше, материалом корпуса являются записи онлайн-занятий студентов-носителей русского языка с англоговорящими IT-специалистами. На данный момент собрано 50 таких записей общей длительностью 42 часа. Остановимся подробнее на объеме и выборке корпуса.

На сегодняшний день не существует четких требований к объему корпуса, и мы, вслед за М.В. Хохловой, считаем, что ключевая характеристика любого корпуса − это его качество, а не количество материала [Хохлова 2023: 59]. При выборе объема нашего корпуса учитывалось несколько факторов: задача корпуса, количество разметчиков и выделенное на работу время. Наш корпус является узконаправленным: во-первых, его материал – это устная речь определенной группы студентов, а именно взрослых людей (примерно от 20 до 45 лет), работающих в сфере информационных технологий и владеющих английским языком приблизительно на уровне B1-B2. Во-вторых, корпус состоит из речи студентов, проходящих курс специализированного английского языка. Следовательно, задача нашего корпуса заключается в выявлении проблемных аспектов в изучении английского языка в IT-сфере в рамках указанной группы студентов и конкретного курса от российского международного сервиса онлайн-образования. Таким образом, имея достаточно узкую выборку, наш корпус не требует большого объема материала. Количество исследователей и время на обработку корпуса, к сожалению, также ограничены: сейчас над корпусом работают три человека, и уделить на разметку планируется 5-6 месяцев. В этих условиях обработка именно 50 уроков кажется нам разумной целью.

Важно также описать характер анализируемых занятий. Основная цель всего курса длиной в 7 месяцев – подготовить студентов к работе в международной компании на позиции продакт-менеджера, то есть специалиста, отвечающего за разработку и запуск продукта или услуги. Для корпуса мы выбрали один из типов представленных на курсе занятий: беседа с англоговорящим IT-специалистом. Это особые занятия, которые проводятся в конце каждого месяца обучения для закрепления пройденного материала и отработки рабочих ситуаций (собеседование, обсуждение проекта в команде и т.п.). Важно вновь подчеркнуть, что роль преподавателя в таких случаях выполняет именно специалист в сфере информационных технологий, который не является педагогом по образованию, поэтому занятия очень приближены к ситуации общения в международной команде. Для удобства далее в статье мы будем называть их преподавателями, а сами занятия – “симуляциями”, поскольку они симулируют общение студента с будущим “коллегой из международной компании”. Все общение во время симуляций осуществляется в устной форме: выполнение заданий, перед которыми студент имеет несколько минут на подготовку, и свободное общение с IT-специалистом (рассказ о себе, ответы на вопросы вне заданий). Таким образом, материалом нашего корпуса является как подготовленная, так и спонтанная устная речь на английском языке. Стоит также отметить, что мы брали только первые или вторые симуляции курса, поскольку одна из целей исследования – определить языковые проблемы студентов, недавно пришедших на курс. Все отобранные занятия проводились с 2023 по 2024 год. Каждое онлайн-занятие длится один час.

Основными этапами нашего исследования являются:

Создание классификации ошибок носителей русского языка в речи на английском языке;
Присваивание тегов всем типам ошибок;
Расшифровка 50 видеозаписей занятий и разметка ошибок;
Анализ размеченного корпуса и выявление самых частых типов ошибок.

На этапе составления собственной классификации самых распространенных ошибок, совершаемых русскоязычными студентами при изучении английского языка, мы основывались на исследованиях уроков английского языка в русских школах, а также на собственном преподавательском опыте. Например, согласно некоторым исследованиям [Яновская, Нескрёба 2020], чаще всего встречаются ошибки на уровне грамматики, особенно пропуск предлогов и артиклей.

На этапе создания тегов мы опирались на уже существующие корпуса с разметкой ошибок, такие как Russian Learner Corpus (RLC) [Рахилина и др. 2016], и работы по автоматизации разметки учебных корпусов [Bryant и др. 2017]. Например, из RLC мы взяли теги Morph, Lex, WO, Tense и др. (см. Таблицу 1). Помимо этого, некоторые теги были расширены, иные – заменены или убраны. Так, мы убрали изначально добавленный тег “Conj” для ошибок в использовании союзов, поскольку при разметке такой тип ошибки не был обнаружен; тег “Pronoun” в группе лексических ошибок был добавлен уже в ходе разметки, так как мы заметили часто встречающиеся ошибки в употреблении местоимений other-another и т.п.

При непосредственной разметке расшифровок онлайн-занятий мы столкнулись с некоторыми трудностями: например, с определением дочерних тегов для ошибок на лексическом уровне. Основной вопрос заключался в том, что считать ошибкой в коллокации, а что неверным подбором слова для конкретного контекста. Коллокациям посвящено множество работ [Черноусова 2019; Палийчук 2022], однако термин все еще остается размытым. В рамках нашего исследования мы будем считать ошибкой в коллокации и отмечать тегом “Colloc” те случаи, когда употребленное студентом словосочетание не встречается в речи носителей языка. Например, если студент говорит do a mobile app вместо make a mobile app. В случаях если само словосочетание возможно в языке, но было неверно употреблено в конкретном контексте, мы ставили общий тег “Lex”. Например:

So I'm already on module two, but I finished the first one. So I get {have}[Lex] enough knowledge.

В данном случае студент, отвечая на вопрос IT-специалиста о его обучении, имел в виду, что он уже прошел первый модуль программы курса, поэтому имеет достаточно знаний для занятия. Хотя словосочетание get knowledge существует в английском языке, в данном контексте, скорее, верным будет вариант have knowledge. Соответственно, проблема возникла не из-за сочетаемости двух слов, а из-за контекста, поэтому мы поставили общий тег “Lex”, без добавления уточняющего тега “Colloc”.

В Таблице 1 помещена последняя версия дерева тегов на данный момент. Оно состоит из родительских тегов, соответствующих уровням языка (Morph, Synt, Lex, Pron) и дочерних, уточняющих тип ошибки. Таким образом, большинство ошибок имеют минимум 2 тега. Приведем примеры разметки ошибок каждого уровня. По нашим наблюдениям на данный момент, одной из часто встречающихся ошибок на морфологическом уровне является ошибка в образовании формы слова, например:

Maybe I need to make the first one shorter, much more shorter {much shorter}[Morph][WordForm][Adj].

В данном случае первый тег указывает на морфологический характер ошибки, второй уточняет, что это ошибка в образовании формы слова, и третий – что это форма прилагательного. Кроме того, для всех ошибок в фигурных скобках мы также указываем исправленный вариант.

На синтаксическом уровне студенты достаточно часто ошибаются в выборе времени глагола. В таких случаях дочерним тегом указывается то время, которое является правильным, например:

It was in school actually, quite a good preparation {training}[Lex] because we have {had}[Synt][Tense][PastS] a really nice teacher…

В этом предложении описывается ситуация, произошедшая в прошлом, о чем свидетельствует начало предложения (It was…), поэтому у слова have поставлен тег уровня языка “Synt”, тег типа ошибки “Tense” и тег “PastS”, уточняющий конкретное время глагола. В этом примере можно также видеть лексическую ошибку, помеченную тегом “Lex”. Подобные ошибки мы не помечаем тегом для коллокаций “Colloc”, поскольку само словосочетание “a good preparation” может существовать, то есть ошибка состоит именно в подборе неверного слова для данного контекста.

Приведем пример ошибки в произношении:

It's also [Pron] pretty shiny.

Важно отметить, что разметка на фонетическом уровне на данном этапе исследования является скорее предварительной: мы отмечаем только явные ошибки в произношении слов, такие как неправильная постановка ударения, замена одной фонемы на другую (например, в слове process фонему [s] часто заменяют на [ts]) и т.д. Особенности русского акцента (неправильное произношение фонемы [θ] и т.д.) мы не учитываем. Это связано с тем, что для студентов анализируемого курса фонетический аспект языка является наименее важным, поскольку их задача сводится не к достижению уровня носителя языка, а в способности поддерживать коммуникацию в международной команде, где каждый обладает своим акцентом и особенностями произношения.

Третьим этапом является расшифровка аудиозаписей. Для этого мы использовали компьютерную модель AI Whisper^{^[4]}, а именно его «маленькую» версию, так как более глубокая модель Large V2 исправляет некоторые ошибки студентов (например, вставляет пропущенные артикли, меняет форму глагола и т.п.), что мешает нашему исследованию. Безусловно, в автоматических расшифровках встречаются неточности, поэтому перед разметкой они проверяются вручную. Далее в речи студентов мы выделяем ошибки и расставляем теги (речь преподавателя не анализируется, но она будет присутствовать в корпусе для сохранения контекста).

Таблица 1. Теги ошибок

Table 1. Error tags

Уровень языка	Тег	Подтег	Тип ошибки
Морфология тег: Morph	Plur		Неправильная форма числа или выбрано не то число, ex.g: advices; this-these/that-those* constraint - constraints
	WordForm	Verb Adv Noun Pronoun Adj ingForm Num	Неправильное словообразование, ex.g.: creative - creativity; to speak - speaking; *winned - won
	SVA		Нарушение согласования подлежащего и сказуемого, ex.g.: *he have - he has
Синтаксис тег: Synt	Art	WArt ZeroArt	Неверный артикль или пропуск артикля
	Prep	WPrep ZeroPrep	Неверный предлог или пропуск предлога
	WO		Неправильный порядок слов
	WordZero		Пропуск слова, ex.g.: пропуск it: “It's pretty depressing when always snow”.
	Tense	PresS PastS FutureS PresCont PastCont PresPerf PastPerf PresPerfCont PastPerfCont	Неправильный выбор времени глагола
	AgrTense		Нарушение согласования времен
	Modal		Ошибка в модальных глаголах, ex.g.: пропуск to и т.п.
	Constr		Ошибка в конструкции, ex.g.: if I will; порядок слов в придаточном*
	Link		Ошибка в использовании глагола-связки, ex.g.: пропуск, вставка лишнего и т.д.
Лексика тег: Lex	Colloc		Ошибка в сочетаемости слов, ex.g.: do-make, much-many
Лексика тег: Lex	Pronoun		Неправильный выбор местоимения, ex.g.: this-that, other-another, it-he
Фонетика тег: Pron			Ошибка в произношении

Если правильным вариантом является отсутствие слова (например, когда вставлен лишний предлог), используется прочерк {-}, для неразборчивых фрагментов ставится знак <inaud>. Наряду с тегами, представленными в Таблице 1, мы ввели тег “miscom” для ситуаций нарушения коммуникации: он позволит в дальнейшем отследить ошибки, препятствующие взаимопониманию между собеседниками.

Приведем фрагмент транскрипта, размеченный при помощи разработанной нами системы тегов:

And I actually need {needed}[Synt][Tense][PastS] to sell this idea to, actually, to prove that there's only right way {the only right way}[Synt][Art][ZeroArt] in our situation to top {the top}[Synt][Art][ZeroArt] manager of products {product manager}[Lex][Colloc] from other {another}[Lex][Pronoun] department.

В ближайшем будущем перед нами стоят две глобальные задачи:

Закончить расшифровку и тегирование корпуса, который на данный момент состоит из 50 записанных онлайн-занятий;
Собрать статистику, выявить самые частотные категории ошибок и визуализировать результаты.

После решения указанных задач мы видим следующие перспективы исследования: 1) более тщательное изучение ошибок в произношении и расширение тегов на фонетическом уровне; 2) использование корпуса для создания основанной на технологии машинного обучения модели автоматического тегирования ошибок русскоговорящих студентов на английском языке.

Заключение

Современная лингвистика стремительно развивается, и одним из ключевых инструментов, ставших настоящим прорывом в исследованиях, стали корпуса. В частности, учебные корпуса, также известные как корпуса ошибок, играют важную роль в понимании особенностей освоения иностранного языка студентами. Исследования в этой области позволяют выявлять типичные ошибки, проанализировать проблемные аспекты в освоении языка и создать более эффективные методики обучения.

В данной статье мы сфокусировались на принципах разработки нашего учебного корпуса, составленного на материале речи русскоязычных студентов онлайн-курса английского языка для IT-специалистов. Работа с таким корпусом представляет интерес не только для методистов курса, но и для лингвистического сообщества в целом, поскольку изучение ошибок русскоязычных студентов в онлайн-школе английского языка является актуальной задачей в областях лингвистики и педагогики. Это исследование позволит выявить как общие, так и уникальные для онлайн-контекста языковые трудности, открывая новые перспективы для улучшения процесса обучения второму языку. Кроме того, созданная в рамках работы классификация ошибок может быть использована для аннотации будущих учебных корпусов речи носителей русского языка на английском языке, а также для автоматизации тегирования ошибок.

Конфликт интересов: Авторы заявили об отсутствии потенциальных конфликтов интересов в отношении исследования, авторства и / или публикации данной статьи.

Conflict of interests: The authors declared no potential conflicts of interests regarding the research, authorship, and / or publication of this article.

Критерии авторства: Авторы в равной степени участвовали в подготовке и написании статьи.

Contribution: All the authors contributed equally to the study and bear equal responsibility for information published in this article.

Благодарности: Авторы выражают благодарность своему научному руководителю Колмогоровой Анастасии Владимировне за ценные советы при планировании исследования и рекомендации по оформлению статьи.

Acknowledgements: The authors would like to express their gratitude towards their research advisor, Anastasia V. Kolmogorova, for valuable advice on research planning and recommendations for the execution of this article.

^{^[1]} Копотев М.В. Введение в корпусную лингвистику. Электронное учебное пособие для студентов филологических и лингвистических специальностей университетов. Praha: Animedia, 2014. ISBN: 978-80-7499-067-0

^{^[2]} Название сервиса и подробности курса находятся под NDA

^{^[3]} Копотев М.В. Введение в корпусную лингвистику. Электронное учебное пособие для студентов филологических и лингвистических специальностей университетов. Praha: Animedia, 2014. ISBN: 978-80-7499-067-0

^{^[4]} https://github.com/openai/whisper

Список литературы

1. Богданова Т. Г. Роль исправления ошибок при обучении иностранному языку в неязыковом вузе. Научный Вестник Южного института менеджмента. 2014. № 4. С. 66–69. https://elibrary.ru/toecrx

2. Грудева Е. В., Бучилова И. А., Волкова Н. А. Корпусы ошибок: целевая аудитория, возможная архитектура корпуса. Вестник Череповецкого государственного университета. 2018. № 5. С. 63–72. https://doi.org/10.23859/1994-0637-2018-5-86-7

3. Дмитриев А. В., Коган М. С., Вдовина Е. К. Теоретико-прикладное значение корпусов в компьютерной лингводидактике. Litera. 2020. № 1. С. 200–216. https://doi.org/10.25136/2409-8698.2020.1.32219

4. Захарова Е. А. Применение результатов исследований корпусной лингвистики в обучении грамматике английского языка на продвинутом уровне. Вестник Российского университета дружбы народов. Серия: Русский и иностранные языки и методика их преподавания. 2016. № 2. С. 41–49. https://elibrary.ru/vwnqzr

5. Иванова В. И., Кулагина Т. И. Использование лингвистических корпусов текстов для формирования иноязычной учебно-познавательной компетенции. Вестник ПНИПУ. Проблемы языкознания и педагогики. 2022. № 3. С. 142–152. https://doi.org/10.15593/2224-9389/2022.3.12

6. Колмогорова А. В. Эмоциональная тональность как значимый субъективный параметр учебного текста при овладении русским языком как иностранным. Филологический класс. 2019. № 3. С. 95–101. https://doi.org/10.26170/FK19-03-13

7. Кондрашова Н. В. Прогнозирование и исправление студенческих ошибок при обучении иностранным языкам. Научный диалог. 2015. № 7. С. 27–47. https:/elibrary.ru/tzymln

8. Копотев М. В. Введение в корпусную лингвистику. Praha: Animedia, 2014. 195 с.

9. Павлова О. Ю. Использование языковых корпусов в обучении иностранному языку. Язык и культура. 2021. № 54. С. 283–298. https://doi.org/10.17223/19996195/54/16

10. Палийчук Д. А. Проблема определения понятия коллокация в современной лингвистике. Евразийский гуманитарный журнал. 2022. № 1. С. 20–25. https://elibrary.ru/fnxnkd

11. Рахилина Е. В. О новых инструментах описания русской грамматики: корпус ошибок. Русский язык за рубежом. 2016. № 3. С. 20–25. https://elibrary.ru/wffcob

12. Теренин А. В. Место и роль ошибки в языковом развитии. Филологические науки. Вопросы теории и практики. 2016. № 5-3. C. 153–155. https://elibrary.ru/vsmgfh

13. Тишулин П. Б. Виды языковых ошибок и возможности их исправления при обучении иностранному языку. Известия высших учебных заведений. Поволжский регион. Гуманитарные науки. 2012. № 1. С. 132–137. https://elibrary.ru/oxoqnt

14. Черноусова А. О. К вопросу о коллокациях. Вестник Московского государственного областного университета. Серия: Лингвистика. 2019. № 1. С. 57–64. https://doi.org/10.18384/2310-712X-2019-1-57-64

15. Яновская Е. А., Нескрёба А. В. Наиболее типичные ошибки при изучении иностранного языка и некоторые пути их преодоления. Иностранные языки в контексте межкультурной коммуникации: XII Всерос. науч.-практ. конф. с Междунар. участием. (Саратов, 25–26 февраля 2020 г.) Саратов: Сарат. ист-к, 2020. C. 325–330. https://elibrary.ru/vdstmb

16. Bryant C., Felice M., Briscoe T. Automatic annotation and evaluation of error types for grammatical error correction. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, 30 Jul–4 Aug. Vancouver: Association for Computational Linguistics, 2017, 793–805. https://doi.org/10.18653/v1/P17-1074

17. Edge J. Mistakes and Corrections. NY: Longman, 1989, 80.

18. Khokhlova M. V. Learner corpora: Relevant information and an overview of the existing frameworks. Terra Linguistica, 2023, 14(1): 57–69. https://doi.org/10.18721/JHSS.14106

19. Lyster R., Ranta L. Corrective feedback and learner uptake: Negotiation of form in communicative classrooms. Studies in Second Language Acquisition, 1997, 19(1): 37–66. https://doi.org/10.1017/S0272263197001034

20. Rakhilina E., Vyrenkova A., Mustakimova E., Ladygina A., Smirnov I. Building a learner corpus for Russian. Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition at SLTC: Proc. Conf., Umeå, 16 Nov 2016. Linköping: LiU Electronic Press, 2016, 66–75.

21. Soyeon Y. The learner corpora of spoken English: What has been done and what should be done? Language Research, 2020, 56(1): 29–51. https://doi.org/10.30961/lr.2020.56.1.29

Контент доступен под лицензией Creative Commons Attribution 4.0 International

Отправить рукопись Скачать PDF
Текст JATS XML