автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Инкорпорирование речевых компонентов в лингвистические обучающие системы
Полный текст автореферата диссертации по теме "Инкорпорирование речевых компонентов в лингвистические обучающие системы"
На правах рукописи
Ордин Михаил Юрьевич
ИНКОРПОРИРОВАНИЕ РЕЧЕВЫХ КОМПОНЕНТОВ В ЛИНГВИСТИЧЕСКИЕ ОБУЧАЮЩИЕ СИСТЕМЫ
Специальность 10.02.21- Прикладная и математическая лингвистика
АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата филологических наук
!
Москва-2006
Работа выполнена на кафедре прикладной и экспериментальной лингвистики государственного образовательного учреждения высшего профессионального образования «Московский государственный лингвистический университет»
Научный руководитель: доктор филологических наук, профессор
Потапова Родмонга Кондратьевна
Официальные опоненты: доктор филологических наук, доцент
Максименко Ольга Ивановна
кандидат филологических наук, доцент Лебедева Людмила Дмитриевна
Ведущая организация: Российский новый университет
Защита состоится « II » ь СсПС\ 2006 г. в // часов на заседании диссертационного совета Д 212.135.02 при ГОУ ВПО «Московский государственный лингвистический университет» (г. Москва, Остоженка 38,119992).
С диссертацией можно ознакомиться в диссертационном читальном зале библиотеки ГОУ ВПО «Московский государственный лингвистический университет»
Автореферат разослан «ЗР» 2006 г.
Ученый секретарь диссертационного совета
Страхова В. С.
/.ооб А
В настоящее время информационные технологии проникают практически в каждую сферу жизнедеятельности человека, в том числе в область обучения иностранным языкам. Одним из наиболее наукоемких и перспективных направлений в информационных технологиях являются речевые технологии. Проблематика создания компьютерных обучающих систем фонетического профиля на базе речевых технологий изучена в меньшей степени по сравнению с проблематикой построения систем обучения другим аспектам иноязычной речи.
Обучающее программное обеспечение, предназначенное для приобретения и повышения фонетической компетенции на материале иноязычной речи, без сомнения, нуждается в инкорпорировании речевых компонентов, которые могли бы выполнять такие функции, как оценка и коррекция речевой реализации высказывания обучающимся. Подобные возможности, предоставляемые пользователям, позволят обучающимся самостоятельно в автономном режиме приобретать соответствующую фонетическую компетенцию.
Настоящая диссертация посвящена исследованию проблемы создания обучающей лингвистической системы фонетического профиля с элементами акустической обратной связи и применения современного компьютерного инструментария в целях проведения лингвоконтрастивного анализа звучащей речи, определения основополагающих характеристик фонетической русско-английской интерференции методами корпусной и контрастивной лингвистики, а также перцептивной и экспериментальной фонетики1.
Актуальные вопросы, связанные с отдельными аспектами решаемых в рамках данного исследования задач, нашли свое отражение в фундаментальных трудах ведущих российских и зарубежных ученых: Азимова Э.Г., Атона Ж.-П., Варшауэра М., Витта С., Гольдштейна Л., Галунова В.И., Журавского Д., Каваи
1 Данное исследование поддерживается Министерством Образования и Науки РФ, номер гранта ГРНТИ 14 01 29 (научный руководитель проекта - Потапова РК) и грантом Американского Акустучлекогр ("ТЬшАЧ 11.1. гшяир гранта ЯХ0-1210(14)-ХХ-04(научныйруководитель проекта-ПотаповаРК) / ' "АЦНОИЛЛЬНЛЯ I
| БИБЛИОТЕКА 1
Г., Кедровой Г.Е., Либермана A.M., Линдблома Б., Потаповой Р.К2., Потапова, В.В3., Фанта Г., Хана Г., Чистович Л.А., Эскенази М. и многих других.
Актуальность диссертации определяется необходимостью разработки лингвистического и программного обеспечения обучающих систем фонетического профиля и методов инкорпорирования речевых компонентов, реализующих автоматическое распознавание речи, в обучающие системы.
Как показало наше исследование, существующее обучающее программное обеспечение фонетического профиля не отвечает современным требованиям, предъявляемым к средствам обучения, и не использует в полной мере потенциал новых информационных технологий. Как правило, обратная связь с обучающимся отсутствует или реализована с помощью лишь визуализации речевого сигнала, не всегда понятной пользователю без специальной профессиональной подготовки.
Основная гипотеза исследования формулируется следующим образом: любая система автоматического распознавания звучащей речи «ошибается» при распознавании интерферированной речи. Некоторые ошибки распознавания определяются наличием интерференции и нарушением звуковой системы языка, другие - несовершенством аппаратного обеспечения, ошибками алгоритмов распознавания звучащей речи, и искажениями речевого сигнала, вызванными внешними факторами, например, реверберацией. Применение существующей системы распознавания речи, методов корпусной лингвистики и перцептивной экспериментальной фонетики позволяет создать банк данных -ошибок распознавания, определяемых межъязыковой интерференцией на фонетическом уровне, и построить компьютерную обучающую фонетическую систему, позволяющую обучающемуся самостоятельно корректировать иноязычное произношение.
2 Исследования Потаповой Р К в области лингвистики и НИТ послужили основой для данной диссертации
3 Полученные экспериментальные данные в области фонетической интерференции подтвердили выводы и продолжили направление, изложенное в трудах Потапова В В, например, Potapov V V On Language Contrastive-Comparative Analysis of English and Russian Phonetic Systems // Proceedings of SPECOM 2003 - Moscow, 2003 и Potapov V V The American English Interference in Russian on the Segmental Level II Proceedings of SPECOM 2003 - Moscow, 2003
Основная цель представленной работы заключается в анализе потенциальной возможности применения новейших достижений в области речевых технологий для разработки фонетической обучающей системы с элементами акустической обратной связи и в создании прототипа основного программного модуля, реализующего распознавание интерферированной речи и осуществляющего оценку конкретных произнесений и произношения говорящего в целом.
Круг проблем, встающих перед разработчиком речевых компонентов для обучающих систем фонетического профиля, можно определить как автоматическое обнаружение, спецификацию и коррекцию ошибок в речи обучающихся (пользователей), а также разработку блока формирования рекомендаций пользователям по исправлению этих ошибок.
Поставленные проблемы требуют решения следующих конкретных задач:
1. анализ современных алгоритмов распознавания звучащей речи;
2. определение модели речепорождения, наиболее подходящей для компьютерной реализации;
3. рассмотрение и выделение достоинств и недостатков существующего обучающего программного обеспечения фонетического профиля;
4. выделение наиболее частотных ошибок при автоматическом распознавании интерферированной речи и определение того, вызваны ли они работой алгоритма или фонетико-фонологическими ошибками говорящего вследствие переноса особенностей индивидуального произношения на звуковую систему изучаемого иностранного языка;
' 5. разработка модели обучающей фонетической системы и работоспособного прототипа базового модуля, реализующего распознавание речи и элементы акустической обратной связи.
Научная новизна диссертации заключается в том, что в исследовании впервые собрана база данных - звуковых сегментов интерферированной русско-английской речи, содержащая наиболее трудные для автоматического распознавания кластеры фонемных реализаций. Впервые выделены
оптимальные алгоритмы для автоматического распознавания интерферированной речи в лингвистических обучающих системах фонетического профиля, ибо никогда ранее не предпринималась попытка анализа алгоритмов автоматического распознавания речи с целью выделения оптимальных подходов к созданию лингвистических обучающих систем фонетического профиля. В исследовании впервые применяются методы корпусной лингвистики для построения базы данных фонетических ошибок, допущенных при продуцировании речи человеком и при автоматическом распознавании интерферированной речи компьютером. Впервые разработана и применена методика классификации ошибок автоматического распознавания звучащей речи с учетом определяющих факторов: межъязыковой интерференции на фонетическом уровне и технических причин (искажения сигнала в каналах передачи, реверберация и акустика помещения, шумы, неточности алгоритма и т.д.). Впервые разработанные речевые компоненты на основе речевых интерфейсов прикладного программирования БАР1 адаптированы для создания фонетических обучающих систем.
Методологической и теоретической основой исследования послужили труды Потаповой Р.К., Потапова В.В., Чистович Л.А. и др.
В работе использовались методы корпусной лингвистики, контрастивной лингвистики, экспериментальной и перцептивной фонетики.
Методика исследования включает:
• Теоретический анализ специальной литературы по проблеме автоматического распознавания речи, повышения помехоустойчивости автоматического распознавания интерферированной звучащей' речи, и по проблеме межъязыковой интерференции на фонетическом уровне.
• Критический анализ существующих обучающих систем фонетического профиля.
• Формирование банка данных-«ошибок» автоматического распознавания звучащей речи, вызванных межъязыковой фонетической интерференцией.
• Моделирование компьютерной фонетической обучающей системы с учетом экспериментальных данных.
• Адаптация речевых компонентов и разработка прототипа модуля обучающей системы, реализующего базовый метод распознавания речи.
• Верификация сформированного банка данных-«ошибок» с помощью разработанного прототипа модуля обучающей системы, реализующего базовый метод распознавания речи.
Теоретическая значимость диссертации заключается в том, что разработанный метод адаптации существующих речевых компонентов к инкорпорированию в обучающее фонетическое программное обеспечение применим к разноплановым компонентам от различных сторонних производителей.
В качестве оптимальной модели речепроизводства для программной реализации и формирования базы знаний, содержащей характеристики артикуляции русских и английских речевых сегментов в потоке речи, определена динамическая модель Фаулера.
Настоящее исследование вносит определенный вклад в дальнейшее развитие теории человеко-машинной коммуникации, в развитие концепции автоматического распознавания речи, в дальнейшее углубление представлений о явлении межъязыковой интерференции.
Практическая ценность диссертации заключается в том, что разработанный в рамках работы над диссертацией обучающий модуль является прототипом полнофункциональной обучающей фонетической системы, которая рекомендуется к использованию студентами при работе над сегментным строем изучаемого языка.
Полученный банк наиболее частотных ошибок автоматического распознавания речи, вызываемых межъязыковой фонетической интерференцией, целесообразно использовать для построения автоматического верификатора родного языка диктора (русского языка), говорящего на английском языке.
Достоверность полученных сведений определена использованием в качестве инструмента получения исходного банка данных-ошибок распознавания системы ViaVoice, которая является законченной коммерческой лицензированной разработкой компании IBM; представительной выборкой информантов, независимой верификацией результатов с использованием самостоятельно разработанного инструментария, методологической базой и применявшимся математическим статистическим аппаратом. В эксперименте приняли участие 42 диктора - носители русского языка со знанием английского языка (студенты МГЛУ) - и 6 аудиторов - профессиональные фонетисты с опытом экспериментальной работы и участия в перцептивных экспериментах.
Результаты эксперимента подверглись верификации с применением разработанного программного модуля, реализующего базовый метод распознавания речи, и разработанного на той же технологической основе, которая использовалась при создании основного экспериментального инструмента - системы распознавания устной речи ViaVoice.
Результаты исследования были апробированы на международных конференциях SPECOM-2003, SPECOM-2004, SPECOM-2005, тринадцатой и пятнадцатой сессиях Российского Акустического Общества, на конференции Информатизация и информационная безопасность правоохранительных органов 2004, на кафедре прикладной и экспериментальной лингвистики МГЛУ, в итоговых отчетах, представленных в Министерство образования и науки РФ и Американское акустическое общество.
На защиту выносятся следующие положения:
1. Существующие на сегодняшний день и свободно распространяемые речевые компоненты могут быть частично адаптированы к решению задачи разработки лингвистического обучающего программного обеспечения фонетического профиля с элементами акустической обратной связи.
2. Не все фонетико-фонологические ошибки обучающегося, вызванные интерференцией, ведут к некорректному автоматическому распознаванию речи,
если используются существующие на сегодняшний день и свободно распространяемые речевые компоненты.
3. При применении существующих и свободно распространяемых речевых компонентов необходимо сконцентрировать внимание на коррекции тех фонетико-фонологических ошибок в речи обучающегося, которые вызывают «ошибки» распознавания системой.
4. При разработке компьютерной обучающей системы, способной оптимально обнаружить фонетико-фонологические ошибки в речи обучающегося, целесообразно создание специальных речевых компонентов.
5. Экспериментальный подход, примененный к формированию банка данных-«ошибок» распознавания, обусловленных межъязыковой фонетической интерференцией, представляется наиболее соотносимым с решением поставленной в исследовании задачи разработки лингвистической обучающей системы фонетического профиля.
Структура и содержание работы определяется поставленными задачами и методикой исследования.
Диссертация состоит из введения, двух глав, заключения, списка используемой литературы и пяти приложений.
Во введении определяется объект исследования, формулируется основная гипотеза, определяются цели и задачи исследования, аргументируется новизна работы и обосновывается актуальность темы, раскрывается теоретическая и практическая значимость диссертации, представляется методологическая база и используемые методы исследования, а также описывается методика исследования и подтверждается достоверность полученных результатов.
Первая глава содержит аналитический обзор алгоритмов распознавания речи применительно к разработке фонетической обучающей системы. Анализируются методы автоматического обнаружения фонетических отклонений в речи говорящего от аутентичных речевых образцов, рассматриваются вопросы автоматической оценки произношения в целом и
конкретных произнесений обучающегося, излагаются алгоритмы повышения устойчивости автоматического распознавания интерферированной речи.
Для повышения устойчивости автоматического распознавания речи к иноязычному акценту применяются:
• тренировка акустических моделей к каждому конкретному акценту на основе отдельного корпуса звучащей речи для каждого языка;
• инкорпорирование в лексикон фонетически детализированных вариантов произнесения лексических единиц. Варианты произнесений можно получить после применения фонологических трансформационных правил родного языка говорящего к звуковому строю языка, речевая реализация которого является объектом распознавания.
В целях обнаружения в речи обучающегося отклонений от аутентичных образцов (то есть фонетико-фонологических ошибок) достаточно использовать кепстральные коэффициенты двенадцатого порядка, их дельта и дельта-дельта параметры, а также дельта и дельта-дельта параметры RMS энергии на сравниваемых сегментах речевого сигнала. Параметрические векторы, описывающие аутентичный эталон и конкретное произнесение пользователя, сравниваются с помощью вычисления меры схожести между ними путем определения эвклидова расстояния или расстояния Махаланобиса.
Ошибку произнесения можно также обнаружить путем вычисления энергетической разницы между спектральными коэффициентами линейного предсказания. В этом случае оценивается мера схожести тестовых данных, полученных на основе статистической модели линейного предсказания, и данных, полученных непосредственно путем анализа речевого сигнала. Мера схожести рассчитывается следующим образом:
D(yl,y2) = -J1-z-L
au-l-R2aij',
R2 представляет собой автокорреляционную матрицу, используемую для получения параметров линейного предсказания для вектора х2. Этот метод удобен применительно к параметрическим векторам, содержащим
коэффициенты линейного предсказания, однако первый метод учитывает большее количество параметров и позволяет выделить ошибку с большей точностью.
Применение и первого, и второго методов в одной обучающей системе позволит уменьшить количество ложных обнаружений и в то же время увеличить «чувствительность» системы к отклонениям от аутентичных речевых образцов.
Качество произнесения каждого аллофона определяется как вероятность того, что пользователь произнес аллофон р, если этот фон обладает набором акустических параметров Z, а множество всех возможных фонов Q включает как аллофоны родного обучающегося, так и аллофоны изучаемого языка4.
Вероятность рассчитывается исходя из следующих предпосылок (ни одна из которых не является корректной по отношению к звуковому строю естественных языков):
• все аллофоны имеют одинаковую частотность в изучаемом языке;
• общую вероятность всех аллофонов с набором акустических параметров Z можно считать равной максимальной вероятности любого фона из Q, обладающего набором акустических параметров Z.
Оценка произношения (интегральной характеристики) обучающегося определяется, исходя из сокращения аллофонии в речи на изучаемом языке. ARR - allophone reduction ratio - рассчитывается следующим образом:
ARR = ~ * 100
^ш/t "correct
где
nstart - количество отчетливо выделяемых в речи обучающегося аллофонов (включая аллофоны родного и изучаемого языка) в процессе речепроизводства на изучаемом языке.
^сштет — количество акустических моделей, соответствующих аллофонам в речи обучающегося в момент тренинга. Предполагается, что это число
4 Система обозначений 7. - вектор акустических параметров, О - множество всех аллофонов в речи обучающегося, включая аллофоны как родного, так и изучаемого языка, р - элемент множества О
сокращается по мере увеличения суммарного времени, потраченного обучающимся на работу с обучающей фонетической системой.
Псогге«-количество аллофонов в изучаемом языке.
В первой главе представлен также обзор современных фонетических обучающих систем в историческом ключе, классификация современных компьютерных средств обучения произносительной стороне иноязычной речи, существующие и потенциально возможные способы реализации акустической обратной связи. Раскрываются принципы разработки обучающего фонетического программного обеспечения с учетом новых достижений в компьютерных и речевых науках. Базовым материалом являются работы Р.К. Потаповой.
Обратная связь в фонетических обучающих системах определяется используемыми физическими параметрами (акустическими,
артикуляционными, перцептивными, смешанными); детализацией оценки пользовательской речевой реализации; используемыми эталонами и учетом предшествующих результатов обучения.
Разнообразие существующих обучающих систем определяет целесообразность существования нескольких разноплановых классификаций, отвечающих потребностям разработчика, пользователя - обучающегося, методиста-преподавателя, или дистрибутора программного обеспечения.
Технологию создания обучающих систем целесообразно рассматривать как многоуровневый процесс, каждый уровень которого соответствует определенной стадии разработки: исследования, развития, конструирования и внедрения. Достижения первых двух уровней фиксируются в виде диаграмм на языке моделирования программного обеспечения иМЬ, достижения стадии конструирования - в виде готового программного продукта или аппаратно-программного комплекса, а достижения последнего уровня - в виде оценки эффективности или неэффективности использования продукта в учебном процессе.
и
Кроме того, в первой главе рассматривается феномен лингвистической интерференции и механизмы речепроизводства и речевосприятия, которые и обусловливают перенос элементов звуковой системы родного языка в звуковой строй изучаемого языка. Учет артикуляторных факторов обязателен при разработке фонетического обучающего программного обеспечения, поэтому в первой главе также раскрываются вопросы программной реализации артикуляторных моделей.
Моделирование процессов речепроизводства необходимо для разработки модуля формирования рекомендаций по самостоятельному исправлению произнесений обучающимся.
Артикуляция представляет собой некий континуум в п-мерном пространстве, где п - количество активных артикуляторных органов, формирующих различные конфигурации голосового тракта. Изменения в артикуляторном континууме влекут за собой изменения в акустическом пространстве.
Динамическая модель речепроизводства является программно реализуемой и оптимальной при разработке обучающей фонетической системы. Динамическая модель речепорождения есть исполнение моторной фонологической программы координационными структурами с учетом психофизиологического механизма внутреннего таймирования. Следовательно, современная объектно-ориентированная парадигма программирования оптимальным образом подходит для моделирования процессов речеобразования.
Структура представляется как объект со своими свойствами и методами, который реагирует на некие события. Структура определяется через набор свойств, что позволяет моделировать состояние объекта или статический компонент фонологического уровня. Взаимодействие фонологических компонентов и координационных структур программно реализуется посредством программирования реакций этих компонентов или структур на внешние раздражители. Изменение свойств объектов вызывает реализацию
метода, меняющего свойства объекта и генерирующего сообщение об этом другим объектам. Сообщение может содержать некоторые параметры, передаваемые объекту. Параметры регулируют изменение внутреннего поведения объекта. Обмен сообщениями и изменение состояния объекта в зависимости от изменений свойства других объектов есть способ моделирования динамических аспектов процесса речепроизводства.
Во второй главе описывается экспериментальное исследование фонетической русско-английской интерференции, проведенное с целью формирования базы данных наиболее частотных ошибок, возникающих при автоматическом распознавании интерферированной англоязычной речи носителей русского языка. В рамках эксперимента был сформирован корпус наиболее частотных ошибок автоматического распознавания речи, корпус наиболее частотных фонетических и фонологических ошибок в англоязычной речи носителей русского языка, и банк данных-«ошибок» автоматического распознавания речи, вызываемых межъязыковой русско-английской интерференцией.
В качестве основного инструмента проведения эксперимента была выбрана система автоматического распознавания слитной речи в реальном времени ViaVoice, оснащенная возможностью индивидуальной подстройки под диктора и акустические условия и предусматривающая два режима: режим диктовки и режим команд.
Аппаратное оснащение представлено компьютером следующей конфигурации: PHI 600MHz, 64 Mb RAM, Creative Sound Blaster Live! 128. Для ввода речи в компьютер использовался обычный микрофон, входивший в комплект поставки лицензионной версии ViaVoice, присоединенный через линейный вход. Оцифровка входящего сигнала проводилась с частотой дискретизации 22кГц на уровне квантования (разрядность) 16 бит.
В качестве экспериментального материала были отобраны тексты в публицистическом стиле (газетная статья, общий объем - 498 слов, научно-публицистический текст, общий объем - 332 слова, и художественный текст,
изложенный в разговорном стиле, общий объем - 337 слов). Отбор материала проводился с учетом рекомендаций разработчиков используемого программного инструментария, которые заявляли, что система оптимальным образом настроена на работу с текстами в публицистическом стиле. Это и явилось детерминантом при отборе экспериментального материала.
Тексты, начитанные испытуемыми и переведенные в орфографическую форму системой автоматического распознавания речи ViaVoice, сравнивались с оригиналом. На данном этапе была разработана программа автоматического посимвольного сравнения последовательностей ANSII символов и группировки расхождений по основанию частотности. Программа сравнивала каждый распознанный текст и оригинал. В том случае, если обнаруживалось расхождение в последовательности ANSII символов в оригинальном тексте и в распознанном системой ViaVoice варианте, программа вычленяла данный контекст и заносила его в отдельное виртуальное хранилище как ошибочную реализацию. На следующем этапе все расхождения были классифицированы, и классы были ранжированы по частотности.
Анализ результатов показал, что большинство ошибок было допущено системой автоматического распознавания слитной речи ViaVoice при распознавании односложных слов. Уровень ошибок при распознавании консонантных звуков гораздо выше, чем при распознавании гласных.
Ошибки в распознавании гласных рассматривались с учетом фактора дистрибуции: то есть отдельно для сильных позиций и редуцированных форм. Ошибки в распознавании согласных также верифицировались с учетом позиционных факторов: 'все ошибки в распознавании согласных были разделены три группы - инициапи, медиали, финали.
Предполагалось, что частотные ошибки автоматического распознавания интерферированной речи могут быть обусловлены как техническими, так и лингвистическими факторами.
Эффективность автоматического распознавания во многом была обусловлена тендерным фактором. Мужская речь оказалась более разборчивой
для системы ViaVoice, нежели женская. Тендерный фактор существенно сказывался на уровне ошибок в каком-либо определенном кластере звуков. Однако в целом, как интегральная характеристика, тендерный фактор оказался значительно менее влиятельным, нежели аутентичность речи диктора или уровень владения изучаемым языком. Высокий уровень ошибок в определенных кластерах легко компенсировался за счет низкого уровня ошибок в других кластерах, поэтому общий уровень ошибок выравнивается, если рассматривается комплексное влияние тендерного фактора, а не его воздействие на определенные кластеры звуков.
Для того, чтобы разделить весь массив ошибок распознавания был проведен перцептивно-слуховой эксперимент, материалом для которого послужили речевые реализации дикторов-испытуемых. Из текстов, начитанных испытуемыми, были вырезаны слова и словосочетания, содержащие контексты, ошибочно распознанные системой автоматического распознавания речи. Общий объем фрагментов речевых реализаций составил 373.
Речевые реализации для аудиторского эксперимента были оцифрованы с частотой дискретизации 22050 Гц, уровень разрядности составил 16 бит. Запись производилась с помощью цифрового устройства КПК Fujistu-Siemens 718. Перевод записей из аналогового в цифровой формат не производился, запись сразу осуществлялась в цифровом формате WAV PCI.
Выделенные фрагменты предлагались для прослушивания аудиторам. Перед аудиторами была поставлена задача - определить, содержатся ли в предъявленных фрагментах речевых реализаций дикторов-испытуемых фонетико-фонологические ошибки. г
Сравнение частотных ошибок автоматического распознавания речи и фонетико-фонологических ошибок, выделенных аудиторами, позволило выделить ошибки автоматического распознавания речи, обусловленные фактором межъязыковой интерференции (см. таблицу 1). В том случае, если более 50% аудиторов утверждали, что во фрагменте содержится фонетическая или фонологическая ошибка, причиной ошибки при автоматическом
распознавании данного фрагмента признавалась фонетическая межъязыковая интерференция. Таблица I
Частотность ошибок автоматического распознавания речи, обусловленных фонетической интерференцией, ошибок фонемных реализаций, выделенных на основе перцептивного анализа.
Гласные в ударной позиции Частотность ошибочного автоматического распознавания реализации фонемы в мужской речи в ударной позиции (в %) Частотность ошибочного автоматического распознавания реализации фонемы в женской речи в ударной позиции (в %) Частотность ошибок фонемных реализаций, выделенных на основе перцептивного анализа (в %)
/1/ 7.50 8.25 7,4
N 14.25 11.25 11,1
Ы 14.25 6.75 13,2
Ы 0.00 7.00 8,6
/з:/ 0.00 9.50 9,4
/эо/ 9.50 9.75 8,2
Согласные-инициали Частотность ошибочного автоматического распознавания реализации фонемы в мужской речи (в %) Частотность ошибочного автоматического распознавания реализации фонемы в женской речи (в %) Частотность ошибок фонемных реализаций, выделенных на основе перцептивного анализа (в %)
N 25.00 5.50 33,3
М 3.25 3.00 2,7
/V 1.00 2.50 2,0
Ы 11.25 2.50 10,7
ы 2.00 3.25 2,7
м 12.00 7.50 8,8
Согласные-финали Частотность ошибочного автоматического распознавания реализации фонемы в мужской речи (в %) Частотность ошибочного автоматического распознавания реализации фонемы в женской речи (в %) Частотность ошибок фонемных реализаций, выделенных на основе перцептивного анализа (в %)
Ш 48.00 46.00 14,6
/й/ 36.00 49.00 20
м 0.00 5.25 6,5
ы 3.25 5.25 6,5
/<г/ 45.50 42.20 100
/ф/ 12.50 14.30 50
Ш 6.00 4.00 8
Основные ошибки распознавания, вызванные интерференцией, заключаются в некорректном произнесении гласных, взрывных согласных в инициалях и финалях, парных напряженных и ненапряженных фрикативных в финалях и глухого глоттального фрикативного в инициалях.
Ряд ошибок распознавания определяется некорректной реализацией билабиального глайда5 вследствие замены билабиального глайда на лабиодентальный звонкий фрикативный. Данная ошибка встречается только при распознавании слов, в которых глайд используется в инициальной позиции. В инициалях любые реализации Ду/ имеет четкую и специфическую формантную структуру со специфичными формантными переходами, и при замене его на фрикативный звук, на вход системы автоматического распознавания речи подается сегмент, в котором полностью отсутствует формантная структура. Алгоритмы распознавания звучащей речи определяют такой речевой сегмент как шумный, а не сонорный звук.
В ряде случаев в медиалях и финалях в англоязычной речи носителей некоторых диалектальных особенностей русского языка наблюдается замена лабиодентапьных фрикативных на билабиальный глайд, однако такая замена не приводит к ошибкам автоматического распознавания звучащей речи, так как она часто наблюдается в аутентичных речевых образцах, отличающихся диалектальной окраской. Кроме того, в финалях реализации Ду/ артикуляторно похожи на редуцированный русский звук [и] в конечной безударной позиции.
Среди наиболее типичных случаев интерференции, вызывающих ошибки распознавания, выделяются следующие:
• присутствие аспирации в тех позициях, где ее быть не должно'согласно звуковой системе английского языка; (
• замена звонких согласных на парные им глухие в финалях;
• замена глоттального глухого фрикативного звука на велярный глухой фрикативный звук;
5 Применяемая терминологическая система для классификации звуков изложена в работе Ладефогеда и Мэдисона (см Peter Ladefoged, Ian Maddieson 1996)
• замена звонкого палатоальвеолярного аффриката в финалях на кластер дентального взрывного [с!] и следующего за ним непалатализированного фрикативного звуков.
Наибольший процент ошибок в распознавании пришелся на кластеры звуков, включающие напряженные и ненапряженные взрывные.
Фонетические и фонологические ошибки в медиалях, а также такие фонетические ошибки, как отсутствие носового и латерального взрыва, потери взрыва в кластерах двух взрывных согласных идентифицируются аудиторами, но не вызывают «ошибок» при автоматическом распознавании звучащей речи.
Ряд редких отклонений от нормы, идентифицируемых аудиторами как ошибки реализации (например, замена альвеолярного фрикативного [в] на палатальный фрикативный Ц]), вызваны, по-видимому, индивидуальными
особенностями строения артикуляторного аппарата некоторых дикторов. Тем не менее, такие случаи нашли свое отражение в таблице, представляющей конечный результат экспериментального исследования влияния русско-английской интерференции на точность автоматического распознавания речи, так как между подобными отклонениями от нормативного произношения и ошибками автоматического распознавания была установлена высокая корреляция (0,78).
Речевые реализации напряженных альвеолярных Ш в англоязычной речи носителей русского языка в ряде случаев сопровождаются частичным оглушением и усилением согласного, и произносятся с аспирацией в начальной или интервокальной позициях, что вызвано гиперкорректной артикуляцией и усилением не свойственного для русскоязычной речи явления. Данная ошибка вызвана не интерференцией звуковых систем различных языков, не влиянием звукового строя русского языка на речевые реализации в английском языке, а знанием говорящего об особенностях английской артикуляции и чрезмерном усилении ее специфических признаков. Однако английские речевые реализации звонких взрывных альвеолярных фонем произносятся без аспирации (будучи ненапряженными), что обуславливает разницу между голосовым отступом при
произнесении звонких и глухих взрывных. В том случае, когда звонкий звук произносится напряженно, с аспирацией, этот акустический ключ, различающий звонкие и глухие взрывные, нивелируется, что может приводить к ошибке автоматического распознавания речи. Гиперкорректная артикуляция приводит также к гипераспирации глухих напряженных взрывных согласных. Обратный эффект - отсутствие аспирации перед ударным гласным или в интервокальной позиции - является фонетической ошибкой, вызываемой интерференцией, и тоже обуславливает сбои в системе автоматического распознавания речи.
Замена английских дифтонгоидов на перцептивно схожие звуки русского языка, а также замена звука [е] на [э] или [е] (схожий с нейтральным
английским гласным) в ударных слогах, ведут к значительному снижению точности распознавания.
Ошибки в речевой реализации дифтонгоида и гласного переднего ряда верхнего подъема ([¡] и [I]), а также дифтонга и дифтонгоида заднего ряда высокого подъема ([и] и [и]) приводят к ошибке распознавания (частотность ошибки распознавания, вызванной данным фактором, колеблется в пределах от 9% до 13%, в речи дикторов-испытуемых частотность фонологической ошибки при реализации указанных фонем колебалась в пределах 14% - 24%).
Результат эксперимента не позволил определить наличие или отсутствие корреляции между некорректными реализациями остальных гласных и ошибками автоматического распознавания речи. Множественные ошибки при реализации дифтонгов, особенно дифтонга [¡э], частотность ошибки реализации
I ' <
которого составляет 27% (исключение составляет только дифтонг [эи]) и очень частотные ошибки реализации гласного [эе] (частотность фонетических и фонологических ошибок при реализации этого гласного доходит до 29%) не приводят к ошибкам интерференции, в то время как корректная реализация дифтонга [а1] или [е1] в некоторых случаях не распознается системой автоматического распознавания речи.
С учетом акустических признаков фонетико-фонологические ошибки
дикторов в акустическом плане можно разделить на несколько групп:
1. Девиации значений темпоральных признаков (продолжительность смычки взрывных согласных в конце слова, продолжительность озвонченных сегментов речевого потока, средняя продолжительность фонетического слова, продолжительность сегмента последовательных безударных слогов, и т.д.).
2. Частотные характеристики (значения второй и третьей формант на стационарных участках гласных звуков, ширина формантных полос, и контур формант, кепстральные нормированные значения, полученные на равных интервалах; особенно показательны кепстральные коэффициенты с0 и Ci_ первый из которых показывает среднее значение энергии на фрейме, на котором проводится кепстральный анализ, а второй - энергетический балланс между высокими и низкими частотами. Полученные положительные значения будут соответствовать сонорным звукам, а отрицательные -фрикативным согласным.
3. Динамические просодические признаки (динамика изменений частоты основного тона и интенсивности на сегментах).
Помимо изложения процедуры и результатов экспериментального исследования вторая глава содержит опыт разработки прототипа лингвистической обучающей системы фонетического профиля с элементами акустической обратной связи: моделирование обучающего программного обеспечения, парадигму программирования, методы инкорпорирования существующих речевых компонентов (Microsoft SAPI) и раскрывает вопросы разработки специализированных программных речевых компонентов. Для реализации проекта была выбрана объектно-ориентированная парадигма программирования. Модуль создавался как максимально независимый и самодостаточный программный компонент, то есть в свою очередь являлся речевым компонентом более крупного уровня иерархии. Модели были частично программно реализованы в виде прототипа системы на языке Visual Basic.
При разработке прототипа лингвистической обучающей системы фонетического профиля было принято решение отказаться от создания специализированных речевых компонентов и адаптировать существующие бесплатно распространяемые компоненты от сторонних производителей.
Из предлагаемых бесплатных компонентов и SDK для реализации распознавания и синтеза речи был выбран пакет компонентов Microsoft Speech Application Programming Interface (SAPI).
В заключении формулируются основные теоретические выводы, перечисляются практические достижения и планируется дальнейшее развитие исследования. Список литературы состоит из 99 источников. В приложении содержится дополнительный материал, не вошедший в диссертацию: обзор существующих систем распознавания речи и систем обучения произносительной стороне иноязычной речи, экспериментальный материал (для акустического и перцептивного эксперимента), программный код модуля, реализующего распознавание интерферированной речи и определяющего наличие фонетических отклонений от аутентичного образца.
Общие выводы по представленной диссертации можно свести к следующему:
1. Вызываемые лингвистической интерференцией отклонения от аутентичного произношения могут быть определены как набор специфических признаков иноязычного акцентаю Каждый признак реализуется посредством акустических коррелятов, которые измеряются с помощью компьютерного анализа речевого сигнала на основе известных алгоритмов. Следовательно, признаки иноязычного акцента могут быть выявлены путем применения современных речевых технологий, например, технологий распознавания звучащей речи, поэтому технологии распознавания речи могут применяться при разработке лингвистической обучающей системы фонетического профиля в целях обнаружения и дальнейшей самокоррекции фонетических ошибок в речи обучающегося.
2. Для разработки лингвистической обучающей системы фонетического профиля необходим целый комплекс алгоритмов, ибо перед ней ставятся задачи как распознать интерферированную речь, так и обнаружить в ней отклонение от эталона. То есть, с одной стороны, системы должна обладать повышенной помехоустойчивостью к фонетической вариативности речи, а с другой стороны, система должна быть достаточно чувствительна, чтобы различать малейшие произносительные вариации в сигнале, осуществлять оценку конкретных произнесений и произношения пользователя в целом.
3. При создании экспертного блока обучающей системы, предназначенного для формирования рекомендаций по коррекции произношения и отдельных ошибочных произнесений обучающегося, рекомендуется взять за основу динамическую артикуляторную модель. Предложенная Брауманом и Гольдштейном модель (1986; 1993) наиболее адекватно отражает фонетические и фонологические аспекты процесса речепорождения и является программно реализуемой.
4. Разработку обучающего программного обеспечения необходимо вести с соблюдением всех требований к разработке любых комплексных программных систем. Разрабатываемая программа должна пройти все стадии - исследования, развития, конструирования и внедрения - при постоянном сотрудничестве программистов, специалистов в смежных областях (дизайнеров, психологов, лингвистов и т.д.), что подтверждает концепцию создания и развития единой системы дистанционного образования в России Р.К. Потаповой (см. Р.К. Потапова 2002; 2003; 2004; 2005). *
5. Разработку лингвистического материала для фонетической обучающей системы с речевым вводом и акустической обратной связью целесообразно проводить на основе сформированного банка данных-«ошибок» распознавания, вызываемых фонетической интерференцией.
6. Для построения моделей разрабатываемой обучающей системы целесообразно использовать унифицированный язык моделирования UML 1.4 (Unified Modeling Language).
7. На стадии конструирования предпочтение отдается подготовке программной реализации модели на платформе Net, так как в случае успешного тестирования модели можно непосредственно переходить к разработке первого прототипа обучающей системы, заменяя отдельные модули и компоненты модели на компоненты и модули прототипа, реализованные на любом языке, интернированном в Visual Studio. Схема взаимодействия между отдельными компонентами системы останется неизменной и к моменту разработки прототипа - протестированной. Использование готовых речевых компонентов для инкорпорирования в фонетические обучающие системы не совсем целесообразно, так как их целью является не выделение ошибочных речевых реализаций, а повышение устойчивости к интерферированной речи.
Основной практический вклад результатов исследования включает: Банк данных наиболее частотных «ошибок» автоматического распознавания речи, обусловленных русско-английской фонетической интерференцией. Прототип основного модуля обучающей системы фонетического профиля, реализующего базовый метод распознавания речи и определяющий наличие отклонений от аутентичного эталона в речевой реализации обучающегося. Банк современных алгоритмов анализа устной речи применительно к разработке фонетической обучающей системы (алгоритмы оценки произнесений и произношения обучающегося и повышения устойчивости автоматического распознавания звучащей речи к межъязыковой интерференции).
Метод адаптации существующих речевых компонентов к решению задачи разработки обучающего фонетического программного обеспечения.
Основные положения диссертации отражены в следующих публикациях:
1. Ордин М.Ю. Актуальные проблемы криминалистической фонетики. // Реферативный журнал РАН, серия Социальные и гуманитарные науки, Отечественное и зарубежное языкознание. №2,2002. - М. - 2002. 0.2 п.л.
2. Ордин М.Ю. Артикуляторные модели в обучающих системах с инкорпорированными речевыми компонентами. // Труды конференции 8РЕСОМ-2003, М., 2003. 0.3 п.л. (на английском языке, в соавторстве с Потаповой Р.К.)
3. Ордин М.Ю. Использование речевых компонентов в лингвистических обучающих системах фонетического профиля. // Вестник МГЛУ, выпуск 476. Фонетическая культура речи, М. - 2003.0.4 п.л.
4. Ордин М.Ю. Просодические характеристики мужской и женской речи носителей английского языка. // Труды конференции 8РЕСОМ-2003, М., 2003. 0.3 п.л. (на английском языке)
5. Ордин М.Ю. Некоторые подходы к реализации речевых компонентов в компьютерных лингвистических обучающих системах. // Сборник трудов XIII сессия Российского Акустического Общества. т.З Акустика речи, медицинская и биологическая акустика, М.: «Геос», 2003. 0.3 п.л. (в соавторстве с Потаповой Р.К.)
6. Ордин М.Ю. Алгоритмы, применяемые при разработке речевых компонентов для обучающих фонетических систем с акустической обратной связью. // Труды конференции 8РЕСОМ-2004, СПб., 2004. 0.4 п.л. (на английском языке, в соавторстве с Потаповой Р.К.)
7. Ордин М.Ю. Возможные варианты алгоритмического подхода к разработке фонетических обучающих систем. // Сборник трудов XV сессия Российского Акустического Общества. т.З Акустика речи, медицинская и биологическая акустика, М.: ГЕОС, 2004. 0.35 п.л. (в соавторстве с Потаповой Р.К.)
8. Ордин М.Ю. Просодические особенности сексолекта в речи носителей английского языка. // Труды конференции «Информатизация и информационная безопасность правоохранительных органов» 2004,
М.:Академия МВД, 2004. 0,3 п.л.
9. Ордин М.Ю. Ошибки автоматического распознавания речи, определяемые русско-английской фонетической интерференцией. // Труды конференции 8РЕСОМ-2005, М., 2005. 0.3 п.л. (на английском языке, в соавторстве с Потаповой Р.К.)
Заказ № 99/03/06 Подписано в печать 16 03.2006 Тираж 100 экз. Уел п л. 1
х ООО "Цифровичок", тел. (495) 797-75-76; (495) 778-22-20 www.cfr.ru; е-таИ:info@cfr.ru
ЛообА i
Оглавление научной работы автор диссертации — кандидата филологических наук Ордин, Михаил Юрьевич
Введение
Глава I. Теоретические основы разработки фонетической обучающей 18 системы
1.1 Современные алгоритмы автоматического распознавания речи применительно к фонетическим обучающим системам
1.1.1 Алгоритмы анализа речевых сигналов применительно к 18 разработке речевых компонентов
1.1.2 Методы автоматического обнаружения фонетических и 43 фонологических ошибок
1.1.3 Устойчивость автоматического распознавания 44 иноязычной (интерферированной) речи
1.1.4 Методики автоматической оценки произношения и 53 произнесений обучающегося
1.2 Обзор существующих обучающих систем и принципы 58 разработки фонетического обучающего программного обеспечения
1.2.1 История развития обучающего программного 58 обеспечения фонетического профиля
1.2.2 Адекватная целям обучения реализация обратной связи 65 как основное требование к лингвистическим обучающим системам
1.2.3 Классификация обучающих программ фонетического 72 профиля
1.2.4 Принципы и этапы разработки обучающего 76 программного обеспечения
1.3 Лингвистическая интерференция
1.3.1 Феномен и виды лингвистической интерференции
1.3.2 Артикуляторный механизм и модели речепроизводства
1.3.3 Программная реализация динамической модели 107 артикуляции
Выводы
Глава II. Опыт создания обучающей фонетической системы на основе 120 акустико-перцептивного исследования межъязыковой интерференции
II. 1 Экспериментальное исследование русско-английской интерференции, проведенное на основе современных речевых технологий
II.1.1 Задачи экспериментального исследования интерференции
II. 1.2 Подготовка и проведение акустического экперимента 121 II. 1.3 Результаты акустического эксперимента
II.1.4 Аудиторский эксперимент
И. 1.5 Интерпретация результатов
II.2 Практические аспекты разработки фонетической обучающей 153 системы
11.2.1 Моделирование
11.2.2 Выбор парадигмы программирования
11.2.3 Инкорпорирование существующих компонентов 161 Microsoft SAPI
11.2.4 Разработка специальных речевых компонентов для 168 инкорпорирования в обучающие лингвистические системы фонетического профиля
Выводы
Введение диссертации2005 год, автореферат по филологии, Ордин, Михаил Юрьевич
В наше время информационные технологии проникают практически в каждую сферу жизнедеятельности человека, в том числе в область обучения иностранным языкам. Одним из наиболее наукоемких и перспективных направлений в информационных технологиях являются речевые технологии. Полученные в этом направлении результаты используются повсеместно: в коммуникационной отрасли (телефония, IP-телефония, телекоммуникационные приложения), при разработке специального программного обеспечения (идентификаторы и верификаторы личности по голосу), в компьютерных приложениях распознавания речи, при разработке обучающего программного обеспечения и т.д. Развитие речевых технологий связано с успехами в компьютерных науках, в проектировании аппаратных средств и в анализе речи, акустической фонетике [Потапова, 1999 а].
Разработка обучающих программ - одна из наиболее востребованных и в то же время наименее разработанных областей компьютерной лингводидактики. Проблематика создания компьютерных обучающих систем фонетического профиля на базе речевых технологий изучена в меньшей степени по сравнению с проблематикой построения систем обучения другим аспектам иноязычной речи, несмотря на богатый материал и широкие возможности, предлагаемые сторонними разработчиками и системными программистами тем, кто решит заняться построением обучающей фонетической системы.
Обучающее программное обеспечение, предназначенное для повышения фонетической компетенции, без сомнения, нуждается в инкорпорировании речевых компонентов, которые могли бы реализовывать такие функции, как оценка и коррекция речевой реализации обучающимся [Потапова, 1998; 1999 а]. Подобные возможности, предоставляемые пользователям, позволят обучающимся в автономном режиме приобретать соответствующую фонетическую компетенцию.
Компьютерные обучающие системы появились во многом как альтернатива традиционным методам обучения [Потапова 2002: 10-70]. Интеграция звука, голосового ввода, текста, видео, анимации позволила разработать интерактивную обучающую среду и обучающие средства, улучшающие традиционные методы обучения иностранным языкам. Первые обучающие системы использовались как правило в качестве средства контроля и впоследствии как инструмент диагностики [Потапова, 1991; Ботвенко, 2005: 14-18]. Появление интеллектуальных систем с подстройкой под обучающегося позволило использовать ЭВМ для повышения мотивации обучающегося и для индивидуализации обучения [Потапова, 1990; 2002: 33-61; Кедрова, 2000]. Однако общий вклад компьютерных средств обучения в современном учебном процессе не так значителен по сравнению с более традиционными техническими средствами обучения.
Можно выделить целый ряд причин, объясняющих сложившуюся ситуацию. Во-первых, отсутствие общепринятой теоретической базы, унифицированной системы взглядов и представлений о том, как должны использоваться компьютерные средства обучения и что они должны предлагать, отсутствие методологии разработки и оценки обучающего программного обеспечения. Во-вторых, недостаточная квалификация преподавателей для использования компьютерных средств обучения. В-третьих, недоказанность экономической и академической выгоды от внедрения новых информационных технологий в учебный процесс.
Данное диссертационное исследование посвящено исследованию проблематики создания обучающей лингвистической системы фонетического профиля с элементами акустической обратной связи и применения современного компьютерного инструментария в целях проведения лингвоконтрастивного анализа звучащей речи, определения основополагающих характеристик фонетической русско-английской интерференции методами корпусной и контрастивной лингвистики, а также перцептивной и экспериментальной фонетики*.
Основная цель работы заключается в анализе потенциальной возможности применения новейших достижений в области речевых технологий для разработки фонетической обучающей системы с элементами акустической обратной связи и в создании прототипа основного программного модуля, реализующего распознавание интерферированной речи и осуществляющего оценку конкретных произнесений и произношения говорящего в целом, а также в создании банка ошибок автоматического распознавания речи, вызванных явлением межъязыковой интерференции.
Лингвоконтрастивное исследование звучащей речи на базе современных речевых технологий актуально в связи с необходимостью широкого внедрения в лингводидактику новых информационных технологий и лингвистических обучающих систем с речевым вводом и обратной связью [Potapova, 2003] и недостаточной изученностью проблематики создания компьютерных обучающих систем фонетического профиля. Как показало проведенное исследование, существующее обучающее программное обеспечение фонетического профиля не отвечает современным требованиям, предъявляемым к средствам обучения, и не использует весь потенциал новых информационных технологий. Обратная связь с обучающимся отсутствует или реализована с помощью визуализации речевого сигнала, непонятной пользователю без специальной профессиональной подготовки [Потапова 2002: 429; 1993]. Вычислительная мощность современных компьютеров и достижения в области прикладной лингвистики, когнитивных Данное исследование поддерживалось Министерством Образования РФ в 2001-2004 годах, номер гранта ГРНТИ 14.01.29 (научный руководитель проекта - Потапова Р.К,) и грантом Американского Акустического Общества, номер гранта RX0-1210(14)-XX-04 (научный руководитель проекта - Потапова Р.К.) наук, педагогической психологии и методики позволяет снабдить компьютерные обучающие системы модулем формирования рекомендаций по исправлению произношения как интегральной характеристики речи обучающегося [Potapova 2003]. Современное обучающее программное обеспечение, рассмотренное в данном исследовании, не включает блок формирования рекомендаций и реализует обратную связь без учета новых достижений в акустической и перцептивной фонетике.
Кроме того, в работе решается актуальная задача повышения устойчивости систем автоматического распознавания устной речи применительно к межъязыковой интерференции на фонетическом уровне. Решение этой задачи необходимо в связи с широким внедрением элементов распознавания речи в системы, используемые не только носителями языка, но и иностранцами (например, справочные системы, терминалы автоматического заказа билетов, продуктов, бронирования гостиниц и т.д.), то есть теми, чья устная речь будет отличаться от аутентичной. Устойчивость работы всей системы зависит от устойчивости модуля распознавания речи к межъязыковой фонетической интерференции.
Научная новизна диссертации заключается в том, что в исследовании впервые собрана база данных - звуковых сегментов интерферированной русско-английской речи, содержащая наиболее трудные для автоматического распознавания кластеры фонемных реализаций. Впервые выделены оптимальные алгоритмы для автоматического распознавания интерферированной речи в лингвистических обучающих системах фонетического профиля, ибо никогда ранее не предпринималась попытка анализа алгоритмов автоматического распознавания речи с целью выделения оптимальных подходов к созданию лингвистических обучающих систем фонетического профиля. В исследовании впервые применяются методы корпусной лингвистики для построения базы данных фонетических ошибок, допущенных при продуцировании речи человеком и при автоматическом распознавании интерферированной речи компьютером. Впервые разработана и применена методика классификации ошибок автоматического распознавания звучащей речи с учетом определяющих факторов: межъязыковой интерференции на фонетическом уровне и технических причин (искажения сигнала в каналах передачи, реверберация и акустика помещения, шумы, неточности алгоритма и т.д.). Впервые разработанные речевые компоненты на основе речевых интерфейсов прикладного программирования SAPI адаптированы для создания фонетических обучающих систем.
Основная гипотеза исследования формулируется следующим образом:
Изучающий иностранный язык в процессе говорения склонен переносить некоторые характерные особенности звукового строя родного языка в систему изучаемого языка. Этот процесс называется лингвистической фонетической интерференцией и проявляется в наличии иноязычного акцента в речи обучающегося [Potapova, 1999 b; Potapov 2003 а; Ь]. Отклонения от аутентичного произношения могут быть определены как набор специфических признаков иноязычного акцента, каждый признак выражается посредством акустических коррелятов, которые измеряются с помощью компьютерного анализа речевого сигнала на основе известных алгоритмов. Следовательно, признаки иноязычного акцента могут быть выявлены путем применения современных речевых технологий, например, технологий распознавания звучащей речи, поэтому технологии распознавания речи могут применяться при разработке лингвистической обучающей системы фонетического профиля в целях обнаружения и коррекции фонетических ошибок в речи обучающегося.
Любая система автоматического распознавания звучащей речи ошибается при распознавании интерферированной речи. Некоторые ошибки распознавания определяются наличием интерференции и нарушением звуковой системы языка, другие - несовершенством аппаратного обеспечения, ошибками алгоритмов распознавания звучащей речи, и искажениями речевого сигнала, вызванными внешними факторами, например, реверберацией.
Применение существующей системы распознавания речи ViaVoice, методов корпусной лингвистики, перцептивной экспериментальной фонетики и новых достижений в речевых науках и технологиях позволило создать банк ошибок распознавания, определяемых межъязыковой интерференцией на фонетическом уровне, и создать прототип компьютерной обучающей фонетической системы.
Круг проблем, встающих перед разработчиком речевых компонентов для обучающих системы фонетического профиля, можно определить как задачу автоматического обнаружения, спецификации и коррекции ошибок в речи обучающихся (пользователей), а также разработки блока формирования рекомендаций пользователям по исправлению этих ошибок [Потапова, Ордин, 2003; Potapova, Ordin, 2003; 2004].
Поставленные проблемы требуют решения следующих конкретных задач:
1. проанализировать современные алгоритмы распознавания речи;
2. определить модель речепроизводства, наиболее подходящую для компьютерной реализации;
3. рассмотреть и выделить достоинства и недостатки существующего обучающего программного обеспечения фонетического профиля;
4. выделить наиболее частотные ошибки при автоматическом распознавании интерферированной речи и выявить, вызваны они работой алгоритма или фонетико-фонологическими ошибками говорящего вследствие переноса особенностей родного произношения на систему иностранного изучаемого языка;
5. разработать модель обучающей фонетической системы и работоспособный прототип базового модуля, реализующего распознавание речи и элементы акустической обратной связи.
Поставленные задачи определили структуру работы.
Работа состоит из введения, двух глав, заключения и приложений.
В первой главе содержится аналитическое исследование современных алгоритмов, реализующих базовый метод распознавания речи. Данная работа выполнена на материале анализа литературы по проблеме распознавания речи.
Далее рассматривается феномен межъязыковой интерференции, приводятся примеры интерференции различных типов, анализируются факторы, обуславливающие лингвистическую интерференцию на фонетическо-фонологическом уровне. Рассматриваются артикуляторный и перцептивный механизмы, модели речепроизводства и речевосприятия, вопросы программной реализации артикуляторных моделей.
Также первая глава содержит обзор существующих обучающих систем фонетического профиля и принципы разработки фонетического обучающего программного обеспечения, включая методологические, технологические и технические аспекты.
Во второй главе рассматриваются практические вопросы применения современных достижений в области речевых технологий для проектирования различных модулей обучающей системы, содержится описание экспериментального исследования русскоязычной интерференции, проведенное на базе современных речевых технологий, описывается методика, выбор испытуемых, материал, инструментарий эксперимента. Делается вывод о перспективности использования существующих механизмов распознавания речи в целях их дальнейшей адаптации и применения при разработке компьютерных лингвистических обучающих систем фонетического профиля.
Кроме того, во второй главе рассматриваются практические аспекты разработки компьютерной обучающей системы фонетического профиля: вопросы моделирования обучающего программного обеспечения на различных уровнях абстракции; вопросы связывания различных модулей в единое целое (включая методы инкорпорирования речевых элементов в систему); вопросы выбора парадигмы программирования; структура и интерфейсы речевых компонентов SAPI 5.1 и SAPI 4.0, а также вопросы, затрагивающие их инкорпорирование в приложения, написанные на различных языках программирования.
Заключение содержит обобщение основных теоретических положений по затронутой в работе проблематике, представляет наиболее значительные выводы, полученные при анализе экспериментальных данных, а также рекомендации по разработке полной версии обучающей системы; намечает перспективы дальнейшей работы в данном направлении.
Список литературы содержит ссылки на 101 источник.
В Приложении содержится пользовательская документация и техническое описание прототипа обучающей системы, полный исходный программный код всех разработанных модулей прототипа обучающей системы; таблица, которая приводит обзор современных систем автоматического распознавания устной речи, предназначенных для выполнения различных целей и использующих различные алгоритмы и вычленяемые параметры речевого сигнала; таблица, содержащая информацию касательно современных обучающих систем для повышения фонетической компетенции обучающегося.
Методика исследования включает: • Анализ специальной литературы по проблеме автоматического распознавания речи и повышения робастности автоматического распознавания интерферированной звучащей речи [Teixeira et al., 1997; Transcoso et al., 1999; Witt, Young, 1995; Junqua, 2000; Janqua, Haton, 1996; Humphries, Woodland, 1997; Huang et al., 2001; Jurafsky, Martin, 2000; и т.д.];
• Анализ специальной литературы по проблеме межъязыковой интерференции на фонетическом уровне [Browman, Goldstein, 1992; 1993; Potapov, 2003 a; b; Чистович et al. 1976; Венцов, Касевич, 2003; и т.д.];
• Критический анализ существующих обучающих систем фонетического профиля;
• Проведение многоэтапного эксперимента с целью создания банка ошибок автоматического распознавания звучащей речи, вызванных межъязыковой интерференцией на фонетическом уровне:
• Подбор испытуемых (дикторов, носителей русского языка со знанием английского языка);
• Подбор экспериментального материала;
• Подстройка системы автоматического распознавания речи ViaVoice к решению поставленных в исследовании задач;
• Распознавание вводимой в систему автоматического распознавания речи звучащей речи дикторов в реальном времени;
• Анализ распознанных текстов и сравнение полученных текстов с оригиналом, выделение регулярно повторяющихся ошибок распознавания;
• Подбор аудиторов (профессиональных фонетистов со знанием английского языка и опытом участия в перцептивно-слуховых экспериментах);
• Проведение аудиторского эксперимента с целью определить наиболее частотные фонетико-фонологические ошибки в речи испытуемых;
• Сравнение двух наборов частотных ошибок - ошибок распознавания и фонетико-фонологических ошибок, выделенных аудиторами. В случае совпадения ошибки распознавания и фонетической ошибки, выносилось предположение о том, что данная ошибка распознавания определяется межъязыковой интерференцией на фонетическом уровне;
• Классификация ошибок распознавания, вызванных межъязыковой фонетической интерференцией;
• Верификация экспериментальных данных с помощью независимо разработанного модуля, реализующего распознавание речи. По необходимости коррекция банка ошибок распознавания, вызываемых фонетической межъязыковой интерференцией.
• Моделирование компьютерной фонетической обучающей системы с учетом экспериментальных данных;
• Адаптация речевых компонентов для разработки обучающей фонетической системы;
• Разработка прототипа модуля обучающей системы, реализующего базовый метод распознавания речи.
На защиту выносятся следующие положения:
1. Существующие на сегодняшний день и свободно распространяемые речевые компоненты могут быть частично адаптированы к решению задачи разработки лингвистического обучающего программного обеспечения фонетического профиля с элементами акустической обратной связи.
2. Не все фонетико-фонологические ошибки обучающегося, вызванные интерференцией, ведут к некорректному автоматическому распознаванию речи, если используются существующие на сегодняшний день и свободно распространяемые речевые компоненты.
3. При применении существующих и свободно распространяемых речевых компонентов необходимо сконцентрировать внимание на коррекции тех фонетико-фонологических ошибок в речи обучающегося, которые вызывают «ошибки» распознавания системой.
4. При разработке компьютерной обучающей системы, способной оптимально обнаружить фонетико-фонологические ошибки в речи обучающегося, целесообразно создание специальных речевых компонентов.
5. Экспериментальный подход, примененный к формированию банка данных-ошибок» распознавания, обусловленных межъязыковой фонетической интерференцией, представляется наиболее соотносимым с решением поставленной в исследовании задачи разработки лингвистической обучающей системы фонетического профиля.
Достоверность полученных сведений определена представительной выборкой информантов, высокой квалификацией информантов, принявших участие в аудиторском эксперименте, независимой верификацией результатов с использованием самостоятельно разработанного инструментария, методологической базой и применявшимся математическим статистическим аппаратом.
В эксперименте приняли участие 42 диктора - носители русского языка со знанием английского языка - и 6 аудиторов - профессиональные фонетисты с опытом экспериментальной работы и участия в перцептивных экспериментах.
Результаты эксперимента подверглись верификации с применением разработанного программного модуля, реализующего базовый метод распознавания речи, и разработанного на той же технологической основе, которая использовалась при создании основного экспериментального инструмента -системы распознавания устной речи ViaVoice.
Результаты исследования были апробированы на международных конференциях SPECOM-2003, SPECOM-2004, SPECOM-2005, тринадцатой и пятнадцатой сессиях Российского Акустического Общества, на конференции Информатизация и информационная безопасность правоохранительных органов 2004, на кафедре прикладной и экспериментальной лингвистики Московского государственного лингвистического университета, и в итоговых отчетах, представленных в Министерство образования и науки РФ и Американское акустическое общество.
Теоретическая значимость данного диссертационного исследования определяется тем, что полученные результаты являются значительным вкладом в теорию изучения феномена межъязыковой интерференции на фонетическом уровне, в дальнейшее развитие теории человеко-машинной коммуникации и искусственного интеллекта. В диссертации получают дальнейшую разработку и расширяют область применения методы корпусной и контрастивной лингвистики. В работе предлагается анализ алгоритмов автоматического распознавания речи с учетом фактора межъязыковой интерференции.
Более того, предложен новый подход к вопросу изучения механизмов речевосприятия и речепроизводства, с позиции разработчика обучающей лингвистической системы фонетического профиля.
Разработанный метод адаптации существующих речевых компонентов к инкорпорированию в обучающее фонетическое программное обеспечение применим к разноплановым компонентам.
Практическую ценность работы составляют полученные в ходе экспериментального и аналитического исследования результаты:
• Банк данных наиболее частотных ошибок автоматического распознавания речи, обусловленных русско-английской фонетической интерференцией, который позволит существенно повысить устойчивость систем распознавания речи к межъязыковой интерференции и построить автоматический верификатор родного языка диктора (русского языка), говорящего на английском языке.
• Метод адаптации существующих речевых компонентов к решению задачи разработки обучающего фонетического программного обеспечения, значительно повышающего эффективность учебного процесса.
• Банк современных алгоритмов и алгоритмических подходов (последнее десятилетие XX - начало XXI века) применительно к системам автоматического распознавания звучащей речи и повышения их устойчивости к межъязыковой интерференции на фонетическом уровне.
• Прототип основного модуля компьютерной лингвистической обучающей системы фонетического профиля, реализующий базовый метод распознавания речи.
Результаты представленного исследования также актуальны при решении задач криминалистической фонетики, а именно при определении родного языка говорящего в целях идентификации и верификации говорящего по голосу.
Заключение научной работыдиссертация на тему "Инкорпорирование речевых компонентов в лингвистические обучающие системы"
Основные выводы представленной работы можно свести к следующему*:
1. Многие алгоритмы, характеризующиеся повышенной помехоустойчивостью, позволяют корректно распознавать интерферированную речь при наличии эффекта сглаживания между значениями параметров аутентичного эталона и речевыми реализациями. Для разработки лингвистической обучающей системы фонетического профиля необходим целый комплекс алгоритмов, ибо перед ней ставится задача и распознать интерферированную речь, и обнаружить в ней отклонение от эталона. То есть, с одной стороны, системы должна обладать повышенной помехоустойчивостью к фонетической вариативности речи, а с другой стороны, система должна быть достаточно чувствительна, чтобы различать малейшие произносительные вариации в сигнале. На данный момент таким требованиям не отвечают рассмотренные нами в рамках данного исследования существующие системы. Поэтому для того, чтобы проектировать речевые компоненты для их дальнейшего инкорпорирования в обучающие системы необходимо разработать комплекс взаимодействующих алгоритмов, реализующих базовый метод распознавания речи. Такой комплекс взаимодействующих алгоритмов (или один комплексный алгоритм) можно спроектировать на основе существующих и проанализированных алгоритмов, использующихся для разработки современных систем автоматического распознавания речи различного назначения. Более конкретные, практические выводы содержаться в конце каждой главы диссертации.
2. При создании экспертного блока обучающей системы, предназначенного для формирования рекомендаций по коррекции произношения и отдельных ошибочных произнесений обучающегося, рекомендуется взять за основу динамическую артикуляторную модель. Предложенная Брауманом и Гольдштейном модель наиболее адекватно отражает фонетические и фонологические аспекты процесса речепроизводства и является программно реализуемой.
3. Разработку обучающего программного обеспечения необходимо вести с соблюдением всех требований к разработке любых комплексных программных систем. Разрабатываемая программа должна пройти все стадии - исследования, развития, конструирования и внедрения - при постоянном сотрудничестве программистов, специалистов в смежных областях (дизайнеров, психологов, лингвистов и т.д.) и авторитетных лиц проекта (методистов и преподавателей-практиков).
4. Разработку системы упражнений для фонетической обучающей системы с речевым вводом и акустической обратной связью целесообразно проводить с учетом возможных ошибок функционирования алгоритма автоматического распознавания речи, вызванных фонетической межъязыковой интерференцией и наиболее частотными ошибками распознавания, обусловленными некорректной работой выбранного алгоритма и прочими факторами.
5. В целях достижения взаимопонимания между участниками проекта рекомендуется строить модели, используя унифицированный язык UML 1.4 (Unified Modeling Language).
6. На стадии конструирования (непосредственного написания кода после того, как готовы основные модели разрабатываемой системы) предпочтение, конечно, отдается подготовке программной реализации модели на платформе Net, так как в случае успешного тестирования модели можно непосредственно переходить к разработке первого прототипа обучающей системы, заменяя отдельные модули и компоненты модели на компоненты и модули реального прототипа, реализованные на любом языке, интернированном в Visual Studio. Схема взаимодействия между отдельными компонентами системы останется неизменной и к моменту разработки прототипа уже протестированной. Следовательно, разработка прототипа сводится к постепенной замене модулей модели на модули прототипа.
7. Использование готовых речевых компонентов для инкорпорирования в фонетические обучающие системы не совсем целесообразно, так как они направлены в первую очередь на повышение робастности алгоритма к интерферированной речи.
Дальнейшие виды работ по заданной тематике заключаются в следующем:
• Продолжить формирование и заполнение базы знаний ошибок при автоматическом распознавании интерферированной речи, ввести более тонкие градации ошибок.
• Спроектировать и частично заполнить фонетическую базу знаний, содержащую характеристики артикуляции русских и английских речевых сегментов в потоке речи с учетом интерференции. Разработать свод правил, позволяющих сформулировать рекомендации по исправлению ошибок интерференции, и представить их на языке формальной логики. Спроектировать на основе базы данных и свода правил базу знаний, пригодную для разработки экспертной системы, направленной на формулирование рекомендаций по коррекции произношения и произнесения пользователя - обучающегося. Представить данную базу знаний в качестве программного компонента или отдельного модуля. Подготовить данный речевой компонент к инкорпорированию в обучающие системы (сделать интерфейс компонента открытым и задокументированным).
• Разработать программные речевые компоненты с открытым документированным интерфейсом - автоматизированный детектор, компонент сличения, и классификатор сегментных девиаций с учетом русско-английской фонетической интерференции для дальнейшего инкорпорирования в лингвистическую обучающую систему фонетического профиля.
• Составить и протестировать программную модель всей обучающей системы на языке Visual Basic 6.0 или Visual Basic Net.
• Реализовать программную модель в виде прототипа и, после необходимой доработки, в виде готового к внедрению и распространению коммерческого продукта.
• На основе сформированного банка ошибок распознавания, обусловленных фонетической русско-английской интерференцией, спроектировать и разработать прототип верификатора родного (русского) языка диктора, говорящего на английском языке.
ЗАКЛЮЧЕНИЕ
Относительно недавние успехи в области речевых технологий и доступность мультимедийных средств позволяет использовать современную ЭВМ в качестве обучающего мультимедийного центра.
Задача разработки качественного обучающего программного обеспечения активно решается уже более сорока лет, однако универсальный алгоритм, позволяющий построить отвечающую требованиям обучающего, обучающегося и обучаемого, так и не был найден. Методология разработки обучающего программного обеспечения подвержена неизбежным изменениям в связи с постоянным развитием информационных технологий, усовершенствованием аппаратных средств и изменениями в парадигме программирования, то есть переходом от функционального и процедурного программирования к объектно-ориентированному.
В ходе диссертационного исследования получены следующие практические результаты:
• Представлен банк современных систем автоматического распознавания речи различного назначения и алгоритмы (включая наборы используемых параметров), реализующие базовый метод распознавания в каждой системе.
• Выделены возможные алгоритмы оценки конкретных произнесений обучающегося и его произношения как общей интегральной характеристики.
• Представлен банк современных лингвистических обучающих систем фонетического профиля с элементами речевого ввода и акустической обратной связью, проведен анализ их эффективности.
• Сформирован банк наиболее частотных ошибок автоматического распознавания речи, обусловленных лингвистической русско-английской интерференцией на фонетическом уровне.
• Разработан прототип базового модуля обучающей системы фонетического профиля, реализующего базовый метод распознавания речи и определяющий наличие отклонений от аутентичного эталона в речевой реализации обучающегося. Прототип системы разработан на основе речевых компонентов, разработанных сторонними производителями (Microsoft SAPI - речевые интерфейсы прикладного программирования). Представленная программная разработка прилагается вместе с технической и пользовательской документацией и исходным кодом.
Список научной литературыОрдин, Михаил Юрьевич, диссертация по теме "Прикладная и математическая лингвистика"
1. Абкаиров Н.Н., Назаров А., Пурто JL Создание программного кода для алгоритмов ЦОС: советы разработчика // Цифровая обработка сигналов. -2001.-№1.-С. 35-54
2. Ботвенко М.А. Компьютерная лингводидактика. М.:Флинта: Наука, 2005. -216 с.
3. Буч Г., Рамбо Д., Джекобсон А. Язык UML. Руководство пользователя. М.: ДМК, 2000.-432 с.
4. Вентцель Е.С. Исследование операций. М.: Наука, 1988.-208 с.
5. Венцов А.В., Касевич В.Б. Проблемы восприятия речи. М.: УРСС, 2003. -240 с.
6. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. -Киев: Наукова думка, 1987. 262 с.
7. Гершуни Г.В. О механизме слуха (в связи с исследованием временных и временно-частотных характеристик слуховой системы). // Механизмы слуха. -Л.: Наука, 1967. с. 3-32.
8. Гольдштейн Б.С., Пинчук А.В., Суховицкий А.Л. IP-телефония. М., Радио и Связь, 2001.-336 с.
9. Калан В. Основные концепции нейронных сетей. М.: Вильяме, 2001. - 288 с.
10. Кедрова Г.Е. Новые информационные технологии в дистанционном образовании и Пражская фонология. // Материалы конференции «Ежегодные международные чтения памяти Н.С. Трубецкого». М.: МГЛУ, 2000. - С. 24 -26
11. Н.Кириллов С.Н., Стукалов Д.Н. Анализ речевых сигналов на основе акустической модели. // Техническая кибернетика. 1994. - №2. - С. 147-153
12. Кодзасов С.В., Кривнова О.Ф. Общая фонетика: Учебник. М: РГГУ, 2001. -592 с.
13. Колоколов А.С., Янко В.П. Дикторонезависимое распознавание изолированных речевых команд на основе слуховых моделей. // Автоматика и телемеханика. 1995. - №8. - С. 15 - 157
14. Мазуренко И. Л. Компьютерные системы распознавания речи. // Интеллектуальные системы, т.З. 1998. - Вып. 1-2. - С. 117 - 134
15. Маркел Дж. Д., Грэй А.Х. Линейное предсказание речи: Пер. с англ./Под ред. Ю.Н. Прохорова. М.: Связь, 1980. - 380 с.
16. Методы автоматического распознавания речи. // Под редакцией Ли А.У. -М.: Мир, 1983.-Кн.1.-328 с.
17. Методы автоматического распознавания речи. // Под редакцией У. Ли М.: Мир, 1983.-Кн.2.-420 с.
18. Пассов Е. И. Коммуникативное иноязычное образование: Концепция развития индивидуальности в диалоге культур. Липецк, 2000.
19. Пиотровская К.Р. Об обучающих лингвистических автоматах // Проблемы компьютерной лингвистики. Минск, 1997. - С. 146-160.
20. Потапова Р.К. Коннотативная паралингвистика. М.: Триада, 1998. - 67 с.
21. Потапова Р.К. Новые информационные технологии и лингвистика. М.: МГЛУ, 2002. - 582 с.
22. Потапова Р.К. О специфике в развитии современных систем устного речевого общения «человек ЭВМ». // Проблемы фонетики III. - М.: Наука, 1999.-С. 310-328. (а)
23. Потапова Р.К. Проблемы и перспективы развития компьютерных обучающих систем. // Знание языка и языкознание. М.: Наука, 1991.
24. Потапова Р.К. Проект «Автоматизированная обучающая система, предназначенная для совершенствования иноязычного произношения.» // Фонетика в системе языка. М.: УДН - Вып. 2., 1999. - 321 с.
25. Потапова Р.К. Речевое управление роботом. М.: Радио и Связь, 1989. - 248 с.
26. Потапова Р.К. Речь: коммуникация, информация, кибернетика. М.: УРСС, 1997.-528 с.
27. Потапова Р.К. Слоговая фонетика германских языков. М., 1986. - 144 с.
28. Потапова Р.К. Специфика представления знаний в экспертных системах с устным речевым вводом. // Труды второй Всесоюзной конференции по искусственному интеллекту. Минск, 1990.
29. Потапова Р.К. Фонетические обучающие системы, функционирующие в настоящее время за рубежом и в Интернете. // Социальные и гуманитарные науки. М.: ИНИОН РАН, 1998. №3.
30. Потапова Р.К. Экспертные системы применительно к естественному языку. // Языкознание за рубежом. М.: ИНИОН РАН, 1993. - №3.
31. Рабинер Л.Р., Голд Б. Теория и применение цифровой обработки сигналов. -М.: МИР, 1978.-848 с.
32. Рабинер JI.P., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981.- 495 с.
33. Скотт К. UML. Основные концепции. М.: Издательский дом «Вильяме», 2002.- 144 с.
34. Тамре JI. Введение в тестирование программного обеспечения. М.: «Вильяме», 2003. - 368 с.
35. Фаулер М., Скотт К. UML. Основы. Краткий обзор унифицированного языка объектно-ориентированного моделирования. СПб: Символ-Плюс, 2003. — 192 с.
36. Фланаган Дж. JI. Анализ, синтез и восприятие речи. М., 1968. - 396 стр.
37. Халеева, И.И. Основы теории обучения пониманию иноязычной речи (подготовка переводчиков). М., 1989. - 237 с.
38. Чистович JI.A., Венцов А.В. Слуховые уровни восприятия речи. Функциональное моделирование // Акустика речи и слуха. / Под ред. JI.A. Чистович. JL: Наука, 1986. - 352 с.
39. Чистович Л.Ф., Венцов А.В., Гранстрем М.П. Физиология речи. Восприятие речи человеком. JL: Наука, 1976. - 388 с.
40. Ambra N., Cucciarini С., Strik Н. Feedback in Computer-Assisted Pronunciation Training: Technology Push or Demand Pull? // Proceedings of ICLSP 2003. P. 1209-1212
41. Bernstein, J. Speech Recognition in Language Education. // Proceedings of the CALICO'94 Symposium, 1994. P. 37 - 41
42. Brazil D. Pronunciation for Advanced Learners of English. Cambridge: Cambridge University Press, 1994. - p. 159
43. Browman C.P., Goldstein L. Articulatory Phonology: An Overview // Phonetica. -1992.-№49.-P. 155-180
44. Browman C.P., Goldstein L. Dynamic and Articulatory Phonology. Status Reports on Speech Research, SR-1 13. New Haven: Haskins Laboratories, 1993. - p. 5162
45. Brown A. Functional Load and the Teaching of Pronunciation. // TESOL Quarterly. 1988. - №22. P. 593-606
46. Brown G., Yule G. Teaching the Spoken Language. Cambridge: Cambridge University Press, 1983. - p. 176
47. Chapelle C. Multimedia CALL: Lessons to be learned from research on instructed SLA. // Language Learning and Technology. 1998. - Vol. 2 № 1. - P. 22-34
48. Coleman J. Introducing Speech and Language Processing. Cambridge: Cambridge University Press, 2005. - p. 314
49. Dalby J., Kewley-Port D. Explicit Pronunciation Training Using Automatic Speech Recognition Technology// CALICO'99 №16 (3), 1999. P. 425-445
50. Eskenazi, M. Using automatic speech processing for foreign language pronunciation tutoring. // Language Learning and Technology. 1999. - Vol.2 №2. - P. 62-76
51. Fels, S.S., F. Vogt, B. Gick, C. Jaeger, I. Wilson. User-centred design for an open-source 3-D articulatory synthesizer. // Proceedings of the XVth International Congress of Phonetic Sciences. Barcelona, 2003. - P. 179-184.
52. Gick, В., Wilson I. Excrescent schwa and vowel laxing: Cross-linguistic responses to conflicting articulatory targets. // Papers in Laboratory Phonology, 2001, №8. -Huskins: Huskins Laboratories. P. 24 - 56
53. Goldstein L., Fowler C. Articulatory Phonology: A phonology for public language use. // Phonetics and Phonology in Language Comprehension and Production: Differences and Similarities. Berlin: Mouton de Gruyter, 2002. - P. 159-207
54. Huang X., Acer A., Hon H-W., Spoken Language Processing: A Guide to Theory, Algorithm and System Development. New York: Prentice Hall PTR, 2001. - p. 1008
55. Humphries J., Woodland P. Using Accent-Specific Pronunciation for Improved Large Vocabulary Continuous Speech Recognition. // EUROSPEECH'97, 1997. -P. 2367-2370
56. Johnson, C.E., Wilson I.L. Phonetic evidence for early language differentiation: Research issues and some preliminary data. // International Journal of Bilingualism. 2002. - №6. - P. 271-289
57. Juang B.H., Rabiner L.R., Wilpon J.G. On the Use of Bandpass Liftering in Speech Recognition. // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1987. - Vol. 35, №7. p. 947-954
58. Junqua J.-C. Robust Speech Recognition in Embedded Systems and PC Applications. Boston: Kluwer Academic Publishers, 2000. - p. 204
59. Junqua J.-C., Haton J.-P. Robustness in Automatic Speech Recognition. Boston: Kluwer Academic Publishers., 1996. - p. 476
60. Jurafsky D., Martin, J. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New York: Prentice Hall, 2000. - p. 960
61. Kawai G. Spoken Language Processing applied to non-native language pronunciation learning. PhD dissertation. Tokyo: University of Tokyo, 1999. -p. 110
62. Keith A.Jones Windows Speech Recognition Programming: With Visual Basic and ActiveX Voice Controls. Lincoln.: iUniverse, 2004. - p. 382
63. Kentworthy J. Teaching English Pronunciation. New York: Longman, 1987. p. 164
64. Lavagetto D., Arzarello M., Caranzano M. Lipreadable frame animation driven by speech parameters. // IEEE International Symposium on Speech, Image Processing and Neural Networks. Hong Kong, 1994. - P. 14-16
65. Lee K.F., Automatic Speech Recognition: The Development of the SPHINX System. Boston: Kluwer Academic Publishers, 1989.
66. Levy M. CALL by design: discourse, products and processes. // ReCALL №14 vol.1, 2002.-стр. 58-84.
67. Linde F., Gray R. An Algorithm for vector quantization design. // IEEE Transactions on Communications COM-28, 1980.
68. Murray, L., Barnes, A. Beyond the "WOW" factor evaluating multimedia language learning software from a pedagogical point of view // System №26, 1998. p. 249-259.
69. Neri A., Cicchiarini, C., Strik M., Boves L. The Pedagogy-technology interface in Computer-assisted Pronunciation Training, 2003.
70. Noll A.M. Cepstrum Pitch Determination. //JASA, vol. 41. №.2, 1967 pp. 293309.
71. Pennington M.C. Computer-aided pronunciation pedagogy: Promise, limitations, directions. // Computer-aided Learning, №12, 1999. pp. 427-440.
72. Perkell, J.S. and Klatt, D. Invariance and Variability of Speech Processes. // Proceedings of an international conference organized by J. Perkell and D. Klatt at MIT with support from NIH and NSF, 1986.
73. Perkell, J.S., Matthies, M.L., Svirsky, M.A., Jordan, M.I. Goal-based speech motor control: A theoretical framework and some preliminary data. // Journal of Phonetics, №23, 1995. pp.23-35.
74. Petrushin V.A. Student Response for Spoken Language Learning: A Case Study of Learning Chinese Tones. // IEEE International Conference on Advanced Learning Technologies, 2002.
75. Potapov V.V. On Language Contrastive-Comparative Analysis of English and Russian Phonetic Systems. // Proceedings of SPECOM 2003. Moscow, 2003. (a)
76. Potapov V.V. The American English Interference in Russian on the Segmental Level. // Proceedings of SPECOM 2003. Moscow, 2003. (b)
77. Potapova R.K. Modern CALL Systems with Elements of Acoustic Feedback. // Proceedings of SPECOM 2003. Moscow, 2003.
78. Potapova R.K., Ordin M.Yu. Errors Caused by Phonetic Interference in Automatic Speech Recognition. // Proceedings of SPECOM 2005. Patras, Greece, 2005. pp.361-365.
79. Potapova R.K., Ordin M.Yu. Algorithm for Developing Speech Components for Educational Software with Acoustic Feedback. // Proceedings of SPECOM 2004. -Moscow, 2004.
80. Potapova R.K., Ordin M.Yu. Articulation Models in Educational Software with Embedded ASR Components. // Proceedings of SPECOM 2003. Moscow, 2003.
81. Potapova R.K., Shigina E.V. New Information Technologies in Foreign Language Today. Moscow, 2002.
82. Rabiner L, Juang B.H., Fundamentals of Speech Recognition", Prentice Hall PTR, 1993.507 p.
83. Saltzman, E. Task dynamic co-ordination of the speech articulators: a preliminary model. // Generation and Modulation of Action Patterns. Edited by Heuer H., Fromm C. Berlin: Springer-Verlag, 1986 pp. 129-144.
84. Stevens, К. H. On the quantal nature of speech. // Journal of Phonetics. №17, 1989.-pp. 3-45.
85. Stevens, К. H. The quantal nature of speech: Evidence from articulatory-acoustic data. // Human Communication: A unified point of view, edited by David E. E., Denes P. B. New York: McGraw-Hill, pp. 51-66. 1972.
86. Tamura S. An Analysis of a Noise Reduction Using Neural Network // Proceedings IEEE International Conference on Acoustics, Speech, and Signal Processing, Glasgow, Scotland, 1998, pp. 2001-2004.
87. Teixeira C., Transcoso I., Serralheiro A. Recognitions of Non-Native Accents. // EUROSPEECH 1997, 1997, pp. 2375-2378.
88. Transcoso I., Viana C., Mascsrenhas I., Teixeira C. On Deriving Rules for Nativised Pronunciation in Navigation Queries. // EUROSPEECH 1999, 1999, pp. 195-198.
89. Underwood, J. Linguistics, computers, and the language teacher: a communicative approach. Rowley, MA: Newbury House, 1984.
90. Underwood, J. On the edge: intelligent CALL in the 1990s. // Computers and the Humanities, №23 vol. 1, 1989. p. 71-84.
91. Warschauer, M. Computer-assisted Language Learning: an Introduction. // Multimedia Language Teaching, edited by S. Fotos. Tokyo: Logos. 1998. - 320.
92. Warshauer M., Healey D. Computers and Language Learning: an Overview // Language Teaching. №31, 1998. pp. 57-71.
93. Watson, C. S., Kewley-Port, D. Computer-based speech training (CBST): Current status and prospects for the future // Volta Review, №91 (5), 1989. 29-45.
94. Witt S. Language learning based on non-native speech recognition. // EUROSPEECH 1997, Rhodes, 1997. -pp. 633-636.
95. Witt S., Young S. Off-Line Acoustic Modelling of Non-Native Accents. // EUROSPEECH 1999, 1999, pp. 1367-1370.