автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему:
Автоматическая интерпретация звуков речи

  • Год: 2008
  • Автор научной работы: Кочаров, Даниил Александрович
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.19
Диссертация по филологии на тему 'Автоматическая интерпретация звуков речи'

Полный текст автореферата диссертации по теме "Автоматическая интерпретация звуков речи"

Санкт-Петербургский государственный университет

ш чуааал.

Кочаров Даниил Александрович

АВТОМАТИЧЕСКАЯ ИНТЕРПРЕТАЦИЯ ЗВУКОВ РЕЧИ

10 02 19 - Теория языка

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

о 5 НЮ4 200В

Санкт-Петербург - 2008

Диссертация выполнена на кафедре фонетики и методики преподавания иностранных языков факультета филологии и искусств Санкт-Петербургского государственного университета

Научный руководитель - доктор филологических наук, профессор

Скрелин Павел Анатольевич

Официальные оппоненты - доктор филологических наук, профессор

Мартыненко Григорий Яковлевич,

кандидат филологических наук, Егорова Ольга Борисовна

Ведущая организация - Санкт-Петербургский институт информатики и автоматизации Российской академии наук

I сг60

Защита состоится «27» июня 2008 года в «£>» часов на заседании совета Д 212.232 23 по защите докторских и кандидатских диссертаций при Санкт-Петербургском государственном университете по адресу: 199034, Санкт-Петербург, Университетская наб 11, факультет филологии и искусств, ауд

С диссертацией можно ознакомиться в Научной библиотеке им. М Горького Санкт-Петербургского государственного университета (Санкт-Петербург, Университетская набережная, 7/9)

Автореферат разослан «I % М&Л- 2008 года. Ученый секретарь

диссертационного совета Д 212 232.23, доктор филологических наук, профессор " К. А. Филиппов

Область применения речевых технологий постоянно расширяется Особенно это относится к автоматическому распознаванию и транскрипции речи Почти все современные системы автоматической обработки речи полностью основаны на статистических моделях, и в них используется довольно примитивное, с лингвистической точки зрения, моделирование речевого сигнала Современный статистический подход к моделированию речи сталкивается с существенными проблемами при переходе от лабораторных данных к реальному речевому материалу Это происходит в силу специфики статистического подхода система эффективно работает на том материале, на котором она обучалась

В настоящее время в мире немного исследований, задачей которых является разработка лингвистических методов решения существующих проблем Лингвистический подход может быть очень эффективен для создания антропоморфных моделей речевого сигнала, т е таких, которые учитывают то, как человек порождает и воспринимает речь

Целью настоящего диссертационного исследования является автоматическая интерпретация звуков речи, основанная на лингвистических принципах Интерпретация звуков речи осуществляется при помощи акустических моделей речевого сигнала, построенных на основе фонологических и фонетических принципов.

Предметом исследования являются устойчивые акустические характеристики звуков речи, основанные на фонетических свойствах, которые могут быть использованы для разработки автоматической процедуры выделения и интерпретации звуков В задачи исследования входит

1 определение акустических характеристик звуков речи в разных типах речи (спонтанной речи и чтении),

2 создание процедур автоматического выделения полезных акустических признаков звуков в речевом сигнале,

3. создание процедур автоматической фонемной интерпретации акустических характеристик звуков речи,

4 проверка точности интерпретации звуков речи в разных видах речевого материала и условиях предварительной обработки, а также разных методов представления речевого сигнала. Научная новизна заключается в применении современных достижений цифровой обработки речевого сигнала для сегментации речевого потока и выделения акустических коррелятов традиционных фонетических (артикуляторных и перцептивных) признаков

звуков речи с их последующей автоматической классификацией и интерпретацией на основе современных методов статистической обработки данных

Теоретическая ценность исследования заключается в выявлении и формально-акустическом представлении устойчивых свойств звуков русской речи, которые необходимы для их автоматической классификации и интерпретации и сохраняются в разных типах речи Данная работа опирается на традиционный подход Щербовской фонологической школы к классификации элементов звуковой системы языка на основе артикуляторных и акустических дифференциальных признаков

Практическая значимость работы определяется возможностью использования фонетических характеристик звуков речи для их автоматической классификации и интерпретации в системах автоматической транскрипции русской устной речи. Использование результатов работы в системах автоматического распознавания речи позволит увеличить их эффективность в применении к спонтанной речи, а также возможность адаптации подобных систем к обработке других языков

В результате исследования сформулированы и выносятся на защиту следующие положения•

• Фонетические характеристики могут быть успешно использованы для моделирования звуков речи в разных условиях реализации для их автоматической интерпретации В ходе экспериментов была доказана эффективность применения акустических коррелятов звонкости, сонорности, местоположения формант, а также места и способа образования согласных Все фонетические характеристики были проверены в экспериментах на точность интерпретации звуков речи в разных видах речевого материала и условий предварительной обработки, а также методов представления речевого сигнала

• Для успешного моделирования речи необходимо учитывать особенности реализации звуков в спонтанной речи Модели, получаемые на спонтанной речи, не соответствуют вероятностным распределениям, выведенным на основе исследования «идеальной» речи.

• Комбинация математического и фонетического подходов к моделированию звуков речи более эффективна, чем наиболее распространенный в настоящее время математический подход Фонетический подход к акустическому моделированию звуков речи учитывает то, каким образом образуются звуки речи, как они противопоставляются друг другу в рамках фонологической системы отдельно взятого языка и как они влияют друг на друга в речевом сигнале.

4

Апробация работы. Достоверность диссертационного исследования была проверена при помощи экспериментов на материале новейших тестовых корпусов на русском, немецком и английском языках, общим объемом около 135 часов Результаты исследований были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на семинарах, посвященных вопросам речевых технологий, на межвузовских конференциях преподавателей и аспирантов в СПбГУ (2003, 2006, 2007), на международных конференциях (SPECOM 2004, 2006 и Interspeech 2005) Результаты исследований опубликованы в 10-ти изданиях, в том числе в двух рецензируемых изданиях из списка ВАКа «Вестник СПбГУ» и «Speech Communication» (на основании системы цитирования «Web of Science», см перечень рецензируемых научных журналов и изданий ВАК от 21 апреля 2008 г )

Структура работы. Данная диссертационная работа содержит 169 страниц машинописного текста и состоит из введения, трёх глав, заключения, списка использованной литературы (138 наименований) и четырёх приложений Работа иллюстрирована рисунками и таблицами

В первой главе изложены основы анализа и акустического моделирования речевого сигнала, применяемые в современных работах в области речевых технологий В том числе описаны методы, применённые в диссертационном исследовании Кроме того, в первой главе рассмотрены особенности спонтанной речи Особое внимание уделяется акустическим свойствам реализованных в спонтанной речи аллофонов

При моделировании спонтанной речи следует учитывать особенности реализации звуков в спонтанной речи, так как почти все они являются потенциальными источниками проблем и множества исключений из правил или вероятностных распределений, выведенных на основе исследования лабораторного материала

Фонетический подход к акустическому моделированию звуков речи учитывает то, каким образом образуются звуки речи, как они противопоставляются друг другу в рамках фонологической системы языка, и как они влияют друг на друга в речевом сигнале

Построение акустической модели речевого сигнала и ее использование в качестве основы для принятия решений является основным подходом к автоматической интерпретации речи Акустическая модель звука речи определяется набором описывающих его акустических характеристик, представленных в виде одного или комбинации акустических векторов

Акустические реализации фонем значительно меняются в зависимости от скорости речи Стандартным математическим подходом к моделированию временной вариативности речи в системах распознавания речи является использование скрытых Марковских моделей

Во второй главе рассмотрены фонетические характеристики речевого сигнала, разработанные и реализованные в рамках данного диссертационного исследования Под фонетическими характеристиками понимаются те, которые различают фонологические или фонетические классы Для каждой характеристики подробно описан алгоритм ее получения из речевого сигнала В их числе были акустические корреляты звонкости, сонорности, местоположения формант и центр тяжести спектра для определения места и способа образования согласных

Акустические характеристики являются основными структурными элементами акустических моделей. От правильного выбора характеристик во многом зависит то, насколько полученная в итоге модель будет удовлетворять накладываемым на нее требованиям Все остальные процедуры, используемые для акустического моделирования, направлены в основном на компенсацию классификационных минусов и неточного определения акустических характеристик

При выборе акустических характеристик необходимо считаться с двумя противоречивыми требованиями. С одной стороны, для осуществления надежного распознавания необходимо сохранить исходную информацию С другой, для простоты технической реализации количество измеряемых параметров и точность их измерения должны быть по возможности сравнительно небольшими Из-за сильной вариативности речи и сложности речевых сигналов абсолютное выполнение этих условий невозможно

Основной применяемой фонетической характеристикой является наличие основного тона (ОТ) В рамках данной работы был реализован алгоритм определения наличия ОТ на основе автокорреляционного метода

Перспективным подходом представляется выделение акустических характеристик синхронно периодам частоты основного тона (ЧОТ) там, где это возможно. Поэтому одним из направлений исследований была выбрана разработка алгоритма максимально точного автоматического определения ЧОТ. Можно допустить, что в рамках одного периода ЧОТ частоты формант не изменяются, т к они кратны ЧОТ, которая, естественно, не изменяется в таком окне Для того чтобы сделать правильную обработку синхронно периодам ЧОТ, помимо самой ЧОТ необходимо еще и знать точные границы ее периодов Ошибка даже в один отсчет может дать нежелательные искажения. В случае

6

отсутствия ОТ речевой сигнал обрабатывается при помощи стандартных окон постоянной длины

Ни один алгоритм автоматического определения ЧОТ не работает абсолютно правильно, каждый из них имеет свои плюсы и минусы, но при использовании комбинации различных методов можно достичь достаточно высокой эффективности В ходе исследований и экспериментов, целью которых были разработка, реализация и сравнение эффективности различных алгоритмов определения ЧОТ, были выбраны наиболее перспективные, и на основе их комбинации было реализовано автоматическое определение ЧОТ Это следующие алгоритмы

1 Вычисление автокорреляционной функции,

2 Анализ через синтез,

3 Вычисление отношения длины текущего периода с длинами предыдущих периодов

ЧОТ

Для окончательного определения периода ЧОТ используется линейная комбинация логарифмов значений четырех характеристик, значения автокорреляционной функции, дистанции до синтезированного сигнала и отношения длины текущего периода к длинам двух предыдущих периодов. Каждый из методов имеет свои плюсы и минусы, а совместное применение позволяет акцентировать их сильные стороны и, соответственно, уменьшить количество неправильно определенных периодов ЧОТ Наиболее вероятная последовательность периодов ЧОТ определялась с помощью алгоритма Витерби Определенные таким образом периоды ЧОТ использовались для назначения окон обработки речевого сигнала при выделении фонетических характеристик, в частности местонахождения формант

Для идентификации гласных фонем в рамках данного исследования был разработан алгоритм определения местонахождения формант на основе обработки речевого сигнала синхронно периодам основного тона Была выбрана процедура, когда длина окна обработки была равна трем периодам частоты основного тона, а его шаг был равен одному периоду

Форманты определялись на основе спектра речевого сигнала Для этого определяются все гармоники частоты основного тона до 4000 Гц В качестве гармоник берутся частоты кратные частоте основного тона Далее строится гребенка непересекающихся треугольных фильтров таким образом, что центральной частотой фильтров являются гармоники, а ширина полосы фильтрации равна ЧОТ. Каждой гармонике соответствует отдельный фильтр гребенки Значения спектра в каждой полосе

7

суммируются, и полученные значения суммы сравниваются с взвешенным значением, соответствующим частоте основного тона Если оно больше порога, то выход фильтра равен «1», если меньше, то «О» Таким образом, на выходе гребенки полосных фильтров получается бинарный вектор Значение «1» в векторе обозначает присутствие форманты на месте соответствующей гармоники, а «О» - отсутствие форманты Размерность характеристического вектора является переменной и зависит от текущей ЧОТ. Из-за того, что ЧОТ постоянно меняется, даже соседние векторы могут быть разной длины, что делает их сравнение крайне неудобным По этой причине была введена еще одна, «статическая», гребенка прямоугольных фильтров, состоящая из 12 фильтров На этот раз параметры фильтров уже не зависят от частоты основного тона и заданы заранее с учетом информации о формантной структуре гласных русского языка Полученный 12-ти мерный вектор является значением акустической характеристики звука речи, отражающей его формантную структуру

Кроме местоположения формант и наличия основного тона была разработана акустическая характеристика, отражающая сонорность звука речи. Сонорность фонемы можно определить как степень ее звучности или как, наоборот, степень участия шумовых составляющих

В качестве акустического коррелята и показателя фонетической характеристики сонорности предлагается использовать сумму производных спектра в каждой точке по шкале частот С математической точки зрения применение производной спектра мотивируется тем, что производная функции выражает скорость ее изменения Производная функции обладает таким свойством, что чем выше скорость изменения функции, тем выше значение модуля производной Таким образом, производная спектра в частотной области должна отражать скорость изменения спектра в частотной области, и, соответственно, его «изломленности» Это коррелирует с количеством и качеством пиков в спектре и, следовательно, может выразить сонорность звука речи

Получение величины акустического коррелята сонорности основано на вычислении производных амплитудного спектра во всех точках частотной области и суммировании модулей полученных производных. В дискретном случае производная функции равна разности значений функции в последовательных точках. Значение акустической характеристики вычисляется как логарифм суммы модулей производных спектра. Сумма логарифмируется для того, чтобы уменьшить диапазон значений акустической характеристики

Акустическая характеристика сонорности напрямую зависит от качества спектра речевого сигнала, поэтому на ее производительность влияют различные преобразования спектра и фильтрация речевого сигнала Было решено рассмотреть спектр, представленный в различных нелинейных шкалах, и отфильтрованным низкочастотным фильтром с различными частотами среза, чтобы посмотреть, как это будет влиять на эффективность применения производной спектра в качестве акустической характеристики сонорности. Было опробовано несколько преобразований спектра, таких как преобразование из шкалы герц в шкалы мелов и барков, а также преобразование спектра билинейной функцией Этап, заключавшийся в модификации спектра, осуществлялся сразу после нормализации амплитудного спектра перед его дифференцированием Эксперименты показали, что преобразование спектра перед его дифференцированием может значительно увеличить эффективность акустической характеристики сонорности Наилучшие результаты были получены при использовании преобразования при помощи билинейной функции с коэффициентом преломления равным 0,8. Для низкочастотной фильтрации применялся идеальный FFT-фильтр нижних частот Были проведены несколько экспериментов с постепенным увеличением частоты среза низкочастотного фильтра от 500 Гц до 6000 Гц Результаты экспериментов показали, что использование фильтра нижних частот с частотой среза равной 1000 Гц дало наилучшие результаты Они почти совпадают с результатами, полученными при предварительном преобразовании спектра при помощи билинейной функции с коэффициентом преломления равным 0,8,

Для интерпретации согласных применялось вычисление центра тяжести спектра Идея этого подхода состоит в том, что на фоне достаточно плоского спектра на определенных частотах согласные имеют усиление спектральных составляющих Значения этих частот связанно с местом образования согласных. Так, губные согласные имеют увеличение амплитуды спектра на частотах, находящихся в области 800 Гц, заднеязычные - около 1400 Гц, а переднеязычные - выше 2000 Гц Соответственно, вычисляя центр тяжести спектра согласных можно оценивать место их образования Для этого была осуществлена полосная фильтрация, для вычисления центра тяжести спектра использовались значения, полученные на выходах полосных фильтров Гребенка полосных фильтров состоит из трех фильтров, которые были выбраны с учетом корреляции между местом образования согласного и частотными областями, доминирующими в спектре этих согласных

В ходе исследований акустические характеристики комбинировались на уровне акустических векторов при помощи ЛДА

В третьей главе представлены результаты, полученные в ходе экспериментов как по интерпретации отдельных звуков речи при помощи фонетических характеристик, так и по использованию таких характеристик в системах автоматического распознавания слитной речи Результаты приводятся на материале русского, немецкого и английского языков

Для оценки эффективности разработанных и реализованных акустических характеристик, основанных на фонетических принципах, были проведены несколько экспериментов В ходе экспериментов были опробованы следующие методы автоматической интерпретации звуков речи

1 определение гласных по местоположению их формант,

2 определение согласных по акустическим характеристикам, связанным с местом и способом образования согласных,

3 использование акустической характеристики наличия основного тона в комплексной статистической системе автоматического распознавания слитной речи,

4 использование акустической характеристики сонорности звуков речи в комплексной статистической системе автоматического распознавания слитной речи

Первые два эксперимента проводились на материале выделенных вручную звуков русской речи, классификация звуков речи основывалась на вычислении Евклидова расстояния В последних двух экспериментах использовалась система автоматического распознавания речи, основанная на статистических принципах и включающая в себя самые современные процедуры математического анализа данных, где фонетические характеристики использовались в качестве дополнительных к общепринятым акустическим характеристикам

Предложенный метод распознавания гласных по формантам синхронно периодам основного тона был проверен на материале русского языка Материал состоял из двух частей- отдельных гласных и отдельных слов

Первая часть представляла собой корпус гласных, которые были вручную выделены из фонетически представительного текста, прочитанного диктором-мужчиной, нормативным носителем русского языка Всего был использован 3771 гласный В этот набор входили реализации всех комбинаторных и позиционных аллофонов гласных В то же самое время сохранялась относительная частотность встречаемости каждого из гласных в реальных текстах

Вторая часть материала состояла из корпуса изолированно произнесенных слов Были использованы 33 слова (команды голосового меню мобильного телефона) Список слов предоставлен в приложении 3 Эти слова были произнесены 20-ю дикторами 10-ю мужчинами и 10-ю женщинами, Каждое слово было записано три раза, с разной скоростью чтения Таким образом, тестовая часть состояла из 1880 слов Гласные автоматически выделялись из слов и затем подвергались процедуре распознавания

Данные об эффективности распознавания изолированных гласных приведены в таблице 1

Таблица 1. Результаты распознавания изолированных гласных

Гласный Кол-во ошибок (%)

а 6,10

е 4,54

1 5,20

о 5,15

и 4,50

1 5,60

В среднем 4,92

В ходе экспериментов по распознаванию гласных в составе слов речевой сигнал автоматически сегментировался на звуки, и которых затем анализировались и интерпретировались гласные звуки Отличие от предыдущего эксперимента в том, что звуки выделялись из речевого сигнала не так точно как во время ручной сегментации

Сначала выделяются озвонченные участки речевого сигнала при помощи описанного алгоритма Затем выделенные участки речевого сигнала сегментируются на основе изменения значений корреляционных функций средней энергии сигнала, спектральной интенсивности и огибающей сигнала на отдельных периодах Там, где все эти три функции имеют локальный максимум, ставится граница Вычисляются три функции, так как каждая из них в отдельности дает максимумы не только на границах звуков, но и внутри них Комбинируя три функции корреляции, мы убираем лишние потенциальные границы Это очень грубый метод, но он обеспечил достаточную точность для выделения гласных из отдельно произнесенных слов

Затем выделенных гласных был сформирован тестовый корпус. База эталонов использовалась та же, что и для распознавания отдельных гласных Полученные результаты были ниже, чем при распознавании отдельных гласных, что и предполагалось априори Для этого есть две причины, междикторская вариативность речи и более низкая точность автоматической сегментации по сравнению с ручной Результаты автоматической сегментации примерно соответствовали результатам, получающимся в

итоге при автоматическом распознавании слитной речи В таблице 2 приведена результативность автоматической интерпретации гласных в составе слов Таблица 2 Результаты распознавания гласных в словах

Гласный Кол-во ошибок (%)

а 15,28

е 15,00

i 15,51

о 15,28

и 18,10

i 16,95

В среднем 16,02

В целом, результаты показывают эффективность применения предложенных акустических характеристик, основанных на выделении формант гласных синхронно периодам основного тона Результаты распознавания примерно одинаковы для всех гласных

Алгоритм не является зависимым от русского языка и может быть применен для распознавания гласных на другом языке, с единственным изменением, касающимся характеристик полосных фильтров, которые зависят от фонологической системы рассматриваемого языка

Для эксперимента по автоматической интерпретации согласных в качестве материала был использована часть корпуса русской спонтанной речи Всего использовалось около 6800 согласных Использовались записи 10-ти дикторов' 5-ти мужчин и 5-ти женщин В рамках эксперимента сначала определялся способ образования согласного по присутствию или отсутствию смычки Затем определялось место образования согласного при помощи широкополосных фильтров

В данной работе оценивались акустические характеристики самих звуков речи без учета контекста, поскольку анализ влияния контекста выходит за рамки диссертационного исследования Как следствие, было решено не разделять мягкие и твердые согласные, так как в речи часто этот дифференциальный признак реализуется за счет движения формант окружающих гласных На основе только собственных акустических данных отдельного согласного практически невозможно определить его мягкость, может быть за исключением сибилянтов /в'/ и Ш При построении системы, основанной полностью на антропоморфных принципах, которая в том числе учитывала бы контекст при анализе и акустическом моделировании отдельных звуков речи так, как это делает человек, эта проблема могла бы быть решена В таблице 3 приведены результаты распознавания согласных

f V s z £ i 5'- h P b t d k g

f 87,4 2,2 1,4 0 0 0 0 5,2 3,0 0 1,3 0 0 0

V 4,1 88,6 0 0 0 1,9 0 2,4 0 3,0 0 0 0 2,3

S 6,9 0 74,7 4,2 3,7 0 2,4 9,3 2,2 0 8,5 0 0,5 0

Z 0 2,4 3,1 77,6 0,4 5,9 0 2,1 0 0 0 3,1 0 0

£ 0 0 10,9 3,2 89,4 2,8 7,1 0 0 0 4,0 0 0 0

2 0 3,7 0 13,5 1,1 88,0 1,1 0 0 0 0 0 0 0

Г 0 0 8,3 1,5 5,4 0,4 89,4 0 0 0 2,5 0 0 0

h 3,1 0 1,6 0 0 0 0 73,4 3,7 0 0 0 5,4 0

Р 0,5 0 0 0 0 0 0 1,8 81,8 4,1 4,1 1,9 4,0 2,1

Ъ 0 3,1 0 0 0 0 0 0 78 83,4 0 1,5 0 8,4

t 0 0 0 0 0 0 0 0,9 0,5 0 72,8 2,8 3,0 0

d 0 0 0 0 0 0 0 2,3 1,0 6,3 1,5 74,0 0 7,2

k 0 0 0 0 0 0 0 1,6 0 0 5,3 2,2 84,6 4,0

g 0 0 0 0 0 0 0 0 0 3,2 0 10,5 2,5 76,0

В таблице 4 приведены результаты распознавания, полученные при использовании акустической характеристики звонкости совместно с различными акустическими характеристиками такими, как MFCC, PLP Кроме того, исследуемая фонетическая характеристика была опробована в комбинации с MFCC характеристикой, адаптированной к диктору при помощи алгоритма нормализации длины речевого тракта (VTLN) Для комбинации акустических характеристик использовался алгоритм ЛДА Эксперименты проводились на корпусе с малым объемом словаря, SieTill, и на корпусах с большим объемом словаря, VerbMobil II и EPPS.

Таблица 4 Результаты распознавания при использовании акустической характеристики

звонкости (Зв)

Корпус Акуст хар-ки Кол-во ошибок (%)

SieTill MFCC 1,8

MFCC + Зв 1,6

VerbMobil II MFCC 21,0

MFCC + Зв 20,3

VTLN 19,1

VTLN + Зв 18,7

PLP 21,4

PLP + Зв 20,6

EPPS MFCC 14,7/15,3

MFCC + Зв 14,3 /14,8

VTLN 14,2 / 14,1

VTLN + Зв 13,8 /14,0

PLP 15,4/15,8

PLP + Зв 15,1/15,4

Для корпуса EPPS ошибки указаны в следующем виде: корпус разработки / тестовый корпус В таблице количество ошибок указано на уровне слов, т. е приведено относительное количество неправильно распознанных слов - это стандартная мера эффективности систем автоматического распознавания слитной речи Результаты показывают, что использование акустической характеристики звонкости в качестве дополнительной во всех случаях увеличивает эффективность системы вне зависимости от корпуса и используемых базовых акустических характеристик Во время экспериментов было получено увеличение результативности системы автоматического распознавания на »11 % для корпуса с малым объемом словаря и на «3 % для корпуса с большим объемом словаря

Акустическая характеристика сонорности (С) тестировались совместно с MFCC, VTLN и характеристикой звонкости (Зв) Для объединения акустических характеристик использовался алгоритм ЛДА Эксперименты проводились на корпусе с малым объемом словаря, SieTill, и на корпусах с большим объемом словаря, VerbMobil П и EPPS В таблице 5 представлены результаты использования акустической характеристики сонорности совместно с акустическими характеристиками MFCC и VTLN на разных корпусах

Таблица 5 Результаты распознавания речи при использовании акустической характеристики сонорности

Корпус Акуст хар-ки Кол-во ошибок (%)

SieTill MFCC 1,8

MFCC + С 1,6

VerbMobil II MFCC 21,0

MFCC + С 20,3

VTLN 19,1

Т ГТ<Т TIT 1 n V 1ЫЧ T ^ 1 О £

EPPS MFCC 14,7/15,3

MFCC + С 14,7/15,1

VTLN 14,2/14,1

VTLN + С 14,2/ 14,1

Результаты экспериментов показали эффективность применения предложенной акустической характеристики сонорности звуков речи Использование производной спектра в качестве дополнительной акустической характеристики увеличило эффективность системы распознавания речи по сравнению с использованием MFCC или VTLN

Улучшение равно »13 % на корпусе SieTill и »3 % на корпусе VerbMobil II По неизвестным причинам акустическая характеристика сонорности не смогла существенно улучшить распознавание речи на корпусе EPPS С другой стороны она и не вызвала ухудшения полученных результатов распознавания Поэтому эксперимент по ее применению в системе автоматического распознавания слитной речи можно считать успешным.

Среди исследованных вопросов, связанных с производной спектра, наиболее важными были число производных спектра, используемых для распознавания, и влияние фильтрации и представления спектра в нелинейных шкалах на результативность системы распознавания речи. Результаты экспериментов отражают влияние, которое оказывает представление спектра речевого сигнала в нелинейных шкалах на эффективность производной спектра Эксперименты проводились только на материале корпуса VerbMobil II Наилучшие результаты были получены при представлении спектра речевого сигнала в шкале мелов, и при его преобразовании с помощью билинейной функции со значением коэффициента преломления, равного 0,8 Было достигнуто относительное увеличение эффективности на 4,5 %. Результаты экспериментов отражают влияние, которое оказывает предварительная фильтрация речевого сигнала при помощи низкочастотного спектра с разной частотой среза на эффективность производной спектра Эксперименты проводились только на материале корпуса VerbMobil II Наилучшие результаты, относительное увеличение эффективности системы автоматического

15

распознавания речи на 3,5 %, были получены при фильтрации с частотой среза равной 1000 Гц

Результаты экспериментов показали достаточно высокую эффективность фонетического подхода к интерпретации звуков речи, что говорит о перспективности применения представленных фонетических характеристик в автоматическом распознавании и транскрипции речи, а также о перспективности антропоморфных моделей, опирающихся не только на собственные акустические характеристики звука речи, но и на окружающий контекст Применяя фонетический подход к интерпретации звуков, были достигнуты результаты соизмеримые, а в некоторых случаях лучше тех, что были заявлены исследователями при использовании акустических характеристик Развитием этого подхода был бы учет динамических процессов, происходящих внутри звуков речи, заключающихся в изменении и движении формант в зависимости от контекста

В заключительной части работы приведены основные выводы по результатам диссертации

В настоящее время в речевых технологиях преобладает статистический подход к моделированию речевого сигнала Несмотря на постоянное развитие математических алгоритмов обработки и классификации данных, системы автоматической обработки речи не достигают результативности, показываемой людьми в сходных условиях

Статистический подход к акустическому моделированию речи сталкивается с существенными проблемами при переходе от лабораторных данных к реальному материалу, представленному в разных типах слитной речи Практически все системы, основанные на чисто статистических методах, не используют знания о том, как человек порождает и воспринимает речь, а также знания о фонологических системах языков и фонетических процессах, происходящих со звуками речи под влиянием тех или иных условий

В ходе исследования были определены фонетические характеристики, которые возможно успешно использовать для анализа звуков речи в разных условиях реализации Были созданы процедуры выделения и идентификации выбранных акустических характеристик из речевого сигнала Все акустические характеристики были проверены в экспериментах на точность интерпретации звуков речи в разных видах речевого материала и условий предварительной обработки, а также методов представления речевого сигнала Эксперименты были проведены на материале самых последних тестовых корпусов на разных языках, общим объемом около 135 часов

16

Автоматическая интерпретация звуков речи подразумевает предварительную обработку речевого сигнала и акустическое моделирование звуков речи на основе выделенных из сигнала акустических характеристик. Сама интерпретация производится посредством сравнения акустической модели опознаваемого звука речи с эталонными моделями Поэтому в данной диссертационной работе последовательно был описан процесс разработки, выделения и применения акустических моделей звуков речи для автоматической интерпретации звуков речи. В исследовании подробно описаны алгоритмы получения всех акустических характеристик

При моделировании спонтанной речи следует учитывать особенности реализации звуков в спонтанной речи, т к все они являются потенциальными источниками проблем, а также большого количества несоответствий вероятностным распределениям, выведенным на основе исследования «идеальной» речи.

Использование антропоморфных моделей решает эту проблему, так как человек может намного эффективнее понимать спонтанную речь и является своего рода идеальной системой распознавания Фонетический подход к акустическому моделированию звуков речи учитывает то, каким образом образуются звуки речи, как они противопоставляются друг другу в рамках фонологической системы отдельно взятого языка и как они влияют друг на друга в речевом сигнале.

В качестве фонетических характеристик предложены акустические корреляты звонкости, сонорности, местоположения формант, а также места и способа образования согласных

Для оценки эффективности разработанных в ходе диссертационного исследования фонетических характеристик был проведен ряд экспериментов Часть экспериментов проводились на материале вручную выделенных звуков речи В других экспериментах использовалась полноценная система автоматического распознавания речи, где фонетические характеристики использовались в качестве дополнительных к общепринятым акустическим характеристикам Во всех экспериментах были получены успешные результаты

Результаты, представленные в диссертационной работе показывают эффективность разработанных фонетических характеристик, а также общую перспективность применения фонетических характеристик в системах автоматического распознавания речи

Основные положения диссертации отражены в следующих публикациях

1 Кочаров, Д А Автоматическая обработка и распознавание гласных (на материале русского языка) /ДА Кочаров // Материалы XXXII международной филологической конференции, секция фонетики и методики преподавания иностранных языков, часть 1 . изд-во СПбГУ, 2003 - стр 35-38,

2 Кочаров, Д А Моделирование системы автоматического распознавания гласных в шуме (на материале русского языка) /ДА Кочаров // Ученые записки молодых филологов, вып 2 • изд-во СПбГУ, 2004 - стр 214-227,

3 Кочаров, Д А Автоматическое распознавание гласных в потоке речи (на материале русского языка) / ДА. Кочаров // Фонетический лицей, вып. 1 : изд-во СПбГУ, 2004 -стр 43-49,

4 Kocharov, D Automatic Vowel Recognition in Fluent Speech (on the Material of the Russian Language) / D Kocharov // Proc. of SPECOM 2004 Saint-Petersburg, 2004 -pp 308-309,

5 Kocharov, D Articulatory Motivated Acoustic Features for Speech Recognition / D Kocharov, A. Zolnay, R Schlüter, H Ney // Proc, of European Conf on Speech Communication and Technology 2005, vol 2 Portugal 2005-pp 1101-1104;

6 Кочаров, Д А Использование акустической характеристики сонорности для автоматического распознавания речи /ДА Кочаров // Материалы XXXV международной филологической конференции, секция фонетики и методики преподавания иностранных языков : СПбГУ, 2006 - стр 23-27;

7 Kocharov, D. Sonority Measure for Automatic Speech Recognition / D Kocharov // Proc of SPECOM 2006 Saint-Petersburg, 2006 - pp 359-362,

8 Zolnay, A Using Multiple Acoustic Feature Sets for Speech Recognition / A Zolnay, D. Kocharov, R. Schlüter, H Ney // Speech Communication, Volume 49, №6, 2007 -pp 514-525;

9 Кочаров, Д А Использование фонетических характеристик для автоматического распознавания речи /ДА Кочаров // Вестник Санкт-Петербургского государственного университета, вып. 2, часть. 2, серия 9 . изд-во СПбГУ, 2007 - стр 45-54.

10 Кочаров, Д А Автоматическое определение частоты основного тона методом анализа через синтез /ДА Кочаров // Материалы XXXVI международной филологической конференции, Секция формальных методов анализа русской речи, вып. 6 СПбГУ, 2007-стр 70-74;

 

Оглавление научной работы автор диссертации — кандидата филологических наук Кочаров, Даниил Александрович

Оглавление.

Введение.

Глава 1. Моделирование речевого сигнала.

1.1. Введение.

1.2. Особенности реализации звуков в спонтанной речи.

1.3. Представление речевого сигнала.

1.3.1. Осциллограмма речевого сигнала и ее анализ.

1.3.2. Спектральный анализ речевого сигнала.

1.4. Анализ речевого сигнала.

1.5. Психоакустические шкалы, используемые в анализе речи.

1.5.1. Перцептивные шкалы частот.

1.5.2. Перцептивная шкала громкости.

1.6. Акустическое моделирование.

1.7. Адаптация акустической модели к диктору.

1.8. Стандартные акустические характеристики.

1.9. Комбинирование акустических характеристик.

 

Введение диссертации2008 год, автореферат по филологии, Кочаров, Даниил Александрович

2.2. Системы, распознавания слитной речи, использующие фонетические характеристики.41

2.3. Наличие основного тона (ОТ).44

2.3.1. Частотные методы.44

2.3.2. Амплитудные методы.45

2.3.3. Корреляционный метод определения периода основного тона 46

2.4. Определение частоты основного тона (ЧОТ).48

2.4.1. Вычисление отношения длин соседних периодов.53

2.4.2. Определение ЧОТ методом анализа через синтез.54

2.4.3. Комбинирование характеристик и определение периода ЧОТ. 56

2.5. Местоположение формант.61

2.6. Степень сонорности звука речи.67

2.6.1. Акустическая характеристика сонорности.69

2.6.2. Представление спектра в нелинейной шкале.73

2.6.3. Низкочастотная фильтрация.75

2.7. Определение места образования шумных согласных.76

2.8. Заключение.79

Глава 3. Автоматическая интерпретация звуков речи.82

3.1. Введение.82

3.2. Распознавание гласных по местоположению формант.83

3.2.1. Формирование базы эталонов.83

3.2.2. Результаты распознавания гласных.86

3.3. Определение согласных, по месту и способу их образования.96

3.4. Использование характеристики звонкости в автоматическом распознавании речи.107

3.5. Использование характеристики сонорности в автоматическом распознавании речи.109

3.6. Заключение.115

Заключение.118

Список использованной литературы.123

Приложение 1. Корпусы и установки систем распознавания.142

П 1.1. Корпус слитной русской речи.142

П 1.2. Корпус SieTill.143

П 1.3. Корпус VerbMobil II.144

П 1.4. Корпус European Parliament Plenary Sessions.145

Приложение 2. Архитектура системы автоматического распознавания речи.148

Приложение 3. Список слов, использованный в экспериментах по распознаванию гласных.151

Приложение 4. Результаты распознавания отдельных гласных.153

Введение

Область применения речевых технологий постоянно расширяется. Особенно это относится к автоматическому распознаванию и транскрипции речи. Сфера их использования уже включает в себя любые виды оказания дистанционных услуг (например, заказ билетов), автоматический перевод речи, поиск ключевых слов в речевом сигнале, поиск информации в базах звуковых и видео данных, а также частично автоматическое определение говорящего или языка, на котором он говорит.

В последнее время постепенно увеличивается эффективность систем, выполняющих задачи автоматической обработки и интерпретации слитной речи. В то же время остается множество проблем в рамках существующих на сегодняшний день подходов. Одна из основных заключается в автоматической идентификации звуков речи.

Почти все системы автоматической обработки речи полностью основаны на статистических моделях, и в них используется довольно примитивное, с лингвистической точки зрения, моделирование речевого сигнала. Современный статистический подход к моделированию речи сталкивается с существенными проблемами при переходе от лабораторных данных к реальному речевому материалу. Это происходит в силу специфики статистического подхода: система эффективно работает на том и только на том материале, на котором она обучалась.

Исследовательская деятельность во всем мире в основном направлена на развитие математического и статистического аппарата, используемого в речевых технологиях. Но практически нет исследований, задачей которых является разработка лингвистических методов решения существующих проблем. Лингвистический подход может быть очень эффективен для создания антропоморфных моделей речевого сигнала, т.е. таких, в которых учитывается то, как человек порождает и воспринимает речь.

Применение антропоморфных моделей речевого сигнала представляется крайне перспективным, так как способности человека к распознаванию и пониманию речи намного превосходят возможности современных систем автоматической обработки речи. Человек не только лучше компьютерных систем распознает речь в сходных условиях, но и обладает той универсальностью и относительной независимостью от окружающих условий, которой не. имеют системы автоматического распознавания речи.

То, как человек воспринимает родную речь, находит свое отражение в фонологической системе языка. В ней содержится, весь, набор фонем, минимальных единиц языка, которые различаются его носителями. А фонетические законы, действующие в рамках языка, отражают особенности порождения речи носителями данного языка [Бондарко и др. 1991: 6-8]. Поэтому устойчивые акустические характеристики звуков речи, разработанные на фонологических и фонетических принципах, могут быть использованы в качестве основы для разработки эффективной автоматической интерпретации звуков речи и, соответственно, автоматической транскрипции и распознавания речи.

Целью настоящего диссертационного исследования является автоматическая интерпретация звуков речи, основанная на лингвистических принципах. Интерпретация звуков речи осуществляется при помощи акустических моделей речевого сигнала, построенных на основе фонологических и фонетических принципов.

Предметом исследования являются устойчивые акустические характеристики звуков речи, основанные на фонетических свойствах, которые могут быть использованы для разработки автоматической процедуры их выделения и интерпретации.

В задачи исследования входит:

1. определение акустических характеристик звуков речи в разных типах речи (спонтанной речи и чтении);

2. создание процедур автоматического выделения полезных акустических признаков звуков в речевом сигнале;

3. создание процедур автоматической фонемной интерпретации акустических характеристик звуков речи;

4. проверка точности интерпретации звуков речи в разных видах речевого материала и условиях предварительной обработки, а также разных методов представления речевого сигнала.

Научная новизна заключается в применении современных достижений цифровой обработки речевого сигнала для сегментации речевого потока и выделения акустических коррелятов традиционных фонетических (артикуляторных и перцептивных) признаков звуков речи с их последующей автоматической классификацией и интерпретацией на основе современных методов статистической обработки данных.

Лингвистическим основанием для данной работы являются исследования отечественных лингвистов, проводившиеся в нашей стране с начала ХХ-го века. Традиция описания звукового строя языка в терминах артикуляторных и акустических дифференциальных признаков служит надежной базой для построения антропоморфных акустических моделей речевого сигнала.

Алгоритмы получения и обучения акустических моделей на основе фонетических признаков разработаны при помощи самых современных математических и статистических методов.

Теоретическая ценность исследования заключается в выявлении и формально-акустическом представлении устойчивых свойств звуков русской речи, которые необходимы для их автоматической классификации и интерпретации и сохраняются в разных типах речи. Данная работа опирается на традиционный подход Щербовской фонологической школы к классификации элементов звуковой системы языка на основе артикуляторных и акустических дифференциальных признаков.

Апробация работы. Достоверность диссертационного исследования была проверена при помощи, экспериментов на материале новейших тестовых корпусов на русском, немецком и английском языках, общим объемом около 135 часов. Результаты исследований были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на семинарах, посвященных вопросам речевых технологий, на межвузовских конференциях преподавателей и аспирантов в СПбГУ (2003, 2006, 2007), на международных конференциях (SPECOM 2004, 2006 и Interspeech 2005): Результаты исследований опубликованы в 10-ти изданиях, в том числе в двух рецензируемых изданиях из списка ВАКа: «Вестник СПбГУ» и «Speech Communication» (на основании системы цитирования «Web of Science», см. перечень рецензируемых научных журналов и изданий ВАК от 21 апреля 2008 г.).

Практическая значимость работы определяется возможностью использования фонетических характеристик звуков речи для их автоматической классификации и интерпретации в системах автоматической транскрипции русской устной речи. Использование результатов работы в системах автоматического распознавания речи позволит увеличить их эффективность в применении к спонтанной речи, а также возможность адаптации подобных систем к обработке других языков.

Разработанные в ходе диссертационного проекта алгоритмы построения акустических моделей звуков речи и всего речевого сигнала в целом, можно использовать в любых системах автоматической обработки речи для извлечения из нее полезной информации. В первую очередь это касается систем автоматической транскрипции и распознавания речи. Предложенные акустические модели могут быть также эффективны для решения задач автоматического поиска ключевых слов в речи, автоматического аннотирования видео- и звуковых материалов и поиска необходимых материалов в соответствующих базах данных.

Данная работа построена следующим образом.

В первой главе изложены основы анализа и акустического моделирования речевого сигнала, применяемые в современных работах в области речевых технологий. В том числе описаны методы, примененные в диссертационном исследовании. Кроме того, в первой главе рассмотрены особенности спонтанной речи. Особое внимание обращается на акустические свойства реализованных в спонтанной речи аллофонов.

Во второй главе рассмотрены фонетические характеристики речевого сигнала, разработанные и реализованные в рамках данного диссертационного исследования для анализа и акустического моделирования речи. Для каждой характеристики подробно описан алгоритм ее получения из речевого сигнала.

В третьей главе представлены результаты, полученные в ходе экспериментов как по интерпретации отдельных звуков речи при помощи фонетических характеристик, так и по использованию таких характеристик в системах автоматического распознавания слитной речи. Результаты приводятся на материале русского, немецкого и английского языков.

В приложении 1 описаны звуковые корпусы и параметры систем автоматического распознавания речи, использованных в экспериментах на материале представленных корпусов.

В приложении 2 описана общая архитектура системы распознавания слитной речи, построенной на статистических принципах.

В приложении 3 приведен список слов, использованный в качестве материала в экспериментах по распознаванию гласных.

В приложении 4 представлены результаты распознавания изолированных гласных.

В заключении работы приведены основные выводы по результатам диссертации.

 

Заключение научной работыдиссертация на тему "Автоматическая интерпретация звуков речи"

Заключение

В настоящее время в речевых технологиях преобладает статистический подход к моделированию речевого сигнала. Несмотря на постоянное развитие математических алгоритмов обработки и классификации данных, системы автоматической обработки речи не достигают результативности, показываемой людьми в сходных условиях.

Статистический подход к акустическому моделированию речи сталкивается с существенными проблемами при переходе от лабораторных данных к реальному материалу. Практически все системы, основанные на чисто статистических методах, не используют знания о том, как человек порождает и воспринимает речь, а также знания о фонологических системах языков и фонетических процессах, происходящих со звуками речи под влиянием тех или иных условий.

Предметом описываемого диссертационного исследования были устойчивые к вариативности речевого сигнала акустические характеристики звуков речи, основанные на фонетических и фонологических принципах, которые могут быть использованы для разработки автоматической процедуры их интерпретации.

В ходе исследования были определены фонетические характеристики, которые возможно успешно формализовать и использовать для акустического моделирования звуков речи в разных условиях реализации. Были созданы процедуры выделения из речевого сигнала отобранных характеристик. Все характеристики были проверены в экспериментах на точность интерпретации звуков речи в разных видах речевого материала и условий предварительной обработки, а также методов' представления! речевого сигнала. Эксперименты были проведены на материале нескольких корпусов на разных языках, общим объемом около 135 часов, представляющих разные типы речи.

В исследовании применялся междисциплинарный подход к акустическому моделированию, совмещающему лингвистические и математические методы исследования речи. С одной стороны, данная работа опирается на традицию описания звукового строя языка в терминах артикуляторных и акустических дифференциальных признаков. С другой стороны, были использованы новейшие математические и статистические алгоритмы обработки и классификации данных, в том числе: линейный дискриминативный анализ, классификационные деревья решений, нормализация длины речевого тракта.

Результаты диссертационного исследования можно использовать в различных областях речевых технологий, включая автоматическое распознавание речи, автоматическую идентификацию говорящего или языка, автоматический поиск ключевых слов в речевом сигнале.

Автоматическая интерпретация звуков речи подразумевает предварительную обработку речевого сигнала и акустическое моделирование звуков речи на основе выделенных из. сигнала акустических характеристик. Сама интерпретация производится посредством сравнения акустической модели опознаваемого звука речи с эталонными моделями. Поэтому в данной диссертационной работе последовательно был описан процесс разработки, выделения и применения акустических моделей звуков речи для автоматической интерпретации звуков речи. В работе подробно описаны алгоритмы получения разработанных и реализованных акустических характеристик.

Использование антропоморфных моделей отличается универсальностью, так как человек может намного эффективнее понимать спонтанную речь и является своего рода идеальной системой распознавания. Фонетический подход к акустическому моделированию звуков речи учитывает то, каким образом образуются звуки речи, как они противопоставляются друг другу в рамках фонологической системы языка и как они влияют друг на друга в речевом сигнале.

Акустические характеристики являются основными структурными элементами акустических моделей. От правильного выбора характеристик зависит то, насколько полученная в итоге модель будет удовлетворять накладываемым на нее требованиям. При неправильном выборе акустических характеристик никакие математические алгоритмы дальнейшей обработки и классификации полученных данных не могут привести систему к успешной работе.

В число характеристик, использованных в диссертационном исследовании для автоматической интерпретации звуков речи, входят как акустические характеристики, так и фонетические. В качестве стандартных акустических характеристик выступают МБСС и РЬР. С ними проводилось сравнение во время оценки эффективности предложенных фонетических характеристик.

Разработанные и реализованные в ходе диссертационного исследования фонетические характеристики включают в себя акустические корреляты звонкости, сонорности, местоположения формант, а также места и способа образования согласных.

Для определения звонкости применялась процедура, основанная на автокорреляционной функции. При наличии ОТ в речевом сигнале, соседние периоды ЧОТ достаточно сильно коррелирует друг с другом. Поэтому на озвонченных участках речевого сигнала в значениях автокорреляционной функции периодически появляются- максимумы, соответствующие границам периодов ЧОТ. На невокализованных участках таких процессов не наблюдается.

Информация о местоположении формант использовалась для автоматической интерпретации гласных. Местоположение формант вычислялось синхронно периодам ЧОТ при помощи гребенки полосных фильтров, ширина которых была равна ЧОТ, а центры фильтров отстояли друг от друга по оси частот на значение ЧОТ. Полученные данные интерполировались в гребенку полосных фильтров, организованную на перцептивных принципах. Такая двухуровневая процедура позволяет, с одной стороны, давать общую спектральную картину формантной- структуры гласного, а с другой, - отслеживать движение формант внутри гласного.

Акустическим коррелятом сонорности является сумма производных спектра во всех точках частотной оси. Производная спектра соответствует скорости изменения функции, поэтому эта величина способна отразить суммарную скорость изменений спектра по всей шкале частот. Это в свою очередь коррелирует с сонорностью речевого сигнала в данной временной* точке. В ходе проведенных экспериментов были исследованы всевозможные условия и параметры, влияющие на эффективность выбранной характеристики сонорности.

Место и способ образования согласных определялись посредством вычисления центра тяжести спектра, который находился при помощи гребенки из трех широкополосных фильтров. Параметры фильтров были заданы экспертным путем на основании знаний о фонетических свойствах фонем, входящих в фонологическую систему русского языка.

Для оценки эффективности разработанных в ходе диссертационного исследования фонетических характеристик было проведено несколько экспериментов. Часть экспериментов проводилась на материале вручную выделенных звуков речи, а в другой части использовалась полноценная система автоматического распознавания речи, где фонетические характеристики применялись в качестве дополнительных к общепринятым акустическим характеристикам. Во всех экспериментах были получены успешные результаты.

Результаты, представленные в диссертационной работе, показывают эффективность разработанных фонетических характеристик, а также общую перспективность применения фонетических характеристик в системах автоматического распознавания речи.

 

Список научной литературыКочаров, Даниил Александрович, диссертация по теме "Теория языка"

1. Болотова, О. Б. Выпадения гласных в связной речи / О. Б. Болотова // Интегральное моделирование звуковой формы естественных языков: сб. ст. / отв. ред. А. С. Асиновский СПб : изд-во СПбГУ, 2005-с. 88-106;

2. Бондарко, Л. В. Фонетическое описание языка и фонологическое описание речи / Л. В. Бондарко Л., изд-во ЛГУ, 1981 - 199 е.;

3. Бондарко, Л. В. Фонетика современного русского языка / Л. В. Бондарко СПб. : изд-во СПбГУ, 1998 - 276 с.

4. Бондарко, Л. В. Введение / Л. В. Бондарко, Л. А. Вербицкая, Л. Р. Зиндер, Н. Д. Светозарова, А. С. Штерн // Фонетика спонтанной речи / под ред. Н. Д. Светозаровой Л. : изд-во ЛГУ, 1988-е. 4-11;

5. Бондарко, Л. В. Основы общей фонетики / Л. В. Бондарко, Л. А. Вербицкая, М. В. Гордина М. : изд-во Академия, 2004 -160 е.;

6. Бондарко, Л. В. Звуковая система русского языка в свете задач компилятивного синтеза / Л. В. Бондарко, В. И. Кузнецов,

7. П. А. Скрелин, К. Б. Шалонова // Бюллетень фонетического фонда русского языка №6. / СПб. : изд-во СПбГУ, 1997 с. 60-84;

8. Бондарко, Л. В. Отчет по теме «Факторы, обуславливающие восприятие речи в трудных условиях» / Л. В. Бондарко, Л. Р. Зиндер Л. : каф. фонетики ЛГУ, 1971;

9. Бондарко, Л. В. Промежуточные отчеты» по теме «Роса» / Л. В. Бондарко, Л. Р. Зиндер Л. : каф. фонетики ЛГУ, 1971, 1972, 1973, 1975;

10. Бондарко, Л. В. Отчет по теме «Разработка принципов анализа спонтанной речи и исследование восприятия искаженного текста» / Л. В. Бондарко, А. С. Штерн Л. : каф. фонетики ЛГУ, 1979;

11. Винцюк, Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Винцюк Киев : наукова думка, 1987 - 264 е.;

12. Воробьев, В. И. Теория и практика вейвлет-преобразования / В. И. Воробьев, В. Г. Грибунин СПб. : изд-во военного университета связи, 1999 — 204 е.;

13. Гаазе-Рапопорт, М. Г. От амебы до робота: модели поведения. Изд. 2-е / М. Г. Гаазе-Рапопорт, Д. А. Поспелов М. : изд-во Едиториал УРСС, 2004 - 296 е.;

14. Галунов, В. И. Акустическая теория речеобразования и система фонетических признаков / В. И. Галунов, В. И. Гарбарук // Материалы международной конференции «100 лет фонетике в России» / отв. ред. Л. В. Бондарко СПб. : Изд-во СПбГУ, 2001. -58-63 е.;

15. Галунов В. И. Некоторые варианты автоматического понимания устной речи / В. И. Галунов, А. Н. Соловьев // Материалы XXXIIIмеждународной филологической конференции — СПб : изд-во СПбГУ, 2005;

16. Гейльман, Н. И. Разговорная речь / Н. И. Гейльман // Проблемы и методы экспериментально-фонетического анализа речи / под ред. Л. Р. Зиндера и Л. В. Бондарко Л. : изд-во СПбГУ, 1980 - с. 110— 122;

17. Гейльман, Н. И. Сегментная организация спонтанной речи / Н. И. Гейльман // Фонетика спонтанной речи / под ред. Н. Д. Светозаровой Л. : изд-во ЛГУ, 1988 - с. 15-77;

18. Гейльман, Н. И. Коммуникативная ситуация и вариативность фонетических характеристик / Н. И. Гейльман, В. Стериополо-// Экспериментально-фонетический анализ, Вып. 2 / под ред. Л. В. Бондарко Л. : изд-во СПбГУ, 1989 - с. 76-87;

19. Гудонавичюс, Р. В. Распознавание речевых сигналов по их структурным свойствам / Р. В. Гудонавичюс, П. П. Кемешис, А. Б. Читавичюс Л. : изд-во Энергия, 1977 - 62 е.;

20. Зиндер, Л. Р. Отчет по теме «Исследование предельных возможностей правильного восприятия слов при прослушивании и визуальной обработке» / Л. Р. Зиндер Л. : каф. Фонетики ЛГУ, 1967;

21. Зиндер, Л. Р. Отчет по теме «Исследование статистических закономерностей приема речевой информации многими аудиторами при наличии шумов» / Л. Р. Зиндер, А. С. Штерн Л.: каф. фонетики ЛГУ, 1971;

22. Кузнецов, В. И. Вокализм связной речи / В. И. Кузнецов СПб. : изд-во СПбГУ, 1997 - 247 е.;

23. Ошуйко, И. Е. Вокализм / И. Е. Ошуйко // Фонетика спонтанной речи / под ред. Н. Д. Светозаровой Л. : изд-во ЛГУ, 1988 - с. 5668;

24. Рабинер, Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд М. : изд-во «Мир», 1978 - 848 е.;

25. Светозарова, Н. Д. Некоторые особенности фонетики русской спонтанной речи / Н. Д. Светозарова // Бюллетень фонетического фонда русского языка, №8, Фонетические свойства русской спонтанной речи Санкт-Петербург — Бохум, 2001 - с. 7-15;

26. Скрелин, П. A. Sub-Allophone Synthesis of Russian Vowels / П. А. Скрелин // Материалы международной конференции «100 лет фонетике в России» » / отв. ред. Л. В. Бондарко СПб. : Изд-во СПбГУ, 2001 -е. 155-158;

27. Сорокин, В. Н. Сегментация и распознавание гласных /

28. B. Н. Сорокин, А. И. Цыплихин // Информационные процессы, т. 4, № 2,, М., 2004 с. 202-220;

29. Тананайко, С. О. Развитие произносительной нормы и фонетическая вариативность (на материале русских согласных) /

30. C. О. Тананайко, Л. А. Васильева // Интегральное моделирование звуковой формы естественных языков / отв. ред. А. С. Асиновский- СПб. : изд-во СПбГУ, 2005 с. 38-53;

31. Фонетика спонтанной речи, сб. стат. / под ред. Н. Д. Светозаровой- Л. : изд-во ЛГУ, 1988 243 е.;

32. Чистович, Л. А. Восприятие речи / Л. А. Чистович, В. А. Кожевников // Вопросы теории и методов исследования восприятия речевых сигналов, вып. 22 Л., 1969 — с. 4-150;

33. Abdelatty, Ali A. M. Acoustic-Phonetic Features for the Automatic Classification of Stop Consonants / Ali A. M. Abdelatty, J. van der Spiegel, P. Mueller // IEEE Transactions on Speech and Audio Processing, Vol. 9, Issue 8, Nov. 2001 pp. 833-841;

34. Acero, A. Acoustical and Environmental Robustness in Automatic Speech Recognition, Ph.D. thesis / A. Acero Carnegie Mellon University, Pittsburgh, Sept. 1990 - 153 pp.;

35. Bahl, L. R.A Maximum Likelihood Approach to Continuous Speech Recognition / L. R. Bahl, F. Jelinek, R. L. Mercer // IEEE Trans, on Pattern Analysis and Machine Intelligence, vol. 5, March 1983 -pp. 179-190;

36. Baker, J. K. Stochastic Modeling for Automatic Speech Understanding / J. K. Baker // Speech Recognition / ed. D. R. Reddy New York : Academic Press, 1975 - pp. 512-542;

37. Baum, L. E. An Inequality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes / L. E. Baum // Inequalities, vol. 3, / ed. O. Shisha New York : Academic Press, 1972-pp. 1-8;

38. Bellman, R. E. Dynamic Programming / R. E. Bellman Princeton, NJ, USA : University Press, 1957 - 396 pp.;

39. Bondarko, L. V. Phonetic Properties of Russian Spontaneous Speech / L. V. Bondarko; N. B. Volskaya, S. O. Tananaiko, L. A. Vasilieva // Proc. of the Int. Congress of Phonetic Sciences Barcelona, Spain, 2003 - pp. 2973-2976;

40. Bozkurt, B. Improved Differential Phase Spectrum Processing For Formant Tracking / B. Bozkurt, B. Doval, C. D'Alessandro, T. Dutoit // Proc. of Int. Conf. on Spoken Language Processing 2004 Jeju Island, Korea, 2004 - pp. 265-268;

41. Choueiter, G. F. A Wavelet and Filter Bank Framework for Phonetic Classification / G. F. Choueiter, J. R. Glass // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2005 Philadelphia, USA, 2005-pp. 933-936;

42. Dalsgaard, P. Phoneme Label Alignment Using Acoustic-Phonetic Features and Gaussian Probability Density Functions / P. Dalsgaard // Computer, Speech and Language, vol. 6, 1992 pp. 303-329;

43. Davis, S. B. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences /

44. S.' B. Davis, P. Mermelstein // IEEE Trans, on Acoustics, Speech, Signal Processing, vol. ASSP-28, №4, Aug. 1980 pp. 357-366;

45. De Mori, R. Augmenting Standard Speech Recognition Features with Energy Gravity Centres / R. de Mori, L. Moisa, R. Gemell, F. Mana, D. Albesano // Computer Speech and Language, vol. 15, 2001 -pp: 341-354;

46. Doddington, G. R. The NIST Speaker Recognition Evaluation -Overview, Methodology, Systems, Results, Perspective / G. R. Doddington, M. A. Przybocki, A. F. Martin, D. A. Reynolds // Speech Communication, vol. 31, №2-3, June, 2000 pp. 225-254;

47. Duda, R. O. Pattern Classification, 2-nd ed. / R. O. Duda, P. E: Hart,

48. D. G. Stork New York : John Wiley & Sons, 2001 -. 654 pp.;

49. Eide, E. Linguistic Feature Representation, of the Speech Waveform /

50. E. Eide, J. R. Rohlicek, H. Gish, S. A Mitter // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1993 Minneapolis, USA, 1993-pp. 483—486;

51. Eide, Е. Distinctive Features for Use in an Automatic Speech Recognition System / E. Eide // Proc. European Conf. on Speech Communication and Technology 2001 Aalborg, Denmark, 2001 - pp. 1613-1616;

52. Erler, K. An HMM-Based Speech Recognizer Using- Overlapping Articulatory Features / K. Erler, G. H. Freeman // Journal of Acoustical Society of America, vol. 4, 1996 pp. 2500-2513;

53. Fant, C. G. Speech Sounds and Features / C. G. Fant Cambridge, USA : MIT Press, 1973 - 240 p.;

54. Fisher, R. A. The Use of Multiple Measurements in Taxonomic Problems/ R. A. Fisher // Annals of Eugenics, vol. 7, 1936 pp. 179— 188;

55. Fletcher, H. Auditory Patterns / H. Fletcher // Review of Modern Physics, vol. 12, 1940-pp. 47-65;

56. Fletcher, H. Loudness, Its Definition, Measurement and Calculation / H. Fletcher, W. A. Munson // Journal of the Acoustical Society of America, vol. 5, 1933 pp. 82-108;

57. Fujimura, O. An Approximation to Voice Aperiodicity / O. Fujimura // IEEE Trans, on Audio and Electroacoustics, vol. AU-16, №1, March 1968-pp. 68-72;

58. Galunov, V. I. Models of Speech Perception, Speech Production and Problem Automatic Speech Recognitions / V. I. Galunov, A. N. Soloviev, V. K. Uvarov // Proc. of SPECOM 2004 Saint-Petersburg, 2004;

59. Glass, J. R. The MIT Spoken Lecture Processing Project / J. R. Glass, T. J. Hazen, D. S. Cyphers, K. Schutte, A. Park // Proc. of

60. HLT/EMNLP on Interactive Demonstrations Vancouver, Canada, 2005 - pp. 28-29;

61. GSM 06. 60: Digital Cellular Telecommunications System (Phase2+) / Enhanced Full Rate Speech Transcoding. European Telecommunications Standards Institute, 1998;

62. Haeb-Umbach, R. Linear Discriminant Analysis for Improved Large Vocabulary Continuous Speech Recognition / R. Haeb-Umbach, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and1 Signal Processing 1992, vol. 1 San Francisco, 1992 - pp. 13-16;

63. Helms, H. D. Fast Fourier Transform Method of Computing Difference Equations and Simulating Filters / H. D. Helms // IEEE Trans, on Audio and Electronics, vol. 15, №2, 1967 pp 85-90;

64. Hermansky, H. Perceptually Based Linear Predictive Analysis of Speech / H. Hermansky, B. A. Hanson, H. Wakita // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1985 Tampa, USA, 1985-pp. 509-512;

65. Hermansky, H. Perceptual Linear Predictive (PLP) Analysis of Speech / H. Hermansky // Journal of the Acoustical Society of America, vol. 87, №4, June 1990 pp. 1738-1752;

66. Holmes, J. N. Using Formant Frequencies in Speech Recognition / J. N. Holmes, W. J. Holmes, P. N. Garner // Proc. European Conf. on Speech Communication and Technology 1997, vol. 4 Rhodes, Greece, 1997-pp. 2083-2086;

67. Hon, H. W. Recent Progress in Robust Vocabulary-Independent Speech Recognition / H. W. Hon, K. F. Lee // DARPA Speech and Natural Language Processing Workshop 1991 Pacific Grove, USA, 1991 — pp. 258-263;

68. Itahashi, S. Automatic Formant Extraction Utilizing Mel Scale and Equal Loudness Contour / S. Itahashi, S. Yokoyama // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1976 Munich, Germany, 1976-pp. 310-313;

69. Jelinek, F. A Fast Sequential Decoding Algorithm Using a Stack / F. Jelinek // IBM Journal of Research and Development, vol. 13, 1969 pp. 675-685;

70. Junqua, J.-C. Evaluation and Optimization of Perceptually-Based ASR Front-End / J.-C. Junqua, H. Wakita, H. Hermansky // IEEE Transactions on Speech and Audio Processing, vol. 1, №1, Jan., 1993 -pp 39-48;

71. Kanokphara, S. A Study Of Phone Recognizer Combination For Higher Accuracy In TIMIT Phone Recognition / S. Kanokphar, J. Carson-Berndsen// Proc. the 9th Western Pacific Acoustics Conference -Seoul, Korea, 2006 pp. 154-158;

72. Kirchhoff, К. Combining Acoustic and Articulatory Feature Information for Robust Speech Recognition / K. Kirchhoff, G. A. Fink, G. Sagerer// Speech Communication, vol. 37, 2002 pp. 303-319;

73. Kocharov, D. Automatic Vowel Recognition in Fluent Speech (on the Material of the Russian Language) / D. Kocharov // Proc. of SPECOM 2004 Saint-Petersburg, 2004 - pp. 308-309;

74. Kocharov, D. Sonority Measure for Automatic Speech Recognition / D. Kocharov // Proc. of SPECOM 2006 Saint-Petersburg, 2006 -pp. 359-362;

75. Kocharov, D. Articulatory Motivated Acoustic Features for Speech Recognition / D. Kocharov, A. Zolnay, R. Schlüter, H. Ney // Proc. European Conf. on Speech Communication and Technology 2005, vol. 2 Lisbon, Portugal, 2005 - pp. 1101-1104;

76. Lahiri, A. Speech Recognition with Phonological Features / A. Lahiri // Proc. of Int. Congress of Phonetic Sciences San-Francisco, 1999 -pp. 715-718;

77. Lee, L. Speaker Normalization Using Efficient Frequency Warping Procedures / L. Lee, R. Rose // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1996 vol. 1 Atlanta, 1996 - pp. 353356;

78. Lee, M. Formant Tracking Using Context-Dependent Phonemic Information / M. Lee, J. van Santen, B. Möbius, J. Olive // IEEE Trans, on Speech and Audio Processing, vol. 13, № 5, 2005 pp. 741-750;

79. Lincoln, M. The Multi-Channel Wall Street Journal Audio Visual Corpus (MC-WSJ-AV): Specification and Initial Experiments / M. Lincoln, I. McCowan, J. Vepa, H. K. Maganti // Proc. of IEEE

80. Workshop on Automatic Speech Recognition and Understanding 2005- San Juan, Puerto Rico, 2005 pp. 357-362;

81. Lindblom, B. Formant Undershoot and Speaking Styles: An Attempt to Resolve Some Controversial Issues / B. Lindblom, S. Brownlee, R. Lindgren // AIPUK 31. 1996 Kiel, Germany, 1996 - pp. 119-129;

82. Lippmann, R. P. Speech Recognition by Machines and Humans / R. P. Lippmann // Speech Communication, vol. 22, 1997 pp. 1-15;

83. Markel, J. K. Linear Prediction of Speech / Markel J. K. and Gray A. H.- New-York, USA : Springer-Verlag, 1976 305 pp.;

84. Markov, K. Integration of Articulatory and Spectrum Features Based on the Hybrid HMM/BN Modeling Framework / K. Markov, J. Dang, S. Nakamura // Speech Communication, vol. 48, 2006 pp. 161-175;

85. McCandlessj J. An Algorithm for Automatic Formant Extraction Using Linear Prediction Spectra / J. McCandless // IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-22, 1974 pp. 135-141;

86. McDonough, J. W. Speaker Normalization with All-Pass Transforms / J. W. McDonough // Tech. Rep. 28 Baltimore : Center for Language Speech Processing, The Johns Hopkins University, 1998;

87. Merwe, C. J. Calculation of LPC Based Cepstrum Coefficients Using Mel-Scale Frequency Warping / C. J. Merwe, J. A. du Preez // IEEE COMSIG, 1991 pp. 17-21;

88. Molau, S. Normalization in the Acoustic Feature Space for Improved Speech Recognition, Ph.D. thesis / S. Molau Aachen, Germany : RWTH Aachen, 2003 - 158 pp.;

89. Mustafa, K. Robust Formant Tracking for Continuous Speech With Speaker Variability / K. Mustafa, I. C. Bruce // IEEE Trans, on Speech and Audio Processing, vol. 19; 2006 pp. 435-444;

90. Ney, H. The Use of a One- Stage Dynamic Programming Algorithm for Connected Word Recognition / H. Ney // IEEE Trans, on Speech and Audio Processing, vol. 32, №2, April 1984 pp. 263-271;

91. Ney, H. Acoustic modeling; of phoneme units for continuous; speech recognition / H. Ney // V-th European Signal Processing Conference -Barcelona, Spain, 1990 pp. 65-72;

92. Nouza, J. Spectral Variation Functions Applied to Acoustic-Phonetic Segmentation of Speech Signals / J. Nouza // Speech Processing, vol. 63 Frankfurt am Main, 1997 - pp. 43-58;

93. Nussbaumer, H. J. Fast; Fourier Transformation and Convolution Algorithms, 2-nd ed. / H. J. Nussbaumer New-York, USA : SpringerVerlag, 1982 - 276 pp.;

94. Odell, J. J. A Onepass Decoder Design for Large Vocabulary Recognition / J. Ji Odell, V. Valtchev, P. C. Woodland, S. J; Young // ARPA Spoken Language Technology Workshop 1994 Plainsboro, USA, 1994-pp. 405-410;

95. Oppenheim, A. V. From Frequency to Quefrency: A History of the Cepstrum / A. V. Oppenheim, R. W. Schäfer // IEEE Signal Processing, vol. 21, issue 5, Sep. 2004 pp. 95-106;

96. Padmanabhan, M. Spectral Peak Tracking and Its Use in Speech Recognition / M. Padmanabhan // Proc. Int. Conf. on Spoken Language Processing 2000, vol. 1 Beijing, China, 2000 - pp. 604-607;

97. Paul, D. B. Algorithms for an Optimal A*-search and Linearizing the Search in the Stack Decoder / D. B. Paul // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1991, vol. 1, Toronto, Canada, 1991 - pp. 693-696;

98. Pitz, M. Investigations on Linear Transformations for Speaker Adaptation and Normalization, Ph. D. thesis / M. Pitz Aachen, Germany : RWTH Aachen University, 2005 - 142 pp.;

99. Rabiner, L. R. On the Use of Autocorrelation Analysis for Pitch Detection / L. R. Rabiner // IEEE Trans, on Acoustics, Speech, and Signal Analysis, vol. ASSP-25, №1, Feb. 1977 pp. 24-33;

100. Rabiner, L. R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition / L. R. Rabiner // Proc. of the IEEE, vol. 77, №2, February 1989 pp. 257-286;

101. Rabiner, L. R. A Comparative Study of Several Pitch Detection Algorithms / L. R. Rabiner, M. J. Cheng, A. E. Rosenberg, C. A. McGonegal // IEEE Trans, on Acoustics, Speech, and Signal Processing, vol. ASSP-24, Oct. 1976 pp. 399-417;

102. Rabiner, L. R. An Introduction to Hidden Markov Models / L. R. Rabiner, B.-H. Juang // IEEE Trans, on Speech and Audio Processing, vol. 3, №1, 1986-pp. 4-16;

103. Rabiner, L. R. Fundamentals of Speech Recognition / L. R. Rabiner, B.-H. Juang Englewood Cliffs, NJ : Prentice Hall, 1993 - 496 pp.;

104. Reetz, H. Converting Speech Signal to Phonological Features / H. Reetz // Proc of Int. Congress of Phonetic Sciences San-Francisco, 1999-pp. 1733-1736;

105. Robinson; D. W. A Predetermination of the Equal-Loudness Relations for Pure Tones / D. W. Robinson, R. S. Dadson // British Journal of Applied.Physics, vol. 7, 1956-pp. 166-181;

106. Sakoe, H. Two-Level DP-Matching a Dynamic Programming-Based Pattern Matching Algorithm for Connected^ Word Recognition / H. Sakoe // IEEE Transactions on Speech and Audio Processing, vol. 27, Dec. 1979 - pp. 588-595;

107. Schlüter, R. Gammatone Features and Feature Combination for Large Vocabulary Speech Recognition / R. Schlüter, I: Bezrukov, H. Wagner, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2007 Honolulu, 2007 - pp. 649-652;

108. Schlüter, R. Using Phase Spectrum Information for Improved Speech Recognition Performance / R. Schlüter, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2001, vol. 1 Salt Lake City, 2001 -pp. 133-136;

109. Schroeder, M. R. Recognition of Complex Acoustic Signals / M. R. Schroeder // Life Sciences Research Report, vol. 5, 1977 -p. 324;

110. Shi, Y. Spectrogram-Based Formant Tracking via Particle Filters / Y. Shi E. Chang // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 2003, vol. 1 Hong Kong, China, 2003 - pp. 168— 171;

111. Sixtus, A. From Within-Word Model Search to Across-Word Model Search in Large Vocabulary Continuous Speech Recognition / A. Sixtus, H. Ney // Computer Speech and Language, vol. 16, №2, April 2002-pp. 245-271;

112. Skrelin, P. Allophone-Based Concatenative Speech Synthesis System for Russian / P. Skrelin// Proc. of Text, Speech and Dialogue 1999 -Berlin, 1999-pp. 156-159;

113. Skrelin, P. A. Segment Features in Different Speech Styles / P. A. Skrelin // Proc. of Int. Conf. SPECOM 2004 Saint-Petersburg, 2004-pp. 11-16;

114. Stevens, S. S. The Relation of Pitch and Frequency / S. S. Stephens, J. Volkmann // American Journal of Psychology, vol. 53, №3, July 1940-pp. 329-353;

115. Stuttle, M. N. Combining a Gaussian Mixture Model Front End with MFCC Parameters / M. N. Stuttle, M. J. F. Gales // Proc. Int. Conf. on

116. Spoken Language Processing 2002, vol. 3 Denver, 2002 - pp. 1565— 1568;

117. Stylianou, Y. Harmonic Plus Noise Models for Speech, Combined with Statistical Methods, for Speech and Speaker Modification. PhD* thesis / Y. Stylianou Paris, France : Ecole Nationale Superieure des Telecommunication, 1996 - 225 pp.;

118. Tufekci, Z. Applied Mel-Frequency Discrete Wavelet'Coefficients and Parallel Model Compensation for Noise-Robust Speech Recognition / Z. Tufekci, J.: N. Gowdy, S. Gurbuz, E. Patterson // Speech Communication, vol. 48, Oct. 2006 pp. 1294-1307;

119. Thomson, D. L. Use of Periodicity and Jitter as Speech Recognition Feature / D. L. Thomson, R. Chengalvarayan// Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1998, voli 1 Seattle , 1998 -pp. 21-24;

120. Viterbi, A. Error Bounds for Convolutional Codes and an Asymptotically Optimal Decoding Algorithm / A. Viterbi // IEEE Trans, on Information Theory, vol. 13, 1967 pp. 260-269;

121. Wakita, H. Normalization of Vowels by Vocal Tract Length and Its Application to Vowel Identification / H. Wakita // Proc. IEEE Int. Conf. on Acoustics, Speech; and Signal Processing 1977 Hartford, USA, 1977-pp. 183-192;

122. Weber, K. HMM2-Extraction of Formant Features and Their Use for Robust ASR / K. Weber, H. Bourlard, S. Bengio // Proc. European Conf. on Speech Communication and Technology 2001 Aalborg, Denmark, 2001 - pp. 607-610;

123. Wegmann, S. Speaker Normalization on Conversational Telephone Speech / S. Wegmann, D. McAllaster, J. Orloff, В . Peskin // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1996, vol. 1, Atlanta, USA, 1996 - pp. 339-341;

124. Welling, L. A Model for Efficient Formant Estimation / L. Welling, H. Ney // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1996, vol. 2, Atlanta, USA, 1996 - pp. 797 - 800;

125. Wempe, T. F0-related Formant Measurements / T. Wempe // Proc. of the Institute of Phonetic Sciences Amsterdam, The Netherlands : University of Amsterdam, vol. 24, 2001 - pp. 167-187;

126. Wempe, T. The Interactive Design of an F0-Related Spectral Analyser / T. Wempe, P. Boersma // Proc. of Int. Congress of Phonetic Sciences -Barcelona, Spain, 2003 pp. 343-346;

127. Woodland, P. C. Broadcast News Transcription Using НТК / P. C. Woodland, M. J. F. Gales, D. Pye, S. J. Young // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1997, vol. 2 -Munich, Germany, 1997-pp. 719-722;

128. Wrench, A. A. Analysis of Fricatives Using Multiple Centers of Gravity / A. A. Wrench // Proc. of Int. Congress of Phonetic Sciences, vol. 4 Stockholm, Sweden, 1995 - pp. 460 - 463;

129. Young, S. J. The General Use of Tying in Phoneme Based HMM Recognizers / S. J. Young // Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing 1992, vol. 1 San Francisco, USA, 1992-pp. 569572;

130. Young, S. J. Statistical Modelling in Continuous Speech Recognition (CSR) / S. J. Young // Proc. of Int. Conf. on Uncertainty in Artificial Intelligence Seattle, USA, 2001 - pp. 562-571;

131. Zolnay, A. Robust Speech Recognition Using a Voiced-Unvoiced Feature / A. Zolnay, R. Schlüter, H. Ney // Proc. Int. Conf. on Spoken Language Processing, vol. 2 Denver, USA, 2002 - pp. 1065-1068;

132. Zolnay, A. Using Multiple Acoustic Feature Sets for Speech Recognition / A. Zolnay, D. Kocharov, R. Schlüter, H. Ney // Speech Communication, vol. 49, №6, 2007 pp. 514-525;

133. Zwicker, E. Subdivision of the Audible Frequency Range into Critical Bands / E. Zwicker // Journal of the Acoustical Society of America, vol. 33, №2 1961 p. 248.