автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему:
Вариативность формантной структуры гласного в разных видах речи

  • Год: 2007
  • Автор научной работы: Евдокимова, Вера Вячеславовна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.19
Диссертация по филологии на тему 'Вариативность формантной структуры гласного в разных видах речи'

Полный текст автореферата диссертации по теме "Вариативность формантной структуры гласного в разных видах речи"

Санкт-Петербургский государственный университет

На правах рукописи

Евдокимова Вера Вячеславовна

ВАРИАТИВНОСТЬ ФОРМАНТНОЙ СТРУКТУРЫ ГЛАСНОГО В РАЗНЫХ ВИДАХ РЕЧИ

10 02 19 - теория языка

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

1 8 А В Г 201)?

Санкт-Петербург 2007

Диссертация выполнена на кафедре фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета

Научные руководители -

доктор филологических наук, профессор Лия Васильевна Бондарко _

доктор филологических наук, профессор Скрелин Павел Анатольевич

Официальные оппоненты - доктор психологических наук,

ведущий научный сотрудник Инна Васильевна Королева,

кандидат филологических наук, доцент Наталия Арсеньевна Слепокурова

Ведущая организация - Российский государственный педагогический

университет имени А И Герцена

Защита состоится «27» сентября 2007 года в «13» часов на заседании диссертационного совета Д 212 232 23 по защите диссертаций на соискание ученой степени доктора филологических наук при Санкт-Петербургском государственном университете по адресу 199034, Санкт-Петербург, Университетскаянаб , филологический факультет, ауд

С диссертацией можно ознакомиться в Научной библиотеке им М Горького Санкт-Петербургского государственного университета (Санкт-Петербург, Университетская набережная, 7/9)

Автореферат разослан «_»_2007 года

И о ученого секретаря диссертационного совета Д 212 232 23, доктор филологических наук, профессо]

Г Я Мартыненко

Речевая коммуникация представляет собой основу обмена информацией между людьми Это сложнейший процесс, в котором неразрывны психологическая, физиологическая и акустическая составляющие Каждый элемент речевого сообщения несет многофункциональную информационную нагрузку Конечным количеством символов обеспечивается универсальный информационный обмен, оптимизированный по структуре и скорости передачи сообщений

Фонема, являясь минимальной единицей языковой системы, не имеет самостоятельного информативного значения, но, в то же время, представляет собой элемент, из которых состоит речевой сигнал Теория фонемы стала базовой в современной фонетике С помощью этой теории были классифицированы артикуляционные особенности отдельных фонем, найдена их связь с акустическими характеристиками речи, сформулированы правила формирования супрасегментных языковых единиц Теоретическая научная база дала возможность решения прикладных задач фонетики, связанных с исследованием отдельных видов речи, поиском общих для них закономерностей и отличий

Необходимость изучения речевой коммуникации определяется не только ее самостоятельным общенаучным значением, но и тем, что она становится в настоящее время важной неотъемлемой частью решения сложных комплексных проблем, имеющих практические выходы в технику связи, системы управления, медицину, обучение и другие отрасли деятельности человека

Одним из перспективных направлений развития фонетики является изучение живой разговорной - спонтанной речи (СР) во всем ее многообразии Выделение фонетических особенностей СР, их формализация и классификация дает возможность поднять на качественно новый уровень решение ряда задач анализа и синтеза речи Работы фонетистов подтвердили высокую вариативность СР, значительное влияние экстралингвистических факторов, позволили описать закономерности трансформации отдельных фонем и фонетических слов Накопленный научный задел может быть успешно применен при решении прикладных задач лишь при условии формализации

выявленных фонетических явлений в систему признаков и разработки процедуры оценки влияния этих признаков на речеобразование

Актуальность настоящего исследования определяется тем, что для качественного решения прикладных фонетических задач распознавания и высококачественного синтеза речи необходимо понимание отличий процесса речеобразования в разных видах речи, в том числе в особенно сложной и многообразной, спонтанной речи Важным, но недостаточно исследованным аспектом этой проблемы может считаться изучение свойств и особенностей работы артикуляторного аппарата, проявляющихся в вариативности форматной картины

Последовательность реализаций фонем представляет собой информационно насыщенный элемент речевого сигнала Гласные выполняют конститутивные и дифференцирующие функции, участвуют в реализации супрасегментных явлений В речевом сообщении гласные становятся функционально более значимыми, поскольку в них содержится информация о характеристиках окружающих согласных, наиболее полно отражены отличия видов речи (особенности коартикуляции, редукции и тд) Кроме того, гласные участвуют в просодическом оформлении высказывания, от которого может зависеть правильное восприятие звуковых оболочек слов Весомость гласных в речевой посылке обусловила их превращение в объект исследования при сравнительном анализе видов речи

Целью настоящего исследования является определение характерных особенностей формантной картины гласных в спонтанной речи, отличающих ее от чтения текста

Для достижения поставленной цели было необходимо решить следующие

задачи

1 Анализ научных публикаций отечественных и зарубежных авторов, посвященных проблеме изучения разных видов речи и вопросам разработки необходимых для этого методов

2 Выбор подхода к описанию речевого тракта как сложной динамической системы, формирование структуры модели такой системы

3 Создание метода исследования речевого тракта и его составных частей -голосового источника и артикуляторного аппарата путем определения их передаточных функций и частотных характеристик

4 Разработка расчетного алгоритма и компьютерной программы построения формантных картин сегментов гласных путем автоматизированной обработки первичного аудиоматериала

5 Проведение сравнительного анализа на формантном уровне особенностей реализации гласных в спонтанной речи и при чтении текста Выявление на уровне изменений формантной картины тонких фонетических эффектов, присущих разным видам речи

Предмет данного исследования - реализации аллофонов гласных русского языка в спонтанной речи и при чтении текста

Научная новизна исследования состоит в создании динамической модели речевого тракта, выделяющей голосовой источник и артикуляторный аппарат, разработке метода описания динамики артикуляторного аппарата и построения на его основе формантных картин гласных, а затем, в проведении с помощью этого метода сравнительного анализа особенностей реализации гласных в разных видах речи

Теоретическая ценность проведенного исследования состоит в изучении особенностей функционирования артикуляторного аппарата в разных видах речи, в обосновании того, что разным видам речи присущи отличия на уровне формантных картин гласных, а также в разработке метода исследования динамики речевого тракта

Практическая ценность работы заключается в том, что динамическая модель речевого тракта и метод ее расчета могут найти применение при решении ряда прикладных задач Их использование дает возможность выделения и раздельного исследования динамики голосового источника и артикуляторного аппарата Каждая из этих составных частей речевого тракта реализует в речевом процессе свои функции В приложении к кругу задач распознавания содержания речевой посылки и синтеза речевого сообщения, в том числе задач, связанных со спонтанной речью, наибольший интерес представляет возможность выделить «очищенную» от влияния частоты

основного тона формантную картину гласных, формируемую артикуляторным аппаратом В свою очередь, для задач, связанных с распознаванием физического и эмоционального состояния диктора, может быть получен выходной сигнал голосового источника (составляющие частоты основного тона (ЧОТ) и ее гармоник), не искаженный действием артикуляторного аппарата Разработанная процедура дает возможность независимо исследовать динамику каждого из отделов речевого тракта и получить необходимые характеристики

В ходе работы нашли применение следующие методы слуховой и аудиторский виды анализа, частотные методы исследования динамических систем, методы компьютерной обработки аудиоматериалов, в частности, пакет программ МАТЬАВ, методы математической статистики

Изложение процедуры и результатов исследования сопровождается таблицами и рисунками

Апробация работы. Результаты исследования были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на межвузовских конференциях преподавателей и аспирантов СПбГУ (2005, 2006, 2007), на международной конференции Бресот'Об

Структура работы Данное диссертационное исследование содержит 193 страницы машинописного текста и состоит из введения, четырех глав, заключения, списка использованной литературы (110 наименований) и приложения

В главе 1 производится анализ состояния работ по исследованию видов речи Определяется место задачи сравнительной оценки вариативности формантных картин гласных в общей структуре фонетических исследований

Сложность и многофакторность процесса речеобразования, его различия в разных видах речи требуют применения адекватных инструментов исследования Возможности основных существующих средств сбора и обработки речевой информации (осциллограмм, спектрограмм, сонограмм) ограничены и не могут обеспечить быстрого анализа большого объема аудиоматериала, необходимого для

решения задачи сравнительной оценки Чтобы иметь возможность сравнить особенности формантных картин гласных в разных видах речи необходима специальная автоматизированная процедура обработки первичной аудиоинформации, которая даст возможность детального изучения работы артикуляторного аппарата

Проведенный обзорный анализ существующих моделей и методов описания функционирования речевого тракта показывает, что ни один из них не может быть использован для построения такой процедуры

Для решения задачи автором предложена оригинальная двухзвенная модель речевого тракта, в которой выделены голосовой источник и артикуляторный аппарат Основным ее отличием от известной и-модели является то, что голосовой источник рассматривается не просто в виде генератора последовательности импульсов, а как самостоятельное динамическое звено, подвергающееся внешнему инициирующему воздействию и обладающее собственными частотными свойствами Акустическая система голосового источника имеет набор собственных резонансных частот Процесс фонации рассматривается как вынужденные акустические колебания, возникающие на резонансных частотах голосового источника под действием инициирующего воздушного потока

Отнесение частотной избирательности, проявляющейся в процессе фонации, к свойствам голосового источника позволяет рассматривать речевой тракт как обобщенную динамическую систему, в которой выделены два последовательно соединенных звена, каждое из которых обладает своими динамическими свойствами Процесс речеобразования рассматривается как двухэтапный, На первом этапе под действием внешнего инициирующего воздействия голосовой источник формирует сигнал (глоттальную волну), который имеет сплошной спектр с резонансными пиками на частотах частоте основного тона и ее высших гармоник (тоновых составляющих) Этот сигнал поступает на вход артикуляторного аппарата и преобразуется им в речевую посылку Предложенная схема не противоречит описанию сигнала в Ы^-модели и может рассматриваться как ее развитие

Заложенное в основу динамической модели структурное деление речевого тракта открывает возможность изучения его составных частей методом обратной фильтрации, используя живой речевой материал.

Выбранный подход к описанию отделов речевого тракта как сложных динамических звеньев позволяет обратиться при описании формантной картины гласной к математическому аппарату частотных методов, разработанных в теории автоматического управления Применение этого аппарата дает возможность выбрать для количественной оценки динамических явлений в речевом тракте стандартные параметры описания динамических систем, удобные для последующего перехода к фонетическим характеристикам

Глава 2 посвящена описанию разработанного на основе динамической модели речевого тракта расчетного метода определения частотных передаточных функций голосового источника и артикуляторного аппарата

В разделе 2 I в речевой посылке выделяются две группы акустических составляющих Одна - составляющие ЧОТ и тоновых частот, другая -составляющие с частотами, характерными для конкретных фонем (для гласных это набор формант) Такая структура речевого сигнала обусловлена тем, что глоттальная волна преобразуется артикуляторным аппаратом Степень преобразования и его характер различны для разных видов речи Общим остается то, что составляющие голосовых частот, как самые мощные, не могут быть полностью подавлены артикуляторным аппаратом и представляют собой существенную часть речевой посылки Соотношение весомостей каждой из групп в спектре речевого сигнала может быть изменено при обработке экспериментального аудиоматериала за счет выбора длительности сегмента обрабатываемой реализации С увеличением длительности, составляющие голосовых частот при построении спектра сохраняются, хотя и несколько усредняются, тогда как формантные составляющие конкретных гласных резко ослабевают за счет статистического усреднения

Предлагаемый метод определения частотных характеристик голосового источника и артикуляторного аппарата построен на совместной обработке

спектрограмм речевых сигналов двух реализаций, причем одна из них соответствует речевому сигналу большой длительности (100 с и более), другая - сегменту конкретной фонемы Спектрограмма сигнала большой длительности, в которой при обработке аудиосигнала подавлены составляющие, формируемые артикуляторным аппаратом, в первом приближении рассматривается как спектрограмма выходного сигнала, голосового источника

Математический аппарат частотных методов теории управления позволяет получить соотношения для определения на основе двухзвенной динамической модели амплитудных частотных функций (АЧХ) основных отделов речевого тракта и найти соответствующие им передаточные функции

При определении спектральных плотностей реализаций использован метод обращения к авторегрессионной модели, определение коэффициентов которой производится на основе минимизации ошибки линейного предсказания сигнала (процедура ЬРС) Применен авторегрессионный метод Юла-Уолкера, как оптимально соответствующий форме аудиосигнала Обработка с помощью окна Хэмминга дала возможность получить АЧХ артикуляторного аппарата, т е выделить и описать его фильтрующие свойства Резонансные пики на такой АЧХ соответствуют формантным пикам речевого сигнала На рис 1-6 приведены примеры рассчитанных АЧХ и соответствующие им сонограммы аудиосигнала Их сравнение подтверждает применимость разработанного метода, который позволяет на любом временном сечении сегмента гласной выделить формантную картину

Процедура построения АЧХ артикуляторного аппарата и голосового источника доведена до машинной программы, использующей стандартные процедуры пакета МАТЬАВ

ОТО 3000 Ргаяи&пеу,

5000

айв.......аш..........схс

Рис. 1 .Сонограмма речевой посылки и АЧХ артикуляторного аппарата, полученная для

того же сегмента гласной /а/

1000 зооа зсоо дооо ало

• -сю- :ог- ж Ш Ргечивпсу, (НиИ)

Рис.2. Сонограмма и АЧХ артикуляторного аппарата, полученная для того же сегмента гласной Ш

3000

Ргачивлсу, [Нвгй)

Рис.3. Сонограмма и АЧХ артикуляторного аппарата, полненная для того же сегмента

гласной N

]

^ЦЬ ¿jV. j í :

MJ» одг

'w 3

с е.-

1'

S ® <

Sr 1

1 Dn o. G

А, ..л

Ш

2000 3000 Fíe^ueflc^EHerti]

aooo

50ГО

Рис.4. Сонограмма и АЧХ артикуляторного аппарата, полученная для того же сегмента гласной /о/

ш .i ■

25ÍO

иш таи IOOS

0.ССЮ о.оое QÜ17 0.026

□ я

1 5 ■

а

»

е

ь,

1000

20Ю 3000 f raquEntj, (HMz)

«ОС

SOCO

Рис.5. Сонограмма и АЧХ артику.адторного аппарата, полученная для того же сегмента гласной ¡и/

хм

3000 2500 2ШС 150С 1000 500 0

...............Ч, .jij

мм йоог........ "¿км"" ООО?'"

1 150

10CQ

üu.

2000 3000 Frapmcy, (Нвг(г)

4000

£000

Рис.6. Сонограмма и АЧХ артикуляторного аппарата, полученная для того же сегмента гласной Ш

В разделе 2.2 приведены результаты структурирования динамической модели речевого тракта. Частотные передаточные функции голосового источника и артикуляторного аппарата представлены в форме произведений передаточных функций элементарных динамических звеньев, параметры которых определены из АЧХ.

Построенные структурные модели отделов речевого тракта помогают представить сущность происходящих в нем процессов

В главе 3 изложены результаты проработки методических вопросов использования разработанного метода в фонетических исследованиях

В разделе 3 1 приведены положения методики построения формантной картины гласной Разработана процедура построения формантной картины гласной, составной частью которой является определение АЧХ Каждая форманта имеет в фонетическом анализе свою природу и свое функциональное назначение, поэтому после построения АЧХ проводится идентификация формантам резонансных пиков АЧХ Результат расчета - набор формант, в котором номеру форманты соответствует ее частота и относительная интенсивность

В разделе 3 2 приведена методика определения спектральной плотности сигнала голосового источника Предложено использование метода последовательных приближений Полученная таким путем спектральная плотность голосового сигнала изменяется во времени в соответствии с интонационным рисунком речи и представляет собой второе приближение выходного сигнала голосового источника

В разделе 3 3 найденная спектральная плотность выходного сигнала голосового источника применена для получения второго приближения АЧХ артикуляторного аппарата

Методические разработки, изложенные в главе 3, обеспечивают проведение описанной в главе 4 сравнительной оценки формантных картин гласных в разных видах речи Выделение динамических свойств артикуляторного аппарата дает возможность оценить, отличия работы артикуляторного аппарата в разных видах речи

Предположение о возможности таких различий может быть обосновано самим характером психофизиологического процесса речеобразования При спонтанной речи задействована система «мозг — речевой аппарат» Параметры речевой посылки, в том числе энергетические, в соответствии с принципом экономии усилий А Мартине оптимизируются этой системой по критерию восприятия речи собеседником Затраты энергии и детализация речевого сообщения обычно находятся на минимально

достаточном для восприятия уровне Несколько иная картина возникает при чтении (ЧТ) Действует система «зрительный анализатор — мозг — речевой аппарат» Работа выполняется в режиме следящей системы Диктор, не имея обратной связи с собеседником, зачитывает текст старательно, четко Энергетические затраты на процесс речеобразования обычно повышены и распределены по тексту более равномерно Правомерно предполагать наличие особенностей в работе артикулярного аппарата Рядом исследователей отмечались такие особенности, но их описание и квалификация были затруднены присутствием в обрабатываемом сигнале ЧОТ и ее гармоник Разработанный метод позволяет исключить влияние этого помехового воздействия, выделив формантную картину Полученный с его помощью информационный массив, описывает трансформацию формантной картины во времени на протяжении реализации гласной

Чтобы исследовать этот массив, предложена методика анализа доминирующей форманты В ее основу заложено подтвержденное расчетами положение о том, что на протяжении реализации гласной происходит непрерывная частотная и энергетическая девиация формант Каждая из них может в определенные моменты достигать максимальной интенсивности При этом она берет на себя большую долю энергии речевой посылки - доминирует над остальными формантами Настройка на генерацию этой форманты происходит рефлекторно, обеспечивая выдачу информации оптимальным для диктора образом Частотная и энергетическая девиация доминирующей форманты выбрана как базовый параметр при изучении вариативности формантной картины

В качестве исходного аудиомассива была использована фонетическая база данных, разработанная в рамках проекта РФФИ 04-06-80111 «Спонтанная речь как источник изменения произносительной нормы», проведенного на кафедре фонетики и методики преподавания иностранных языков филологического факультета СПбГУ под руководством проф Л В Бондарко и проф П А Скрелина Звуковые файлы рассегментированы и сгруппированы поаллофонно на основе перцептивной оценки раздельно для режимов чтения текста и СР (диалог)

Для каждой реализации гласной построены с заданным шагом по времени формантные картины В каждом расчетном цикле определены доминирующие форманты Сравнительная оценка реализации гласных в разных видах речи проведена способом сопоставления характера изменения доминирующей формантной составляющей Сравнивались аллофоны в речи одного и того же диктора, в одном и том же тексте, но в разных видах речи Таким образом, в максимальной степени было исключено влияние, как индивидуальных особенностей речи диктора, так и зачитываемого текста За базовую принималась группа реализаций определенного аллофона, предварительно отобранная в режиме ЧТ

Рассмотрение массива амплитудно-частотных характеристик артикуляторного аппарата, рассчитанных на всех участках реализации каждого из аллофонов, подтверждает высокую вариативность формантной картины, ее специфичность для каждого аллофона, для каждого вида речи и дает возможность проследить изменение каждой форманты по частоте и интенсивности

Сравнительная оценка показывает, что весомость использования каждой из основных формант как доминирующей различна для разных видов речи Обобщение результатов позволяет считать

В обоих видах речи в роли доминирующей чаще всего выступает Б2 Ее весомость в группах отдельных аллофонов достигает 100%

В СР использование в качестве доминирующей наблюдается значительно чаще, чем при чтении Ее весомость в СР почти для всех аллофонов в 2-5 раз выше, чем при чтении текста и может достигать 60% Исключение составляет группа реализаций аллофона [т], в которой отмечена обратная картина, что возможно

определяется предельной краткостью и высокой интенсивностью сравниваемых реализаций в спонтанной речи, а также группа реализаций аллофона [о] (диктор -женщина), в которой практически нет отличий между видами речи в картине выбора доминирующей форманты Это может быть объяснено индивидуальной манерой речи, а также тем, что аллофон [о] встречается в русском языке в ударной позиции и

подвергается меньшей количественной и качественной редукции, по сравнению с безударными аллофонами

Форманты ¥2 и РЗ значительно чаще доминируют в режиме чтения текста, тогда как в режиме спонтанной речи в ряде случаев доминирующая БЗ вообще не регистрируется

Помимо трех основных формант в структуре формантной картины в обоих режимах обычно присутствует Б4, составляющая которой иногда сравнима с первыми тремя формантами Зарегистрирован случай доминирования Б4 в реализациях аллофона [и] (мужской голос, режим СР)

Отмечены два варианта трансформации формантной картины Первый вариант -устойчивое доминирование одной из формант на протяжении всего сегмента с определенным изменением ее частоты и интенсивности Второй - чередование доминирования двух или трех формант На выбор варианта трансформации формантной картины существенно влияет принадлежность реализации к определенному аллофону или группе аллофонов Сам выбор характера смены доминирующих формант может рассматриваться как один из признаков того или иного аллофона

Полученные результаты хорошо согласуются с положением «принципа экономии усилий» Чтению текста диктором, как режиму, требующему большего контроля и энергии, чаще соответствует формантная картина с доминированием Б2 и БЗ, в то время как СР, режиму более свободному и рациональному, - сравнительно более низкочастотная формантная картина с высокой весомостью доминирования Р1

Сравнением частот доминирующих формант гласных в разных видах речи установлено, что доминирующие форманты ударных гласных в спонтанной речи по частоте превосходят доминирующие форманты соответствующих гласных при чтении Соответственно, доминирующие форманты безударных гласных в спонтанной речи лежат ниже, чем доминирующие форманты соответствующих гласных при чтении

В заключительной части работы сделаны следующие основные выводы по работе в целом

1 Результаты исследования подтверждают правомерность постановки задачи поиска особенностей работы артикуляторного аппарата в разных видах речи путем анализа вариаций формантных картин гласных

2 Предложенная динамическая модель речевого тракта достаточно адекватно описывает процесс речеобразования и дает возможность создать расчетную схему для определения выходного сигнала голосового источника (глоттальной волны) и артикуляторного аппарата (речевой посылки)

3 Разработанный на базе динамической модели метод построения частотных характеристик составных частей речевого тракта и сопутствующие ему вычислительные процедуры позволяют автоматически построить по реализации гласной соответствующую ей формантную картину Процедура использования метода применима при решении широкого круга фонетических задач

4 Предложенная методика выбора доминирующей форманты и оценки ее девиации достаточно чувствительна к особенностям динамики речевых процессов и дает возможность выявить отличия разных видов речи на уровне изменений формантной картины гласной

4 1 При реализации аллофонов гласных диктор при чтении текста чаще использует в качестве доминирующей вторую, а иногда и третью форманты. В спонтанной речи характер работы артикуляторного аппарата изменяется и диктор в 1,54 раза чаще, чем при чтении использует в роли доминирующей первую форманту

4 2 Доминирующие форманты имеют в разных видах речи различные, определенным образом связанные диапазоны изменения частот, а именно

диапазон изменения доминирующих частот безударного слога при чтении текста сдвинут в сторону более высоких частот по сравнению с соответствующим диапазоном безударного слога при спонтанной речи,

диапазон изменения доминирующих частот ударного слога при чтении текста сдвинут в сторону более низких частот по сравнению с соответствующим диапазоном ударного слога при спонтанной речи

5 Пример использования разработанного метода исследования речевого тракта для сравнительной оценки видов речи подтверждает применимость этого метода к решению теоретических и прикладных фонетических задач, связанных с изучением вариативности формантной картины гласной

Основные положения диссертации отражены в следующих публикациях

1 Евдокимова В В Выбор метода построения модели речевого тракта // Интегральное моделирование звуковой формы естественных языков, СПб , 2005, с 74-87

2 Евдокимова В В Способ построения динамической модели речевого тракта // Фонетический лицей Выпуск 2 СПб , 2006, с 33-40

3 Евдокимова В В Динамические модели составных частей речевого тракта // Фонетический лицей Выпуск 2 СПб, 2006, с 22-32

4 Евдокимова В В Методика оценки и построения формантной картины гласных // Труды XXXV Международной филологической конференции Вып 12, СПб ,

2006, с 27-35

5 Evdokimova V V The Use of Dynamic Vocal Tract Model for constructing the Formant Structure of the Vowels // Proc Of SPECOM'06, SPb , 2006, p 210-214

6 Евдокимова В В Возможности методов моделирования голосового источника // Вестник Санкт-Петербургского университета Выпуск 2, часть 1, серия 9, СПб ,

2007, с. 58-63

 

Оглавление научной работы автор диссертации — кандидата филологических наук Евдокимова, Вера Вячеславовна

Введение

ГЛАВА 1. ВЫБОР МЕТОДА ИССЛЕДОВАНИЯ

СПОНТАННОЙ РЕЧИ

ГЛАВА 2. ОПРЕДЕЛЕНИЕ ЧАСТОТНОЙ ПЕРЕДАТОЧНОЙ 40 ФУНКЦИИ РЕЧЕВОГО ТРАКТА

2.1. Метод определения частотных передаточных функций 40 голосового источника и артикуляторного аппарата

2.2. Определение структуры динамической модели речевого 61 тракта

ГЛАВА 3. РАЗРАБОТКА МЕТОДИКИ ПРИМЕНЕНИЯ

ДИНАМИЧЕСКОЙ МОДЕЛИ РЕЧЕВОГО ТРАКТА ДЛЯ ОПРЕДЕЛЕНИЯ ФОНЕТИЧЕСКИХ ХАРАКТЕРИСТИК ГЛАСНЫХ

3.1. Методика построения формантной картины гласных

3.1.1. Отбор речевого материала

3.1.2. Определение резонансных пиков АЧХ артикуляторного 83 аппарата

3.1.3. Идентификация формант резонансным пикам АЧХ 88 артикуляторного аппарата

3.2. Методика определения спектральной плотности сигнала 90 голосового источника

3.3. Уточнение формы амплитудно-частотной 97 характеристики артикуляторного аппарата

ГЛАВА 4. ПРИМЕНЕНИЕ МЕТОДА ПОСТРОЕНИЯ

ФОРМАНТНЫХ КАРТИН ГЛАСНЫХ К РЕШЕНИЮ ЗАДАЧИ СРАВНИТЕЛЬНОГО АНАЛИЗА ОСОБЕННОСТЕЙ ТРАНСКРИПЦИИ ГЛАСНЫХ В РАЗНЫХ ВИДАХ РЕЧИ

4.1. Постановка задачи сравнительного сегментного анализа 104 гласных в разных видах речи.

4.2. Методика проведения сравнительного анализа

4.3. Описание и обсуждение результатов обработки 115 аудиоматериалов

4.4. Сравнение частотных диапазонов существования 147 доминирующих формант в разных видах речи

 

Введение диссертации2007 год, автореферат по филологии, Евдокимова, Вера Вячеславовна

Речевая коммуникация представляет собой основу обмена информацией между людьми. Это сложнейший процесс, в котором неразрывны психологическая, физиологическая и акустическая составляющие. Каждый элемент речевого сообщения несет многофункциональную информационную нагрузку. Конечным количеством символов обеспечивается универсальный информационный обмен, оптимизированный по структуре и скорости передачи сообщений.

Фонема, являясь минимальной единицей языковой системы, не имеет самостоятельного информативного значения, но в то же время представляет собой элемент, из совокупности которых составляется речевая посылка. Теория фонемы стала базовой в современной фонетике. С помощью этой теории были классифицированы артикуляционные особенности отдельных фонем, найдена их связь с акустическими характеристиками речи, сформулированы правила формирования супрасегментных языковых единиц. Теоретическая научная база дала возможность решения прикладных задач фонетики, связанных с исследованием отдельных видов речи, поиском общих для них закономерностей и отличий.

Необходимость изучения речевой коммуникации определяется не только ее самостоятельным общенаучным значением, но и тем, что она становится в настоящее время важной неотъемлемой частью решения сложных комплексных проблем, имеющих практические выходы в технику связи, системы управления, медицину, обучение и другие отрасли человеческой деятельности.

Одним из перспективных направлений развития фонетики является изучение живой разговорной - спонтанной речи (CP) во всем ее многообразии. Выделение фонетических особенностей CP, их формализация и классификация дает возможность поднять на качественно новый уровень решение ряда задач анализа и синтеза речи. Работы фонетистов подтвердили высокую вариативность CP, значительное влияние экстралингвистических факторов, позволили описать закономерности трансформации отдельных фонем и фонетических слов. Накопленный научный задел может быть успешно применен при решении прикладных задач лишь при условии формализации выявленных фонетических явлений в систему признаков и разработки процедуры оценки влияния этих признаков на речеобразование.

Актуальность настоящего исследования определяется тем, что для качественного решения прикладных фонетических задач распознавания и высококачественного синтеза речи необходимо понимание отличий процесса речеобразования в разных видах речи, в том числе в особенно сложной и многообразной спонтанной речи. Важным, но недостаточно исследованным аспектом этой проблемы может считаться изучение свойств и особенностей работы артикуляторного аппарата, проявляющихся в вариативности формантной картины.

Последовательность реализаций фонем представляет собой информационно насыщенный элемент речевого сигнала. Гласные выполняют конститутивные и дифференцирующие функции, участвуют в реализации супрасегментных явлений [Зубкова 1990]. В речевом сообщении гласные становятся функционально более значимыми, поскольку в них содержится информация о характеристиках окружающих согласных, наиболее полно отражены отличия видов речи (особенности коартикуляции, редукции и т.д.). Кроме того, гласные участвуют в просодическом оформлении высказывания, от которого может зависеть правильное восприятие звуковых оболочек слов. Весомость гласных в речевой посылке и изученность их фонетических характеристик объясняют первоочередное внимание к ним при сравнительном анализе видов речи и обусловливают превращение гласных в объект исследования.

Целью настоящего исследования является определение характерных особенностей формантной картины гласных в спонтанной речи, отличающих ее от чтения текста.

Для достижения поставленной цели было необходимо решить ряд как теоретических, так и практических задач:

1. Анализ научных публикаций отечественных и зарубежных авторов, посвященных проблеме изучения разных видов речи и вопросам разработки необходимых для ее решения методов.

2. Выбор подхода к описанию речевого тракта как сложной, динамической системы, формирование структуры модели такой системы.

3. Создание метода исследования речевого тракта и его составных частей — голосового источника и артикуляторного аппарата — путем определения их передаточных функций и частотных характеристик.

4. Разработка алгоритма компьютерной программы построения формантных картин сегментов гласных путем автоматизированной обработки первичного аудиоматериала.

5. Проведение сравнительного анализа на формантном уровне особенностей реализации гласных в спонтанной речи и при чтении текста. Выявление на уровне изменений формантной картины тонких фонетических эффектов, присущих разным видам речи.

Предмет данного исследования - реализации аллофонов гласных русского языка в спонтанной речи и при чтении текста.

Научная новизна исследования состоит в создании динамической модели речевого тракта, выделяющей голосовой источник и артикуляторный аппарат, разработке метода описания динамики артикуляторного аппарата и построении на его основе формантных картин гласных, а затем в проведении с помощью этого метода сравнительного анализа особенностей реализации гласных в разных видах речи.

Теоретическая ценность проведенного исследования состоит в изучении особенностей функционирования артикуляторного аппарата в разных видах речи, в обосновании того, что разным видам речи присущи отличия на уровне формантных картин гласных, а также в разработке метода исследования динамики речевого тракта.

Практическая ценность работы заключается в том, что динамическая модель речевого тракта и метод ее расчета могут найти применение при решении ряда прикладных задач. Их использование дает возможность выделения и раздельного исследования голосового источника и артикуляторного аппарата. Каждая из этих составных частей речевого тракта реализует в речевом процессе свои функции. В приложении к кругу задач распознавания речевой посылки и синтеза речевого сообщения, в том числе задач, связанных со спонтанной речью, наибольший интерес представляет возможность выделить «очищенную» от влияния частоты основного тона формантную картину гласных, формируемую артикуляторным аппаратом. В свою очередь для задач, связанных с распознаванием физического и эмоционального состояния диктора, может быть получен выходной сигнал голосового источника (составляющие ЧОТ и ее гармоник), не искаженный действием артикуляторного аппарата. Разработанная процедура дает возможность независимо исследовать динамику каждого из отделов речевого тракта и получить необходимые характеристики.

В ходе работы нашли применение следующие методы: слуховой и аудиторский виды анализа, частотные методы исследования динамических систем, методы компьютерной обработки аудиоматериалов, в частности, пакет программ MATLAB, методы математической статистики.

Изложение процедуры и результатов исследования сопровождается таблицами и рисунками.

Апробация работы. Результаты исследования были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на межвузовских конференциях преподавателей и аспирантов СПбГУ (2005, 2006, 2007), на международной конференции Specom'06.

Структура работы. Данное диссертационное исследование содержит 193 страницы текста и состоит из введения, четырех глав, заключения, списка использованной литературы (110 наименований) и приложения.

 

Список научной литературыЕвдокимова, Вера Вячеславовна, диссертация по теме "Теория языка"

1. Алексеев П.В,, Панин А.В, Философия. М., 1998.

2. Бесекерский В.А, Попов Е.П. Теория систем автоматического регулирования. М., 1972.

3. Болотова О.Б. Гласные в спонтанной речи и при чтении связного текста (экспериментально-фонетическое исследование на материале русского языка). Канд. дисс, СПбГУ, 2005.

4. Бондарко Л.В. О характере изменения формантного состава русских гласных под влиянием мягкости соседних согласных Уч. Зап. ЛГУ. Л., 1960. 72-81.

5. Бондарко Л.В. Некоторые количественные характеристики русских ударных гласных Уч. Зап. ЛГУ 325. Л., 1964. 45-55.

6. Бондарко Л.В. Осциллографический анализ речи. ЛГУ, 1965.

7. Бондарко Л.В., Вербицкая Л. А., Зиндер Л. Р. Акустические характеристики безударности Структурная типология языков. М., 1966. 56-64.

8. Бондарко Л.В. и др. Восприятие фонем в слогах различных типов Анализ речевых сигналов человеком. Л., 1971. 190.

9. Бондарко Л.В. Звуковой строй современного русского языка. М., 1977.

10. Бондарко Л.В., Зиндер Л.Р., Штерн А.С. Некоторые статистические характеристики русской речи Слух и речь в норме и патологии. Вып. 2. Л., 1977. 3-16.

11. Бондарко Л.В., Щерба Л.В. Формантные характеристики русских гласных в потоке речи Мат. Всесоюзн. Школы-семинара «Автоматическое распознавание образов». Тбилиси, 1978. 158

12. Бондарко Л.В. Фонетика современного русского языка. СПб., 1998.

13. Бондарко Л.В. Спонтанная речь и организация системы языка Бюллетень фонетического фонда русского языка.

14. Фонетические свойства русской спонтанной речи. СПб., Бохум, 2001. 17-23.

15. Бондарко Л.В., Вербицкая Л. А., Гордина М.В. Основы общей фонетики. Учебное пособие. СПб., 2004.

16. Брауде-Золотарев М.Ю., Брауде-Золотарев Ю.М. Рекуррентный анализ формантных частот. М., 1999.

17. Брауде-Золотарев М.Ю., Брауде-Золотарев Ю.М. Рекуррентный анализатор основного тона. М., 1999.

18. Вентцель Е.С. Теория вероятностей. М., 1962.

19. Вербицкая Л.А. О звуковых эталонах русской речи Уч. Зап. ЛГУ 325. Л., 1964. 55-71.

20. Галунов В.А., Станкевич А. О модели речеобразования Сборник докладов VIII Всесоюзной акустической конференции. Л., 1973. 4244.

21. Галунов В.И., Радионов В.Д. Моделирование процессов передачи информации в звуковом диапазоне. Л., 1988 г.

22. Гейльман П.И. Спорные вопросы разговорной произносительной нормы. Нормы реализации. Варьирование языковых средств. Горький, 1983. 62.

23. Гейльман Н.И., Ошуйко Е.И. Распределение аллофонов гласных в спонтанной речи. Автоматическое распознавание слуховых образов. Новосибирск, 1984. 51. 159

24. Евдокимова В.В. Сравнительный анализ фонетической реализации морфологически нагруженных элементов при чтении и в спонтанной речи на примере окончаний глаголов VI межвузовская научная конференция студентов-филологов. СПбГУ, 2003. 177-178.

25. Евдокимова В.В. Выбор метода построения модели речевого тракта Интегральное моделирование звуковой формы естественных языков. СПбГУ, 2005. 74.

26. Евдокимова В.В. Способ построения динамической модели речевого тракта// Фонетический лицей, вып.2. СПб., 2005. 33-40.

27. Евдокимова В.В. Динамические модели составных частей речевого тракта Фонетический лицей, вып.2. СПб. 2005. 22-32.

28. Зиндер Л.Р. Основы общей фонетики. М., 1977.

29. Зиндер Л.Р. Общая фонетика. М., 1979.

30. Златоустова Л.В. Фонетическая структура слова в потоке речи. Казань, 1962.

31. Златоустова Л.В., Потапова Р.К., Потапов В.В., Трунин-Донской В.П. Общая и прикладная фонетика. М., 1997.

32. Зубкова Л.Г. Фонологическая типология слова. М., 1990.

33. Кодзасов В., Кривнова О. Ф. Фонетика в модели речевой деятельности Прикладные аспекты лингвистики. М., 1989.

34. Кодзасов СВ., Кривнова О.Ф. Общая фонетика. М., 2001.

35. Кузнецов В.И. Вокализм связной речи. СПб., 1997.

36. Куприянов М.С, Матюшкин Б.Д. Цифровая обработка сигналов. «Политехника», СПб., 1999. 160

37. Леонов А.С., Макаров И.С, Сорокин В.И., Цыпликин А.И. Кодовая книга для речевых обратных задач. Информационные процессы, М., 2005,T.5,N2. 101-109.

38. Макаров И.С, Сорокин В.Н. Резонансы разветвленного речевого тракта с податливыми стенками Акустический журнал, М., 2004, т.5О, N 3. С 389-396.

39. Мартине А. Принцип экономии в фонетических изменениях. М., 1960.

40. Попов Е.П. Прикладная теория процессов управления в нелинейных системах. М., 1973.

41. Русская разговорная речь. М., 1973.

42. Светозарова И.Д. Интонационная система русского языка. Л., 1982.

43. Светозарова Н.Д. Просодическая организация высказывания и интонационная система языка. Докт. дисс. Л., 1983.

44. Светозарова И.Д. Некоторые особенности фонетики русской спонтанной речи Бюллетень фонетического фонда русского языка, J Y 8, СПб., 2001. С 7-15.

45. Сергиенко А.Б. Цифровая обработка сигналов. М., 2003.

46. Скрелин П.А. Фонетические аспекты речевых технологий. СПб., 1999.

47. Скрелин П.А. Сегментация и транскрипция. СПб., 1999.

48. Слепокурова Н.А. О процедуре распознавания стационарных гласных Вопросы теории и методов исследования восприятия речевых сигналов. №3. Л., 1972.

49. Сорокин В.Н. Теория речеобразования. М., 1985.

50. Сорокин В.Н. Синтез речи. М., 1992. 161

51. Atal B.S., Chang J.J., Mathews M.V/ and Tukey J.W. Inversion of articulatory-to-acoustic transformation in the vocal tract by a computer sorting technique //Journal of Acoustic Society Am., v. 63, J 5,1978. P. 1535-1555. V

52. Bondarko L.V., Volskaya N.B., Tananaiko S.O., Vasilieva L.A. Phonetic properties of Russian Spontaneous Speech Proceedings of the 15" ICPhS. Barcelona, 3-9 August 2003. P. 2973-2976.

53. Carre R. From acoustic tube to speech production Speech Communication, 42, 2004. P. 227-240.

54. Carlson R., Granstrom В., Karlsson I. Experiments with voice modeling in speech synthesis Speech Communication, J b 10,1991. P.481-489. N

55. Carlson R., Granstrom B. Speech Synthesis. The Handbook of Phonetic Sciences. Blackwell Publishers Ltd, Oxford, 1997. P. 768-788.

56. Chaari S., Ouni K., Ellouze N. Wavelet ridge track inteфretation in terms of formants Proceedings of the INTERSPEECH-2006, paper 2030Tue2A10.6. P. 1017-1020.

57. Cnockaert L., Schoentgen J., Auzou P., Ozsancak C Grenez F. Tracking of involuntary formant frequency variations and application to parkinsonian speech Proceedings of the INTERSPEECH-2006, paper 1043-Tue2AlO.l. P. 997-1000.

58. Daniloff R., Schuckers G., Feth L. The physiology of speech and hearing. An introduction. N.J. 1980. 163

59. Deviilers L., Vasilescu I. Prosodic cues for emotion characterization in reallife spoken dialogs Proceedings of the EUROSPEECH-2003. P. 189-192.

60. Dinther R., Veldhuis R., Kohlraush A. Perceptual aspects of glottal-pulse parameter variations Speech Communication, 46,2005. P. 95-12.

61. Engwall O. Tongue talking. Studies in Intraoral Speech Synthesis. Doctoral Dissertation. Stockholm, 2002.

62. Eant G., Liljencrants J., Lin Q. A four-parameter model of Glottal Flow STL-QPSR4,1985.P. 1-13.

63. Fant G. The voice source in the connected speech Speech Communication, №22,1997. P. 125-139.

64. Hallahan W.I. DECtalk Software: Text-to-Speech Technology and Implementation COMPAQ DIGITAL Technical Journal, 2004. 87. http://www.mathworks.com 88. http://www.praat.org

65. Huang X., Acero A., Hon H.-W. Spoken Language Processing. A Guide to Theory, Algorithm and System Development. New Jersey, 2001.

66. Kuchling H. PHYSIK, VEB FACHBUCHVERLAG, Leipzig, 1980.

67. Ladefoged P. Elements of acoustic phonetics. Chicago, 1962.

68. Laver J. Principles of phonetics. Cambridge, 1994. 93. Lee Ch. M., Yildirim S., Bulut M., Kazemzadeh A., Busso C Deng Zh., Lee S., Narayanan Shr. Emotion recognition based on phoneme classes Proceedings of the INTERSPEECH-2004. P. 889-892. 164

69. Luengo I., Navas E., Hernaez I., Sanchez J. Automatic emotion recognition using prosodic parameters Proceedings of the INTERSPEECH-2005. P. 493-496.

70. Moore B.C.J. Aspects of Auditory Processing Related to Speech Processing Science, The Handbook of Phonetic Sciences. Oxford, 1999. 97. Ney H. Maximum entropy and Log-Linear Modeling. Aachen, 2001.

71. Ohala J.J. The origin of sound patterns in vocal tract constraints The production of speech. N.Y., 1983.

72. Ozbek I. Y., Demirekler M. Tracking of visible vocal tract resonances (VVTR) based on kalman filtering Proceedings of the INTERSPEECH2006, paper 2029-Tue2AlO.5. P. 1013-1016.

73. Prentice H., Englewood C. Digital Signal Processing Application Using the ADSR-2100 Family. 1992. P. 365.

74. Rahurkar M. A., Hansen J. H.L. Frequency distribution based weighted sub-band approach for classification of emotional/stressful content in speech Proceedings of the EUROSPEECH-2003. P. 721-724.

75. Schroeter J., Meyer R., Parthasarathy S. Evaluation of improved articulatory codebooks and codebooks access distance measures Proceedings of the Intemat. Conf. Acoust. Speech Signal Processing, 1990. P. 393-396.

76. Seppanen Т., Vayrynen E., Toivanen J. Prosody-based classification of emotions in spoken finnish Proceedings of the EUROSPEECH-2003. P. 717-720. 165

77. Stevens K.N., House A.S. Development of Quantitative description of vowel articulation. //Journal Acoust. Soc. Am., 1955, 27. P. 484-493.

78. Stylianou Y. Harmonic plus Noise Models for Speech, combined with Statistical Methods, for Speech and Speaker Modification. Paris, 1996.

79. Takahashi Т., Fujii Т., Nishi M., Banno H., Irino Т., Kawahara H. Voice and emotional expression parameters transformation based on statistics of vowel database Proceedings of the in an emotional speech INTERSPEECH-2005. P. 1853-1856.

80. Tato R., Santos R., Kompe R., Pardo J. M. Emotional space improves emotion recognition Proceedings of the ICSLP-2002. P. 2029-2032. 109. The integration of phonetic knowledge in speech technology. Edited by Barry J., Dommeken W.A. van. Springer, Netherlands, 2005.

81. Weruaga L., Al-Khayat A., All-pole model estimation of vocal tract on the frequency domain Proceedings of the INTERSPEECH-2006, paper 1188Tue2A10.2. P. 1001-1004. 166