Исследование акустических параметров звуков русской речи на микросегментном уровне

Чудновская, Ирина Николаевна

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Исследование акустических параметров звуков русской речи на микросегментном уровне

Год: 1997
Автор научной работы: Чудновская, Ирина Николаевна
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Москва
Код cпециальности ВАК: 10.02.21

Автореферат по филологии на тему 'Исследование акустических параметров звуков русской речи на микросегментном уровне'

Полный текст автореферата диссертации по теме "Исследование акустических параметров звуков русской речи на микросегментном уровне"

« ПК?

- 5 мост

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. М.В.Ломоносова

На правах рукописи

ЧУДНОВСКАЯ Ирина Николаевна

ИССЛЕДОВАНИЕ АКУСТИЧЕСКИХ ПАРАМЕТРОВ ЗВУКОВ РУССКОЙ РЕЧИ НА МИКРОСЕГМЕНТНОМ УРОВНЕ

Специальность 10.02.21 - структурная, прикладная и

математическая лингвистика

АВТОРЕФЕРАТ

Диссертации на соискание ученой степени кандидата филологических наук

Москва 1997

Дисертация выполнена на кафедре теоретической и прикладной лингвистики филологического факультета Московского государственного университета им. М.В.Ломоносова

Научный руководитель:

доктор филологических наук, профессор Л.В. Златоустова

Официальные оппоненты:

доктор филологических наук, профессор М.К.Румянцев кандидат филологических наук М.В.Хитина

Ведущая организация:

Московский государственный лингвистический университет

Защита состоится "26 " марта 1997 года в 15 часов на заседании диссертационного совета Д 053.05.16 при МГУ им.М.В.Ломоносова на филологическом факультете Московского государственного университета им.М.В.Ломоносова по адресу:

119899, Москва, Воробьевы горы, МГУ, 1 корпус гуманитарных факультетов, филологический факультет.

С диссертацией можно ознакомиться в библиотеке Московского государственного университета им. М.В.Ломоносова.

Автореферат разослан " 20 » февраля_ 1997 г.

Ученый секретарь кандидат

диссертационного совета

филологических наук О.В.Дедова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Изучение звучащей речи на микросегментном уровне позволяет пополнить современные фонетические представления о порождении речи и способствует решению прикладных задач автоматического распознавания и синтеза речи.

Актуальность диссертационной работы обеспечивается

1) разработкой новых фонетических сведений о звуках для микросегментации в сегментологии, оформляющейся сейчас в специальную область общей и прикладной фонетики;

2) пополнением новых данных о звуках русской речи для разработки Фонетического фонда русского языка как подсистемы создающегося в настоящее время Машинного фонда современного русского языка;

3) актуальностью решения теоретических и прикладных проблем оценки и измерения качества речи в системах передачи, анализа и синтеза речи.

Целью работы являлось получение новых фонетических сведений об акустических параметрах микросегментов звучащей русской речи, выработка рекомендаций для увеличения надежности автоматического распознавания речи и повышения натуральности синтезированной по правилам речи.

Для достижения указанной цели необходимо было последовательно решить следующие задачи:

1) выбрать акустические параметры речевого сигнала, позволяющие расширить и углубить полноту исследований на микросьп'лнтном уровне;

2) выбрать программно-аппаратные средства, позволяющие корректно измерять эти акустические параметры речевого сигнала;

3) построить и проанализировать распределения акустических параметров в звучащей монологической неспонтанной стилистически нейтральной литературной речи на длительной речевой выборке;

4) разработать правила построения фонетического анализатора речи и провести его испытания;

5) получить экспериментальные измерения и выявить основные закономерности по взаимодействию акустических параметров речевого сигнала на звуках и слогах русской речи;

6) сопоставить результаты, полученные на материале естественной речи, с данными синтезированной речи;

7) сформулировать требования к имитатору тонального источника, позволяющего повысить качество звучания речи, синтезированной по правилам;

8) ввести понятийные компоненты естественности речи.

Научная новизна работы заключается в том, что в рамках новых

методик и нетрадиционных машинных средств исследованы малоизученные акустические параметры речевых звуков и получены новые сведения о структурированности микросегментов русской речи.

Методы. Программные и аппаратные средства.

В процессе анализа, построения и экспериментальной проверки моделей применялись

- фундаментальные методы исследования и анализа в области теоретической и прикладной лингвистики, общей и прикладной фонетики;

- методы и модели теории восприятия звуковых образов и измерений качества речи;

- методы и модели теории колебаний, включая линейную модель ре-чеобразования, измерение акустических параметров речевого тракта и источника звука;

- методы теории вероятностей и математической статистики (построение распределений, оценки средних величин).

В экспериментальном исследовании были использованы следующие программы анализа речевого сигнала:

- поиск резонансных частот и ширин речевого тракта на интервале свободных колебаний;

- измерение относительной длительности импульсов возбуждения тонального источника;

- измерение частоты основного тона;

- измерение интенсивности источника .возбуждения на временных интервалах вынужденных колебаний;

- сегментация речевого сигнала на статические / динамические / паузальные участки с помощью видоизмененной фонетической функции;

- программа гистограммных расчетов;

- визуализация осциллограмм измеренных акустических параметров;

- анализ речевой волны методом линейного предсказания на коротких временных интервалах, разработанным в Институте языка и литературы АН ЭССР.

Материалы естественной и синтезированной речи анализировались с помощью аналого-цифрового процессора "Массив - 2". разработанного в НИИ "КВАНТ" , позволяющего проводить широкий диапазон измерений, не всегда доступных для традиционных методов спектрального анализа. Обработка материалов производилась на ПК АТ-286. В качестве устройства для записи и воспроизведения речевых фрагментов

использовался магнитофон "0лимп-004", запись производилась через динамический микрофон 0-19 и для проведения конкретного эксперимента - через угольный микрофон МК-10.

Теоретическая значимость работы состоит в получении новых данных о мало изученных акустических параметрах звучащей речи и систематизации взаимосоответствия этих параметров на микросегментном уровне, что позволяет расширить научные сведения о характеристиках сегментного состава звучащей русской речи. Построены вероятностные распределения акустических параметров на длительной речевой выборке для монологической стилистически нейтральной литературной русской речи. Полученные результаты создают условия для проведения широких теоретических и практических исследований естественности речи, автоматического распознавания речевых образов, а также качественного звучания синтеза речи по правилам.

Практическая ценность исследования обеспечивается тем, что пополняются фонетические сведения о звуках речи, вырабатываются новые правила для автоматического распознавания речевых сигналов и верификации диктора, пополняется арсенал методов фоноскопических исследований в криминалистической фоноскопии, обнаруживаются и подтверждаются новые сведения для синтеза речи и теории речеобра-зования, уточняется взаимодействие акустических параметров речевого сигнала в норме (вырабатываются критерии естественности речи), создаются предпосылки для разработки новых устройств и программ анализа речи.

Разработан алгоритм фонетического анализатора для измерения естественности звучания русской речи.

Сформулированы требования к трехпараметрическому имитатору

тонального источника для синтеза речи, который был впоследствии изготовлен радиоинженерами.

Результаты теоретических и экспериментальных исследований можно предложить как составные компоненты для решения научных и прикладных задач в следующих областях знания:

- экспериментальная фонетика;

- автоматическое распознавание речи;

- криминалистическая фоноскопия (фонография);

- диагностика патологии в речевом тракте и гортани;

- синтез речи по правилам;

- верификация диктора речевого сообщения;

- верификация языка речевого сообщения.

Полученные результаты могут быть использованы в лекционных курсах и учебных материалах высших учебных заведений при изучении звучащего текста. В настоящее время сдано в печать учебное пособие для высшей школы МВД.

Материал. Для гистограммного анализа длительной речевой выборки материалом послужила монологическая неспонтанная стилистически нейтральная литературная речь 18 дикторов. Общая длительность проанализированного материала составила 1 час 20 минут. В качестве текста были выбраны программы новостей. Для выявления инвариантных характеристик речевого звука, минимально зависимых от канала передачи, звучащий текст записывался с космических линий связи, с ЧМ радиовещания и с радиотрансляции. Поскольку в предмет исследования на данном этапе входила сама материя речевого звука, то на подбор исследуемого материала не налагалось других ограничений, кроме нормативного пр^чзношения для возрастной группы 20-

50 лет. Общее количество проанализированных измерений составило более одного миллиона.

Выявленные закономерности порождения естественной речи проверялись на материале синтезированной по правилам речи синтезаторов с традиционным тональным источником возбуждения и с трехпараметри-ческим источником возбуждения, алгоритм работы которого учитывал результаты исследования данной работы по тональному источнику возбуждения, а также на ограниченном материале компилятивного синтеза, разработанного на филологическом факультете МГУ.

Для исследования взаимодействия акустических параметров речевого сигнала на звуках и слогах русской речи анализ проводился на изолированных гласных звуках, изолированных открытых слогах, изолированных двусложных псевдословах типа ГСГ с попеременным ударением на начальном и конечном гласном (типа "аза"', "а'за"), а также на звуках и слогах, выделенных из слитной речи. Лингвистическим материалом послужили фразы из испытательных артикуляционных таблиц [ГОСТ 16600-72], произнесенные 8-ю дикторами, носителями литературной орфоэпической нормы. Объемы анализированных выборок звуков русской речи были следующими: для гласных звуков - несколько сотен, для остальных звуков и слогов - несколько десятков.

Достоверность полученных результатов обеспечивается: статистической достаточностью объема анализируемой речевой выборки; использованием апробированных методов экспериментально-фонетических исследований; компьютерной обработкой акустических параметров речи; применением аппаратных и программных средств анализа речи, прошедших апробацию.

Основными положениями, выносимыми на защиту, являются:

- закономерности взаимосоответствия способа образования звука и значения ширины резонансов;

- особенности изменения ширин первого и второго резонансов в звуковых образованиях СГ и ГСГ;

- правила корреляции резонансных частот звуков с интенсивностью в зависимости от способа образования звука;

- правила временного изменения параметров импульса тонального источника как основного фактора натуральности звучания русской речи;

- создание фонетического анализатора для измерения естественности звучания речи;

- доказательство неоднородности и относительности естественности речи.

Апробация Основное содержание работы докладывалось на Всесоюзных семинарах "Автоматическое распознавание слуховых образов" (Москва, 1991; Ижевск, 1992 ), Международных конференциях "Информатизация правоохранительных систем" (Москва, 1993,1994,1995,1996) на Всероссийской научной конференции "Проблемы гуманитарного образования" (Ставрополь-Пятигорск,1995), Российско-американском научном симпозиуме "Массовая коммуникация" (Москва,1996). Отдельные аспекты акустических параметров речи освещались также в докладах на научных конференциях Челябинского государственного университета (Челябинск.1984,1985), Всесоюзной конференции молодых ученых "Человек: перспективы исследования" (Пермь,1987), Всесоюзной конференции молодых научных работников (ИЯ АН СССР) "Типы коммуникации и содержательк й аспект языка" (Москва,1987).

Подготовлено и сдано в печать учебное пособие "Речевые технологии в криминалистической фоноскопии" для слушателей и адъюнктов-высших учебных заведений МВД, в которое вошли материалы диссертационного исследования.

Результаты фонетических исследований звуков и слогов русской речи были использованы при разработке решающих правил по декодированию звуковых единиц из слитной речи в различных устройствах и алгоритмах НИИ "КВАНТ", Академии МВД РФ, Научно-техническом центре по безопасности полетов Межгосударственного авиационного комитета.

Выполненные работы были внедрены в Академии МВД, НИИ "КВАНТ", ТОО "ЭЛГОС".

Структура и объем работы. Диссертация состоит из введения, 3 глав, заключения, изложенных на 244 стр. машинописного текста, иллюстраций на 59 рисг., списка используемой литературы (222 наименования) и приложения.

СОДЕРЖАНИЕ РАБОТЫ

Введение.

Во введении обоснованы актуальность проведенного исследования, указаны основные цели, новизна, теоретическая ценность' и практическая значимость полученных результатов.

В сегментологий предлагается различать микро-, медиа- и макросегментацию звучащей речи [Потапова,1995]. Объектами микросегментации являются: а) интразвуковые (отдельные параметрические события. межзвуковые переходные процессы, смычка, фрикация, эксплозия, аспирация и т.д.); б) звуковые, интерзвуковые (сочетания звуков),

слоговые типы сегментов.

В нашей работе исследуются микросегменты, соответствующие интразвуковым акустическим событиям, являющимся устойчивыми образованиями с минимальной временной длительностью.

Глава 1. Выбор -акустических параметров речевого сигнала для проведения исследований

Согласно акустической теории речеобразования формирование речевого звука представляет собой процесс распространения акустических колебаний источника в речевом тракте и излучение этих колебаний через ротовую или носовую полости ( ротовое отверстие, ноздри носа). Исходя из этого при изучении речевого сигнала следует учитывать три основных фактора: 1) особенности работы источников акустических колебаний, 2) конфигурацию речевого тракта и 3) излучатели звука.

Значения резонансных частот речевого тракта связаны с его конфигурацией и характеристиками излучателя звука. Потери, возникающие на резонансной частоте, характеризуют ширину резонансов речевого тракта, которая среди акустических параметров экспериментально исследована наиболее слабо. При анализе речевых сигналов значения резонансных частот речевого тракта обычно отождествляют со значениями частот, на которых спектральная плотность достигает максимального значения (формантами). Однако такое отождествление не всегда корректно, т.к. на спектрограмме часто наблюдаются ложные форманты; сами значения формант изменяются в зависимости от диктора речевого сообщения, интенсивности звучащей речи, неравномерности амплитудно-частотной характеристики каналов преобразова-

ния исходного речевого сигнала.

В литературе по акустической теории речеобразования сообщается, что на периоде основного тона резонансные частоты могут существенно изменяться, поэтому строгое измерение резонансов целесообразно проводить на интервалах свободных колебаний периода основного тона, когда действие источника возбуждения отсутствует.

Нами был проведен специальный эксперимент, в котором исследовались спектры изолированного гласного, произнесенного с малой, средней и большой интенсивностью. Запись гласного проводилась одновременно через угольный и динамический микрофоны. Были построены спектральные срезы гласного и рассчитаны резонансные частоты на временном-интервале свободных колебаний. Данные эксперимента показали, что спектры звука при различной интенсивности различаются; в частности, испытывают значительные вариации значения первого резонанса. Различия в спектрах наблюдаются также в зависимости от того, с какого микрофона - угольного или динамического- проводилась запись речи. А значения резонансных частот, измеренные на временных участках свободных колебаний, не зависели от интенсивности гласного и типа записывающего микрофона.

Таким образом, временные интервалы свободных колебаний следует отнести к проявлению параметров речевого тракта: резонансных частот и значений их ширин. Оставшиеся временные участки, которые в соответствии с установившейся терминологией называются временными участками вынужденных колебаний, позволяют измерять параметры источника возбуждения речевого тракта, такие как длительность источника и интенсивность. Анализ звучащей речи на временных участках вынужденных и свободных колебаний (синхронный анализ) позво-

ляет осуществить факторизацию различных процессов порождения речи. Такая факторизация при спектральных методах анализа затруднена.

Следует отметить, что в экспериментальных фонетических исследованиях синхронные методы анализа практически не использовались, что вызвано трудоемкими вычислительными процедурами. Исследование литературных данных показало, что имеются программные и аппаратные средства с высокой производительностью, позволяющие обрабатывать значительные объемы речевого материала.

Нами были выбраны: программно-аппаратный комплекс "Массив-2", разработанный в НИИ "КВАНТ", и программа синхронного анализа речи методом линейного предсказания, разработанная в Институте языка и литературы АН ЭССР. Диапазон частот анализа речевого сигнала был ограничен рабочим материалом Заказчика и составил 200-4000 Гц.

Выбранные программные и аппаратные средства позволили измерять следующие акустические параметры звучащей речи:

- резонансные частоты речевого тракта на временных интервалах свободных колебаний;

- значения ширины резонансов по постоянной демпфирования на временных интервалах свободных колебаний;

- частоту основного тона тонального источника;

- относительную длительность вынужденных колебаний в процентах на периоде основного тона;

- спектральные интенсивности речевого сигнала в 8-ми диапазонах;

- спектральные интенсивности источника возбуждения в 8-ми диапазонах.

Глава 2. Вероятностные распределения акустических параметров монологической стилистически нейтральной литературной речи на длительном временном интервале

В данной главе приводятся результаты исследований по измерению частот резонансов и значений их ширины, а также параметров тонального источника возбуждения: частоты основного тона, длительности импульса возбуждения и его интенсивности. Измерения проводились на длительной выборке речевого сигнала: 4-5-минутные высказывания 18 дикторов общей длительностью 1 час 20 мин. Выборка представляла собой неспонтанную стилистически нейтральную литературную речь ( последние известия, переданные дикторами радио и телевидения ).

Исследование длительной выборки речевых сообщений осуществлялось с помощью анализатора "Массив - 2", имеющего 8 полосовых фильтров.

Были построены гистограммы резонансных частот, значений ширины резонансов, спектральных интенсивностей для всей речевой выборки. Гистограммы строились для 8-ми частотных диапазонов. Анализировались зависимости от интенсивности речи средних значений: резонансных частот; частоты основного тона, интенсивности и относительной длительности тонального источника на периоде основного тона (для каждого диктора). Указанные исследования были проведены для естественной речи и синтезированной речи по правилам с традиционным тональным источником возбуждения треугольной временной формы.

По результатам проведенных исследований были сделаны следующие обобщения:

1) распределения спектральных интенсивностей для естественной и синтезированной речи близки;

2) при увеличении интенсивности речи спектральные интенсивности в области высоких частот для естественной и синтезированной речи растут одинаковым образом;

3) распределения резонансных частот естественной и синтезированной речи близки в диапазоне частот 0,5-1,5 кГц;

4) в области частот ниже 0,5 кГц резонансные частоты синтезированной речи смещены в низкочастотную область, а для частот выше 1,5 кГц - в высокочастотную;

5) резонансные частоты естественной речи практически не зависят от интенсивности речи, а для синтезированной речи с ростом интенсивности частоты резонансов смещаются в высокочастотную область;

6) значения ширины резонансов естественной и синтезированной речи различны, для естественной речи ширины резонансов меняются в более широких пределах;

7) частота основного тона увеличивается с увеличением интенсивности звука для естественной и синтезированной речи;

8) относительная длительность 6Т тональногс источника возбуждения естественной речи в диапазоне частот 0,2-0.9 кГц в зависимости от интенсивности вначале падает, а затем возрастает;

9) для синтезированной речи закономерность 8) отсутствует;

10) относительная длительность 6Т тонального источника возбуждения естественной речи в диапазоне частот 2-3 кГц при увеличении интенсивности монотонно падает;

11) закономерность 10) для синтезированного сигнала отсутствует;

12) интенсивность возбуждения 1т тонального источника увеличивается с ростом интенсивности речи I, причем этот рост в области высоких частот происходит быстрее, чем в области низких частот.

При дальнейшем анализе речевой выборки исследовались простейшие типовые микросегменты, автоматически выделяемые анализатором "Массив-2":

1) статический, соответствующий временному константному состоянию речевого тракта;

2) динамический, соответствующий временным участкам перестройки конфигурации речевого тракта.

3) паузальный, соответствующий отсутствию интенсивности речевого сигнала.

Указанные три типа сегментов анализировались в двух частотных группах: низкочастотной (0,2-0,9 кГц) и высокочастотной (2-3 кГц). Статические и динамические микросегменты дополнительно разделялись на классы: тональный и шумовой.

Сформулируем основные выводы по особенностям акустических параметров статических и динамических микросегментов монологической стилистически нейтральной литературной речи.

1) Ширины резонансов естественной речи:

- изменяются от 10 до 100 Гц на статических сегментах и от 20 до 200 Гц на динамических сегментах;

- на статических тональных сегментах естественной речи в два раза меньше, чем для синтезированной речи;

2) Длительность импульсов возбуждения тонального источника естественной речи в низкочастотной области у статического сегмента почти в два раза меньше, чем у динамического. Для

синтезированной речи указанный эффект выражен слабо.

3) Интенсивность тонального источника возбуждения естественной речи для динамического сегмента выше, чем для статического. Для синтезированной речи указанный эффект выражен слабо.

Результаты анализа распределений параметров речевого сигнала на длительных речевых выборках могут быть использованы для построения технических алгоритмов оценки натуральности предъявленного к испытаниям речевого образца. Построение фонетического анализатора естественности можно осуществить с помощью функции сходства 1?, являющейся суммой функций близости г от следующих распределений акустических параметров:

- частоты резонансов;

- ширины резонансов;

- длительности тонального источника возбуждения;

- интенсивности тонального источника;

- спектральной интенсивности речевого сигнала в различных спектральных полосах.

Программистами была разработана программа, позволяющая строить распределения функции сходства К по указанным выше правилам. С помощью указанной программы можно было проводить уверенное автоматическое разделение речевых выборок естественной речи и речи, синтезированной по правилам с традиционным тональным источником.

Для повышения естественности звучания синтезированной по правилам речи можно предложить следующее:

1) изменять ширины резонансов синтезирующих фильтров;

2) изменять длительность импульсов возбуждения тонального ис-

точника.

Глава 3. Резонансные характеристики и особенности работы тонального источника для звуков русской речи

Во второй главе диссертации исследовались акустические параметры типовых классов микросегментов, характеризующие общие закономерности членения слитной речи. Реальные речевые процессы, происходящие при формировании звуков и слогов, являются более сложными и многообразными в своей тонкой структуре. Такие закономерности для русской речи исследуются в третьей главе.

Анализ проводился на изолированных гласных звуках, изолированных открытых слогах, изолированных двусложных псевдословах типа ГСГ с попеременным ударением на начальном и конечном гласном, а также на звуках и слогах, выделенных из речевых высказываний. Аффрикаты и [о] не рассматривались. В связи со значительной трудоемкостью микросегментного анализа на данном этапе исследовались в основном только твердые согласные в сильных позициях. Речевым материалом послужили фразы из артикуляционных таблиц (типа "Эскадрон пошел в атаку", "Парад открыли нахимовцы", "Чемоданы сдали в багаж" и т.д.), произнесенные 8-ью дикторами, носителями литературной орфоэпической нормы. Объемы анализированных выборок звуков русской речи были следующими: гласные - несколько сотен; сонорные, фрикативные, взрывные - несколько десятков.

Исследования проводились с помощью следующих аппаратных средств и программного обеспечения: анализатор "Массив-2"; линейное предсказание на коротких временных интервалах, позволяющее находить резонансные частоты и ширины речевого тракта на интерва-

лах свободных колебаний; восстановление сигнала источника в низкочастотной области по значению частоты и ширины первого резонанса речевого тракта.

Сам процесс формирования звука или слога рассматривался нами как временная последовательность микросегментов.

Наибольшее число типов микросегментов было обнаружено на слогах с взрывными согласными и слоге со звуком [р].

Наименьшее число микросегментов наблюдалось в слогах с сонорными и фрикативными.

Анализ интенсивности и длительности импульса тонального источника позволил выявить совокупность правил их изменения при формировании слога. Результаты прослушивания синтезированной речи подтвердили существенное влияние изменения параметров тонального источника на натуральность звучания, что позволяет назвать эти изменения определяющим фактором натуральности звучания.

Систематизируем основные правила изменений параметров источника возбуждения речевого тракта при порождении речи:

- включение тонального источника возбуждения может осуществляться в режиме жесткого и мягкого возбуждения (что, в частности, необходимо учитывать в певческой практике);

- выключение тонального источника почти всегда осуществляется по схеме мягкого выключения;

- при переходе от шумового источника возбуждения к тональному включение последнего осуществляется по схеме мягкого возбуждения и временные участки различных источников возбуждения перекрываются;

- при переходе от тонального источника к шумовому выключение первого осуществляется в мягком режиме и временные области сущест-

вования различных источников возбуждения не перекрываются;

- при раскрытии смычек в речевом тракте источник возбуждения представляет собой совокупность последовательных импульсов различной длительности, амплитуды, а иногда и временной формы;

- после микросегмента "импульс взрыва" колебания тонального

источника входят в свой основной режим на временном интервале в

1-3 периода основного тона;

- на динамическом сегменте длительность и интенсивность импульса тонального источника изменяются;

- чем ниже частота первого резонанса статического сегмента, тем больше длительность импульса возбуждения тонального 'источника;

- импульсы возбуждения сонорных звуков по сравнению с другими звуками имеют наибольшую длительность и наибольшую временную стабильность;

- высшие резонансные частоты имеют более сложную многокомпонентную форму импульсов возбуждения, включающую и шумовые временные участки, которые возникают при раскрытии / закрытии голосовых связок;

- при увеличении интенсивности тонального источника длительность его импульса укорачивается, а частота основного тона повышается;

- при увеличении интенсивности шумового источника возбуждения интенсивность высоких частот звуков увеличивается;

- изменения интенсивности шумового источника возбуждения кор-релированы с изменениями резонансных частот звука.

Результаты исследований поведения резонансных частот на изолированных звуках и при формировании слогов подтвердили правиль-

ность основных положений линейной теории речеобразования и основополагающих работ в области экспериментальной фонетики. Анализ полученных результатов показывает, что современные представления о резонансных частотах микросегментов могут быть дополнены следующими результатами:

- у взрывных согласных на микросегменте "импульс взрыва" возникают резонансные частоты, расположенные эквидистантно по оси частот, особенности этих расположений свои для каждого взрывного звука;

- у гласных звуков радиальные резонансы наиболее четко выделяются на звуках с высоким значением первого резонанса (в большей степени у [а]);

- значения высших резонансных частот различных гласных звуков близки;

- резонансные частоты фрикативных звуков возникают на границах их спектров.

При исследовании ширины резонансов выявлены следующие устойчивые закономерности:

- значения ширины резонансов динамических сегментов в два-три раза выше, чем у статических;

- среди статических сегментов наибольшая ширина резонансов наблюдается у фрикативных звуков;

- ширины резонансов гласных звуков зависят от площади ротового отверстия при их произношении;

- чем ниже частота первого резонанса гласного звука, тем ниже и значение его ширины;

- наиболее стабильны во времени ширины резонансов сонорных

звуков;

- чем ниже частота первого резонанса последующего гласного звука в слоге с сонорньм согласным, тем ниже ширина первого резонанса сонорного звука;

- для слогов русской речи изменение ширины резонанса во времени четко коррелировано с номером резонанса в этом слоге, каждый слог имеет свою характерную закономерность изменения ширин резо-нансов;

- звуки с тональным источником возбуждения (гласные, сонорные [м], [н], [л]) в квазистационарной части имеют ширину резонанса 50-200 Гц;

- звуки с турбулентным источником возбуждения (глухие фрикативные) в квазистационарной части имеют ширину резонанса более 400 Гц;

- звуки с импульсным источником возбуждения (взрывные и звук Ер]) на микросегменте "импульс взрыва" имеют ширину резонанса 150450 Гц;

- ширины резонансов звонких фрикативных в квазистационарной части на частотах ниже 1,5 кГц имеют ширину 50-300 Гц, 'а на частотах выше 1,5 кГц более 300 Гц.

- привлечение ширины резонансов в первичное описание гласных звуков в задаче автоматического обнаружения гласных звуков позволяет снизить вероятность ложного распознавания в 2-4 раза.

Заключение

Обобщая частные выводы по исследованию тонкой структуры речевых звуков, приведенные в главах диссертации и приложении, можно

сформулировать следующие основные положения заключения, соответствующие целям и задачам, поставленным в начале работы.

1. Для исследования были отобраны малоизученные акустические параметры речевого звука: резонансные частоты и их ширины (характеристики речевого тракта), длительность и интенсивность импульса, особенности временной формы импульса ( характеристики тонального источника возбуждения). Подбор именно этих параметров определялся современными представлениями о речевом сигнале и техническими возможностями его обработки.

2. В результате анализа существующих методов измерения акустических параметров речевого сигнала было выявлено, что введение понятия вынужденных и свободных речевых колебаний позволяет более корректно измерять резонансные частоты и их ширины (на интервале свободных колебаний), и параметры источника (на интервале вынужденных колебаний).

В качестве инструмента обработки речевого звука был выбран анализатор "Массив-2", обладающий большим диапазоном возможностей регистрации акустических характеристик звука, особенно на микросегментном уровне.

3. Получены распределения отобранных акустических характеристик монологической стилистически нейтральной литературной русской речи на длительной речевой выборке и выявлены существенные отклонения в распределении акустических параметров для естественной речи и речи, синтезированной по правилам. Эти распределения были получены в результате статистических исследований речи на длительной речевой выборке а) без разбиения и б) с разбиением ее на отдельные микросегменты: тональный / шумовой / паузальный; статический / ди-

намический; высокочастотный (выше 2 кГц) / низкочастотный (частоты 200-900 Гц).

На основе полученных распределений были выработаны рекомендации по улучшению натуральности звучания синтезированной по правилам речи.

4. Особенности распределений акустических параметров были заложены в основу решающих правил фонетического анализатора естественности речи. Результаты испытаний показали достаточно высокую эффективность детектора в разделении естественной и синтезированной по правилам речи. Следует отметить, что при спектральном анализе эти различия не просматриваются. Фонетический анализатор при дальнейшем расширении полученной базы данных, кроме определения естественности звучания, может быть использован также для определения национального языка речевых сообщений и для верификации диктора.

5. Обнаружена корреляция резонансных частот с интенсивностью речи в зависимости от способа образования звука.

6. Установлена связь значения ширины резонансов со способом образования звука.

7. Выявлено, что изменения ширины первого и второго резонансов в различных звуковых образованиях СГ и ГСГ имеют свою специфику. Привлечение ширин резонансов в алгоритмы автоматического распознавания слогов русской речи позволяет повысить надежность распознавания ключевых слов в 2-4 раза.

8. Получены обобщающие положения о тональном источнике возбуждения.

9. Выявленные закономерности проверялись на синтезе речи по правилам. Результаты аудирования показали, что наибольший вклад в натуральность звучания вносят изменяющиеся параметры тонального

источника; изменения ширин резонансов во времени являются дополнительным фактором увеличения натуральности синтезированной речи. 10. На основе систематизированных правил изменения параметров тонального источника был изготовлен трехпараметрический имитатор тонального источника. Результаты испытаний показали, что синтезированная по правилам речь с помощью разработанного тонального источника звучит более натурально.

И. Исследование микросегментов речевых звуков для решения практических задач речевой технологии выдвигает необходимость рассмотрения понятия естественности, которая является многоплановой характеристикой качества речи. Для системного анализа целесообразно изучение естественности по отношению к каждому члену основной лингвистической оппозиции: язык - речь. Высказывание, естественное с точки зрения языка, может рассматриваться как крайне неестественное в конкретных речевых условиях, поэтому правомерно искать опорные точки естественности речи в конкретных элементах коммуникативного акта: адресант, адресат (с их психофизиологическими и социальными характеристиками), контекст, сообщение, контакт, код. 12. Если с позиции языка синонимами естественности являются правильность, нормативность, стандартность, то в речи естественность представляется как неоднородное явление, складывающееся, по меньшей мере, из естественности ..звучания голоса и естественности информационной (с ее дальнейшей типологией). Для различения этих двух типов предлагается первый вид естественности, описывающий материю звука, условно называть отдельным словом "натуральность". Натуральность речи рассматривается как необходимое условие естественности звучания речевого образа, а соблюдение взаимосоответ-

ствия натуральности с информационной естественностью является достаточным условием общего явления естественности.

13. Кроме неоднородности естественность характеризуется и таким свойством, как относительность, обусловленная субъективным прогнозом адресата речевого сообщения, ожидающего от адресанта проявления его индивидуального и социального стереотипов для конкретного коммуникативного акта.

14. Существуют определенные признаки естественности речевого высказывания, однако в конкретных национальных языках их распределения могут быть разными, что связано с рядом причин: от фонологической системы языка до социокультурных норм, приятых в конкретном обществе.

В связи с многофакторностью и сложностью понятия естественности решение этой проблемы было начато с первичного уровня, а именно с выделения и исследования акустических параметров звуков речи, определяющих ее натуральность.

Приложение содержит обобщающие сведения о естественности звучащей речи. Анализ понятия естественности проведен для выработки объективных критериев ее оценки и измерения.

Основное содержание диссертации отражено в следующих публикациях:

1. Грибанова И.Н. К вопросу о паузации в спонтанной речи // Тезисы VIII итоговой научной конференции ЧелГУ. - Челябинск,1984.-С. 17.

2. Грибанова И.Н. Роль частоты основного тона и интенсивное

ти звуков в организации фоноабзацев // Тезисы IX итоговой научной конференции ЧелГУ. - Челябинск, 1985. - С. 27.

3. Грибанова И.Н. Влияние спонтанности речи на просодическую организацию фоноабзацев // Человек: перспективы исследования. Пермь, 1987. - С. 80.

4. Грибанова И.Н.О просодическом анализе текста в спонтанной речи // Типы коммуникации и содержательный аспект языка.

М.,1987. - С.180-184.

5. Чудновский Л.С., Агеев В.М., Грибанова И.Н. Выделение взрывных и гласных звуков в открытых слогах // Вопросы радиоэлектроники. Серия ЭВТ. Вып.8. 1988. - С.106-113.

6. Агеев В.М., Крылов В.Ю., Сорокин В.Н., Чудновский Л.С., Чудновская И.Н. Распознавание слогов слитной речи с использованием детектора согласный/гласный // Автоматическое распознавание слуховых образов: Тез. докл. 16-го Всесоюзного семинара (АРСО-16). -М. ,1991. - С. 6-7.

7. Чудновская И.Н. Исследование ширины полосы формант естественной и синтезированной речи на основе устройства автоматического распознавания речи // Автоматическое распознавание слуховых образов (АРСО-17): Тез. докладов. - Ижевск,1992. - С. 158-159.

8. Чудновский Л.С., Крылов В.Ю., Чудновская И.Н. Обнаружение ключевых слов в потоке слитной речи для задач криминалистической акустики // Международная конференция "Информатизация правоохранительных систем". - М., 1993. - С. 106.

9. Чудновский Л. С., Крылов В.Ю., Чудновская П.К. 2яшя:кч размножения ключевых слов в каналах передачи//Пе;;:дуи-г(--.дн;-.-- г н; • ренция"Информатизация правоохранительных сист-м".-М. , : ■ 4 -- ■..

Ю. Чудновский Л.С.. Матюнин С.Н., Чудновская И.Н. Применение устройств выделения ключевых слов при решении информационных задач // Международная конференция "Информатизация правоохранительных систем". - М. , 1995. - С. 105-109.

И. Чудновская И.Н. Формантные характеристики звуковых сегментов открытых слогов // Международная конференция "Информатизация правоохранительных систем": Тез.докладов. - М.,1995. - С.79-81.

12. Чудновская И.Н. Просодическая маркированность элементов содержательной структуры текста на уровне фоноабзаца // Проблемы гуманитарного образования: Содержание и методы. Материалы межвуз. науч.конф. Вып.3. Лингвистические дисциплины. - Ставрополь-Пятигорск, 1996. - С.146-147.

13. Чудновская И.Н. Естественность и натуральность звучания речи // Международная конференция "Информатизация правоохранительных систем": Тез.докладов. - М.,1996.

14. Чудновский Л.С., Чудновская И.Н. Использование просодически маркированных участков речи для передачи информации // Российско-американский научный симпозиум "Массовая коммуникация".

М.,1996. - С. 231-239.

15. Чудновская И.Н. Естественность речи как социолингвистическая проблема // Новое в теории и практике преподавания русского языка. - Пятигорск: ПГЛУ.- 0,5 п.л. /в печати.

16. Чудновский Л.С., Минаев В.А., Чудновская И.Н. Речевые технологии в криминалистической фоноскопии.- Красноярск: ВШ МВД. -14п.л. / в печати.

Полный текст автореферата диссертации по теме "Исследование акустических параметров звуков русской речи на микросегментном уровне"

Похожие темы диссертаций