автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Формирование акустического сигнала при автоматическом синтезе речи

  • Год: 1998
  • Автор научной работы: Бабкин, Алексей Викторович
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Москва
  • Код cпециальности ВАК: 10.02.21
Автореферат по филологии на тему 'Формирование акустического сигнала при автоматическом синтезе речи'

Полный текст автореферата диссертации по теме "Формирование акустического сигнала при автоматическом синтезе речи"

уь О»

А к «за

На правах рукописи

Бабкин Алексей Викторович

Формирование акустического сип ¡а при автоматическом синтезе речи

Специальность 10.02.21 - «Структурная, прикладная и математическая

лингвистика»

Автореферат диссертации на соискание ученой степени кандидата филологических наук

МОСКВА 1998 г.

Работа выполнена на кафедре теоретической и прикладной лингвистики филологического факультета Московского государственного университета им. М.В.Ломоносова

Научный руководитель:

кандидат филологических наук О.Ф.Кривнова

доктор филологических наук Р.К.Потапова

доктор филологических наук В.Б.Иванов

Вычислительный центр РАН.

Официальные оппоненты:

Ведущая организация:

Защита диссертации состоится "23" декабря 1998 г. в 14 часов на заседании диссертационного совета Д-053.05.16 при Московском государственном университете им. М.В.Ломоносова.

Адрес: 119899, Москва, В-234, Воробьевы горы, МГУ, I корпус гуманитарных факультетов, филологический факультет.

С диссертацией можно ознакомится в библиотеке гуманитарных факультетов МГУ.

Автореферат разослан ноября 1998 г.

Ученый секретарь

диссертационного совета

Общая характеристика работы.

Реферируемая работа посвящена задаче формирования речевого сигнала в системах автоматического синтеза речи по произвольному тексту, созданию алгоритмов, осуществляющих эту функцию, и тестированию созданных алгоритмов.

Актуальность работы обусловлена тем, что в настоящее время, благодаря техническому прогрессу в области компьютерных технологий, разработки, направленные на создание автоматических систем синтеза речи, находятся в центре внимания современных речевых исследований. Хотя разработки в области синтеза ведутся, начиная с 60-х годов, эта проблема не решена до конца ни для одного языка мира.

Главная цель данного диссертационного исследования связана с теоретической разработкой и практической реализацией модуля озвучивания в системе русского синтеза, развиваемой речевой группой филологического факультета МГУ.

В рамках принятой нами технологии конкатенативнсго синтеза в нашей работе решаются два комплекса задач. Первый комплекс задач связан с разработкой алгоритмов, осуществляющих коррекцию акустическо-фонетической базы синтеза и контроль над ее единицами. Второй комплекс включает задачу создания алгоритмов просодической модификации речевых образцов и алгоритмов формирования выходного речевого сигнала, производящих генерацию непрерывной речи.

Более конкретно в данном диссертационном исследовании ставились следующие основные задачи:

1) Произвести анализ современных технологий и результатов конкретных разработок в области автоматического синтеза речи.

2) Создать алгоритмы, необходимые для формирования непрерывного речевого сигнала, и на их основе разработать специальный модуль озвучивания для системы автоматического синтеза русской речи, разрабатываемой на филологическом факультете МГУ.

3) Провести комплексное тестирование всех параметров и алгоритмов, предлагаемых для формирования речевого сигнала в данной диссертации, разработать для этого специальный компьютерный инструментарий.

4) Создать работающие программы, которые реализуют разработанные алгоритмы генерации речевого сигнала в целостной системе синтеза русской речи.

Что касается новизны исследования, то здесь можно отметить следующее. Знакомство с современными технологиями в области

з

Кроме того, разработанный нами модуль озвучивания в составе полной системы автоматического синтеза речи может быть применен в учебных курсах для обучения студентов основам современных компьютерных речевых технологий, в курсах по фонетике русского языка, в различных лингвистических исследованиях.

Апробация работы. Так как данное исследование является частью разработки, которая осуществляется речевой группой кафедры теоретической и прикладной лингвистики филологического факультета МГУ, все принципиальные вопросы и достигнутые результаты, связанные с данным исследованием, регулярно обсуждались на рабочих совещаниях этой группы. Кроме того, результаты данного исследования были обсуждены на конференции "Диалог 98" и международной электронной конференции "Синтез и анализ речи" в октябре 1997 г. (модератор Казанский Государственный Университет), они отражены также в трех публикациях.

Структура диссертации. Работа состоит из введения, четырех глав, заключения и списка литературы.

Краткое содержание работы.

Во введении дается краткая характеристика целей и задач диссертации, обосновывается актуальность темы, подчеркивается новизна и практическая ценность работы.

В первой главе проанализированы современные технологии, которые используются в зарубежных системах автоматического синтеза речи.

В начале данной главы приводится прототипическая схема систем синтеза речи по произвольному тексту (типа "Текст->Речь"), кратко объяснены все ее составляющие (Рис. 1). Согласно этой схеме в основе систем синтеза речи данного типа лежат два компонента: блок лингвистической обработки текста и модуль озвучивания, основная задача которого состоит в формировании акустического сигнала.

Анализ технологий синтеза речи начинается с обзора истории их возникновения и основных этапов развития, основное внимание при этом уделено описанию теоретической базы этих технологий в их современном состоянии. Так как во многих синтезаторах применяются различные способы хранения речевого сигнала, то анализ систем синтеза речи начинается с обсуждения этого вопроса. Кроме того, именно с методов хранения и сжатия речевого сигнала начинается история компилятивного синтеза, когда записанные слова или кусочки слов соединяли в нужном порядке для получения новой фразы.

'шшшштмшшшт

Блок лингвистическом обработки и подготовка текста к озвучиванию: Нормализация текста. Исправление ошибок входного текста.

Лингвистический анализ: синтаксический, морфологический анализ. Формирование просодических характеристик Фонемный транскриптор.

Рис.1. Прототипическая блок-схема системы автоматического синтеза речи.

Все системы синтеза речи традиционно делятся по способу формирования акустического сигнала. При этом в качестве двух главных направлений выделяются параметрический и конкатенативный синтез речи. В главе дается краткая характеристика основных разновидностей параметрического синтеза речи - артикуляторного и формантного синтезаторов.

В связи с тем, что развиваемая в данном диссертационном исследовании система синтеза речи принадлежит к конкатенативному типу, технологии, основанные на методах конкатенации, рассмотрены подробно. Основное внимание при этом уделяется проблемам генерации речевого сигнала.

Главная идея конкатенативного синтеза, в отличие от параметрического, заключается в том, что формирование речевого сигнала осуществляется путем склейки нужных единиц из имеющегося акустического инвентаря. С точки зрения формирования акустического сигнала этот подход не требует глубоких знаний о внутренней структуре речевого сигнала. Практически все параметры уже присутствуют в готовых единицах акустической базы данных. Если бы в акустической базе данных присутствовал полный набор элементов, со всеми необходимыми просодическими модификациями, то оставшаяся задача для генерации речевого сигнала - это выбрать требуемые элементы и соединить их в нужной последовательности. В реальной

б

ситуации набор таких элементов всегда ограничен, потому что невозможно создать такой набор элементов, который позволил бы озвучить любой произвольный текст с бесконечно разнообразными интонационно-просодическими параметрами. Поэтому нужно применять различные методы модификации исходных образцов для получения требуемых речевых элементов. На рис. 2 представлена общая блок-схема систем конкатенативного синтеза речи.

Кодировщик

Кодирование фонетических элементов.

Приведение элементов к единицам синтеза

Акустическая база данных:

Набор акустических образцов. Структура и разметха образцов.

Модуль озвучивания:

Модификация образцов в соответствии с просодическими параметрами. Соелинение образцов.

ш.

Рис 2. Блок-схема конкатенативного синтеза речи.

Как следует из анализа, проведенного в первой главе, наиболее популярными технологиями в системах конкатенативного синтеза являются технологии семейства PSOLA (от англ. Pitch Synchronous Overlap and Add) в разных конфигурациях. В главе описываются все основные конфигурации технологии PSOLA и обсуждаются их достоинства и недостатки. Основная идея этих методов заключается в том, что исходный речевой сигнал разбивается специальной оконной функцией на последовательность коротких сигналов, синхронизованных с частотой основного тона, и после некоторых манипуляций (они в большинстве случае и определяют конфигурацию технологии) эти модифицированные сигналы складываются согласно некоторой схеме перекрытия и сложения, образуя модифицированный речевой сигнал. Основные конфигурации - это TD-PSOLA (от англ. Time Domain), когда все модификации промежуточных сигналов осуществляются во временной области, и FD-PSOLA (от англ. Frequency Domain), когда эти модификации осуществляются в частотной или спектральной области. Широко известны также другие

модификации этой технологии, например, LP-PSOLA (эта технология использует методы линейного предсказания) или MBR-PSOLA (от англ. Multi-Band Resynthes-PSOLA).1

В конце первой главы сделан следующий основной вывод: анализ современных разработок в области автоматического синтеза речи показывает, что системы конкатенативного типа, основанные на TD-PSOLA технологии, имеют высокое качество при низких вычислительных затратах. Такие технологии используются в большинстве современных синтезаторов речи. Поэтому за основу развиваемой нами системы синтеза речи была выбрана именно эта технология.

Вторая глава диссертации посвящена проблемам и методам создания акустической базы данных для конкатенативного синтеза речи.

Одной из первоочередных задач при создании системы такого типа является выбор размерности и количества элементов конкатенации. Это могут быть дифоны2, аллофоны, слоги, полуслоги, двуслоги и т.д. В некоторых системах может использоваться комбинация нескольких таких типов. Выбор того или иного типа единиц имеет свои преимущества и недостатки.

Чем больше размерность элементов, тем большее их количество необходимо для покрытия всех возможных вариантов произношения. Чем меньше размерность элементов, тем больше проблем возникает при стыковках на границах сегментов: ведь элементы компиляции обычно выбираются из разных слов. И, кроме того, значительно увеличивается плотность стыковок.

Самыми распространенными единицами конкатенативного синтеза являются дифоны и аллофоны. Дифоны используются в подавляющем большинстве систем синтеза речи, аллофонные базы встречаются реже.

Дифонная модель синтеза основана на предположении, что у фонемных реализаций существуют стационарные участки, которые не зависят от влияния соседних звуков (т.е. от коартикуляции). Выбор дифонов направлен на сохранение переходных участков (хотя они невелики по длительности, но зато очень важны и информативны для восприятия речи). Основные трудности, возникающие при подготовке и использовании дифонных баз, сводятся к следующему. Предположение

1 Dutoit Т., Leich Н. A comparison of four candidate algorithms in the context of high quality Text-To-Speech Synthesis//ICASSP 94.

; Дифон определяется как звуковая единица, имеющая протяженность во времени от середины предыдущего звука до середины последующего.

о наличии у речевых звуков стационарных участков, свободных от контекстного влияния, является слишком упрощенным: во-первых, совсем не всегда стационарный участок есть, во-вторых, если даже он есть, то контекстное влияние может распространяться и на него, а не только на переходные участки. Например, в случаях, когда переходный процесс носит непрерывный характер на всем протяжении звука, при любом выборе точек деления на дифоны при конкатенации в местах их соединения могут возникать значительные перепады спектральных характеристик, что негативно сказывается на качестве синтезируемой речи. Даже дополнительные программные алгоритмы сглаживания не могут устранить этих стыковочных дефектов. В качестве примера на рис.3 приведен результат соединения двух дифонов [/|] и [Iо ], вырезанных из разных контекстов [Не] и [у¡О]. При конкатенации наблюдается спектральный разрыв в точке соединения, отчетливо ощутимый на слух. По этой и другим причинам, описываемым в данной главе, мы решили не использовать дифонную модель, а выбрали в качестве элементов конкатенации отрезки аллофонной размерности, которые позволяют избежать большинства подобных дефектов.

i • I ; е у ; i ; о i ; |j ; о

Рис.3. Спектральный разрыв, наблюдаемый в звуке [J] при образовании соединения [i \ О j, составленного из двух дифонов, вырезанных из контекстов [He/ufyiOJ, (по Dutoit 1997)

На основании анализа типичных ошибок синтезированной речи в диссертации предложены такие принципы и методы построения базы данных, которые позволяют не допускать или устранять эти ошибки.

При создании акустической базы данных решен ряд задач, которые возникают при разработке любой системы конкатенативного типа. К таким задачам относятся:

1) Выбор размерности единиц конкатенации.

В имеющихся системах конкатенативного типа используются различные типы единиц (дифоны, аллофоны, слоги, полуслоги и др.). Как уже отмечено выше, мы пришли к выводу, что наиболее удобными элементами для склейки являются аллофоны. Под аллофонами мы понимаем акустические фрагменты, соответствующие контекстным реализациям фонем. Большинство элементов акустической базы данных в нашей системе являются аллофонами, но в ней также присутствуют элементы меньшей и большей размерности.

2) Выбор необходимого количества элементов (размер акустическо-фонетической базы синтеза).

Для покрытия всех вариантов произношения в нашей системе синтеза речи используется база, включающая 1200 единиц. Такое количество аллофонов позволяет устранить возможный спектральный разрыв при правильном соединении аллофонов (соединяемые граничные участки аллофонов имеют одинаковые или очень близкие спектральные характеристики).

3) Выбор точки начала отсчета периода (попериодная разметка вокальных аллофонов).

В отличие от большинства стандартных технологий, в которых за точку начала периода выбирается отсчет с максимальным значением амплитуды сигнала на периоде, во второй главе показано, что с точки зрения естественности синтезированной речи более адекватные результаты получаются, когда используется точка с нулевым значением амплитуды, близкая к энергетическому максимуму периода. При таком выборе начала периода автоматически устраняется проблема несовпадения граничных отсчетов по амплитуде при склеивании аллофонов. Такой выбор позволяет также устранить дефекты, связанные с разрывом фазы следования импульсов голосового источника.

4) Запись исходного речевого материала для создания акустической базы данных.

В соответствующих разделах главы уделяется особое внимание обсуждению вопроса о подборе речевого материала и технических условий его записи.

5) Проверка и коррекция попериодной разметки базы данных.

Для создания базы данных из записанного речевого материала выбираются аллофоны и осуществляется их разметка на периоды. На попериодную разметку аллофонов опираются алгоритмы модификации частоты основного тона и длительности в модуле озвучивания. Выделение базовых аллофонов из реального речевого сигнала осуществлялось в нашем случае ручным способом, а создание попериодной разметки - полуавтоматическим. При таком способе создания базы могут возникать различные ошибки. Для проверки и исправления этих ошибок была создана специальная программа. Она проверяет соответствие разметки и ключевых признаков реального речевого сигнала: а именно, соответствие требованию "перехода через ноль", корректности расставленных меток периода в соответствии со средним значением периода в текущем аллофоне и др. При обнаружении ошибки эта программа выводит сообщение на экран и исправляет ее автоматически, если это возможно. При создании системы русского синтеза (МГУ) с ее помощью было найдено и исправлено много ошибок. 6) Контроль над акустической базой данных.

Опыт работы показал, что с акустической базой данных невозможно работать вслепую: акустические характеристики элементов компиляции должны быть заранее известны и находиться под контролем. Поэтому возникла задача создания специальной информационной базы, главными параметрами которой являются номер аллофона, его длительность, количество периодов, длительность каждого периода, значение энергии. В данной работе такая база была создана, и она существенно помогает отладке системы.

Третья глава диссертации посвящена описанию методов и алгоритмов, разработанных в данном исследовании для создания модуля озвучивания в системе синтеза русской речи.

Модуль озвучивания является одной из главных частей синтезатора конкатенативного типа: он отвечает за формирование непрерывного речевого сигнала. Основная задача модуля озвучивания состоит в том, чтобы модифицировать просодические характеристики исходных акустических отрезков (базовых аллофонов) и правильно их соединять, образуя плавную, естественно звучащую речь.

Каждый аллофон, содержащийся в акустической базе данных, имеет свои просодические характеристики, и модуль озвучивания модифицирует их в соответствии с интонационными требованиями синтезируемого речевого отрезка (слова, предложения). Чтобы приблизительно оценить цели и объем работы, приходящейся на модуль озвучивания, рассмотрим график изменения частоты основного тона фразы "Ты пойдёшь в кино?" вопросительного типа, при простом

п

соединении ^модифицированных базовых аллофонов (Рис.4.) и в требуемом виде, который определяется параметрами естественного произношения. На Рис.5 дано представление этой же фразы в виде таблицы с указанием исходных просодических характеристик аллофонов и требуемых (длительность аллофонов, частота основного тона начальная, конечная и в середине аллофона, при сложном • тональном контуре.

->• по ■*<• МО М мх> А хе «О щ «в «с 4(0 ч® '«О хю

Рис.4. График изменения частоты основного тона от времени для фразы "Ты пойдёшь в кино?" при простом соединении немодифицированных аллофонов и требуемый график, задаваемый модулем лингвистической обработки.

Из рисунков видно, что при отсутствии модификации график изменения частоты основного тона не имеет ничего общего с требуемым. Отсюда можно сделать вывод, что простое соединение базовых аллофонов дает неестественное произношение. Просодические характеристики ведут себя случайным образом, определяемым речевым материалом, который был взят для создания акустическо-фонетической базы синтеза, в то время как при синтезе конкретной фразы должна быть реализована закономерная схема изменения частоты основного тона.

Кроме того, исходные просодические характеристики базовых аллофонов всегда фиксированы. Это означает, что никакие интонационно-просодические различия, которые в речевом сигнале реализованы через временные, частотные и энергетические параметры, принципиально не могут быть выражены.

При простом соединении всегда присутствуют также различные стыковочные дефекты, которые требуют устранения.

Основной принцип построения модуля озвучивания в данном исследовании заключается в том, что просодические характеристики

отрезков речевого сигнала можно модифицировать, непосредственно изменяя акустический сигнал как таковой, без использования параметрических методов генерации речевого сигнала.

а)

Исходные параметры аллофоноа N длитель- ГО ГО Алл. кость нач. хон. тз/% Гц Гц

б>

Требуекие параметр« аллофонов длитель- ГО ГО ГО

кость нач. хон. сер.

100000 100 о о

120001 100 О о

842011 106 140 116

100000 100 0 0

110001 100 о о

Э11116 82 148 137

710101 57 218 182

000100 115 176 125

050004 100 0 О

861621 154 121 99

230101 100 0 0

260101 100 0 О

100000 100 О О

160004 100 О О

931610 44 153 153

420101 102 162 145

861318 244 127 180

Щ»/% Гц Гц 123 О О 123 О О

116 199 199 ¿224 40

110 О О

110 О О

106 194 188

110 188 188

116 183 199

116 О О

123 199 298

97 О О

97 О О

104 О О

104 О О

87 251 158

136 158 150

248 150 126 £126 50

Рис.5. Представление фразы "Ты пойдёшь в кино?" в виде управляющего файла с указанием исходных параметров базовых аллофонов (рис а) и требуемых просодических параметров (рис б).

Общая структура системы автоматического синтеза речи для русского языка, частью которой является разработанный в данном исследовании модуль обработки и генерации речевого сигнала, может быть представлена блок-схемой, изображенной на рис. 6. Как видно из рисунка, задача модификации просодических характеристик аллофонов разбита на две подзадачи: первая - это модификация просодических характеристик вокальных аллофонов (в рамках этой задачи изменяются частота основного тона, длительность и энергия аллофонов) и вторая - модификация просодических характеристик невокальных аллофонов (здесь изменяются энергия и длительность аллофонов).

Для обеспечения естественности звучания используется понятие стационарного участка аллофона. Стационарный участок определяется как внутренняя часть аллофона, на которой меньше всего изменяются спектральные характеристики. Задача модификации просодических характеристик подчиняется правилу, заключающемуся в том, что модификация частоты основного тона может осуществляться на всем протяжении аллофона, а изменение его длительности - только на

стационарном участке. Это правило вводится для того, чтобы по возможности минимизировать возможные искажения на переходных участках аллофона при модификации его просодических характеристик.

ТЕКСТ

Рис.6. Место и задачи модуля озвучивания в общей системе автоматического синтеза русской речи.

В рамках построения блока озвучивания в данном диссертационном исследовании решены следующие задачи: 1) Задача предварительной обработки аллофонов (выделение стационарного участка и реализация амплитудных изменений). Каждый аллофон проходит предварительную обработку, при осуществлении которой выделяется стационарный участок и производятся предварительные амплитудные изменения. В главе описан метод поиска стационарного участка.

2) Модификация просодических характеристик вокальных аллофонов. Для решения этой задачи были созданы 4 типа алгоритмов. Эти алгоритмы различаются способом изменения длительности периода (типом оконной функции). Один из предложенных алгоритмов является наиболее простым и не требует больших вычислительных возможностей компьютера, другой - наиболее сложным и требовательным к мощностям компьютера, а остальные занимают в этом смысле промежуточное положение. Несмотря на имеющиеся различия, каждый из алгоритмов включает пять типов операций: формирование исходной последовательности периодов основного тона; формирование конечной (модифицированной) последовательности периодов; коррекция (модификация конечной последовательности, направленная на улучшение естественности звучания); акустический синтез (формирование модифицированного аллофона); энергетические изменения (рис.7).

Рис.7, Базовая схема блока модификации просодических характеристик вокального аллофона.

Дальнейшая работа над этими алгоритмами привела к созданию специальных алгоритмов, направленных на увеличение

естественности синтезированной речи. Все они реализованы в блоке коррекции.

Одно из главных требований для всех алгоритмов озвучивания заключается в том, чтобы сохранять спектральные характеристики в модифицированных аллофонах. На рис. 8 изображены спектр вокального алло фона с модифицированной частотой основного тона, получившегося в результате работы одного из алгоритмов модификации, и спектр исходного аллофона. Из рисунка видно, что спектральная огибающая сигнала после модификации практически не отличается от исходной.

Рис.8. Спектр аллофона с модифицированной частотой основного тона (нижний рисунок) и спектр исходного пемодифицированного аллофона (верхний рисунок).

3) Модификация просодических характеристик невокальных аллофонов.

Для решения задачи модификации просодических характеристик невокальных аллофонов, т.е. их длительности и энергии, в данном диссертационном исследовании создан специальный алгоритм, теоретические основы которого описываются в данной главе.

4) Соединение аллофонов.

Никаких специальных алгоритмов при склейке аллофонов не требуется. Это связано с тем, что при создании аллофонной базы данных была проведена предварительная работа по устранению ошибок, которые могут возникать при грубом склеивании.

5) Формирование речевого сигнала в реальном времени.

При создании модуля озвучивания синтезатора, который осуществляет генерацию непрерывной речи в реальном времени,

необходим специальный блок вывода сигнала. Основываясь на вычислительной способности компьютера, он должен специальным образом формировать непрерывный речевой сигнал, который выводится на выходное устройство. Дело в том, что генерация речевого сигнала всегда осуществляется блоками. При воспроизведении между блоками возникает пауза. Модуль озвучивания должен правильно формировать такие блоки с тем, чтобы каждый блок представлял собой законченный интонационный контур, соответствующий интонационно-смысловому отрезку речи (синтагме). В данном диссертационном исследовании создан такой блок и теоретически описываются принципы его построения.

Четвертая глава посвящена методам тестирования и отладки системы синтеза речи. В начале главы проведен анализ современных методов тестирования и выделены типы тестов, необходимые для решения поставленных в данной главе задач. В данной главе ставятся следующие задачи:

1) Провести тестирование созданных в данном исследовании алгоритмов формирования речевого сигнала.

2) Выбрать наиболее удачный алгоритм, среди предлагаемых в качестве основы для модификации просодических характеристик.

3) Оценить разборчивость и естественность синтезированной речи.

4) Определить направления дальнейшего совершенствования системы синтеза речи.

В рамках решения поставленных задач был создан специальный тестирующий инструментарий, включающий три типа тестов (два на разборчивость и один на естественность речи). Этот инструментарий имеет гибкую структуру, позволяющую быстро добавлять или изменять состав тестов. Кроме того, он автоматически осуществляет предварительную обработку результатов, облегчая дальнейший их анализ.

В рамках первого теста на разборчивость аудиторам предлагалось прослушать одно синтезированное слово, которое они должны были идентифицировать в списке из пяти похожих слов. Контрольные слова подбирались в соответствии с требованием, чтобы был учтен весь набор единиц, которые рассматриваются в фонемной транскрипции как разные.

Во втором тесте на разборчивость аудиторам предлагалось синтезированное слово, которое они должны были записать (в нашем случае набить на клавиатуре компьютера) в орфографическом виде. В качестве основы для выбора слов этого теста мы использовали известный из литературы результат эксперимента по восприятию человеком слов в белом шуме. В результате этого эксперимента были

выделены слова, которые зарекомендовали себя как самые трудные для опознания и различения.

В тесте на естественность аудиторам предлагалось прослушать две реализации одного и того же слова. Они должны были выбрать лучшую из них и оценить степень ее "естественности" по 4 бальной шкале. Для объективной оценки естественности синтеза речи мы решили включить в тест речевые образцы реального диктора, произнесения которого использовались для создания акустической базы нашей системы синтеза речи. Эти естественные образцы предлагались для сравнения вместе с искусственными.

В обсуждаемой главе уделяется особое внимание вопросу подбора материала для всех тестов.

Как показал анализ результатов эксперимента по тестированию, в нашей разработке имеются достоинства и недостатки. Большинство из недостатков будут исправлены в процессе дальнейшего развития системы.

По полученным результатам тестирования можно сделать вывод, что все четыре алгоритма, предложенные в качестве основы модуля озвучивания, формируют синтезированную речь с приблизительно одинаковыми характеристиками разборчивости и естественности. Хотя, например, один из тестов на разборчивость показал небольшое преимущество самого сложного из методов. Для более точного исследования преимуществ одного метода перед другим нужно создать более жесткие условия тестирования, например, использовать сигналы с большими изменениями частоты основного тона. В обычных ситуациях разница между этими методами незначительна. Так как предложенные методы предъявляют различные требования к вычислительным мощностям компьютера, при достаточных мощностях можно использовать сложный метод, а простейший применять в обратном случае.

Описанные в четвертой главе методы тестирования и отладки синтезатора речи являются необходимой частью общего процесса разработки и качественно помогают при работе над его дальнейшим усовершенствованием.

В заключении подводятся итоги проведенного исследования и делаются следующие выводы:

1. Анализ современных технологий в области синтеза речи, результаты которого изложены в первой главе, указывает на возможность использования для генерации речевого сигнала алгоритмов, работающих во временной области. В синтезаторах конкатенативного типа эти алгоритмы должны осуществлять

модификацию просодических характеристик исходных акустических образцов и соединять их, обеспечивая естественность склеек.

2. В любой системе конкатенативного типа алгоритмы формирования речевого сигнала работают с базой акустических образцов, размеченных в соответствии с требованиями применяемых методов генерации сигнала. В диссертации предлагается и теоретически обосновывается специальный метод попериодной разметки элементов акустической базы данных. Согласно предложенному методу за начало периода принимается точка перехода речевого сигнала через ноль со стороны отрицательных значений к положительным, близкая к энергетическому максимуму периода (в аналогичных разработках предлагается выбирать в качестве начала периода точку с максимальным значением амплитуды на периоде). Данный выбор обосновывается, прежде всего, получением более естественного качества синтезированной речи на выходе алгоритмов, которые используются далее для формирования результирующего речевого сигнала.

3. Для устранения ошибок, возникающих при создании акустическо-фонетической базы данных, которая осуществляется обычно полуавтоматическим способом, был разработан специальный корректирующий алгоритм, который реализован в виде компьютерной программы. Эта программа осуществляет проверку базы данных и исправление ошибок попериодной разметки. Кроме того, в результате данного исследования была сформирована информационная база данных, которая содержит в доступном виде полную информацию о характеристиках всех акустических образцов (аллофонов), образующих акустический инвентарь синтеза. Эта информационная база данных полезна при отладке системы синтеза речи.

4. В диссертации предложены, теоретически обоснованы и практически реализованы различные алгоритмы, которые осуществляют генерацию речевого сигнала на основе базовых аллофонных единиц конкатенации. В частности, предлагаются четыре варианта алгоритмов модификации просодических характеристик для вокальных аллофонов, в которых используются элементы технологий ТВ-РБОЬА и "сШ-апё-зНсе". Кроме того, разработаны алгоритмы модификации просодических характеристик для невокальных аллофонов, а также корректирующие алгоритмы, направленные на повышение естественности речевого сигнала.

5. Для качественной оценки разработанных алгоритмов генерации речевого сигнала проведены специальные тестирующие эксперименты, из результатов которых можно сделать следующие выводы:

• Предложенные в данном исследовании алгоритмы формирования речевого сигнала, работающие во временной области, обеспечивают хорошее качество синтезированной речи при сравнительно небольших вычислительных затратах. Речь, синтезированная этими алгоритмами, в 10% случаев была признана лучшей по сравнению с произнесенной человеком.

• Разборчивость синтезированной речи для произвольного текста заведомо выше 78% в специальных трудных случаях и в общем случае выше 90%.

• Тесты на разборчивость выявили ряд ошибок, связанных с наличием "дефектных" аллофонов в базе данных. Такие ошибки легко исправляются путем замены "дефектного" аллофона, при этом автоматически улучшается разборчивость синтезированной речи.

В заключение хотелось бы еще раз отметить, что все предложенные в данном исследовании алгоритмы осуществлены в виде компьютерной программы и соединены в одно целое с существующей системой синтеза русской речи.

Перспективными направлениями развития данного исследования являются создание алгоритмов автоматической разметки акустической базы данных и разработка специальных алгоритмов, осуществляющих изменение типа голоса, алгоритмов, вносящих в синтезированную речь эмоциональность и теплоту человеческой речи и др. Большинство из таких алгоритмов возможно только на основе работы со спектральными представлениями речевого сигнала.

Основные положения диссертации отражены в следующих публикациях:

1) «Автоматический синтез речи - проблемы и методы генерации речевого сигнала» // Трудьг Международного семинара Диалог'98 по компьютерной лингвистике и ее приложениям (под ред. А.С.Нариньяни). Т. 2 Казань, 1998.

2) (в соавторстве с О.Ф.Кривновой, Н.В.Зиновьевой, Л.М.Захаровым, Г.С.Строкиным) «TTS Synthesis for Russian Language» // Web Journal of Formal, Computational, and Cognitive Linguistics, 1997, issue 1.

3) (в соавторстве с О.Ф.Кривновой, С.М.Гладковым, И.С.Чардиным) «Узнайте его по голосу. Автоматический компьютерный синтез речи по тексту» // Компьютерра, 1997, № 12.