автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему:
Создание библиотеки аллофонов для компилятивного синтеза речи по тексту

  • Год: 2006
  • Автор научной работы: Евграфова, Карина Владимировна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.19
Диссертация по филологии на тему 'Создание библиотеки аллофонов для компилятивного синтеза речи по тексту'

Полный текст автореферата диссертации по теме "Создание библиотеки аллофонов для компилятивного синтеза речи по тексту"

Санкт-Петербургский государственный университет

На правах рукописи

Евграфова Карина Владимировна

СОЗДАНИЕ БИБЛИОТЕКИ АЛЛОФОНОВ ДЛЯ КОМПИЛЯТИВНОГО

СИНТЕЗА РЕЧИ ПО ТЕКСТУ (ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ПРИКЛАДНОГО ИССЛЕДОВАНИЯ НА МАТЕРИАЛЕ БРИТАНСКОГО ВАРИАНТА АНГЛИЙСКОГО ЯЗЫКА)

10.02.19 - теория языка

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

Санкт-Петербург 2006

Диссертация выполнена на кафедре фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета

I I

Научный руководитель - доктор филологических наук, профессор

Скрелин Павел Анатольевич

Официальные оппоненты: доктор филологических наук, профессор

Асиновский Александр Семенович

доктор филологических наук, профессор Иванова Наталья Кирилловна

Ведущая организация - Институт лингвистических исследований РАН

Защита состоится «22» июня 2006 в «12,00» часов на заседании диссертационного совета Д 212.232 23 по защите диссертаций на соискание ученой степени доктора наук при Санкт-Петербургском государственном университете по адресу: 199034, Санкт-Петербург, Университетская наб., филологический факультет, ауд._.

С диссертацией можно ознакомиться в Научной библиотеке им.М.Горького Санкт-Петербургского государственного университета (Санкт-Петербург, Университетская набережная, 7/9).

Автореферат разослан «_

2006 года.

И.О. ученого секретаря диссертационного совета Д 212.232.23, [)/\\ / \ доктор филологических наук, профессор \

Г.Я. Мартыненко

АоОб±_

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Современный этап развития лингвистики в целом и фонетики в частности характеризуется поворотом от структурного подхода к моделированию реальных процессов говорения. Ценность лингвистического исследования на современном этапе все больше определяется возможностью синтезировать на основе языковой модели материальные элементы языка1.

Создание действующих моделей, имитирующих естественные звуковые процессы, и в частности, исследования, ведущиеся над созданием систем синтеза речи, позволяют рассмотреть теоретические проблемы фонетики и фонологии в новом аспекте.

При проведении экспериментов по моделированию естественных процессов порождения и восприятия речи появляется возможность проверить действительную ценность и полноту существующих лингвистических знаний о принципах организации и функционирования звуковой формы естественных языков.

В ходе таких экспериментов становится возможным применить на практике знания о звуковых средствах языка, полученных в результате преимущественно теоретических и экспериментально - фонетических исследований, и выяснить, какие из этих знаний являются достаточно полными, а каких данных на данный момент недостаточно для их адекватного отражения в искусственных моделях.

Таким образом, применение уже имеющихся лингвистических знаний для решения прикладных задач - это эффективный способ получить новые сведения о свойствах звуковых единиц естественной человеческой речи, которые могут существенно изменить оценку общефонологических моделей и тем самым повлиять на представления о свойствах системы языка вообще.

' Бондарко Л В Фонетическое описание языка и фонологическое описание речи Л, 1981

3

РОС. ¡!*.ЦИО!!ЛЛЬН\Я ____00 '.>л,ф -л

В связи с этим особое значение приобретает прикладная лингвистика, занимающаяся разработкой компьютерных систем, функционирующих на базе естественного языка: систем автоматического синтеза и распознавания речи.

Актуальность настоящего исследования определяется необходимостью получения данных об особенностях аллофонического варьирования в английском языке путем экспериментов по созданию и оптимизации инвентаря аллофонной базы данных для синтеза речи и последующего сопоставления результатов исследования с традиционными представлениями о фонетической системе английского языка - вокализме и консонантизме.

Основным принципом для решения задачи построения аллофонного синтеза является создание акустико-фонетической базы данных, базовыми элементами которой выступают аллофоны присутствующих в конкретном языке фонем.

Таким образом, для достижения поставленной цели было необходимо решить ряд как теоретических, так и практических задач:

1. Анализ научных публикаций как отечественных, так и зарубежных авторов, в которых рассматриваются проблемы аллофонического варьирования фонем английского языка.

2. Рассмотрение реализации каждой из фонем английского языка во всех возможных окружениях и выделение на основе теоретических предпосылок, описанных в литературе, всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей.

3. Составление специального словника, содержащего слова или словосочетания, в которые входят все рассматриваемые аллофоны.

4. Запись и сегментация звукового материала для акустической базы данных.

5. Проведение экспериментов по оптимизации инвентаря аллофонной базы, в ходе которых определялась существенность / несущественность аллофонных различий и возможность сокращения числа используемых в базе аллофонов.

6. Выделение оптимального набора комбинаторных и позиционных аллофонов, различающихся не с артикуляторной точки зрения, а акустически и перцептивно, и достаточного для синтеза любых звуковых последовательностей.

7. Проведение перцептивных экспериментов с целью оценки качества полученного инвентаря акустической базы данных.

8. Обобщение и теоретическая интерпретация полученных в ходе исследования результатов.

Объектом данного исследования послужили аллофоны гласных и согласных фонем британского варианта английского языка.

Научная новизна исследования состоит в комплексном рассмотрении особенностей акустических свойств аллофонов фонем английского языка путем экспериментов по синтезу речи.

Теоретическая ценность проведенного исследования состоит в лингвистической интерпретации данных об особенностях аллофонического варьирования фонем английского языка, полученных в результате экспериментов по формированию и оптимизации инвентаря аллофонной базы данных для английского компилятивного синтеза, и выделении набора аллофонов, различающихся не с артикуляторной точки зрения, а акустически и перцептивно.

Практическая значимость работы заключается в том, что сформированная аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

Одной из таких сфер применения, например, может быть создание компьютерных программ, обучающих английскому произношению (автоматических фонетических тренажеров, электронных словарей, а также любых других учебных пособий, содержащих звуковые примеры).

Благодаря своей компактности (размер базы не превышает 1 Мб), она может быть инкорпорирована в любое устройство с ограниченной памятью (мобильный телефон, карманный компьютер, электронный словарь и т.д.) и использоваться для озвучивания неограниченного числа звуковых последовательностей. Это могут быть слова из упражнений на постановку английского произношения, вокабуляр из англо-русского разговорника и т.д.

Такие обучающие программы нового поколения, несомненно, могут быть эффективно использованы для освоения английского произношения студентами языковых ВУЗов, а также людьми, изучающими английский язык самостоятельно.

В ходе исследования применялись следующие методы: слуховой и экспертный виды анализа, аудиторский эксперимент, инструментальный анализ звукового материала.

Изложение процедуры и результатов исследования сопровождается таблицами и рисунками.

Апробация исследования. Результаты исследования были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на Межвузовских конференциях преподавателей и аспирантов СПбГУ (2005, 2006), международной конференции "Текст, речь, диалог" (Карловы Вары, Чехия, 2005), Всероссийской объединенной конференции "Гуманитарная информатика. Электронное правительство в информационном обществе" (Санкт-Петербург, 2005).

Структура работы. Данное диссертационное исследование содержит 182 страницы машинописного текста и состоит из введения, трех глав, заключения, списка использованной литературы (148 наименований) и приложения.

СОДЕРЖАНИЕ ДИССЕРТАЦИИ Во введении излагается актуальность исследования, ставится его основная цель, определяются задачи, способствующие достижению поставленной цели, обосновываются теоретическая ценность и практическая значимость работы, указывается объект проведенного исследования.

В главе I излагаются основные задачи и методы компилятивного синтеза речи, дается общая характеристика существующих на данный момент технологий автоматического синтеза, описываются основные принципы создания аллофонной базы данных.

В первом разделе рассматриваются основные проблемы и методы автоматического синтеза, без учета и понимания которых решение задач данного диссертационного исследования было бы невозможно.

Уже в течение нескольких десятилетий автоматический синтез речи или синтез речи по тексту наравне с другими направлениями, входящими в состав речевых технологий, остается одной из важных задач прикладной фонетики. Разработки в этой области позволяют применить на практике теоретические знания о звуковых средствах языка, накопленные лингвистикой к настоящему времени.

К основным областям практического применения речевых технологий в целом и синтеза речи в частности относятся:

создание диалоговых интерфейсов с устным вводом/выводом информации;

- речевое управление компьютером и другими техническими устройствами;

- организация информационно-справочной службы, позволяющей получать и выдавать различную информацию из базы данных в условиях, когда вопрос задается голосом;

- создание устройств для приема и озвучивания различных сообщений, например, писем электронной почты по телефону;

- многоязычный устный ввод/вывод информации с автоматическим переводом;

- разработка приспособлений и компьютерных систем для помощи инвалидам;

- озвучивание корректур и исправление орфографических ошибок;

- помощь в обучении иностранному языку (автоматические фонетические тренажеры).

Задачей синтезатора типа "Текст-Речь" является озвучивание любого сообщения, вводимого в компьютер в текстовом виде и неизвестного заранее системе звукового синтеза. В идеале такие устройства должны имитировать деятельность человека, который читает письменное сообщение или текст любой степени сложности. Эта задача достигается при помощи различных технологий автоматического синтеза, которые в настоящее время достигли достаточно высокого уровня.

В ходе развития автоматического синтеза: образовались два относительно независимых направления: артикуляционный и акустический (сигнальный) синтез. При артикуляционном синтезе делается попытка синтезировать речевой сигнал на основе моделирования процесса речеобразования с учетом сведений об артикуляции. При помощи этих сведений производится количественная оценка формы речевого тракта, его резонансных свойств и характеристик звуковых источников. В результате на основе расчетных данных генерируется речевой сигнал (в цифровой форме).

При помощи этих сведений производится количественная оценка формы речевого тракта, его резонансных свойств и характеристик звуковых источников. В результате на основе расчетных данных генерируется речевой сигнал (в цифровой форме).

В отличие от артикуляционного синтеза в исследованиях акустического направления не ставится задача непосредственного отражения в синтезе тех процессов, которые связывают артикуляцию с акустикой речевого сигнала.

Основной целью является выявить и воспроизвести в синтезируемом сигнале акустические характеристики естественной речи, которые существенны для восприятия.

Со временем акустические синтезаторы по качеству синтезированной речи и быстроте действия значительно опередили системы артикуляционного синтеза, и в связи с этим автоматический синтез речи стал развиваться главным образом в этом направлении.

В исследованиях акустического направления не ставится задача непосредственного отражения в синтезе тех процессов, которые связывают артикуляцию с акустикой речевого сигнала. Основной целью является выявить и воспроизвести в синтезируемом сигнале акустические характеристики естественной речи, которые существенны для восприятия. Со временем акустические синтезаторы по качеству синтезированной речи и быстроте действия значительно опередили системы артикуляционного синтеза, и в связи с этим автоматический синтез речи стал развиваться главным образом в этом направлении.

Современные системы синтеза речи по тексту включают два блока:

- блок лингвистической обработки (Natural Language Processing), с помощью которого для любого произвольного сообщения или текста строится его полная фонетическая транскрипция, включающая как сегментную, так и просодическую характеристики;

- блок акустического синтеза или цифровой обработки сигнала (Digital Signal Processing), генерирующего речевой сигнал, т.е. "озвучивающего" фонетическую транскрипцию.

На этапе лингвистической обработки решаются следящие задачи:

- определение языка входного текста (для систем многоязычного синтеза);

- исправление ошибок входного текста;

- нормализация (передача в нормальном орфографическом виде цифр, сокращений, аббревиатур, расшифровка специальных знаков);

- лингвистический анализ (синтаксический, морфологический и т.д.);

- формирование фразовых интонационно-просодических показателей (осуществляется при помощи акцентно-интонационного транскриптора);

- построение фонетической транскрипции текста (осуществляется при помощи фонетического транскриптора);

- формирование просодических характеристик (определение для каждой фонемы (или аллофона), входящей в синтезируемую фразу, физической длительности, интенсивности и частоты основного тона).

Важность решения этих проблем определяется тем, что от правильности задания просодических характеристик в большей степени зависят осмысленность и естественность синтезированной речи.

Ставя перед собой одну задачу - получить высококачественную синтезированную речь, близкую к естественному чтению речи человеком, исследователи используют различные технологии автоматического синтеза. В зависимости от того, какие методы используются на последнем, акустическом, этапе, выделяются два вида автоматического синтеза. Акустический синтез осуществляется либо в виде формантного синтеза по правилам, либо в виде компилятивного синтеза с элементами правил. Различия между этими технологиями описаны в следующем разделе.

Во втором разделе описываются технологии автоматического синтеза. Для получения синтезированной речи используются различные технологии автоматического синтеза. Выделяются два вида автоматического синтеза: формантный синтез по правилам и компилятивный (конкатенативный) синтез с элементами правил.

В третьем разделе содержится описание особенностей компилятивного синтеза и его видов. Компилятивный синтез речи заключается в соединении

отрезков речевой последовательности (акустических единств) для построения из них слогов, словоформ, фраз и слитного текста. На данный момент построено множество систем компилятивного синтеза, (как для отдельных языков, так и многоязычных), использующих разные типы единиц и различные методы составления инвентаря. В известных системах компилятивного синтеза в качестве элементов компиляции используются следующие типы единиц: субаллофоны (половинки аллофонов), дифоны (отрезки, которые начинаются в середине одного звука и заканчиваются в середине соседнего), фрагменты фонемной размерности (акустические аллофоны), трифоны (отрезки, содержащие стационарный участок одного звука и переходные участки окружающих его звуков), слоги, полуслоги, двуслоги и образцы смешанных типов. Одной из самых распространенных в мире моделей компилятивного синтеза является дифонная модель. Большой интерес также вызывает технология, позволяющая избежать необходимости проведения каких-либо просодических модификаций и, как следствие, улучшить естественность синтезированной речи. Эта технология основывается на использовании большей базы данных, из которой в реальном времени выбираются единицы компиляции.

Четвертый раздел посвящен описанию особенностей аллофонной модели, её достоинств и недостатков. В аллофонном синтезе в качестве базовых элементов компиляции выступают аллофоны, оптимальный набор которых и представляет собой акустико-фонетическую базу синтеза. Метод аллофонного синтеза речи решает проблему сохранения информации, содержащейся в переходных участках, так как ключевым моментом при создании базы является учёт всевозможных акустических изменений аллофонов в зависимости от комбинаторных и позиционных условий. Выбор этих единиц имеет и такие преимущества, как сокращение памяти для их хранения в оцифрованном виде (за счет меньшей длительности, чем длительность сложных единиц) и возможность сокращения необходимого набора путем обобщения тождественных контекстных влияний. При этом задача поиска возможных

обобщений и тем самым определения оптимального набора аллофонов может быть решена лишь с учетом знания акустических и коартикуляционных процессов. К недостаткам этой модели можно отнести: сложность выделения физических реализаций нужных аллофонов, что требует высокой квалификации специалиста, выполняющего сегментацию; сложность методов формирования искусственного звукового потока, поскольку границы между физическими реализациями аллофонов в ряде случаев являются условными и не всегда совпадают с границами звуковых элементов для синтеза.

В пятом разделе изложены основные принципы формирования аллофонной базы данных.

В шестом разделе содержатся выводы по главе I.

Глава II посвящена описанию основных этапов формирования инвентаря аллофонной базы данных английского языка.

В первом разделе содержится описание системы английских фонем. Произведен анализ научных публикаций как отечественных, так и зарубежных авторов, в которых рассматриваются проблемы аллофонического варьирования фонем английского языка. Представлены артикуляторные классификации гласных и согласных фонем английского языка.

Во втором разделе описывается выделение классов контекстов для аллофонов гласных и для аллофонов согласных фонем. При выделении классов контекстов реализации каждой из фонем английского языка были рассмотрены во всех возможных окружениях и в результате на основе теоретических предпосылок, описанных в литературе, был получен набор всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей. Для гласных сформировано всего 18 классов левых и 22 класса правых контекстов. Для согласных было выделено 5 классов левых контекстов и 11 правых.

В третьем разделе описывается процесс подготовки звукового материала для аллофонной базы данных.

Четвертый раздел посвящен описанию процесса сегментации звукового материала. В ходе сегментации звукового материала был получен инвентарь аллофонной базы данных английского языка, содержащий около 6000 звуковых элементов, имеющих размер звуковой реализации аллофона.

В пятом разделе содержатся выводы по главе.

В главе III описаны эксперименты по оптимизации и тестированию акустического инвентаря аллофонной базы данных и проанализированы их результаты.

В первом разделе обсуждаются проблемы экономии исходного звукового материала для аллофонного синтеза речи. Обосновывается необходимость оптимизации аллофонной базы данных.

Во втором разделе излагается методика экспериментов по оптимизации, целью которых было установление степени сходства и различия некоторых "естественных" комбинаторных аллофонов. В ходе этих экспериментов проводилась замена рассматриваемых аллофонов сходными аллофонами, реализованными в другом контексте. Далее следовал эксперимент, заключающийся в слуховой оценке качества звучания этого слова с замененным правым или левым контекстом у интересующего аллофона. В том случае, когда в ходе слухового эксперимента, осуществляемого при обязательном спектральном контроле, ощутимых различий не наблюдалось, в базе данных сохранялся лишь один из рассматриваемых аллофонов.

Третий и четвертый разделы посвящены описанию сокращения контекстов комбинаторных аллофонов гласных и согласных.

В пятом разделе представлены результаты экспериментов по оптимизации инвентаря аллофонной базы. Сокращения, внесенные в число классов гласных и согласных контекстов, несимметричны. Первоначально для гласных было сформировано всего 18 классов левых и 22 класса правых контекстов, для согласных - 5 классов левых и 11 классов правых контекстов. В результате оптимизации количество, как левых, так и правых контекстов для

гласных сокращено до 10. Количество классов контекстов для согласных после оптимизации уменьшено до 11 классов: 4 класса левых контекстов и 7 классов правых.

В результате оптимизации стало возможным сократить количество комбинаторных аллофонов гласных до 1 ООО, а согласных - до 200.

В целом количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в литературе набора артикуляторных аллофонов английских фонем.

В шестом разделе описаны процедура и результаты последнего этапа формирования аллофонной базы данных для синтеза речи по тексту - этапа тестирования. Основной задачей этапа тестирования являлась оценка качества сформированного ранее инвентаря аллофонной базы данных. Основными критериями оценки являлись разборчивость и естественность синтезированной речи. Перцептивные эксперименты показали, что на сегментном уровне можно отметить качество синтезированной речи, полученной при компиляции единиц инвентаря аллофонной базы, что подтверждает правильность составления оптимального набора комбинаторных и позиционных аллофонов, а также правильность выбора физических границ аллофонов при сегментации. Заключение. В заключительной части реферируемой диссертации формулируются следующие основные выводы и теоретические результаты исследования.

1. В ходе данного исследования был решен ряд теоретических и практических задач.

2. Реализации каждой из фонем английского языка были рассмотрены во всех возможных окружениях и на основе теоретических предпосылок, описанных в < литературе, был выделен набор всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых

последо вательностей.

2. При выделении этого набора были учтены особенности системы английских фонем, а также произведен анализ и обобщение теоретических данных об аллофоническом варьировании в английском языке. Полученные результаты были использованы для создания звукового материала аллофонной базы данных.

3. В ходе экспериментов по оптимизации инвентаря аллофонной базы устанавливалась сущестренность/несущественность аллофонных различий, и проверялись гипотезы о сходствах акустических характеристик некоторых аллофонов.

4. В результате экспериментов по оптимизации удалось значительно сократить количество используемых в базе комбинаторных аллофонов. Это сокращение стало возможным в первую очередь благодаря укрупнению или реорганизации первоначально выделенных классов контекстов. Сокращения, внесенные в число классов гласных и согласных контекстов, несимметричны. Первоначально для гласных было сформировано всего 18 классов левых и 22 класса правых контекстов, для согласных - 5 классов левых и 11 классов правых контекстов. В результате оптимизации число, как левых, так и правых контекстов для гласных сокращено до 10.

Возможность такого радикального сокращения количества классов фонетических типов контекстов для гласных связана с незначительным диапазоном аллофонического варьирования гласных английского языка.

Как показали перцептивные эксперименты, целый ряд левых и правых контекстов не оказывает значительного влияния на слуховой эффект аллофонов гласных.

В ходе экспериментов, проводившихся при спектральном и слуховом контроле, удалось установить набор наиболее важных правых и левых контекстов, оказывающих значимое влияние на акустические и перцептивные характеристики гласных.

Вопреки традиционному представлению о том, что левый контекст важнее для гласных, чем правый, число выделенных левых и правых контекстов оказалось одинаковым.

Что касается количества классов контекстов для согласных, после оптимизация оно уменьшено до 11 классов: 4 класса левых контекстов и 7 классов правых.

Сокращения классов контекстов для согласных не столь значительны, как для гласных. Это связано с тем, что аллофоническое варьирование согласных, в особенности предвокальных, является более заметным на слух, чем аллофоническое варьирование гласных.

Разница в количестве левых и правых контекстов для согласных подтверждает более сильное влияние на согласный правого контекста, особенно вокального, по сравнению с левым.

Таким образом, проведенные эксперименты показали, что целый ряд гласных аллофонов с разными левыми или правыми контекстами, обладающие разными артикуляторными характеристиками, с акустической точки зрения и перцептивно не различаются.

5. Таким образом, количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в отечественной и зарубежной фонетической литературе набора артикуляторных аллофонов английских фонем.

6. Кроме описанных выше экспериментов по оптимизации, был использован и другой способ сокращения количества аллофонов в базе данных. Все аллофоны, которые не встречаются в рамках одного слова, а возможны только на стыках слов, были исключены из базы. Микропауза, появляющаяся между словами в результате отсутствия в базе такого аллофона, не приводит к снижению степени естественности звучания и при этом увеличивает разборчивость синтезированной речи.

В целом в результате оптимизации стало возможным сократить количество комбинаторных аллофонов гласных до 1000, а согласных - до 200.

Эксперименты также показали, что и оптимизированный набор элементов для синтеза при необходимости может быть сокращен за счет еще большего обобщения контекстов комбинаторных аллофонов гласных. Это, объясняется тем, что качество английских гласных полного образования, в особенности монофтонгов, отличается большей стабильностью и определенностью. 7 Проверка правильности выделения оптимального набора акустических аллофонов и того, насколько полно были учтены все особенности акустических характеристик аллофонов фонем английского языка, осуществлялась в ходе экспериментов по тестированию качества полученной аллофонной базы данных.

С этой целью был проведен ряд экспериментов на восприятие звучащей синтезированной речи, полученной при компиляции звуковых единиц сформированного инвентаря. Основными критериями оценки являлись разборчивость и естественность синтезированной речи.

Проведенные эксперименты показали, что на сегментном уровне можно отметить высокое качество синтезированной речи, полученной при компиляции единиц инвентаря аллофонной базы, что подтверждает правильность составления оптимального набора комбинаторных и позиционных аллофонов, а также правильность выбора физических границ аллофонов при сегментации. 9. В результате экспериментов, проведенных в ходе данного исследования, и теоретического обобщения их результатов была сформирована библиотека аллофонов, различающихся с акустической и перцептивной точки зрения. 10 Полученная в ходе исследования аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

В приложении представлен список слов, содержащий слова и фразы с

входящими в состав акустического инвентаря базы аллофонами.

Основные положения диссертации отражены в следующих публикациях:

1. Евграфова К.В. Принципы формирования аллофонной базы данных f английского языка для компилятивного синтеза // Фонетический лицей, СПб, 2004.

2. Евграфова К.В. Формирование аллофонной базы данных английского языка // Интегральное моделирование звуковой формы естественных языков, СПб., 2005.

3. Evgrafova K.V. The Sound Database Formation for the Allophone-based Model for English Concatenative Speech Synthesis // Proc. of TSD'2005. Karlovy Vary, (2005).

4. Евграфова К.В. Применение технологии компилятивного синтеза в целях обучения иностранному языку // Технологии информационного общества -Интернет и современное общество: Труды VIII Всероссийской объединенной конференции. СПб, 2005.

i I I

i

¿ooéA

 

Оглавление научной работы автор диссертации — кандидата филологических наук Евграфова, Карина Владимировна

Введение.

Глава I Основные задачи и методы компилятивного синтеза речи.

1.1 Синтез речи по тексту как одна из задач прикладной фонетики.

1.2 Технологии автоматического синтеза.

1.3 Компилятивный синтез речи и его виды.

1.4 Особенности аллофонной модели.

1.5 Принципы формирования аллофонной базы данных.

1.6 Выводы по главе 1.

Глава II Основные этапы формирования инвентаря аллофонной базы данных английского языка.

2.1 Описание системы английских фонем.

2.1.1 Артикуляторная классификация гласных.

2.1.2 Описание системы английских согласных фонем.

2.2 Выделение классов контекстов.

2.2.1 Выделение классов контекстов для аллофонов гласных фонем.

2.2.2 Выделение классов контекстов для аллофонов согласных фонем.

2.3 Подготовка звукового материала для аллофонной базы данных.

2.3.1 Описание словника.

2.3.2 Запись исходного речевого материала.

2.4 Сегментация звукового материала.

2.5 Выводы по главе II.

Глава III Оптимизация и тестирование аллофоной базы данных.

3.1 Проблемы экономии исходного звукового материала для аллофонного синтеза речи.

3.2 Методика экспериментов по оптимизации.

3.3 Сокращение контекстов комбинаторных аллофонов гласных.

3.3.1 Сокращение комбинаторных аллофонов гласных в окружении согласных.

3.3.2 Сокращение комбинаторных аллофонов гласных в окружении гласных.

3.4 Сокращение контекстов комбинаторных аллофонов согласных.

3.5 Результаты экспериментов по оптимизации инвентаря аллофонной базы.

3.6 Тестирование аллофонной базы данных.

3.6.1 Материал и методика экспериментов.

3.6.2 Аудиторы.

3.6.3 Процедура перцептивных экспериментов.

3.6.4 Результаты перцептивных экспериментов.

3.7 Выводы по главе III.

 

Введение диссертации2006 год, автореферат по филологии, Евграфова, Карина Владимировна

Современный этап развития лингвистики в целом и фонетики в частности характеризуется поворотом от структурного подхода к моделированию реальных процессов говорения. Ценность лингвистического исследования на современном этапе все больше определяется возможностью синтезировать на основе языковой модели материальные элементы языка [Бондарко 1981].

Создание действующих моделей, имитирующих естественные звуковые процессы, и в частности, исследования, ведущиеся над созданием систем синтеза речи, позволяют рассмотреть теоретические проблемы фонетики и фонологии в новом аспекте.

При проведении экспериментов по моделированию естественных процессов порождения и восприятия речи появляется возможность проверить действительную ценность и полноту существующих лингвистических знаний о принципах организации и функционирования звуковой формы естественных языков.

В ходе таких экспериментов становится возможным применить на практике знания о звуковых средствах языка, полученных в результате преимущественно теоретических и экспериментально-фонетических исследований, и выяснить, какие из этих знаний являются достаточно полными, а каких данных на данный момент недостаточно для их адекватного отражения в искусственных моделях.

Таким образом, применение уже имеющихся лингвистических знаний для решения прикладных задач - это эффективный способ получить новые сведения о свойствах звуковых единиц естественной человеческой речи, которые могут существенно изменить оценку общефонологических моделей и тем самым повлиять на представления о свойствах системы языка вообще.

В связи с этим особое значение приобретает прикладная лингвистика, занимающаяся разработкой компьютерных систем, функционирующих на базе естественного языка: систем автоматического синтеза и распознавания речи.

Актуальность настоящего исследования определяется необходимостью получения данных об особенностях аллофонического варьирования в английском языке путем экспериментов по созданию и оптимизации инвентаря аллофонной базы данных для синтеза речи и последующего сопоставления результатов исследования с традиционными представлениями о фонетической системе английского языка - вокализме и консонантизме.

Целью данной научной работы является создание библиотеки аллофонов фонем английского языка для синтеза речи по тексту.

Основным принципом для решения задачи построения аллофонного синтеза является создание акустико-фонетической базы данных, базовыми элементами которой выступают аллофоны присутствующих в конкретном языке фонем.

Таким образом, для достижения поставленной цели было необходимо решить ряд как теоретических, так и практических задач:

- анализ научных публикаций как отечественных, так и зарубежных авторов, в которых рассматриваются проблемы аллофонического варьирования фонем английского языка;

- рассмотрение реализации каждой из фонем английского языка во всех возможных окружениях и выделение на основе теоретических предпосылок, описанных в литературе, всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей;

- составление специального словника, содержащего слова или словосочетания, в которые входят все рассматриваемые аллофоны;

- запись и сегментация звукового материала для акустической базы данных;

- проведение экспериментов по оптимизации инвентаря аллофонной базы, в ходе которых определялась существенность/несущественность аллофонных различий и возможность сокращения числа используемых в базе аллофонов;

- выделение оптимального набора комбинаторных и позиционных аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения, и достаточного для синтеза любых звуковых последовательностей;

- проведение перцептивных экспериментов с целью оценки качества полученного инвентаря акустической базы данных;

- обобщение и теоретическая интерпретация полученных в ходе исследования результатов.

Объектом данного исследования послужили аллофоны гласных и согласных фонем британского варианта английского языка.

Научная новизна исследования состоит в комплексном рассмотрении особенностей акустических свойств аллофонов фонем английского языка путем экспериментов по синтезу речи.

Теоретическая ценность проведенного исследования состоит в лингвистической интерпретации данных об особенностях аллофонического варьирования фонем английского языка, полученных в результате экспериментов по формированию и оптимизации инвентаря аллофонной базы данных для английского компилятивного синтеза, и выделении набора аллофонов, различающихся не с артикуляторной, а перцептивной точки зрения.

Практическая значимость работы заключается в том, что сформированная аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

Одной из таких сфер применения, например, может быть создание компьютерных программ, обучающих английскому произношению (автоматических фонетических тренажеров, электронных словарей, а также любых других учебных пособий, содержащих звуковые примеры).

Благодаря своей компактности (размер базы не превышает 1 Мб), она может быть инкорпорирована в любое устройство с ограниченной памятью (мобильный телефон, карманный компьютер, электронный словарь и т.д.) и использоваться для озвучивания неограниченного числа звуковых последовательностей. Это могут быть слова из упражнений на постановку английского произношения, вокабуляр из англо-русского разговорника и т.д.

Такие обучающие программы нового поколения, несомненно, могут быть эффективно использованы для освоения английского произношения студентами языковых ВУЗов, а также людьми, изучающими английский язык самостоятельно.

В ходе исследования применялись следующие методы: слуховой и экспертный виды анализа, аудиторский эксперимент, инструментальный анализ звукового материала.

Изложение процедуры и результатов исследования сопровождается таблицами и рисунками.

Апробация исследования. Результаты исследования были представлены в докладах на заседаниях кафедры фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного университета, на Межвузовских конференциях преподавателей и аспирантов СПбГУ (2005, 2006), международной конференции "Текст, речь, диалог" (Карловы Вары, Чехия, 2005), Всероссийской объединенной конференции "Гуманитарная информатика. Электронное правительство в информационном обществе" (Санкт-Петербург, 2005).

По теме диссертации опубликованы работы.

1) Евграфова К.В. Принципы формирования аллофонной базы данных английского языка для компилятивного синтеза // Фонетический лицей, СПб, 2004.

2) Евграфова К.В. Формирование аллофонной базы данных английского языка // Интегральное моделирование звуковой формы естественных языков, СПб., 2005.

3) Evgrafova K.V. The Sound Database Formation for the Allophone-based Model for English Concatenative Speech Synthesis // Proc. of TSD'2005. Karlovy Vary, (2005) P. 219-225.

4) Евграфова К.В. Применение технологии компилятивного синтеза в целях обучения иностранному языку // Технологии информационного общества - Интернет и современное общество: Труды VIII Всероссийской объединенной конференции. СПб, 2005.

5) Евграфова K.B. Тестирование аллофонной базы данных // Труды

Межвузовской конференции преподавателей и аспирантов, СПб, 2006 в печати).

6) Evgrafova K.V. The Quality Evaluation of Allophone Database for

English Concatenative Speech Synthesis // Proc. of Specom'06, Saint

Petersburg, 2006 (в печати).

Объем и структура работы. Данное диссертационное исследование содержит 182 страницы и состоит из введения, трех глав, заключения, списка использованной литературы и приложения.

 

Заключение научной работыдиссертация на тему "Создание библиотеки аллофонов для компилятивного синтеза речи по тексту"

3.6.5 Выводы по главе III

1) На этапе оптимизации аллофонной базы данных была решена задача достижения максимальной экономии речевого материала при сохранении естественности.

2) Число базовых звуковых единиц инвентаря было сокращено в результате исследования спектральных картин базовых аллофонов и на основании слухового анализа слов, включающих комбинаторные аллофоны со сходными акустическими характеристиками.

3) Сокращение количества используемых в базе комбинаторных аллофонов стало возможным благодаря укрупнению или реорганизации первоначально выделенных классов контекстов.

4) В результате оптимизации, как число левых гласных контекстов, так и число правых сокращено до 10. Количество классов контекстов для согласных уменьшено до 4 левых контекстов и 7 правых.

5) В результате экспериментов количество комбинаторных аллофонов гласных было уменьшено до 1000, а согласных - до 200.

6) В целом количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в литературе набора артикуляторных аллофонов английских фонем.

7) Перцептивные эксперименты показали, что на сегментном уровне качество синтезированной речи может быть оценено как хорошее, что подтверждает правильность составления инвентаря, а также правильность выбора физических границ аллофонов при сегментации.

ЗАКЛЮЧЕНИЕ

В ходе данного исследования был решен ряд теоретических и практических задач.

Реализации каждой из фонем английского языка были рассмотрены во всех возможных окружениях и на основе теоретических предпосылок, описанных в литературе, был выделен набор всех возможных комбинаторных и позиционных аллофонов, необходимых для синтеза любых речевых последовательностей.

При выделении этого набора были учтены особенности системы английских фонем, а также произведен анализ и обобщение теоретических данных об аллофоническом варьировании в английском языке.

Полученные результаты были использованы для создания звукового материала аллофонной базы данных.

В ходе экспериментов по оптимизации инвентаря аллофонной базы устанавливалась существенность/несущественность аллофонных различий, и проверялись гипотезы о сходствах акустических характеристик некоторых аллофонов.

В результате экспериментов по оптимизации удалось значительно сократить количество используемых в базе комбинаторных аллофонов. Это сокращение стало возможным в первую очередь благодаря укрупнению или реорганизации первоначально выделенных классов контекстов.

Сокращения, внесенные в число классов гласных и согласных контекстов, несимметричны. Первоначально для гласных было сформировано всего 18 классов левых и 22 класса правых контекстов, для согласных - 5 классов левых и 11 классов правых контекстов.

В результате оптимизации количество, как левых, так и правых контекстов для гласных сокращено до 10.

Возможность такого радикального сокращения количества классов фонетических типов контекстов для гласных связана с незначительным диапазоном аллофонического варьирования гласных английского языка.

Как показали перцептивные эксперименты, целый ряд левых и правых контекстов не оказывает значительного влияния на слуховой эффект аллофонов гласных.

В ходе экспериментов, проводившихся при спектральном и слуховом контроле, удалось установить набор наиболее важных правых и левых контекстов, оказывающих значимое влияние на акустические и перцептивные характеристики гласных.

Вопреки традиционному представлению о том, что левый контекст важнее для гласных, чем правый, число выделенных левых и правых контекстов оказалось одинаковым.

Что касается количества классов контекстов для согласных, после оптимизация оно уменьшено до 11 классов: 4 класса левых контекстов и 7 классов правых.

Сокращения классов контекстов для согласных не столь значительны, как для гласных. Это связано с тем, что аллофоническое варьирование согласных, в особенности предвокальных, является более заметным на слух, чем аллофоническое варьирование гласных.

Разница в количестве левых и правых контекстов для согласных подтверждает более сильное влияние на согласный правого контекста, особенно вокального, по сравнению с левым.

Таким образом, проведенные эксперименты показали, что целый ряд гласных аллофонов с разными левыми или правыми контекстами, обладающие разными артикуляторными характеристиками, с акустической точки зрения и перцептивно не различаются.

Так, например, замена гласных аллофонов в позициях после 1]1, Ы, /к/, Ли/, /01/ или /е 1/ одного на другой совершенно неощутима при слуховом восприятии. На этом основании возможно лишь один аллофон из этой группы рассматривать как базовый.

Таким образом, количество базовых аллофонов, выделенных с учётом акустических и перцептивных различий, оказалось значительно меньше традиционно выделяемого и описанного в отечественной и зарубежной фонетической литературе набора артикуляторных аллофонов английских фонем.

Кроме описанных выше экспериментов по оптимизации, был использован и другой способ сокращения количества аллофонов в базе данных. Все аллофоны, которые не встречаются в рамках одного слова, а возможны только на стыках слов, были исключены из базы. Микропауза, появляющаяся между словами в результате отсутствия в базе такого аллофона, не приводит к снижению степени естественности звучания и при этом увеличивает разборчивость синтезированной речи

В целом в результате оптимизации стало возможным сократить количество комбинаторных аллофонов гласных до 1000, а согласных -до 200.

Эксперименты также показали, что и оптимизированный набор элементов для синтеза при необходимости может быть сокращен за счет еще большего обобщения контекстов комбинаторных аллофонов гласных.

Это, объясняется тем, что качество английских гласных полного образования, в особенности монофтонгов, отличается большей стабильностью и определенностью.

Проверка правильности выделения оптимального набора акустических аллофонов и того, насколько полно были учтены все особенности акустических характеристик аллофонов фонем английского языка, осуществлялась в ходе экспериментов по тестированию качества полученной аллофонной базы данных.

С этой целью был проведен ряд экспериментов на восприятие звучащей синтезированной речи, полученной при компиляции звуковых единиц сформированного инвентаря. Основными критериями оценки являлись разборчивость и естественность синтезированной речи.

Проведенные эксперименты показали, что на сегментном уровне можно отметить высокое качество синтезированной речи, полученной при компиляции единиц инвентаря аллофонной базы, что подтверждает правильность составления оптимального набора комбинаторных и позиционных аллофонов, а также правильность выбора физических границ аллофонов при сегментации.

В результате экспериментов, проведенных в ходе данного исследования, и теоретического обобщения их результатов была сформирована библиотека аллофонов, различающихся с акустической и перцептивной точки зрения.

Полученная в ходе исследования аллофонная база данных может служить основой для создания законченной системы синтеза речи по тексту для английского языка и использоваться во всех сферах применения автоматического синтеза речи, диапазон которых необычайно широк.

 

Список научной литературыЕвграфова, Карина Владимировна, диссертация по теме "Теория языка"

1. Алтухова Е.Е. Реализация законов фонотагстики в спонтанной речи (экспериментально-фонетическое британского варианта исследование на материале Санкт- английского языка). Канд. дне. Петербург, 2000.

2. Бабкин А.В. Автоматический синтез речи проблемы и методы генерации речевого сигнала Труды международного семинара Диалог98 по компьютерной лингвистике и ее приложениям. Казань, 1998.www.dialog-21.ru/Archive/1998/Dialogue%202000-2/25.htm

3. Бабкин А.В. Особенности применения технологии TD-PSOLA для модификации характеристик вокальных аллофонов Труды международного семинара Диалог01 по компьютерной лингвистике и ее приложениям. Звенигород, 2001. www.diaiog- 21.ru/Archive/2000/Dialogue%202000-2/25.htm

4. Бабкин А.В., Захаров Л. М. Оценка качества системы синтеза речи, разработанного в МГУ Труды международного семинара Диалог99 по компьютерной лингвистике и ее приложениям. Таруса, www.dialog-21.ru/Archlve/1999/Dialogue%202000-2/25.htm 1999.

5. Бондарко Л.В. Фонетическое описание языка и фонологическое описание речи. Л., 1981.

6. Бондарко Л.В., Вербицкая Л. А., Зиндер Л. Р. Акустические характеристики безударности Структурная типология языков. М., 1966, стр. 56-64.

7. Бондарко Л.В., Кузнецов В. И., Скрелин П.А., Шалонова К. Б. Звуковая система русского языка в свете задач компилятивного синтеза Бюллетень фонетического фонда русского языка. 6, май 1997.

8. Вольская Н., Коваль А., Коваль С Опарин И., Погарева Е., Скрелин П., Смирнова Н., Таланов А. Синтезатор русской речи по тексту нового поколения Труды международного семинара Диалог05 по компьютерной лингвистике и ее приложениям. 2005. www.diaiog21.ru/Archive/2000/Dialogue%202000-2/25.htm

9. Вольская Н. Б., Светозарова Н. Д., Скрелин П.А. Моделирование просодического оформления русского текста Бюллетень фонетического фонда русского языка. 6, май 1997, стр. 65-110. И. Вольская Н.Б., Скрелин П.А., Таланов А.О. Автоматическое моделирование просодического оформления фразы Интегральное моделирование звуковой формы естественных языков. СПб., 2005, стр. 64-74.

10. Гинтовт К. П. Вопросу о стилистических модификациях звуков речи в английском языке Функциональный анализ фонетических единиц английского языка. М., 1988.

11. Демидов А.К. Анализ дифтонгов в системе вокализма американского и британского вариантов аглийского языка. Автореф. дис. канд. филол. наук. Одесса, 1983.

12. Евграфова данных К.В. Принцины формирования аллофонной языка для компилятивного базы английского синтеза Фонетический лицей, СПб., 2004, стр. 23-36.