автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Фонетические аспекты речевых технологий
Введение диссертации1999 год, автореферат по филологии, Скрелин, Павел Анатольевич
Речевые технологии - это одно, из направлений информационных технологий, которое занимается проблемами общения человека с компьютером (или человека с человеком посредством компьютера) на основе использования естественного языка в звуковой его форме. Для лингвиста речевые технологии - это способ моделирования системы языка и речевой деятельности человека, это основа для практического применения знаний о звуковых средствах языка, это способ получения новых сведений, важных для развития фонетики и фонологии. К настоящему времени лингвистика накопила огромное количество сведений о принципах организации и функционирования звуковой формы естественных языков. Эти сведения получены в ходе теоретических и экспериментально-фонетических исследований и носят преимущественно описательный характер. Однако действительная ценность и полнота полученных данных может быть проверена путем экспериментов по моделированию естественных процессов порождения и восприятия речи. Наблюдения за функционированием моделей естественных процессов показывают, какие сведения об этих процессах оказались достаточно полными, а каких данных пока недостаточно для их адекватного отражения в модели. Бурное развитие речевых технологий вызвано насущными потребностями современного общества в решении ряда практических задач. При этом для решения таких задач создаются специальные программные и технические средства, которые позволяют существенно увеличить эффективность научных исследований принципов организации и функционирования естественного языка. Данная работа выполнена на кафедре фонетики и методики преподавания иностранных языков Санкт-Петербургского государственного '.'нхтепгллтета. Естественно, что такая работа основана на изучении свойств реных неценной в
КНИГА ИМЕЕТ «5 экспе
Актуальность данной работы определяется значительным углублением знаний о свойствах звуковых единиц естественной человеческой речи; эти знания существенно изменяют оценку общефонологических моделей и тем самым влияют на представления о свойствах системы языка вообще. С другой стороны, бурное развитие информационных технологий настоятельно требует использования фонетических сведений при построении современных средств речезого общения со сложными техническими устройствами, занимающими все более значительное место в разных сферах жизни общества.
Апробация исследований. Результаты исследований излагались на международной конференции ИНФО'89 (Минск, 1989), APCG-16 (Суздаль, 1991), на международном симпозиуме "Антропоморфные системы автоматического синтеза и распознавания речи" (Санкт-Петербург, 1993), на международной конференции "Linguistic Databases" (Гронинген, Голландия, 1995), на Международном конгрессе фонетических наук (Сан Франциско, 1999), на международных симпозиумах SPECOM - Speech and Computer - (Санкт-Петербург, 1996; Клуж-Напока, Румыния, 1997; Санкт-Петербург, 1998), на международной конференции "Преподавание языка и языковые технологии" (Гронинген, Голландия, 1997). на российско-финском фонетическом семинаре (Хельсинки, 1997; Санкт-Петербург, 1998; Ювяскюля, Финляндия, 1999), на Герцеяовсккх чтениях (Санкт-Петербург, 1997), на международных конференциях "Текст, речь, диалог" (Брно, Чехия, 1998; Марианске Лазне, Чехия, 1999), на Международной конференции "Фонетика сегодня: актуальные проблемы и университетское образование" (Звенигород, 1998), на заседаниях кафедры фонетики и методики преподавания иностранных языков, на Межвузовских конференциях преподавателей и аспирантов филологического факультета СПбГУ (на протяжении последних 10 лет). По теме доклада опубликовано 25 работ, общим объемом около 21 п. л.
В состав речевых технологий входят следующие направления исследований: разработка систем автоматического распознавания и синтеза речи, формирование корпусов речевых данных (акустических баз данных), автоматическая обработка речевого сигнала (выделение частоты основного тона, определение траекторий движения формант, автоматическая сегментация и т.д.), идентификация и верификация человека по голосу, разработка методов сжатия речевого сигнала для его передачи по каналам связи и т.д. Поскольку все исследования и прикладные задачи, решаемые на их основе, имеют дело с речевым сигналом, то те знания, которые получены в фонетических исследованиях, могут и должны быть использованы. Эффективность решения указанных прикладных задач непосредственно определяется полнотой использования фонетических сведений, полученных при изучении свойств естественной речи. Более того, решение прикладных задач в области речевых технологий должно учитывать и те требования, которые определяются фонетистами и учитывают необходимое качество исходных и обработанных сигналов, соответствие методов обработки, хранения и передачи оцифрованного материала потребностям дальнейшего его использования как в прикладных, так и исследовательских целях. В докладе приводится описание того, каким образом фонетические знания и требования используются при решении исследовательских и прикладных задач на кафедре фонетики Санкт-Петербургского государственного университета. В решении этих задач автор принимал участие в качестве руководителя научного коллектива или ответственного исполнителя.
1, Цифровая обработка речевого сигнала
Аналоговый по своей природе естественный речевой сигнал может быть представлен в виде значений амплитуды в заданные периоды времени, то есть, в виде последовательности чисел. Такая форма представления сигнала позволяет использовать для его обработки возможности вычислительной техники, которая как раз и создана для работ ь: с числами. Одним из преимуществ такой формы представления речевого сигнала (другие будут описаны ниже) является возможность создания любого количества копий, абсолютно совпадающих по качеству с оригиналом, и сохранение качества сигнала вне зависимости от времени его хранения. Принципиальным недостатком такой формы представления сигнала является его дискретность по отношению к непрерывному по природе речевому сигналу. Однако это противоречие неразрешимо только на первый взгляд. Во-первых, непрерывность речевого сигнала описывает только физическую его форму, в сознании говорящего и слушающего этот сигнал представляет собой последовательность языковых единиц: предложений, слов, фонем; и в этом смысле противоречие непрерывность/дискретность и так существует в виде непрерывности процесса артикуляции, непрерывности изменения физических характеристик сигнала, размытости границ языковых единиц и дискретности; единиц описания сигнала - предложений, слов и фонем (аллофонов). Во-вторых, непрерывность его физического существования представляет собой некоторую условность: аналоговые средства хранения (фиксации) и передачи речевого сигнала также дискретны по своей природе - точность передачи аналоговой формы определяется материалом, используемым для его фиксации. Виниловая пластинка, магнитофонная пленка воспроизводят аналоговую природу сигнала с точностью, определяемой физическими размерами гранул магнитного слоя магнитофонной пленки или материала, из которого изготовлена грампластинка.
1.1. Возможности цифровой обработки
На вход звуковой карты компьютера (аналого-цифрового преобразователя -АЦП) поступает речевой сигнал в аналоговой форме. Сигнал может поступить от микрофона, с выхода магнитофона, из телефонной линии, что определяет его физические характеристики - соотношение сигнал/шум и частотный диапазон.
С помощью звуковой карты производится аналого-цифровое преобразование сигнала, то есть из аналогового сигнал преобразуется в дискретный, представленный в виде последовательности числовых значений его амплитуды во времени. Период времени, за который указывается амплитуда сигнала, задается частотой дискретизации.
Представление речевого сигнала в цифровой форме открывает широкие перспективы его анализа и обработки. Современные средства компьютерного анализа звуковых сигналов показывают осциллограмму или сонаграмму звукового сигнала на экране в виде статичного изображения, позволяют просматривать сигнал, передвигаясь от его начала к концу или от конца к началу, а также многократно прослушивать как весь сигнал, так и любой его фрагмент. При выделении фрагмента сигнала современная технология предоставляет возможность установить его границы с немыслимой прежде физической точностью - до 1/44000 сек. Этот выделенный фрагмент можно не только прослушать, но и удалить, переместить на другое место или вставить в другой звуковой сигнал, а также модифицировать его физические характеристики.
1.2. Особенности фонетических задач и способы их решения.
1. 2.1. Формат представления, звукового сигнала.
Выбор формата представления и частоты дискретизации определяется, с одной стороны, фонетическим качеством исходного сигнала (в первую очередь, его частотным диапазоном) и, с другой стороны, задачами его дальнейшего использования и обработки.
Традиционные форматы представления данных, на которые, как правило, указывает тип расширения файла: wav, raw, sig, au и т.д., хорошо сохраняют качество речевого сигнала при правильном выборе разрешения и частоты дискретизации. Разрешение сигнала определяется характеристиками звуковой карты. 16-разрядные карты позволяют использовать 65536 значений для описания амплитуды сигнала, что позволяет достаточно точно описать характер изменения амплитуды сигнала во времени и обеспечиваег хорошее соотношение сигнал/шум квантования. Выбор частоты дискретизации непосредственно связан с частотным диапазоном сигнала. По теореме Котельникова 1 сек
2f„ частота дискретизации должна быть в два раза выше верхней границы частотного диапазона сигнала (Сапожков, 1963: 9)'. Для сохранения всех полезных признаков речевого сигнала достаточно частоты дискретизации от 16 до 20 кГц. Пои исследовании просодических явлений часто используется частота дискретизации 8 кГц: на акустические корреляты мелодических характеристик, которые реализуются я самой нижней области спектра, а также на представление амплитудных временных характеристик такое значение оказать влияние не может, а физический объем материала на жестком диске сокращается в 2 - 2.5 раза. Стандартные значения частоты дискретизации в сигналах формата WAVE (расширение wav) составляют 44 кГц (для записи музыки), 22 кГц (для высококаче
1 В западной литературе принято использовать термин частота Найквиста (Nyquist frequency), который означает максимальную частоту, которая может быть обеспечена в цифровом сигнале при заданной частоте дискретизации и составляет половину частоты дискретизации (Johnson, 1997: 25). ственной записи речи) и 11 кГц (для более низкого качества записи, экономящего дисковое пространство). В исследованиях, связанных с передачей речи по каналам связи, используются частоты дискретизации 8 (для записи речи в частотном диапазоне телефонной линии) и 16 кГц.
Новые форматы - mpeg (layer 1, 2, 3), Real Audio, используют сжатие сигнала, что неминуемо приводит к его искажению. Степень искажения и влияние компрессии на фонетическое качество сигнала, прежде всего, на сохранение в нем всех акустических характеристик, отвечающих как за передачу дифференциальных признаков фонем, так и за его перцептивную естественность, пока в достаточной мере не исследованы. На кафедре фонетики, совместно с Междисциплинарным центром дополнительного профессионального образования СПбГУ планируются специальные исследования различных методов компрессии речевых сигналов с целью определения, какие из них обеспечивают максимальное сохранение полезных акустических признаков речевых сигналов при передаче по каналам связи. Особое внимание будет уделяться таким форматам цифрового представления сильно зашумленных архивных звукозаписей, которые позволят в дальнейшем производить их очистку от шума. Существующие стандарты, разрабатываемые Международным консультативным комитетом по телефонии и телеграфии (ICCTT), определяют в первую очередь требования к разборчивости сигнала, передаваемого по каналам связи. Наша задача состоит в определении того формата записи сигнала и способа компрессии, которые в максимальной степени сохраняли бы его фонетическое качество.
Опыт и методика такого сравнительного анализа на кафедре фонетики уже имеется: в 1990 году была произведена сравнительная оценка различных алгоритмов компрессии, разработанных в трех организациях Санкт-Петербурга. По критериям разборчивости, естественности, сохранения полезных свойств речевого сигнала и коэффициенту сжатия лучшей была признана технология компрессии, разработанная в Центре цифровой обработки сигналов СПбГУТ им. Бонч-Бруевича. В дальнейшем эта технология была использована при создании Звукового словаря русской частотной лексики (Ромашкин, Скрелин, 1990).
Цифровая обработка сигналов предоставляет широкие возможности для анализа речевых сигналов. Фактически, персональный компьютер с пакетом программ для анализа и обработки сигналов представляет собой компактную лабораторию для исследования звуковых сигналов. Но для того, чтобы эта лаборатория стала фонетической, необходимо включить в нее дополнительные функции, связанные со спецификой речевых сигналов и с решением фонетических, то есть лингвистических задач. Рассмотрим некоторые из фонетических требований и способы их удовлетворения в программах обработки речевых сигналов, в создании которых участвовали фонетисты.
1.2.2. Представление сигнала во временной области (•осциллограмма). При работе с осциллограммой фонетисту, как правило, требуется не просто выделить фрагмент сигнала, но и установить, указать и сохранить границы этого фрагмента. Установка меток (по-английски - labeling) может применяться для указания как границ лингвистических единиц от отдельного звука или паузы до фразы, так и других акустических явлений - периодов основного тона, переходных процессов между звуками, взрывов смычных согласных, импульсных помех и т.д. В некоторых программах адреса меток записывались непосредственно з файл с сигналом, в специально выделенную область. Для решения фонетических задач такое технологическое решение абсолютно неприемлемо, поскольку часто именно адреса меток, сопровождаемые некоторыми физическими параметрами, описывающими фрагмент сигнала между соседними метками,.и являются целью фонетического анализа данного сигнала. Например, сегментация сигнала на периоды основного тона, выраженная с помощью меток на их границах, позволяет получить кривую изменения частоты основного тона. Именно эта кривая и является целью сегментации, при этом, сам сигнал в дальнейшем может и не потребоваться, если адреса меток записаны в отдельный файл и в таком формате, который может быть обработан специальными или стандартными програм-мймй типа MS Excel
В программе EDS, разработанной специалистами СПбГУТ им. Бонч-Бруевича с учетом пожеланий сотрудников кафедры фонетики, файл-дескриптор цифрового сигнала представляет собой обычный текстовый файл. В версии EDS для среды DOS его структура воспроизводила структуру SEG-файла пакета SONА (Книпшилд, 1988), в версии EDS для среды WINDOWS'95 его структура изменилась, что не затронуло содержащуюся в нем информацию. На Рис. 1 приведена новая структура файла-дескриптора.
SegFilel FileLen=224 64 FileName=Z. sbl Cod=16000,2,0 MarkNum=ll Nhistory=2
Markers]
4, " z ", 7494,1 *0 0.25ms T=109.813ms F=9Hz
1761, "d", 4857,1 *1 110 063ms T=51.375ms - F=19Hz
2583, "гл. вставка",7816,1 -2 161 438ms T=15.625ms F=64Hz
2833, " Г ", 5381,1 *3 177 063ms T=23.1875ms F=4 3Hz
3204, "а", 5228,1 *4 200 25ms T=83ms F—12Hz
4532, " s ", 929,1 *5 283 25ms T=40.625ms F=24Hz
5182, "t". 4 57,1 *6 323 87 5ms T=73.9375ms F=13Hz
6365, "и". 5721,1 *7 397 813ms T=57.0625ms F=17Hz
7278, "j", 4351,1 *8 454 875ms T=23.6875ms F=42Hz
7 657, "t", 1168,1 *9 478 563ms T=110.688ms F=9Hz
9428, "е", 4383,1 ПО 589 25ms T=113ms E-lHz
History] Ускорение Темпа Вставка паузы 10 ыс
Рис. 1. Структура SEO-файла в EDS для WINDOWS В содержание файла-дескриптора входит следующая информация:
- физический объем звукового файла, дескриптором которого является данный SEG-файл (FileLen);
- название звукового файла (FileName);
- частота дискретизации и формат звукового файла (Cod);
- количество меток в сигнале (Ma г kN um);
- количество записей в протоколе обработки сигнала (Nhistory).
В колонках (Markers) приводится информация о фрагменте сигнала между данной меткой и последующей (по колонкам):
1 J .. . ,„ .■.„■. I .-,V.7.W .-. -.еа-пгг-.
1. i Uivlijiii, iia 1VV t yio.i, .> о. уд.
2. Имя метки-до 128 символов:
3. Показатель энергии фрагмента в условных единицах;
4. Тип метки (сейчас возможны чегыре типа меток, обозначаемые цифрами 1, 2,4, 8, их назначение определяет пользователь);
5. Порядковый номер метки;
6. Длительность сигнала от начала до метки;
7. Длительность фрагмента сигнала между данной меткой и следующей;
8. Частота основного тона, которая полезна в том случае, если метки установлены на границах периодов основного тона. ш
В строках (History) приводится протокол обработки звукового файла: последовательность действий, которые производил пользователь при работе с данным звуковым файлом.
Как видно из рис. 1, полезные физические параметры фрагментов речевого сигнала организованы в колонки, что позволяет легко обрабатывать данные не только теми средствами, которые входят в пакет EDS, но также их конвертировать в другие стандартные пакеты, типа MS Access и MS Excel. Для обработки SEG-файла этими программами в EDS встроен конвертер, который позволяет представить SEG-файл в более удобном для обработки виде (без заголовков и с разделением колонок специальными символами-разделителями).
Новые задачи экспериментально-фонетических исследований требуют усовершенствования как средств разметки звукового сигнала, так и структуры дескриптора. С помощью четырех типов меток в сигнале могут быть указаны границы языковых единиц разных уровней - слогов, слов, синтагм и фра:), с сохранением границ периодов основного тона. Для облегчения использования информации о границах языковых единиц разных уровней эта информация теперь организована в отдельные массивы: в первом - адреса границ периодов основного тона, во втором - адреса границ слогов, в третьем - адреса границ слов, в четвертом - адреса границ синтагм.
1.2.3. С.в?МсНтйЦИЯp£4€SO?.G
Указанная выше точность, с которой можно теперь установить границу (внутри сигнала), нисколько не помогает установить эту границу между сегментами речевого потока, представляющими собой реализации аллофонов тех фонем, которые формируют языковые знаки, использованные в акте коммуникации. Это объясняется тем, что Физические явления, которые мы можем наблюдать и измерять с помощью компьютера, являются следствием непрерывной череды артикуляционных движений, в которых проявляются как предвосхищение, так и задержка артикуляции. Эта традиционная и актуальная проблема экспериментальной фонетики - проблема противоречия между непрерывностью (недискретностью) речевого потока и дискретностью его фонетического и фонологического описания (см. напр., Зиндер, 1979: 36) - может быть рассмотрена и частично решена при систематическом сопоставлении физических границ с характером звучания соответствующих отрезков речевого сигнала. Такие работы постоянно ведутся на кафедре фонетики. Одним из результатов этих работ стала методика "ручной" сегментации речевого сигнала на фрагменты, равные физическим реализациям аллофонов (Скрелин, 1999). Главные принципы ручной сегментации - слуховой контроль, единообразное с формальной точки: зрения отнесение фрагментов переходных участков к тому или иному звуку, выбор границы звуков в точке пересечения "нулевой" линии по направлению в положительную область осциллограммы и т.н. - сформулированы на основе опыта практической сегментации, приобретенного за последние 10 лет при решении различных исследовательских и прикладных задач. Естественно, что при сегментации анализ сигнала в частотной области (анализ сонаграмм) часто имеет решающее значение при выборе места границы между звуками, но учитывая относительную неточность локализации того или иною акустического явления на сонаграмме, которая связана со способами вычисления спектра, окончательный выбор границы должен проводиться только по осциллограмме.
В настоящее время накопленного опыта и материала достаточно для разработки алгоритмов автоматической сегментации речевого сигнала на звуки.
Надо отметить, что в разных странах мира этой проблемой занимаются многочисленные научные коллективы и получены обнадеживающие результаты (Boeffard-Dosierre, 1993; Kipp et al„ 1997; Nunes et al., 1998; Dobrisek et al., 1997). Правда, как правило, процедура автоматической сегментации применяется для решения практической задачи создания корпуса звуковых элементов для систем дифонного синтеза речи. Поскольку высокая точность сегментации в этом случае не имеет решающего значения, то точность указания границ звуков в пределах ±10 мсек оказывается вполне приемлемой. Для построения систем аллофон-ного синтеза речи требуется максимально точное указание грлниц звуков, ¡ю-этому вероятностные методы их определения, основанные на использовании скрытых Марковских моделей, здесь непригодны.
Фонетические (исследовательские) задачи, для решения которых может быть полезной автоматическая сегментация речевого сигнала, связаны с получением сведений об акустических характеристиках физических реализаций аллофонов на большом по объему звуковом материале. Поскольку явления коартикуляции, в значительной степени определяющие акустические характеристики звуков, в первую очередь затрагивают пограничные области между звуками, то от точного указания их границ во многом зависит и интерпретация выявленных акустических явлений. В последние годы в связи с развитием компьютерной техники и программных средств обычными становятся объемы обработанного речевого материала, измеряемые часами звучания. Естественно, что обработка таких массивов материала в достаточно короткие сроки становится возможной только с использованием автоматических средств анализа речевого сигнала, среди которых автоматическая сегментация занимает одно из ведущих мест.
В качестве основы разрабатываемых на кафедре фонетики средств автоматической сегментации речевого сигнала на языковые единицы использовалось положение о том, что успешная сегментация речевого сигнала возможна только при наличии его более или менее подробного транскрипционого описания. Это транскрипционное описание может быть подучено разными способами, но обычно при обработке большого объема звукового материала используются два способа:
1. Сам звуковой материал представляет чтение разными дикторами стандартного материала - текста, списка слов или фраз. В этом случае его идеальный состав фонем или аллофонов неизменен, и транскрипция материала может быть произведена лишь один раз.
2. Транскрипция звукового материала производится автоматически. В последние годы появились системы автоматической транскрипции звучащего текста, использующие возможности автоматического распознавания речи (см., напр., Gauvin et al., 1997; Mokbel, Jouvet, 1997; Kubala et al., 1997). Такая технология опирается прежде всего на акустические параметры речевого сигнала. Получе-ные при анализе данные о потенциальной принадлежности фрагмента (10 мс) сигнала к той или иной фонеме на следующем этапе обработки подвергаются формальной фонологической интерпретации, которая выполняется автоматически с использованием вероятностных моделей (Fetter et al., 1997.
Для проведения автоматической сегментации речевого сигнала на звуки, последовательность которых указана в транскрипции, можно использовать различные способы. Обычно в этих целях используется анализ сигн&иа в частотной области, но в самое последнее время появились смешанные методы анализа, обрабатывающие сигнал параллельно в частотной и временной областях, учитывающие обобщенные физические характеристики разных категорий звуков (Micallef, Chilton, 1997).
Мы предлагаем проводить сопоставление реальных акустических характеристик речевого потока с идеальными, полученными путем вычисления акустических характеристик, которые каждый аллофон может получить в речи при физической реализации (Skrelin et al., 1998). В построении такой модели учитываются как собственные спектральные характеристики аллофона в данном фонетическом контексте и в данной ритмической и фразовой позиции, так и, в зависимости от способа получения транскрипции, его реальная или возможная в этих условиях длительность. Исходные данные для формирования модели получены на основе анализа спектральных характеристик 3000 русских аллофонов гласных, реализованных во всех возможных ритмических позициях и в основных фонетических контекстах. Сопоставление модели и реальной речевой последовательности может способствовать уточнению и автоматической транскрипции, а также заполнению лакун, которые часто появляются на современном этапе развития автоматического транскрибирования. Эти лакуны и неточности отражают недостаточность наших знаний о действительных акустических коррелятах единиц разных уровней, они могут появляться в результате наложения сегментных и супрасегментных свойств друг ка друга, вызываться сильной вариативностью акустических характеристик при реализации языковых единиц. Конечно, предлагаемый нами способ преодоления этих объективных трудностей распознавания отличается от процедур, действующих в естественном речевом процессе у человека, однако он представляется нам все же более антропоморфным, чем ставшие уже традиционными вероятностные модели.
При решении фонетических задач речевой сигнал может быть рассегменти-рован одновременно на языковые единицы разных уровней - от звука до синтагмы или фразы. Для различения выделенных метками фрагментов сигнала мы используем два типа меток, которые на экране различаются цветом и могут выполнять разные функции. Например, при организации сегментированного речевого материала в акустическую базу данных мы используем первый тип меток (зеленые) для указания границ синтагм и фраз, а второй (синие) - для указания границ фонетических слов. Кроме того, разработанные с нашим участием программные средства позволяют при обработке сигнала учитывать название меток, что может быть полезно при сегментации сигнала как на языковые единицы (звуки, слоги, слова, синтагмы, фразы), так и на вспомогательные элементы (периоды основного тона, переходные участки).
Одной из важных задач при анализе фонетических характеристик речевого сигнала является выделение частоты основного тона. Если раньше для решения прикладных задач в области передачи сигнала по каналам связи или в области разработки систем автоматического синтеза и распознавания речи точность выделения частоты основного тона не имела решающего значения, то сейчас успешное решение подобных прикладных задач, например, при создании систем компилятивного синтеза речи, во многом определяется именно точностью. Подтверждением этому может служить как наш опыт создания таких систем, так и зарубежные исследования (см. напр., Gigi, Vögten, 1997).
Выделение частоты основного тона может производиться автоматически или с помощью ручной сегментации речевого сигнала на периоды основного тона. Многочисленные алгоритмы автоматического выделения частоты основного тона, построенные на анализе сигнала во временной (выделение "по пикам") или частотной (КЛП, кепстральный анализ) областях, обеспечивают точность порядка 95%. Ручная сегментация позволяет определять границы периодов основного тона абсолютно точно, но часто за счет нарушения формальных признаков этих границ. На рис. 2 приведена осциллограмма фрагмента слога /p'i/.в изолированном прочтении нормативным диктором-мужчиной. Метки сегментации показывают границы периодов основного тона, поставленные в соответствии с формальным принципом указания границ на переходе нулевой линии в положительную область. м л». / "4^. .i Г г IT ; Л я : ^ Лл^д^"
1.!.
0. 144 0. И6 0,149 0.151 0.154 0.15« 0.153 0.1S1 0.164 0,166 0.163 t. С
Рис. 2. Осциллограмма фрагмента слога /p*i/
Частота первого из представленных на рисунке периодов основного тона составляет 149 Гц, второго - 147 Гц, третьего - 139 Гц, четвертого - 145 Гц (в дальнейшем частота основного тона понижается). Поскольку слуховой анализ не отмечает сколько-нибудь заметного перепада частоты основного тона, то изменение длительности третьего и четвертого периодов следует отнести к неточности определения границ периодов. Анализ осциллограммы свидетельствует о том, что следуя принципу единообразия, правую границу третьего периода нужно сместить примерно на пол миллисекунды в сторону начала периода, то есть к началу микропика, по которому были установлены границы в предшествующих периодах (эта точка указана стрелкой). Однако этот микропик теперь целиком находится в отрицательной области, что противоречит указанному выше формальному принципу. Такая же ситуация и с правой границей четвертого периода.
Если цель сегментации состоит в точном определении длительностей периодов основного тона, то нарушение формального принципа вполне допустимо. При переносе границ периодов в точки, обозначенные на рисунке стрелками, мы получим следующие значения частоты основного тона в приведенном фрагменте речевого сигнала; первый период -149 Гц, второй - 147 Гц, третий - 144 Гц, четвертый - 144 Гц. Если же на основе проведенной сегментации будет производиться модификация физических параметров речевого сигнала, как этого требует технология компилятивного синтеза речи, то установленные по принпй'тс единообразия границы, обеспечивающие максимальную точность выделения периодов основного тона, должны удовлетворять и формальному принципу, от которого зависит успешность работы процедур модификации. Это противоречие было преодолено с помощью разработанной нами методики щадящей микромодификации сигнала во временной области. При небольшом отклонении микрофрагмента сигнала от нулевой линии применяется по-битное ручное редактирование2, при более существенном - смещение нужного фрагмента сигнала в положительную или отрицательную область.
Единственным недостатком ручного выделения частоты основного тона является его трудоемкость. Однако, в большинстве случаев в фонетических иссле
2 Более подробно техника по-битного ручного редактирования описана в (Скрелин, 1998: 28-34). Необходимо пояснить, что описанная там техника позволяет не только добавлять и удалять отсчеты, но и менять их амплитуду.
I6 дованиях, проводимых на большом по объему речевом материале, этот недостаток перевешивает все его достоинства. По нашему мнению, единственным средством совместить преимущества автоматического и ручного выделения частоты основного тона и преодолеть их недостатки, является предоставление возможности пользователю-фонетисту вручную исправлять ошибки автоматического выделения. Для этого необходимо, чтобы автоматический выделитель не только показывал результат своей работы на экране компьютера, но по результату своей работы производил сегментацию сигнала на периоды основного тона. Тогда пользователь смог бы, во-первых, удостовериться, что выделение частоты основного тона в том или ином фрагменте сигнала было сделано правильно, и, во-вторых, вручную исправить ошибки автоматического выделения. Поскольку, как указывалось выше, хорошие выделители обеспечивают точность на уровне 95%, то достижение максимальной точности не потребует больших затрат ручного труда. Те программные средства обработки речевого сигнала, которые разрабатываются с участием сотрудников кафедры фонетики, предусматривают такую возможность.
При сегментации речевого сигнала на периоды основного тойа появляется возможность вычислить и записать в файл-дескриптор значение амплитуды сигнала в каждом периоде. Поскольку расчет представления амплитуды является простой математической операцией, то способ расчета может определяться са
Д1 г ПРПГИТТ-И/т* С ¡1." ТГГ'1("1!Т1\/[/Л "IV ПЯРИРТЯ ЧНРПГНН" шт. . IV.!. .V.;,., , . . ,. . -Г"-' у-; -'.) I------ —--г* где N-. количество отсчетов в сигнале, х(п) - амплитуда каждого отсчета.
Полученные значения позволяют строить график изменения энергии сигнала во времени, который можно соотносить с графиком изменения частоты основного тона. Как уже говорилось выше, данные, записанные в дескриптор, могут обрабатываться и другими программами.
1.2.4. Представление сигнала в частотной области.
Спектральные характеристики речевого сигнала обычно вычисляются с использованием алгоритмов быстрого преобразования Фурье (БПФ, FFT) или коэффициентов линейного предсказания (ЮТП, LPC) и их вариантов. Оба метода обеспечивают достаточную точность представления акустических характеристик речевого сигнала и широко используются в фонетическом анализе. Однако на современном этапе развития фонетических исследований становятся акту-альными-новые задачи. Для решения этих задач уже недостаточно точного вычисления спектральных характеристик сигнала, необходимо, во-первых, проводить их некоторую автоматическую интерпретацию (выделять траектории движения формант, отделяя форманты от гармоник, указывать вероятные границы звуков), во-вторых, позволять целенаправленное воздействие на те или иные спектральные области, меняющее перцептивное качество сигнала (частоту основного тона, положение и направление движения формант, индивидуальные тембральные характеристики и т.д.).
В наиболее эффективных системах выделения траекторий движения формант наряду с анализом спектра сигнала используется методика скрытых Марковских моделей, позволяющая сглаживать неравномерности выделенной траектории (По1тез е1 а!., 1997). Для наших экспериментов автоматическое выделение формант служит решению трех основных задач:
- для автоматического заполнения базы данных акустических характеристик аллофонов гласных. Эта база данных используется для построения описанной выше идеальной модели движения формант в речевом сигнале, представленном в виде последовательности транскрипционных знаков;
- для решения практической задачи, связанной с автоматическим определением границы между двумя гласными разного качества, взятыми из разных фонетических контекстов. В результате сегментации в каждой паре должна быть найдена такая точка, которая позволила бы менять любой первый член этой пары из одного левого контекста на первый член этой пары из любого другого левого контекста. Естественно, аналогичные замены должны быть допустимы и для любого второго члена пары. При формировании каждой новой нары переход от одного звука к другому должен быть абсолютно незаметен на слух. Цель такой процедуры - автомагическое выделение звуковых элементов для построения базы данных аллофонного синтеза русской речи;
- для разработки новой системы аудио-морфинга, позволяющей менять положение и траектории движения формант в заранее указанном направлении. В связи с тем, что при решении указанных задач нам потребуется не только точное выделение траекторий движения формант, но и предполагается их целенаправленное изменение, для разработки этих процедур мы используем метод КЛП. Поскольку в результате анализа с помощью КЛП речевой сигнал описывается через некоторое число коэффициентов, изменение сигнала в нужном направление сводится к корректному изменению определенного набора коэффициентов. Отличие разрабатываемой технологии от уже известной (Slaney et al., 1996), а также разработанной нами ранее (Шумара, 1997) заключается в том, что мы предполагаем использовать в качестве параметров для морфинга не физический звук, в сторону параметров которого производится модификация, а его описание в виде нужных физических параметров. Это должно нам позволить не только моделировать и физически реализовывать переходные процессы, но и целенаправленно изменять нслингвистические характеристики звука, например, индивидуальный тембр.
Основной проблемой при использовании КЛП является восстановление естественности речевого сигнала после преобразования. Некоторые способы восстановления естественности уже известны (см. напр., Gigi, Vögten^ 1997), но мы работаем и над новыми.
Одним из традиционных способов обработки сигнала в частотной области является его фильтрация. Практически в любой пакет для обработки звуковых сигналов входят цифровые фильтры, позволяющие производить режекторную и полосовую фильтрацию, устанавливать пропускные характеристики на высоких и низких частотах, определять другие параметры цифрового фильтра. Однако наиболее мощные и гибкие системы цифровой фильтрации требуют сложной для лингвиста установки параметров, которые, кроме того, часто представлены в виде математической формулы, мало о чем говорящей лингвисту. С доугой стороны, большинство фонетических задач, в которых может применяться фильтрация речевого сигнала, не требуют использования мощных многофункциональных цифровых фильтров. По указанным причинам в те программные средства по обработке речевых сигналов, в разработке которых участвовали сотрудники кафедры фонетики, включен цифровой фильтр, выполненный в виде параметрического эквалайзера. Для удобства этот фильтр и графически выполнен как обычный эквалайзер, с помощью которого пользователь может установить нужные ему характеристики с точностью до 2-3 Гц, просто перемещая нарисованные на экране движки. Правда, такое упрощенное решение достигнуто ценой некоторой неточности обработки конечного (5-10 мс) участка сигнала или его -фрагмента,-которая тем меньше, чем больше его продолжительность. Эта неточность может быть легко устранена с помощью обычных средств редактирования.
1.2.5. Фонетические эксперименты.
Средства цифровой обработки речевых сигналов предоставляют широкие возможности для проведения фонетических экспериментов. Описанная выше точность указания границ фрагмента сигнала дала новый стимул для использования такой методики экспериментальных исследований, как вырезки и пересадки фрагментов сигнала. Эта методика впервые получила широкое распространение с появлением специализированной аналоговой техники - магнитофона с вращающимися головками. Но использование компьютерных средств -анализа оцифрованного речевого сигнал существенно упрощает проведение таких экспериментов. Суть этой методики заключается в том, что фрагмент сигнала можно аккуратно вырезать, а можно после этого и пересадить его в другое место как данного сигнала, так и какого-нибудь другого. При соблюдении описанных выше принципов сегментации и при использовании знаний фонетической организации речевого потока новый сигнал может восприниматься как абсолютно естественный. С одной стороны, эта методика уточнила наши знания, например, о пределах толерантности звуков речи, выделенных из одних фонетических контекстов, к другим контекстам (Бондарко и др., 1997). С другой стороны, она обеспечила развитие новой технологии компилятивного синтеза речи аллофоиного синтеза, использующего в качестве исходного инвентаря физические реализации позиционных и комбинаторных аллофонов русских фонем (Skrelin, 1996; Skrelin, 1997).
Недостаточное внимание к сведениям о фонетической (сегментной и супра-сегментной) организации речевого потока часто приводит к нарушениям естественности сконструированного сигнала. Это можно легко заметить на активно распространяющихся образцах макро-синтеза, в которых используются достаточно протяженные фрагменты естественных речевых сигналов - от слова или словосочетания до синтагмы. Макро-синтез используется в объявлениях на железнодорожных вокзалах, в говорящих часах, в игровых программах. Эти нарушения представляют собой (в плохих образцах) недопустимые с точки зрения русской нормы сочетания согласных на стыках слов, нарушения ритмической организации высказывания или (в лучших образцах) неестественное интонационное (мелодическое и темпоральное) оформление.
Новое, появившееся практически только с развитием средств цифровой обработки речевых сигналов, направление экспериментально-фонетических исследований связано с возможностями модификации их физических характеристик.
Возможность изменения амплитуды сигнала предоставлялась и обычными аналоговыми средствами обработки сигнала, и появилась она вместе с разработкой электрических устройств записи и воспроизведения звука. Регулировка амплитуды в этих устройствах до сих пор осуществляется изменением амплитуды электрического сигнала, в простейшем случае - изменением выходного сопротивления. Однако аналоговые устройства, преимуществом которых является высокая линейность характеристик, оказываются весьма инерционными, поэтому простая регулировка амплитуды короткого фрагмента сигнала оказывается невозможной. При цифровой обработке сигнала доступно точное масштабирование как любого сигнала, так и любого фрагмента сигнала.
Аналоговая звуковоспроизводящая техника позволяет изменять и другие характеристики речевого сигнала, но с той же неточностью. Изменение скорости движения ленты на магнитофоне позволяет переводить сигнал в более высокую или более низкую частотную области, увеличивать или уменьшать длительность звукового сигнала. Однако при ее использовании практически невозможно изменить длительность или частоту основного тона в пределах одного звука - изменение, в силу инерционности, неизбежно распространяется и на соседние. Кроме того, при изменении скорости движения ленты вместе с изменением частоты основного тона на ту же величину, линейно, изменяются и положения формант, что ведет к искажению перцептивного качества сигнала. Тем не менее, и до появления в нашем распоряжении средств цифровой обработки сигналов эти методы иногда применялись для решения экспериментальных задач (Скре-лин, 1997).
Цифровая обработка речевого сигнала позволила решить задачи точного изменения частоты основного тона и длительности фрагмента сигнала. Изменение длительности фрагмента речевого сигнала, реализованного без участия голосового источника (глухие согласные, физические паузы), решается достаточно простыми способами. Изменение длительности паузы или смычки у глухих взрывных может быть достигнуто путем добавления участка с нулевой амплитудой для увеличения длительности или удаления части смычки или паузы для ее уменьшения. Изменение длительности шума у щелевых согласных достигается удалением/копированием фрагмента шума (на временной оси) нужной продолжительности. Изменение длительности аффрикат представляет несколько более сложную задачу. Как показали наши эксперименты, изменение продолжительности только смычки или только шума приводит к искажению перцептивного качества звука в исходном фонетическом контексте. Поэтому изменение длительности аффрикат может быть достигнуто пропорциональным изменением продолжительности смычки и шума. Естественно, что при манипуляциях с длительностью глухих согласных недопустимо вторгаться в область взрыва у смычных согласных и в области, соседствующие с окружающими звуками.
Изменение длительности звонких согласных, сонантов и гласных представляет собой более сложную задачу.
Во-первых, единицей измерения длительности звуков, образованных с участием голосового источника, может сложить не только ппододжктельность, измеряемая в секундах (или, что удобнее, в миллисекундах), но и его продолжительность в периодах основной частоты, что определяется внутренней организацией таких звуков. В связи с этим и изменение длительности таких звуков может достигаться только с помощью манипуляций с периодами основной частоты (с помощью удаления или копирования нужного числа периодов).
Во-вторых, на выбор периодов, формирующих гласный звук, с помощью размножения/удаления которых может достигаться изменение его длительности, объективно накладываются дополнительные ограничения: (1) наиболее толерантным для подобных манипуляций является стационарный участок гласного; (2) нежелательно использовать для удаления/размножения соседние периоды, расстояние между удаляемыми/размножаемыми участками должно быть не меньше одного периода; (3) в безударных гласных, часто представляющих со бой сплошной переходный процесс от одной акустической цели к другой, выбор периодов для манипуляций должен быть еще более аккуратным.
В-третьих, на звуках, образованных с участием голосового источника, в первую очередь, на гласных, а часто и на сонантах, происходит изменение частоты основного тона, определяющее мелодическое оформление высказывания. В связи с этим, изменение продолжительности конкретного звука не должно влиять на мелодическое оформление высказывания, либо должно сопровождаться коррекцией мелодического оформления (модификацией частоты основного тона). Последнее обстоятельство приводит к тому, что изменение длительности звуков, как правило, производится вместе с модификацией мелодического оформления высказывания или его части, то есть одновременно с искусственным изменением графика движения частоты основного тона. Однако изменение частоты основного тона означает и изменение длительности периодов основного тона, что естественно приводит к изменению суммарной продолжительности изменяемого фрагмента сигнала. А это, в свою очередь, требует предварительного расчета компромиссных параметров частоты основного тона и суммарной длительности обрабатываемого фрагмента. В системах автоматического синтеза речи этот расчет является обязательным условием обеспечения естественности звучания искусственного речевого потока, но в настоящее время иногда бывает далек от идеала, поскольку длительность модифицируемого звука задается в миллисекундах, а формируется в периодах основной частоты. Поэтому один и тот же звук длительностью 100 мс, сформированный со средней частотой основного тона 50 Гц, будет состоять из 5 периодов основной частоты, а со средней частотой 150 Гц - из 15 периодов. Повышение точности расчета может быть обеспечено проведением специальных экспериментально-фонетических исследований, направленных на выяснение зависимости "собственной53 (измеряемой в периодах основной частоты) длительности звуков и абсолютной (измеряемой в миллисекундах) от их мелодического оформления.
Наиболее сложной из задач модификации физических параметров речевого сигнала является искусственное изменение частоты основного тона. Это связано с тем, что частота основного тона определяется во временнуй области реализации сигнала длительностью периодов основной частоты, но отражается и в его частотном представлении. Непременным условием использования модификации частоты основного тона в фонетических экспериментах и в разработке высококачественных систем автоматического синтеза речи является обеспечение абсолютного сохранения его перцептивного качества и естественности. На удовлетворение этого-условия направлены усилия многочисленных научных коллективов всего мира. С фонетической точки зрения, проблема заключается в том, что естественное изменение частоты основного тона, как правило, не затрагивает положения формант, отвечающих за лингвистическую интерпретацию гласного, но определенным образом отражается в некоторых гармониках, связанных с индивидуальным тембром голоса, и изменяет положение остальных гармоник. Изменение только частоты основного тона с сохранением всех остальных компонентов спектра на прежних местах может создавать ощущение неестественности сигнала.
В настоящее время для модификации частоты основного тона применяются различные методики. На первый взгляд, самым простым способом изменения частоты основного тона представляется ее изменение в частотной области с использованием либо обратного преобразования Фурье, либо с помощью КЛП. Однако обратное преобразование Фурье вносит фазовые искажения в сигнал, что проявляется не только в его неестественности, но часто и в искажении его перцептивных характеристик. Для восстановления всех фазовых соотношений требуются специальные средства, которые достаточно трудоемки, существенно замедляют работу системы к не во всех случаях гарантируют качество результирующего сигнала. Использование КЛП, как уже говорилось выше, требует разработки специальных средств даже для качественного восстановления исходного сигнала, не говоря уже о модифицированном. Тем не менее, простота этого метода привела к его относительно широкому распространению в простых системах синтеза речи.
Обработка сигнала во временнуй области освобождает от необходимости контролировать фазовые характеристики частотных компонентов. Наиболее простым способом изменения частоты основного топа является изменение длительности периода основной частоты путем добавления в него отсчетов с нулевой амплитудой для понижения частоты основного тона или удаления фрагмента периода для ее повышения (метод Ш-апй-аНсё). Завершение периода основного тона оказывается наиболее толерантным к таким воздействиям (Скрелин,
1999). Недостатком этого метода является, во-первых, появление искажений и шумов в модифицированном сигнале при изменении частоты основного тона на величину более 10-15% от исходной, во-вторых, частое несоответствие физической длительности периодов воспринимаемой частоте основного тона и появление искажений при понижении частоты основного тона.
Наиболее распространенной в системах синтеза речи и в профессиональных системах цифровой обработки речевых сигналов в настоящее время является технология TD-PSOLA (Time-Domain Pitch-Synchronous-Overlap-and-Add), которая использует оконный режим обработки сигнала во временной области и строится на точном выделении периодов основного тона (Moulines, Charpentier, 1990). Эта технология обеспечивает высокое качество модификации частоты основного тона и позволяет одновременно модифицировать длительность гласных, звонких согласных и сонантов путем удаления/размножения периодов основной частоты. Однако, обеспечивая сохранение фонетических характеристик звукового сигнала, эта технология искажает индивидуальный тембр голоса, а модифицированный сигнал звучит несколько неестественно.
В наших средствах модификации частоты основного тона также используется принцип оконной обработки речевого сигнала во временной области, сходный с PSOLA (Криттоп, 1997). Отличие его состоит в размерах окна для обработки (один период вместо двух) и иная трактовка начала/конца периода (нулевая линия вместо амплитудного пика). Кроме того, для обработки звонких щелевых согласных используется более сложный алгоритм, чем для гласных и остальных звонких согласных и сонантов. В результате более строгого и фонетически более адекватного подхода к построению алгоритмов модификации частоты основного тона обеспечивается лучшее сохранение индивидуальных характеристик голоса и несколько большее приближение модифицированного сигнала к естественному.
Исследование возможностей модификации сигнала во временнуй области показало перспективность и других подходов к решению такой задачи. Сравнение фрагментов речевых сигналов одинакового фонемного состава, но реализованных на разной частоте основного тона показало, что в структуре периода основной частоты есть участки, изменение продолжительности которых приводит к изменению частоты основного тона, но не затрагивает положения формант
Скрелин, 1999). Обработка этих участков с использованием алгоритмов передискретизации (resampling), как правило, дает устойчиво хороший результат при величине изменений до 20-30 % от исходной величины. Естественным выводом из этих экспериментов оказалось то, что к гораздо более высокому качеству модификации приводит удаление из исходного периода основной частоты части или даже всего указанного участка, чем добавление в него добавочной информации. То есть повышение частоты основного тона этим способом до уровня 50% от исходной, как правило, не приводит к заметным искажениям сигнала, а ее понижение более чем на 30 % порождает дополнительные шумы. Это обстоятельство стимулировало эксперименты по поиску новых средств понижения частоты основного тона, не ухудшающих качества исходного сигнала (Скрелин, 1999), На сегодняшний день получены доказательства того, что ступенчатое изменение амплитуды четных периодов основной частоты приводит к восприятию двукратного понижения частоты основного тона сигнала. Интересно отметить, что примеры ступенчатого изменения частоты основного тона в последнее время были обнаружены в естественных речевых сигналах. Эксперименты с высоким женским голосом показали, что коэффициент изменения зависит от фонемной принадлежности звука, так (в среднем) для /а/. Л/, /е/ этот коэффициент составляет 3, для /о/ - 3.3, для /и/ - 1.3, для Л/ - 2.5. Заметные искажения при таком методе изменения частоты основного тона отмечены у /о/, но возможно, это шем планируется сочетать этот метод двукратного понижения частоты основного тона с передискретизацией ослабленного периода основной частоты для достижения точного значения длительности периода и, следовательно, частоты его основного тона.
1.2.6. Эксперименты по восприятию.
В экспериментах по слуховой интерпретации звуков речи (Кузнецов, 1997) возможность точного выделения границ фрагмента речевого сигнала используется для слухового анализа, исключающего влияние на восприятие фонетического контекста.
Возможности модификации физических параметров фрагментов речевого сигнала позволяют оценить степень их суммарного или дифференцированного воздействия на слуховую оценку и интерпретацию тех или иных фонетических "яшюнййгНапример, изменение длительности паузы во фразе естественного диалога, произнесенного одним диктором, приводит к "разделению источников", в результате чего появляется ощущение разделения фразы на реплики, произнесенные разными дикторами (Саппок, 1997). Появление средств модификации частоты основного гона и длительности звука положило начало новому методу экспериментальных исследований - методу ресинтеза. Суть его заключается в том, некоторые характеристики физического речевого сигнала (сегментные или супрасегментные) подвергаются физической модификации, и полученный измененный сигнал подвергается аудиторскому анализу. Затем результаты аудиторского анализа модифицированного и естественного сигналов сопоставляются. Во-первых, этим способом можно определить, какие физические характеристики речевого сигнала и в каком направлении нужно изменить, чтобы получить нужную аудиторскую оценку. Во-вторых, уточнить, в каких пределах изменения физических параметров сигнала не приводят к изменению аудиторской оценки. В-третьих, это позволяет отделить существенные физические характеристики сигнала от несущественных с точки зрения их воздействия на восприятие исследуемого фонетического явления. Такие эксперименты, например, позволили получить новые сведения об интонационной системе русского языка (Ode, 1989), о существенных для восприятия мелодического контура акустических varii)b"rAnTjoTTjL"iiv HPL'i-чАГА гигиягтя ЛЪппттмнГй*яа РягтпЛК* 1 QQO1 лб ЯКУГТИЧР.Р.ТШХ ui/uiMvfiHvi.»«., ~ . .ч у. —-----------,----„-----j - ■ --------признаках вокализации согласных (Скрелин, 1999) и т.д.
В настоящее время на кафедре фонетики метод ресинтеза используется в экспериментах по изучению взаимодействия сегментного состава высказывания и его мелодического оформления (Вольская и др., 1997; Volskaya, 1999). Для привлечения к таким экспериментам более широкого круга исследователей в те программные средства, с которыми работают сотрудники кафедры, встраиваются различные алгоритмы модификации частоты основного тона и длительности звуков речи и разрабатывается специальный интерфейс, облегчающий работу с этими алгоритмами.
2. Базы данных речевых сигналов
Любое лингвистическое исследование, решение любой прикладной задачи, в той или-иной степени связанной с языком, всегда опираются на языковой материал. В широком смысле этого слова, языковой материал представляет собой ". совокупность всего говоримого и понимаемого в определенной конкретной обстановке в ту или другую эпоху жизни данной общественной группы" (Щерба, 1974: 26). Конечно, никаким исследованием невозможно охватить весь бесконечный по объему и постоянно пополняемый языковой материал, поэтому любой исследователь вынужден ограничиваться изучением его небольшого фрагмента. При формировании исследовательского корпуса можно руководствоваться различными принципами, но при том непременном условии, что полученный материал будет обладать необходимой представительностью, то есть корректно отражать все закономерности функционирования системы данного языка.
Проведение фонетических исследований часто опирается на запись фонетически сбалансированного речевого материала, воспроизводящего на относительно небольшом тексте все закономерности реализации фонетической системы языка. Представительность речевого материала учитывается и при формировании корпусов речевых данных для решения прикладных задач. Одним из методов определения представительности материала для исследования является расчет частоты встречаемости слогов. Тйк, в одном из первых подобных исследований (Елкина, Загоруйко, 1970: 302-303) на текстах объемом 111000 слогов было обнаружено 1139 различных открытых слогов, встретившихся 5 и более раз. что составило 95,44% от общего числа слогов. Таким образом, на экспериментальном тексте, составленном из этих слогов, можно наблюдать особенности реализации фонетической системы русского языка. В последнее время на кафедре фонетики были получены новые данные по частоте встречаемости русских открытых слогов. В рамках проекта "Сегментация слитной речи как модель взаимодействия уровней языковой системы'" (поддержанного грантом РФФИ 9806-80431) был проанализирован фонемный состав открытых слогов всех словоформ словаря примерно на 110000 лексем. Общее количество слогов (без учета редукции) составило 3256, что дало более 18 миллионов слогоупотреблений. 95% слогоупотреблений покрываются 600 наиболее частотными слогами. Конечно, и эта статистика далека от идеала, поскольку в ней не учитывается ряд важных характеристик, например, то, что в речи разные словоформы обладают разной частотностью, и то, что на стыках слов в потоке речи появляются слоги, невозможные в составе слова. Но при наличии автоматического транскриптора и программы сегментации затранскрибированного текста на открытые слоги, получение новых статистических данных становится только делом времени.
Другим аспектом представительности речевого материала является выбор диктора, который начитывает подготовленный текст. Для получения эталонного материала важно, чтобы фонетически сбалансированный текст был прочитан нормативным диктором. Однако нормативность того или иного диктора представляет собой некоторую условность: речь любого человека отражает не только характеристики фонетической системы национального языка, но и регионального варианта языка, диалекта или говора, индивидуальные особенности личности, его социальный статус, фонетические особенности профессиональной группы, к которой этот человек относится и т.п. В результате поиск нормативного диктора представляет собой непростую задачу. Именно поэтому нормативность конкретного диктора часто оказывается некоторой условностью, необходимой в качестве точки отсчета для сравнения различных реализаций, полученных от разных дикторов.
Записанный речевой материал может изучаться различными традиционными способами, но цифровое представление звукового сигнала предоставляет возможность его организации в виде базы данных. Компьютерные базы данных представляют собой удобное средство организации любой информации. Распределение различной информации (текстовой или цифровой) по различным полям базы данных позволяет быстро и эффективно находить нужные сведения по их признакам, производить по этим признакам классификацию материала, формировать новые массивы данных, отвечающих набору необходимых условий. Отличие акустических баз данных от традиционных заключается в том, что кроме текстовых и числовых данных в поля базы данных включается оцифрованный звуковой материал. Нужный звуковой сигнал (или его фрагмент) может быть найден по его описанию, то есть по набору признаков, распределенных по разным полям базы данных, и прослушан, скопирован или обработан. Преимущества такой формы организации и хранения звукового материала заключаются в быстром и простом доступе к любой звукозаписи и даже к любому ее фрагменту, а также к текстовой расшифровке, транскрипционному представлению, комментариям.
В последние годы во многих странах мира ведется работа по организации звукового материала в виде компьютерных баз данных. Эта работа в основном проводится в двух направлениях: создание звуковых баз данных для организации и хранения ценных архивных материалов и создание автоматизированных корпусов речевых данных. Кафедра фонетики СПбГУ также занимается как созданием систем для хранения ценных архивных звукозаписей, так и разработкой средств организации доступа к корпусам оцифрованных речевых данных.
2.1. Известные базы данных.
Интерес к использованию акустических и лингвистических баз данных в теоретических исследованиях и при решении прикладных задач в области речевых технологий способствовал появлению в США "Linguistic Data Consortium" (LDC). Эта организация в настоящее время предлагает заинтересованным лицам и организациям 148 лингвистических баз данных. В состав этих баз данных входят материалы разных языков, как правило, сопровождающиеся орфографической записью и транскрипцией. Более подробную информацию о составе этих корпусов можно найти на Интернет-сайте LDC по адресу: h!tp://www. ¡de. v.pzv.H. edu.
Наиболее известным и широко используемым за рубежом корпусом речевых данных является акустическая база данных спонтанной речи TIMIT, включающая в себя 2342 фразы, прочитанных 630 дикторами, мужчинами и женщинами, носителями восьми основных диалектов США. Каждый диктор читал в среднем 10 разных фраз, что дало 6300 реализаций. Все фразы рассегментированы на слова и отдельные звуки и затранскрибированы. Пользователь может получить звучание любого сегмента в реализации любого диктора по его описанию в полях базы данных. Состав, способы организации доступа к материалу, структуру базы данных, принципы транскрипции, характеристики дикторов и т.п. можно найти по адресу: http://www. ¡de. ирепп. edu/tol/futorial/timitspeech. html.
В Европе реализуются несколько проектов создания лингвистических баз данных. Баварский архив речевых сигналов (Bavarian Archive for Speech Signals - BAS) содержит речевые материалы на немецком языке, записанные в рамках различных проектов, в частности, таких крупных, как Speech Dat и Vermobil. Европейский проект RELATOR формирует речевые базы данных для датского, голландского, английского, французского, немецкого, греческого, итальянского, португальского, испанского языков, а также многоязычные системы (Web-страница проекта находится по адресу: http .//crista!. icp. grenet.fr/Reiator/homepage. htm!).
Аналогом американского консорциума LDC является европейская Ассоциация языковых ресурсов (ELRA), которая сейчас предоставляет доступ к 69 речевым базам данных, созданным в ходе выполнения различных европейских проектов. Информацию об этой Ассоциации и речевых базах данных можно найти по адресу: http://www.icp.grenet.fr/ELRA.
Собирает и предоставляет информацию о европейских языковых ресурсах и о проектах, связанных с созданием языковых баз данных, и европейская сеть ELSNET.
2.2. Акустические базы данных, разработанные на кафедре фонетики.
2.2.1. Звуковой архив.
Этот тип звуковой базы данных предназначен для хранения звуковых реализаций больших текстов. Его главное назначение - организация ценных архивных звукозаписей в компьютерной форме. Такие компьютерные архивы разрабатываются в разных странах мира, но служат они в основном для целей хранения материала, а не для решения исследовательских (в частности, лингвистических) задач.
Для того, чтобы любой филолог (фонетист, фольклорист, диалектолог) получил простой и удобный доступ к ценному звуковому архивному материалу, была разработана специализированная акустическая база данных. Эта система обеспечивает хранение и доступ не только к архивной атрибуции звукового материала (архивный номер, время записи, жанр записанного материала, фамилии исполнителей, их возраст, национальность и т.п.), но и к текстовой расшифровке, транскрипции, комментариям специалистов, а самое главное - к самому оцифрованному звуковому материалу. По архивной атрибуции пользователь, во-первых, может найти в архиве оригинал звукозаписи (восковой валик, диск, магнитную пленку) или ее копию на магнитной пленке, во-вторых, находить те записи, которые отвечают нужным ему характеристикам (например, месту или времени записи).
Работа со звуковым материалом строится таким образом, чтобы не обладающий специальными знаниями пользователь, работая с выведенным на монитор текстом, транскрипцией и комментариями, мог прослушать весь тест целиком или любой его фрагмент: от нескольких фраз до одного слова. Для этого выполняется предварительная сегментация звукового файла на фразы, синтагмы и фонетические слова. Метки сегментации хранятся в специальном файле-дсскрипторс, а тип конкретной метки соответствует типу членения звуковой последовательности: одни метки используются для указания границ фонетических слов, другие - для указания границ синтагм и фраз. Аналогичным способом размечается и текстовая расшифровка: символом "/" обозначается граница между синтагмами, "//" обозначает границу между фразами при наличии долгой паузы, границе между фонетическими словами соответствует пробел. Отмечая блоком фрагмент текста для прослушивания, пользователь тем самым указывает, какой фрагмент (от какой метки и до какой) звукового файла он хочет про-слушэть. Звуковую реализацию отмеченного фрагмента текста можно записать в отдельный звуковой файл для дальнейшего анализа с помощью любого редактора звуковых файлов. При работе с текстом пользователь может изменить текстовую расшифровку или транскрипцию, а также может создать собственный комментарий к этому тексту.
Единицей описания в такой базе данных является весь текст, а описание производится через архивную атрибуцию и комментарии специалистов, исследовавших этот текст.
Акустическая база данных состоит из 20 полей. Первые I! полей отведены для архивной атрибуции, в остальных девяти хранятся названия файлов, следующая информация из которых выводится в специальные окна базы данных:
- осциллограмма звукового сигнала,
- его текстовая расшифровка,
- его транскрипционное описание,
- перевод данного текста на другой язык или полный текст звукозаписи, если в базу данных помещен только ее фрагмент,
- текстологический комментарий,
- диалектологический комментарий,
- музыковедческий комментарий,
- фонетический комментарий,
- общий комментарий.
Текстовые файлы представлены в формате Windows ANSI (Text Oniy), звуковой - в формате 16 бит ИКМ с частотой дискретизации 16 кГц. Программное обеспечение написано на ANSI С.
На рис. 3 показан внешний вид базы данных с фрагментами архивной атрибуции (архивный номер оригинала записи, место записи, имя исполнителя, год ровдения исполнителя), текстовой расшифровки и транскрипционной записи.
Описанная база данных является удобным средством хранения и обработки звукового материала, принадлежащего разным речевым жанрам. В комментариях могут быть отмечены характерные для них фонетические особенности* а простой доступ к звуковому сигналу обеспечивает необходимые иллюстрации описанных особенностей.
Особую ценность представляет включение в базу данных звукозаписей памятников народного творчества, сделанных в разное время от наиболее ярких носителей народной культуры и диалектных особенностей. Такие записи представляют собой источник сведений об истории звуковых средств, о характере и закономерностях звуковых изменений.
Возможности этой базы данных были использованы для организации и исследования звукового архива В.М.Жирмунского из коллекции Фонограммархи-ва Пушкинского дома, в котором собраны образцы фольклора проживавших в России немцев, записанные в 20-х - 30-х годах XX века. На основе этой базы данных в сотрудничестве с Фонограммархивом Института Русской литературы (Пушкинский дом) были выпущены компакт-диски "Коллекция Жирмунского", "Сказки Русского Севера" и "Обрядовая поэзия Русского Севера (плачи)". Таким образом, ценнейший архивный звуковой материал был перенесен на современные долговечные носители и введен в широкий научный оборот.
В настоящее время эта база данных используется в проекте INTAS "Sound Archives on the World Wide Web with Sound Recordings from Saint-Petersburg Collections" (Project Nr. 1705). В рамках этого проекта предполагается обеспечить доступ -специалистов всего мира к архивному звуковому материалу через ИНТЕРНЕТ. Внешний вид этой базы данных приведен на рис. 3.
C:\SIALALDB\CRY.LDB
Fiie Edit Operation Option
часть 2] ЭР Мезень 9Б, 15-07
ЭР Мезень 96,
Архангельская обл., Лешуконскнк р-к, вожгорскмй с/с, а. Певскае Апхангельская овл.
Гольчикова Няьяня Львовна
Лешукова Анна
1911
1926
Orthography: шЗБ13-11 -txt ц-»о||о->ц|
А как(н) подули да ве. ,ет(ы)ры 6у<йные>\ [ Л зашумели леса. .а д(ы)рему<чие>\\
А уж ты куда, жа да но. .они среди ! Авы пришли-то пе да но.прне<хали>\ {А уж ты куда нон (и)це да спо. .од
I Transcription: m3613-11 .trn ц-ю o-m шш а: ка^-й i a: za^-a-Ju^-u-m'e^-e-ri^ l'e'-e-ea' / а di-re'-e-Г a: vi:4-i pi'ir-i-ji'if-i to:4'e da no* / o-n'i prT-a: n'e:*-e po:"-o sta:"-a-io" da: nV /e:-po"-o-o:-p a: ka:"-ka ae:"-e vi:"-i-jo:"l dY-i-t'V / a: sV-e-efl lam и
Рис. 3. Внешний вид звукового архива.
2.2.2. Корпус речевых данных.
Этот тип акустической базы данных предназначен для хранения фонетически представительного звукового материала (текста). Единицей хранения и описания является слог. В состав описания слога входят его графическое представление в тексте, идеальная фонемная и фонетическая транскрипция, реальная транскрипция, статистические характеристики, особенности реализации, связанные с просодической позицией, а также название звукового файла, в котором этот слог хранится. Пользователь может прослушать весь текст или любой его фрагмент, но не меньше слога. В настоящее время в такую базу данных организована часть звукового материала Фонетического фонда русского языка: фонетически представительный текст, составленный из 200 наиболее частотных русских слогов во всех возможных ритмических позициях. Текст введен в реализации 4 нормативных дикторов: двух мужчин и двух женщин, представителей московского и петербургского вариантов русской произносительной, нормы.
У пользователя есть следующие возможности работы с такой базой данных:
- найти все реализации слога по его графическому или транскрипционному представлению,.
- получить транскрипцию и звучание фрагмента текста по его орфографическому представлению в реализации указанньтм(и) диктором(ами).
Для обеспечения возможности озвучивания выбранного фрагмента текста и получения его транскрипционного описания было сделано следующее. В процессе ввода в компьютер текст сегментировался на открытые слоги, и каждый слог записывался в отдельный файл, в названии которого отмечался и его порядковый номер в тексте. В качестве инварианта использовалось орфографическая запись текста, не зависящая от дикторской реализации. Озвучивание указанного пользователем фрагмента текста происходит путем формирования звуковой последовательности из звуковых файлов в том порядке, в каком они следуют в тексте. Аналогичным образом формируется и транскрипционное описание фрагмента текста: из соответствующих полей базы данных в порядке, определяемом по орфографической записи, берутся транскрипционные описания слогов в составе этого фрагмента. Прослушанный фрагмент текста может быть записан в звуковой файл для дальнейшего анализа акустических характеристик (Skrelin, Talanov, 1999).
Звуковой материал введен в формате 16 разрядов ИКМ с частотой дискретизации 20 кГц. База данных выполнена с использованием MS Access 2.0.
На рис. 4 показана реальная фонетическая транскрипция фрагмента (первые четыре фразы) фонетически представительного текста,
Использование материалов этой базы данных позволило получить новые сведения о звуковой реализации аллофонов русских фонем в различных фразовых позициях [Kuznetsov, Sherstinova, 1998].
В настоящее время в эту базу данных вводится звуковой материал по интерферированной речи: чтение фонетически представительного текста болгарами, финнами, американцами, корейцами, в разной степени владеющими русским языком, а также носителями региональных вариантов русского языка. Сама база алсята»!-^ nciriptfonl
Sound llibin тихий серый вечер.// Дул ветер,/ слабый и теплый.// He6q ■было покрыто тучами,/ сквозь которые иногда прорывались i 1входящего солнца.//
1 |аш автобус номер семь шел на запад.// Мы все ехали в вепй |i гарый город./ электрические огни которого быпи видны дал^ ¡нпереди.// По центральному радио передавали легкую музык ¡Хор ребят исполнял песенку "Золото осени".// Я невольно
Sc »rch io"
Daft'it4s"erLv'eiAr//dubr'ec-Ar/Ete°bLit'op!i//ii"e0bubu!ijp°akTiti m'or/tk^°es'k3torU-iLnagdQprb°nju0al4s4!iizbAad'a£uwbEonca//na "Ьивпй'пэгЕ'хшбо^агар'ъ^/т'ъ"
Рис. 4. Внешний вид корпуса речевых данных, данных перерабатывается таким образом, чтобы позволить использовать в качестве единицы хранения целый текст, а в качестве дополнительных единиц описания - интонационные характеристики фраз и синтагм, а также отдельные произносительные особенности, реализованные в словах, на границах слов и морфем. Именно для этого в программе цифровой обработки речевых сигналов предусмотрена возможность установки разных типов меток. Разные метки и их названия могут указывать на границы разных языковых единиц в тексте.
Разрабатываемая база данных3 устроена таким образом, чтобы предоставить исследователю возможность ознакомиться со всеми отмеченными в звуковом сигнале особенностями произношения, получить общую информацию о фонетических характеристиках данного диалекта, регионального или социального варианта национального языка и прослушать реализаций отмеченных особенностей. Такал система может иметь и прикладное значение, при ее использовании, например, экспертами-фоноскопистами. Эксперт, анализируя фонетические особенности какого-нибудь речевого материала, может обращаться к базе данных для их сравнения с особенностями, характерными для того или региона.
3 Эта работа поддержана грантом РГНФ 99-04-! 2015в "Региональные варианты звучащей русской речи в Интернет".
3. Обработка языковых данных (Natural Language Processing)
Устная форма существования языка первична по происхождению и наиболее широко употребительна в разных сферах человеческого общения. Письменная форма появилась на основе устной и в определенной степени сохраняет признаки устной речи. Несомненным преимуществом письменной речи, по сравнению с постоянно меняющейся устной, является ее относительная стабильность во времени. С другой стороны, соотношение устной и письменной речи характеризуется известной асимметрией: в письменной речи присутствует как излишняя но сравнению с устной информация, так и отсутствует некоторая важная для устной речи информация. При чтении текста человек, с одной стороны, опирается на правила соответствия буква фонема, а с другой, по орфографическому инварианту определяет, с каким языковым знаком (.лексемой) он имеет дело в данном случае, а затем реализует в речи фонемный состав и звуковой облик этого языкового знака. Для каждого языка характерно свое соотношение правил чтения и определения звукового облика языковой единицы: для русского языка большинство слов и словосочетаний может быть прочитано с опорой на правила, а, например, в английском — большинство частотных лексических единиц содержат отклонения от правил чтения.
В отличие от правил чтения, которые помогают воссоздать фонемный состав языковых единиц, транскрипция описывает реальную или потенциально возможную звуковую реализацию текста в терминах фонем и их аллофонов. При этом транскрипция показывает и те изменения, которые под влиянием различных условий происходят или возможны при звуковой реализации текста. Эти изменения могут касаться как состава фонем, .который может меняться в силу коартикуляции, так и фонетических признаков аллофонов, которые могут модифицироваться под воздействием контекста или фразовой позиции. Некоторые явления, например, чередования фонем, вызванные фонетическим контекстом, происходят под действием законов фонетической системы языка и могут быть рассчитаны заранее. Другие же, представляющие собой нерегулярные отклонения от нормы под действием не до конца изученных влияний дистантного контекста, фразовой позиции, темпа и стиля речи, могут быть описаны в результате прослушивания звукового материала.
3.1. Фонетические задачи при обработке орфографического текста.
3.1.1. Предварительная обработка орфографического текста.
Одна из фонетических задач обработки орфографического текста заключается в выполнении его автоматической транскрипции. Автоматическая транскрипция в этом случае понимается как моделирование произнесения данного текста носителем языка. Однако часто выполнению автоматической транскрипции должна предшествовать предварительная обработка текста, восполняющая информацию, которая отсутствует в письменной речи. Применительно к русскому языку, в письменной речи, как правило, отсутствует указание ударных слогов, что важно для расчета степени редукции гласных и чередования гласных фонем в безударных позициях; буква е используется вместо ё, к тому же она не всегда указывает на мягкость предшествующего согласного (например, в слове фонетика); в письменном тексте встречаются числительные, выраженные цифрами, аббревиатуры, многие из которых обладают собственными правилами чтения, сокращения, расшифровать которые иногда можно только с опорой на широкий лексический контекст (например, В ¡992 г. Качинин .).
Предварительная обработка письменного (орфографического) текста обычно выполняется в два этапа. На первом (pre-processing) - определяются реальные границы грамматического предложения (знаки препинания, например, точки, как было показано в предыдущем примере, не всегда указывают на реальные границы), расшифровываются аббревиатуры, в лексическую форму переводятся числительные и т.п. На втором, в ходе контекстного анализа происходит расшифровка сокращений с определением их грамматической формы, уточнение грамматической формы числительных, восстановление с, определение места ударного слога. В настоящее время на кафедре фонетики разработаны средства автоматического контекстного анализа (Bondarko et ais., 1996; Skrelin, 1996), но для достижения максимальной точности предварительной обработки русского текста одного контекстного анализа, как правило, недостаточно. В настоящее время на кафедре фонетики ведутся работы по созданию средств автоматического синтаксического анализа текста для применения в системах синтеза и распознавания речи.
3,1.2. Моделирование фонетической (сегментной) транскрипции.
Алгоритмы автоматической транскрипции могут быть настроены на моделирование произносительных характеристик как идеального носителя произносительной нормы или регионального стандарта, так и конкретного человека. В системах синтеза речи по тексту, разработанных на кафедре фонетики (Bondarko et als., 1996; Skrelin, 1996), автоматические транскрипторы настроены на моделирование произносительных характеристик конкретных нормативных дикторов, речь которых была использована для формирования акустической базы ди-фонов или аллофонов. Дальнейшее развитие процедур- автоматической транскрипции привело к необходимости создания универсального транскриптора, который может быть настроен на моделирование как идеального нормативного произнесения текста, так и на моделирование различных отклонений от нормы. В настоящее время на кафедре фонетики разработан гибкий (адаптивный) автоматический транскриптор русского,текста, который может быть настроен самим фонетистом (без помощи программиста) на моделирование как нормативного прочтения текста, так и различных диалектных и региональных отклонений от нормы (Shalonova, 1997).
Эксперименты с автоматическим транскриптором, объединенным с системой синтеза речи, позволили уточнить некоторые аспекты фонетической, системы русского языка, вплоть до выявления нового, ранее неописанного, класса безударных аллофонов фонемы /а/ в позиции после мягких согласных в абсолютном начале слова (на стыке слов). Автоматическое транскрибирование словаря на 1 600 ООО словоформ позволило установить как частотность ударных и безударных слогов, так и возможные в русском языке структуры слога внутри словоформы. Теоретически возможные сочетания гласных и согласных, но невозможные внутри слова могут служить хорошим пограничным сигналом для автоматического определения границ слова в слитной речи. Наблюдения за естественными реализациями слогов и их сопоставление с теоретически возможными и невозможными структурами слога указывают на неизвестные ранее явления ассимиляции в русском языке и порой на их дискретный (линейно ограниченный) характер. Например, сочетание согласных /'s/' + Л// в норме реализуется как /J': у/, а сочетание Л/ + kj! - как Л/:/. Но в словосочетании текст читая силы регрессивной ассимиляции достаточно только для одного чередования фонем: Л/ + /у/ = /у:/, в результате фонема /в/ оказывается перед /у/, что запрещено обычными правилами дистрибуции согласных.
Дискретная форма представления транскрипционного описания часто не позволяет в полной мере передать характер непрерывного изменения акустических характеристик звука или сочетания звуков. Для того чтобы показать процессы, происходящие в реальном речевом потоке, достаточно прилагать к транскрипционной записи сонаграмму сигнала Для иллюстрации же известных процессов, которые должны будут характеризовать этот речевой поток, если он будет реализован диктором, можно моделировать и акустические характеристики потенциального речевого сигнала. Для достижения такой цели необходимо знать не только то, как коартикуляционные взаимодействия звуков в потоке речи отражаются в их физических характеристиках, но и то, что все подобные процессы протекают во времени и, следовательно, обладают скоростью. Это означает, что некоторые процессы не могут быть адекватно реализованы за отведенное на них время, поскольку обладают недостаточной скоростью. Если знать, каким образом положения формант гласных зависят от окружения и с какой скоростью они могут менять свое положение, можно вычислить физические значения формант в любой точке временной оси. Такая задача была решена на кафедре фонетики на основе данных о реализации русских фонем во всех возможных контекстах. В результате этой работы была создана программа моделирования акустических характеристик гласных в потоке речи. Эта программа была объединена с адаптивным автоматическим транскриптором русского произвольного текста, что позволяет не только выполнять автоматическую транскрипцию, но и предсказывать акустические характеристики аллофонов гласных (8кге1ш ап<1 а1., 1998).
3.1.3. Моделирование интонационной транскрипции.
Способы интонационной транскрипции, применяемые для указания просодических характеристик звучащего текста, обычно направлены на то, чтобы обозначить функционально значимые просодические явления на тех фрагментах текста, на которых они реализованы. Результат такой транскрипции полезен для анализа причин и условий реализации тех или иных интонационных единиц, а также для демонстрации ненормативных реализаций. Текст, снабженный такой транскрипцией, может быть даже прочитан опытным диктором, знакомым с системой интонационных обозначений, а результат прочтения будет функционально и содержательно идентичным оригиналу. Однако, такой способ транскрипции не предоставляет достаточной информации для построения полной интонационной модели высказывания, которую можно было использовать, например, в системе синтеза речи по тексту, поскольку функционально незначимые характеристики (например, частотный регистр, физический интервал повышения или понижения частоты основного тона, частота основного тона на всех звуках, длительность и интенсивность звуков) в этой транскрипции не указываются. С другой стороны, те системы описания просодических характеристик высказывания, которые позволяют приписать каждому звуку его физические параметры (см. обзор наиболее распространенных систем в Werner, 1997: 79-102), не содержат указаний на функционально значимые просодичсскис явления, что затрудняет выявление парадигматических отношений между интонационными контурами. Конечно, формирование мелодической кривой, огибающей интенсивности и темпорального контура опирается на парадигматически противопоставленные интонационные модели, но результирующие кривые или последовательности физических значений частоты основного тона, амплитуды и длительности каждого звука маскируют смысловые отношения между элементами синтагмы и фразы.
Для автоматического моделирования просодического оформления фразы сначала необходимо определить, какой интонационный контур (функциональный тип) должен быть реализован на каждой входящей в ее состав синтагме, а затем рассчитать его физическую реализацию на каждом звуке. Первая версия автоматического интонационного транскриптора русского произвольного текста была разработана на кафедре фонетики СПбГУ в 1995 г. На сегодняшний день интонационный тин синтагмы определяется с помощью контекстного анализа предложения (Жарков и др., 1994; Вольская и др., 1997), но ведутся работы по созданию средств автоматического синтаксического анализа. Для расчета мелодического и темпорального контуров используется методика, близкая к модели Фуджисаки (Werner, 1997: 89-99): от уровня деклинации отсчитываются характеристики движения частоты основного тона на ударных и безударных гласных всех слов в составе синтагмы. Характер движения частоты основного тона описывается в процентах к значению деклинации и хранится в специальной таблице. Базовые значения длительности звуков хранятся в другой таблице, длительность каждого звука во фразе вычисляется путем применения к его базовой длительности повышающих и понижающий коэффициентов: например, позиция в ударном слоге или в конце фразы увеличивает длительность звука, а фонетический контекст или позиция в начале фразы ее сокращают.
Многочисленные эксперименты с опытной моделью синтеза русской речи, разработанной на кафедре фонетики, позволили уточнить правила автоматической интонационной транскрипции, а также зависимость физической реализации той или иной интонационной конструкции от сегментного состава и длины синтагмы или фразы (Вольская и др., 1997).
3.2. Фонетические задачи при обработке звучащего текста. 3.2.1. Средства, облегчающие выполнение фонетической (сегментной) транскрипции
Звуковой материал, являющийся объектом фонетической транскрипции, далеко не всегда представлен сразу же в цифровой форме. Как правило, для обеспечения максимального качества сигнала сначала производится запись нужного материала в условиях минимальных уровней окружающего шума и электромагнитных помех. При этом чаще всего в настоящее время запись производится на магнитофон. Затем с магнитофона звуковой материал вводится в компьютер. Для достижения максимальной точности транскрипции фонетисту желательно иметь возможность прослушивать материал относительно небольшими фрагментами: от отдельного звука до синтагмы. Современные компьютерные средства анализа, как уже об этом говорилось выше, обеспечивают такую возможность. Однако работа с большим массивом звукового материала не всегда удобна ввиду технических ограничений, предъявляемых размером оперативной памяти компьютера, скорости процессора, видеоадаптера, жесткого диска. Поэтому для облегчения выполнения фонетической транскрипции, а также слухового и акустического анализа, требуются автоматизированные средства сегментации звукового материала на фразы и синтагмы, а в идеале - и на отдельные звуки с их последующей или параллельной фонемной интерпретацией.
Существует достаточно большое (на кафедре фонетики их три, разработка двух из них происходила под руководством автора) количество программ сегментации звукового потока на относительно большие фрагменты, сопоставимые с фразами и синтагмами. Эти программы ориентируются в своей работе на физические паузы, которые определяются по значениям амплитуды сигнала, и позволяют каждый фрагмент, заключенный между ними, либо помечать метками, либо записывать в отдельный файл. Выполнение автоматической сегментации речевого сигнала на более мелкие языковые единицы (от реализаций фонем до слов и словосочетаний) представляет собой принципиально более сложную задачу. Сложность этой задачи связана с тем, что речевой сигнал непрерывен, а описывается в виде последовательности дискретных языковых единиц. На физическом же уровне в силу коартикуляции границы между языковыми единицами размыты и могут считаться условными. Тем не менее, многие научные коллективы работают над этой задачей.
Задачу автоматической сегментации речевого потока на звуки можно решать двумя способами. Первый способ основывается на вероятностных и статистических моделях (Boeffard-Dosierre, 1993, Kipp et al., 1997)4 и опирается на предварительную транскрипцию или, как минимум, текстовую расшифровку речевого сигнала. Второй способ строится на лингвистических знаниях (knowledge-based) и требует интеграции как современных знаний об организации и фонетических характеристиках речевого потока, так и последних достижений в области автоматической идентификации звуков речи, их фонемной интерпретации, автоматической транскрипции текста и моделирования акустических параметров звукового потока. Первые эксперименты по сегментации речевого потока на отдельные звуки на основе фонетических знаний (Micallef, 1997) показали эффективность и перспективность подобных систем. Этот способ уже предполагает выполнение автоматической транскрипции речевого сигнала как залог успешности сегментации.
В последние годы появились системы автоматической транскрипции звучащего текста, использующие возможности автоматического распознавания речи (см., напр.: Gauvain et ai., 1997; Mok'bel, Jouvet, 1997; Kubaia et al., 1997). Такая технология опирается, прежде всего на акустические параметры речевого сигна
4 Так называемые "data-driven systems". ла. Полученные при анализе данные о потенциальной принадлежности фрагмента (10 мс) сигнала к той или иной фонеме на следующем этапе обработки подвергаются формальной фонологической интерпретации, которая выполняется автоматически с использованием вероятностных моделей (Fetter et а!., 1997). Интересно, что при таком подходе, опирающемся на выполнении точной транскрипции, основанной только на физических характеристиках сигнала, первичная транскрипция нужна только как отправная точка для описания речевого сигнала как последовательности фонем. Переход от физической точности транскрипционного описания к фонологической вызывается целью обработки речевого сигнала, которая состоит в сопоставлении полученных фонемных цепочек со словами из словаря для автоматического распознавания речи.
Таким образом, в настоящее время уже есть компьютерные средства для существенного облегчения работы фонетиста, выполняющего транскрипцию звукового материала. Усовершенствование этих средств связано с автоматической аллофонной и фонемной интерпретацией звукового потока. Автоматическое выделение из речевого сигнала лингвистически значимой информации - положения формант и направления их движения, распределение спектра шума - может, кроме того, и существенно увеличить эффективность программ автоматического распознавания речи (Holmes et а!., 1997; Hansen, 1997). Но для того, чтобы правильно использовать такую информацию, необходимы специальные исследования, которые могут быть построены ка автоматическом выделении из потока речи сегментов со сходными физическими характеристиками и на их фонемной интерпретации носителями языка. Дополнительные эксперименты по анализу влияния на фонемную интерпретацию звука акустических характеристик его непосредственного фонетического окружения позволят в дальнейшем уточнять автоматическую транскрипцию звукового материала. А точное предсказание акустических характеристик каждого звука на основе автоматической транскрипции позволит разработать принципиально новые средства автоматической сегментации речевого потока на отдельные звуки (Skrelin et al., 1998).
Автоматическая сегментация потока речи на слоги при автоматически выполненной транскрипции и с установленными границами между звуками речи определяется правилами слогоделения.
Автоматическое определение границ между словоформами в потоке речи даже при выполненной сегментной транскрипции далеко не всегда может опираться на акустические характеристики, поскольку при слитном произнесении синтагмы между словами нет пауз или других физически выраженных пограничных сигналов. Определение границ между словами связано в первую очередь с их идентификацией. Автоматическая идентификация может выполняться только на основе словаря, все словоформы в котором снабжены фонетической транскрипцией, причем даже не одним (нормативным) вариантом, а несколькими, статистически наиболее вероятными. Для полноценной идентификации слов в потоке речи необходимо выполнять автоматический синтаксический анализ, в ходе которого проверяется правильность синтаксического оформления фразы или синтагмы при разных вариантах членения. Некоторую помощь при сегментации могут оказать правила дистрибуции фонем в данном языке. Так, в русском языке есть аллофоны согласных, возможные только на границах слов, например, звонкий аллофон глухого согласного /х/ возможен только в конце слова перед звонким согласным в начале следующего слова. Мягкие заднеязычные согласные никогда не встречаются в конце слов. Долгий /г/ за редким исключением может встретиться только на границах слов. Хорошим показателем границы слов могут служить и некоторые достаточно частотные сочетания согласных. Таким образом, уже на предварительном этане анализа последовательности фонетических символов, полученной при автоматической транскрипции речевого сигнала, есть возможность установить некоторые словесные границы (вкгеИп, 8Ьа1опоуа, 1998). Работа по автоматическому членению последовательности транскрипционных символов на словоформы проводится па кафедре фонетики под руководством автора с 1998 г. в рамках гранта РФФИ 98-06-8043!.
Кроме средств автоматической сегментаций речевого потока на языковые единицы и их автоматической интерпретации в терминах фонем или аллофонов, большое значение имеют другие технические средства, облегчающие выполнение транскрипции по данным слухового анализа. Среди них можно отметить программные средства, которые позволяют не только проводить удобное прослушивание нужных сегментов и анализировать их акустические характеристики, но и одновременно вводить в компьютер транскрипционные описания в символах МФА или другой, удобной пользователю системы траснскрипционных обозначений. На кафедре фонетики в составе программ компьютерного анализа речевого сигнала автором доклада разрабатываются специальные средства для использования в названиях меток, указывающих условные физические границы языковых единиц, различных гарнитур шрифтов, а также методов синхронизации подписей (названий меток) с осциллограммами и сонаграммами фрагментов сигнала.
3.2.2. Средства, облегчающие выполнение интонационной транскрипции.
Среди средств, облегчающих выполнение интонационной транскрипции, центральное место занимают автоматические выделители частоты основного тона, поскольку мелодическое оформление высказывания, в связи с его большой функциональной нагрузкой, в первую очередь должно отражаться в транскрипции. Существуют многочисленные методы автоматического выделения частоты основного тона, но все они работают с большей или меньшей погрешностью. Если выделитель основного тона анализирует сигнал в частотной области, то пмрешность вызывается тем, что основной тон в спектре сигнала представляет собой не последовательность значений (линию), а некоторую область. Если он работает во временнуй области, то эта погрешность вызывается особенностями изменения амплитуды сигнала на возможных границах периодов основной частоты (Скрелин, ¡999: ¡2-16). Часто некоторой неточностью выделения частоты ОСНОВНОГО тона МОЖНО пренебречь, поскольку при к^'пптшении интонянионнпй транскрипции фонетисту достаточно знать общие тенденции развития мелодического контура, а не точные абсолютные значения частоты в каждой точке.
Построение огибающей интенсивности не представляет сложности, поскольку может опираться либо на представление сигнала во временной области и представлять собой кривую, построенную на пиках периодов основной частоты, либо, после сегментации сигнала на периоды основной частоты, может представлять собой вычисление площадей (или их производных), занятых каждым периодом.
Для вычисления темпорального контура высказывания требуется предварительная сегментация сигнала на звуки или слоги. В последнее время, однако, появились автоматические средства вычисления скорости произнесения, включающие в себя особые алгоритмы членения звукового потока (см. напр., Кл-Хаюаъ'а е1 а1., 1997).
4. Синтез речи
4.1. Известные модели синтеза речи.
В настоящее время известны два основных технологических принципа построения систем автоматического синтеза речи: синтез "по правилам" и компилятивный синтез. Синтез "по правилам" использует правила формирования физических характеристик звуков речи по их математическим описаниям. При компилятивном синтезе речи из естественной речевой последовательности вырезаются сегменты, из которых можно "склеить" новую речевую последовательность. Сами сегменты могут, в зависимости от задачи, иметь разный размер: от фрагмента фразы до звуковой реализации аллофона. В наиболее гибких системах автоматического синтеза произвольного текста используются сегменты, равные аллофонам или дифонам (сочетаниям половинок соседних аллофонов).
4.2. Системы компилятивного синтеза речи, разрабатываемые на кафедре фонетики СПбГУ.
На кафедре фонетики были разработаны как дифонная, так и аллофонная модели компилятивного синтеза русской речи (Вош1агко е1 а!., ¡996; ЗкгеНп, 1996). При построении моделей аллофонного и дифонного синтеза необходимо учитывать все те особенности, которые определяются звуковой системой русского языка. В обоих случаях для составления банка звуковых элементов необходимо получить исходный материал, содержащий все существенные для организации как словоформы, так и последовательности словоформ сегменты ~ аллофоны ИЛИ /П-пЬ.ОмЫ
4.2.1. Аплофонный синтез
4.2.1.1. Формирование звуковой базы для ашюфонного синтеза.
В литературе имеется описание аллофонов, необходимых для реализации модели компилятивного синтеза (.Зиновьева. Кривнова, 1993). Количество хранящихся в аллофонной базе элементов определяется учитываемыми контекстными влияниями и насчитывает 137 согласных и 530 гласных звукотипов. При разработке модели, которая выполнялась автором доклада, было решено начать с максимально полного набора аллофонов, выделяемых на основе учета комбинаторных и позиционных влияний. Этот набор определяется для гласных и согласных отдельно и описан ниже. Здесь же необходимо обратить внимание на то, что при аллофонном синтезе кардинальное значение имеет определение места границы между соседними аллофонами: с одной стороны, необходимо, чтобы в аллофоне содержалась необходимая информация о соседних сегментах (как это свойственно для естественной речи), а с другой - важно найти необходимый баланс между информативностью переходных процессов, обеспечивающих естественность склеек, и обобщенными аллофонными характеристиками, позволяющими минимизировать количество элементов в базе. Например, учитывая слабую связь гласного со следующим за ним согласным, можно было бы не сохранять переходные участки аллофонов /а/ перед губными, переднеязычными и заднеязычными согласными, а выбрать один из контекстов, обеспечивающий максимальную толерантность перехода к любому согласному. Ниже описаны результаты поисков.
Гласные. Влияние фонетического контекста. Результаты экспериментов показали, что по своему воздействию на последующий гласный все гласные и согласные могут быть сгруппированы в некоторое количество классов (приведенные названия классов согласных являются достаточно условными), звуки внутри которых оказывают практически одинаковое влияние на гласный. Твердые сонанты / ш, п, I, г /, мягкие / т', р.', 1', 3 ■ и все гласные образуют собственные классы, поскольку влияние каждого из них на последующий гласный весьма специфично (Таб. !).
Ооозначение Состав класса
5 [ уиный твердые / Г, V, р, Ъ /.
Г Губные мягкие / Г, V*, р', Ь' /.
1 Переднеязычные твердые /1, (3, э, г, с /.
Г Переднеязычные мягкие /Ч\ с!', в', г\ У', г'/.
2 Какуминальные / ¡, 3 /.
4 Заднеязычные / к, д, х /.
4' Заднеязычные мягкие / к', д', х' /. п Абсолютное начало т Согласный / т / т' Согласный / т' / п Согласный / п / п' Согласный / п' /
Согласный /1 /
Г Согласный / Г /
R Согласный Irl
J Согласный / i /
А Гласный / а /
О Гласный / о / и Гласный / и /
Е Гласный / е /
I Гласный / i /
У Гласный / i /
Таблица 1. Обозначения левых контекстов гласных.
По своему воздействию на предшествующий гласный все звуки могут быть также разбиты на ряд классов, внутри которых все звуки оказывают одинаковое влияние на гласный. Сонанты / 1, ] / и все гласные образуют собственные классы, поскольку влияние каждого из них на предшествующий гласный также весьма специфично (Таб. 2).
Обозначение Состав класса
Р Губные твердые / р, Ь. т, Г V /.
1 Переднеязычные твердые /1, (3, в, г, с, п, г /.
X Какуминальные / з /. h Зз/ХиСлЗы^тыё! к» 5. х /.
Все мягкие согласные кроме Г)! к Абсолютный конец
1 согласный /1 / согласный / .1 / а гласный / а / о гласный / о / и гласный /и/ е гласный / е / i гласный /1 /
У гласный / г /
Таблица 2. Обозначение правого контекста гласных.
Таким образом, получаем все потенциально возможные правьте и левые контексты гласных, которые приведены в Таблице 3.
Заметим, что эти данные несколько отличаются от теоретически ожидаемых и связаны с определенными индивидуальными характеристиками диктора. Влияние ритмической позиции. Еще до опытов синтеза было ясно, что применительно к русскому языку с его сильной количественной и качественной редукцией описание аллофонов гласных только на основе правого и левого контекста является недостаточным, поскольку характер редукции зависит и от ка
Прав.контекст Левый контекст а е к I J к 1 о Р 1 и X У
0
1
1'
2
3
3■
4
4'
Г
1
Г т т' п п' г а о и е
У
Таблица 3. Потенциально возможные правые и левые контексты гласных. чества гласного, и от его позиции. Нужно более точно указывать их положение относительно ударения; более того, поскольку акустические характеристики предударных гласных и заударных различаются, то это различие должно быть отражено и в составе звуковой базы. Так, при автоматической транскрипции для ния: уО - для ударного гласного: аО, оО, гЮ, еО, ;0, уО;
VI - для первого предударного а1 и любого предударного о1, и!, е1, ¡1, у1\ ч2 - только для второго предударного / А /:а2:
- для любого заударного кроме / А / и для / А / в абсолютном конце слова перед паузой: а4, о4, и4, е4, ¡4, у4\
5 - только для заударного иеконечнога / А /: а5.
Попытка связать комбинаторные контексты и позиционные, определяемые ритмической структурой, показала, что не все аллофоны гласных (особенно редуцированных) реально встречаются и даже теоретически возможны для всех указанных выше контекстов - нам удалось записать и отсегментировать около 3300 аллофонов.
Согласные. Влияние фонетического контекста. Для согласных были определены следующие возможные левые контексты: условное обозначение позиция
0 абсолютное начало позиция после гласного с позиция после согласного и правые контексты: условное обозначение позиция а перед неогубленным гласным о перед огубленным гласным с перед глухим согласным
V перед сонантом и /V/, где возможно появление гласной вставки г перед звонким согласным (для глухих согласных у, у>, х /, у которых в такой позиции появляются звонкие аллофоны).
Таким образом, получаем следующие потенциально возможные правые и левые контексты (Таб. 4).
Правый Левый а о с V г
0 с
Таблица 4. Потенциально возможные правые и левые контексты согласных.
Сочетания согласных. Некоторые неделимые сочетания согласных были включены в звуковую базу целиком: / Ьп, Ьп', рп, рп', тп, тп', с1п, 4з', 1п, 1п' /. Для последующей модификации длительности согласных в таких звуковых файлах была указана условная граница между ними.
Влияние ритмической позиции. Для максимального приближения синтезированной речи к естественной по перцептивным характеристикам для звонких согласных и сонантов было решено включить в звуковую базу их аллофоны, взятые в заударной позиции. В интервокальной заударной позиции эти аллофоны редуцируются и сильно вокализуются, а !] I практически полностью растворяется в окружающих гласных. —
В настоящее время в звуковой базе находятся около 500 аллофонов согласных. Таким образом, исходная база аллофонов, полученная для данного диктора, приближается к 4 ООО единиц. Конечно, естественно поставить вопрос об оптимизации звуковой базы для аллофонного синтеза.
4.2.1.2. Оптимизация звуковой базы для аллофонного синтеза.
Одним из необходимых факторов при создании базы для аллофонного синтеза речи является экономия исходного звукового материала. Аллофонный синтез (как и любой другой вид компилятивного синтеза) служит для решения практических задач, связанных с разработкой системы автоматического синтеза речи, поэтому возникает потребность в максимальном удобстве для пользователя. Одним из таких удобств является компактность системы. Таким образом, система автоматического синтеза речи должна включать в себя базу, содержащую минимальное количество звуковых единиц (аллофонов), необходимых для синтеза любых звуковых последовательностей. Малое количество базовых звуковых единиц, во-первых, обеспечивает быструю работу системы и, во-вторых, занимает небольшой объем памяти в компьютере.
Как уже было сказано, при создании звуковой базы для аллофонного синтеза сначала определяется теоретически необходимый перечень левых и правых контекстов, который позволяет установить первоначальный состав классов аллофонов. Эти классы включают в себя необходимые базовые аллофоны, которые теоретически могут использоваться вместо конкретных комбинаторных аллофонов. Например, 1а0р (расшифровку см. выше) может' использоваться в контексте после любого твердого неназализованного переднеязычного (А, & в, г, {§,/) и перед любым твердым губным (/р, Ь, Г, V, га /). После того, как этот перечень необходимых для синтеза аллофонов определен и звуковая база сформирована, появляется возможность дальнейшего сокращения базы за счет укрупнения классов, то есть, за счет поиска базовых аллофонов еще более толерантных к конкретным контекстам. В результате подобных экспериментов, которые, еетественно, проводились при постоянном слуховом контроле, был установлен и достаточный набор базовых аллофонов, число которых оказалось значительно меньше, хотя качество синтезированной речи практически не изменилось. Для достижения поставленной цели были решены следующие задачи:
1. Определена степень сходства и различия исходных базовых комбинаторных аллофонов.
2. Проведены замены базовых аллофонов аллофонами, сходными по спектральным характеристикам, но взятыми из другого контекста.
3. Проведена слуховая оценка компилируемых слов, включающих как исходные базовые комбинаторные аллофоны, так и комбинаторные аллофоны со сходными акустическими характеристиками.
Таким образом, в результате исследования спектральных картин базовых аллофонов, предназначенных для компиляции слов русского языка в имеющейся системе автоматического синтеза речи, и на основании слухового анализа слов, включающих комбинаторные аллофоны со сходными акустическим характеристиками, сделан вывод о возможности сокращения числа базовых звуковых единиц практически без изменений качества звучания синтезированной речи не менее, чем на 33% базовых аллофонов гласных и 30% базовых аллофонов согласных (Бондарко и др, 1997).
В результате проведенного исследования, выполненного под руководством автора доклада, определены следующие возможности сокращения размеров ал-лофонной базы : объединение в один класс комбинаторных аллофонов гласных [а], [о], [и], [е] и р] после мягких губных, мягких переднеязычных и мягких заднеязычных согласных, что позволяет сократить примерно 8% базовых аллофонов гласных;г объединение в один класс комбинаторных аллофонов гласных [и] к [о] в контексте твердых губных и в контексте твердых заднеязычных, что позволяет сократить ещё около 4% базовых аллофонов гласных; объединение в один класс комбинаторных аллофонов гласных [а],[е] и [¡] после твердых заднеязычных и после твердых переднеязычных, а также объединение в один класс комбинаторных аллофонов гласных [а], [е], [¡], р] перед твердыми заднеязычными и перед твердыми переднеязычными, что позволит сократить ещё примерно 7% базовых аллофонов гласных; объединение в один класс базовых комбинаторных аллофонов гласных перед твердыми однофокусными и перед твердыми двухфокусными, что позволяет сократить ещё приблизительно 7% базовых аллофонов гласных; объединение в один класс базовых, комбинаторных аллофонов гласных перед согласным [)] и перед гласным р], что позволяет сократить ещё приблизительно 7% базовых аллофонов гласных; объединение в один класс комбинаторных аллофонов согласных в позиции после согласных и после гласных, что позволит сократить около 30% базовых аллофонов согласных.
4.2.2. Дифонный синтез
Дифонная модель синтеза предполагает следующие принципы формирования звуковой базы (Бондарко и др., 1997). На первой стадии оказывается необходимым определить перечень единиц, все возможные сочетания которых ограничивают количество дифонов, используемых для синтеза. Список основных аллофонов при этом дополняется некоторыми комбинаторными вариантами гласных и согласных, а также позиционными вариантами гласных, если редукция безударных (как, например, в русском языке) носит не только количественный, но и качественный характер. После этого составляется специапьная дифонная матрица, учитывающая теоретически возможные сочетания С+У, С+С, У+С , У+У, возникающие как внутри слова, так и на стыках слов. Для русского языка перечень единиц, сочетающихся в дифонах, как минимум должен включать в себя:
- 42 основных аллофона;
- звонкие аллофоны /и./. Л/'/, //':/, /х/,
- комбинаторные аллофоны /а/, /о/, /цЛ 'е/ нос-д.е мягких согпясньтх-.
- безударные аллофоны гласных, способных выступать в безударной позиции.
Невозможность ограничиться только списком основных аллофонов при составлении дифонной матрицы обусловлена следующим. Например, при алло-фонном синтезе русской речи обозначаемые специальными знаками и требующие специфического звукового воплощения звонкие [{§], [У'], [/':], [у], в дифонной модели также должны обозначаться специальными знаками (т.е. дополнять список основных аллофонов). Обозначение специальным знаком всегда предполагает наличие в звуковой базе отдельной, соответствующей знаку единицы. В аллофонной модели - наличие специального аллофона, в дифонной -наличие двухдафонов, на стыке которых при компиляции синтезируется заданное звучание. Указанным выше согласным в системе русских фонем нет звонкой пары - соответствующие звонкие в речи представлены чисто фонетически (как комбинаторные варианты). Поскольку эти комбинаторные варианты фонетически незаменимы, при составлении матрицы их необходимо учитывать наравне с основными аллофонами. В противном случае мы неизбежно столкнемся с проблемами.
Другими словами, при дифонном моделировании значительная часть знаний о влиянии контекста на гласный (или согласный) скрыта внутри дифонной базы, а в аллофонном синтезе транскрипция всегда в подробностях отражает реальное качество того или иного элемента речевой цепи. Кроме того, разные модели синтеза предполагают разные возможности минимизации звуковой базы. Так, когда единицей компиляции является дифон, обычно используют сочетания всех аллофонов со всеми, при этом аллофонная модель (см. выше) позволяет объединять разные контексты в классы и тем самым ограничивать число гласных и согласных сегментов в базе. В какой-то степени всегда возможно сокращение и дифонной базы (например, очевидно, что для /а/ перед твердыми /р/, 1x1, /к/ достаточно иметь один дифон), но на практике это пока не использовано.
I I п г: поп ¡ггп м| т тит ч мЛи,тги/л;} л^пттрттм гнитрэя ' г" т 57 т/ггв-пгл ч->: т ъ-'1 пячпяЯптиглг
1--г. .р. . . .г, . , ,, . . . . , . у----. ----неизбежно сталкивается с проблемой сегментации, поскольку наличие в звуковой системе мягких согласных в сочетании со значительной редукцией безударных гласных не позволяет строго соблюдать правило сегментации на дифоны, в соответствии с которым дифон определяется как звуковая единица, имеющая протяженность во времени от середины предыдущего звука до середины последующего. Если строго следовать данному правилу, то при последующей компиляции на внутриаллофонных стыках могут возникать значительные перепады частот формант, что негативно сказывается на качестве синтезируемой речи даже в том случае, если дополнительные программные средства так или иначе позволяют сглаживать эти перепады. Можно предполагать, что для решения проблемы достаточно дифонные границы проводить по середине стационарных участков, но на практике это не всегда осуществимо, так как переходный процесс может носить непрерывный характер.
Таким образом, в случае с непрерывным переходным процессом граница внутри-гласного обычно-проводится с точки зрения наилучшей стыковки предполагаемого дифона с потенциальными соседями. С другой стороны, гласный, например /а/ в позиции между мягкими согласными, может вообще характеризоваться отсутствием каких бы то ни было переходных участков. Подобного рода проблемы каждый раз решаются индивидуально с учетом особенностей других дифонов, составляющих базу и потенциально стыкующихся с данным. Разумеется, что всегда имеются те или иные технологические ограничения на "нарушение" принципов дифонной сегментации, при этом обычно всегда находится и компромисс между правилами и реальностью.
В ряде случаев проблема последующей успешной стыковки дифонов может быть решена исключительно на стадии определения состава звуковой базы, поскольку никакие ухищрения при сегментации не помогают преодолеть, например, противоречие, связанное с разной целевой Р-структурой фонологически одних и тех же гласных в контексте твердых и мягких согласных (под целевой Р-структурой понимается формантная структура, соответствующая заданной артнкуляторной программе). Так, при составлении перечня аллофонов и списка псевдослов было необходимо учитывать, что для ударных гласных /а/, /о/, /и/, р / о -гагг^р /ттат^ш.™ /п/ /л/ /а/ и к-птп'дь'лт*» м и г I/- гл V ппгпалгл.1У 4 \liic Г( г гги г!
V/, и иио^ ди^ишл Г и), (М , ' 41 и IV м 1 I 1 VIII. I ^ 1НГЛ дмт 'шипит возможен только на стыках слов) в звуковой базе следует предусмотреть специальные единицы.
4.2.3. Достоинства и недостатки аллофонной и дифонной моделей синтеза русской речи.
Достоинства дифонной модели синтеза речи, которые определяют ее широкое распространение во всем мире, заключаются, во первых, в высоком качестве синтезированной речи, а во-вторых, в ее высокой технологичности: для изготовления дифонной базы не требуется высокая квалификация специалиста, выполняющего сегментацию, возможно использование средств автоматической сегментации подготовленного речевого материал на дифоиы, простота правил формирования искусственного речевого потока.
К недостаткам этой модели, по нашему мнению, следует отнести:
Необходимость использования специальных программных средств, которые согласуют положение формант и щрмоник на стыках дифонов. Поскольку эти средства действуют в частотной области, они неизбежно искажают индивидуальные характеристики голоса диктора. Правда, это сказывается только на естественности синтезированной речи, а не на ее разборчивости.
Количество дифонов не может быть сокращено, хотя большое количество теоретически возможных дифонов на практике имеет чрезвычайно низкую частотность.
Применительно к русскому языку, с его сильной качественной редукцией безударных гласных, во многих случаях довольно сложно выбрать место сегментации дифона, поскольку в зависимости от контекста безударный гласный может представлять собой сплошной переходный процесс. Выбор места сегментации в таких случаях определяется только возможностями склейки разных дифонов друг с другом. Это обстоятельство в значительной мере снижает технологичность такой системы, поскольку требует высокой квалификации специалиста, выполняющего сегментацию (Skreiin, 1997).
К преимуществам аллофонной модели синтеза можно отнести высокое качество синтезированной речи, хорошую передачу индивидуальных характеристик голоса диктора, возможность сокращения набора звуковых элементов для синтеза. Недостатками этой модели являются:
Сложность выделения физических реализаций нужных аллофонов, что требует высокой квалификации специалиста, выполняющего сегментацию.
Сложность методов формирования искусственного звукового потока, поскольку границы между физическими реализациями аллофонов в ряде случаев являются условными и не всегда совпадают с границами звуковых эле
Несмотря на указанные недостатки мы считаем аллофонную модель синтеза наиболее перспективной и продолжаем работать над ее усовершенствованием.
4.2. 4. Перспективные разработки.
Новые исследования в области технологии компилятивного синтеза речи, которые проводятся на кафедре фонетики, связаны с использованием более мелких по сравнению с аллофонами звуковых единиц для формирования искусственного звукового потока (Skreiin, 1999). Эксперименты с псевдодифонами (половинками аллофонов) показали удовлетворительное качество синтезированного сигнала при существенном сокращении базовых звуковых единиц, Сегментация аллофона на два псевдодифона производится примерно посередине стацио
-----парного -участка ударных и безударных (у которых есть стационарный участок) гласных и примерно посередине переходного процесса у безударных гласных, у которых нет стационарного участка. При использовании такой технологии для одной фонемы, например, находящейся под ударением, требуются не 169 физических реализаций аллофонов (13 левых и 13 правых контекстов), а только 26 (13 левых контекстов до стационарного участка и 13 правых, начинающихся стационарным участком).
Разновидностью описанной методики можно считать использование в качестве звуковых элементов для синтеза речи еще более мелких единиц: переходных процессов и стационарных участков. Ударные гласные могут формироваться из нескольких единиц (от одной до трех) - из стационарного участка плюс, при необходимости, левый и/или правый переходный процесс. Эксперименты с формированием гласных в разных контекстах по такой методике показали, что путем точной сегментации с постоянными проверками совместимости всех элементов друг с другом можно добиться хорошего качества синтеза. Однако технологичность этого способа очень низка, а полученная экономия базовых элементов не оправдывает затрат времени на формирование их инвентаря.
Еще одной разновидностью субаллофоккого синтез« можно считать использование в качестве базовых звуковых элементов отдельных периодов основной частоты гласных, а возможно и звонких согласных и сонантов. Этот способ можно считать некоторым симбиозом компилятивного и формантного синтеза (синтеза "по правилам"), поскольку выбор периодов основной частоты для формирования звука будет осуществляться по правилам, в которых будут учитываться воздействия на акустические характеристики звука его контекста и ритмической позиции. Сами периоды основной частоты предполагается выделять из звукового массива автоматически, включать их в базу данных с описанием их физических параметров (длительности, энергии, положения формант и т.п.). Пока эта система еще далека от реализации, поэтому нет сведений о качестве синтезированной речи, полученной этим способом (Уийвшк, ЗагЬок, 1998).
Еще одним новым методом можно считать использование в синтезе речи технологии аудиоморфинга (81апеу е1 а1., 1996). Используя эту технологию можно на основе реальных стационарных участков звуков (как гласных, так и согласных) формировать новые участки, сохраняющие в своем составе все индивидуальные свойства голоса диктора, но с измененными в заданном направлении лингвистически релевантными характеристиками. Первые опыты но формированию переходных процессов между различными сочетаниями гласных и согласных, поставленные на кафедре фонетики, показали перспективность этой технологии (Шумара, 1997). Правда, возможность ее использования в системах синтеза речи в настоящее время ограничивается тем, что для выполнения необходимых вычислений в реальном масштабе времени требуется дорогостоящее оборудование.
5. Распознавание речи
Речевое сообщение при восприятии человеком расчленяется на значимые единицы, которые, в свою очередь, формируются из фонем, единиц функциональных, парадигматически друг другу противопоставленных, но не имеющих собственного значения. А.Мартине называл такое членение "двойным" (см. Мартине, 1960: 204). Системы автоматического распознавания речи могут строиться как на распознавании значимых единиц (наиболее удобными для этой цели являются слова и устойчивые словосочетания), так и фонем, с последующим объединением их в значимые единицы.
На протяжении многих лет распознавание речи строилось почти исключительно на распознавании изолированных слов. Различные технологии распознавания (КЛП, динамическое программирование, скрытые марковские модели) были направлены па преодоление междикторской произносительной вариативности и индивидуальных характеристик голосов, то есть на поиск компромисса между надежностью распознавания и количеством распознаваемых слов. Результатом этих поисков стали появившиеся системы распознавания ограниченного количества слов (до 100), независимые от диктора, и системы распознавания на основе большого словаря (до нескольких тысяч слов) с настройкой (порой, долгой и мучительной) на конкретного диктора. Концентрация усилий на распознавании слов имеет различные причины. Во-первых, при распознавании слова требуется не столько его идентификация, сколько его отличие от других.
Следовательно, при таком подходе можно опираться не только и не столько на его фонемный состав (о сложности восстановления фонемного состава слова речь будет идти ниже), но, в первую очередь, на его общие характеристики -ритмическую структуру, определенные сочетания гласных и согласных в определенных позициях. Во-вторых, распознавание слов имеет непосредственное прикладное значение, поскольку такую программу можно сразу использовать в диалоговых информационных системах, работающих по принципу реакции на ключевые слова. В-третьих, разработка подобных систем не требует фонетических знаний (Jouvet, 1996: 32), поэтому для нее не нужны такие редкие специалисты, которые сочетали бы хорошее лингвистическое (фонетическое) образование с хорошей подготовкой в области естественных наук и с навыками программирования. С другой стороны, по этой же причине такие системы могут быть многоязычными, поскольку для идентификации слова, как уже говорилось, важны любые его характеристики, которые отличают его от других.
Системы распознавания ограниченного числа слов надежно работают при соблюдении некоторых условий: изолированного произнесения каждого слова и специальной тренировки системы на корпусе звукозаписей необходимых слов в реализации большого количества дикторов. Переход от изолированного произнесения слов к слитной речи требует использования фонетических знаний о ко-артикуляции, которая может происходить на стыках слов. На основе этих знаний формируются специальные матрицы, содержащие различные варианты начальных и конечных фрагментов слова, которые могут появиться при слитном произнесении. Необходимость тренировки системы на записях большого количества дикторов существенно затрудняет пополнение словаря, поскольку каждое новое слово должно становиться объектом тренировки.
5.1. Фонетические основы распознавания речи.
Наиболее перспективными с нашей точки зрения являются системы автоматического распознавания речи, основанные на использовании лингвистических (фонетических) знаний (knowledge-based systems). Эти системы строятся на распознавании звуков речи по их акустическим характеристикам и их последующей аллофонной и фонемной интерпретации, При обработке речевого сигнала учитываются обязательные и потенциально возможные модификации фонем, вызванные коартикуляцией, фразовой и ритмической позицией. Для тренировки таких систем достаточно.корпуса фраз или словосочетаний, который включает в себя все возможные позиционные и комбинаторные варианты фонем данного языка. Системы, использующие такой принцип, могут называться "гибкими", поскольку не ограничены конкретным словарем, следовательно, в них можно добавить любое количество новых слов без дополнительной тренировки. Более того, надежность системы может повышаться не только за счет увеличения числа дикторов, начитавших тренировочный корпус фраз и словосочетаний, но и за счет включения в основной словарь различных (диалектных, региональных, стилистических) вариантов произнесения тех или иных слов. Словарь такой системы обязательно содержит транскрипционное представление не только нормативного произнесения, но и возможных вариантов. Несмотря на то, что надежность таких систем на сегодняшний день значительно ниже, чем у традиционных (см. напр., 1ооте1, 1996: 36), наши исследования в области автоматического распознавания лежат в русле именно этой идеологии. Доказательством этому служат наши исследования и разработки, речь о которых шла выше: автоматическое представление акустических характеристик гласных в потоке речи, способы сегментации речевого сигнала на языковые единицы, использующие пограничные сигналы и дистрибуцию фонем, адаптивный транскриптор для представления возможных (диалектных, региональных, просторечных, стилистических) вариантов произнесения русских словоформ и т.д.
В этом году на Международном конгрессе фонетических наук в Сан Фран-циско была продемонстрирована практически первая экспериментальная система автоматического распознавания речи на основе выделения из речевого сигнала релевантных фонетических признаков (ЬаЫп, 1999). Большой словарь (около 30000 слов) и независимость от диктора демонстрируют правильность опоры на фонетические знания при создании систем распознавания речи.
Недостаточное внимание в связи с проблемами распознавания речи мы пока уделяем исследованию просодических характеристик высказывания, учитывать которые необходимо при автоматическом определении ударного слога, кроме того, они, видимо, могут быть дополнительным признаком межсловных границ. Сложность исследования просодических характеристик заключается в том, что в нашем распоряжении пока нет средств автоматического анализа и формализации мелодических и динамических кривых и надежных средств автоматической сегментации речевого потока на звуки, которые могли бы позволить построить темпоральный контур, а в дальнейшем, его формализовать и сопоставить с ди
---------намичееким-и мелодическим как в целом, так и в соответствии с границами звуков. С другой стороны, как уже говорилось выше, формальные модели описания мелодического, динамического и темпорального контуров были разработаны для наших систем синтеза речи, что позволяет надеяться на успех в автоматическом анализе подобных контуров в целях распознавания.
Успехи в автоматической транскрипции звучащей речи, достигнутые разными научными коллективами во всем мире (см. напр., Fetter et al., 1997; Gauvain et al., 1997; Kubala et al., 1997), дают возможность сконцентрировать исследования на способах восстановления орфографического представления звучащей речи на основе ее фонетической транскрипции. Эта работа, как уже отмечалось выше, поддержана грантом РФФИ 98-06-80431. К настоящему времени уже намечены подходы к сегментации последовательности транскрипционных знаков иа словоформы с опорой на ударные слоги и с учетом возможных вариантов произнесения открытых слогов (Zharkov, 1998). Разработан гибкий автоматический транскриптор, который позволил затранскрибировать разработанный нами для синтеза речи морфемный словарь (около 1 590 ООО словоформ) в соответствии с нормативным произнесением. Все словоформы представлены в виде открытых слогов, организованных в базу данных, что позволяет проводить статистические исследования их встречаемости в речи и установить список слогов, возможных только на границах слов. б. Компьютерные обучающие программы
На протяжении нескольких лет сотрудники кафедры фонетики активно участвовали в создании компьютерных программ для обучения иностранным языкам, в том числе и русскому как иностранному. Особое внимание при разработке обучающих программ уделялось использованию цифрового звука и, соответственно, фонетическому качеству звукового материала. Большинство обучающих программ создавались в 1989-1993 годах, когда существовали технические ограничения на объем оперативной и дисковой памяти, на разрядность звуковых карт, на графические возможности мониторов и видеоадаптеров, а распространение программ было возможно только на дискетах. Эти ограничения постоянно заставляли искать компромисс между необходимым и достаточным объемом звукового материала,, используемого в примерах и упражнениях, и его фонетическим качеством.
6.1. Обучение произношению и интонации.
Для обучения фонетике русского и иностранных языков были разработаны компьютерные программы Звуковой словарь русского языка, Читаем по-русски. Русская интонация, Немецкая интонация; большой объем работ был выполнен по компьютерным курсам французской и английской интонации.
Звуковой словарь русского языка представляет наиболее частотную русскую лексику (Морковкин и др., 1984) в реализации нормативного диктора-мужчины. В словарь введен перевод каждого слова на английский язык и предоставлена возможность ознакомиться со словоизменительной и акцентной парадигмой каждой лексемы (Ромашкин, Скрелин, 1990). Звуковой материал был оцифрован с частотой дискретизации 20000 Гц на 12 разрядов. Общий объем оцифрованного звукового материала составляет около 70 Мб, что делает практически невозможным его распространение на дискетах. В связи с этцм, было принято решение о его максимальной компрессии с сохранением удовлетворительного фонетического качества. Наилучший компромисс фонетического качества и степени сжатия (10 раз) был обеспечен алгоритмами компрессии, разработанными в Центре цифровой обработки сигналов Университета телекоммуникаций им. Бонч-Бруевича. В результате обработки весь словарь разместился на семи дискетах, объемом по 1,2 Мб.
Программа Читаем по-русски представляет собой свод правил чтения (от буквы к звуку), звуковые примеры и транскриптор, преобразующий орфографический текст в последовательность фонем или аллофонов. Количество звуковых примеров составляет около 80, что позволяет их сохранять на дискете без сжатия.
Программа Русская интонация включает в себя около 400 оцифрованных звуковых единиц (фраз, монологов и диалогов) в реализации двух нормативных дикторов (мужчины и женщины). Звуковой материал используется в виде примерой интонационных конструкций, упражнений для отработки правильных мелодических моделей и тестов на восприятие. Весь звуковой материал приведен в программе без сжатия, но оцифрован с частотой дискретизации 8000 Гц. -Этачастотавполне допустима для изучения интонационных характеристик высказывания, хотя и не обеспечивает высокого качества представления сегментных характеристик некоторых звуков. Такой подход позволил разместить программу и заархивированный звуковой материал на четырех дискетах 1,44 Мб. Сама программа построена на интонационных конструкциях Е.А.Брызгуновой (Брызгунова, 1981), использует записи нормативных дикторов (мужчины и женщины). Основной методический прием - получение ответа не на прямой вопрос, типа "Назовите реализованную интонационную конструкцию", а на различные косвенные вопросы, типа "Выберите ответ или продолжение (из предложенного списка" или "Выберите правильный знак препинания (из нескольких вариантов)".
Компьютерные программы, ориентированные на обучению лексике, словоупотреблению, устойчивым формулам речевого общения, разговорному языку, с точки зрения компромисса между объемом дисковой памяти и качеством, не требовали сохранения максимального фонетического качества оцифрованного речевого сигнала. В связи с этим, в программе Русский язык в картинках использовались те же параметры цифрового звука, что и в курсе русской интонации. В компьютерном курсе разговорного русского языка применялся смешанный подход: в словаре, который включал в себя всю используемую лексику с переводом на английский язык и комментарии по ее использованию в различных конструкциях, а также эталонное звучание каждой лексической единицы, использовались те же алгоритмы компрессии, что и в Звуковом словаре, а диалоги и монологи вводились с частотой дискретизации 8000 Гц, а затем компрессировались. В результате, программа занимает 7 дискет по 1,2 Мб, хотя кроме звукового материала (словарь на 800 слов и более 400 диалогов), в ее состав входит большое количество графики и мультипликации.
6.2. Использование синтеза и распознавания речи в обучающих программах.
В настоящее время современная компьютерная техника сняла практически все прежние технические ограничения. Однако прогресс в области речевых и информационных технологий открывает совершенно новые перспективы в создании компьютерных программ для обучения языкам. Разработанные системы автоматического распознавания речи можно использовать при обучении произношению (Carson-Berndsen, 1998; Witt, Young, 1998), системы автоматической обработки текста могут использоваться при обучении чтению (Docter, Nerbonne, 1998; Hu et al., 1998) и грамматике (Docter et al., 1998), развитие Интернет в сочетании с речевыми технологиями позволяет по-новому представить дистанционное обучение (Rothenberg, 1998).
Наш опыт разработки компьютерных программ для обучения иностранным языкам, в сочетании с опытом разработки систем автоматического синтеза речи и средств компьютерного анализа речевого сигнала, позволили создать три действующих модели обучающих программ нового поколения. Прежде, чем перейти к описанию этих моделей необходимо пояснить, в чем, собственно, состоят преимущества использования достижений речевых технологий в обучающих программах.
На наш взгляд, если иметь в виду полноценное, всестороннее образование, никакая обучающая программа не может заменить учителя, а может помогать учителю и ученику в освоении материала. Поэтому цель обучающей программы состоит в том, чтобы
1) снять с учителя наименее творческую и рутинную часть его обязанностей (проверку усвоения учащимися материала и дополнительные разъяснения) и облегчить ему составление учебных заданий;
2) обеспечить учащимся быстрый и удобный доступ к дополнительным разъяснениям и информации в процессе выполнения задания;
3) позволить учащемуся выполнять учебные задания с учетом его индивидуальных особенностей, то есть, с удобной для него скоростью.
Доступ учащегося к необходимой или дополнительной информации может быть эффективно решен и решается через систему ссылок, подсказок и помощи, которые уже давно включаются в существующие обучающие программы. При выполнении учебного задания во внеучебное время, учащийся, естественно, выбирает тот режим работы, который ему наиболее удобен. При выполнении гестов в учебное время преподаватель может сам устанавливать правильный, с его точки зрения, режим работы.
Проверка тестов, входящих в состав любой обучающей программы, выполняется самой программой: результаты работы каждого учащегося обычно либо распечатываются для преподавателя, либо, если компьютеры объединены в сеть, выдаются на его монитор (принтер).Тесты или контрольные упражнения могут быть уже включены в компьютерную программу (обычно так это и бывает), что не всегда удобно, поскольку может потребовать переработки учебного плана для того, чтобы использование обучающей программы было оправданным и эффективным. Поэтому многие учебные заведения принимают решение о самостоятельной разработке обучающих программ, тесно увязанных с учебными планами изучаемых дисциплин, а не приобретают готовые, разработанные под другие учебные планы.
Другой подход к формированию тестов и контрольных упражнений состоит в том, чтобы предоставить преподавателю их готовить самостоятельно. При этом, как правило, преподаватель должен сам готовить и эталонные ответы, с которыми программа будет сверять ответы учащихся. Вот как раз эту рутинную работу и хотелось бы автоматизировать с помощью тех разработок, которые применяются в системах автоматического синтеза и распознавания речи. Для иллюстрации таких возможностей рассмотрим несколько примеров.
Адаптация автоматического транскриптора для использования в целях контроля знания правил чтения и транскрипции позволяет предлагать учащимся в качестве задания произвольный текст в орфографической форме. Результат автоматической транскрипции этого текста и будет служить тем, эталоном, с которым программа сверяет результат работы учащегося.
Использование модуля расстановки ударений из системы синтеза русской речи позволил создать макет обучающей программы "Омограф". Эта программа обрабатывает произвольный текст для того, чтобы п&ити все лексические единицы, в которых ударение может падать на разные слоги, указывая либо лексическую принадлежность слова (типа, замок - замок), либо морфологическую категорию {руки - руки). Из отобранного массива предложений, включающих такие слова, преподавателю остается только отобрать те, которые целесообразно использовать в качестве упражнений (ЭкгеНп, Уо1зкауа, 1998). Если преподаватель отбирает такие предложения, в которых сам модуль расстановки ударений правильно определил место ударного гласного, то результат работы этого модуля также может служить эталоном для сверки ответов учащихся.
Использование модуля интонационной транскрипции из системы синтеза русской речи позволил создать макет программы, осуществляющей поиск в произвольном тексте заданных интонационных конструкций. Найденные фразы, содержащие нужные интонационные конструкции, могут использоваться преподавателем для формирования учебных заданий или контрольных упражнений. Подключение к обучающей программе системы синтеза текста и модуля автоматического выделения частоты основного тона позволит сравнивать нормативную реализацию интонационного контура с его реализацией учащимся.
На основе системы синтеза русской речи был построен макет обучающей программы "Диктант". В этой программе произвольный текст синтезируется по фразам или словам, а учащийся вводит его в компьютер с клавиатуры. Естественно, фраза, синтагма или отдельное слово, по желанию учащегося, могут быть воспроизведены любое количество раз. Текст, введенный учащимся автоматически сравнивается с эталоном. Задача преподавателя заключается в выборе текста и, на основании протокола ошибок, составленного программой, оценить результаты работы учащегося (8кге)ш, УоЫкауа, 1998).
В перспективе, качественные системы автоматического распознавания и синтеза речи могут лечь в основу больших обучающих игр, в которых учащийся будет общаться с компьютером с помощью естественной речи на изучаемо** языке, а программа будет оценивать и его произношение, и правильность интонационного оформления высказывания, и адекватность реакции на инструкции или реплики на иностранном языке, и использование лексики и грамматических конструкций.
7. Заключение. Планы и перспективы.
В настоящее время на кафедре фонетики ведутся работы по следующим направлениям, тесно связанным с нашими традиционными интересами в области фонетических характеристик звучащей речи.
1. Проводятся эксперименты, направленные на исследование индивидуальных дикторских характеристик в целях его автоматической идентификации. Цель этих исследований состоит в определении акустических характеристик, отвечающих за идентификацию диктора не столько для того, чтобы производить его верификацию, хотя эта задача сама по себе очень актуальна в прикладном отношении, сколько для того, чтобы формировать искусственный —речевой сигнал с заданными индивидуальными характеристиками. Это позволит на основе одной базы звуковых элементов, изменяя дикторские характеристики, сохраняющиеся в этих звуковых элементах, получать синтезированную речь, имитирующую особенности разных людей. Тот опыт, которым мы уже располагаем, позволяет предположить, что индивидуальные особенности голоса проявляются на только в тембральных характеристиках, но и в просодической организации высказывания (в первую очередь, во временной и мелодической). Индивидуальное произношение мы умеем моделировать уже сейчас с помощью адаптивного автоматического транскриптора. 2. Успехи в области синтеза и распознавания речи позволили сформулировать новую исследовательскую задачу - разработку системы автоматического перевода устной речи. Эта работа ведется на кафедре в тесном сотрудничестве с Лабораторией инженерной лингвистики РГПУ им. Герцена в рамках Федеральной целевой программы "Интеграция". Первый результат этого сотрудничества был продемонстрирован на международном симпозиуме "SPECOM'98" в ноябре 1998 г. в Санкт-Петербурге. На симпозиуме был представлен макет системы устного англо-русского перевода. В качестве модуля автоматического распознавания английской речи была использована американская программа "Dragon Dictate", в качестве модуля перевода - система автоматического англо-русского и русско-английского перевода, разработанная, в Лаборатории инженерной лингвистики, а в качестве синтезатора русской речи - система аллофокного синтеза русской речи, разработанная на кафедре фонетики. Демонстрационный макет успешно продемонстрировал свои возможности и вызвал живой интерес со стороны специалистов в области речевых технологий, приехавших из разных стран мира.
Бурное развитие речевых технологий настоятельно требует подготовки специалистов, которая обеспечивала бы широкое филологическое и целенаправленное фонетическое образование с навыками программирования и знаниями современного состояния в смежных научных областях. В связи с этим, на кафедре фонетики было организовано обучение по дополнительной специализации "Прикладная лингвистика (Речевые технологии)". Учебная программа специализации рассчитана на два года обучения, включает в себя как теоретические, так и практические занятия и завершается защитой квалификационной работы (Бондарко, Скрелин, 1998). В 1999 г. был проведен первый выпуск 6 студентов, обучавшихся по этой дополнительной специализации, который показал, что цель обучения достигнута, а полученная выпускниками квалификация позволит им успешно работать в области речевых технологий.
Основные положения работы отражены в следующих публикациях: Богданова Н.В., Овчаренко Е.Б., Скрелин П.А., Степанова С.Б. Исследования фонетически представительного русского материала в целях совершенствования систем синтеза и распознавания речи // АРСО-16, М., 1991, сс. 96. 97.
Бондарко Л.В., Люблинская В.В. Скрелин П.А. Фонетический фонд речевых данных при использовании в экспертных системах и при обучении // INFO-89, ч. 2, Минск, 1989, сс. 1125-1130. Бондарко Л.В., Светозарова Н.Д., Скрелин П.А. Фонетический фонд русского языка как исследовательская программа кафедры фонетики Ленинградского университета. - Бюллетень Фонетического фонда русского языка. № 4. СПб.; Бохум, 1992, сс, .5-16. Бондарко Л.В., Кузнецов В.И., Светозарова Н.Д., Скрелин П.А. Фонд звуковых единиц русской речи. - Приложение No.3 к Бюллетеню фонетического фонда русского языка. СПб.; Бохум, 1993, 85 с. Бондарко Л.В., Кузнецов В.И., Скрелин П.А., Шалонова К.Б. Звуковая система русского языка в свете задач компилятивного синтеза, — Бюллетень Фонетического фонда русского языка. № 6, СПб.; Бохум, 1997, сс. 60-84. Бондарко Л. В. Скрелин П.А. Научно-методические аспекты открытия дополнительной квалификации "Речевые процессы и технологии" на филологическом факультете СПбГУ. - Материалы XXVII межвузовской научно-методической конференции преподавателей и аспирантов, выпуск 10, СПб,
1998, сс. 3-6. f" '
Г.С\
Вольская Н.Б., Светозарова Н.Д., Скрелин II.A. Моделирование просодического оформления русского текста. - Бюллетень Фонетического фонда русского языка, № 6. СПб.; Бохум, 1997, сс. 85-110.
Кузнецов В.И,г Скрелин П.А. Натуральность синтезированной речи - , - Бюллетень Фонетического фонда русского языка. № 5. СПб.; Бохум, 1994, сс. 7281.
Ромашкин Ю.В., Скрелин П.А. Звуковой словарь русского языка. - В кн.: Использование ЭВМ в научной и учебной работе гуманитарного вуза: МГПИИЯ, Минск, 1990, с. 17.
Скрелин П.А. Интонационная норма и ее вариантность в спонтанной речи представителей разных социальных слоев // Проблемы доказательства и типоло-гизации в фонетике и фонологии, М., 1989, сс. 93-94.
Скрелин П.А. Просодические корреляты уровня речевой культуры. - Экспериментально-фонетический анализ речи, вып. 3, СПб, 1997, сс. 52-60.
Скрелин П.А. Роль просодических характеристик в определении уровня речевой культуры говорящего // Нормы человеческого общения, Горький, 1990, сс. 124-125.
Скрелин П.А. Сегментация и транскрипция. СПб, 1999,108 с.
Скрелин П.А. Акустические базы данных для фонетических исследований // Фонетика сегодня: актуальные проблемы и университетское образование. М., 1 ооо со 100-102.
Скрелин П.А., С.О.Тананайко, КБ.Шалонова. Акустическая база данных для севернорусских сказок // Герценовские чтения. СПб, 1997, сс. 90-92.
Bondarko L.V., Kuznetsov V.I, .Sveiozarova N.D, Skrelin P.A., Talanov A.O., Volska-ya N.B., Zharkov I. V. RUSVOX - the Concatenation Speech Synthesis System for Russian // Proe. ofSPECOM'96. St.-Peiersburg, 1996. P. 165-166. Kuznetsov V., Skrelin P. Phonetically representative text as a basis for automatical recognition and synthesis of speech // Anthropomorphic systems of automatical speech recognition & synthesis, St.Pctersburg, 1993. P. 45-47.
Skrelin P. Allophone-Based Concatenative Speech Synthesis System for Russian // Proc. of TSD'99, Berlin, 1999. P. 156-159.
Skrelin P. Concatenative Russian Speech Synthesis: Sound Database Formation Principles // Proc. of SPECOM'97, Cluj-Napoca, 1997, pp. 157-160.
Skrelin P. The Linguistic Software of the Concatenation Synthesis Systems for Russian Speech //Proc. ofSPECOM'96. St.-Petersburg, 1996. P. 165-166.
Skrelin P., Shalonova £Using Rules of Consonnant Distribution for Russian Con' tirtuous Speech Automatic Segmentation // Proc. of TSD'98, Brno, 1998. P. 317320.
Skrelin P., Shumara S., Shalonova K. Acoustic Transcription (Representation) of Russian Vowels in Speech Technologies // Proc. of SPECOM'98. St.-Petersburg, 1998. P. 265-268.
Skrelin P., Talanov A. Sound Databases in the Phonetic Studies // Proc. of 14-th ICPhS, San Francisco, 1999. P. 1213-1216.
Skrelin P., Volskaya N. Application of New Technologies in the Development of Educational Programs // Language Teaching and Language Technology. Lisse, 1998. P. 21-24.
Skrelin P., Volskaya N. The Structure of an Acoustic Database for the Old Recordings If Archives of the Languages of Russia. Saint-Petersburg-Groningen, 1996. P. 8285.
Литература
Бондарко Л.В., Кузнецов В.И., Скрелин П.А., Шалонова КБ. Звуковая система русского языка в свете задач компилятивного синтеза. - Бюллетень Фонетического фонда русского языка. № 6. СПб.; Бохум, 1997, сс. 60-84.
Бондарко Л.В., Скрелин НА. Научно-методические аспекты открытия дополнительной квалификации "Речевые процессы и технологии" на филологическом факультете СПбГУ, - Материалы XXVII межвузовской научно-методической конференции преподавателей и аспирантов, выпуск 10, СПб, 1998, ее, 3-6.
Брызгунова Е.А. Звуки и интонация русской речи. М., 1981.
Вольская Н.Б., Светозарова Н.Д., Скрелин П.А. Моделирование просодического оформления русского текста. - Бюллетень Фонетического фонда русского языка. № 6. СПб.; Бохум, 1997, сс. 85-110.
Елкина ЯН., Загоруйко И.Г. Алфавит объектов распознавания. // Распознавание слуховых образов. Новосибирск, 1970, сс. 302-336.
Жаркое И.В., Слободянюк С.Л., Светозарова Н.Д. Автоматический акцентно-интонационный транскриптор произвольного русского текста. - Бюллетень Фонетического фонда русского языка. № 5. СПб.; Бохум, 1994, сс. 58-71.
Зиновьева Н, Ä, Кривнова О.Ф. Прикладные системы с использованием-фонети-ческих знаний И Проблемы фонетики, М., 1993, с.288-309.
Книпшипд М. Краткое руководство к системе SAP/SONA. - Бюллетень фонетического фонда русского языка. № 1. Л.; Бохум, 1988, сс. 57-64.
Криштоп A.B. Методы выделения основного тона речевого сигнала и способы его модификации. - Материалы XXVI межвузовской научно-методической конференции преподавателей и аспирантов, выпуск 5, СПб, 1997, сс. 27-30.
Кузнецов В. И. Гласные в связной речи. СПб, 1997.
Мартине А. Принцип экономии в фонетических изменениях. М., 1960.
Люблинская В., Саппок К. Восприятие высоты мелодического контура. - Бюллетень Фонетического фонда русского языка. № 3. Л.; Бохум, 1990, сс.61-81.
Морковкин В.В.,-Беж И.О., Дорогонова И.А., Иванова Т.Ф., Успенская И.Д. Лексическая основа русского языка. М., 1984.
Роматтт Ю.В., Скре-iun П.А. Звуковой словарь русского языка. - В кн.: Использование ЭВМ в научной и учебной работе гуманитарного вуза: МГПИИЯ, Минск, 1990, с. 17.
Сапожков М.А. Речевой сигнал в кибернетике и связи. М., 1963.
Саппок гС. Аудитивные знания и кх функции в ситуативной речи. — Бюллетень Фонетического фонда русского языка. № 6. СПб.; Бохум, 1997, сс. 5-27.
Скрелин П.А. Просодические корреляты уровня речевой культуры. - Экспериментально-фонетический анализ речи. Вып. 3. СПб, 1997, сс. 52-60.
Скрелин П.А. Сегментация и транскрипция. СПб, ' 999.
Шумара CJO. Построение переходных процессов между звуками речи. - Материалы XXVI межвузовской научно-методической конференции преподавателей и аспирантов, выпуск 5. СПб, 1997, сс. 31-34.
Щерба Л.В. О трояком аспекте языковых явлений и об эксперименте в языкознании. - Языковая система и речевая деятельность. Л., 1974. С. 24-38.
Bondarko L.V., Kuznetsov V.J, .Svetozarova N.D, Sb-elin P.A., Talanov A.O., Volska-ya N.B., Zharkov I. V. RUSVOX - the Concatenation Speech Synthesis System for Russian // Proc. of SPECOM'96. St.-Petersburg, 1996. P. 165-166.
Boeffard-Dosierre O. Segmentation automatique d'unités acoustiques pour la synthese de la parole // These de doctorat., Rennes, 1993.
Carson-Berndsen J. Computational Autosegmental Phonology in Pronunciation Teaching // Language Teaching and Language Technology. Lisse, 1998. P. 1Î -20.
Dobrisek S., Gros J., Mihelic F., Pavesic N. Automatic Segmentation and Labelling for the GOPOLIS Speech Database // 2-nd SQF.L Workshop, Plzen, 1997, pp. 8083.
Docter D., Nerbonne J. A Session with Olosser-RuG // Language Teaching and Language Technology. Lisse, 1998. P. 88-94.
Docter D. Nerbonne J., Schiircks-Grozeva L., Smit P. Glosser-RuG: A User Study // Language Teaching and Language Technology. Lisse, 1998. P. 167-176.
Fetter P., Haiber U., Regel-Brietzmann. A Low-Cost Phonetic Transcription Method //Proc. of EUROSPEECH'97, Patras, 1997.
Gauvain J-L., Lamel L, Adda G., Adda-Decker M. Transcription of Broadcast News // Proc. of EUROSPEECH'97, Patras, 1997.
Gigi E.F., Vogien L.L.M. A mixed-exitation vocoder, based on exact analysis of harmonic components // IPO Annual Progress Report, v. 32, 1997. P. 105-110.
Hu O. Hopkins J., Phinney M. NativeEnglish™ Writing Assistant - A CALL Product for English Reading and Writing // Language Teaching and Language Technology. Lisse, 1998. P. 95-100.
Holmes J.N., Holmes W.J., Garner P.M. Using Formant Frequencies in Speech Recognition // Proc. of EUROSPEECH'97, Patras, 1997.
Jouvet D. Robustesse et flexibilité en reconnaissance automatique de la parole. -L'écho des Recherches, № 165, 1996. P. 25-38.
Kipp A., Wesenick M-B., Schiel F. Pronunciation Modelling Applied to Automatic Segmentation of Spontaneous Speech //' Proc. of EUROSPEECH'97, Patras, 1997.
Kitaazawa S., Ichikawa H.: Kobayashi S., Nishinuma Y. Extraction and Representation Rhythmic Components of Spontaneous Speech // Proc. of EUROSPEECH'97, Patras, 1997.
Kubala F„ Jin II, Matsoukas S., Nguyen L., Schwartz R., Makhoui J. Advances in Transcription of Broadcast News // Proc. of EUROSPEECH'97, Patras, 1997.
Kuznetsov V., Sherstinova T. Phonetic Transcription for the Systems of Speech Synthesis and Recognition // Proc/ of TSD'98, Brno, 1998. P. 263-267.
Lahiri A. Speech Recognition with Phonological Features // Proc. of 14-th ICPhS, San
------Francisco, 1999. P. 715-718. —
Micallef P., Chilton T. Automatic Identification of Phoneme Boundaries Using a Mixed Parameter Model // Proc. of EUROSPEECH'97, Patras, 1997.
Mokbel //., Jouvet D. Automatic Derivation of Multiple Variants of Phonetic Transcriptions from Acoustic Signals // Proc. of EUROSPEECH'97, Patras, 1997
Moulines E., Charpentier F. Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. - Speech Communications, Vol. 9, Dec. 1990, pp. 453-467.
Nunes H.E., Nagle E.J., da Silva C.H., Runstein F. Automatic Phonemic Segmentation of Brazilian Portuguese Speech Databases // Proc. of TSD'98, Brno, 1998, pp. 287-292.
Ode C. Russian Intonation: a Perceptual Description, Amsterdam, 1989.
Rothenberg M. The New Face of Distance Learning in Language Instruction /'/' Language Teaching and Language Technology. Lisse, 1998. P. 146-148.
Rootsmaa T., Proszeky G. GLOSSER - Using Language Technology Tools for Reading Texts in a Foreign Language // Language Teaching and Language Technology. Lisse, 1998. P. 101-107.
Shalonova K. Flexible Transcriber for Russian Continuous Speech // Proc. of SPECOM'97. Cluj-Napoca, 1997. P. 171-174.
Skrelin P. AIlophone-Based Concatenative Speech Synthesis System for Russian // Proc. of TSD'99, Berlin, 1999. P. 156-159.
Skrelin P. Concatenative Russian Speech Synthesis: Sound Database Formation Principles // Proc. of SPECOM'97, Cluj-Napoca, 1997, pp. 157-160.
Skrelin P. The Linguistic Software of the Concatenation Synthesis Systems for Russian Speech // Proc. of SPECOM'96. St.-Petersburg, 1996. P. 165-166.
Skrelin P., Shalonova K.Using Rules of Consonnant Distribution for Russian Continuous Speech Automatic Segmentation//Proc. of TSD'98, Brno, 1998. P. 317— 320.
Skrelin P., Shitmara S., ShalonovaK. Acoustic Transcription (Representation) of Russian Vowels in Speech Technologies // Proc. of SPECOM'98. St.-Petersburg, 1998. P. 265-268.
Skrelin P., Talanov A. Sound Databases in the Phonetic Studies // Proc. of 14-th ICPhS, San Francisco, 1999. P. 1213-1216.
Skrelin P., Volskaya N. Application of New Technologies in the Development of Educational Programs // Language Teaching and Language Technology. Lisse, 1998. P. 21-24.
Slaney M., Covell M, Lassiter B. Automatic Audio Morphing // Proc. of the 1996 International Conference on Acoustics, Speech and Signal Processing", Atlanta, 1996.
Vintsiuk T., Sazhok M. Speaker Voice Passport for a Spoken Dialogue System. // Proc. of SPECOM'98. St.-Petersburg, 1998. P. 275-278.
Volskaya N. The Influence of the Segment Context on the Realisation of Rising FO Patterns in Russian. //Proc. of 14-th ICPhS, San-Francisco, 1999. P. 1985-1989.
Werner S. La modélisation de l'intonation pour la synthèse de la parole. - Les défis actuels en synthèse de la parole // Etudes des Lettres, 1997, v. 3.
Witt S., Young S. Computer-Assisted Pronunciation Teaching Based on Automatic Speech Recognition // Language Teaching and Language Technology. Lisse, . 1998. P. 25-35.
Zkarkov I. Segmentation of Continuous Speech with Stress as a Word-forming Element. //Proc. of SPECOM'98. St.-Petersburg, 1998. P. 311-314.
ОГЛАВЛЕНИЕ
Введение.3
1. Цифровая обработка речевого сигнала ... 5
1.1. Возможности цифровой обработки.6
1.2. Особенности фонетических задач и способы их решения . 7
1.2.1. Формат представления звукового сигнала.7
1.2.2. Представление сигнала во временной области (осциллограмма) 9
1.2.3. Сегментация речевого сигнала.11
1.2.4. Представление сигнала в частотной области.17
1.2.5. Фонетические эксперименты.20
1.2.6. Эксперименты по восприятию.26
2. Базы данных речевых сигналов.28
2.1. Известные базы данных.30
2.2. Акустические базы данных, разработанные на кафедре фонетики . 31
2.2.1. Звуковой архив.31
2.2.2. Корпус речевых данных.34
3. Обработка языковых данных (Natural Language Processing).37
3.1. Фонетические задачи при обработке орфографического текста.38
3.1.1. Предварительная обработка орфографического текста.38
3.1.2. Моделирование, фонетической (сегментной) транскрипции . 39
3.1.3. Моделирование интонационной транскрипции.40
3.2. Фонетические задачи при обработке звучащего текста.42
3.2.1. Средства, облегчающие выполнение фонетической (сегментной) транскрипции.42
3.2.2. Средства, облегчающие выполнение интонационной транскрипции.,.46
4. Синтез речи.47
4.1. Известные модели синтеза речи.47
4.2. Системы компилятивного синтеза ™?чи, разрабатываемые на кафедре фонетики СПбГУ.47
4.2.1. Аллофонный синтез.47
4.2Л. 1. Формирование звуковой базы для аллофонного синтеза.47
4 2 12 Оптимизация звуковой базы для -аллофонного синтеза.52
4.2.2. Дифонный синтез.54
4.2.3. Достоинства и недостатки аллофокной и дифонной моделей синтеза русской речи.56
4.2.4. Перспективные разработки.57
5. Распознавание речи.59
5.1. Фонетические основы распознавания речи.60
6. Компьютерные обучающие программы.62
6.1. Обучение произношению и интонации.63
6.2. Использование синтеза и распознавания речи в обучающих программах.64
7. Заключение. Планы и перспективы.67
Литература.71