автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Принципы и процедуры автоматического двухуровневого анализа просодических характеристик высказывания
Полный текст автореферата диссертации по теме "Принципы и процедуры автоматического двухуровневого анализа просодических характеристик высказывания"
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ГГП 0.]
На правах рукописи
ПОПОВА Светлана Александровна
ПРИНЦИПЫ Н ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО ДВУХУРОВНЕВОГО АНАЛИЗА ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК ВЫСКАЗЫВАНИЯ
Специальность 10.02.19 - Теория языкознания
АВТОРЕФЕРАТ ' диссертации нр соискание ученой степени кандидата филологических наук
САИКТ-ПЕТЕРВУРГ 1993
Диссертация выполнена на кафедре матенатической лингвистики Санкт-Петербургского государственного университета
Научный руководитель - кандидат филологических наук.
доцент В.Д.Буторов
Официальные;оппоненты ^ доктор филологических наук,
профессор Н.Д.Светозарова г- кандидат филологических наук А.В.Данилов
Ведущая организация - Московский государственный университет им, Ломоносова.
Защита диссетации состоится "25" декабря 1093 года на заседании Специализированного совета К.063.67,52 по присуждению ученой отепени кандидата наук ' в Санкт-Петербургском государственном университете по адресу:
199164. Санкт-Петербург, .Университетская на?>., д. II, филологический факультет.
С диссертацией можно ознакомиться в научной библиотеке имени Горького Санкт-Петербургского государственного университета) Санкт-Петербург, Университетская наб., д.7/9. 1
Автореферат разослан ноября 1993 года.
Ученый секретарь Специализированного совета, кандидат
«дологических наук, доцент '¿^С > / О.И.Вродович
I. Общая характеристика работы.
В работе рассматриваются пршшшш двухуровневого автоматического анализа просодического оформления высказывания на материале связного тс::г.та. Просодический анализ является неотъемлемой компонентой современных систем распознавания речи, на что указывают все специалисты данной области.
В данной работе обсуждается один из способов анализа просодии сопоставительный. позволяющий комплексно использовать просодические характеристики,- ставящий своей целью поиск Формальных критериев для выделения существенных изменений просодических параметров и выявление формальных коррелятов функций просодических средств.
В настоящее время известны два классических метода анализа просодической информации: инструментально-слуховой и формальны'!. Инструментально-слуховой метод анализа представляет собой, п оушновти, экспертную, интерпретацию речевого потока. Обширны« научный и исследовательский опыт эксперта, [¡одкреплвнннй суммарным внаиивм и квалифицированной ориентацией в данной ■ проблемной области, является фундаментом инструментально-слухового метода. Формальный подход исследует поведение значимых физико-акустических характеристик . звукового сигнала без его предварительной сегментации на лингвистические единицы. • У каждого метода своя сфера применения и свои ограничения, диктуемые самой природой этих методов. В частности, в прикладных автоматизированных системах, использующих просодический анализ (системы распознавания и понимания речи, системы, обучающие правильной интонации, и т.д.), могут применяться только формальные методы. исключающие
непоорвдзтвбшюа обращение к субъективном зияниям и интуиции эксперта, что аначитвльио сужает круг навлекаемой просодической ¡«(формации по сравнению с инструментально-слуховыми методами.
В работе предпринята попытка синтеза преимуществ двух описанных подходов: теоретические положения и экспериментальные дшшмв, накопленные инструментально-слуховой фонетикой, суммируются и обобщаются автором в ьндв автоматической процедуры. Набор формальных алгоритмов. применяемых при независимом просодическом анализе, дополнен своеобразной экспертной системой, состоящей иа базы знаний и правил оперирования ими, что позволяет соединить вместе богатый накопленный опыт традиционных ииструмеиг&лыю-слухоаих методов и строгость формального анализа. Рассматриваемый формальный аппарат реализован 'автором в виде комплекса программ для персонального компьютера. Соединение двух различных методов анализа просодического оформления речевого сигнала: инструментально-слухового и формального - достигается путем сопоставления результатов анализа/ полученных одним и другим методом на одном и том же речевом материале. Автор предлагает реализацию такого сопоставительного исследования как /(вухуровневыР анаяиа.
Первый уровень - автоматический анализ транскрипцш высказывания с помощью бааы знаний лингвистических факторов1
5 Лингвистические фактору - это определенные языковые закономерности, влияющие на вначения просодических признаков. Например, длительность и интенсивность гласного звука существенно различаются в зависимости от степени его ударности и его позиции е высказывании. ' '
Результатом анализа являются некоторые предзаритадыше заключения о возможном поведении чоототы основного тона и инготяюно^тп о процессе реализации высгпрывания, предсклзшшз "сильных" или "олабнх", с точки зрения выраженности ироооличпоки* ,
участии«'речевого сигнала.
Нторо'й уровень - автоматический анализ конкретных аначопий просодических примаков для 'данной реализации раскалывания, выявления информативных учпсткоп частоты основного тона и интенсивности о помоиь» формальных методов анализ'».
1!ййШ11РМ исследования является ваяииосвязь мояеду ннбором Акторов, воздвнетвукчцих ил просодическое оформление высказывания и его едшшп, и реальными значениями просодических характеристик донного выскпторчния.
Ц9ФЫ5 даниоО роботы является поиск формальных критериев для выдолешт судастаянных изменений просодических ясрамотроо и • выявление формальных корролятсв функция просодических средств среди значений параметров речевого сигнала, на который воздействуют различим« лингвистические факторы.
Яоетиячнич ука.?,пн,нс'п ичли требует решения следующих зддоа: снстршхтимнроадть лингвистический фактори, влияющий нп нропзлбнио • просодических признаков (на основ* дпшп», ннотрумвитйльно-сдуховоп Фонетики):
- разработать процедуры ввтоия ччвекой характериавшш выекпинпвкич с помощь» выявленного набора лингвистических факторов;
- рияройотать процедуры автоматической классификации олом.мпт')) высказывания по группам аквич&лентнссти в адвиспчости от воздействующих лингвистических факторов:
- ч» ■
- определить те характеристические точки в рядах значений просодических признаков, которые могут быть использованы в независимом просодическом анализе;
разработать процедуры автоматического выделения характеристических аначений и их классификации по группам эквивалентности;
- выработать критерии для создания экспериментального корпуса фраз (текста), проверить построенный формальный аппарат на материале экспериментального текста.
Для решения поставленных задач используется следующие методы:
1) бинарное кодирование лингвистических факторов и группировка элементов транскрипционной записи методом кластерного анализа бинарных ,цепочек;
2) метрический кластерный анализ' аначений выделенных характеристических точек;
3) сопоставительный аналиа полученных группировок для выявления корреляции между ними и нахождения формальных коррелятов лингвистическим факторам.
Описанная в работе система автоматизированных процедур является попыткой построения формального аппарата для сопоставительного анализа теоретических представлений и реальных вначений просодических признаков в звучащей речи.
Актуальность данной работы определяется потребностью в пояучении данных нового типа для систем, имеющих этап автоматического просодического анализа, в нахождении инвариантных представлений просодических характеристик для использования 6 автоматизированных системах распознавания и понимания речи, в системах, обучащиА правильной интонации; И Т.Д.
Новизна работы заключается в попытке совмещения двух
существующих подходов к анализу просодии, а также в стремлении автора провести полностью автоматизированный сопоставительный двухуровневый анализ просодии с помомьи грело;« современной поминальной вычислительной техники. В рамках этого подхода
принципов сопоставительного автоматического двухуровневого анализа просодических явлений, в -'создании и описании бпви знаний лингвистических факторов, релевантных для изменения просадичяеких параметров в речи.
разработке алгоритмов для автоматической хорактеривании элементов транскрипции с помощью базы знаний, автоматической систематизации лингвистических данных: во-вторых, в нахождении ряда критериев для использования кластерного анализа в просодических исследованиях н для ^выделения характеристических точек в рядах значений просодических признаков: в-третьих, в проведении достаточно большого эксперимента по проверке нй соответствие безы лингвистических факторов и реальнйх изменений просодических признаков на материале связного текста.
Формальный аппарат представляет собой программный комплекс, состоящий из следующих частей:
1) автоматическая хорактеризация транскрипции высказывания и классификация элементов транскрипции походя из их сёгментно-позиционных и интонационных особенностей:
2) обработка числовых значений частоты основного -тона и интенсивности:
работы состоит в разработке автором
работы состоит, во-первых. в
. в • •
8) выделение характеристических точек в радах числовых значений частоты основного тона и интенсивности! классификации характеристических иночоний. Комплокс написан на наыке Си*-» в среда Турбо-Си++ для персонального коиньюгера IBM РС-АТ, занимает 400 К внешней памяти, работает в реальном времени.
Апробация работы. Содержание работы отражено в 6 печатных работах, ревудьщ'Ри работы были наложены на рабочих семинарах кафедр прикладной и экспериментальной лингвистики Московского Государственного Лингвистического Университета и кафедры математической лингвистики С.-Петербургского Университета.
рбьеи и структура работы. Диссертация состоит иа введения, трех глав, заключения, библиографии и приложений. Основной текст диссертации ааннмает- 124 страницы, библиография состоит ив 132 наименований. В приложения включены описания алгоритмов основных прогрьми, ' входящих в программный комплокс: материалы, иллюстрируюцие работу специальной программы для выделения частоты ооновного тона и интенсивности; фонетически представительные и сбалансированные тексты, на основе которых был получен собственный • экспериментальный текст; результаты работы программного комплексу на материале экспериментального текста: фрагменты протоколов работы программного комплекса; итоговые таблицы, суммирующие результаты експеримеитов. .
Содержание работы.
Во введении обоснована постановка проблемы, определяются цель и задача исследования, его актуальность и новизна.
Первая __гпяо2 ""¡тпиютические факторы, аыдвлячмие инструмвнтально-слуховын методом анализа просодии: формальнее представление и алгоритмы работы" состоит из шести разделов. 8 главе рассматриваются лингвистические факторы (так называемая база знаний), учитываемые при двухуровневом сопоставительном просодическом анализе, и формальные методы для автоматической характеризации и классификации элементам транскрипции, обсуждаются источники, по которым был получен поччый набор лингвистических факторов.
В первом__разделе вводятся основные определения и
обосновывается выбор используемых В работе просодических признаков. Обдаг.риананные источники просодической информации: часто/а основного, тона (ЧОТ). длительность участков речевой цепи, интенсивность звука - физические параметры речевого акустического сигнала - но могут быть полностью отнесены к просодическим признакам, так как в Них наряду с просодической информацией содержатся , сведения об эмоциональном. физическом соотояиии диктора, другие экстралингвистические сведения, сегментная информация. - Мелодика, интенсивность, длительность звуков (долгота), речевой темп, паузяция, тембр - характеристики, в которых в той или иной мере сняты экстралингвистическне и чисто физиологические влияния, - являются просодическими признаками. В данной работе выбор просодических признаков был обусловлен
воамоаноетыо их автоматического выделения иа акустического сигнала или их вычисления с помощью автоматических процедур.
Лингвистические факторы, влияющие на характеристики просодических признаков, традиционно делят на два основных класса:
- сегмвнтно-лозиционные особенности высказывания:
- собственно интонационные особенности высказывания: состав фразы. ее членимость. коммуникативный тип. смысловые отношения и т.д.
Второй раздел первой рлавц посвящен вопросам влияния следующих факторов: а) качества звука: б) консонантного окружения гласного; в) количества согласных после гласного: г) количества элементов (слогов) в синтагме (фразе). - на значения частоты основного тона, интенсивности, длительности звуков в речевой цепи.'
Существуют данные о. так называемых, собственной частоте, собственной интенсивности, собственной -длительности звука. Эти характеристики зависят от качества авука. Так. например, гласные высокого подъема имеют большую частоту основного тона, иеньшую интенсивность и большую длительность, чем гласные низкого подъема. Рааличия по ряду, видимо, пив»? дополнительный характер, они икнет на значения ЧОТ и длительности. Для согласных, в первую очередь, имеет значение их качество: глухость, еаенкоеть или еэщшость, а также способ их образования.
Нздбодьиее влияние факторы качвот конаонвнтиого окружения и КдЯйчютм согласных & ней окдвыввет на значения длительности глаенэгч>ч здаоь особу» роль играет . качество последующего вогшшюрд. Определенное влияние качество еоглодюге оказывает на аначеть» чшпгеты основного тона главного, причем эдиеь выше учитывать качество как првяшавтвущаго, так и иоеяедувдвге
согласного. Фактор длины высказывания влияет на длительность звуков и значения частоты основного тона.
Третий раздел первой главы посвящен рассмотрения факторов, связанных с различным положением сегмента речевой цепи относительно боло? крудлых рассматриваемых единиц: а) поста слога по отношению к выделенному слогу: б) места слога в слом; ?) моста слова в синтагме; г) места синтагмы во фразе.
Фактор положения слога по отношений к ударному нкеет наибольшее значение для длительности звуков и ощ/едегонноо значение для частоты основного тона и интенсивности речевого сигнала. Противопоставление ударного слога безударны», первого предударного остальным предударным и заударным, а также пояицим (начальная, конечная или срединная) слога в слове, олоьа а синтагме, синтагмы во фразе - оказывают существенное влияние на значения просодических параметров высказывания. Начало фразы (синтагмы) характеризуется • большими значениями интенсивности, меньшей длительностью по сравнению с концом фразы (синтагмы). Срединные элементы характеризуются смаэанностью, нечеткостью проявления всех просодических признаков,
В четвертом разделе первой главы рассматриваются следующие факторы: а)- степени выделенноеги слова; б) коммуникативного типа высказывания: в) семантической или информативной нагрузки.
Долгое время изменение просодических характеристик речи исследовалось на материале изолированно произнесенных слов, словосочетаний или коротких (трехсловных) предложений. Лишь в последнее время активно изучается связная речь, свободная, спонтанная речь. На материале связной речи к сегментным и позиционным факторам добавляются новые, действующие на более
крупных единицах речевой цепи, начиная с синтагмы. В связной речи самыми существенными являются фактор ритмической организации и фактор информативной нагрузки для синтагм и фактор изохронности и коммуникативного строения - для фраз. В связи с динамической неустойчивостью слов при рассмотрении связной речи следует опираться на такты, а на на олова.
Интонационным центром синтагмы, самым длительным, самым выделенным по ЧОТ и интенсивности гласным является гласный под синтагматическим или логическим ударением. Но и здесь может появиться сложность двоякого рода: во-первых, логическое ударениэ приводит к подавлению самостоятельности других слов, что вырамается в убыстрении темпа и тем самым, в возможном уменьшении контраста между ударными и безударными гласными, а во-вторых, в отдельных случаях . сильное- . выделение характериауется не увеличением, а уменьшением характеристик ударного гласного. Обычному ударению противопоставлены, соответственно, не только более сильное - синтагматическое, фразовое или логическое, но и побочные, ослабленные, второстепенные ударения.
' В пятом разделе' первой главы приводится полный набор лингвистических факторов, значимых для всех трех рассматриваемых просодических признаков.
К сегментным факторам относятся следующие факторы.
1, Качество звука: гласный или согласный. Для гласного указывается высокого подъема он или ннакого. Для согласного выясняется принадлежность к одной из следующих групп: глухие смычные, глухие щелевые, звонкие смычные, .¡авонкие целевые, сонанты, дрожащие. Также для согласных указывается': мягкий он или твердый.
2. Длина исоледуьмой единицы: выражается в количестве слогов.
3. Для параметра длительности гласного ■ существенен признак количества и качества согласных в консонантном окруяниит указывается, сколько согллсных справа: один или несколько, а такжн качество согласного, непосредственно следующего за глооним: укпяувйетег. ¡¡^¡неггио согласного слева: мягкий он или твердый, а также глухой или нет.
К позиционным факторам относятся следующие факторы..
1. Место слога по отношения к ударению: удпрнмй, первый предударный, предударный или заударный.
2. Позиция слога в слове: начальная, срединная или коночная.
3. Позиция слова в синтагме: начальная, срединная или коночная.
4. Позиция синтагмы во фразе: начальная, срединквл мчи коночная.
К собственно интонационным факторам относятся следучшио факторы.
1. Степень выдсленности слова: обычное ударение, синтагматическое,
фразовое или логическое. г
2. Коммуникативный тип синтагмы: вавершенная, восклицательная, общий вопрос, вопрос с вопросительным словом*или незавершенная.
3. Для каждого типа указывается дополнительно: обычная реализация или с выделением.
Любое ■ высказывание можно охарактеризовать по-эломент.чо. используя вышеприведенный набор лингвистических факторов Сем. таб. I).
Для автоматического анализа все значения рассматриваемы); лингвистических факторов кодируются с немощью двоичного кода. Полный набор значений факторов, приписываемый одному элеконту транскрипции, является конкатенацией двоичных кодов, соответствующих конкретным значениям факторов для данного
Таб. I. Охарактеризованные элемента первого олова первой синтагмы еысказыванкя. состоящего иа двух синтагм.
Эле ме ИГ Сегментные фжгоры Позиционные факторы Пнюнацианпьге факторы
1 г 3 4 1 2 3
К глух смычн тверд 1пу и ач нач нач обычн не^аи обычн
0 "ничкий" 1пу иач нач иач обичн пеми ооычн
о Ж! { СМЫ'Ш тверд Уи хин нач нач Обы'Ш ООЫЧН
о ЭБШ! | смычн| тьерд ул КОН нач нач обычн незаь ОбЫЧН
/Ай*| 'низкий* уд КОН нач нач обычн печав обычн
элемента. Место каждого фактора в общом кода Фиксировано. Для того, чтобы избежать произвольности при присваивании двоичных кодов . лингвистическим факторам, проводится систематизация рассматриваемых значений факторов с использованием иерархического бинарного принципа классификации: значения каждого фактора располагаются в висячих узлах бинарного дорова (см. рис. I). ;
Ударность слога / \
безударный ударный
/ \ ' ' остальные безударные первый предударный / \ ' заударные предударные
1Чю. I. Фрагмент иерархического бинарного дерева лингвистических
факторов,
Описан алгоритм процедуры автоматической характеризации элементов транскрипции с помощью систематизированных деоичных кодов. Транскрипции анализируемых высказываний готовятся заранее Б любом текстовом редакторе. они представляют собой ASCII-файл.
Результатом работ программы является массив признаков в двоичном виде, пригодный для любой последующей акалитичоской обработки.
В местом разделе первой главы описывается алгоритм классификации элементов транскрипции по кодам на некоторые группы эквивалентности методом кластерного анализа.
Существенными особенностями кластерного анализа бинарных цепочек являются: I) аа один шаг проводится сравнение только двух бинарных цепочек: 2) после просмотра всего пространства образов, то есть всех пар цепочек и проверки их по критерию близости и критерию качества образуются первоначальные кластеры, состоящие как из двух, так и из большего количества элементов: 3) для дальнейшей работы находятся центры этих кластеров, или эталоны, в терминах классов эквивалентности, как- объединение цепочек
"Ч
элементов, входящих в .кластер, пересчитываются характеристики пространства образов и метрика, введенная на нем; 4) "после того, как в результате очередного просмотра' пространства образов не выделилось ни одного нового кластера - и .ни один элемент не присоединился к уже сформированным кластерам,' можно считать, что 'процесс кластеризации для данного пространства образов закончен.
В разделе вводятся понятия критерия близости или сходствуй понятие коэффициента минимального различия двух цепочек кодов как критерия качества. Рассматривается проблема равного информационного вклада каждого лингвистического фактора и пути решения этой проблемы о помощью выравнивания весов лингвистических факторов.
Вторая глава "Формальный метод анализа просодического оформления высказывания" состоит из трех разделов. В этой главе рассматриваются вопросы, связанные с использованием персонального
компьютера для просодического анализа ввучадай речи, а также Вопросы выделения и классификации характеристических значений просодических параметров.
В первом разделе второй главы даются характеристики аппаратно-программного комплекса ЙК АН Эстонии для ввода и дискретизации речевого сигнала, описывается программный комплекс Micro Speech Laboratory (MSL), используемый для выделения частоты основного тона и интенсивности из введенного речевого сигнала."
Определены стандартные ошибки выделителя частоты основного тона MSL, которые требуют, по возможности, коррекции: а) отсутствие значений частоты основного тона на начальных участках речевого сигнала; б) ошибочные значения ЧОТ на конечных участках речевого сигнала при низкой интенсивности сигнала; в) резкие "выбросы" или "падения" в кривой ЧОТ. т.е. очень быстрое изменение эначений основного тона аа небольшой промежуток времени (менее 30 мс). Ряд процедур, специально написанных автором, снимает резкие выбросы в кривой ЧОТ, полученной с помощью программы MSL, если изменение значения происходит на временном, интервале менее 40 мс для женского голоса и менее 50 мс для мужского голоса. Значения интенсивности, выделяемые программой MSL, также корректируются автоматически: изменяется" выбранный нулевой уровень о долью устранения появляющихся отрицательных значений.
Во втором разделе , второй главы рассматриваются критерии отбора просодических признаков.
При независимом просодическом анализе, используемом в автоматизированных системах, к выделению параметров просодических признеков предъявляются определенные требования: их выделение не
должно зависеть от предварительной сегментации речевого потока, они должны выделяться независимо, с помощь» формальных методов: выделенные характеристические значения одного типа долхны соответствовать одному я«нг2кст»чб«л0му явлению. Были отобраны следующие параметры контуров интенсивности и частота основного тона и их характеристические значения: экстремальные значения, средние значения, интервал изменения значения. направление изменения значения, время, в течение которого удерживается экстремальное значение или происходит перепад значения, крутизне участка кривой, то есть скорость изменения аначения. Помимо исходных рядов значений просодических признаков автор предлагает использовать также сглаженные кривые (Светозарова, 1982) и кривые так называемой "Фильтрации" (Сираи, 1979), использование которых приводит к уменьшению вероятности случайных ошибок и шума, повышает точность измерений. •
Описана алгоритмы выделения -характеристических значений в рядах числовых значений частоты основного тона и интенсивности.
В третьем раэреле второй главы описан метод метрического 'кластерного анализа с обучением, применяемый для классификации характеристических значений. Выбор данного метода объясняется, во-первых, тем, что совокупность характеристических значений составляют действительные . числа, и использование функций расстояния в качестве подхода к классификации подобных совокупностей является одним из наиболее простых и эвристических методов; во-вторых, тем. что как и в случае о двоичными кодами, неизвестны заранее параметр»! кластерного анализа - число кластеров, центры кластеров, их количественный состав. Эти данные
определяются на первых иагах анализа исходя из характера исследуемых совокупностей.
Мерность пространства равняется числу признаков объектов пространства, которые выделяются в данной совокупности обьектов. и по сходству которых объекты объединяются в кластеры. В нашем случав мерность пространства зависит или от числа параметров авукового сигнала, или от числа выборок из различных совокупностей значений просодических признаков, просматриваемых одновременно.
Алгоритм состоит из двух частей. Первая часть: первоначальное распределение элементов по кластерам на основе покомпонентного упорядочивания: вычисляется расстояние между соседними элементами, разбиение производится по критическому расстоянию, затем вычисляются центры'.кластеров. Вторая часть: перераспределение элементов по уже существующим кластерам итеративным методом: за один проход (итерацию) элементы исследуемой совокупности распределяются по центрам, корректируются центры кластеров, вычисляется среднее отклонение от центра для всех элементов и средний радиус кластера. Если какая-либо компонента отклонения в кластере превышает среднее отклонение на величину коэффициента компактности, то он разбивается по этой компоненте на два кластера. Если центры каких-либо двух кластеров находятся на расстоянии меньшем, чем среднее для всех кластеров на величину коэффициента компактности, то они объединяются в один. За один цикл итерации выполняется одна из двух операций: слияние или разбиение, т.к. после каждой операции меняется распределение элементов по кластерам, число и положение центров кластеров, Процесс продолжается заданное число раз либо останавливается, если
- i'J -
после перераспределения не проиаошло ни слияния, ни разбиения кластеров.
Описанный алгоритм реализован автором в качестве отдельной программы. Для обеспвивни?. икирости работы программы е ней
использован алгоритм быстрой сортировки (Quicksort) Ч.Хоара. встроенный автором в алгоритм поразрядной сортировки. Используется принцип создания индексных файлов вместо физической сортировки данных. Специально использован лучший из известных алгоритмов сортировки, а также принцип индексирования для того, чтобы программа работала в реальном масштабе времени.
Третья глава "Сопоставительный двухуровневый анализ просодических характеристик на материале экспериментального текста" состоит на трех разделов. Она посвящена описанию апробации программного комплекса на экспериментальной материале: в ней определяются основные требования к экспериментальному тексту, даются его' характеристики, описывается конкретное двухуровневое исследование на материале экспериментального текста, обсуждаются его результаты.
й ЛвМв?Н разделе третьей главы описывается процесс создания акбяерииёнтвяьного текста. Исходя из аадач данной конкретной работы @К8Нери«ентальный текст должен отвечать следующим требованиям: а) быть связным; б) отражать все учитываемые в данной р&бате лингвистические факторы: в) по возможности, быть избевлечшм от влияния дополнительных, побочных факторов.
В квчвотеи исходных взяты два фонетически представительных и ебаланеироеашшх текста, разработанных в ЛЭФ С.-Петербургского Униаероимта, Вычисленное с помощью программного средства SPSS/PC* на 1ШИ IBM РС-АТ распределение частоты встречаемости
лингвистических факторов в этих двух текстах оказалось одинаковым И было принято за эталонное для создания собственного текста, Длительность звучания экспериментального текста равна 2 мин, Количество фраз - 30. Количество синтагм - 47.
Во втором разделе третьей главы подробно описывается проведение эксперимента на первом уровне анализа высказывания. Транскрипция высказывания, занесенная в текстовый файл, поступает на вход программы характеризации и классификации элементов высказывания, которая приписывает каждому элементу высказывания его код и распределяет элементы высказывания в классы эквивалентности на основе приписанных кодов. Основными результатами анализа, проведенного на материале экспериментального текста, можно считать: I) единицей выделяемых групп еквивалентности является слог, то есть гласный с примыкающими к нему согласными, что свидетельствует о сильном суммарном весе слоговых характеристик при равных весах всех факторов: 2) в зависимости от значения коэффициента минимального различия двух кодов, управляющего процессом классификации, в группы эквивалентности выделяются синтагмы, слова, слоги, отдельные элементы транскрипции. Коэффициент может изменяться от 0,5 до 0,1, оптимальным коэффициентом минимального • различия, дающим содержательную классификацию элементов транскрипции, представляется коэффициент 0,2 - 0,25: 3) при указанном коэффициенте в отдельные группы выделяются слоги начала фразы, середины фразы, обособленную группу всегда составляет слог, носитель фразового ударения, и предударные слоги того же слова.
В дальнейшем было бы интересно провести анализ транскрипционной записи высказывания, охарактеризованной кодами.
передающими разный вес для разных лингвистических факторов- В настоящее время непонятно. каким образом определить вес конкретного фактора или соотношение весов для разных факторов -эти пропорции ничиилить амиирически и обосновать. Мы не
хотели приписывать факторам вое априорно, роэтоцу использовали равный вес.
просодических характеристик речевого сигнала, соответствующего анализируемому высказыванию.
Экспериментальный текст был прочитан двумя нормативными дикторами: мужчиной и женщиной. Обьем внешней памяти, необходимый для хранения одной дикторской реализации текста, составил, по результатам записи, чуть более 2 К. После проведения записи и оцифровывания экспериментальный корпус составили 60 фраз; 30 фраз, произнесенных мужским голосом,* и 30 фраз, произнесенных женским голосом. -Для каждой реализаций были выделены частота основного тона и интенсивность о . помощью программного комплекса МЭЬ, для каждой кривой проведена автоматическая обработка с целью снятия резких выбросов. Затем для каждой обработанной кривой было проведено сглаживание по трем точкам отсчетов со сдвигом на один отсчет, Несглажеиные кривые не рассматривались в эксперименте.
В данном эксперименте мы ограничились выделением экстремальных значений: максимумов и минимумов - в качестве характеристических значений. Для содержательной интерпретации результатов после проведения анализа била проведена сегментация речевого сигнала с использованием синхронизированных графических изображений речевой волны, интенсивности и частоты основного тона,
> третьей__главы описывается анализ
выводимых на экран дисплея персонального компьютера программным комплексом ЖЯ.
Основные результаты этого этапа анализа следующие. Последний кластер, выделяемый при кластерной анализе совокупности максимумов ЧСГГ состоит из одного, рвяв - из двух значений ЧОТ, ^соответствующих, на наш взгляд, интонационному центру (центрам) фразы. Кластерный анализ совокупности максимумов интенсивности дает хорошо интерпретируемые сведения по последнеиу выделяемому кластеру. В него попадает, на нам взгляд, значения, коррелирующие с сильноударными слогами синтагм. Количество экстремумов в последнем кластере максимумов интенсивности обычно больше двух.
Минимумы интенсивности, выделяемые по неияему алгоритму с достаточно сильным критерием отбора, не несут никакой другой нагрузки, кроме выделения глухих согласных.
Проведен опыт двумерного анализа, когда одновременно рассматривались по две совокупности характеристических аначения просодических признаков. Анализ проводился путем синхронизации значений двух рассматриваемых совокупностей, Под синхронизацией понималось не абсолютное совпадение локализаций двух значений во времени, а совпадение значений на некотором временном интервале. Для женского голоса временной интервал составил 40 мс, для мужского голоса - 60 мс. Были рассмотрены следующие пары совокупностей: I) максимумы ЧОТ и максимумы интенсивности; 2) максимумы ЧОТ и минимумы интенсивности; 3) минимумы ЧОТ и максимумы интенсивности; 4) минимумы ЧОТ и минимумы интенсивности.
Интонационная, позиционная и согмонтноя интерпретация наблюдаемого совпадения значений максимумов ЧОТ и интенсивности однозначно выделяет слово - интонационный центр фразы. Отдельно
описаны случаи, когда на рассматриваемой временной интервале происходит совпадение не только максимумов МОТ и интенсивности, но здесь же присутствуют минимумы ЧО'Г и интенсивности, несколько
ППЙППЙЛРЙ МИН М1вт?о еа наипишгибш^ Цо .. ПСымЦиГ.ииС«
уровне эта комбинация практически всегда соответствует слогу, то есть гласному и предшествующему или последующему согласному.
Сочетание максимума ЧОТ и минимума интенсивности скорее относится к тому одномерному анализу, о котором ыы говорили раньше. Интерпретация такого сочетания равна сумме интерпретаций для каждого из значений. Совпадение минимума ЧОТ и максимума интенсивности, также в этом сочетании часто присутствует у минимум интенсивности, безусловно, выделяет важные для понимания смысла высказывания слова, имеющие полное обычное или логическое выделение. Их интерпретация требует дополнительного анализа с привлечением синтаксических « и семантических характеристик высказывания. • •
Рассмотрены все случаи совпадения значений минимумов ЧОТ и минимумов интенсивности. Делается вывод, что совпадение значений минимумов, выделенных по данным алгоритмам, не передает каких-либо важных значений.
Заключение. Описанные в работе принципы двухуровневого автоматического анализа просодических явлений реализованы автороы в виде набора автоматических процедур, . представляющих собой программный комплекс для персонального компьютера. Проведенный ДЛЯ впробшши программного комплекса двухуровневый Анализ просодических характеристик на материале связного экспериментального текста дозволяет сформулировать следуедие выводи. Первый уровень - нияпиь тртшщт&ютвй вваиои
высказывания, отражая уровень наших сегодняшних представлений, поддающихся формализации, без привлечения субъективных знаний эксперта, выделяет заключительные участки фраз и синтагм в качестве наиболее сильных точек просодического оформления. Основной единицей выделяемы* на первом уровне анализа групп элементов высказывания является слог, Выделение групп элементов транскрипции происходит в вавионмооти от коэффициента минимального рпэямчия дпух эпоментон. Наменян коэффициент от 0,6 до 0.01, можно получить качественно равные равнения транскрипционной записи высказывания. Значение критерия минимального различия, наиболее соотвототвувшео ровбноннпм. поддающимся интерпретации, на наш взгляд, ровно 0.2 - 0,2В.
Второй уровень анализа - исследование характеристических значений просодических признаков, выделяемых при независимом просодическом анализа, п»*т возможность находить интонационные и смысловые центры высказывания. С точки зрения сегментных и позиционных характеристик элементов высказывания, второй уровень анализа выделяет некоторые ударные гласные или ударные слоги, полноударных слов внокввмлевнир как "опорные точки" для выражения смыслового и . интонационного значений. Но результатам всего вышвеказанного мы можем иакличцть, что оиролояпюатм моментом анапнаа первого уровня выатулшнт по^инконные Фадторы. О горой уровень анализа отражает воздействие совершенно другой цоишншты -нктонаиин н еммола, С число опредвлпюпиг факторов для первого уровня необходимо активно гключнть интонационный тип синтагмы. »адающиП возможное расположение иитомаччоняцх центров в синтагме и во фраэо. использовать известные модели интонационных конструкций, привлекать вероятностный аппараг для одновременного использования
нескольких возможных для данного интонационного типа интонационных конструкций. Необходимо искать пути использования при анализе первого уровня таких понятий, как такт и ритм.
На второй уровне анализа представляется перспективный в дальнейшей использовать более слабые критерии, другие характеристические аначения, а также варьировать типы обработки исходного сигнала. Все sto позволит увеличить количественно и рааиооо'разить качественно совокупность автоматически выделяемых значимых участков фраз. Представляется возможным в будущем проведение автоматического сопоставительного двухуровневого анализа просодических характеристик высказывания.
По теме диссертации опубликованы работы:
1. Попова С.А. Сопоставительный анализ просодической информации в целях разработки компьютерных программ // Технические средства в учебном процессе по иностранному языку в неязыковом ВУЗе: Сб. науч. трудов МГЛУ. вып. 405. М.:Иад-во МГЛУ. 1992. С.99-110.
2. Попова С.А. . Программный комплекс для многомерного просодического анализа IJ ш Автоматическое распознавание слуховых образов (AP00-I7): Тезисы докладов. Ижевск. 1992. C.I04-I08.
3. Попова С.А. Моделирование поведения просодических характеристик звучащей речи с помощью автоматического анализа транскрипционной ааписи высказывания // Биофизика сложных систем. Донецк. 1993. С.61-69.
4. Потапова Р.К., Блохина Л.П., Попова С.А. и др. Об опыте разработки алгоритма распознавания акустического сигнала с опорой на зрительный образ // Автоматическое распознавание слуховых образов: Тезисы докладов 16-го Всесоюзного семинара (APC0-I6). М.. 1991. C.6S-69.