автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Математические методы исследования фонационно-артикуляционных параметров речи
Полный текст автореферата диссертации по теме "Математические методы исследования фонационно-артикуляционных параметров речи"
л
На правах рукописи
СОБАКИН Аркадий Николаевич
003055700
Математические методы исследования фонационно-артикуляционных параметров речи
Специальность 10.02.21 -Прикладная и математическая лингвистика
Автореферат
диссертации на соискание ученой степени доктора филологических наук
Москва - 2007
003055700
Работа выполнена на кафедре прикладной и экспериментальной лингвистики в Московском государственном лингвистическом университете.
Научный консультант академик МАИ,
доктор филологических наук, профессор Потапова Родмонга Кондратьевна.
Официальные оппоненты доктор филологических наук, ведущий
научный сотрудник Каплун Марк Ильич
доктор филологических наук, доцент Максименко Ольга Ивановна
доктор филологических наук, главный научный сотрудник Румянцева Ирина Михайловна
Ведущая организация ФГНУ НИИ «Спецвузавтоматика»
Защита состоится « » ¿¿¿#¿/-^2007 года в </ часов на заседании диссертационного совета Д 212.135.02 при ГОУ ВПО «Московский государственный лингвистический университет» (г. Москва, Остоженка 38, 119992).
С диссертацией можно ознакомиться в диссертационном читальном зале библиотеки ГОУ ВПО «Московский лингвистический университет»
Автореферат разослан « ^ » / 2007 г.
Ученый секретарь
диссертационного совета Страхова В.С.
Современные модели речевой коммуникации «человек - человек» включают и учитывают: со стороны говорящего - психофизическое состояние, намерение (интенцию и мотивацию), тактику вербального и невербального поведения по отношению к партнеру; оценку ситуации; «хранилище» лингвистических знаний и владение языком; лингвистическое кодирование сообщения; артикуляцию и фонацию (образование акустического сигнала); канал передачи. Со стороны слушающего рассматриваются следующие компоненты - эффект ожидания при принятии сообщения; психофизическое состояние; оценка ситуации; тактика поведения по отношению к говорящему; регистрация звуковых колебаний и первичная обработка речевого сигнала; «хранилище» лингвистических знаний и владение языком; лингвистическое декодирование сообщения и его семантическая интерпретация [Потапова 1986, 2001,2003].
В таком широком понимании процесс речевого общения изучен еще недостаточно. Задача разработки подобной концепции и моделирование целостного процесса речевого общения осложняется в рассматриваемом случае невозможностью измерения характеристических параметров процесса речеобразования непосредственно в момент произнесения на всех его физико-физиолого-фонетических уровнях. Вполне доступными для непосредственного изучения являлись, в основном, органы артикуляции, что позволило создать несколько моделей их функционирования, степень точности которых, однако, весьма проблематична.
Настоящая диссертация посвящена исследованию проблемы параметрического описания звучащей речи на основе акустической теории речеобразования [Фант 1964; Фланаган 1968]. В настоящее время эти модели уточняются с помощью более совершенных методов исследования [Сорокин 1985,2000].
В диссертации далее под процессом речеобразования понимается низший иерархический уровень (реализация) речевой коммуникации «человек-человек» как базовый и наиболее изученный.
1
Актуальные аспекты задач, решаемых в данном исследовании, нашли свое отражение в трудах ведущих российских и зарубежных ученых [Акин-фиев 1957; Сапожков 1963, 1992; Покровский 1962; Апресян 1966; Звегинцев 1968; Атал 1971; Итакура, Саито 1971; Вакита 1972; Маркел, Грэй 1980; Галунов 1981; Жинкин 1982; Щерба 1983; Вемян 1985; Потапова 1971, 1997, 2003 а) б) в), 2006; Потапов 2006].
Принципиальной особенностью современного периода исследования звучащей речи является тот факт, что практически в качестве единственно доступного объекта получения достоверной информации является речевой сигнал. Другие каналы измерения характеристик процесса речеобразования в целом ряде прикладных областей в силу объективных причин не могут быть использованы. Усложняющими факторами в рассматриваемой проблеме являются неполнота представления лингвистических структур (знаков) в акустическом сигнале; недостаточность функциональных связей между источником звуковых колебаний, артикуляционным аппаратом и речевым сигналом; многообразие предложенных моделей процесса речеобразования и методов исследования речи.
Эти обстоятельства определяют место и значение проблемы фонационно-артикуляционного анализа звучащей речи.
Актуальность диссертации определяется необходимостью изучения микроструктуры функционирования голосовых связок и резонансных параметров речевого тракта в процессе речеобразования с опорой на речевые колебания с учетом проведения теоретической разработки методов параметрического анализа звучащей речи; компактного представления речи при исследовании ее структуры; повышения эффективности и качества первичного описания речи и возможностью получения существенного экономического и социального эффекта в областях связи (коммерческой и специальной), фоноскопической экспертизы, медицинской диагностики, верификации и идентификации дикторов, системах распознавания, более глубокого
2
проникновения в процесс речеобразования и изучения его характеристик, существенных для слухового восприятия, в рамках прикладной и экспериментальной лингвистики.
Формулируя тему, проблему и основные направления исследований автор исходил из следующих предположений:
1. Артикуляционные параметры речевого тракта в слитной речи могут быть эффективно описаны линейной системой конечного порядка.
2. Источник речевых колебаний и речевой тракт функционируют в процессе речеобразования независимо друг от друга.
3. Математическими методами принципиально возможно получение информации о двух компонентах процесса речеобразования (источнике и артикуляции) по речевым колебаниям.
4. Существуют метрические пространства, базовые операторы и ограничения на параметры модели, согласованные со слуховым восприятием речи человеком.
В контексте выдвигаемых гипотез должны интерпретироваться все явления и процессы исследуемой предметной области. Для проверки работоспособности предлагаемых методов анализа необходима их проверка на реальных речевых сигналах.
Целью диссертационной работы является разработка эффективных и перспективных методов исследования фонационно-артикуляционных характеристик речи по речевому сигналу на базе математических методов анализа.
Для достижения поставленной цели решались следующие задачи:
1. Выбор адекватной модели процесса речеобразования, описание параметров фонации и артикуляции в рамках этой модели, постановка задачи анализа и синтеза речи по параметрам в рамках рассматриваемой модели.
2. Анализ состояния речевого тракта по речевому сигналу в обобщенном виде. Разработка методов вычисления оценок резонансных характеристик
3
артикуляции, на основе целого класса операторов, линейных пространств и ограничений на параметры артикуляции. Проверка работоспособности предложенных методов анализа на базе стационарных звуков и слитной речи.
3. Исследование фонационных характеристик речи с возможностью получения информации о форме импульса основного тона по речевой волне, минуя этап предварительного определения резонансных параметров речевого тракта. Апробация предложенных методов исследования на естественных звуках речи и непрерывном речевом потоке.
4. Применение адаптивных процедур при исследовании речи и разработка итерационных методов анализа фонационно-артикуляционных параметров речевых колебаний.
Основным объектом диссертационного исследования является звучащая речь, представленная в цифровом и аналоговом вариантах.
Предметом исследования является источник звуковых колебаний и состояний артикуляционного аппарата с опорой на речевой сигнал, оценка которых осуществляется на базе математических методов.
Научная новизна диссертации заключается в следующем:
1) в авторской интерпретации предложены математические методы исследования формы импульсов основного тона по речевой волне; а также определены интервалы смыкания голосовых связок и вычислены несмещенные параметры речевого тракта;
2) получили дальнейшее развитие методы исследования резонансных характеристик речевого тракта на основе обобщенного прогноза;
3) впервые проверена состоятельность (работоспособность) предложенных математических методов анализа (на материале изолированно произнесенных русских гласных и тех же гласных в потоке речи);
4) впервые использованы научные результаты ряда смежных наук (прикладной и экспериментальной лингвистики, математики, теории речевой связи, теории линейных систем с сосредоточенными параметрами, физиологии).
4
В основу методологии решения сформулированных проблем положен принцип определения параметров артикуляции в виде экстремальной задачи. Для исследования фонационных характеристик речи предлагается серия нелинейных преобразований речевого сигнала в импульсную последовательность синхронную с работой голосовых связок.
При решении задач параметрического описания речи использовались следующие разделы математики:
- теория линейных дифференциальных и (или) разностных уравнений;
- спектральный и корреляционный анализ сигналов;
- разделы линейной алгебры;
- теория линейных систем;
- теория цифровой обработки сигналов;
- теория адаптивных систем;
- теория аппроксимации.
При проведении диссертационных исследований использовались научные принципы решения некорректных обратных задач математики, методы прикладной и экспериментальной лингвистики, теории связи, средства построения адаптивных итерационных систем. В работе использован терминологический аппарат указанных областей знаний.
В систему естественных ограничений на решение проблемы включены:
1) процедуры анализа речи разрабатываются с опорой только на речевые колебания и не применяются другие информационные каналы регистрации характеристик фонации и артикуляции;
2) некорректность задачи вычисления артикуляционных параметров по речевой волне без регистрации функции возбуждения;
3) рассматривается конечный порядок модели речевого тракта в виде линейной системы с сосредоточенными параметрами;
4) сложная форма речевых колебаний маскирует фонационную компоненту процесса речеобразования на озвученных участках речи.
5
Перечисленные ограничения не являются определяющими для разрешения сформулированной проблемы в общей постановке и могут быть сведены к минимуму в рамках единой методологии ее решения в результате последующих исследований.
В качестве базового аппарата математического моделирования определены персональный компьютер с возможностями ввода и вывода речи в память машины и системной оболочкой МАТЬАВ.
Теоретическая значимость диссертации заключается в том, что: полученные результаты являются вкладом в корректное решение проблемы описания звучащей речи фонационно-артикуляционными параметрами; в разработанных блочных и адаптивных методов анализа резонансных характеристик речевого тракта; расширения корпуса методов параметрического анализа речевых колебаний; углубление метода изучения микровариаций голосовых связок в процессе речеобразования.
Результаты исследования содействуют дальнейшему развитию теории речепроизводства и речевосприятия в целом.
Практическая ценность диссертации заключается в том, что предложенные математические методы анализа звучащей речи найдут применение в прикладных и экспериментальных задачах лингвистики; системах речевой коммуникации и коммерческой телефонии; в задачах автоматического распознавания и синтеза речи; системах идентификации и верификации дикторов; медицинской диагностике по речевому сигналу; управлении робототех-ническими устройствами и машинами голосом оператора; создании систем искусственного интеллекта; при разработке экспертных систем.
Основные результаты диссертации положены в основу курса «Параметрическое описание речи». Этот курс неоднократно был прочитан аспирантам и студентам старших курсов отделения прикладной и экспериментальной лингвистики (ОПЛ) МГЛУ. Часть материала преподаётся ежегодно в рамках обязательного курса «Математические основы гуманитарных знаний».
6
Базовые положения диссертации излагаются на лекциях и семинарах по подготовке специалистов в области судебной фонетики и речевой экспер-тологии.
Достоверность и обоснованность применения обобщенного подхода к проблеме первичного описания речи и математических методов ее исследования обеспечивается репрезентативной выборкой проанализированного материала, включающего в себя 1300 единиц сегментов речи, из которых впоследствии исследованы 210 сегментов, подвергнутых анализу с использованием предложенных методик.
Основные результаты диссертационного исследования неоднократно докладывались на заседаниях кафедры прикладной и экспериментальной лингвистики МГЛУ, а также прошли апробацию на следующих конференциях: юбилейной научно-технической конференции по технике и экономике связи. -М., 1968; Всесоюзной школе-семинаре «Автоматическое распознавание слуховых образов (АРСО)». - Таллинн, 1971, 1989; Алма-Ата, 1972; Львов, 1974; Минск, 1976; Тбилиси, 1978; М., 1991, 1999; XIth Inter Cong, of Phon. Scienc. - Tallin, Estonia, U.S.S.R. - 1987, Всесоюзной школе-семинаре «Психологическая бионика». - Харьков, 1988; Всесоюзном симпозиуме АН СССР «Методологические проблемы информатики, информационных технологий и информатизации общества». - Обнинск, 1988; конференции АМН СССР «Проблемы проектирования экспертных систем». - М., 1988; Всесоюзной акустической конференции. - М., 1991; XIIth Inter. Cong, of Phon. Scienc. -Aix - on - Province, France. - 1991; Международной научной конференции ММТТ - 12. — Великий Новгород, 1999; Сессии «Российского акустического общества». - М., 1999, 2000, 2001; Международной конференции «Speech and Computer». - SPECOM' 2000; SPECOM' 2001; SPECOM' 2005.
Научно-технические результаты работ защищены семью авторскими свидетельствами.
На защиту выносятся следующие положения:
- фонацнонно-артикуляционные характеристики речи вычисляются оптимально с использованием обобщенного метода линейного предсказания;
- поставленная задача всеобъемлюще решается с помощью математических методов анализа (локальных и адаптивных) на основе целого класса операторов, метрических пространств и ограничений на параметры обратного фильтра для вычисления резонансных характеристик артикуляционного аппарата по речевой волне;
- для выделения интервалов смыкания голосовых связок и вычисления несмещенных параметров речевого тракта и импульсов основного тона эффективно использование предложенных нелинейных преобразований (НГ1) речевого сигнала;
- предложенные математические методы исследования формы импульсов основного тона без предварительного определения резонансных параметров речевого тракта являются предпочтительными и эффективными.
Структура и содержание работы определяется поставленными задачами и методикой исследования.
Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы, приложения и списка сокращений.
Во введении определяется объект исследования, формулируется основная проблема, определяются цели и задачи исследования, аргументируется новизна и обосновывается актуальность темы, раскрывается теоретическая и практическая значимость диссертации, представляется методологическая база и математические методы исследования, а также подтверждается достоверность и обоснованность полученных результатов исследования звучащей речи.
В первой главе диссертации рассмотрены вопросы выбора модели рече-образования, описание параметров модели, постановка задачи анализа и синтеза речи по параметрам.
Существенный вклад в рассматриваемую проблему внесли два направления исследования речи.
Первое направление связано с изучением движения артикуляционных органов их взаимодействия с источником звуковых колебаний в процессе речепроизводства [Lewis 1936; Farnsworth 1940; Smith 1954; Miller 1956; Stevens, Kosowski, Fant 1953; Фант 1964; Фланаган 1968; Сорокин 1985,2000]. Это исследовательское направление позволяет накопить более полный объем знаний о динамике речевого тракта, изменения его длины, перемещений языка, нёбной занавески, губ, об образовании губной или зубной смычки.
Второе направление исследований речи связано с системами передачи речи по каналам связи и с выявлением базовых информационных компонент речи [Dudliy 1939; Schröder 1956, 1966; Miller 1956; Peterson 1951, 1959; Kramer, Mathews 1956; Mathews et all 1961 a, b; Weibel 1955; Rappaport 1958; Heinz 1962; Pinson 1963; Gold 1962; Gold, Rabiner 1969].
Отметим здесь особый вклад в подведении итогов данного этапа исследований монографию Сапожкова М.А. [Сапожков 1963], являющуюся настольным пособием речевиков многих поколений и не утратившую своего значения до наших дней.
С одной стороны, использованные в вокодере информационные параметры речевого сигнала, их набор оказались информационно значимы для синтеза речи, с другой стороны, появление в рамках синтетической телефонии связки «анализ-синтез» речи позволило сформулировать ряд проблем прикладной лингвистики, связи и кибернетики:
1) проблему полноты предложенного набора параметров речи;
2) проблему эффективности методов их определения по речевому сигналу;
3) проблему оценки качества звучащей речи.
Первая часть задач связана с первичным описанием речи. Рассматриваются математические методы исследования фонационно-артикуляционных параметров речи.
Вторая часть (в широком смысле проблема оценки качества речи) по своей сути затрагивает области нервной деятельности человека и связана с изучением процессов восприятия речи аудитором (в частности, синтезированной речи). Это направление исследований и сама задача оказались чрезвычайно сложными.
Понятие «качество речи» является трудноопределимой ее характеристикой и, в частности, включает в себя целый ряд показателей: разборчивость, натуральность, узнаваемость и т. д. Качество речи включает в себя также «индивидуальные» особенности диктора, например, картавость, гнусавость, плаксивость, шепелявость.
В развитие этого направления исследований значительный вклад внесли отечественные ученые [Сапожков 1963,1992; Покровский 1962; Апресян 1966; Звегинцев 1968; Жинкин 1982; Щерба 1983; Вемян 1985; Потапова 2003 а) б) в), 2006; Потапов 2006].
Практические запросы коммерческой телефонии формулируют достаточно простой критерий для оценки полноты и эффективности первичного описания речи: исходный (до анализа) и синтезированный (по параметрам) участки речи должны практически не отличаться на слух.
Сформулированный критерий оценки полноты первичного описания речи, по нашему мнению, крайне важен в области прикладной лингвистики. Он позволяет исследовать речь не только по отдельным ее характеристикам (мелодии основного тона, временнш огибающей, формантной структуре и т. п.), но и в совокупности по полному набору фонационно-артикуляционных ее параметров, полученных с опорой на единый звуковой образ. При этом исследователь будет уверен в том, что на этапе первичного описания речи не произошло потери речевой информации, а совокупность параметров описания содержит последнюю в полном объеме. Это обстоятельство позволит более глубоко изучить корреляционные зависимости просодических и артикуляционных характеристик речи, их временную организацию, пороговые
10
значения их возможных искажений и т. п., что, в конечном счете, может расширить наши представления о двух взаимообусловленных процессах: речеобразовании и слуховом восприятии.
В ряде работ была отмечена большая зависимость текущих спектральных характеристик речи от величины окна анализа. Было установлено [Pinson 1963; Mathews, Miller, David 1961], что эти искажения минимальны для окна анализа, равного одному или нескольким периодам основного тона. Понятно, что при таком спектральном анализе необходимо параллельно определять по речевому сигналу частоту колебаний голосовых связок. Такой выбор исследуемого интервала речи в дальнейшем получил название «анализ синхронный с основным тоном».
Обзор методов параметрического описания речи позволил выделить ключевые, по мнению автора, идеи и алгоритмы, применяемые в этой области знаний. В основе принципиальной сложности перечисленных выше задач лежит неполнота представления лингвистических структур (знаков) в акустическом сигнале. Второй трудностью анализа и синтеза речи на первичном уровне является недостаточность функциональных связей между источником звуковых колебаний, артикуляционным аппаратом и речевым сигналом. Отметим также многообразие предложенных моделей процесса речеобразо-вания и методов исследования речи.
Эти обстоятельства позволяют сформулировать основные требования к модели речеобразования:
— простота модели, предполагающая возможность применения математических методов анализа фонационно-артикуляционных параметров по речевому сигналу;
- параметры модели должны содержать полную информацию о звучащей речи с учетом ее слухового восприятия.
В фундаментальной работе Г. Фанта [Фант 1968] показано, что этим условиям отвечает модель речевого тракта в виде диссипативной линейной
11
системы (системы с потерями) конечного порядка и её коэффициент передачи может быть аппроксимирован дробно-рациональными функциями конечного порядка.
Предложенная модель речеобразования может быть представлена в виде сверхточного уравнения с непрерывным (аналоговый вариант) или дискретным временем (дискретный вариант).
В спектральной области этому уравнению соответствует произведение спектров функции возбуждения, коэффициентом передачи речевого тракта и спектром речевого сигнала.
Выбор описания речевого тракта в виде дробно-рациональных передаточных функций позволяет описать работу артикуляционных органов человека через коэффициенты числителя и знаменателя во временшй области в виде линейного дифференциального или разностного уравнения конечного порядка.
Алгоритм вычисления резонансов линейной системы неоднозначен и может быть выполнен многими различными способами. Неоднозначность и многообразие методов настройки параметров обратного фильтра является следствием некорректности задачи анализа артикуляционного аппарата с опорой только на речевой сигнал. С математической точки зрения в единственном уравнении, связывающем три компоненты процесса речеобразования (источник, речевой тракт и речь на выходе речевого тракта), неизвестными являются две (характеристика источника звуковых колебаний и характеристика речевого тракта). В распоряжении исследователя имеется только осциллограмма звуковых колебаний, что является, вообще говоря, недостаточной информацией для однозначного определения остальных параметров речи.
Наиболее распространенной в настоящее время моделью источника возбуждения (ИВ) речевого тракта является модель, состоящая из двух источников возбуждения: голосового (ГИВ) и шумового (ШИВ).
12
ГИВ в этой модели состоит из генератора импульсов (ГИ) и формирователя импульсов (ФИ).
ГИ образует последовательность единичных импульсов с нормированной мощностью и заданными интервалами ними.
Для получения из такой последовательности импульсов (ИП), по форме приближающихся к реальным импульсам ОТ (почти треугольной формы), в модели используется линейная система формирования импульсов (ФИ) [Акинфиев, Собакин 1974].
Уровень на выходе ИВ адекватен временной огибающей речевой волны. Параметрами рассматриваемой модели являются параметры линейной системы ФИ, параметр «тон-шум», а также характеристические свойства расстояний между единичными импульсами ГИ.
Местоположение импульсов основного тона (ОТ) определяется в этом случае интервалами между задающими единичными импульсами ГИ, а их форма образуется в блоке ФИ с медленно меняющимися характеристиками.
Вопрос компактного описания последовательности единичных импульсов непосредственно связан с общей проблемой компактного описания речевого сигнала, т. е. с задачей компрессии речевой информации. Возможность такого описания связана с одним из замечательных свойств колебаний голосовых связок: существует существенная корреляция между соседними значениями периодов основного тона.
Сформулированное здесь свойство последовательности единичных импульсов и блока ФИ выделяет параметры модели: характеристики формы импульсов и мелодии ОТ. Выделение значимых параметров, их количество, их независимость от диктора и т. д. составляют целый класс задач [Галунов, Тампель 1981; Сорокин 1985; Фант 1968; Фланаган 1968], а соответствующие исследования нельзя считать завершенными с точки зрения оптимизации этой функции по слуховому восприятию.
Функция возбуждения ГИ зависит от производных (или разностных характеристик) давления воздушного потока, определяемого длиной, поперечным размером и (в меньшей степени) толщиной голосовых связок. На форму импульсов ОТ оказывает влияние натяжение голосовых связок, разность подсвязочного и надсвязочного давления, положение связок в глотке и их тремор. Моделированию процесса колебаний голосовых связок посвящено большое количество исследований, и работы в этом направлении продолжаются до настоящего времен.
Процесс синтеза речи по параметрам функционально реализуется на основе уравнений описывающих образование речевой волны во временной области. На основе этих уравнений значения речевого сигнала легко выражаются через сигнал возбуждения и параметры речевого тракта.
Понятно, что получающийся синтезированный сигнал будет приближенно соответствовать реальным, исходным значениям речевого сигнала.
При этом по указанным выше речевым характеристикам должна быть сформирована функция возбуждения речевого тракта. Формировать её достаточно сложно по неполным данным на озвученных участках речи. Перечисленные выше параметры определяют лишь амплитуду импульсов основного тона и их временное расположение. В них не содержится информации о форме импульсов возбуждения, имитирующих работу голосовых связок.
Расположение импульса возбуждения на периоде ОТ и его форма являются важными характеристиками речи и существенно влияют на качество синтезированной речи.
Формирование шумового сигнала возбуждения осуществляется значительно проще и учитывает только среднюю величину амплитудных колебаний, пропорциональную временной огибающей.
При восстановлении речи по параметрам большое значение имеет устойчивость процедуры синтеза. В диссертации приведены условия устойчивости процедуры синтеза по параметрам речи. Нарушение условий
14
устойчивости приводит, вообще говоря, к искажению синтезированного сигнала и ухудшению его качества.
В заключении отметим основные положения первой главы, важные для дальнейшего рассмотрения проблемы параметрического описания речи.
Описана модель речеобразования. Определены её параметры и характеристики. Указаны условия полноты системы параметрического анализа и синтеза речи. Сформулированы задачи параметрического описания речевого сигнала, их основные условия и намечены возможные пути создания соответствующих алгоритмов и методов анализа и синтеза речи.
Во второй главе предлагается обобщенный подход к анализу речи и рассмотрены вопросы построения алгоритмов анализа атрикуляционных параметров речи.
Основные методы исследования в этой области могут быть условно разделены на спектральные и временные алгоритмы анализа.
Базу спектральных методов составляет преобразование звуковой волны в характеристики гармонических колебаний и может быть осуществлено двумя известными способами:
- с использованием гребёнки фильтров;
- с применением дискретного преобразования Фурье (ДПФ).
Оба способа относятся к параллельным методам анализа речи.
Формантные методы анализа речи можно считать методами дальнейшей
компрессии спектрального представления речевого сигнала.
Формантные параметры в прикладных лингвистических и научно-технических исследованиях широко использовались, а методы их выделения из спектра и синтеза речи на их основе достаточно подробно описаны в монографиях [Фант 1964; Фланаган 1968; Сапожков 1963].
Нахождение экстремумов спектра речи по компонентам ДПФ является трудновыполнимой задачей. Это объясняется тем, что на спектральные значения оказывают выбор окна анализа. Расположение окна анализа на
15
временнш оси и его длина должны быть согласованы с периодом основного тона при анализе озвученных сегментов речи. При таком согласовании окна анализа с периодом основного тона спектр речи получается с минимальными искажениями.
Спектр и речевой сигнал эквивалентны с точки зрения их информационной емкости и взаимозаменяемы в алгоритмах анализа речи на основании основных положений теории информации [Fano 1950; Shannon 1951].
Переход от спектрального представления речи к описанию максимумов спектра в понятиях (терминах) формантных параметров ведет к потере информации. Восстановить спектр речи по формантным параметрам можно лишь приблизительно, восстановив области концентрации спектральной энергии. Это отрицательно сказывается на качестве синтезированной речи по формантным параметрам [Schröder 1956].
Современные временные методы анализа речи основаны на идее построения обратного фильтра, компенсирующего воздействие речевого тракта на сигнал возбуждения.
Задача анализа артикуляционных параметров как задача построения обратного фильтра и определение его параметров по речевому сигналу является в математическом плане неопределенной (некорректной).
С математической точки зрения такие задачи называются обратными. Разработка алгоритмов и методов решения анализа речевой волны в такой постановке в виде обратной задачи для уравнений началась в 60-х годах XX века сразу после опубликования научных работ Г. Фанта.
Первые работы в этом направлении были опубликованы в конце 60-х -начале 70-х годов прошлого столетия у нас в стране [Акинфиев, Собакин 1971; Собакин 1969, 1970 а, б, в, 1972] и за рубежом [AtalB.S., Schröder M.R. 1967; Atal, Hanauer 1971; Itakura, Saito 1969, 1971, Wakita 1972]. Разработка методов анализа речи, получивших название методов линейного предсказания, осуществлялась достаточно быстро и к началу 80-х годов была практически завершена [Маркел, Грей 1980].
Один из первых алгоритмов вычисления резонансных параметров речевого тракта был разработан на основе линейного дифференциального уравнения [Собакин 1968, 1969], при этом возбуждающую функцию полагают равной нулю. Метод позволял оценить «правомерность» замены функции возбуждения нулевыми значениями.
Проверка работоспособности метода осуществлялась, в частности, на стационарных гласных (диктор-мужчина).
Число оцениваемых формантных частот в методе было невелико и равнялось трем. Это количество оцениваемых параметров позволяло производить всю указанную выше процедуру на очень малом временном участке речевого сигнала порядка 1,5 мс.
В этом смысле метод обладает локальными возможностями анализа речевой волны, что является его достоинством с точки зрения исследования речи в темпе речеобразования и выявления микроструктуры анализируемого сигнала.
Полученные результаты эксперимента представляют речевую волну (например, гласный «а») и изменение первой форманты.
Сравнивая поведение первой форманты с колебаниями речевого сигнала, отмечаются участки стабильности значений ее частоты с интервалами резких изменений. Это поведение полностью согласуется с изложенными выше модельными представлениями о процессе речеобразования и объясняется влиянием работы голосового источника на получаемые оценки при образовании гласного звука речи.
Интервалы возмущений значений частоты первой форманты связаны с интервалами разомкнутых голосовых связок и поступлением дополнительной энергии в речевую область, и вся колебательная система речевого тракта при этом находится в режиме вынужденных колебаний. Интервалы стабильности соответствуют интервалам смыкания голосовых связок и могут рассматриваться как интервалы свободных колебаний линейной системы.
17
Получаемые в результате вычислений значения частот формант можно считать приближенно соответствующими несмещенным резонансным характеристикам речевого тракта.
Полученные результаты оценивания резонансных параметров речевого тракта по речевому сигналу позволяют сделать следующие выводы.
Во-первых, микроструктура образования речевого сигнала, априори определяемая модельными представлениями о процессе речеобразования, соответствует естественным образцам звучащей речи. Модель речеобразования, рассмотренная выше, отражает наиболее существенные моменты этого естественного процесса и содержит информацию об его основных параметрах и характеристиках.
Во-вторых, основные резонансные параметры речевого тракта принципиально могут быть вычислены локальным методом, опираясь на значения речевой волны. Это означает, что разработка подобных локальных методов анализа речи осуществима практически, а сама постановка задачи анализа на малом временном интервале может быть разрешима.
В-третьих, приведенный алгоритм показывает, что обратная задача может решаться на базе различных операторов, различных ограничений на искомые параметры, разных функций возбуждения и в разных метрических пространствах.
В диссертации предложены возможные обобщения методов линейного предсказания речи, касающиеся выбора операторов обратного фильтра, метрических пространств, ограничений на искомые параметры и типов сумматоров по времени, которые позволяют с единых позиций рассматривать большинство методов обратной фильтрации и разрабатывать новые методы [Собакин 1987].
Свойства базовых операторов обратного фильтра можно сформулировать, опираясь на свойства операторов задержки и дифференцирования. Класс допустимых операторов будет определяться следующим образом:
18
- модуль коэффициента передачи постоянен в рассматриваемой области частот;
- фазовая характеристика оператора функция должна быть монотонной функцией в рассматриваемом диапазоне частот.
В качестве выбора метрического пространства в работе рассмотрены квадратичное, как наиболее распространенное, и модульное. Рассмотрена принципиальная возможность использования метрик других пространств. Следует отметить важность согласования дифференциальной чувствительности слухового восприятия речи с метрикой выбранного пространства анализа резонансных параметров речевого тракта.
В качестве параметрических ограничений предлагается использовать широкий класс функциональных связей параметров обратного фильтра, исключающих нулевое (тривиальное) решение задачи анализа речи. Определяемые артикуляционные параметры не должны одновременно равняться нулевым значениям.
Предусмотрена возможность использования различных форм окон анализа. Влияние окна анализа на качество определяемых параметров выражается эффектом сглаживания (фильтрации) их динамики и определяется эффективным значением окна анализа.
Предложенный обобщенный подход позволяет с единых позиций рассмотреть известные методы линейного предсказания и разрабатывать новые методы анализа речи.
Обратный фильтр в методах линейного прогноза строится на операторах задержки [Atal, Hanauer 1971; Акинфиев, Собакин 1971]. Функционал качества на начальном этапе соответствовал метрике квадратичного пространства. Резонансные параметры речевого тракта вычислялись из системы линейных уравнений, полученных из условия равенства нулю градиента
функционала качества.
В качестве ограничения на искомые параметры в методах линейного
предсказания выбирается условие равенства единице старшего коэффициента.
19
Это условие в пространстве искомых коэффициентов уравнения задает гиперплоскость, не проходящую через начало координат, и принадлежит классу разрешенных ограничений.
Как показывают результаты исследования речевого сигнала локальным методом, приведенные в первом параграфе этой главы, расширение окна анализа за рамки интервала смыкания влечет искажение искомых параметров. Основное возмущение при этом наступает в моменты раскрытия голосовых связок. Их оценки будут в этом случае смещенными относительно реальных значений.
Этого смещения получаемых оценок и искажения результатов анализа речи можно избежать при удачном выборе более совершенной имитации импульсов основного тона [Собакин 1972, 2006]. Погрешности такой аппроксимации можно будет считать по настоящему малыми, и функционал будет принимать минимальное значение при коэффициентах прогноза, определяющих более точные оценки резонансных свойств речевого тракта.
Модификация ограничения на параметры приводит к изменению алгоритма вычислений оценок искомых величин. В частности, выбор соответствующего условия связи на параметры могут быть получены известные алгоритмы прогноза «вперед» и «назад» по времени, новые алгоритмы типа «интерполятора» и алгоритмов исследования инвариантов параллельного корреляционного анализа.
Сформулированным выше условиям помимо операторов задержки и дифференцирования удовлетворяют, в частности, фазовые контуры и, как показано в диссертации, на них можно строить процедуры анализа.
Используя систему преобразований на основе линейного прогноза первого порядка «вперед» и «назад» по времени, был предложен [Иакига, Бако 1969, 1971; \Vakita 1972] каскадный, последовательный метод анализа речевого тракта по речевому сигналу.
20
Коэффициенты, описывающие акустические процессы в последовательных цилиндрических резонаторах, получили название коэффициентов частных корреляций (РARCOR).
Отношения площадей поперечных сечений цилиндрических секций составляют еще один набор параметров, связанных с резонансными свойствами речевого тракта.
В работе [Акинфиев, Загубная 1984] предложена модификация каскадного метода вычислений на основе PARCOR, позволяющая вычислять непосредственно по сигнал-остаткам прогноза «вперед» и «назад» отношение площадей поперечных сечений.
Рассмотрены процедуры вычислений оценок параметров речевого тракта по речевому сигналу, представляющие собой вычисления прямого действия (блочные алгоритмы).
Описанные выше методы обладают определенной локальностью. Оценки параметров получаются этими методами на основе сегмента речи в виде окна анализа. На практике этот интервал может варьироваться в широких пределах от одной мс в локальном варианте до 30-40 мс для интегрального метода анализа [Собакин 1969, 1970].
Возможность использования малых окон анализа является достоинством рассмотренных методов и позволяет исследовать микроструктуру речевых сигналов.
Подводя итоги, можно отметить следующее:
1. Обобщенный метод линейного предсказания эффективен при анализе резонансных характеристик речевого тракта.
2. Прямые, расчетные методы вычисления оценок резонансных характеристик артикуляции при анализе стационарных звуков и слитной речи.
3. Процедуры прямого вычисления оценок резонансных характеристик речевого тракта на базе различных операторов, в разных метрических пространствах и с разными ограничениями на параметры позволяют углубленно исследовать известные методы анализа и разрабатывать новые.
21
4. Предложенные методы позволяют определять параметры артикуляции на малых интервалах времени. На практике этот интервал может варьироваться в широких пределах от 1 мс в локальном варианте до 30-40 мс для интегрального метода анализа. Оценки параметров локальными методами на основе сегмента речи, соответствующего сомкнутым голосовым связкам, получаются при этом несмещенными.
Третья глава диссертации рассматривает вопросы исследования фонации по речевому сигналу.
Проблема изучения фонационных характеристик речи достаточно сложна в силу простых физиологических особенностей речевого аппарата человека: источник возбуждения речевого тракта недоступен для непосредственного измерения акустических колебаний, порождаемых этим источником.
Голосовой источник содержит достаточно сложную речевую информацию. Общепринято, что существенная ее часть содержится в величине периода основного тона (ОТ) или в частоте ОТ (ЧОТ).
Задача определения периода звуковых колебаний предполагает предварительную сегментацию непрерывного речевого потока на озвученные и глухие участки (параметр «тон-шум»),
В большинстве методов решение тон/шум принимается по следующим основным признакам:
1) среднему числу нулей (N02) или смен знаков сигнала на интервале анализа;
2) сравнению энергий в низкочастотной и высокочастотной областях спектра (ЕК(5);
3) величине первого коэффициента частной корреляции;
4) значению временной огибающей речевого сигнала;
5) функции распределения амплитуд звуковых колебаний.
Большинство методов определения периодов ОТ предполагает наличие
двух этапов анализа речи: предварительное преобразование (ПП) и принятие решения (ПР) о значении частоты основного тона (ЧОТ).
Основная цель ГШ состоит в упрощении формы колебаний речевого сигнала на озвученных участках речи. Под упрощением формы обычно понимают устранение колебательных компонент сигнала, возникновение которых обусловлено влиянием речевого тракта на импульсные пики голосового источника. Предложено достаточно много вариантов подобных «обратных» или близких к ним преобразователей и функциональных процедур, входящих в блок ПП. Эти процедуры являются базовыми (БП).
Назовем наиболее распространенные общие процедуры этапа ПП:
- применение НЧ-фильтрации;
- нормирование сигнала по амплитуде (компрессирование);
Диапазон значений частот основного тона Р0 для разных дикторов колеблется от =50 Гц до =400 Гц. Их основные по энергии гармоники сосредоточены в низкочастотном диапазоне. Поэтому для упрощения формы сигнала можно воспользоваться НЧ-фильтром и убрать высокочастотные компоненты спектра речи, усложняющие колебательную структуру речевого сигнала. Обычно применяют НЧ-фильтры с верхней частотой пропускания порядка 900 Гц с тем, чтобы в диапазон частот до 900 Гц попало несколько гармоник ОТ. Расстояние между гармониками по шкале частот соответствует частоте ОТ. Колебания преобразованного речевого сигнала становятся плавными, а участки возбуждения импульсами основного тона более ярко выраженными.
При принятии решений о значении основного тона на этапе ПР применяются во временных методах выделители пиков полученных сигналов с помощью так называемых пиковых детекторов (ПД).
Дальнейшая обработка сводится к сравнению полученной оценки ОТ с результатами оценивания на предыдущих кадрах, что обычно обозначают блоком «логика», часто не раскрывая внутренних характеристик и пороговых значений.
Базовое преобразование (БП) является отличительной особенностью каждого метода ВОТ и является основной процедурой, определяющей рабо-
23
тоспособность метода, его достоинства и недостатки. На выходе БП реализуются одна или несколько параллельных ветвей оценивания значений ОТ. Этим объясняется многоканальная связь БП с процедурой ПР, составной частью которого является, как правило, логическая функция (в виде блока «логика»).
В диссертации рассмотрены основные методы ВОТ и указаны ссылки на соответствующие научные работы.
Решение проблемы ВОТ как всякой научно-исследовательской проблемы следует осуществлять в нескольких взаимосвязанных направлениях, таких, как:
- разработка преобразований речевого сигнала в импульсную последовательность, синхронную с основным тоном;
- использование принципа параллельной обработки речи на базе нелинейных преобразований;
- совместное использование импульсности и квазипериодичности голосового источника;
- применение методов адаптации в решении проблемы ВОТ;
- разработка научно-исследовательских методов исследования импульсов основного тона по речевому сигналу.
Повышение надежности методов ВОТ, основанных на выделении экстремумов звуковых колебаний, может быть достигнуто на пути упрощения формы этих колебаний и устранении побочных пиков.
При синтезе речи по параметрам оказывается совершенно недостаточным знание только периода ОТ или частоты основного тона речи [Сорокин 1985; Коваль и др. 1989]. Необходимо «формировать» импульс сигнала возбуждения. Последнее обстоятельство указывает на тот факт, что в форме импульса ОТ (ФИОТ) содержится достаточно важная и содержательная речевая информация. Представляется достаточно интересной гипотеза о важности формы импульса ОТ для описания индивидуальных особенностей
говорящего, по которым аудитор узнает диктора [Чистович 1976].
24
Важность изучения ФИОТ на базе речевого сигнала становится, таким образом, одной из современных проблем прикладной лингвистики и общего речеведения (по Р.К. Потаповой) в целом.
В диссертации предложен класс преобразований речевого сигнала, которые позволяют перейти к импульсной последовательности, синхронной с периодом колебаний голосовых связок [Собакин 1970, 1972, 1978, 2000, 2002, Собакин, Горев 2005, 2006].
Предлагаемые нелинейные преобразования речевого сигнала обладают следующими свойствами:
- на интервалах смыкания голосовых связок речевой сигнал полностью компенсируется и становится близким к нулю;
- на интервалах размыкания речевые колебания преобразуются в положительный импульс;
- форма получающегося импульса отражает форму импульса основного тона;
- параметры речевого тракта при этом не оцениваются и в вычислительном процессе не используются.
Все расчеты при этом основываются только на речевом сигнале и его основных свойствах:
- на интервалах смыкания голосовых связок функция возбуждения близка к нулю и линейная система речевого тракта находится в режиме свободных колебаний;
- на интервалах размыкания, напротив, имеем вынужденные колебания линейной системы.
Полученные значения производят микросегментацию речи на интервалы смыкания и размыкания голосовых связок, а также позволяют изучать форму импульсов основного тона.
Реализация одного из методов была выполнена в среде МАТЬАВ [Собакин, Николаев 2004]. Речевым материалом для исследований послужили
стационарные гласные русского языка: /и/, /ы/, /у/, /э/, /о/, /а/. В качестве дикторов выступали трое мужчин и четыре женщины в возрасте от 20-и до 30-и лет. Запись производилась через звуковую карту персонального компьютера. Частота дискретизации - 12 кГц, количество бит на отсчет - 16.
Кроме усредненного импульса вычислялись и выводились на экран разнообразные статистические характеристики анализируемой импульсной функции.
Анализ полученных импульсов показывает явную зависимость их формы от анализируемого гласного. Форма импульсов содержит некоторые «общие» компоненты, присущие, вероятно, индивидуальным особенностям фонационного аппарата диктора. Для выявления этих общих характеристик достаточно провести корреляционный анализ полученных импульсов и получить «обобщенный» портрет аналога импульса основного тона с указанием соответствующих доверительных интервалов.
В этой связи представляет интерес получение аналогичных результатов для другого диктора на тех же гласных звуках речи с иным средним значением ЧОТ для диктора 1 (муж., Р0 =140-5-150 Гц).
Сравнивая полученные «функции возбуждения» для двух дикторов, можно уверенно говорить об их индивидуальных различиях. В частности, на гласных /а/ и /о/ импульсы «функции возбуждения» диктора 1 имеют явно выраженную симметричную форму с одной вершиной. Импульсы диктора 2 на этих же гласных несимметричны и имеют несколько вершин. Импульсы диктора 1 на звуке /э/ также несимметричны, однако они вновь заметно отличаются от импульсов диктора 2 на том же звуке. У диктора 1 импульсы имеют пологий наклон справа, тогда как импульсы диктора 2, наоборот, - пологий наклон слева.
Результаты пофонемного сопоставления формы полученных импульсов позволяют выделить как сходство, так и их отличие для разных дикторов. И то, и другое имеет прямое отношение к одной из ключевых проблем общего речеведения (по Р.К. Потаповой) на первичном уровне речепроизводства.
26
Анализируя усредненные импульсы, полученные для разных дикторов и разных звуков речи, возникают вопросы: от чего зависит форма ее импульсов? Можно ли считать, что полученная функция хранит в себе как индивидуальные особенности диктора, так и признаки, общие для одного и того же звука, произнесенного разными дикторами (хотя это противоречит положению о независимости работы голосового источника от состояния речевого тракта)? И можно ли таким образом использовать информацию о форме импульсов в задачах идентификации говорящего и распознавания речевых образов?
Предложенный метод исследования фонационной составляющей речепроизводства на основе речевого сигнала может быть использован (наряду с другими методами анализа) при анализе слитной речи [Собакин, Горев 2005].
Проверялись также значения параметров преобразования в достаточно широких пределах. Так, размер автокорреляционной матрицы варьировался от трех до девяти, а величина усреднения (продолжительность окна анализа) - от 2 до 30 мс. Во всех случаях импульсный характер преобразования сохранялся, а сами импульсы имели достаточно ярко выраженный вид по отношению к интервалам смыкании голосовых связок.
Отметим, что полученные импульсы не следует отождествлять с истинными импульсами ОТ в рамках рассматриваемой линейной модели рече-образования. Характер выделенных последовательностей вместе с микровариациями по амплитуде можно рассматривать в качестве некоторого
аналога колебаний голосовых связок.
Предложены различные модификации определителя автокорреляционной матрицы, упрощающие процедуру вычислений.
Результаты экспериментов с естественными речевыми сигналами показывают, что полученные импульсы, соответствующие интервалам размыкания голосовых связок, имеют характерную форму для каждой гласной и содержат в себе информацию о форме импульса основного тона. Методы позволяют определить также интервалы смыкания голосовых связок.
На окне анализа, соответствующем сомкнутым голосовым связкам, можно определить локальным методом [Собакин 1969] несмещенные (точные) характеристики речевого тракта и, применяя обратную фильтрацию к речевому сигналу, вычислить форму импульсов ОТ [Акинфиев, Жарова, Собакин 1973].
Описанный метод получения импульсов ОТ может применяться в исследовательских целях для изучения характерных особенностей функционирования голосовых связок в процессе речеобразования. Метод удобен тем, что использует только речевой сигнал в качестве исходной информации.
Иной алгоритм преобразования речевых колебаний был основан на вычислении временнйх огибающих сигнал-остатков линейного предсказания разных порядков [Собакин 1976].
Идея алгоритма использует геометрическую интерпретацию определителя автокорреляционной матрицы: значение определителя представляет собой объем параллелепипеда, построенного на базовых векторах (смещенных интервалов речевого сигнала). С математической точки зрения объем такого параллелепипеда может быть вычислен в виде произведения норм системы ортогональных векторов (сигнал-остатков), образованных на основе базовой (исходной) системы.
На предварительном этапе для упрощения формы речевых колебаний применяется ФНЧ с частотой пропускания =1000 Гц и нормирования сигнала по амплитуде для устранения его временной огибающей (компрессирование сигнала). Далее, вычисляются КЛП для порядков от 1 до 4 и соответствующие сигнал-остатки, оценивается их текущая временная огибающая. Полученные компоненты перемножаются, компрессируются и фильтруются.
Дальнейшие преобразователи (компрессор и ФНЧ) применяются для дополнительного «улучшения» формы импульсов квазипериодической последовательности и уменьшения разброса по амплитуде этих импульсов.
Эксперимент, проверяющий работоспособность модифицированного метода анализа, был осуществлен на нескольких фразах, произнесенных
28
слитно. В частности, исследовалась фраза «Белая равнина» диктор 3 (жен. F0 =200 Гц).
Изменение полученной функции имеет четко выраженный импульсный характер. Можно утверждать, что предложенная модификация метода не изменила его положительных свойств применительно к исследованию фонационной картины процесса речеобразования, а сам метод при анализе слитной речи оказался работоспособен.
В заключение отметим, что возможные изменения математических процедур, положенных в основу рассмотренного метода, не ограничиваются предложенными выше.
Процедура вычисления КЛП различных порядков может быть осуществлена методом Левинсона по коэффициентам частных корреляций (РARCOR), минуя адаптивный прогноз [Levinson 1947].
По рассчитанным КЛП простой фильтрацией получаются сигнал-остатки, необходимые для вычисления требуемого определителя матрицы. В этом случае весь алгоритм в целом может быть согласован и реализован совместно с классической схемой расчета коэффициентов PARCOR Итакуры и Саито. Все остальные блоки, играющие вспомогательную роль в улучшении рабочих характеристик устройства, следует, конечно, сохранить.
В качестве серии нелинейных преобразований звучащей речи в импульсную последовательность предлагается использовать инварианты автокорреляционной матрицы [Собакин 1999, 2001; Собакин, Горев 2006].
Для проверки высказанной гипотезы о возможности использования инвариантов автокорреляционной матрицы при исследовании фонационных характеристик речи были проведены соответствующие эксперименты с естественными звуками речи. В качестве примера приведем результаты исследования ударного гласного в слове «schlafwagon» диктор 4 (жен., Fo=270 Гц), преобразованного в дискретную форму (характеристики АЦП: частота дискретизации по времени равна 11 кГц, число бит на отсчет - 16).
29
Поведение инвариантов соответствует работе голосовых связок в процессе образования исследуемого гласного звука, что подтверждаег высказанную выше гипотезу о возможности использования инвариантов автокорреляционной матрицы для исследования фонационных параметров речи.
Несмотря на существенные различия между рассмотренными звуками четко прослеживается закономерность: в начале каждого нового периода на осциллограмме (характеризуется резким увеличением амплитуды сигнала) отмечено импульсом возбуждающей функции. Эти импульсы являются интервалами размыкания голосовых связок, в то врет как участки, где значения функции равны нулю, являются интервалами смыкания.
Эксперименты показали синхронное изменение коэффициентов характеристического многочлена на периоде ОТ. Импульсы, выделяемые инвариантами автокорреляционной матрицы речевого сигнала, располагаются по временной оси в одних и тех же местах, что позволяет говорить о некоторой аутентичности двух нелинейных преобразований. Из сказанного можно сделать вывод, что инварианты матрицы могут применяться для исследования фонационной структуры речевого сигнала и на их основе можно разрабатывать многоканальные выделители ОТ параллельного типа.
Предложенные методы исследования фонационных характеристик речи показали свою работоспособность применительно к естественным речевым сигналам и адекватность реальным процессам порождения звуковых колебаний голосовыми связками.
В четвертой главе диссертации рассматриваются вопросы построения адаптивных методов исследования фонационно-артикуляционных параметров речи.
Расчетные методы образуют класс блочных описаний речевого тракта по речевому сигналу и существенно зависят от окна анализа. Движение окна анализа по времени осуществляется с перекрытием дискретным образом и, соответственно, состояние речевого тракта описывается дискретно (блоками). Непрерывный во времени анализ может быть реализован адаптивными методами.
Приведенные выше алгоритмы на основе линейного предсказания можно представить в адаптивной форме оценивания параметров речевого тракта, опираясь на общие принципы разработки подобных анализаторов [Собакин 1987].
Адаптивные алгоритмы характеризуются рекуррентным вычислением приближенных оценок параметров артикуляции.
Адаптивный прогноз позволяет вычислять оценки искомых коэффициентов на каждом такте дискретизации по времени в соответствии с поступлением отсчетов речевого сигнала. Каждое значение сигнала является в адаптивном методе «новой» информацией и служит для «поправки» оценки искомых параметров на предыдущем шаге итерации. Этим достигается «непрерывность» процесса оценивания искомых величин синхронно поступлению новых данных, что позволяет получить практически в реальном времени «непрерывные» кривые артикуляционных параметров речи в соответствии с процессом речеобразования.
Структурная схема анализа представляет собой устройство с обратной связью: выходные оценки параметров возвращаются назад в виде обновленных значений весовых коэффициентов. Из теории систем с обратными связями известно, что в них может наблюдаться эффект самовозбуждения, который приводит к неустойчивому состоянию устройства в целом и нарушает его работоспособность.
Основными параметрами, отвечающими за устойчивое состояние схемы, являются коэффициент усиления в цепи обратной связи и временная огибающая речевого сигнала.
Добиться устойчивости работы устройства можно, предварительно преобразовав входной сигнал, убрав его временною огибающую или выбрать коэффициент усиления на основе принципа сжатых отображений.
Важным качеством адаптивных схем является вопрос о скорости сходимости итерационных оценок к своему истинному значению. На практике достаточно вычислять приближенные значения параметров, и за время сходи-
31
мости итераций можно условно принять время, за которое приближенные значения будут равны значениям с некоторой процентной погрешностью.
Обычно за допустимый уровень погрешности принимают 5% отклонения.
Время сходимости адаптивных устройств в силу их итерационной циклической организации может быть уменьшено в несколько раз. Это осуществляется на основе рециркуляции. Тактовая частота работы устройства повышается в несколько раз (степень рециркуляции) по сравнению с частотой поступления новых значений речевого сигнала.
Последнее свойство адаптивных устройств позволяет практически сводить к минимуму переходные процессы «настройки» на приемлемые оценки параметров речи выбором соответствующего порядка рециркуляции. Ограничением сверху для степени рециркуляции служит, по существу, лишь производительность вычислительного процессора, осуществляющего один цикл вычислений за новый период дискретизации.
Приведены алгоритмы адаптивных вычислений параметров речи, которые обладают рядом преимуществ по сравнению с прямыми расчетными алгоритмами предыдущего параграфа и имеют несколько дополнительных внутренних констант, влияющих на их работоспособность. Представляется интересным сравнить результаты анализа естественных речевых сигналов, полученных на основе различных алгоритмов. В качестве параметров сравнения удобно взять формантные параметры, определенные на основе коэффициентов линейного предсказания, частных корреляций или отношения площадей поперечных сечений.
Результаты вполне согласуются между собой по всем трем алгоритмам. Некоторые расхождения формантных частот наблюдаются для высокочастотных формант с достаточно малой добротностью (с шириной полосы более 1000 Гц).
Таким образом, высокодобротные форманты, определяющие в основном качество синтезируемой речи, определяются с высокой точностью всеми тремя методами линейного предсказания.
Приведены результаты исследования работоспособности адаптивного алгоритма, проведенные путем математического моделирования при анализе фразы «Белая равнина». Экспериментальные исследования слитной речи проводились этим методом с целью определения основных характеристик алгоритма анализа:
- требуемое число рециркуляции,
- частота среза НЧ-фильтров в цепи обратной связи.
Речевые сигналы через фильтр 300-3400 Гц записывались в память ЭВМ с частотой дискретизации 8 кГц и 12-и разрядном квантовании отсчетов.
Число оцениваемых параметров равнялось 10, коэффициент усиления в цепи обратной связи - 1000, начальные значения полагались равными нулю.
Для повышения точности оценивания параметров речевой сигнал подвергался предварительной компрессии.
Полученные результаты по двум алгоритмам предсказания очень близки. Расхождение наблюдается в двух первых сегментах и объясняется влиянием нулевых начальных условий в адаптивном варианте.
Адаптивному методу необходимо переходное время для продвижения из нулевого состояния к вектору истинных значений параметров. Этот переходной процесс заканчивается, как показывают результаты, к концу второго анализируемого сегмента.
Сравнивались также нормированные логарифмические спектры сигналов, восстановленных по параметрам, вычисленным двумя методами (прямым и адаптивным).
Приведенные результаты показывают работоспособность как прямых расчетных методов на различных операторах, так и адаптивных алгоритмов при надлежащем выборе их характеристик. Резонансные параметры речевого тракта, определенные по рассмотренным выше методам, достаточно хорошо согласуются между собой и, можно считать, имеют единую артикуляционную основу, присущую самой природе речевого сигнала.
33
Обобщенный подход позволяет с единых теоретических позиций получить интерполяционную структуру анализа, линейный прогноз «вперед» и «назад» по времени, также свести задачу анализа артикуляционных параметров речи к исследованию собственных значений и собственных векторов автокорреляционной матрицы.
Это достигается определенным выбором ограничения на искомые коэффициенты.
Второе направление применения обобщенного подхода к анализу речи связано с выбором метрического пространства. В диссертации помимо квадратичного пространства рассмотрены алгоритмы в пространстве первой степени (модульная мера).
Если в качестве модели голосовых сигналов возбуждения рассматривать линейное преобразование, на входе которого имеется единичный импульс, а на выходе - сумму гармоник с частотами, кратными основной частоте, то для анализа таких сигналов методом обратной фильтрации необходимы фильтры с нулями коэффициента передачи. Причем, в благоприятном случае нули коэффициента передачи обратного фильтра должны располагаться на частотах гармонических составляющих анализируемого сигнала. При выполнении последнего условия частота основного тона и частота первого нуля коэффициентов передачи совпадают, что, в конечном счете, и позволяет получать оценку частоты ОТ [Собакин 1989].
В диссертации предлагается адаптивный алгоритм на основе последовательно соединенных линейных прогнозирующих фильтров второго порядка. Такие фильтры могут строиться на операторах задержки, дифференцирования или на фазовых контурах.
Приведены результаты моделирования алгоритма на ЭВМ.
Наличие нескольких минимумов у функционала качества ставит задачу:
- во-первых, привлечение к анализу логического блока,
- во-вторых, введение возможных усовершенствований алгоритма с тем, чтобы минимизируемый функционал имел бы единственный минимум.
34
При изучении фонационной структуры речи показана работоспособность предложенного алгоритма анализа и перспективность применения процедуры адаптации.
В главе предложен ряд адаптивных методов исследования резонансных параметров речевого тракта по речевому сигналу и адаптивный метод определения основного тона речи.
Приведенные в данной главе исследования естественных звуков и слитной речи адаптивными методами показали, что они работоспособны и адекватно описывают ее фонационно-артикуляционные характеристики в рамках линейной модели речеобразования.
В заключении формулируются основные теоретические выводы, перечисляются практические достижения и планируется дальнейшее развитие исследований. Список литературы состоит из 188 источников.
В первом приложении приведены результаты анализа звучащей речи, представленные в графическом исполнении, а также блок-схемы моделей речеобразования и математических алгоритмов. Во втором приложении приведен список используемых сокращений.
Общие выводы можно свести к следующему:
- предложен обобщенный подход к задаче определения артикуляционных параметров речи по речевому сигналу;
- разработаны расчетные и адаптивные методы анализа формантной структуры речи, представленной в дискретном или аналоговом виде;
- внутренние характеристики алгоритмов позволяют варьировать в широких пределах помехоустойчивость методов анализа речи;
- разработаны принципы преобразования речевого сигнала в импульсную последовательность, синхронную с основным тоном на озвученных участках речи;
- показана возможность определения местоположения импульса основного тона и интервала сомкнутых голосовых связок;
35
- математически доказана применимость методов к исследованию фрикативных согласных, при этом полученные параметры речевого тракта являются несмещенными оценками их истинных значений;
- рассмотрены видоизменения базовых операторов; линейных пространств и ограничений на параметры в предложенных алгоритмах, что открывает перспективы создания новых методов артикуляционного анализа речи с улучшенными свойствами и характеристиками. Возможные модификации алгоритмов анализа приводятся в предлагаемой нами работе;
- экспериментальное исследование стационарных звуков и слитного речевого потока показало работоспособность методов и их применимость к изучению макро- и микроструктуры фонационно-артикуляционных характеристик процесса речеобразования по речевому сигналу;
- предложен исследовательский метод получения резонансных параметров речевого тракта на интервалах смыкания голосовых связок и выделены импульсы основного тона в рамках линейной модели речеобразования.
Истинность и достоверность результатов диссертации обоснована методами математического моделирования предложенных алгоритмов исследования применительно к естественным речевым сигналам.
В результате проведенного исследования сформулированы основные принципы построения алгоритмов анализа речи на базе линейной модели речеобразования. Следует отметить, что предложенный обобщенный подход к первичному описанию речи может быть распространен на нелинейные модели.
Основные результаты диссертационного исследования способствуют расширению знаний в области речеобразования. Их применение к первичному описанию звуковых колебаний позволяет разрабатывать перспективные алгоритмы анализа и получать фонационно-артикуляционные параметры речи.
Рассмотренные проблемы носят междисциплинарный характер и изучаются физиологами, лингвистами, акустиками, связистами и математиками.
Диссертационное исследование обусловлено не только необходимостью дальнейшего усовершенствования алгоритмов анализа артикуляционных характеристик речи, но и необходимостью более полного изучения и описания фонационной структуры речи.
Практическая ценность диссертации состоит в том, что предложенные методы анализа в рамках прикладной лингвистики позволяют исследовать в комплексе динамику фонационно-артикуляционных характеристик речи. Применение методов первичной обработки речи в прикладной лингвистике и смежных вопросах речеведения не вызывает сомнений и послужит более полному изучению звучащей речи (особенно, ее микроструктуры).
С позиций прикладной лингвистики и речеведения (по Р.К.Потаповой) представляет интерес статистическое изучение формы импульсов основного тона (например, с использованием кластеризации) и на их основе исследование информационных характеристик речи, содержащих, по мнению автора, индивидуальные особенности диктора.
Теоретические материалы диссертации имеют более широкое поле применения и помимо исследования речевых сигналов могут применяться в смежных дисциплинах. Использование предложенных методов анализа легко распространяется на изучение колебательных процессов, описываемых линейными системами с сосредоточенными параметрами. Сигнал возбуждения при этом может иметь стохастический (шумовой) или импульсный характер (необязательно периодический).
Предложенные нами методы могут быть применимы в системах спецсвязи, в геологии при разведке полезных ископаемых. Они применимы в кардиологии, в медицинской диагностике нарушений работы головного мозга, определении эмоционального состояния диктора, в судебной экспер-тологии и т. д.
Апробация теоретических результатов диссертации показала, что рассмотренный обобщенный подход применим к широкому классу фонем, адекватно описываемых линейной моделью речеобразования. Однако не все звуки речи представляются в виде реакции (отклика) линейной системы на стохастическое и (или) импульсное возбуждение. Так, например, вибранты и взрывные звуки сложно представить подобным образом.
Вследствие этого полученные результаты не могут претендовать на всеобъемлимость, и дальнейшие исследования могут включать:
1) изучение на микросегментном уровне сложных процессов образования вибрантов и взрывных звуков речи;
2) создание моделей их образования на основе полученных результатов исследования;
3) исследование фонационных характеристик речи;
4) применение к анализу речи новых алгоритмов, построенных на базе фазовых контуров в различных метрических пространствах;
5) изучение формы импульсов основного тона и создание базы данных для различных дикторов с применением методов кластеризации;
6) исследование несмещенных значений резонансных частот речевого тракта, определенных на интервалах сомкнутых голосовых связок;
7) разработку совершенных адаптивных алгоритмов выделения основного тона;
8) исследование корреляционных связей динамических характеристик фонационно-артикуляционных параметров речи.
Основные результаты диссертационного исследования приведены в следующих научных работах автора:
1. Собакин А.Н. Артикуляционные параметры речи и математические методы
их исследования // Монография. - М., 2006. - 220 с. (Вестник Моск.
гос. линв. ун-та; вып. 517; сер. Лингвистика).
2. Собакгт А.Н. Об одном формантном методе исследования речевого сигнала // Юбилейная научно-техническая конференция по технике и экономике связи.: Тез. докл. - М.: ВЗЭИС, 1968. - С. 18.
3. Собакин А.Н Об одном формантом методе исследования речевого сигнала // Тр. ин-та ЦНИИ связи. - 1969. - Вып. 3. - С. 166-171.
4. Собакин А.Н Интегрально-дифференциальный метод определения форматных параметров // Тр. ин-та ЦНИИ связи. -1970. - Вып. 1. - С. 150-154.
5. Собакин А.Н. Некоторые результаты исследования артикуляционных параметров речи и основного тона // Тр. ин-та ЦНИИ связи. - 1970. -Вып. З.-С. 167-175.
6. Собакин А.Н. Анализ резонансных параметров артикуляционного аппарата по речевому сигналу: Автореф. дис. ... канд. техн. наук. -М., 1970.-22 с.
7. Собакин А.Н. Об одном методе определения резонансных параметров артикуляционного аппарата по речевому сигналу // VI Всесоюзный семинар APCO-VI: Тез. докл. - Таллинн: АН СССР, 1971. - С. 11-17 (в соавторстве с Акинфиевым H.H.; доля автора 0,2 п.л.).
8. Собакин А Н. Об определении формантных параметров голосового тракта по речевому сигналу с помощью ЭВМ // Акустический журнал АН СССР. - 1972. - № 1.-С. 106-114.
9. Собакин А.Н. Детектирование сигнала основного тона из озвученных звуков // VII Всесоюзная шк.-сем. APCO-VII: Тез. докл. - Алма-Ата: Наука, отд-ние Казах. ССР, 1972. - С. 53-55 (в соавторстве с Акинфиевым H.H., Жаровой С.С.; доля автора 0,1 п.л.).
10. Авторское свидетельство 462141 СССР, М Кл. G 01ч23/16. Анализатор речи / H.H. Акинфиев, А.Н. Собакин (СССР). - 4 е.: ил. Заявлено 14.08.72. Опубликовано 05.11.74.
11. Собакин А.Н. Преобразование речевых сигналов для выделения основного тона // VIII Всесоюзная шк.-сем. АРСО-8: Тез. докл. - Львов:
39
ЛОУИПК, 1974. - С. 6-8 (в соавторстве с Акинфиевым H.H.; доля автора 0,1 п. л.).
12. Авторское свидетельство 530340 СССР, МКИ G10L1/08, Н0473/18. Преобразователь речи в импульсную последовательность, синхронную с основным тоном / АИ.Собакин (СССР). - 4 е.: ил. Заявлено 11.12.74. Опубликовано 07.06.76.
13. Авторское свидетельство 542229 СССР, МКИ G 10Д1/00, H04J3/18. Устройство для выделения основного тона / А.Н. Собакин (СССР). - 7 е.: ил. Заявлено 18.04.75. Опубликовано 14.09.76.
14. Собакин А Н. Преобразователь автокорреляционных параметров речи в прогнозирующие параметры // Вопросы кибернетики АН СССР «Анализ и синтез речи в системах управления». - М.: ВИНИТИ, 1976. - Вып. 22. -С. 114-119 (в соавторстве с Акинфиевым H.H.; доля автора 0,2 п.л.).
15. Авторское свидетельство 593577 СССР, М. Кл.2 G 10L1/00, Н0403/18. Устройство для выделения основного тона речи / А.Н. Собакин (СССР). -4 е.: ил. Заявлено 01.06.76. Опубликовано 21.10.77.
16. Авторское свидетельство 604024 СССР, М. Кл.2 G 10L1/00. Устройство для выделения основного тона речи / А.Н. Собакин (СССР). - 5 е.: ил. Заявлено 24.12.76. Опубликовано 23.12.77.
17. Собакин А.Н. Преобразователь автокорреляционных параметров речи в прогнозирующие параметры // Вопросы кибернетики АН СССР «Анализ и синтез речи в системах управления». - М.: ВИНИТИ, 1976. - Вып. 22. -0,26 п.л. (в соавторстве с Акинфиевым H.H., личная доля автора 0,2 п.л.).
18. Собакин А.Н. Адаптивный метод выделения основного тона речи // ЕХВсесоюз. науч. шк.-сем. APCO-IX: Тез. докл. - Минск: ЭППП БелНИИНТИ, 1976. - С. 49.
19. Собакин А.Н Преобразование речевого сигнала для выделения основного тона // Вопросы кибернетики: Сб. тр. НС «Кибернетика» АН СССР. - М.: ВИНИТИ, 1976. - С. 127-133.
20. Собакин А.Н. Метод выделения основного тона, использующий адаптивную комб-фильтрацию (АКФ) // X Всесоюзная научная шк.-сем. АРСО-Х: Тезисы докладов. - Тбилиси: Мецниереба, 1978. - С. 61-62.
21. Собакин А.Н Адаптивный прогнозирующий комб-фильтр для определения основного тона речи // Вопросы кибернетики: Сб. тр. НС «Кибернетика» АН СССР. - М.: ВИНИТИ, 1981. - С. 117-131 (в соавторстве с Гольденберг Н.И., Носковой JI.A.; доля автора 0,7 п.л.).
22. Авторское свидетельство 1235374. Устройство для корреляционной обработки дискретной информации / И.А. Карасев, В.А. Минькович, В.А. Пучков, А.Н. Собакин, А.Е. Сычев, B.JI. Таубкин, С.А. Терешина (СССР). Заявлено 21.05.84. Опубликовано 01.02.86.
23. Авторское свидетельство 1226441 СССР. Устройство для определения экстремального числа / И.А. Карасев, И.Л. Корнеев, В.И. Кухников, В.А. Минькович, В.А. Пучков, А.Н. Собакин, В.Л. Таубкин, А.Х. Усманов (СССР). Заявлено 05.06.84. Опубликовано 22.12.85.
24. Собакин А.Н. Методы исследования артикуляционных параметров речи на основе обобщенного линейного предсказания // XIth International Congress of Phonetic Sciences: Proc. - Tallinn, Estonia, U.S.S.R. - 1-7 aug. -1987. - P. 2.3.1. - 2.3.4 (на англ. яз.).
25. Собакин А.Н. Алгоритмы и методы выделения речевого сигнала для автоматического распознавания речи // Проблемы проектирования экспертных систем АМН СССР: Тез. докл. - М.: ВИНИТИ, 1988. - С. 21.
26. Собакин А.Н. Анализ работы голосовых связок в процессе речеобразо-вания по речевому сигналу // Всесоюз. шк.-сем. «Психологическая бионика»: Тез. докл. - Харьков: ХИРЭ, 1988.
27. Собакин А.Н. Информационные параметры артикуляции в процессе речевой коммуникации // Всесоюз. симпозиум «Методологич. пр. инф-ки, инф. технол. и инф. общество» АН СССР- Тез. докл. - Обнинск: ВИНИТИ, 1988.-С. 11.
28. Собакин А.Н. Введение в информатику и вычислительную технику: В 2 т. - М.: МГПИИЯ им. М. Тореза, 1988. - Т. 1. - 101 е.; Т.П. - 51 с. (в соавторстве с Потаповой Р.К.; доля автора 4,2 п.л.).
29. Собакин А Н. Метод исследования голосового источника по речевому сигналу. - М.: МГПИИЯ им. М. Тореза, 1989. - С. 76-92 (Тр./МГПИИЯ им. М.Тореза; вып. 329).
30. Собакин А.Н. Обобщение линейного прогноза в задаче параметризации речевого сигнала // XI Всесоюз. акуст. конф.: Тез. докл. - М.: ГЕОС, 1991.-С. 25-26.
31. Собакин А.Н. Методы вычисления параметров речи на основе обобщенного критерия оптимальности // XVI Всесоюз. шк.-сем. APCO-XVI: Тез. докл. - М.: МГПИИЯ им М.Тореза, 1991. - С. 128-129.
32. Собакин А.Н. Нелинейный метод исследования голосового источника по речевому сигналу // XIIth International Congress of Phonetic Sciences: Proc. - Aix-on-Province, France. - 19-24 aug. 1991. - P. 3: 378 - 3: 382 (на англ. яз.).
33. Собакин А.Н. Об опыте разработки алгоритма распознавания акустического сигнала с опорой на зрительный образ // XVI сессия Всесоюз. шк.-сем. APCO-XVI: Тез. докл. - М.: МГПИИЯ им. М.Тореза, 1991. -С. 58-59 (в соав. с Потаповой Р.К., Блохиной Л.П., Томич М.Н.; доля автора 0,1 п. л.).
34. Собакин А.Н. Об одном статистическом способе распознавания изображений слов // «Биофизика сложных систем» / Институт проблем искусственного интеллекта АН УССР. - Донецк: ИПИИ, 1993. - С. 78-81 (в соавторстве с Потаповой Р.К., Блохиной Л.П., Томич М.Н.; доля автора 0,1 пл.).
42
35. Собакин А.Н. Разработка подхода к распознаванию речи с опорой на зрительные образы // Биофизика сложных систем / Институт проблем искусственного интеллекта АН УССР. - Донецк: ИПИИ, 1993. - С. 69-78 (в соавторстве с Потаповой Р.К., Блохиной Л.П.; доля автора 0,1 п.л.).
36. Собакин А.Н. Методы математической статистики в прикладной лингвистике. - М.: МГИИЯ им М. Тореза, 1999. - 121 с. (в соавторстве с Потаповой Р.К., Блохиной Л.П.; доля автора 4,0 п.л.).
37. Собакин А.Н. Математические методы прикладной и экспериментальной лингвистики // Международная научная конференция ММТТ-12: Тез. докл. - Великий Новгород: Новомосковского ин-та, 1999. - С. 55-56 (в соавторстве с Потаповой Р.К.; доля автора 0,1 п.л.).
38. Собакин А Н. Импульсная характеристика волновых процессов (тез. докл.) // АРСО'99. - М.: Изд-во Моск. ун-та, 1999. - 0,1 п.л.
39. Собакин А.Н. Нелинейное преобразование речевого сигнала в импульсную последовательность // XVI сессия Всесоюзного семинара АРСО-XVI: Тез. докл. - М., 1999. - С. 126-127.
40. Собакин А.Н. Определение характеристик волновых процессов, образованных линейными динамическими системами // Междунар. науч. конф. ММТТ-12: Тез. докл. - Великий Новгород: Новомосковского ин-та, 1999. - С. 59-60.
41. Собакин А.Н. Основной тон речи и метод его исследования // IX сессия РАО: Современные речевые технологии: Сб. тр. - М.: ГЕОС. - 1999. -С. 47-50.
42. Собакин А.Н. Анализ артикуляционных характеристик речи на базе корреляционной матрицы // X сессия РАО: Сб. тр. - М.: ГЕОС, 2000. -С. 268-270.
43. Собакин А.Н. Вычисление артикуляционных параметров речи на базе адаптивных нейронных сетей // Всероссийская конференция по искусственному интеллекту: Сб. тр. - М.: НИИРТ, 2000. - С. 25-27.
43
44. Собакин А.Н. Об одном подходе к распознаванию речи с использованием зрительных образов // SPECOM'2000, Ргос. - М., 2000. - Р. 108-113 (на англ. яз. в соавторстве с Потаповой Р.К.; доля автора 0,3 п.л.).
45. Собакин А.Н. Математические методы прикладной лингвистики // Всероссийская конференция «Естественно - научное образование в структуре высшего образования России»: Материалы конф. - М.: 19-21 апреля 2000. - С. 91-93.
46. Собакин А.Н. Об одном статистическом методе распознавания речи // Speech and Computer SPECOM'2001, Ргос. - M., 2001. - P. 112-117 (на англ. языке в соавторстве с Потаповой Р.К.; доля автора 0,2 п.л.).
47. Собакин А.Н. Об уменьшении влияния основного тона на оценки параметров речевого тракта // XI сессия РАО: Сб. тр. - М.: ГЕОС, 2001. -С. 41—46.
48. Собакин А.Н. Опыт вычисления импульсов голосовых связок по речевому сигналу // Акустика речи и прикладная лингвистика / Ежегодник РАО: Сб. тр. - М.: МГЛУ, 2002. - Вып. 3. - С. 91-100, (в соавторстве Николаевым A.B.; доля автора 0,3 п.л.)
49. Собакин А.Н. Методы исследования голосового источника по речевому сигналу // Xth Int. Conf. SPECOM' 2005. - Patras, Greece. - 2005. - P. 649-653. (на англ. языке в соавторстве с Горевым Г.А.; доля автора 0,2 п.л.).
50. Собакин А.Н. Параллельный корреляционный анализ голосового источника по речевому сигналу // Сб. тр. XVIII сессии РАО. Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации. - М.: ГЕОС, 2006. - Т. 3. - С. 30-33 (в соавторстве с Горевым Г.А.; доля автора 0,2 п.л.).
Заказ № 226/03/07 Подписано в печать 30.03.2006 Тираж 70 экз. Усл. пл. 2,75
ООО "Цифровиток", тел. (495) 797-75-76; (495) 778-22-20 \vw\v с/г ги ; е-тай info@cfr.rii
Оглавление научной работы автор диссертации — доктора филологических наук Собакин, Аркадий Николаевич
ВВЕДЕНИЕ.
ГЛАВА I
ЛИНЕЙНАЯ МОДЕЛЬ РЕЧЕОБРАЗОВАНИЯ И ЕЕ ПАРАМЕТРЫ. ПОСТАНОВКА ЗАДАЧИ АНАЛИЗА И СИНТЕЗА РЕЧИ ПО ПАРАМЕТРАМ
§ 1.1. Модель речеобразования. Окно анализа.
§ 1.2. Параметры модели речеобразования.
§ 1.3. Анализ речи.
§ 1.4. Параметрический синтез речи.
Выводы к главе 1.
ГЛАВА II
ОЦЕНИВАНИЕ ПАРАМЕТРОВ РЕЧЕВОГО ТРАКТА ПО ЗВУКОВОЙ ВОЛНЕ
§ 2.1. Обратная фильтрация речи. Окно анализа. Параметры речевого тракта.
§ 2.2. Математические методы обратной фильтрации.
§ 2.3. Спектральные методы анализа речевого тракта.
§ 2.4. Прямые расчетные методы исследования речевого тракта по речевой волне.
Выводы к главе 2.
ГЛАВА III
МАТЕМАТИЧЕСКИЕ МЕТОДЫ ИССЛЕДОВАНИЯ ФОНАЦИОННЫХ ХАРАКТЕРИСТИК
§3.1. Постановка задачи. Краткий обзор методов выделения основного тона по речевому сигналу.
§ 3.2. Математический метод преобразования речевых колебаний в импульсную последовательность.
§ 3.3. Выделение импульсов основного тона по речевому сигналу.
§ 3.4. Исследование голосового источника с использованием линейного предсказания.
§ 3.5. Параллельный анализ основного тона на основе корреляционной матрицы.
Выводы к главе 3.
ГЛАВА IV
АДАПТИВНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ РЕЧИ
§4.1. Общие положения.
§ 4.2. Адаптивные методы вычисления параметров речевого тракта.
§ 4.3 Адаптивные структуры определения параметров речевого тракта на сфере в различных метрических пространствах.
§ 4.4. Определение основного тона речи адаптивным методом.
Выводы к главе 4.
Введение диссертации2007 год, автореферат по филологии, Собакин, Аркадий Николаевич
История человечества отмечена целым рядом научно-технических открытий и изобретений. Одним из фундаментальных фактов в этом ряду исследований является осознание несомненной важности в организации и существовании сообществ людей информационных потоков между членами сообщества. Без обмена информацией между людьми невозможны процессы сохранения и накопления знаний, совместных и согласованных действий в трудовой деятельности и, вообще говоря, развития и сохранения цивилизации.
В повседневной деятельности человек часто использует речь как средство общения, поэтому сам процесс речевой коммуникации ему представляется достаточно простым и о сложности его он часто не подозревает. Речь как способ общения является для нас столь привычным явлением, что мы часто не задумываемся о сущности этого процесса, его реализации и характеристиках. Сказанное о речи относится к большинству людей, но, естественно, не ко всему человечеству в целом. Важность исследования этого явления осознавалось человеком с незапамятных времен.
Платон, Гиппократ, Авиценна придавали большое значение звучащей речи, а произнесенное «слово», по их мнению, имело оттенок даже мистического воздействия на человека. Это хорошо известно религиозным деятелям, мистикам всех родов, политикам и т.д. Слово в понимании древних1 могло оказывать на человека сложное воздействие (увеличивать защитные силы человека и лечить его: «.по вере твоей.», нести в себе недобрые намерения, угнетать человека и т.п.). В этом смысле речь человека больше чем просто информационный канал, служащий для передачи смысла сказанного говорящим слушателю.
1 Следует оговориться, что современные представления о воздействии речи на человека не до конца изучены и во многих аспектах не опровергают древних. Лингвопрограммирование, например, использует приемы древних в своей практической деятельности.
Помимо подспудного (неосознанного) содержания, речь включает в себя непосредственную информационную компоненту, которая должна дойти до получателя (слушателя) несмотря на возможные внешние шумовые воздействия. Другими словами, речь должна быть весьма сильно защищена от различных природных и технических шумов и должна обладать своими особыми свойствами и характеристиками, отличающими ее от иных звуков. В речи такая помехозащищенность присутствует в виде избыточности и приобретается на основе адаптации речеобразующих и слуховых органов человека в процессе своего развития. Понятно, что умение говорить и понимать речь не является врожденным качеством человека, а приобретается им в первые годы жизни.
Избыточность звучащей речи позволяет нам, с одной стороны, понимать сказанное в достаточно сложной шумовой обстановке, а с другой, - передавать нам большее количество информации о говорящем, чем просто понимание смысла сказанного. Мы воспринимаем индивидуальность голоса диктора, часто его эмоциональное и физическое состояние, стиль и тип высказывания и т. п.
Благодаря избыточности мы извлекаем речевую информацию из искаженного речевого сигнала по нескольким его параметрам и характеристикам, обладающими соответствующими компенсационными свойствами по отношению друг к другу. Например, значение основного тона гласной, временная огибающая (интенсивность) и длительность слога определяют его ударность. При этом взаимовлияние этих характеристик речи на ударность слога не представляется в виде однозначной зависимости, и аудитор регистрирует ударность слога при их определенном и достаточно сильном искажении.
Другой отличительной характеристикой речи, обусловленной особенностями артикуляционного аппарата человека и адаптационными свойствами нервной системы человека, является ее вариативность. Практически невозможно дважды повторить одно и то же высказывание так, чтобы временная организация звучания была бы в них идентична. Физические параметры, их значения и временная организация в этих высказываниях отличаются друг от друга, что отрицательно влияет на построение тех или иных систем распознавания речи и не позволяет использовать напрямую сравнение двух предъявленных образцов речи. В связи с вышесказанным, процедура сравнения существенно усложняется в силу отмеченной вариативности звучащей речи.
В таком широком понимании информационного содержания звучащей речи трудно выделить базовые характеристики и параметры процесса речевой коммуникации, а в отсутствии общей модели процесса трудно сформулировать задачу его всестороннего исследования.
Оказалось, что чем глубже проникает человек в суть процесса речевой коммуникации, тем сложнее становится задача разработки общей концепции этого явления. Примеров существенного возрастания сложности изучаемых процессов и явлений можно привести немало. При исследовании речи мы имеем, по-видимому, столь же фундаментальную задачу, как в области психиатрии и других разделов медицины, связанных в той или иной степени с изучением свойств нервной деятельности человека. Познать самого себя оказалось значительно сложнее, чем окружающий нас физический мир.
На первый взгляд речевое общение представляет собой вполне объяснимое явление. Так, например, в диалоге один из участников является диктором и произносит, воспроизводит речь в виде акустических колебаний, а другой - аудитор воспринимает эти колебания с помощью слухового аппарата и понимает смысл произнесенного. Однако эта простота и ясность сразу исчезают, как только мы сформулируем следующие вопросы: как происходит формирование речевого сигнала, каковы законы его распространения в пространстве и каким образом из него извлекаются необходимые сведения.
Из поставленных вопросов относительно простым является второй. Законы распространения акустических колебаний могут быть достаточно точно описаны уравнениями математической физики, учитывающими распространение воздушного давления в окружающем нас пространстве. Это не означает, однако, что, получив эти уравнения в явном виде, мы столь же просто получим ответ на поставленный вопрос. Описать распространение воздушного давления, являющегося функцией времени и пространственных координат, можно на базе этих уравнений только после определения массы параметров и характеристик процесса рече-образоваиия неизвестных заранее.
Еще сложнее обстоит дело с ответами на два других поставленных вопроса.
Процесс речеобразования представляет собой целую цепь сложных до конца необъясненных процессов - от возникновения замысла произнесения до его физической реализации органами артикуляции. В этом процессе речепроизводства участвуют многие отделы головного мозга, вырабатывающие в результате сумму согласованных между собой команд управления артикуляционными органами. Надо сказать, что весь процесс в целом представляет столь сложную последовательность взаимообусловленных и взаимозависимых явлений, что до настоящего времени нет единой концепции, объясняющей это явление.
Современные модели речевой коммуникации «человек - человек» включают и учитывают [Потапова 1986, 2001, 2003] со стороны говорящего:
- психофизическое состояние и намерение (интенция);
- тактику вербального и невербального поведения по отношению к партнеру;
- оценку ситуации;
- «хранилище» лингвистических знаний и владение языком;
- лингвистическое кодирование сообщения;
- артикуляцию и фонацию (образование акустического сигнала);
- канал передачи, со стороны слушающего:
- эффект ожидания при принятии сообщения;
- психофизическое состояние;
- оценку ситуации;
- тактику поведения по отношению к говорящему;
- регистрацию звуковых колебаний;
- «хранилище» лингвистических знаний и владение языком;
- лингвистическое декодирование сообщения.
В таком широком понимании процесс речевого общения изучен недостаточно. Задача разработки подобной концепции и моделирования целостного процесса речевого общения осложняется в рассматриваемом случае невозможностью измерения характеристических параметров процесса речеобразования непосредственно в момент произнесения на всех его уровнях. Единственно доступными для изучения оказались органы артикуляции [Фант 1968, Фланаган 1968] что, в конечном счете, позволило создать несколько моделей их функционирования. В диссертации далее под процессом речеобразования понимается низший иерархический уровень (реализация) речевой коммуникации «человек-человек» как наиболее изученный. В настоящее время эти модели уточняются с помощью более совершенных методов исследования.
Прикладные задачи речеведения выдвигают на первый план задачу углубленного изучения физических и акустических свойств артикуляционных органов человека, их параметров и характеристик. С одной стороны, это требовало использования соответствующих регистрирующих устройств (датчиков), применения из смежных областей знаний методов физического, биоэлектрического и (или) аудиометрического исследования сложных резонаторов, возможности математического моделирования процессов распространения звуковых колебаний в таких резонаторах и т.п. С другой стороны, практические запросы техники кодирования и передачи речи по каналам связи ставили задачу фонационно-артикуляционного описания речи в прямую зависимость от качества синтеза речи по полученным параметрам. Таким образом, модель речеобразования, ее параметры и характеристики должны были в полном объеме содержать речевую информацию. С точки зрения техники связи также необходимо было иметь возможность синтезировать речь по этим параметрам, по качеству не отличимую на слух от исходного, естественного образца. Это направление исследований в технике связи привело к разработке современных систем синтетической телефонии.
Существенный вклад в рассматриваемую проблему внесли два направления исследования речи, которые, дополняя друг друга, могли привести к созданию оптимальной модели речеобразования, удобной для анализа и синтеза речи по параметрам.
Первое направление связано с изучением процессов движения артикуляционных органов в их взаимодействии с источником звуковых колебаний при речеобразовавнии [Lewis 1936; Farnsworth 1940; Smith 1954; Miller 1956; Stevens, Kosowski, Fant 1953; Фант 1968; Сорокин 1985, 2000]. Это исследовательское направление позволяет накопить более полный объем знаний о динамике речевого тракта, изменения его длины, перемещений языка, нёбной занавески, губ, об образовании, например, губной или губно-зубной смычки.
Для описания распространения звукового давления в речевом тракте как акустическом, объемном резонаторе с изменяющимися во времени формами используются пространственные уравнения математической физики в частных производных с граничными условиями. При определении граничного воздействия на распространение звукового давления необходимо учитывать коэффициенты отражения тканей стенок речевого тракта (их вязкоупругость и инерционные характеристики), жесткость и упругость мышц, управляющих речеобразующими органами, механические характеристики речевого аппарата и т. п.
Всё это сильно усложняет задачу математического моделирования процесса речеобразования в такой постановке, поскольку значения коэффициентов отражения не известны априори, более того, они изменяются во времени и являются динамическими характеристиками процесса речеобразования.
Второе направление исследований речи связано с системами передачи речи по каналам связи. [Dudley 1939; Schroeder 1956,1966; Mathews et all 1961 a, b; Gold 1962; Gold, Rabiner 1969; Itakura, Saito 1971, 1972; Сапожков 1963]. На начальном этапе исследований в области связи усилия ученых были направлены на выявлении базовых информационных компонент речи [Dudley 1939; Schroeder 1956, 1966; Miller 1956; Peterson 1951, 1959; Kramer, Mathews 1956; Mathews et all 1961 a, b; Weibel 1955; Rappaport 1958; Heinz 1962; Pinson 1963; Gold et all 1962].
Отметим здесь особый вклад в подведение итогов данного этапа исследова— ний книгу Сапожкова М.А. [Сапожков 1963], не утратившую своего значения до наших дней.
Следует особо подчеркнуть значимость предложенного Г. Дадли подхода к параметрическому описанию речи для экспериментальной и прикладной лингвистики. С одной стороны, использованные в вокодере информационные параметры речевого сигнала, их набор оказались информационно значимы для синтеза речи, с другой стороны, появление в рамках синтетической телефонии связки «анализ-синтез» речи позволило сформулировать ряд проблем прикладной лингвистики, связи и кибернетики:
1) проблему полноты предложенного набора параметров речи;
2) проблему эффективности методов их определения по речевому сигналу;
3) проблему оценки качества звучащей речи.
Первая часть задач (1-2-й пункты) первичного описания речи разбирается в данной работе и составляет основу дальнейшего изложения. В настоящее время эти проблемы в той или иной степени решены применительно к технике передачи речи по каналам связи и остаются актуальными с точки зрения прикладной экспериментальной лингвистики.
Вторая часть (проблема оценки качества речи) по своей сути затрагивает области нервной деятельности человека и связана с изучением процессов восприятия речи аудитором. Это направление исследований и сама задача оказались чрезвычайно сложными. Понятие «качество речи» является трудноопределимой ее характеристикой и, в частности, включает в себя целый ряд показателей: разборчивость, натуральность, узнаваемость и т.д. Целый ряд признаков этого понятия относится к «механическим» искажениям: дребезжание, треск, хрип, призвуки, глухость, фон. Другие особенности определяются индивидуальными качествами говорящего, особенностями диктора: картавость, гнусавость, плаксивость, шепелявость. В развитие этого направления исследований значительный вклад внесли отечественные ученые [Сапожков 1963; Покровский 1962; Апресян 1966; Звегинцев 1968; Жинкин 1982; Щерба 1983; Вемян 1985; Потапова 1989, 1992, 1997; Михайлов, Сапожков 1992].
В полном объеме рассмотреть задачу оценки качества речи не представляется возможным, и в рамках данной работы ограничимся одним прикладным аспектом этой проблемы. Нас в дальнейшем будет интересовать один вопрос: насколько полным и эффективным является первичное описание фонационно-артикуля-ционных характеристик речи?
Предложено несколько методов оценки качества речи. Определение качества речи осуществляется методами парных сравнений, экспертных оценок и селективных признаков. Базу речевого массива в ряде методов составляют артикуляционные таблицы (ГОСТ Р 50840-95), позволяющие получать в основном оценку одного из параметров качества речи: разборчивость. Область применения таких психолингвистических методов, по-видимому, ограничена, и они используются чаще всего в технике связи (при оценке качества каналов связи).
С точки зрения полноты и эффективности первичного описания речи предпочтительным является метод парных сравнений. Аудитору предлагается прослушать исходный (до анализа) и синтезированный (по параметрам) участки речи и сравнить их по качеству. Практические запросы коммерческой телефонии формулируют достаточно простой критерий для оценки качества двух указанных образцов речи: эти отрезки звучащей речи должны быть неотличимы друг от друга на слух1.
В дальнейшем будем считать, что параметрическое описание речи будет полным, а методы получения этих характеристик речи - эффективными, если выполняется указанный критерий. По существу, в этом критерии отражено основное требование к анализу и синтезу речи при первичном ее описании: аудитор не должен «замечать» преобразований речевого сигнала и на передающем и на приемном конце канала связи. Получатель речевой информации (аудитор) не реагирует на произведенные промежуточные изменения речи (возможно, достаточно сложные с математической и технической точки зрения) и воспринимает ее как качественный (в широком смысле) образец речи. Синтезированная речь при
1 Простота критерия не должна вводить в заблуждение: достижение сформулированного требования достигается совсем непросто. этом должна сохранять в «неизменном» виде все аспекты и параметры качества, и (или) допустимые искажения этих характеристик качества не должны превышать пороговых значений слухового восприятия речевых образов.
Сформулированный критерий оценки полноты первичного описания речи, по нашему мнению, крайне важен в области прикладной лингвистики. Он позволяет исследовать речь не только по отдельным ее характеристикам (мелодии основного тона, временной огибающей, формантной структуры и т. п.), а в совокупности по полному набору фонационно-артикуляционных ее параметров, полученных с опорой на единый звуковой образ. При этом исследователь будет уверен в том, что на этапе первичного описания речи не произошло потери речевой информации, а совокупность параметров описания содержит последнюю в полном объеме. Это обстоятельство позволит более глубоко изучить корреляционные зависимости просодических и артикуляционных характеристик речи, их временную организацию, пороговые значения их возможных искажений и т. п., что, в конечном счете, может расширить наши представления о двух взаимообусловленных процессах: речеобразовании и слуховом восприятии.
Большое количество научных исследований было посвящено улучшению и различным модификациям анализа речи (в основном формантного) с тем, чтобы повысить качество синтезированной речи. Отметим здесь работы 50-х - начала 60-х годов прошлого столетия [Peterson 1951, 1959; Weibel 1955; Rappaport 1958; Heinz 1962; Pinson 1963]. Более подробный обзор литературы по этим направлениям содержится в книге М.А.Сапожкова [Сапожков 1963], ставшей классическим пособием всех речевиков и сохранившей свое значение до наших дней.
Процитированная здесь литература относится лишь к начальному периоду исследований в указанных областях преобразования речи и, естественно, не отражает всего их объема в этом направлении. Помимо упомянутых выше классических работ М.А. Сапожкова, Г. Фанта, Дж. Л. Фланагана, позднее были опубликованы книги [Вокодерная телефония / Под ред. A.A. Пирогова 1974; Маркел, Грей 1980; Макклеллан, Рейдер 1983; Михайлов, Сапожков 1992; Рабинер, Голд
1978; Прохоров 1977; Методы автоматического распознавания речи / Под ред. Ли У.], обзоры [Джайант 1974; Макхоул 1975; Уидроу и др. 1976; Кей и Марпл 1981; Фридландер 1982] и тематические выпуски журнала ТИИЭР (пер. с англ.) [Речевая связь с машинами 1975; Цифровая обработка сигналов 1975; Спектральное оценивание 1982], в которых содержится достаточно полный обзор научных статей по вопросу параметрического описания артикуляционного аппарата1.
В указанных работах была отмечена большая зависимость текущих спектральных характеристик речи от величины окна анализа. Выбор того или иного интервала речевого сигнала, по которому вычисляются спектральные компоненты, например дискретного преобразования Фурье (ДПФ), сильно влияет на их величину. Это обстоятельство затрудняет определение формант по полученному спектральному представлению и искажает резонансные характеристики речевого тракта. Было установлено [Pinson 1963; Mathews, Miller, David 1961], что эти искажения минимальны для окна анализа, равного одному или нескольким периодам основного тона. Понятно, что при таком спектральном анализе необходимо параллельно определять по речевому сигналу частоту колебаний голосовых связок. Такой выбор исследуемого интервала речи в дальнейшем получил название «анализ синхронный с основным тоном».
Алгоритм вычисления антирезонансов линейной системы неоднозначен и может быть выполнен многими различными способами. Неоднозначность и многообразие методов настройки параметров обратного фильтра является следствием некорректности задачи анализа артикуляционного аппарата с опорой только на речевой сигнал. С математической точки зрения в единственном уравнении, связывающем три компоненты процесса речеобразования (источник, речевой тракт и речь на выходе речевого тракта), неизвестными являются две (характеристика источника звуковых колебаний и характеристика речевого тракта). В распоряжении исследователя имеется только осциллограмма звуковых коле
1 Сказанное не относится к статьям отечественных авторов, баний, что является, вообще говоря, недостаточной информацией для однозначного определения остальных параметров речи.
Некорректность задачи обратной фильтрации можно рассматривать с двух диаметрально противоположных позиций.
С одной стороны, множественность возможных методов решения сформулированной задачи затрудняет нахождение точных (несмещенных) значений резонансных характеристик речевого тракта, что позволило бы в рамках линейной модели речеобразования Фанта определить истинную функцию возбуждения, формируемую работой голосовых связок. С физической точки зрения такое «идеальное» решение проблемы анализа речи означает возможность исследования четырехполюсника, представляющего собой ЛС конечного порядка, и его квазипериодического импульсного источника, опираясь только на сигнал на выходе системы. При этом желательно определить резонансные параметры речевого тракта, усредненный период следования импульсов ОТ и их форму.
Задача анализа речевого сигнала в такой постановке не имеет до настоящего времени окончательного решения. Возможные подходы к ее решению обсуждаются в четвертой главе данной работы [Собакин 1970 б, в, 1972; Акинфиев, Жарова, Собакин 1973; Акинфиев, Собакин 1974; Собакин 1976 б, 1989 б, 1999, 2001; Собакин, Николаев 2002; БоЬакт, Оогеу 2005].
С другой стороны, некорректность задачи обратной фильтрации может быть устранена, если предложить какой-либо алгоритм определения по речевому сигналу резонансных параметров артикуляции или параметров источника (фонации). Тогда вторая компонента процесса речеобразования определяется однозначно из уравнения, описывающего модель речеобразования Фанта.
Разработанные методы ЛП, основанные на минимизации СКО сигнал-остатка на выходе обратного фильтра, позволяют получить приближенные, (вообще говоря) смещенные оценки параметров речевого тракта на озвученных участках речи. Заметим, что на временных интервалах, соответствующих чисто шумовому источнику звуковых колебаний (например, при образовании фрикативных согласных), полученные оценки резонансных характеристик артикуляции будут несмещенными [Собакин 1970 в]. Достаточно подробное описание этих методов содержится в работах [Грей 1980; Джайант 1974; Макхоул 1975]1.
Смещенность параметров речевого тракта в методах ЛП влечет за собой искажение сигнал-остатка, получаемого на выходе обратного фильтра. Форма колебаний выходного сигнала сильно отличается от «идеальной» в виде последовательности треугольных импульсов и содержит побочные компоненты, порожденные не полностью компенсированной формантной структурой речи. Это означает, что артикуляционная компонента речи сохраняется при обратной фильтрации речевых колебаний и параметры обратного фильтра имеют «смещение» по отношению к истинным резонансным характеристикам речевого тракта.
Краткий обзор методов параметрического описания речи позволил выделить ключевые, по мнению автора, идеи и алгоритмы, применяемые в этой области знаний. Следует отметить, что предложенные методы первичного описания речи не утратили актуальности до настоящего времени и применяются (в скрытом виде) в современных программных продуктах, реализующих вокодерные системы коммерческой телефонии.
Многие задачи первичного описания речи получили в дальнейшем свое развитие и углубление, а с точки зрения запросов и требований прикладной и экспериментальной лингвистики, связанных в основном с качеством и эффективностью полученного параметрического представления, проблему не следует считать закрытой [Собакин 2005].
Принципиальной особенностью современного периода исследования речи является тот факт, что практически в качестве единственно доступного объекта получения достоверной информации является речевой сигнал. Другие каналы измерения характеристик процесса речеобразования не могут быть использованы (в силу объективных причин) и не применяются. Усложняющими факторами будут в рассматриваемой проблеме: неполнота представления
1 Как отмечают авторы перевода книги «Линейное предсказание речи» Ю.Н. Прохоров и B.C. Звездин, отечественные исследования в этой области в ней не упоминаются. Это же относится и к обзорам Джайанта и Макхоула. лингвистических структур (знаков) в акустическом сигнале; недостаточность функциональных связей между источником звуковых колебаний, артикуляционным аппаратом и речевым сигналом; многообразие предложенных моделей процесса речеобразования и методов исследования речи.
Эти обстоятельства определяют место и значение проблемы фонационно-артикуляционного анализа на основе звучащей речи.
Актуальность диссертации определяется необходимостью:
- проведения теоретической разработки методов параметрического анализа звучащей речи;
- компактного представления речи при исследовании ее структуры;
- повышения эффективности и качества первичного описания речи;
- возможностью получения существенного экономического и социального эффекта в областях связи (коммерческой и специальной), фоноскопической экспертизы, медицинской диагностики, верификации и идентификации дикторов, системах распознавания;
- более глубокого проникновения в процесс речеобразования и изучения его характеристик, существенных для слухового восприятия, в рамках прикладной и экспериментальной лингвистики.
Детальный анализ существующих методик анализа и синтеза речи показывает, что имеется диалектическое противоречие между желанием все более точного и подробного описания процесса речеобразования на первичном уровне и отсутствием соответствующего математического аппарата для эффективного исследования параметров модели этого процесса по речевой волне. Это противоречие составляет существо проблемы диссертационной работы.
Целью диссертационной работы является разработка эффективных и перспективных методов исследования фонационно-артикуляционных характеристик речи по речевому сигналу на базе математических методов анализа.
15
Для достижения поставленной цели решались следующие задачи:
1. Выбор адекватной модели процесса речеобразования, описание параметров фонации и артикуляции в рамках этой модели, постановка задачи анализа и синтеза речи по параметрам в рамках рассматриваемой модели.
2. Анализ состояния речевого тракта по речевому сигналу в обобщенном виде. Разработка методов вычисления оценок резонансных характеристик артикуляции, на основе целого класса операторов, линейных пространств и ограничений на параметры артикуляции. Проверка работоспособности предложенных методов анализа на базе стационарных звуков и слитной речи.
3. Исследование фонационных характеристик речи с возможностью получения информации о форме импульса основного тона по речевой волне, минуя этап предварительного определения резонансных параметров речевого тракта. Апробация предложенных методов исследования на естественных звуках речи и непрерывном речевом потоке.
4. Применение адаптивных процедур при исследовании речи и разработка итерационных методов анализа фонационно-артикуляционных параметров речевых колебаний.
Формулируя тему, проблему и основные направления исследований автор исходил из следующих предположений:
1. Артикуляционные параметры речевого тракта в слитной речи могут быть эффективно описаны линейной системой конечного порядка.
2. Источник речевых колебаний и речевой тракт функционируют в процессе речеобразования независимо друг от друга.
3. Математическими методами принципиально возможно получение информации о двух компонентах процесса речеобразования (источнике и артикуляции) по речевым колебаниям.
4. Существуют метрические пространства, базовые операторы и ограничения на параметры модели, согласованные со слуховым восприятием речи человеком.
В контексте выдвигаемых гипотез должны интерпретироваться все явления и процессы исследуемой предметной области. Для проверки работоспособности предлагаемых методов анализа необходима их проверка на реальных речевых сигналах.
Основным объектом диссертационного исследования является звучащая речь, представленная речевым сигналом в цифровом и аналоговом варианте.
Предметом исследования являются источник звуковых колебаний и состояние артикуляционного аппарата с опорой на речевой сигнал, оценка которых осуществляется на базе математических методов. При этом предполагается возможность синтеза речи по параметрам.
Вопросы параметрического синтеза речи в диссертации рассматриваются кратко: приводятся общие методы синтезирующих алгоритмов, блок-схемы соответствующих устройств, основные принципы обновления параметров и условия их устойчивости.
Научная новизна диссертации заключается в следующем:
- в авторской интерпретации предложены математические методы исследования формы импульсов основного тона по речевой волне; а также определены интервалы смыкания голосовых связок и вычислены несмещенные параметры речевого тракта;
- получили дальнейшее развитие методы исследования резонансных характеристик речевого тракта на основе обобщенного прогноза;
- впервые проверена состоятельность (работоспособность) предложенных математических методов анализа (на материале изолированно произнесенных русских гласных и тех же гласных в потоке речи);
- впервые использованы научные результаты ряда смежных наук (прикладной и экспериментальной лингвистики, математики, теории речевой связи, теории линейных систем с сосредоточенными параметрами, физиологии).
В основу методологии решения сформулированных проблем положен принцип определения параметров артикуляции в виде экстремальной задачи. Для исследования фонационных характеристик речи предлагается серия нелинейных преобразований речевого сигнала в импульсную последовательность, синхронную с работой голосовых связок.
При решении экстремальных задач параметрического описания речи использовались методы математического программирования, а также специальные разделы:
-вариационного исчисления;
- принципа максимума Понтрягина;
- динамическое программирование Беллмана;
- линейное и нелинейное программирование;
- методы стохастической аппроксимации.
Отметим, что математическое программирование не связано с необходимостью описания условий задачи в аналитическом, формульном виде и охватывает, в силу этого, широкий круг задач и проблем, трудно решаемых чисто аналитическими методами. Итерационная форма решения экстремальных задач удобна при использовании современной вычислительной техники.
Основные результаты диссертации представляют собой целый спектр математических методов исследования фонационно-артикуляционных характеристик речи. При этом методы анализа содержат внутренние константы, соответствующий выбор которых позволяет варьировать метрические пространства, базовые операторы и ограничения на параметры. Последнее позволяет определять интервалы смыкания голосовых связок и несмещенные оценки артикуляционных параметров речи, исследовать фонационные характеристики речи без предварительного определения параметров речевого тракта, а в перспективе согласовывать качество первичного описания речи со слуховым восприятием человека речевых образов.
Основные теоретические результаты работы состоят в следующем:
- результаты исследований вносят свой вклад в изучение речевой коммуникации на первичном уровне речеобразования и восприятия речи;
- полученные данные расширяют корпус моделей порождения речи и методов параметрического анализа речевых колебаний;
- теоретические и экспериментальные результаты доказывают принципиальную разрешимость проблемы разделения фонационных и артикуляционных характеристик по речевому сигналу в автоматическом режиме;
- предложенные методы исследований фонации в производстве речи позволяют уточнить характеристики источника звуковых колебаний и процесса речеобразования в целом.
Диссертация содержит следующие научные компоненты:
- формируется обобщенная проблема определения фонационных и артикуляционных характеристик по речевому сигналу в рамках линейной модели речеобразования;
- расширяется и модернизируется корпус локальных и адаптивных методов исследования резонансных параметров речевого тракта;
- предлагаются методы исследования формы импульсов основного тона по речевой волне;
- определяются интервалы смыкания голосовых связок и на них вычисляются истинные параметры речевого тракта
- на естественных звуках и слитной речи проверяется состоятельность (работоспособность) методов анализа;
- используются, как уже отмечалось, научные результаты ряда смежных наук (теории оптимального управления, теории построения алгоритмов градиентного спуска, методов линейной алгебры).
При решении сформулированных проблем применен математический принцип определения параметров артикуляции в виде экстремальной задачи.
Для исследования фонационных характеристик речи предлагается серия нелинейных преобразований речевого сигнала в импульсную последовательность синхронную с работой голосовых связок.
При решении задач параметрического описания речи использовались следующие разделы математики:
- теория линейных дифференциальных и (или) разностных уравнений;
- спектральный и корреляционный анализ сигналов;
- разделы линейной алгебры;
- теория линейных систем;
- теория цифровой обработки сигналов;
- теория адаптивных систем;
- теория аппроксимации.
При проведении диссертационных исследований использовались научные принципы решения некорректных обратных задач математики, методы прикладной и экспериментальной лингвистики, теории связи, средства построения адаптивных итерационных систем. В работе использован терминологический аппарат указанных областей знаний.
В систему естественных ограничений на решение проблемы включены:
1) процедуры анализа речи разрабатываются с опорой только на речевые колебания и не применяются другие информационные каналы регистрации характеристик фонации и артикуляции;
2) некорректность задачи вычисления артикуляционных параметров по речевой волне без регистрации функции возбуждения;
3) рассматривается конечный порядок модели речевого тракта в виде линейной системы с сосредоточенными параметрами;
4) сложная форма речевых колебаний маскирует фонационную компоненту процесса речеобразования на озвученных участках речи.
20
Перечисленные ограничения не являются определяющими для разрешения сформулированной проблемы в общей постановке и могут быть сведены к минимуму в рамках единой методологии ее решения в результате последующих исследований.
В качестве базового аппарата математического моделирования определены персональный компьютер с возможностями ввода и вывода речи в память машины и системной оболочкой МАТЬАВ.
Теоретическая значимость диссертации заключается: в получении результатов, являющихся в корректным решением проблемы описания звучащей речи фонационно-артикуляционными параметрами; в разработке блочных и адаптивных методов анализа резонансных характеристик речевого тракта; в расширении корпуса методов параметрического анализа речевых колебаний; в решении проблемы разделения фонационных и артикуляционных характеристик речи; в углублении метода изучения микровариаций голосовых связок в процессе речеобразования.
Практическая ценность диссертации заключается в том, что предложенные математические методы анализа звучащей речи применимы в прикладных и экспериментальных задачах лингвистики; системах речевой коммуникации и коммерческой телефонии; в задачах автоматического распознавания и синтеза речи; системах идентификации и верификации дикторов; медицинской диагностике по речевому сигналу; управлении робототехническими устройствами и машинами голосом оператора; создании систем искусственного интеллекта; при разработке экспертных систем.
Достоверность и обоснованность применения обобщенного подхода к проблеме первичного описания речи и математических методов ее исследования обеспечивается репрезентативной выборкой проанализированного материала, включающего в себя 1300 единиц сегментов речи, из которых впоследствии исследованы 210 сегментов, подвергнутых анализу с использованием предложенных методик.
Основные результаты диссертационного исследования неоднократно докладывались на заседаниях кафедры прикладной и экспериментальной лингвистики МГЛУ, а также прошли апробацию на следующих конференциях:
• Юбилейная научно-техническая конференция по технике и экономике связи. -М., 1968;
• Всесоюзная школа-семинар «Автоматическое распознавание слуховых образов (АРСО)».- Таллин, 1971, 1989; Алма-Ата, 1972; Львов, 1974; Минск, 1976; Тбилиси, 1978; М., 1991, 1999;
• Всесоюзная школа-семинар «Психологическая бионика». - Харьков, 1988;
• Всесоюзный симпозиум АН СССР «Методологические проблемы информатики, информационных технологий и информатизации общества». - Обнинск, 1988;
• Всесоюзная акустическая конференция. - М., 1991;
• Международная научная конференция ММТТ - 12. - Великий Новгород, 1999;
• Сессия «Российского акустического общества». - М., 1999, 2000, 2001;
• Международная конференция «Speech and Computer». - SPECOM 2000; SPECOM 2001; -M.: 2000, 2001;
• SPECOM' 2005, - Partas Greece, - 2005;
• Конференция АМН СССР «Проблемы проектирования экспертных систем». -М., 1988.
• XIth Inter Cong, of Phon. Scienc. - Tallinn, Estonia, U.S.S.R. - 1987 tli
• XII Inter. Cong, of Phon. Scienc. - Aix - on - Province, France. - 1991
По материалам диссертации опубликовано в научно-технических журналах 50 статей общим объемом 27 п. л., монография: «Артикуляционные параметры речи и математические методы их исследования». Монография. Научное издание. - М.: Вестник МГЛУ, Вып. №517, 2005. - 9.4 п. л.; два учебных пособия: «Введение в информатику и вычислительную технику». - М.: Гос. Ком. СССР по нар. образ., МГПИИЯ им. М. Тореза, 1988. - 6,4 п. л. (в соавторстве с Р.К. Потаповой, в т. ч. автора - 4,2 п. л.); «Методы математической статистики в прикладной лингвистике». - М.: Гос. Ком. СССР по нар. образ.,
МГПИИЯ им. M. Тореза, 1988. - 5 п. л. (в соавторстве с Р.К. Потаповой и Л.П. Бло-хиной, в т. ч. автора - 4 п. л.); принимал участие в написании более 25 отчётов по научно-исследовательским работам, выполненным в 1965-1989 гг.
Научно-технические результаты работ защищены семью авторскими свидетельствами.
Основные результаты диссертации положены в основу курса «Параметрическое описание речи». Этот курс неоднократно был прочитан аспирантам и студентам старших курсов отделения прикладной и экспериментальной лингвистики (ОПЛ) МГЛУ. Часть материала преподается ежегодно в рамках обязательного курса «Математические основы гуманитарных знаний» студентам ОПЛ. Базовые положения диссертации излагаются на лекциях и семинарах по подготовке специалистов в области судебной фонетики и речевой экспертологии.
Предложенные обобщения методов параметрического анализа и синтеза речи позволяют углублённо исследовать как процессы порождения речи, так и согласованные с ними процессы восприятия слуховых образов. Полученные результаты применимы:
- в прикладных и экспериментальных задачах лингвистики;
- в системах речевой коммуникации и коммерческой телефонии;
- в задачах автоматического распознавания и синтеза речи;
- в системах идентификации и верификации дикторов;
- в медицинской диагностике по речевому сигналу;
- в управлении робототехническими устройствами и машинами голосом оператора;
- в создании систем искусственного интеллекта;
- при разработке экспертных систем.
Структура работы основана на совокупности основных разделов диссертации (титул, оглавление, введение, четыре главы и заключение) объемом 205 с. Общий объем диссертационной работы составляет 252 е., включая основной текст, список литературы из 188 источников, двух приложений. Работа содержит 53 иллюстрации и 4 табл. Нумерация формул содержит две цифры: первая из них
Заключение научной работыдиссертация на тему "Математические методы исследования фонационно-артикуляционных параметров речи"
Результаты исследования искусственных импульсов.
Рис. 3.23.
Импульсы основного тона фонем [у, э] для мужских (I) и женских (II) голосов.
Рис.3.24.
Метод выделения импульсов основного тона на основе линейного предсказания.
ЗВУК [а]
1001-1—-1-1-:-1-1-[—,-1-1-Г
08 II—II-1IиIII
0 100 200 ЗОО 400 500 600 700 600 900 1000
Рис.3.27.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [а].
ЗВУК (и]
61—II--1-1 —.1---1-—1-1-1----1--I
О ЧОО 200 ЭОО 400 500 600 700 ООО 900 1000
Рис.3.28.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [и]. 243
Рис.3.29.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [ы].
ЗВУК [о]
Рис.3.30.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [о].
ЗВУК [у]
Рис.3.31.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [у].
ЗВУК [э]
Рис.3.32.
Речевая волна и два коэффициента (Аь А9) характеристического многочлена для звука [э].
Рис.4.2.
Сравнение блочного (сплошная линия) и адаптивного (пунктирная линия) методов анализа.
Рис.4.3.
Определение частоты основного тона речи адаптивным методом.
Рис.4.4.
Частотные характеристики фильтра на фазовых контурах (а) и операторах задержки (б).
Рис.4.5.
График логарифма функционала качества для искусственных сигналов.
Рис.4.6.
Изменение функционала для естественных сигналов речи
ЗАКЛЮЧЕНИЕ
Математические методы анализа артикуляционных характеристик речи, рассмотренные в данной работе, разрабатывались параллельно в СССР (Акинфиев, Собакин), Японии (Itakura, Saito, Wakita) и США (Schroder, Atal) в 60-70 -х годах ХХ-го столетия. Эти методы позволяют определять резонансные свойства речевого тракта и временного огибающую достаточно надежно и полно с точки зрения качества речи, синтезированной по этим параметрам. Позднее (в 80-90-х годах) синтез речи позволил выявить неполноту и недостатки предложенного первичного описания звуковых колебаний.
Качество синтезированной речи существенно зависит от методов анализа артикуляционных характеристик, сегментации на тоновые и шумовые участки и определения частоты основного тона. Выяснилось также, что полученных характеристик речевых колебаний недостаточно для получения синтезированного образца неотличимого от естественной исходной речи. Необходимо к указанному выше набору параметров добавить в том или ином виде описание формы импульсов основного тона.
В диссертации предлагается разрешение отмеченных проблем путем обобщенного подхода к проблеме анализа речи и разработке методов исследования работы голосового источника в процессе речеобразования.