автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Диагностика экстралингвистических факторов звучащей речи
Полный текст автореферата диссертации по теме "Диагностика экстралингвистических факторов звучащей речи"
□03064483
РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ ЯЗЫКОЗНАНИЯ
На правах рукописи
ДОЛОТИН Константин Иванович
ДИАГНОСТИКА ЭКСТРАЛИНГВИСТИЧЕСКИХ ФАКТОРОВ ЗВУЧАЩЕЙ РЕЧИ
(экспериментально-статистическое исследование)
Специальность 10 02 21 - Прикладная и математическая
лингвистика
АВТОРЕФЕРАТ
диссертации на соискание ученой степени доктора филологических наук
1 6 АВГ 2007
МОСКВА 2007
003064483
Работа выполнена в Отделе экспериментальных исследований речи Института языкознания РАН
Научный консультант доктор филологических наук
Сигал Кирилл Яковлевич
Официальные оппоненты доктор филологических наук,
доктор юридических наук, профессор, академик РАЕН, член Российского акустического общества
Галяшина Елена Игоревна
доктор филологических наук, профессор
Киров Евгений Флорентович
доктор филологических наук Надеина Татьяна Михайловна
Ведущая организация Пермский государственный
университет
Защита состоится « 27 »сегг7Щ12007 г в // час СО мин на заседании диссертационного совета Д 002 006 03 по защите диссертаций на соискание ученой степени доктора филологических наук при Институте языкознания РАН (125009, г Москва, К-9, Большой Кисловский пер, 1/12)
С диссертацией можно ознакомиться в библиотеке Института языкознания РАН
Автореферат разослан «_»_2007 г
Ученый секретарь диссертационного совета, кандидат филологических наук
А В Сидельцев
Общая характеристика работы
В настоящее время в прикладной лингвистике уделяется большое внимание исследованию механизмов эмоциональной регуляции речи, исследованию языковых механизмов экспрессивности, а также диагностике экстралингвистических факторов производства речи в реальных условиях речевой коммуникации
Проблемы анализа экстралингвистических факторов речи связаны с общей для специалистов в области речевой акустики задачей построения систем автоматического распознавания слуховых образов (АРСО) и систем контроля эмоционального состояния говорящих Решение этих проблем в свою очередь связано с разработкой новых методологических подходов для параметрического анализа речи, порождаемой в естественных условиях речевого общения
Актуальность диссертационного исследования, которое выполнено с опорой на теоретические достижения отечественной и зарубежной лингвистики (Л С Выготский, А А Леонтьев, А Р Лурия, Б А Серебренников, А Н Леонтьев, Н И Жинкин, Р Якобсон, Г Фант, М Хале, В А Виноградов, Ю С Степанов, А М Шахнарович, Е С Кубрякова, В Н Телия, Т В Ахутина, Л В Златоустова, Е Ф Тарасов, Ю А Сорокин, В Н Сорокин, В 3 Демьянков, Е Ф Киров, Т А Графова, Н В Уфимцева, В А Маслова, Н К Рябцева, В В Красных, А В Широкова, С Е Никитина, Е И Галяшина, К Я Сигал, К Г Красухин, Ю В Ковалев, Р К Потапова, Л П, Блохина, Т М Надеина, Н М Юрьева, Е В Ерофеева и др ), определяется необходимостью разработки новых методов параметрического анализа экстралингвистических факторов процесса порождения речи
Концептуальной основой исследования является утверждение о статистической значимости характера структуризации речевого сигнала (кроме паузальных, частотно-временных и энергетических контрастов), обусловленной особенностями реакций механизмов реализации моторной программы высказывания на эмоциональные явления, возникающие в едином эмоциональном процессе, развивающегося в рамках какого-либо дискурса
В качестве механизма реализации моторной программы высказывания в работе анализируется трехпараметрическая модель речевого тракта
Центральное управление параметрами речевого тракта в процессе реализации моторной программы высказывания в первом приближении можно опосредованно описать корреляционной связью первых трех формант формантной структуры речевого сигнала
Анализ изменений текущих значения коэффициента корреляции между текущими значениями экспериментально подобранных функций по переменным Р1, ¥2, РЗ, ДР1, АР2, ДРЗ, описывающих резонансные признаки фонем (компактность/диффузность, низкий/высокий и напряженный/ненапряженный [Якобсон, Фант, Хале 1955],] позволил выделить квазициклы речевого сигнала (КЦР), опосредованно отражающие реакцию совместно работающих нейронных систем, управ-
ляющих параметрами речевого тракта (площадью его поперечных сечений, координатами этих сечений, мышечным напряжением речевого тракта (РТ) и координатой его вдоль оси РТ), на внутренние и внешние факторы процесса порождения речи
Цели исследования:
а) разработать способ сегментации речевого сигнала на квазициклы процесса производства речи (КЦР), обусловленные изменениями в операциональном функционировании механизма реализации моторной программы высказывания в условиях факторного воздействия на него,
б) экспериментально обосновать функциональную значимость вре-меннб/х параметров квазисегментной структуры речевого сигнала как одного из средств передачи в нем информации об экстралингвистических факторах процесса порождения речи,
в) разработать способ количественной оценки эмоциональной напряженности диктора в процессе озвучивания им текстов с заданной коммуникативной установкой,
г) дать в первом приближении психофизиологическую интерпретацию процесса кодирования коммуникативных намерений диктора в процессе озвучивания им текста с заданной коммуникативной установкой
Задачи работы:
а) на основе оценки значений коэффициента корреляции между величинами просодических и формантных параметров на временной шкале речевого сигнала разработать программный метод сегментирования его на квазициклы (КЦР),
б) в рамках проводимого исследования методом проб экспериментально определить оптимальную стратегию статистического анализа просодических и квазисегментных параметров звучащей речи,
в) найти параметры речевого сигнала, статистически значимые для диагностики интенциональных, эмоциональных и других экстралингвистических характеристик говорящего,
г) дать сравнительную оценку статистической значимости параметров структуризации речевого сигнала на сегментном, суперсегментном, квазисегментиом и квазикодовом уровнях для диагностики экстралингвистических факторов процесса порождения речи,
д) статистически обосновать языковую универсальность структурированности речевого сигнала на квазисегментном уровне, опосредованно отражающем операциональное функционирование механизма реализации моторной программы высказывания в процессе порождения речи,
е) на основе многомерных методов статистического анализа текущих значений временных параметров квазисегментной структуры речевого сигнала разработать способ интерпретации семантического смысла экстралингвистических факторов процесса порождения речи
Методы:
а) аудитивный анализ речи
б) инструментальный анализ речи с использованием CSL-50 -computer speech laboratory (программа позволяет провести анализ просодических и формантных параметров речи),
в) методы статистической обработки экспериментальных данных -дисперсионный, корреляционный, регрессионный, факторный, многомерные и др виды статанализа экспериментальных данных
Материал
Работа проводится на материале
1 Художественного и публицистического текстов, озвученных в русской, корейской, китайской и японской языковых системах с различными видами их эмоциональной окраски и типами их коммуникативного задания
2 Частично подготовленная монологическая научная речь
Научная новизна:
а) традиционное изучение просодического оформления звучащего текста дополняется анализом квазисегментной структуры речевого сигнала,
б) показано, что в опосредованной форме квазисегментная структура речевого сигнала отражает динамику изменений в характере взаимодействия между совместно работающими нейронными системами механизма центрального управления праметрами речевого тракта при воздействии на него различных экстралингвистических факторов в процессе порождения речи на стадии реализации моторной программы высказывания,
в) выдвинута и экспериментально подтверждена гипотеза о двух формах передачи информации в речевом сигнале квазикодовой — связанной в основном с передачей экстралингвистической информации, и акустической, которая в основном связана с передачей в речевом сигнале лингвистической информации, а также в определенной мере с передачей экстралингвистической информации
Теоретическая значимость результатов исследования:
В работе выдвигается концепция о квазисегментном уровне структуризации речевого сигнала инвариантного по отношению к сегментному и суперсегментному уровням его структурированности
1) квазисегментная структура речевого сигнала опосредованно отражает дискретный характер отклика механизма центрального управления параметрами речевого тракта на эмоциональный процесс, в рамках которого происходит порождение речи,
2) вегетативные процессы в системе центрального управления речью обусловливают ее эмоциональный компонент, а сознательные процессы управления речью — интенциональный компонент Эти два важных компонента речевого механизма непосредственно отражены
как в акустической форме речевого сигнала, так и на разных уровнях его структуризации
3) механизм темпоральной организации квазисегментной структуры речи инвариантен по отношению к механизмам ее просодической организации и является одним из элементарных механизмов экспрессивности речи наряду с языковыми механизмами экспрессивности
Практическая значимость:
результаты исследования можно использовать
а) при разработке автоматических систем диагностики коммуникативных намерений и эмоций говорящего по параметрам его речевого сигнала,
б) при разработке автоматических систем управления объектами с помощью голоса,
в) в криминалистике,
г) при создании синтезаторов речи с естественным звучанием и др
Основные положения, выносимые на защиту
1 Речевой сигнал, помимо языкового уровня, структурирован на квазиритмическом, квазисегментном и квазикодовом уровнях, опосредованно отражающих операциональную реакцию механизма производства речи при воздействии на него как внутренних, так и внешних экстралингвистических факторов
2 Диагностика экстралингвистических факторов речи наряду с анализом ее просодической организации должна проводиться на основе учета темпоральной организации ее квазиритмической, квазисегментной и квазикодовой структур (метод выделения КРГ, КСС и ККС)
3 Семантико-смысловая интерпретация коммуникативных намерений говорящего может быть дана на основе результатов факторного анализа объектов исследования (типов коммуникативного задания и видов эмоциональной окраски текстов, озвученных говорящим) в пространстве признаков этих объектов (центроиды кластеров в массивах текущих значений временных параметров квазисегментных структур, характерных для речевых сигналов говорящих),
4 Количественный анализ центроидов кластеров в массивах текущих значений временных параметров квазисегментных структур речевых сигналов с заданной коммуникативной установкой дикторов позволяет в первом приближении осуществить психологическое шкалирование их эмоциональной напряженности и дать в первом приближении психофизиологическую интерпретацию принципа кодирования того или иного коммуникативного намерения дикторов
5 Квазикодовая структура речевого сигнала характеризует «сигнальный тонус» нейронной системы механизма производства речи говорящего Средняя величина квазикода в первом приближении может служить в качестве количественной оценки степени интеллектуального напряжения говорящих в условиях, характерных для подготовленной спонтанной речи, в том числе устного научного дискурса
Краткое содержание работы Введение
В настоящее время в прикладной лингвистике уделяется большое внимание исследованию механизмов эмоциональной регуляции речи, исследованию языковых механизмов экспрессивности, а также диагностике экстралингвистических факторов производства речи в реальных условиях речевой коммуникации [Галяшина 1999, с 14, Галяшина 2003, Потапова, Хитина 2005, с 78, Виноградов 1976, с 36]
Концептуальной основой данного исследования было аксиоматическое утверждение о соответствии изменений корреляционных отношений между вариациями величин формантных параметров речевого сигнала изменениям степени взаимодействия нейронных систем, управляющих параметрами речевого тракта в процессе производства речи
Параметры квазиструктуры речевого сигнала как физические корреляты психических процессов, на фоне которых происходит производство речи, в первом приближении могут быть базовой основой для параметрического анализа его экстралингвистических факторов в разных языковых системах
В диссертации решается проблема методологического подхода при исследовании экстралингвистических факторов речи, особенностью которого является анализ квазиструктуры речевого сигнала, опосредованно отражающей динамику взаимодействия между совместно работающими нейронными системами, управляющими перестройками параметров конфигурации речевого тракта в процессе порождения речи на стадии реализации моторной программы высказывания
Теоретической предпосылкой исследования было утверждение о том, что наряду с сегментной и суперсегментной структурированностью, обусловленной функционированием механизмов языка в процессе порождения речи, речевой сигнал структурируется на квазиритмическом, квазисегментном и квазикодовом уровнях Эти уровни структуризации речевого сигнала обусловлены характером операционального функционирования механизмов центрального сигнального управления параметрами конфигурации речевого тракта при воздействии на них как внутренних, так и внешних экстралингвистических факторов в процессе порождения речи
В работе учитывается также положение, в соответствии с которым все характеристики речи отражаются через систему различных отношений между величинами параметров сегментной и суперсегментной структур речевого сигнала
Актуальность решения проблем, связанных с анализом экстралингвистических факторов речи, в диссертационном исследовании отражена в приведенном ниже их перечне
а) разработка статистически надежных методов диагностики экстралингвистических факторов речи на основе анализа параметров элек-
трической формы речевого сигнала (ниже по тексту называется - «речевой сигнал»),
б) поскольку диагностика эмоциональной окраски речи, традиционно проводимая на основе анализа параметров ее суперсегментного состава, не приводит к однозначным результатам, то перед разработчиками встает проблема поиска уровней сегментации речи, например квазиритмического, квазисегментного и квазикодового, которые опосредованно отражают влияние экстралингвистических факторов на процесс реализации моторной программы высказывания,
в) в связи с вышеизложенным встает частная проблема, которая связана с разработкой алгоритма выделения квазиритмической, квазисегментной и квазикодовой структур речевого сигнала,
г) встает также проблема, связанная с определением перечня параметров этих структур речевых сигналов, которые статистически значимы для диагностики экстралингвистических факторов речи
Глава I. Проблемы сегментации речевого сигнала
В связи с возросшим интересом в языкознании к изучению речи как дискурса в настоящее время в современной прикладной лингвистике ботыиое внимание уделяется анализу экстралингвистических факторов процесса порождения речи и поиску их физических коррелят [Колосов, Потапова, Галяшина, Михайлов 2003, с 122-134, Ерофеева 2005]
Большие достижения в области цифровых технологий в настоящее время позволяют проводить экспериментальные исследования речи на базе цифровой обработки электрических сигналов, являющихся аналогами акустической формы речевых сигналов, которые отражают «все материальные процессы, происходящие при конкретном акте коммуникации в направлении от головного мозга говорящего к головному мозгу слушающего» Эти сигналы являются объектом, бурно развивающегося направления в области экспериментальной фонетики -«сигнальной фонетики» [Златоустова, Потапова, Потапов, Трунин-Донской 1997, с 112]
12 1 Структуризация речевого сигнала по методу выделения в нем квазиритмических групп.
Для решения вышеобозначенных проблем сегментации речевого сигнала был разработан способ его сегментации, который основан на выделении в нем квазиритмических групп (КРГ) по следующему алгоритму
1) анализируемый речевой сигнал нормируется по амплитуде,
2) проводится количественный анализ энергетической огибающей речевого сигнала и контура частоты основного тона,
3) выделение «пауз» в речевом сигнале проводится посредством оценки величины отношения текущего значения его интенсивности к
максимальной допустимой величине ее измерения При определении паузы по речевому сигналу измеренная величина это отношение сравнивается с условно выбранным для него пороговой величиной равной -30 дБ,
4) в речевом сигнале маркируются границы квазислогов —СГ-(соседние сонорные согласные и гласные объединяются в один квазислог),
5) распознавание пауз хезитации на участках речевого сигнала между «паузами»,
6) объединение квазислогов в квазиритмические группы (КРГ) ей участках речевого сигнала между «паузами» и паузами хезитации («паузы» меньше или равные 40 миллисекундам (мс) включаются в структуру КРГ, как компоненты смычных элементов речи [Михайлов, Златоустова 1987, с 27]),
7) внутри «паузальных» участков речевого сигнала выделяются квазиритмические группы по энергетическому уровню меньше -30 дБ, которые были случайно неучтены при выделении «пауз» в речевом сигнале по пороговому методу,
8) подсчет количества квазислогов в квазиритмических группах (КРГ) речевого сигнала,
9) определение акцентной структуры квазиритмических групп речевого сигнала
— определение порядковых номеров квазислогов, выделенных по максимуму энергетической огибающей речевого сигнала в КРГ,
— определение порядковых номеров квазислогов, выделенных по максимуму их временной длительность в КРГ,
— определение порядковых номеров квазислогов, выделенных по максимуму контура частоты основного тона в КРГ
Основной особенностью способов сегментации речевых сигналов должна быть возможность получения достаточного массива измеренных данных, полученных при первичном анализе параметров структуры речевого сигнала, необходимого для последующего статистического анализа их значимости для диагностики экстралингвистических факторов речи Оценка статистической значимости параметров КРГ приведена в главе 2
1.2 2 Структуризация речевого сигнала по методу выделения в нем квазициклов речи
Сравнительное изучение просодической организации текстов, озвученных на разных языках, ставит перед исследователями ряд важных проблем, которые связаны с поиском метода выделения базисных сегментов речевого сигнала, на основе которых должен проводиться сравнительный анализ ее экстралингвистических характеристик В основе разработок методов анализа речи должна лежать концепция об операциональном функционировании механизма центрального управления
речепроизводством на стадии реализации моторной программы высказывания, который универсален для всех языковых систем
В плане развития концепции М В Панова о фонетике как «опытном поле языкознания» [Панов 1979, с 4] в диссертационном исследовании выдвигается следующая концепция все экстралингвистические факторы порождения речи через посредство эмоциональных процессов, на фоне которых оно происходит, отражаются на «сигнальном тонусе» механизмов производства речи, а также отражаются на характере различных уровней квазиструктурной организации речевых сигналов
Концепция НИ Жинкина [Жинкин 1958, с219] о регулирующем свойстве глотки в механизме производства речи была взята в качестве исходной идеи при разработке метода выделения квазициклических групп в речевом сигнале Основной смысл этой концепции заключается в том, что центральное управление речью (ЦУР) на сегментном, слоговом и суперсегментном уровнях осуществляется посредством динамических перестроек глоточного резонатора
Поскольку динамические перестройки глоточного резонатора в моторной программе речевого высказывания обусловливают динамику перестроек артикуляции единиц речи, в наших экспериментах цифровые данные, получаемые при акустическом анализе речевого сигнала, обрабатывались по алгоритму, который в первом приближении учитывал корреляцию формантных параметров глоточного и ртового резонаторов В обобщенном виде алгоритм вычислительных операций можно представить в следующем виде
1) вычисляется линейный коэффициент корреляции Пирсона, коэффициент Фихнера, Спирмена [Елисеева, Юзбашев 2003, с 241-259] между текущими значениями экспериментально подобранных функций, характеризующих квазирезонансные признаки квазисегментов речи (квази-компактный/диффузный, квази-гравис/акут, квазидиезный/простой, квази-бемольный/простой) в окне анализа 300 мс [Златоустова, Потапова, Потапов, Трунин-Донской 1997, с 63] В качестве переменных для этих функций служили экспериментально подобранные алгоритмы отношений между формантными параметрами (Р1, Р2, ИЗ, ДП, ДР2, ДРЗ, где Бп - частота п-ой форманты, ДРп - ширина п-ой форманты, п = 1, 2, 3 ),
2) проводится расчет критерия Стьюдента - й- для подтверждения нулевой гипотезы Но о равенстве коэффициента корреляции нулю,
3) выбирается порог для величины корреляции г и р равный 0 85 и 0 7, соответственно
Таким образом, на оси текущего времени речевого сигнала после алгоритмической обработки данных первичного анализа текущих значений его формантных параметров выделяются участки, где величина текущего значения коэффициента корреляции выше условно выбранного его порогового значения и участки, где эти величины равны или ниже этого порога
Ниже на рисунке 4 приводятся результаты выделения алгоритмическим способом квазисегментной структуры речевого сигнала (КСС), характеризуемого величиной энергетического соотношения сигнала к
шуму равной или меньше -40 дБ При временном окне анализа порядка 300 миллисекунд (мс) в речевом сигнале были выделены участки с высокой и низкой степенями корреляционной взаимосвязи между величинами квазирезонансных признаков речевого тракта (квази-компактность/диффузность) и квазгрависность/акутность) Последовательность этих циклов (квазициклов речи — КЦР) на оси текущего времени речевого сигнала образует его квазсементную структуру (КСС см рис 4)
Рис 4
ооооооооооооооооооооо оооооооооооооооооооо
Текущее время (мс)
Эта структура опосредованно в первом приближении характеризует динамику центрального сигнального управления речевым трактом в процессе речепроизводства В первом приближении можно предположить, что специфика центрального управления резонансными параметрами речевого тракта в процессе производства речи обусловлена двумя характерными промежутками времени в квазициклах речи
1) первый промежуток, когда все сигналы центрального управления артикуляционными органами в определенной мере синхронизированы -11,
2) второй, - когда эта синхронизация отсутствует -12
Если предположить, что центральное управление речью осуществляется через «запуск сложившегося на основе афферентаций словесного двигательного стереотипа по единому произвольному импульсу» [Жинкин 1958, с 351], то отсутствие синхронизации в работе артикуляционных органов можно объяснить нарушениями взаимодействия между системами «произвольного и непроизвольного управления речед-вижениями» [там же, с 352] по каким-либо причинам (физическое и эмоциональное состояния говорящего, его коммуникативные намерения, условия речевой коммуникации и многие другие экстралингвистические факторы)
Экспериментально было обнаружено, что характер распределения величин Х2 в квазисегментной структуре речевого сигнала - КСС статистически значим для диагностики видов эмоциональной окраски и коммуникативного задания текста [Долотин 2005, с 93] Ниже в тек-
сте диссертации приводится алгоритм выделения квазисегментной структуры в речевом сигнале
Поскольку темпоральные параметры КСС (11 и 12) обусловлены только изменениями корреляционных связей между нейронными системами, управляющими артикуляционными перестройками речевого тракта в процессе производства речи, то в первом приближении можно считать, что квазисегментная структура речевого сигнала (КСС) может быть тем материальным субстратом, на базе которого необходимо проводить анализ универсальных, типологических и специфических характеристик речевых сигналов разных языковых систем
В связи с тем, что артикуляционные изменения конфигурации речевого тракта и координация этих изменений «осуществляются в значительной мере путем управления длительностью и относительными фазами нейромоторных команд» [Сорокин 1985, с 269], в дополнение к вышесказанному можно добавить, что распределение величин И в КСС речевого сигнала в известной мере может отражать хронометрические характеристики психических процессов речепроизводства
12 3. Квазикодовая структура речевого сигнала
Практическая потребность как теоретического, так и прикладного языкознания в статистически надежных средствах диагностики экстралингвистических факторов речи особенно ощутима при изучении механизмов экспрессивности, основным «нервом» которой являются «те когнитивные состояния психики человека, которые побуждают его «окрашивать» речь, испытывая определенные эмоциональные состояния» [Человеческий фактор в языке 1991, с 3] В связи с этим при изучении механизмов экспрессии и анализе экстралингвистических факторов процесса порождения речи большое значение приобретает поиск новых методов количественной оценки степени интенсивности интеллектуальных эмоциональных процессов, на фоне которых происходит порождение речи
Такая установка, в частности, при разработке методов анализа экстралингвистических факторов речи, обусловлена также тем, что сущность всех эмоциональных явлений заключается в единстве «двух моментов с одной стороны некоторого отражаемого содержания, с другой - собственно эмоционального переживания, т е той специфической окраски, с которой данное содержание отражается субъектом» [Вилюнас 1976, с 43]
В диссертации поставлена задача по разработке методов диагностики экстралингвистических факторов речевого сигнала
Поскольку традиционная диагностика знака и вида эмоциональной окраски речи, проводимая на основе анализа сегментного и суперсегментного состава речи, часто не приводит к однозначным результатам и технически трудоемка, то возникают следующие проблемы
1) наряду с сегментным, просодическим и квазиструктурным анализами речевого сигнала необходимо проводить анализ его квазикодовой структуры, которая опосредовано отражает «сигнальный тонус» 12
нейронных систем, управляющих конфигурацией речевого тракта в процессе производства речи,
2) необходим поиск квазиструктур речевого сигнала с инвариантными к языковой системе параметрами, которые будут статистически значимыми для диагностики интеллектуального напряжения говорящих во время их речевого общения
В первом приближении решение такой задачи может быть дано на основе вычисления текущих значений коэффициента корреляции Пирсона для всех пар значений формантных параметров речевого сигнала при времени дискретизации отсчетов порядка 5-10 мс во временном окне анализа порядка 300 мс
Речевая коммуникация, осуществляется под контролем того или иного эмоционального процесса, обусловленного многими экстралингвистическими факторами мотивами, целями, коммуникативными намерениями, чувствами, настроениями, желаниями, менталитетом, ситуацией, условиями речевой коммуникации, социальным статусом субъектов и другими факторами Все эти факторы обусловливают экспрессивность, эмоциональную окраску звучащей речи, которая, кроме ее просодической организации и употребления в ней определенных лексических, грамматических и синтаксических средств языка, отражается на характере квазисегментной и квазикодовой структур речевого сигнала
Алгоритм обнаружения квазикодовой структура речевого сигнала -ККС аналогичен алгоритму обнаружения его квазисегментной структуры — КСС с одной лишь разницей в корреляционном анализе, проводимого в них
а) в алгоритме выделения квазисегментной структуры речевого сигнала (КСС) вычисляется коэффициент корреляции между выборками текущих значений экспериментально подобранных квазирезонансных признаков сегментов речевого сигнала во временном окне анализа порядка 300 мс (см рис 4) Здесь значение коэффициента корреляции в первом приближении количественно характеризует изменение в текущем времени речевого сигнала квазирезонансных признаков речевого тракта (квази-компактность/диффузность, квази-грависность/акутность, квази-диезный/простой, квазибемольный/простой) Значения величин этих функций вычисляются по четырем экспериментально подобранным алгоритмам отношения между формантными параметрами речевого сигнала,
б) в алгоритме обнаружения ККС речевого сигнала вычисляется корреляционная матрица между всеми парами девяти формантных параметров речевого сигнала (Р, , ДР, , С2,, где I = 1, 2, 3, Р, — форманта с номером 1, АР, — ширина форманты с номером 1, <3, - добротность резонансной характеристики форманты Р,)
Этот метод связан с расчетом значений величин корреляционной матрицы по оси текущего времени речевого сигнала для вариаций его формантных параметров во временном окне анализа порядка 300 мс и сравнением рассчитанных абсолютных величин коэффициентов парной корреляции с условно заданной для них пороговой величиной 0,85
Аиализ проводился через каждые 5-10 мс по всей шкале текущего времени речевого сигнала Для получения достоверных результатов корреляционного анализа также проводилась оценка значимости величины коэффициентов корреляции посредством расчета значения t-критерия Стьюдента [Никитина 2001, с 116-117]
Алгоритм вычислительных операций и проявления квазикодовой струкруры речевого сигнала приведен ниже
1) вычисление текущих значений формантных параметров речевого сигнала {Fl - первая форманта (Гц), F2 - вторая форманта (Гц), F3 -третья форманта (Гц), (AFI- ширина первой форманты (Гц), (AF2- ширина второй форманты (Гц), (AF3) - ширина третьей форманты (Гц) и Ql, Q2 Q3} (см таблицу 1),
Таблица 1
Данные первичного анализа формантных параметров речевого сигнала
Fl AFI F2 AF2 F3 AF3 Q1 Q2 Q3
(в Гц) (в Гц) (в Гц) (в Гц) (в Гц) (в Гц)
658 262 2546 315 5265 576 2,511 0,103 8,083
2424 110 3382 571 5958 663 22,036 0,033 5 923
714 318 2478 135 2674 688 2,245 0 128 18,356
2) вычисление текущих значений коэффициента корреляции между всеми парами формантных параметров в окне анализа 300 мс при времени дискретизации формантного анализа примерно 5-10 мс (см таблицу 2),
Таблица 2
Корреляция выборок сопряженных пар текущих значений формант_ных параметров____
F1-F2 F1-F3 F1-AF1 F1- AF2 F1- AF3 F1-Q1 F1-Q2 F1-Q3 и т п
-0,465 0,719 0,460 0,786 0,490 0,984 -0,524 -0,081
-0,442 0,770 0,384 0,962 0,437 0,988 -0,533 -0,055
-0,258 0,616 -0,611 0,212 0,773 0,500 -0,780 0,360
-0,947 0,309 -0,633 0,251 0,726 0,863 -0,925 0,237
3) сравнение значений абсолютных величин коэффициентов корреляции в стоках таблицы 2 с условно выбранной для них пороговой величиной (например, 0 85) и представление данных сравнения в форме двоичного п-разрядного квазикода при условии «если(| г | > = 0,85, то 1, иначе 0)» Пример такой таблицы показан ниже (см таблицу 3)
Таблица 3
Представление текущих значений коэффициентов корреляции _ (см табл 2 ) в двоичной системе __
F1-F2 F1-F3 F1- F1- Г1- F1- F1- Fl-
AF1 ДГ2 AF3 Q1 Q2 CP и т п
0 0 0 0 0 1 0 0
0 0 0 1 0 1 0 0
0 0 0 0 0 0 0 0
1 0 0 0 0 1 1 0
0 0 0 0 0 0 0 0
Для примера в таблице 3 а показан 19-ти разрядный двоичный код сформированный из 9-ти формантных параметров
Таким образом, для каждого момента времени информацию о величинах коэффициентов корреляции между всеми возможными парами формантных параметров речевого сигнала можно представить в форме п-разрядного двоичного квазикода с характерным распределением единиц и нулей в его разрядах Например, 001100111000110101
Таблица За
Распределение квазикодов по строкам отражает корреляционное взаимодействие совместно работающих нейронных систем механизма сигнального управления конфигурацией речевого тракта при озвучивании текстов с различным коммуникативным заданием (русский диктор, мужской голос)
Интонация требования Интонация приказа Интонация повеления Интонация просьбы
111111111111 0111110 111111111110 0011111 11111111011111 11111 1111111011111 11111
111111111111 0111110 111111111110 0011111 11111111011111 11111 1111111011111 11111
Предварительный анализ квазикодовой структуры речевых сигналов разноязычной речи (45-ти минутная магнитофонная запись) показал статистическую значимость различий в характере распределения выборок текущих значений величины квазикодов, характерных для речевых сигналов с разными видами их эмоциональной окраски (нейтральной, повелительной, приказной, требовательной, просительной, мольбы) в [Долотин 2005, с 93]
В заключение описания методов выделения квазисегментной и квазикодовой структур речевого сигнала необходимо привести ожидаемые выгоды при применении их для анализа экстралингвистических факторов порождения речи
1 Поскольку внутренние процессы механизмов управления конфигурацией речевого тракта нам не даны в непосредственном наблюдении, то изучение этих механизмов возможно только в плане оценки изменения их общего состояния под влиянием как внешних, так и внутренних факторов
2 На основе количественной оценки изменения среднестатистической величины квазикода, характерного для речевого сигнала, в первом приближении можно количественно оценивать структурные изменения в общей картине корреляционных связей, которые возникают между совместно работающими нейронными системами механизма управления конфигурацией речевого тракта на фоне изменяющегося эмоционального процесса - «сигнальный тонус» нейронных систем
На основании вышеизложенного в диссертационном исследовании был разработан алгоритм анализа экстралингвистических факторов речи, который приводится ниже (см рисунок 6)
Таким образом, появляется возможность объективного экспериментального исследования экстралингвистических факторов речи и интерпретации их с позиций механизмов производства речи
В связи с проблемами изучения экстралингвистических факторов производства речи [Тарасов 1989, 15-40] и проблемами поиска ее объективных характеристик, статистически значимых для диагностики (например, авторства текста [Сорокин, Уфимцева 1989, 112-118]),можно обозначить определенное преимущество методов анализа экстралингвистических характеристик речи по параметрам квазисегментной структуры и среднестатистической величине квазикода речевого сигнала по сравнению с традиционными методами их анализа
Например, если в экспериментах со звучащей речью исследуется отражение коммуникативного намерения диктора на характеристиках квазисегментной структуры речевого сигнала, то после корреляционного анализа формантных параметров речевого сигнала выполняется только две операции измерение одного темпорального параметра квазисегментной структуры речевого сигнала м и две операции для расчета величины квазикода на временных срезах после формантного анализа речевого сигнала
Как можно заметить, исследование экстралингвистических характеристик речи по методам, основанным на анализе параметров КСС и ККС, исключают свойственную для традиционных методов интонационного анализа речи рутину по формированию баз данных первичного анализа параметров речевого сигнала, используемых в статистических методах диагностики экстралингвистических факторов процесса порождения речи
Анализ речевого сигнала, проводимый на основе количественной оценки одного темпорального параметра его квазисегментной структу-
ры или одного безразмерного параметра (среднестатистической величины квазикода), инвариантных по отношению к различным языковым
Рис 6
Алгоритм метода анализа экстралингвистических факторов речи
Акустическая форма речевого сигнала испытуемого «Черный ящик» механизмы языковой экспрессивности речи (испытуемый) Мотивы, цели, коммуникативные намерения испытуемого
ч г 1
Электрическая форма речевого сигнала испытуемого «Черный ящик» механизмы управления речевым трактом Эмоциональный процесс испытуемого
1 г
Корреляционный анализ фор-мантных параметров речевого сигнала —► Вычисление КСС и ККС речевого сигнала — Вычисление средней величины квазикода - «сигнального тонуса» «черного ящика»
системам, позволит повысить статистическую достоверность результатов исследований экстралингвистических характеристик речи и в первом приближении интерпретировать их с точки зрения механизмов ее производства, поскольку «фундаментальным механизмом психической деятельности человека и животных является механизм временной связи корковых клеток, закономерно возникающей при их совместном функционировании» [Бойко 1964, с 263]
Результаты нашего эксперимента позволяют в первом приближении сделать вывод о том, что квазисегментная структура речи опосредованно отражает механизм кодирования в речевом сигнале экстралингвистических факторов процесса речевой коммуникации
Глава II. Традиционные методы анализа экстралингвистических параметров речевого сигнала.
2.2. Анализ диагностических свойств сегментных параметров речевого сигнала.
Обзор данных, которые были получены из программ синтеза эмоционально окрашенных фраз с мужским и женским типом голоса, позволяет сделать следующий вывод
абсолютные и относительные величины сегментных параметров синтетического речевого сигнала (Q), (Fomax), (dFo/dt) и Т1 могут характеризовать определенный перечень видов его эмоциональной окраски Однако однофакторный дисперсионный анализ выборок величин сегментных параметров главноударных гласных синтетических фраз объемом п = 30 не обнаружил значимое различие их средних величин во фразах с эмоциональной окраской радости, удивления, тревоги, испуга, страха, тревоги, мольбы, просьбы, укора и плаксивости
Было отмечено также, что возникают существенные трудности при синтезе эмоциональных фраз с низким женским или мужским голосом, так как с понижением верхнего регистра частоты основного тона уменьшается динамический диапазон варьирования величины частоты основного тона в программах синтеза речи
На основании вышеприведенных результатов анализа можно сделать вывод о неперспективности применения абсолютных и относительных величин сегментных параметров речи для диагностики эмоциональных оттенков ее интонации по методу «анализа через синтез»
2.2 2 Оценка диагностических свойств сегментных параметров естественного речевого сигнала спектрографическим методом
В отечественных и зарубежных публикациях на тему корреляции акустических параметров речи и видов ее эмоциональной окраски приводится много данных о корреляции просодических параметров речи и вида ее эмоциональной окраски [Блохина 1978, с 52-57, Галунов, Ма-неров 1974, с 46-48, Бажин Е Ф и др 1975, с 69, Ковальчук и др 1991, с 197, Фролов и др 1978, с 232, Liberman, Michaels 1962, р 922, Kramer 1963, Wilhams, Stevens 1972, p 1238-1250], но до сих пор нет данных о статистической значимости этих параметров для диагностики эмоционального состояния диктора и экстралингвистических факторов процесса производства речи
Такую ситуацию можно объяснить тем, что обнаружение параметров эмоциональной речи на базе экспериментально измеренных данных первичного анализа ее просодических характеристик - чрезвычайно трудоемкий и рутинный процесс Машины пока не способны выделять характерные признаки просодического оформления эмоциональной речи, поэтому поиск их связан с рутиной ручного труда экспери-
ментатора Поэтому при поиске информативных параметров естественной эмоциональной речи объектом анализа на сегментном уровне чаще всего являются временные, частотные и амплитудные характеристики ударных гласных
В данном исследовании предпринята попытка, оценить статистическую значимость не менее важной для анализа экстралингвистических факторов речи степени назализации главноударного гласного фразы
Выбор степени назализации главноударного гласного фразы в качестве параметра для диагностики видов эмоциональной окраски речи во многом обусловлен следующими соображениями
1 Гласные звуки в реальной речи характеризуются той или иной степенью назализации, которая обусловлена опусканием небной занавески и образованием прохода в носовую полость
2 Поскольку ротовая, глоточная и носовая полости образуют единую резонансную систему, то можно предположить, что наличие определенной аэродинамической, акустической и механической связи между этими полостями в речевом тракте обуславливает специфику фор-мантной картины главноударных гласных фраз эмоционально окрашенной речи
В [Жинкин 1958, с 268-269] приводятся экспериментальные данные, свидетельствующие о регулирующей роли модуляций объема глоточного резонатора в процессе образования слоговой, словесной, синтагматической и фразовой динамики громкости, мелодики и тембра речи, которая возникает при совместной работе ротового, глоточного, гортанного, трахеобронхиального и легочного отделов системы рече-образования
В [Mohr 1971, р 65] приведены экспериментальные данные о влиянии объема глотки на работу голосовых связок, когда частота основного тона гласных понижается при сужении глотки и увеличивается при ее расширении
В связи с вышеизложенным был проведен спектральный анализ главноударных гласных эмоционально окрашенных фраз с целью оценки статистической значимости степени назализации главноударного гласного фразы для диагностики вида ее эмоциональной окраски
В процессе анализа спектрограмм были использованы данные по синтезу гласных русского языка с мужским типом голоса, приведенные в [Фант 1964, с 139-147]
В ходе эксперимента дикторам-мужчинам (актеры, 30-50 лет, москвичи, 5 дикторов) давалось задание произнести фразу Саша с эмоциональной окраской неэкспрессивного утверждения, укора, радости, страха, удивления, неудовольствия, отвращения, предупреждения и угрозы
Ниже приводятся результаты спектрального анализа ударных гласных во фразах с эмоциональной окраской одного из дикторов, отобранного по наилучшим статистическим показателям результатов ау-дитивного анализа видов эмоциональной окраски озвученных им фраз
Стандартный метод аудитнвного анализа и статистическая обработка его результатов приводятся в [Долотин 1997]
Спектральный анализ проводился посредством программного пакета SESIL
Приведенные в диссертации данные спектрального анализа глав-ноударных гласных фраз САША с различными видами эмоциональной окраски свидетельствуют о том, что многие виды эмоций специфическим образом отражаются на степени назализации главноударных гласных фраз (например, гласного нижнего подъема - [а])
В таблицах 4, 5, б приведены результаты спектрального анализа главноударного гласного фразы САША с различной эмоциональной окраской, где R = F2/F1 — параметр качества гласного, d = (В2 -В1) -параметр, характеризующий степени назализации главноударного гласного, В1 и В2 - амплитуда первой и второй формант ударного raacHoroFl и F2 в децибелах (дБ), Fomax - верхний регистр частоты основного тона главноударного гласного
Таблица 4
Вид эмоциональной окраски фразы и ее порядковый номер Акустические параметры главноударного гласного фразы (русский диктор, мужской голос)
d=(B2 -В1) (ДБ) Fl (Гц) F2 (Гц) Fo 1 '-'шах (Гц) R = F2/F1
1 Утверждение 0 712 1244 162 1,75
2 Радость 0 544 1440 257 2,65
3 Страх 1 550 1300 293 2,36
4 Удивление 1 700 1100 247 1,57
5 Укор 2 700 1310 179 1,87
6 Предупреждение 2,2 628 1320 137 2,10
7 Угроза 2,3 800 1308 134 1,63
8 Недовольство 2,8 650 1400 140 2,15
9 Отвращение 5,1 688 1450 155 2,15
Данные графика на рисунке №15а обнаруживают на качественном уровне экспоненциальный характер зависимости параметра с! (степени назализации главноударного гласного фразы Саша) от вида эмоциональной окраски фразы (предположительно от степени эмоциональной напряженности диктора см раздел 3 3 15)
Анализ акустических характеристик главноударного гласного во фразе Саша был дополнен корреляционно-регрессионным анализом массивов случайных величин {Рошах }'п и {ё}'п для 7-ми реализаций речевых сигналов с эмоциональной окраской радости, радостного удивления, предупреждения и угрозы пятью русскими дикторами-мужчинами (п = 1-5,1=1-7)
Рис 15а
Зависимость степени назализации главноударного гласного фразы от вида ее эмоциональной окраски (русский диктор, мужской голос)
Результаты анализа позволяют утверждать о существовании сильного взаимодействия между работой голосового источника и модуляций объема глоточного резонатора при производстве речи -с эмоциональной окраской радости-удивления и предупреждения-угрозы
На рисунке 156 показан линейный тренд корреляционного поля случайных переменных (сI, и х,)„
Обнаружение статистической значимости как для коэффициентов уравнения регрессии, так и для самого уравнения может служить основанием для утверждения о статистической значимости метода диагностики видов эмоциональной окраски озвученных текстов на основе количественной оценки вариации степени назализации главноударного гласного и значений величины верхнего регистра частоты основного тона во фразе
В рамках проблем и задач, поставленных в диссертационном исследовании, можно сделать вывод о необходимости разработки новых методов анализа глубинных структур речевого сигнала, которые позволяют проводить статистически достоверную диагностику экстралингвистических факторов речи, порождение которой происходит не в искусственных условиях эксперимента, а на фоне сложных эмоциональных процессов, развивающихся в условиях естественной речевой коммуникации
Рис 155 Регрессия <1 на X Связь вариации значений величины степени назализации главноударного гласного (с1) с вариацией значений верхнего регистра частоты основного тона (ЧОТтах) во фразах с эмоциональной окраской (русские дикторы, мужской голос)
3,5 3 2,5 2 1,5 1
0,5 0
с! = -0 0144х + 4 2169
Х = ЧОТта, (в Гц)
я для групп эмоций (вверху радость-радостное удивление, внизу предупреждение-угроза)
2.3 Оценка диагностических свойств суперсегментных параметров речевого сигнала.
В работах по экспериментальной фонетике вопросам моделирования эмоциональных интонаций речи уделено большое внимание В основном в них обсуждаются правила синтеза, разработанные на основе экспериментальных данных о просодической организации естественной речи [Лобанов 1981] и мало уделяется внимания исследованию глубинных структур речевого сигнала, которые опосредованно отражают эмоциональные явления общего психического процесса говорящих, на фоне которого происходит производство речи в конкретных условиях речевой коммуникации
Поскольку интонационно релевантны в мелодических контурах речевых высказываний только относительные величины уровней громкости, интервалов времени и диапазонов изменения частоты основного тона, "ибо ничего во фразе интонационно не меняется в зависимости от индивидуальных особенностей голоса, его регистра, силы и скорости говорения" [Артемов 1976, с 16, 37, Надеина 2005], то исследование эмоциональной речи проводилось на основе анализа относительных параметров частото-временной структуризации ее мелодического контура
Опыт синтеза эмоциональных коротких фраз показал, что естественность интонации синтетических фраз повышается, если наряду с варьированием сегментных параметров синтезируемого речевого сиг-
нала осуществлять варьирование величин параметров, характеризующих более высокие уровни ее структуризации (словесный, синтагматический, фразовый и др)
При искусственном моделировании речевых сигналов с различными видами их эмоциональной окраски возникает проблема, связанная с признаковой стратификации акустических характеристик сегментов и единиц речи [Румянцев 2004, с 124-126] Сложность решения этой проблемы обнаруживается при синтезе частото-временной структуры мелодического контура фраз со сложной грамматической структурой
В диссертации приводится оценка статистической значимости относительных параметров частото-временной структуризации мелодических контуров речевых сигналов (МК), как синтетических, так и естественных с различными видами их эмоциональной окраски
На основании вышесказанного возникает потребность оценить статистическую значимость алгоритмов отношений частото-временных параметров МК, наиболее часто употребляемых в практике экспериментальных исследований эмоциональной речи, для диагностики ее экстралингвисгических факторов
Для характеристики видов эмоциональной окраски фраз применялись следующие обобщенные относительные параметры мелодического контура фразы
1) отношение длительности предцентра МК фразы к длительности ее постцентра - Т2 = ((tnpwottHT + trjI удар„ )/(tn0CT1KHT + trjiyjBpH), характеризующей темпоральную структуру МК фразы,
2) отношение нижнего регистра частоты основного тона к ее верхнему регистру в мелодическом контуре фразы - D = ( Fomin /Fomax), характеризующее динамику перестройки работы голосовых связок,
3) отношение частоты второй форманты к частоте первой форманты главноударного гласного - R = (F2/F[), характеризующее артикуляцию гласного, его качество
Оценка статистической значимости параметров Т2, D и R для диагностики экстралингвистических факторов речи проводилась на основе однофакторного дисперсионного анализа, в котором проверка нулевой гипотезы (Но) осуществляется по F-критерию [Гмурман 2001, с 349] Для проведения статистического анализа были составлены таблицы выборок величин относительных параметров МК, характерных для естественных фраз, озвученных дикторами с эмоциями радости, удивления, укора, страха и нейтральности Вычисление F-критерия проводилось по формуле
J7
г - —г, где
Si
S^ - оценка факторной дисперсии величины параметра, рассчитанная на одну степень свободы,
S* - оценка остаточной дисперсии величины параметра, рассчитанная на одну степень свободы
При однофакторном дисперсионном анализе использовались также таблицы критических точек для распределения F Фишера-Снедекора [Mapдина, Земроч 1984]
2 3 2 Анализ естественного речевого сигнала.
Для оценки диагностических свойств суперсегментных характеристик естественного речевого сигнала были отобраны 10-ть дикторов-мужчин и 10-ть дикторов-женщин (актеры, 30-45 лет, москвичи), которые озвучивали фразу Саша пришел домой с различными видами эмоциональной окраски страха, укора, удивления, радости и нейтральности с интервалом между каждым озвучиванием фразы равным 10-ти секундам Затем проводился количественный анализ относительных формантных параметров главноударных гласных, темпоральных и частотных параметров мелодического контура фраз
После группировки величин относительных параметров по видам эмоциональной окраски фраз (страха, укора, удивления, радости и нейтральности) и типу голоса (мужской/женский) проводился однофак-торный дисперсионный анализ для объема их выборок - N=10 и уровня значимости - а = 0 05
Для фраз со сложной грамматической структурой статистический анализ не обнаруживает значимость относительных параметров часто-то-временной структуризации их мелодических контуров для диагностики вида их эмоциональной окраски
2.4.2. Корреляционно-регрессионный анализ параметров квазиакцентуационной структуры речевого сигнала.
В определенной мере обнадеживающие результаты для диагностики экстралингвистических факторов речи были получены при анализе параметров квазиакцентуационной структуры речевого сигнала, полученной на базе сегментации его на квазиритмические группы (КРГ)
По экспериментально полученным массивам текущих значений
1) количества квазислогов в КРГ — п,
2) порядкового номера квазислога, выделенного в КРГ по максимуму интенсивности - N"^,.,
3) порядкового номера квазислога, выделенного в КРГ по максимуму временной длительности - п*,
4) порядкового номера квазислога, выделенного в КРГ по максимуму частоты основного тона - пл -
были вычислены регрессии частогы (Y) этих 4-х параметров квазиакцентуационной структуры КРГ в речевых сигналах с нейтральной эмоциональной окраской, эмоциональной окраской радости и недовольствами [Долотин 2007])
Результаты корреляционно-регрессионного анализа приведены ниже
2.4.2 1 Корреляциоино-рсгресснонный анализ параметров структуры энергетического акцентирования квазислогов типа -СГ- в квазнритмических группах речевого сигнала
Для оценки статистической значимости параметров квазиакцентуационной структуры речевого сигнала для диагностики экстралингвистических факторов речи был проведен корреляционно-регрессионный анализ связи вариации квазислоговой длины КРГ и вариации порядковых номеров квазислогов, выделенных по энергетическому, временному и частотному признакам в КРГ речевых сигналов с нейтральной эмоциональной окраской, характерных для мужских и женских типов голосов
Обзор данных корреляционно-регрессионного анализа позволяет предполагать о наличии линейной (с положительным коэффициентом регрессии) зависимости вариации квазислоговой длины квазиритмичн-ских групп (п) в речевом сигнале от вариации порядковых номеров квазислогов -СГ-, выделенного в КРГ по максимуму энергии (№'крг)
Значимость коэффициента корреляции проверена по {-критерию Стьюдента для а = 2,5% и 31-ой степенями свободы Ц- = 8,283 > 2,04 Доверительный интервал для истинных значений коэффициента корреляции Я при доверительной вероятности Р = 0,95 равен (0,673 -0,913)
Значимость коэффициентов регрессии подтверждена Р = 2,35*10 , значимость свободного члена подтверждается также Р = 0,0268 Значимость уравнения регрессии подтверждена при оценке ее по Р-критерию Фишера для одной степени свободы для факторной дисперсии и 31 степени свободы для остаточной дисперсии при заданном уровне значимости а = 0,05 Ррасч = 86,6 > Рха6я 1,31 = 4,17
Ошибка прогноза квазислоговой длины КРГ (п) по порядковому номеру слога с силовым акцентированием в КРГ (И"крг) равна 1,4 квазислога
Поскольку была подтверждена значимость всех компонентов уравнения регрессии, то оно считается адекватным измеренным данным и пригодным в первом приближении для прогнозирования квазислоговой длины квазиритмических групп в речевом сигнале с нейтральной эмоциональной окраской и мужским типом голоса по порядковому номеру квазислога выделенного в КРГ по максимуму его амплитуды (энергии)
2 4.2.2. Корреляционно-регрессионный анализ параметров структуры временного и частотного акцентирования квазислогов типа -СГ- в квазиритмических группах речевого сигнала.
Женский голос
Для диктора 2 (женский голос) были получены следующие результаты корреляционно-регрессионного анализа параметров квазиритмических групп в речевом сигнале с нейтральной эмоциональной окраской
1 Коэффициент корреляционной связи между параметрами И"крг и п равен нулю,
где М"крг - порядковый номер квазислога -СГ- в квазиритмических группах (КРГ) речевого сигнала, выделенного по максимуму энергии, п - количество квазислогов в КРГ
2 Обнаружена статистически значимая зависимость вариации параметра И*крг от вариации п, а также вариации МЛкрг от вариации п,
где И*крг — порядковый номер квазислога -СГ- в квазиритмических группах (КРГ) речевого сигнала, выделенного в них по максимуму временной длительности квазислога типа -СГ-, И^крг - порядковый номер квазислога -СГ- в квазиритмических группах речевого сигнала (КРГ), выделенного в них по максимуму частоты основного тона, п -текущее значение числа квазислогов в КРГ речевого сигнала
3 Обнаружена также статистически значимая зависимость вариации параметра п от вариации М*крг и вариации п от вариации Ы^крг
Проверка коэффициента К по ^критерию Стьюдента показала, что коэффициент корреляции Я = 0,7686 статистически значим, а следовательно, корреляционная связь между параметрами !^крг и п реальная Доверительный интервал его истинных значений при доверительной вероятности Р = 0,95 находится внутри границ (0,585 - 0,872) Все значения Я в этом интервале статистически значимые при уровне а = 0,05
Все компоненты уравнения регрессии, показанного на рисунке 34, статистически значимы, а само уравнение адекватно измеренным данным
Таким образом, результаты корреляционно-регрессионного анализа подтверждают возможность прогнозирования квазислоговой длины п, квазиритмических групп в речевом сигнале с нейтральной эмоциональной окраской и женским типом голоса с точностью до 1,39 квазислога по порядковым номерам квазислогов , выделенных в квазиритмических группах речевого сигнала по максимуму ЧОТ гласных звукотипов (где 1 = 1,2,3 к - порядковые номера КРГ в речевом сигнале)
2.4 3 Выводы по второй главе.
Вышеприведенные результаты статистического анализа экспериментальных данных первичного анализа акустических параметров сегментного и суперсегментного состава речевых сигналов эмоционально окрашенной речи позволяют сделать следующие выводы
1 Традиционное описание интонации на основе обобщенных относительных акустических параметров мелодического контура не позволяет обнаружить статистически значимую для диагностики экстралингвистических факторов речи частото-временную структуризацию речевого сигнала Даже для ограниченного перечня видов эмоциональной окраски речевого сигнала не обнаружено статистически значимой для их прогнозирования регрессионной связи между параметрами
у _ ^предцент ^гч ударн ^ _ тш ^ _ -^2
2 Г ' ^ Р
постцент гч ударн о шах 1
2 Известно, что для выражения всего многообразия эмоциональных значений во фразе, наряду с грамматическими средствами, в ее просодической структуре должны быть заложены различные сигнальные средства
Основными из них являются
а) место логического ударения во фразе,
б) положение фоноритмической структуры во фразе, а фразы в тексте,
в) характерные особенности акцентуации фоноритмической структуры,
г) распределение пауз в речевом сигнале,
д) характер частото-временной структуризации мелодического контура речевого сигнала,
е) особенности формантной структуры главноударного гласного озвученной фразы
В связи с предварительно полученными результатами необходимо заметить, что при более глубоком исследовании интонации эмоциональной речи и оценке статистической значимости всего разнообразия параметров ее мелодических контуров могут возникнуть большие проблемы рутинного характера, которые связаны с анализом параметров МК речи на более высоких уровнях ее просодической организации
Традиционный методологический подход, применяемый при исследовании экстралингвистических характеристик речевого сигнала, связан со сложностью учета большинства "модификаций акустических признаков исходных тоноритмических моделей (ритмических структур), возникающих в зависимости от условий и требований старших просодических уровней требований синтагматики, актуального членения, различных интонационных дифференциаций, которые должны рассматриваться как функционально значимые признаки тех факторов, следствием которых они являются" [Румянцев 1990, с 229]
Выполнение всех этих требований при анализе параметров речевого сигнала приводит к многочисленности анализируемых параметров и к увеличению рутинности их измерений, что часто приводит к невозможности автоматизации формирования базы данных первичного анализа речевого сигнала для их последующего статистического анализа в системах автоматической диагностики экстралингвистических характеристик речевого сигнала
3 Учитывая вышеприведенные недостатки традиционных методов как сегментного, так и суперсегментного структурирования речевого сигнала, можно утверждать, что первичный анализ параметров квазиритмических групп речевого сигнала (КРГ) позволяет в первом приближении решить проблему автоматизированного способа формирования унифицированной базы данных, необходимой для статистических методов диагностики экстралингвистических факторов процесса порождения речи в естественных условиях речевой коммуникации в разных языковых системах
4 Если принять аксиоматическое утверждение о том, что операциональный механизм сигнального управления параметрами конфигурации речевого тракта в процессе реализации моторной программы высказывания является универсальным, то сравнительный параметрический анализ экстралингвистических факторов речи разных языковых систем необходимо проводить на базе структур речевого сигнала, опосредованно отражающих динамику операционального функционирования этого механизма при воздействии на него как внутренних, так и внешних факторов
Глава III Нетрадиционные методы
анализа экстралингвистических факторов речи
Нетрадиционные методы анализа экстралингвистических характеристик речевого сигнала проводились на основе алгоритмических методов выделения глубинных квазиструктур речевого сигнала и программ количественного анализа их параметров, разработанных автором диссертации (см 121,122 и123)
3.1. Анализ диагностических свойств параметров артикуляционной неоднородности гласных звукотипов в квазиритмических группах речевого сигнала.
Еще в 60-е годы [Фланаган 1968, с 253-266, с 298, с 308, с 313] приводились результаты по синтезу речи, где отмечалось, что улучшение качества синтетической речи в плане естественности ее звучания наблюдалось при добавлении в спектр гласных шумовой составляющей Этот факт допускает предположение о значимости для распознавания слуховых образов не только средних значений параметров сегментного и суперсегментного состава в речевом сигнале, но и их вариаций
Можно также предположить, что природа этих вариации обусловлена функциональными изменениями в общей структуре корреляционных связей между совместно работающими нейронными системами механизма производства речи, которые могут возникать при порождении речи, протекающем на фоне развития общего психического процесса говорящего, обусловленного как внутренними, так внешними факторами
Изучение характерных особенностей артикуляции гласных звуко-типов в речи с различной коммуникативной установкой дикторов было проведено на материале, озвученных дикторами текстов на русском языке продолжительностью порядка 12 секунд (5 дикторов-мужчин и 5 дикторов-женщин с московской нормой произношения, возраст 20-45 лет, филологи)
Идея о функциональной значимости параметров артикуляционной неоднородности гласных звукотипов в квазиритмических группах речевого сигнала была положена в основу, разработанного в диссертации метода анализа экстралингвистических характеристик речи
Анализ квазисегментной структуры гласных звукотипов в КРГ речевого сигнала с заданной коммуникативной установкой проводился посредством количественной оценки числа отклонений первой и второй формант гласных звукотипов от их условной нормы, определяемой экспериментально при озвучивании диктором тестового текста Ниже приводятся данные одного из таких экспериментов Для диктора-мужчины (средняя частота основного тона - 155 Гц, возраст сорок лет, москвич, образование высшее) посредством средств компьютерной лаборатории CSL В4300 фирмы KAY экспериментально определялась среднестатистическая норма варьирования формантных параметров гласных звуковтипов (см таблицу 20)
Таблица 20
Доверительные интервалы нормы величины первой форманты гласных звукотипов (диктор 1)
гласный Норма Fl (Гц) гласный Норма Fl (Гц)
а 500-700 э 400-450
о 400-450 и 300-350
У 250-300 ы 300-400
Для принятия решения об отклонении артикуляции гласного вниз/вверх от условной нормы экспериментатором были выбраны следующие границы для значений первой форманты Р1 (см таблицу 21)
Таблица 21
Условия смещения артикуляции гласных относительно границ частотного интервала для ее «нормы» Символ (') - смещение вверх, символ (*) - смещение вниз
Артикуляция гласного смещена «вверх» F1 меньше (Гц) Артикуляция гласного смещена «вниз» F1 больше (Гц)
а' 500 а* 700
О' 400 о* 450
У' 250 у* 300
э' 400 э* 450
ы' 300 ы* 400
и' 300 и* 350
Анализ числа отклонений в речевых сигналах с различной коммуникативной установкой значений частоты первой форманты гласных звукотипов (F1) от условной нормы осуществлялся полуавтоматически программой специально разработанной автором для этой цели Алгоритм анализа показан ниже
1) сегментация речевого сигнала на квазиритмические группы (КРГ), которые выделялись в нем по методу, описанному в разделе 12 1,
2) анализ формантных, временных и частотных параметров КРГ речевого сигнала осуществлялся средствами компьютерной речевой лаборатории CSL В4300,
3) транскрипция речевого сигнала выполнена вручную по осциллограмме речевого сигнала,
4) подсчет числа отклонений значений частоты первой форманты гласных звукотипов - F1 в КРГ речевого сигнала выполняется автоматически программным способом,
5) статистический анализ экспериментально полученных количественных данных выполнен программными средствами Microsoft Exel
Ниже приведена типовая таблица 22 с данными анализа речевых сигналов с разными коммуникативными установками среднестатистического диктора 1 из группы пяти дикторов с мужским голосом, участвовавших в эксперименте В таблицах показана транскрипция текста, выполненная кириллицей по осциллограмме речевого сигнала и автоматически распределенная по квазиритмическим группам речевого сигнала (КРГ)
В этих таблицах квазисегменты гласных, со смещением их артикуляции относительно «нормы» вверх по подъему, отмечены символом (') , квазисегменты гласных, смещенные вниз, отмечены символом (*), квазисегменты гласных, которые по степени открытости находятся в пределах условной нормы (см таблицу не отмечены дополнительным символом
В таблице 22 показан типовой отчет первичного анализа В скобках приведены следующие автоматически измеренные данные
• в позиции после символа «$» стоит значение длительности КРГ в миллисекундах (мс),
• в позиции после символа «*» стоит значение количества смещений артикуляции гласных вниз относительно их условной нормы,
• в позиции после символа «'» стоит значение количества смещений артикуляции гласных вверх относительно их условной нормы,
• в позиции после символа «п» стоит значение общего числа квазисегментов гласных звукотипов в КРГ, которое равно сумме числа отклонений их артикуляции вниз, вверх и числа квазисегментов без отклонения их от «нормы» ,
• в позиции после символа «%» стоит значение длительности паузы после КРГ в миллисекундах (мс)
Таблица 22
№ КРГ в РС Число ОТКЛОНЕНИЙ АРТИКУЛЯЦИИ ГЛАСНЫХ ЗВУКОТИПОВ В КРГ РЕЧЕВОГО СИГНАЛА ОТ УСЛОВНОЙ НОРМЫ ИНТОНАЦИЯ ПРОСЬБЫ (диктор 1, мужской голос, ь и ъ - редуцированные гласные)
1 п ра'ш у*у'уу'у*уу' ( $ 442,201 * 19 ' 27 п 51 % 111,1 )
2 ва'аа' ( $ 230 * Г 14 п 15 % 50 )
3 с жы'ы*ы'ыы*в'и*ии*и'и* ( $ 723,3 * 31 ' 11 п 67 % 1683,6 )
4 т'ь а'к т' ( $ 256 * 0 ' 18 п 21 % 135 )
5 и*ии' вн ъ н'и*с ( $ 657,2 * 30 ' 2 п 36 % 1201,6 )
6 т ( $ 35,1 *0'0 п0 % 73,7 )
7 о*о'о ь т пръ ($315,5 * Г 12 п 28 % 97,5 )
39 х'ь ( $ 193,6 *0'0 пЗ % 42,2 )
В диссертации приводятся результаты статистического анализа выборок экспериментально полученных данных о числе отклонений от «нормы» величины первой форманты (П) гласных звукотипов в квазиритмических группах речевых сигналов с разным коммуникативным заданием
Однофакторный дисперсионный анализ не обнаружил статистическую значимость различия в средних величинах длительности КРГ и паузы между ними в речевых сигналах, озвученных диктором с коммуникативной установкой просьбы, мольбы, требования и приказа
Однофакторный дисперсионный анализ обнаружил статистически значимое различие средних значениях числа отклонений в КРГ артикуляции гласных звукотипов вниз/вверх от условной нормы
Результаты такого анализа для речевых сигналов с коммуникативной установкой просьбы, мольбы, требования и приказа приведены ниже
1 Отклонение артикуляции гласных звукотипов вниз относительно «нормы» в квазиритмических группах речевых сигналов с коммуникативной установкой просьбы, мольбы, требования и приказа
Значимость различия среднегрупповых значений числа отклонений артикуляции гласных звукотипов вниз относительно условной нормы подтверждена превышением величины расчетного коэффициента Фишера Брасч по сравнению с его критическим значением при степенях свободы для межгрупповой и внутригрупповой дисперсии 3 и 152 соответственно
2 Отклонение артикуляции гласных звукотипов вверх относительно «нормы» в квазиритмических группах речевых сигналов с коммуникативной установкой мольбы, требования и приказа
Значимость различия среднегрупповых значений числа отклонений артикуляции гласных звукотипов вверх относительно условной нормы подтверждена превышением величины расчетного коэффициента Фишера Брасч по сравнению с его критическим значением при степенях свободы для межгрупповой и внутригрупповой дисперсии 2 и 114, соответственно
3 1.2. Корреляционно-регрессионный анализ параметров арти-
куляционной неоднородности гласных звукотипов в КРГ речевых сигналов с различной коммуникативной установкой диктора.
3 1.2 2 Корреляционно-регрессионный анализ текущих значений временной длительности КРГ и числа отклонений в них артикуляции гласных звукотипов вверх (п') относительно «нормы» в речевом сигнале с заданной коммуникативной установкой диктора.
На выборках измеренных величин временной длительности квазиритмических групп в речевом сигнале ($ в мс) и числа отклонения в них артикуляции гласных звукотипов вверх (п'), которые были полу-ченны при первичном анализе параметров артикуляционной неоднородности гласных звукотипов в КРГ речевых сигналах с коммуникативной установкой просьбы, мольбы, требования и приказа, проводился корреляционно-регрессионный анализ параметров $ и п'
Таблица 30-а
Интонация просьбы Регрессия 1п($) по 1п(п') (диктор 1, мужской голос)
Коэф-ты Станд ош Остатка Р-Знач
У= 1п($) 33,48 4,97 6,14 6,ЗЕ-08
X =1п(п') 5,356 0,72 7,38 8,8Е-09
Значимость И й- = 9,068897 > 1габл = 2
Доверительный интервал Я (0,692 - 0,906) при доверительной вероятности Р = 0,95
Таблица 30-6
Интонация мольбы Регрессия $ по п' (диктор 1, мужской голос)
Коэф-ты Станд ош истат Р-Знач
У=$ 231,41 58,03 3,99 0,00
X = п' 16,49 1,66 9,91 2Е-11
Значимость Я № = 9,91576> Ггабл = 2
Доверительный интервал Я (0,742 - 0,928) при доверительной вероятности Р = 0,95
Таблица 30-в
Интонация требования Регрессия $ по п' (диктор 1, мужской голос)
| Коэф-ты Станд ош ¡-стат Р-Знач
У = 5 Г 255,61 59,95 4,264 0,00
X = п' | " 17,7 2,66 6,65 3,65Е-08
Значимость И. (х = 6,656181 > 1:табл = 2 Доверительный интервал Я (0,521 - 0,824) при доверительной вероятности Р = 0,95
Таблица ЗОгТ
Интонация приказа Регрессия $ по п' (диктор 1, мужской голос)
Коэф-ты Станд ош 1-стат Р-Знач
У=$ 338,60 65.45 5,17 1,02Е-05
X =п' 18,2 3,Ь5 5,97 9,ЗЕ-07
Значимость Я й" = 5,974342 > Ггабл = 2 Доверительный интервал Я (0,498 - 0,842) при доверительной вероятности Р = 0,95
Уравнения регрессии параметра $ по п' статистически значимы и адекватны измеренным данным (см таблицы 30-а, 30-6, 30-в, 30-г)
В первом приближении с точностью ошибок прогноза 245 4 мс, 20 4, 291 5 мс, 327 9 мс в речевых сигналах с заданной коммуникативной установкой мольбы, просьбы, приказа и требования, соответственно, можно прогнозировать длительность квазиритмических групп ($) по независимой переменной п' (числу отклонений в КРГ артикуляции гласных звукотипов вверх относительно «нормы»)
3.1.2 4. Корреляционно-регрессионный анализ текущих значений временной длительности КРГ и суммарного числа отклонений и неотклонений артикуляции гласных зву-котипов вверх/вниз относительно «нормы» (п) в речевом сигнале с заданной коммуникативной установкой диктора.
Для выборок измеренных величин временной длительности квазиритмических групп в речевом сигнале ($ в мс) и общего количества квазисегмнтов гласных звукотипов (п), полученных при первичном анализе параметров неоднородности квазисегментной структуры гласных звукотипов в КРГ речевого сигнала с заданной коммуникативной установкой просьбы, мольбы, требования и приказа проводился корреляционно-регрессионный анализ (см таблицы 34-а, 34-6, 34-в, 34-г)
Таблица 34-а
Интонация просьбы Рец>ессия $ по п (диктор 1, мужской голос)
Коэф-ты Станд ош стат Р-Знач
У = $ 87,4 42,7 2,046 0,048
X = п 12,6 0,^5 13,32 1,09Е-15
Значимость Я й- = 13,31977 > Ггабл = 2
Доверительный интервал Я (0,83 - 0,951) при доверительной вероятности Р = 0,95
Таблица 34-6
Интонация мольбы Регрессия $ по
Коэф-ты Станд ош и стат Р-Знач
V = 60,64 ■ 43,10 1,407 0,160
X = п 11,16 0,66 16,90 8Е-18
Значимость Я 1т = 16,90681 > Ггабл = 2
Доверительный интервал Я (0,894 - 0,972) при доверительной вероятности Р = 0,95
Таблица 34-в
Интонация требования Регрессия $ по п
(диктор 1, мужской голос)
Коэф-ты Станд ош 1-стат Р-знач
У = $ 89,13 41,6 2,14 0,04
X = п 10,64 0,77 13,77 1Е-7
Доверительный интервал Я роятности Р = 0,95
(0,822
0,943) при доверительной ве-
Таблица 34-г
Интонация приказа Регрессия 3> по п (диктор 1, мужской голос)
Коэф-ты Станд ош истат У-Знач
У=$ 144 46,73 3,08 0,004
Х=п 8,9 0,71 12,54 2,6Е-14
Значимость Я & = 12,54548 > Ггабл = 2
Доверительный интервал И. (0,818 - 0,951) при доверительной вероятности Р = 0,95
Уравнения регрессии параметра $ по п статистически значимы и адекватны измеренным данным (см таблицы 38-а, 38-6, 38-в, 38-г) В первом приближении с точностью ошибок прогноза 157 5 мс, 1714 мс, 175 9 мс, 201 5 мс в речевых сигналах с заданной коммуникативной установкой мольбы, просьбы, приказа и требования, соответственно, можно прогнозировать длительность квазиритмических групп ($) по общему количеству квазисегментов гласных звукотипов в КРГ речевого сигнала как независимой переменной (п)
3 12 5 Выводы
1 Алгоритмический метод выделения квазиритмических групп в речевом сигнале, основанный на учете механизма включения и выключения голосового источника в процессе производства речи, также на учете интерсегментной паузации речевого потока, позволил обнаружить статистически значимую для диагностики экстралингвистических факторов речи ее акцентуационную структуру, а также квазисегментную структуру гласных звукотипов
2 Квазиритмическая структура речевого сигнала, обусловленная взаимодействием голосового и энергетического источников в речевом тракте, опосредованно отражает функционирование механизма их регулирования в процессе порождения речи
3 Квазисегментрая структура гласных звукотипов в речевом сигнале, обусловленная вибрацией языка, опосредованно отражает резонансные свойства мышечной системы ротовой полости
4 Параметрический анализ квазисегментной структуры речевого сигнала позволяет интерпретировать процесс порождения речи с заданной коммуникативной установкой диктора в терминах механизма включения/выключения голосового и энергетического источников
3.2. Анализ диагностических свойств темпоральных параметров квазисегментной структуры речевого сигнала.
3 2.1 Эксперимент с эмоциональной речью на русском языке (мужской голос).
Основной акцент в дискурсивном анализе речевой деятельности смещен в область психических механизмов порождения речи, протекающего под влиянием интенциональных, коммуникативных, лингвистических, эмоциональных, социальных, менталитетных, ситуативных, тематических, жанровых, этнических, социокультурных и др факторов [Кубрякова 1987, Красных 1999] В плане исследования человеческого фактора в языке особое значение приобретает «изучение сложнейших корреляций между устройством органов человека - гортани, легких, а главное - мозга - и механизмами речевой деятельности » [Кубрякова 1991, с 17]
Поскольку «полное изучение процессов вербальной передачи информации всегда должно опираться как на лингвистические, так и нелингвистические (пара- и экстралингвистические) факторы» [Потапова, Потапов 2005, с 94], то для разработчиков систем автоматического распознавания слуховых образов актуальным является поиск алгоритмов сегментации речевого сигнала, опосредованно отражающей динамику изменений состояния механизма центрального управления параметрами речевого тракта в процессе производства речи в реальных условиях речевой коммуникации
Экспериментально обнаружено, что между формантными параметрами речевого сигнала существует корреляционная взаимосвязь, которая оценивалась посредством коэффициента корреляции Пирсона Его абсолютная величина постоянно изменяется на оси текущего времени речевого сигнала в диапазоне от 0 до 1
Применяемая в работе процедура алгоритмической обработки измеренных формантных параметров (см раздел 12 2) позволяет выделить квазициклы речевого сигнала (КЦР) Один цикл КЦР состоит из двух фаз 1-ая - фаза включения (КЦРвкл), когда величина корреляции выше ее условного «порогового» значения, выбираемого экспериментатором (0,8) , 2-ая - фаза выключения (КЦРвыкл), когда величина корреляции равна или меньше ее условного «порогового» значения
На текущей оси времени речевого сигнала первую фазу можно обозначить единицей - «1», а вторую - нулем «0»
Таким образом, посредством учета динамики корреляционной связи между величинами формантных параметров речевого сигнала в первом приближении опосредованно можно контролировать динамику корреляционных связей между нейронными системами сигнального управления параметрами речевого тракта, изменяющуюся в соответствии с протеканием в организме человека эмоциональных явлений во время его речевой деятельности, обусловленных как внешними, так и внутренними экстралингвистическими факторами.
Учет характера распределений случайных величин темпоральных параметров первой и второй фазы квазициклов речевого сигнала (КЦР) в первом приближении позволяет изучать производство речи на стадии реализации моторной программы высказывания
Квазициклы речевого сигнала на оси текущего времени образуют его квазисегментную структуру (КСС), которая вырождена по всем акустическим параметрам (амплитуде, частоте основного тон, и частоте формант, длительности сегментных и суперсегментных участков речевого сигнала) кроме временных параметров самой этой структуры первой и второй фаз КЦР - и и й
Многочисленные эксперименты [Долотин 2006, с 29-34] по выявлению квазисегментной структуры речевых сигналов с различными типами их коммуникативного задания и видов их эмоциональной окраски убеждают в том, что темпоральные параметры квазисегментной структуры речевого сигнала опосредованно отражают реакцию механизма центрального сигнального управления параметрами речевого тракта в процессе производства речи как на внешние, так и на внутренние влияющие факторы
Известно, что время является основным параметром при анализе центральных механизмов человеческих реакций «В настоящее время установлено, что фундаментальным механизмом психической деятельности человека и животных является механизм временной связи корковых клеток, закономерно возникающей при их совместном функционировании» [Бойко 1964, с 263] На этом основании можно предполагать, что статистический анализ значений случайных величин И и 12 позволит достоверно обнаруживать экстралингвистические факторы влияющие на процесс производства речи в условиях того или иного дискурса
Чтобы оценить статистическую значимость параметров и и 12 для диагностики экстралингвистических факторов речи был проведен следующий эксперимент
1 Перед дикторами (10-ть мужчин 30 - 45 лет, москвичи, высшее образование) ставилась задача прочитать один и тот же текст с коммуникативной установкой нейтральности, повелительности, приказа, требования и просьбы, задаваемой дикторами в случайном порядке в 7-ми реализациях прочтения ими текста с заданной коммуникативной установкой
2 Речевой сигнал с микрофона записывался в цифровой форме в компьютере
3 Затем проводился акустический анализ речевого сигнала и алгоритмическая обработка первичных данных этого анализа В результате этих процедур был получен массив значений величин 11 и Х2 в миллисекундах (мс)
4 После этого проводился анализ выборок значений И и \2 на основе двухвыборочного И-теста для дисперсии этих значений в выборках и однофакторный дисперсионный анализ их, на основе результатов которых делались предварительные выводы о статистической значи-
мости этих параметров для диагностики экстралингвистических факторов процесса порождения речи
Ниже приводится текст, многократно озвучиваемый дикторами во время эксперимента
Врачи говорят если Вы не можете уснуть 15-20 минут - это тревожный симптом А если с трудом засыпаете, просыпаетесь ночью, чувствуете себя утром вялым и разбитым — можно с уверенностью говорить о нарушении сна Как правило, причина таких наругие-ний — нервное напряжение, стресс
Общий объем текстов, озвученных 10-тью дикторами составил 350 реализаций Каждая реализация речевого сигнала с заданной коммуникативной установкой дикторов осуществлялась с интервалом не менее одной минуты
В диссертации дана сравнительная оценка статистической значимости двух методов структурирования речевого сигнала для диагностики экстралингвистических факторов речи
1) метода выделение в речевом сигнале квазиритмических групп и 2) метода выделение в речевом сигнале квазисегментной структуры (КСС), элементами которой являются квазициклы речевого сигнала (КЦР)
Для проверки статистической значимости темпоральных параметров квазиритмических групп (КРГ) и параметров квазициклов речевых сигналах (КЦР) для диагностики экстралингвистических факторов речи проводился статистический анализ
а) выборок текущих значений длительности КРГ и физических пауз между ними в речевых сигналах,
б) выборок текущих значений длительности первой и второй фаз КЦР - И и £
3 2.1 3 Однофакторный дисперсионный анализ выборок значений параметра И (анализ факторных эффектов)
Однофакторный дисперсионный анализ выборок случайных величин параметра Х2 обнаруживает наличие факторных эффектов (так как Ррасч > Ркрит. Для уровня значимости а = 0,05), обусловливающих статистически значимое различие средних величин параметра (2 в выборках, характерных для речевых сигналов с коммуникативным заданием нейтральности, просьбы и требованиями таблицу 41)
Таблица 41
Анализ факторных эффектов, влияющих на выборки значений параметра характерных для речевых сигналов с коммуникативным заданием нейтральности, просьбы и требования (выборки по 10-ти русским дикторам, 7-мь реализаций, мужской голос)
Однофакторный дисперсионный анализ —
ИТОГИ
1 руппы типы коммун икат пв-ных заданий Счет Сумма Среднее Дисп
Столбец 1 (нейтральное) 1463 85047 58,13 1032
Столбец 2 (просьба) 1128 65715 58,26 944
Столбец 3 (требование) 714 63519 88,96 1010
Дисперсионный анализ
Источник вариации SS df MS F расч Р-Знач F кр
Между группами 530143 2 265072 265 1Е-07 2,99
Внутри групп 3294757 3302 99/,8
Итого 3824900 3304
3 2.1.4 Факторный анализ центроидов 5-ти кластеров в массивах текущих значений параметра t2, характерных для речевых сигналов с различными типами коммуникативного задания (русские дикторы, мужской голос)
Анализ факторов, влияющих на процесс производства речи проводился посредством количественной оценки факторных нагрузок центроидов 5-ти одномерных кластеров в выборках текущих значений параметра t2 (см таблицу 42), характерных для речевых сигналов с коммуникативным заданием нейтральности, повеления, приказа, требования и просьбы (анализ выполнен программными пакетами spss и stadia)
___Таблица 42
Одномерный кластерный анализ массивов текущих значений параметра 12, характерных для речевых сигналов (см табл 40) ({ХЛ- массив центроидов одномерных кластеров в речевых сигналах (в мс), полученный по речевым сигналам 10-ти русских дикто-__ров, 7-мь реализаций, мужской голос)_
Типы коммуникативных заданий в речевом сигнале
Нейтральность Повеление Приказ 1 ребова-ние Просьба
Кластер 38,58 22,46 66,32 45,02 32,93
Кластер 107,15 19,43 47,18 138,57 111,4
Кластер 3 59,46 17,40 22,51 21,95 87,7
Кластер 4 13,21 15,27 111,79 67,39 143,56
Кластер 85,38 13,10 85,63 99,77 63,78
X,j - текущее значение центроида, i — номер столбца j — номер стро-__ки
Таким образом, в качестве переменных факторного анализа брались центроиды 5-ти кластеров массивов значений параметра t2, характерных для речевых сигналов с тем или иным типом коммуникативного задания, который рассматривался в качестве одного из 5-ти объектов факторного анализа
Ниже приведены результаты анализа факторных нагрузок переменных, выполненного посредством программных пакетов SPSS и STADIA
Основные этапы факторного анализа
• определение главных компонент (факторов),
• вращение исходных осей (переменных) вокруг осей главных факторов с целью обеспечения максимальной факторной нагрузки на одни переменные и минимальной — на другие,
• многомерное шкалирование объектов (коммуникативных заданий речевых сигналов),
• содержательная интерпретация экстралингвистических факторов процесса производства речи
На рисунке 41 показаны факторные нагрузки переменных - «кластеров» в плоскости факторов 1 и 2 после «вращения», полученные посредством программного пакета STADIA [Кулаичев 1999]
Рис 41
Факторные нагрузки 1,2,0 ■Е1_
1 ""О
1 окла-т«
С 1 2 3 4 5 Е1
Фактор 1 Парзменныр 3 ть кластеров^ Факторные ь-згрул и переменных в ппсск ги Ф1 и Ф2 после ерзщенпя прусские дикторы 1.1 голос
Как видно, на рисунке 41 максимальная факторная нагрузка приходится на переменные «кластер 4» — по первому фактору и «кластеры 2 и 4» - по второму фактору
На рисунке 42 показана группировка объектов — типов коммуникативного задания речевых сигналов в проекции на плоскость 2-х главных компонент
Рис 42
Фа> торные юор^инагы 120
-пззепение
-
Й ]
Он? <рЗ*Ч^ЗЯ >прось6з
1 С 1
Для семантической интерпретации 1-го и 2-го главных факторов составлена таблица 45, в которой показаны «кластеры» с максимальной факторной нагрузкой (Factors' loadings — FL) и группировка объектов - типов коммуникативных установок дикторов вдоль основных осей факторной плоскости фактор 1 (ось абсцисс) и фактор 2 (ось ординат) Например, если обратить внимание на характер группирования проекций «объектов» на плоскость двух главных факторов, то можно отметить, что с максимальным значением координаты по оси абсцисс (фактор 1) группируются объекты (NEUTRAL - нейтральная, ORDER - приказ и DEMAND - требование), а по оси ординат (фактор 2) -(COMMAND - повеление и REQUEST - просьба) (см рисунок 42) По данным таблицы 44 можно заметить также, что максимальной факторной нагрузкой характеризуются следующие переменные кластер 2 с факторной нагрузкой равной 47,69 по второму фактору и кластеры 4 с факторной нагрузкой равной 55,48 по первому фактору
Учитывая «категориальный характер мышления и самого языка, ярче всего проявляющийся в грамматической категоризации отсюда и обнаруженная корреляция звукового строя языка с его грамматическим строем, в частности, со способом выражения грамматических значений» [Зубкова 1999, с 234] и то, что «в функциональной лингвистике язык понимается как особый механизм, используемый для связывания двух внеязыковых сущностей коммуникативного намерения говорящего и звукового сигнала» [Князев 2006, с 3], а также «факторы, которые признаются движущей силой грамматикализации 1 Значение внешней ситуации переходит в значение внутренней ситуации 2 Значения, описывающие внешние или внутренние ситуации преобразуются значения, основанные на контексте 3 Значения имеют тенденцию превращаться в субъективные состояния и установки говорящего» [Красухин 2005, с 7-8], по результатам факторного анализа, приведенным выше, в первом приближении можно дать психологическую интерпретацию семантики первого и второго факторов на базе значений грамматической категории императива
- фактор 1 обусловлен нейтральной или высокой степенью императива коммуникативного намерения диктора во время эксперимента Семантика фактора 1 может быть выражена дихотомией нулевая степень (нейтральная коммуникативная установка) - высокая степень (коммуникативная установка требования и приказа),
— фактор 2 обусловлен степенью категоричности императива коммуникативного намерения диктора, семантика которого может быть выражена дихотомией низкая степень (коммуникативная установка просьбы) - высокая степень (коммуникативная установка повеления) (см таблицу 45)
Таблица 45
Семантическая интерпретация главных факторов, влияющих в процессе эксперимента на кластерную структуризацию массивов текущих значений параметра - V. в речевых сигналах с заданной коммуникативной установкой дикторов нейтральности, повеления, приказа, требования и просьбы (10-ть русских дикторов, 7-мь реализаций речевых сигналов с заданной коммуникативной установкой диктора, мужской голос)
Целевая направленность дикторов во время эксперимента репродуцирование заданных коммуникативных установок в порождаемых ими речевых сигналах
Фактор 1 Фактор 2
«Целевые функции»* «Целевые функции»*
Определение переменных с максимумом факторных нагрузок (FL) klaster 4, FL = 55,48, 2 Определение объектов с максимальными значениями координат по оси - «фактор 1» и минимальными по оси - «фактор 2» (нейтральная, требование, приказ) Определение переменных с максимумом факторных нагрузок (РЬ) к1аз1ег 2, РЬ = 47,69 Определение объектов с максимальными значениями координат по оси - «фактор 2» и минимальными по оси-«фактор 1» (повеление, просьба)
Семантический смысл фактора 1 связан с нейтральной или высокой степенью императива коммуникативного намерения диктора во время эксперимента по репродуцированию речевых сигналов с каким-либо типом коммуникативного задания Семантический смысл фактора 2 связан со степенью категоричности императива коммуникативного намерения диктора во время эксперимента по репродуцированию речевых сигналов с каким-либо типом коммуникативного задания
* по аналогии с «целевыми функциями» как количественными критериями оыбора оффектиопых решений из множества имеющихся при решении задач исследования операций [Вентцель 2004, с 17]
3.2 1.5. Средние значения центроидов для кластеров массивов текущих значений параметра и в речевых сигналах и связь их с эмоциональным напряжением дикторов
Известно, что в физиологических механизмах человеческих реакций действует общий «закон силы», который устанавливает связь нарастания силы раздражителя с монотонным увеличением силы ощущения этого раздражителя [Бойко 1964, с 214-217, 227] В нашем эксперименте в качестве раздражителей рассматриваются эмоциональные явления, которые возникают в рамках конкретного эмоционального процесса, контролирующего тот или иной акт речевой коммуникации
Эмоциональные переживания дикторов можно рассматривать в качестве раздражающих факторов, которые влияют на центральный процесс производства речи, во время эксперимента по репродуцированию речевых сигналов с различными типами коммуникативных заданий
Для количественной оценки ощущения суммарной величины эмоциональных раздражителей, которое можно обозначить как эмоциональное напряжение диктора - ^дикт во время эксперимента по репродуцированию им в речевых сигналах условного перечня типов коммуникативных заданий, применялась психологическая шкала Стивенса
На основании результатов анализа многомерного шкалирования, приведенных ниже (см рисунок 43 в), в первом приближении можно считать, что среднестатистические значения центроидов кластеров в массивах текущих значений параметра t2 в речевых сигналах - (t2') является объективным аналогом психологической шкалы величины ощущения эмоционального напряжения диктором во время проведения эксперимента [Галунов 1970, с 271-298]
В эксперименте для оценки величины эмоционального напряжения диктора - £,ликт применялась психологическая шкала Стивенса [Галунов 1970, с 285-286] Параметры шкалы - ^дикт были определены по среднестатистическим экспериментальным данным о величинах центроидов для кластеров №4 - (t2') в .массивах текущих значений параметра t2, характерных для речевых сигналов 10-ти русских дикторов при 7-ми кратном репродуцировании ими в случайном порядке типов коммуникативных заданий нейтральности, повеления, приказа, требования и просьбы
На основании факторных свойств среднестатистических значений центроидов — t2' для кластеров с максимальными факторными нагрузками психологическая шкала количественной оценки эмоционального напряжения диктора рассматривается автором диссертации как монотонно нарастающая функция ^дикт =Jl\2"), которая в первом приближении может быть выражена степенной функцией по переменной t2'
с^дикт _, ,
где £д"кг — психологическая шкала величины эмоционального напряжения диктора (в числах), тик- константы
Таким образом, в данном эксперименте зависимость эмоционального напряжения дикторов (русских, мужской голос) как функцию величин центроидов 4-го кластера, характерных для выборок текущих значений параметров с, полученных при анализе квазициклов речевых сигналов (КЦР), репродуцируемых дикторами с коммуникативной установкой нейтральности, повеления, приказа, требования и просьбы, можно представить в первом приближении в следующей форме (см рисунок 43в )
N1,57
р дикт _
п
\ 2mm )„
где tj - среднее значение центроидов для кластеров 4 с максимальной факторной нагрузкой по фактору 1, t2mm =34ms - минимальный порогу скрытого времени слухового ощущения (по данным, приведенным в [Бойко 1964, с 402]
Как видно на рисунке 43в, диапазон изменения величины эмоционального напряжения русских дикторов-мужчин во время эксперимента примерно равен 9-ти единицам, крутизна линейного участка кривой эмоционального напряжения диктора равна 0,06 ед/мс Если допустить, что шкале скрытого времени слуховых ощущений (34 - 175) мс соответствует в первом приближении шкала уровней ощущения стимулов слухового раздражения (12 - 120) дБ, то шкала эмоционального напряжения диктора будет иметь 10 ступеней (в среднем по 12 дБ [Рим-ский-Корсаков 1973, с 18]) приращения эмоционального напряжения диктора
Рис 43в
Психологическая шкала оценки эмоционального напряжения диктора по Стивенсу, построенная по данным 7-ми реализаций речевых сигналов с 5-тью заданными коммуникативными установками 10-ти русских дикторов (мужской голос)
О' о' о" о" — -—~ О) г! п' гГ гл ГЛ гп сТ -Т 'П-*
х=(1'2Л'2шт.=34т5) ?2 - значение центроидов кластеров №4 с максимальной факторной нагрузкой по фактору №1 (в мс), Лггап. - минимальный порог скрытого времени слухового ошушения = 34 мс
-Степенной (коэффициенты вычислены по данным регрессионного анализа,
^порог = 1 соответствует минимальному времени скрытого слухового ошушени? равного 34 мс, взято из [Бойко, 1964, с 402] )
3.2 2 Эксперименты с речью на разных языках.
3.2.2.1. Эксперимент с эмоциональной речью на русском и корейском языках (женский голос)
Эксперимент проводился с целью обнаружения языковой специфики квазиритмической и квазисегментной структуризации речевых сигналов русской и корейской языковых систем, а также с целью оценки статистической значимости параметров КРГ и КСС для диагностики экстралингвистических факторов речи
В эксперименте участвовали пять русских и пять корейских дикторов (возраст 30-40 лет, филологи, женский голос) Дикторы читали один и тот же текст на родном языке с заданной коммуникативной установкой (нейтральности, повеления, приказа, требования, просьбы и мольбы)
Анализ параметров КРГ и КЦР проводился в два этапа
1) статистический анализ темпоральной длительности КРГ и длительностей физических пауз между ними в миллисекундах (мс или пв),
2) статистический анализ темпоральной длительности второй фазы квазициклов речевого сигнала (КЦР) - И
3 2.2.2. Статистический анализ языковой специфики распределения темпоральных параметров квазиритмической структуры речевых сигналов русских и корейских дикторов.
Анализ языковой специфики речевых сигналов в данном эксперименте проводился по методике обратной той, которая применяется для построения типологической модели родственных языков, когда «следует отметать все индивидуальное в них или нерегулярное описывать тип языка как целое, как структуру по строго отобранным параметрам разных ярусов» [Широкова 2000, с 5] Нал(гчие языковой специфики в речевых сигналах оценивалась нами по изменению величины какого-тибо параметра их квазиритмической структуры
Однофакторный дисперсионный анализ текущих значений темпоральной длительности КРГ в речевых сигналах с нейтральной коммуникативной установкой русских и корейских дикторов подтверждает альтернативную гипотезу о статистически значимом различии средне-выборочных значений длительности КРГ в их речевых сигналах
Таким образом, результаты этого анализа позволили обнаружить влияние факторных эффектов на характер распределения текущих значений длительности КРГ в речевых сигналах с нейтральной коммуникативной установкой русских и корейских дикторов (Грасч > Ркрцт ) Можно предположить, что эти факторы в какой-то мере связаны с языковой спецификой механизмов производства речи, поскольку сегментация речевых сигналов на квазиритмические группы (КРГ) в определенной мере опосредованно отражает ритмическую структуру речи 46
3 2.2.3 Анализ языковой специфики и наличия факторных эффектов в характере распределения текущих значений временной длительности второй фазы КЦР - \2 в речевых сигналах.
Однофакторный дисперсионный анализ временной длительности второй фазы квазициклов речевого сигнала — 12 проводился с целью обнаружения языковой специфики в характере их распределений в речевых сигналах русской и корейской речи
По причине статистически значимых различий в величинах дисперсии этого параметра в речевых сигналах с одинаковой коммуникативной установкой у русских и корейских дикторов провести такой анализ не представлялось возможным Это в свою очередь в первом приближении может служить подтверждением того, что параметр И опосредованно связан с функционированием универсальных механизмов порождения речи на стадии реализации моторной программы высказывания
1 Русские дикторы
Факторные эффекты, влияющие на характер распределения текущих значений параметра а в речевых сигналах русских дикторов (женский голос), обнаруживаются в данном эксперименте только при репродуцировании речевых сигналов с коммуникативными установками просьбы и мольбы, просьбы и приказа, нейтральности и. просьбы, мольбы и приказа В диссертации приведены данные такого анализа при соблюдении всех условий однофакторного дисперсионного анализа [Гмурман 2001, с 349-361]
Обзор результатов однофакторного дисперсионного анализа позволяет сделать предварительный вывод о статистической значимости временного параметра КСС речевого сигнала — XI для диагностики наличия факторных эффектов в процессе производства речевых сигналов с различной коммуникативной установкой русских дикторов (женский голос)
Интерпретировать результаты статистического анализа распределений темпоральной длительности второй фазы КЦР - 12 в речевых сигналах русских дикторов (женский голос) можно следующим образом если предположить, что параметр \2 наряду с центроидами кластеров массива его текущих значений в речевом сигнале является объективным аналогом степени эмоционального напряжения диктора [Галунов 1970, с 286] (см раздел 3 2 1 5 ), то можно в первом приближении предположить, что целевая стратегия русских дикторов-женщин во время эксперимента по репродуцированию в озвучиваемых ими текстах коммуникативных заданий имела дихотомический характер, который обусловлен выбором стереотипа коммуникативного задания просьбы в качестве центрального в пространстве психических проекций всех стереотипов коммуникативных заданий, хранящихся в памяти дикторов Относительно этой центральной проекции во время экспе-
римента у дикторов на психическом уровне протекает процесс поиска других проекций стереотипов коммуникативных заданий высказывания
С увеличением дальности расстояния поиска нужной проекции стереотипа коммуникативного задания высказывания относительно центральной проекции эмоциональное напряжение диктора во время эксперимента по репродуцированию речевых сигналов с коммуникативными заданиями мольбы, нейтральности или приказа может увеличиваться или уменьшается
2 Корейские дикторы
Однофакторный дисперсионный анализ текущих значений параметра И в речевых сигналах корейских дикторов обнаруживает факторные эффекты в характере их распределений в речевых сигналах с коммуникативной установкой просьбы и требования, а также мольбы и приказа
Обзор табличных данных позволяет сделать предварительный вывод о статистической значимости параметра 12 для анализа факторных эффектов, влияющих на механизм центрального управления параметрами речевого тракта в процессе производства речи
Результаты дисперсионного анализа, приведенные в тексте диссертации, позволяют обнаружить стратегию корейских дикторов при репродуцировании ими речевых сигналов с заданным типом коммуникативной установки
На основе результатов этого анализа можно сделать предварительный вывод о том, что центральная операциональная стратегия механизма порождения речи у корейских дикторов во время эксперимента главным образом была связана с выбором низкой или высокой степени категоричности императива их коммуникативных установок (например, просьба — требование и мольба — приказ)
3.2.2.5. Построение психологической шкалы эмоционального напряжения для русских и корейских дикторов (женский голос).
I Русские дикторы-женщины
В эксперименте для оценки величины эмоционального напряжения диктора — ^дикт применялась психологическая шкала Стивенса [Галунов 1970, с 278-286] Параметры шкалы - £дикт были определены по среднестатистическим экспериментальным данным о величинах центроидов для кластеров №4 - (12') в массивах текущих значений параметра И, характерных для речевых сигналов 5-ти русских дикторов (женский голос) при 7-ми кратном репродуцировании ими в случайном порядке типов коммуникативных заданий нейтральности, повеления, приказа, требования, просьбы и мольбы
На основе учета факторных свойств среднестатистических значений центроидов -12' для кластеров №4 с максимальными факторными
нагрузками психологическая шкала количественной оценки эмоционального напряжения русских дикторов-женщин в первом приближении может быть выражена степенной зависимостью (3) по переменной 12' Коэффициенты этой шкалы находятся по параметрам линейного тренда для значений величин переменных (у,=1п(4), х,=1п (12,')}, полученных на основе применения шкалы (3) и экспериментально полученных данных о величинах центроидов кластеров с максимальной факторной нагрузкой - И,' в массивах текущих значений темпорального параметра второй фазы квазициклов речевых сигналов 12, характерных для дикторов, участвовавших в эксперименте
Таким образом, для данного эксперимента эмоционального напряжения русских дикторов (женский голос) как функцию значений величины центроидов 4-го кластера в выборках текущих значений параметров х2, характерных для речевых сигналов русских дикторов-женщин, можно представить в первом приближении в следующей виде (см формулу 8)
Г - Л119
Ъ I
2 , (8)
рдикт _
Ьп
\^2тт Jn
где /2 - значение центроидов для кластеров №4 с максимальной факторной нагрузкой по фактору 1, /2тш = 34/Ж - значение минимального порога скрытого времени слухового ощущения 2 Корейские дикторы-женщины
При оценки величины эмоционального напряжения корейских дикторов-женщин параметры шкалы - сдикг были определены по среднестатистическим экспериментальным данным анализа значений величин центроидов для кластеров №2 -12' в массивах текущих значений параметра И, характерных для речевых сигналов 5-ти корейских дикторов при 7-ми кратном репродуцировании их в случайном порядке с коммуникативным заданием нейтральности, повеления, приказа, требования, просьбы и мольбы
На основе учета факторных свойств среднестатистических значений центроидов -12' для кластеров №2 с максимальными факторными нагрузками психологическая шкала количественной оценки эмоционального напряжения корейских дикторов-женщин в первом приближении может быть выражена степенной зависимостью (3) по переменной П' Коэффициенты этой шкалы находятся по параметрам уравнения регрессии для массива значений переменных двумерной случайной величины (у,=1п(^,), *,=1п И,')
Статистическая оценка коэффициентов уравнения регрессии и самого уравнения обнаруживает их значимость для уровня а = 0,05, так как расчетный коэффициент Фишера ¥расч и (-статистики значимо отличается от их критических значений
Наблюдается также сильная корреляционная связь между дисперсией переменной д и дисперсией переменной у Это в свою очередь информирует о функциональной связи вариаций этих переменных
Таким образом, для данного эксперимента зависимость эмоционального напряжения корейских дикторов-женщин как функцию значений величины центроидов 2-го кластера в выборках текущих значений параметра 12, характерных для речевых сигналов дикторов, можно представить в первом приближении в следующей виде (см формулу 9)
ч1,39
:дикт _ Г1 Г) *
^оикт _ Q 9 :
( Г л 12
V mm
(9)
где t2 - значение центроидов для кластеров №2 с максимальной факторной нагрузкой по фактору 1, /2т|п = 34ms - значение минимального порога скрытого времени слухового ощущения
На рисунке 60 совмещены графики зависимости эмоционального напряжения всех дикторов, а также график обратной зависимости скрытого времени ощущения стимула как функции его силы (по Фре-лиху) [Бойко 1964, с 199-230]
На рисунке 60 на оси абсцисс можно отметить координаты точек пересечения графика изменения скрытого времени ощущения звукового стимула в зависимости от его уровня, построенного по формуле Фрелиха для граничных значений уровня ощущения стимулов 1 и 10 и времени задержек их ощущения 175 мс и 34 мс, соответственно, с графиками изменения эмоционального напряжения дикторов, построенными по шкале Стивенса, для каждой из трех групп (русских дикторов-мужчин, русских и корейских дикторов-женщин) в зависимости от длительности второй фазы квазициклов речевого сигнала t2, которая опосредованно является физическим аналогом эмоционального напряжения дикторов Значения времени на оси абсцисс для точек пересечения находятся в диапазоне от 63 мс до 73 мс Эти значения времени согласуются по порядку величины с длительностью рефрактерного периодом нейронов первичного уровня слуховой коры, «где производится не только выделение акустических событий, но и формирование сигналов об этих событиях, приведение их к такому виду, при котором они могут быть использованы дешифратором» [Чистович, Венцов, Гранстрем 1976, с 242]
Таким образом, можно предположить, что координаты точек пересечения по оси абсцисс в первом приближении характеризуют рефрактерный промежуток времени нейронов верхних отделов слухового пути, который используется верхними уровнями речевого анализатора не только для кодирования и декодирования в речевом cm нале лингвистической и экстралингвистической информации, связанной с акустическими событиями в речевом сигнале, но и для кодирования и декодирования в нем информации о коммуникативных намерениях дикторов и их эмоциональном состоянии, передаваемых параллельно лингвисти-
ческому и паралингвистическому по экстралингвистическому каналу глубинного структурирования речевого сигнала, опосредованно отражающего реакцию механизмов речи при воздействии на процесс ее порождения как внешних, так и внутренних факторов
3.2.2.6 Механизм кодирования/декодирования коммуникативных намерений диктора.
По аналогии, учитывая предпотожение В А Виноградова, «что для первоначального создания сети1 необходима значительная масса коры, а для сохранения ее2 — гораздо меньшая часть» [Виноградов 1976, с 33], на основании результатов факторного анализа типов коммуникативных установок дикторов как объектов анализа в пространстве их признаков (кластеров в массивах текущих значений параметра характерных для речевых сигналах с заданной коммуникативной установкой дикторов) алгоритм кодирования/декодирования коммуникативных намерений дикторов в речевых сигналах можно представить следующим образом
1 Первый этап кодирования/декодирования связан с преобразованием массива текущих значений параметра {12} на высших этапах обработки речевых сигналов центральной слуховой системой в многомерную пространственно-временную проекцию центроидов кластеров массива {12} - {Ь'} в пространстве основных факторов (см таблицу 42)
2 Второй этап процесса кодирования/декодирования коммуникативных намерений дикторов в речевых сигналах связан с формированием целевой функции, на основе которой вырабатывается алгоритм кодирования/декодирования (см таблицу 45, целевые функции)
3 Третий этап кодирования/декодирования коммуникативных намерений дикторов в речевых сигналах связан с представлением о модели трансформирования многомерного пространственно-временного распределения проекций центроидов предыдущего этапа {V} в две одномерные пространственно-временные проекции центроидов Ь' с максимальной факторной нагрузкой (см колонки 1, 2, 3, 4, 5, 6 в таблице 74) а) проекции V, которые по величине меньше длительности рефрактерного периода и б) проекции, которые по величине больше длительности ¡рефрактерного периода В таблице 74 проекции центроидов V с максимальной факторной нагрузкой, которые по величине большие рефрактерного периода, выделены жирным шрифтом
1 Первичное формирование ассоциативных сетей коммуникативного намерения диктора (примечание автора)
2 Формирование фиксированных нервных трактов, подобных роландо-вой полосе, кодирующих тот или иной стереотип коммуникативного намерения диктора (примечание автора)
Длительность рефракторного периода в эксперименте определялась графическим способом по пересечению графика силы слухового ощущения звукового раздражения, построенного по шкале Фрелиха, и графиков эмоционального напряжения дикторов, построенных по шкале Стивенса (см рисунок 60)
и я
ч
Рис 60
Зависимости силы эмоционального напряжени дикторов \ от значения величины центроидов кластеров -12 с максимальной факторной нагрузкой, являющихся проекц-ми интенсивн-ти факторного нарушения связей между
12 11 10 9 8 7 6 5 4 3 2 1 0
] 1 V = ( 0 П" 7 1 ; 7 -
К = 1 -
1
« 1 ' I 1 1
1 1 и ?? 16 к -
*
\
4х
0 0£9
1 Е1г = 1
1 ■
И—(--. 1 1 1 1 1 ;
Х = 12 (в МС)
(Значения величины центроидов для кластеров с максимальными факторными натру зками
в массивах-текущих значений параметра!; характерных для речевых сигналов репродуцируемых дикторами по списку с заданными типами комму никативных установок) Зависимость силы эмоционального напряжения диктора от силы факторного нарушения нейтонных связей в слуховом анализаторе, построенная по шкале Стивенса (русские дикторы-мужчины) Обратный график зависимости скрытого времени ощущения эмоционального напряжения дикторов от его уровня (построен по формуле Фрелиха [Бойко 1964 с 215] -Зависимость силы эмоционального напряжения диктора от силы факторного нарушения нейтонных
связей в слуховом анализаторе построенная по шкале Стивенса (русские дикторы-женщины) -Зависимость силы эмоционального напряжения диктора от силы факторного нарушения нейтонных связей в слуховом анализаторе построенная по шкале Стивенса (корейские дикторы-женщины)
Таким образом, можно предположить, что координаты точек пересечения по оси абсцисс в первом приближении характеризуют рефракторный промежуток времени нейронов верхних отделов слухового пути, который используется верхними уровнями речевого анализатора
для кодирования и декодирования в речевом сигнале экстралингвистической информации коммуникативных намерений дикторов, степени их эмоционального напряжения, типов коммуникативного задания и видов эмоциональной окраски озвученных текстов
Сравнительный анализ дихотомии семантики кодов коммуникативных намерений дикторов (см колонки 9 и 10 в таблице 74), полученной на основе учета семантики объектов факторного анализа (см колонки 1-6 в таблице 74) и дихотомии семантики экстралингвистических факторов производства речи (см колонку 11 в таблице 74) не обнаруживает их различий для речевых сигналов русских и корейских дгасторов-(мужчин и женщин), если в одномерных проекциях центроидов в группах «а» и «б» (третий ' этап кодирования/декодирования) допустить наличие эффекта перехода нервного возбуждения от проекции центроида Х2 с минимальным значением его величины на проекцию с большим значением (см колонки 1 -6 в таблице 74)
Например, по результатам количественной оценки значений 12' в экспериментах по репродуцированию речевых сигналов с различным коммуникативным заданием в русской и корейской языковых системах для мужских и женских типов голоса было обнаружено, что в проекциях центроидов группы «а» существует переход нервного возбуждения от центроида с минимальным значением величине на следующий больший по величине центроид, если расстояние между ними меньше или равно 0,3 мс и отсутствие такого перехода, если это расстояние равно или больше 1 мс (см колонки 5 и 1 в таблице 74, корейские дикторы-женщины, кластер 4, колонки 5 и 6, русские дикторы-женщины, кластер 4)
В проекциях центроидов группы «б» было обнаружено, что возбуждение центроида с минимальным значением величины переходит на соседнюю проекцию центроида с большим значением величины, если расстояние между ними меньше или равно 20 мс, и не переходит, если это расстояние равно или больше 21,3 мс (см колонки 6 и 2 в таблице 74, корейские дикторы женщины, кластер 4, колонки 1, 3, 5, 6, кластер 5, корейские дикторы-женщины, колонки 5 и 1, русские дикторы-мужчины, кластер 5)
Таким образом, можно в первом приближении сделать вывод о том, что механизм кодирования/декодирования экстралингвистической информации в речевом сигнале связан 1) с формированием двух одномерных проекций центроидов Х2 - «а» и «б», 2) активацией в них центроидов с минимальным значением величины, при наличии эффекта перехода активности от центроида с меньшим значением величины к цетроиду с большим значением его величины
3 2 2.7 Выводы
Приведенные выше результаты анализа специфики структуризации речевого сигнала на квазиритмическом - (КРГ) и квазисегментном -(КСС) уровнях позволяют сделать следующие выводы
1 В первом приближении языковая специфика речевого сигнала наряду с просодическим уровнем может быть количественно оценена посредством учета статистически значимой разницы между средневы-борочными значениями темпоральной длительности квазиритмических групп (КРГ) в речевых сигналах с нейтральным коммуникативным заданием русского и корейского дикторов
2 Темпоральная длительность второй фазы квазициклов в речевых сигналах - t2 статистически не значима для диагностики их языковой принадлежности, но значима для кодирования в них коммуникативных намерений и установок диктора в процессе порождения речи во время речевой коммуникации
3 Изменения значений величины длительности второй фазы квазициклов в речевом сигнале (КЦР) не влияют на его акустические характеристики, а опосредованно на квазисегментном уровне структуризации речевого сигнала отражают динамику взаимодействия нейронных систем механизма сигнального управления параметрами речевого тракта в процессе производства речи
4 Речевые сигналы структурированы также по характеру распределения значений центроидов - (t2') в кластерах массивов текущих значений второй фазы KU,P{t2} Эти кластеры образуют следующий уровень структуризации речевых сигналов - их центроидную структуру (ЦСР)
5 По аналогии с предположением, высказанным В В Красных, «что когнитивное пространство человека может быть представлено в виде «магического шара», заполненной сферы, каждая точка которой имеет определенное множество векторов деятельности вербальной, ментальной, физической, эмоциональной Следовательно, воздействуя на сознание по одному из векторов, т е создавая возбуждение в какой-либо точке сферы, можно вызвать определенную реакцию, идущую из той же точки, но по другому вектору (вектору другой деятельности) Отсюда и коммуникативные типы высказываний и коммуникативная целенаправленность (виды воздействия)» [Красных 2001, с 177], можно предположить, что центроиды t2' кластеров с максимальными факторными нагрузками опосредованно в первом приближении характеризуют пространственную проекцию стереотипов коммуникативных намерений говорящих, стереотипов коммуникативных заданий и эмоциональных окрасок высказывания
Эти центроиды отражают динамику воздействия экстралингвистических факторов на процесс производства речи, а также позволяют интерпретировать процесс кодирования экстралингвистических факторов процесса порождения речи в психофизиологическом аспекте
6 Значимая статистика однофакторных дисперсионных анализов параметра 12 в первом приближении позволяет связать рост его средне-выборочных значений в речевых сигналах с ростом эмоциональной напряженности диктора в процессе речевой коммуникации
Например, у русских дикторов эмоциональная напряженность нарастает при репродуцировании в речевых сигналах коммуникативных заданий от повелительности до требования, а у корейских - при репродуцировании . в речевых сигналах коммуникативных заданий от нейтральности до мольбы
3 3 Анализ диагностических свойств квазикодовой структуры речевого сигнала.
Теоретическое значение результатов исследования квазикодовой структуры речевого сигнала, на наш взгляд, обусловлено тем, что она наряду с его квазисегментной структурой является дополнительным каналом в речевом сигнале, обеспечивающим передачу в нем экстралингвистической информации параллельно просодическому Квазикодовая структура речевого сигнала опосредованно отражает динамику общего состояния «сигнального тонуса» нейронных систем центрального управления речевым трактом на стадии реализации моторной программы высказывания Квазикодовая структура речевого сигнала наряду с его квазиритмической и квазисегментной структурами позволяет дать семантическую интерпретацию экстралингвистических факторов речи и тем самым расширить перечень ее смысловых коннотаций при ее интонационном оформлении
3 3 1. Анализ научной речи.
В нашем эксперименте получены количественные оценки среднестатистических величин квазикодов для речи четырех известных ученых в областях научных знаний по современной биологии живой клетки, математической физике, нейробиологии, морфологии крылатых насекомых и речи известного актера Речевой материал брался из видеозаписей телевизионных передач А Гордона, которые шли на московском канале телевидения в 2004 году В каждой передаче предлагалось обсудить какую-либо одну научную тему По каждому из пяти участников было отобрано семь видеозаписей по 5 минут каждая Каждый озвученный текст по смыслу был логически завершенным В передачах обсуждались следующие темы
1 Идея симбиогенеза (современная биология) Обсуждался вопрос о симбиотическом происхождении основных компонентов Р-кариотной клетки
2 Теории вихревой и волновой турбулентности (математическая физика) Обсуждался вопрос о применении этих теорий в исследованиях различных социальных процессов
3 Об актерском мастерстве чтеца
4 Морфология нейронной клетки (современная нейробиология) Обсуждался вопрос о современных методах наблюдения за процессами передачи сигналов в живых нейронах
5 О морфологических изменениях у стрекоз (биология)
После отбора речевого материала и последующей алгоритмической обработки его была получена база данных (массив квазикодов) для статистического анализа
Был проведен однофакторный дисперсионный анализ выборок среднестатистических величин квазикода (см табл 93)
Таблица 93
средние величины квазикода в речевом сигнале
№- Тема 1 Тема 2 Тема 3 Тема 4 Тема 5
Текст 1 36378 42767 45906 44356 АНН
Текст 2 44098 44131 46073 41764 42940
Текст 3 44227 41921 46073 41847 35080
Текст 4 44064 45720 45453 38435 41462
Текст 5 35552 47899 42605 33803 37761
Текст 6 45422 39171 45932 42383 41505
Текст 7 38289 44575 41192 40270 38176
Однофакторный дисперсионный анализ для величин квазикодов
Г Р-Значение F критическое
3,1249 0,029129 2,689632
Анализ данных, приведенных в таблице 93, обнаруживает статистическую значимость распределений среднестатистических величин квазикодов в столбцах таблиц (т к расчетная величина Р-критерия > Б кртического)
Это в первом приближении обнаруживает наличие фактора, влияющего на специфику квазикодовой структуры, характерной для речи разных специалистов
В таблице 94 приведена двоичная форма записи среднестатистических величин квазикодов Жирным шрифтом выделены разряды квазикода, которые опосредованно отражают специфику корреляционных взаимодействий нейронных структур, управлякшщх поперечным сечением речевого тракта и его мышечной напряженностью («О» - низкая степень корреляции, «1» - высокая) Число взаимодействующих нейронных структур равно числу двоичных разрядов в коде
Таблица 94
Название темы Среднестатистический двоичный квазикод Среднестатистический двоичный код
биология 001001110000010101 39957
нейробиология 001001110111011100 40410
совр биология 001010000010111010 41146
мат физика 001010101011011110 43742
искусство 001010111011001100 44748
Данные таблицы №94 обнаруживают, что с нарастанием степени эмоциональной, волевой и интеллектуальной напряженности диктора во время обсуждения той или иной научной темы единицы постепенно сдвигаются по разрядам двоичного квазикода влево. В первом, втором и третьем разрядах квазикода отражена корреляция между величинами первой, второй и третьей формант (Fl{Гц}, F2{ru}, РЗ{Гц}) В четвертом, пятом и шестом разрядах отражена корреляция между величинами первой форманты (Fl {Гц}) и шириной первой, второй и третьей формант (AFI{Гц}, ДР2{Гц}, АРЗ{Гц}) В седьмом, восьмом и девятом разрядах отражена корреляция между второй формантой (Р2{Гц}) и шириной первой, второй и третьей формант (AFI {Гц}, AF2{Ph}, АРЗ{Гц}) В десятом, одиннадцатом и двенадцатом разрядах отражена корреляция между величинами третьей форманты (РЗ{Гц}) и шириной первой, второй и третьей формант (AFI{Гц}, AF2{ru}, АРЗ{Гц}) В тринадцатом, четырнадцатом и пятнадцатом разрядах отражена корреляция между величинами ширины первой, второй и третьей формант (AFI{Гц}, AF2{ru}, AF3{Fn}) В шестнадцатом, семнадцатом и восемнадцатом разрядах двоичного кода отражена корреляция между величинами добротности первой, второй и третьей формант (Q1=F1/AF1, Q2=F2/AF2, Q3=F3/AF3)
Нарастание среднестатистической величины квазикода при увеличении психического напряжения диктора во время производства речи по той или иной научной тематике в нашем эксперименте можно интерпретировать следующим образом любое эмоциональное явление, под контролем которого происходит порождение речи, вызывает волны корреляционных взаимодействий совместно работающих нейронных систем Распространение этих волн идет от систем управления мышечным напряжением речевого тракта (управление его добротностью) в направлении к совместно работающим нейронным системам, которые управляют его поперечным сечением В двоичной форме записи квазикода это отражается в волнах сдвига «единиц» влево по его разрядам
В заключение можно добавить, что учет характера распределения единиц и нулей в среднестатистическом квазикоде позволяет количественно и качественно оценивать «сигнальный тонус» центральной
системы производства речи, который мы связываем, согласно концепции Вундта (т 3, гл 16), со специфической разновидностью эмоциональных синтезов, проявляющихся на уровне чувственного восприятия субъекта «Согласно Вундту, эмоциональный тон ощущений (или более сложных «единиц» отражения), воспринимаемых одновременно или непосредственно друг за другом сливаются по определенным законам в общее равнодействующее переживание, соответственно организуя в восприятии сами ощущения » [Вилюнас 1976, с 59]
Глава IV Прикладное значение нетрадиционных методов анализа речевого сигнала
4 2 Квазисегментныи уровень анализа.
4 2.2 Диагностика степени эмоционального напряжения диктора.
В эксперименте с эмоциональной русской и японской речью (мужской голос) оценивалась величина квазикода речи с интонацией повеления, приказа, требования, просьбы и мольбы
Суммарные средние значения квазикодов и их стандартных отклонений для речи дикторов разного пола и говорящих на языках, принадлежащих к сильно различающимся семействам, отсортированы по шкале нарастания их величин В первом приближении по поводу эксперимента можно сказать, что увеличение среднестатистической величины квазикода связано с увеличением эмоциональной напряженности дикторов во время порождения речи с ее коммуникативными заданиями по шкале повеление, требование, мольба, просьба, приказ
4 2 3. Диагностика степени интеллектуальной активности диктора.
В эксперименте с научной речью каждый специалист обсуждал свою научную тему в монологической форме без ориентации на рукописный текст в условиях, исключающих влияние на процесс производства речи неконтролируемых факторов Однофакторный дисперсионный анализ обнаруживает в распределениях средних величин квозико-дов, характерных для речевых сигналов дикторов наличие факторного эффекта, который в первом приближении можно связать с их интеллектуальной напряженностью при озвучивании ими текстов по той или иной научной теме
Например, увеличение интеллектуальной напряженности отражалось на росте среднестатистической величины квазикода реч сиг Увеличение интеллектуальной напряженности автора находилось в соответствии с усложнением коммуникативного намерения авторов озвученных текстов
Например, речь по биологической теме, в основном, имела обзорный характер, речь по нейробиологии была ориентирована на коммен-
тирование снимков нейрона, речь по современной биологии была связана с изложением новых научных взглядов на происхождение жизни на земле, речь по математической физике была связана с поиском новых математических форм описания социальных процессов Максимальная величина квазикода наблюдалась в речи М Казакова, которая была связана с анализом средств выражения художественных образов в речи чтеца
Заключение
Проблемы моделирования языковой коммуникации и опосредованных способов изучения мышления связаны с поиском новых «каналов языковой связи» [Киров 2001, с 150-157] В связи с этим изучение уровней структурированности речевого сигнала (помимо сегментного и суперсегментного) можно соотнести с анализом коннотативных смыслов речи на основе интерпретации семантики ее экстралингвистических факторов, а следовательно - с ее интонацией
Актуальность разработок новых методов анализа речи для современной экспериментальной лингвистики обусловлена интересом к изучению человеческого фактора в языке Практическая потребность как теоретического, так и прикладного языкознания в статистически надежных средствах диагностики экстралингвистических факторов речи особенно ощутима при изучении механизмов экспрессивности, основным «нервом» которой являются «те когнитивные состояния психики человека, которые побуждают его «окрашивать» речь, испытывая определенные эмоциональные состояния» [Телия 1991, с 3]
В связи с этим при изучении экстралингвистических факторов звучащей речи большое значение приобретает поиск новых методов количественной оценки степени напряженности эмоциональных процессов, на фоне которых происходит порождение речи Такая установка обусловлена тем, что сущность всех эмоциональных явлений заключается в единстве «двух моментов с одной стороны, некоторого отражаемого содержания, с другой - собственно эмоционального переживания, т е той специфической окраски, с которой данное содержание отражается субъектом» [Вилюнас 1976, с 43]
В исследовании была поставлена задача, связанная с разработкой аппаратурных методов диагностики экстралингвистических факторов речи Поскольку диагностика знака (-/-) и вида эмоциональной окраски речи, традиционно проводимая на основе просодического анализа, не приводит к однозначным результатам, возникают следующие проблемы
1) наряду с просодическим анализом звучащей речи необходимо проводить анализ различных уровней сегментации речевого сигнала (квазиритмического, квазисегментного и квазикодового), которые опосредованно отражают влияние экстралингвистических факторов на процесс реализации моторной программы высказывания,
2) необходим поиск инвариантных параметров речевого сигнала, которые являются статистически надежными переносчиками экстралингвистической информации в любой языковой системе
Проведенный выше анализ экспериментальных данных позволяет наметить ряд целей и задач, методологически важных для разработки аппаратурных средств исследования экстралингвистических факторов речи Поиск новых алгоритмов фонетической интерпретации речевого потока привел в процессе исследования к гипотезе психофизиологического принципа кодирования экстралингвистической информации, передаваемой в речевом сигнале посредством его структуризации на разных уровнях Эти уровни косвенно отражают реакцию механизмов сигнального управления параметрами конфигурации речевого тракта на изменения в характере протекания эмоционального процесса говорящего, обусловленного как внутренней, так и внешней экстралингвистической ситуацией порождения речи
Содержание диссертационного исследования отражено
в описанных ниже публикациях автора.
Монография
1 Квазиритмическая структура речевого сигнала (экспериментально-статистическое исследование) - М Ин-т языкознания РАН, 2007 - 6 п л
Статьи в центральных журналах, входящих в перечень ВАК РФ
2 Зависимость формантной структуры гласных от частоты ОТ // Вестник МГУ Сер 13 1988 №3 -0,4п л (в соавт с Поспеловым Б В )
3 К вопросу линейной аппроксимации зависимости формантной структуры гласных от частоты основного тона // Вестник МГУ Сер 13 1988 №4 -0,4п л (в соавт с Поспеловым БВ)
4 Экспериментальное исследование влияния частоты основного тона на ширину и амплитуду формант гласных звуков // Вестник МГУ Сер 13 1989 №4 -0,55п л (в соавт с Поспеловым Б В )
5 Квазисегментная структура речевого сигнала как основа метода анализа экстралингвистических факторов речи // Вопросы филологии 2006 №3 - 0,7 п л
Статьи в научных изданиях
6 Проблемы экспериментального исследования эмоциональной речи // Сб научных трудов «Экспериментальные исследования звучащей речи» М Ин-т языкознания РАН, 1998 -1,5 п л
7 Эмоциональная интонация проблема контекстуальной обусловленности признаков // Материалы конференции «Теория и практика речевых исследований (АРСО-99) М , 1999 - 0,07 и л
8 К вопросу о зависимости артикуляторных и акустических параметров главноударного гласного от вида эмоциональной окраски фразы // Сб научных трудов «Экспериментальные исследования речи» М Ин-т языкознания РАН, 1999 -0,47 п л
9 Синтез и анализ мелодики китайских слогов с учетом параметров речевого джиггера // Материалы 10-ой Междунар конф по китайскому языкознанию М Ин-т языкознания РАН, 2000 - 0,4 п л (в соавт с Поспеловым Б В )
10 К вопросу о характере распределения речевых пауз в озвученном тексте // Сб научных трудов «Экспериментальные исследования устной речи и овладения языком» М Ин-т языкознания РАН, 2000 - 0,67 п л
11 К вопросу о методе анализа речевых пауз // Сб статей Междунар научн конф «Теория языкознания и русистика наследие БН Головина» Н-Новгород, 2001 -0,135 п л
12 К вопросу об оценке «фокуса артикуляций» диктора при озвучивании текстов с различной коммуникативной установкой // Сб научных трудов «Проблемы психолингвистики теория и эксперимент» М Ин-т языкознания РАН, 2001 - 1 п л
13 К вопросу о методе анализа квазиритмических структур в озвученном тексте с различным коммуникативным заданием // Материалы 2-ой Всерос конф «Теория и практика речевых исследований» МГУ М,2001 - 0,3 п л
14 Исследование межакцентных интервалов устного текста // Материалы 6-ой Международной конференции по языкам Дальнего Востока, Юго-Восточной Азии и Западной Африки С -Пб , 2001 - 0,35 п л (в соавт с Поспеловым Б В )
15 Сравнительный анализ темпа речи и характера выделения слогов в русском и китайском звучащем тексте (на материале текстов с различным коммуникативным заданием) // Материалы 11-ой Междунар конф по китайскому языкознанию М Ин-т языкознания РАН, 2002 - 0,3 п л (в соавт с Романенко Д В )
16 Диагностика типа коммуникативной установки озвученного текста по параметрам его квазиритмических структур // Языкознание в теории и эксперименте Сб научных трудов по материалам конфер «Актуальные проблемы общего и восточного языкознания» М , 2002 - 0,7 п л
17 К вопросу о методе исследования специфики, универсалий и типологического в просодике различных языков // Материалы всесоюзной научно-практической конф "Универсально-типологическое и национально-специфическое в языке и культуре" Часть I М Изд-во РУДН, 2002 - 0,75 п л
18 О методе контроля характера артикуляции гласных звукотипов в процессе обучения учащихся разговорной речи на иностранном языке // Языковое сознание (устоявшееся и спорное) XIV Междунар симпозиум по психолингвистике и теории коммуникаций М , 2003 - 0,1 п л
19 Квазиритмические структуры звучащей речи как основа метода анализа ее просодического оформления // Сб трудов XIII сессии Росс акуст общества Т 3 М, 2003 - 0,6 п л
20 Метод экспресс-анализа нарушений артикуляции гласных звукотипов и просодического оформления речи в процессе обучения русскому языку как иностранному // Сб научных трудов "Экспериментальные исследования языка и речи" М Ин-т языкознания РАН, 2003 - 0,7 п л (в соавт с Бархударовой ЕЛ)
21 Квазиритмические структуры звучащей речи как основа метода анализа универсальных, типологических и специфических особенностей ее просодического оформления // Сб научных трудов "Экспериментальные исследования языка и речи" М Ин-т языкознания РАН, 2003 - 0,7 п л
22 К вопросу о методе оценки статических и динамических характеристик артикуляции гласных при производстве речи с различной коммуникативной установкой // Материалы 3-й Всерос конфер «Теория и практика речевых исследований» (АРСО-2003) М МГУ им М В Ломоносова, 2003 - 0,3 п л
23 Недостатки традиционного метода акустического анализа речи в сравнении с нетрадиционным // Сб научных трудов «Проблемы экспериментальной лингвистики и онтогенеза речи» М Ин-т языкознания РАН, 2004 - 0,4 п л
24 К проблеме разработки методов исследования центральных механизмов порождения речи // Международная конференция «Теория и практика речевой коммуникации» М МГУ, 2004 -0,24 п л
25 К проблеме поиска кода центрального управления речью (на материале русского, китайского, японского языков) // Китайское языкознание Изолирующие языки Материалы XII Междунар конфер М • Ин-т языкознания РАН, 2004 - 0,3 п л
26 Квазиритмические структуры речевых сигналов как основа метода исследования экстралингвистических характеристик звучащей речи // Сборник трудов XVI сессии Росс акуст общества Т 3 М , 2005 - 0 34 п л
27 К вопросу о специфике просодического оформления речи в корейском языке // Сб научных трудов «Лингвистика речи в теории и эксперименте» М Ин-т языкознания РАН, 2005 -0,9 п л (в соавторстве с Чой Сун Ми)
28 Анализ темпоральных параметров квазиритмических структур речи как основа метода исследования дискурса // Актуальные проблемы фонетики Материалы «Круглого стола», посвященного 45-летию РУДН М , 2005 - 0,7 п л
29 Изучение специфики производства звуковых сегментов речи в корейском и русском языках // Сб Тез докл науч конф «Ломоносовские чтения» (востоковедение) ИСАА при МГУ - М, 2006 -0,35 п л
Статьи и тезисы докладов на научных конференциях
30 Микровариации речевого сигнала проблемы оценки и применения//Сб Тезисы докладов АРСО-12 Ч I Киев, 1982 -0,2 п л (в соавт с Поспеловым Б В )
31 Исследование коартикуляционно-позиционных эффектов в динамических спектрах речевого сигнала // Сб Тез докл АРСО-13 Ч II Новосибирск, 1984 - 0,14 п л (в соавт с Поспеловым Б В)
32 Компилятор речи из элементов фонем // Сб Труды АРСО-13 Ч II Новосибирск, 1984 - 0,14 п л (в соавт с Поспеловым БВ)
33 Универсальный анализатор текущих спектров речевого сигнала // Сб Труды АРСО-14 Ч II Каунас, 1986 - 0,2 п л (в соавт с Поспеловым Б В )
34 Стратегия формантного синтеза с элементами естественности в синтезированной речи // Вестник АН Каз ССР Алма-Ата, 1986 №5 - 0,3 п л (в соавт с Поспеловым Б В )
35 Анализ и синтез как методы и средства исследования звукового состава и интонаций системы языка // Сб Матер всесоюзн конф «Исследования звуковых систем языков аборигенов Сибири и сопредельных регионов» Новосибирск, 1988 — 0,34 п л (в соавт с Поспеловым Б В )
36 К исследованию микромелодики гласных // В сб Проблемы доказательства и типологизации в фонетике и фонологии - Материалы Всесоюзного совещания М, 1989 -0,2 п л (в соавт с Поспеловым Б В )
37 Экспериментальное исследование связи акустического голосового источника и речевого тракта // Сб Тез докл АРСО-15 Таллинн, 1989 - 0,12 п л (в соавт с Румянцевым МК, Поспеловым Б В )
38 К вопросу аналитической аппроксимации характера влияния изменений основного тона на частоту формант // Сб Тез докл АРСО-15 Таллинн, 1989 — 0,14 п л (в соавт с Поспеловым Б В)
39 Акустический анализ разнотональных гласных пекинского, шанхайского, мейсяньского диалектов китайского языка // Сб • Тез докл V межд симпоз ученых соц стран "Теоретические проблемы языков Азии и Африки". Ин-т востоковедения АН СССР М, 1990 -0,16 п л (в соавт с Алексахиным А Н)
40 Машинное моделирование (синтез) ЭхМоциональных и модальных интонаций // Сб Докл XI Всесоюзн акустической конф
Секц ФС М, 1991 -0,19п л (в соавт с Румянцевым М К, Поспеловым Б В )
41 К вопросу о двух направлениях перспективных исследований речи // Матер совещ «Правомочность перспективных экспериментов с использованием синтетической речи» Л, 1991 — 0,14 п л (в соавт с Поспеловым Б В )
42 Комбинирование слухового и зрительного каналов восприятия как средство повышения эффективности обучения детей иностранной речи // Сб Тез докл межвуз конф «Лингвистика и обучение детей иноязычной речи» Одесса, 1991 -0,14п л (в соавт с Поспеловым Б В )
43 К вопросу о синтезе мужских и женских голосов // Сб Тез докл АРСО-16, Суздаль, 1991 -0,14 п л (в соавт с Поспеловым Б В )
44 К проблеме назализации ударных гласных в синтезированной речи // Сб Тез докл АРСО - 17 Ижевск, 1992 - 0,16 п л (в соавт с Румянцевым М К , Поспеловым Б В )
45 К вопросу о голосовых коррелятах эмоционального состояния оператора (машинное моделирование) // Сб Тез докл АРСО -17 Ижевск, 1992 -0,13 п л
46 Проблемы компьютерного обучения иностранному языку // Сб Тез докл Международной конференции "Проблемы раннего обучения детей иноязычной речи", Одесса, 1993 - 0,14 п л (в соавт с Поспеловым Б В )
47 Акустические признаки назализации слоговых гласных в финалях китайского языка // Сб Труды ИСАА при МГУ, М, 1993 -0,14 п л (в соавт с Румянцевым М К )
48 Орфоэпическая норма единиц речи // Сб Тезисы докл меж-дунар конфер "Проблемы раннего обучения детей иноязычной речи", Одесса, 1993 - 0,14 п л (в соавт с Поспеловым БВ )
49 Фонологический и орфоэпический план единиц речи машинное моделирование) // Сб Тезисы докл 3-ей Междунар конфер «Языки Дальнего Востока, Юго-восточной Азии и Западной Африки» М, 1995 -0,07п л
50 Статистические методы аудирования (к проблеме машинного моделирования восприятия речи) // Сб Тезисы докл 3-ей Междунар конфер «Языки Дальнего Востока, Юго-восточной Азии и Запад- ной Африки» М, 1995 - 0,21 п л (в соавт с Поспеловым Б В , Каплуном МИ)
51 Ассоциативный метод аудирования и статистическая обработка его результатов (машинное моделирование эмоциональной речи) // Сб Тезисы докл 3-ей Междунар конфер «Языки Дальнего Востока, Юго-восточной Азии и Запад- ной Африки» М , 1995 - 0,09 п л (в соавт с Поспеловым Б В , Каплуном МИ)
52 Проблемы синтеза назализованных финалей в слогах китайского языка // Материалы 8-ой Междунар конф по китайско-
му языкознанию М , 1996 - 0,3 п л (в соавт с Поспеловым БВ)
53 Влияние акустического шума на характеристики репродуцируемой речи человека-оператора // Сб Тез докл 12-го Меж-дунар симпозиума Федерации Акустических Обществ Европы С-Пб, 1996 Секц9 - 0,14 п л (в соавт с Поспеловым БВ)
54 Особенности машинного моделирования тоно-ритмической структуры двусложных слов китайского языка // Сб Тез докл 4-ой Междунар конф по языкам Дальнего Востока, Юго-Восточной Азии и Западной Африки ИСАА при МГУ М, 1997 Ч 1 - 0,2 п л (в соавт с Поспеловым Б В )
55 Речеэмотивные средства повышения эффективности устной рекламы // Сб Тез докл Междунар научно-техн конф по вопросам эффективности речевого общения Минск, 1997 -0,14 п л (в соавт с Поспеловым Б В )
56 К вопросу персоналитивной информативности параметров вокалической мелодики // Сб Тез докл Междунар конф «Информатизация правоохранительных систем» 4 2 М, 1997 — 0,19 п л (в соавт с Поспеловым Б В )
57 О роли параметров импульса голосового источника в порождении и восприятии китайских слоговых тонов // Китайское языкознание 9-ая Междунар конф Материалы М Ин-т языкознания РАН, 1998 - 0,15 п л (в соавт с Румянцевым М К , Поспеловым Б В )
58 К вопросу об обучении иностранцев эмоциональным особенностям русской звучащей речи // Сб Тез докл конференции «Проблемы теории и практики преподавания русского языка» Ереван, 1999 -0,08 п л
59 Применение компьютерного контроля за характером артикуляции гласных звукотипов в процессе обучения иностранных учащихся русской речи (экспресс-анализ) // Фонетика в системе языка Тезисы докл III Международного симпозиума МАПРЯЛ РУДН М , 2002 - 0,08 п л (в соавт с Кобаяси Г, Симидзу М , Го Синь-И)
60 Акустический метод оценки явлений фонетической интерференции при обучении иностранцев русскому языку // Фонетика сегодня Актуальные проблемы и университетское образование Тез докл IV Междунар науч конф (Звенигород, 11-12 апреля 2003) М , 2003 - 0,07 п л
61 Квазикоды речи как средство оценки ее экстралингвистических характеристик // Сб Тез докл конференции «Функциональные стили звучащей речи», фил фак МГУ им М В Ломоносова М , 2005 — 0,13 п л
Научное издание
Долотин Константин Иванович
ДИАГНОСТИКА ЭКСТРАЛИНГВИСТИЧЕСКИХ ФАКТОРОВ ЗВУЧАЩЕЙ РЕЧИ
(экспериментально-статистическое исследование)
Автореферат диссертация на соискание ученой степени доктора филологических наук
Изд лиц № 03821 от 25 01 2001 г
Подписано в печать 20 06 2007 г Формат 60x90 1/16 Печать офсетная Печ лист 3,1 Тираж 100 экз Заказ №
Издательство «Гуманитарий» Академия гуманитарных исследований
Отпечатано в Издательском центре ИСАА при МГУ им М В Ломоносова г Москва, ул Моховая, д 11
Введение диссертации2007 год, автореферат по филологии, Долотин, Константин Иванович
В настоящее время в прикладной лингвистике уделяется большое внимание исследованию механизмов эмоциональной регуляции речи, исследованию языковых механизмов экспрессивности, а также диагностике экстралингвистических факторов производства речи в реальных условиях речевой коммуникации [Виноградов 1976, с. 36, Галяшина, 1999, с. 14; Потапова, Хитина, 2005, с.78].
Актуальность диссертационного исследования, которое выполнено с опорой на теоретические достижения отечественной и зарубежной лингвистики (JI.C. Выготский, A.A. Леонтьев, А.Р. Лурия, Б.А. Серебренников, А.Н. Леонтьев, Н.И. Жинкин, Р. Якобсон, Г. Фант, М. Хале, В.А. Виноградов, Ю.С. Степанов, A.M. Шахнарович, Е.С. Кубрякова, В.Н Телия, Л.В. Злато-устова, Е.Ф. Тарасов, Ю.А. Сорокин, В.Н. Сорокин, В.З. Демьянков, Е.Ф. Киров, Т.А. Графова, Н.В. Уфимцева, Н.К. Рябцева, В.В. Красных, A.B. Широкова, С.Е. Никитина, Е.И. Галяшина, К.Я. Сигал, К.Г. Красухин, Е. Ф. Киров, Ю.В. Ковалев, Р.К. Потапова, Л.П, Блохина, Т.М. Надеина, Н.М. Юрьева, Е.В. Ерофеева и др.), определяется необходимостью разработки новых методов параметрического анализа экстралингвистических факторов процесса порождения речи.
Главная причина проведения данного исследования заключается в том, что параметрический анализ сегментной и суперсегментной структур речевого сигнала при исследовании интонации текстов, озвученных говорящими в естественных условиях речевой коммуникации, не позволяет статистически достоверно обнаружить экстралингвистические факторы процесса порождения речи, определить их семантическое значение и смысловые коннотации содержания текстов, обусловленные эмоциями интенциями говорящих.
Потребность как теоретического, так и прикладного языкознания в разработке новых методов анализа речи в дискурсе в настоящее время обусловлена особым их интересом направленным на изучение человеческого фактора в языке и методов диагностики экстралингвистических факторов порождения речи.
Концептуальной основой данного исследования является аксиоматическое утверждение о многоуровневой структурированности речевого сигнала, которая обусловлена как лингвистическими, так и экстралингвистическими факторами процесса порождения речи.
Лингвистические факторы процесса порождения речи обусловливают сегментный и суперсегментный уровни структуризации речевых сигналов.
Экстралингвистические факторы процесса порождения речи помимо модификации просодической структуры речевого сигнала структурируют речевой сигнал на имплицитных уровнях, обусловленных реакцией механизма управления параметрами речевого тракта на тот эмоциональный процесс, который был запущен этими факторами.
В диссертации основное внимание уделено исследованию имплицитных уровней структуризации речевого сигнала.
Анализ изменений текущих значения коэффициента корреляции между текущими значениями экспериментально подобранных функций по переменным Fl, F2, F3, AFI, AF2, AF3, описывающих резонансные признаки фонем (компактность/диффузность, низкий/высокий и напряженный/ненапряженный [Якобсон, Фант, Хале 1955],] позволил выделить квазициклы речевого сигнала (КЦР), опосредованно отражающие реакцию совместно работающих нейронных систем, управляющих параметрами речевого тракта (площадью его поперечных сечений, координатами этих сечений, мышечным напряжением речевого тракта (РТ) и координатой его вдоль оси РТ), на внутренние и внешние факторы процесса порождения речи [Златоустова, Потапова, Потапов, Трунин-Донской 1997, с. 63-67; Якобсон, Фант, Хале 1955].
В диссертации решается проблема методов диагностики экстралингвистических факторов речи, особенностью которых является анализ параметров квазиритмической, квазисегментной и квазикодовой структур как разновидностей имплицитных уровней структуризации речевого сигнала, опосредованно отражающих динамику взаимодействия между совместно работающими нейронными системами, которые управляют работой голосового и энергетического источников, а также перестройками параметров конфигурации речевого тракта в процессе порождения речи на стадии реализации моторной программы высказывания.
Цели работы: а) экспериментально обосновать функциональную значимость квазиритмической, квазисегментной и квазикодовой структур речевого сигнала как средств передачи в нем информации об интенциях и эмоциональных переживаниях говорящего во время акта речевого коммуникации; б) дать в сравнении оценку статистической значимости параметров регрессионных моделей просодических, квазиритмических, квазисегментных и квазикодовых стереотипов звучащей речи, характерных для различных ее стилей и экстралингвистических факторов ее порождения; в) посредством многомерных методов статистического анализа показать в первом приближении способ интерпретации регрессионных моделей квазиритмических, квазисегментных и квазикодовых стереотипов речи с точки зрения операционального функционирования механизмов центрального сигнального управления параметрами конфигурации речевого тракта в зависимости от воздействия на это функционирование различных экстралингвистических факторов во время реализации моторной программы высказывания.
В связи с выбранными целями необходимо решить следующие задачи: а) на основе оценки значений коэффициента корреляции между величинами просодических и формантных параметров на временной шкале речевого сигнала разработать программный метод сегментирования его на квазициклы (КЦР); б) в рамках проводимого исследования методом проб экспериментально определить оптимальную стратегию статистического анализа просодических и квазисегментных параметров звучащей речи; в) найти параметры речевого сигнала, статистически значимые для диагностики интенциональных, эмоциональных и других экстралингвистических характеристик говорящего; г) дать сравнительную оценку статистической значимости параметров структуризации речевого сигнала на сегментном, суперсегментном, квазисегментном и квазикодовом уровнях для диагностики экстралингвистических факторов процесса порождения речи; д) статистически обосновать языковою универсальность структурированности речевого сигнала на квазисегментном уровне, опосредованно отражающем операциональное функционирование механизма реализации моторной программы высказывания в процессе порождения речи; е) на основе многомерных методов статистического анализа текущих значений временных параметров квазисегментной структуры речевого сигнала разработать способ интерпретации семантического смысла экстралингвистических факторов процесса порождения речи.
Основные методы диссертационного исследования: а) аудитивный анализ речи; б) инструментальный анализ речи с использованием CSL-50 - computer speech laboratory (программа позволяет провести анализ просодических и формантных параметров речи); в) методы статистической обработки экспериментальных данных -дисперсионный, корреляционный, регрессионный, факторный, многомерные и др. виды статистического анализа экспериментальных данных; г) алгоритмы выделения квазиритмической, квазисегментной и квазикодовой структур (разработаны автором диссертации); д) метод диагностики коммуникативных намерений диктора, его эмоционального и интеллектуального напряжения во время речевой коммуникации (разработан автором диссертации): е) метод интерпретации семантического смысла экстралингвистических факторов речи (разработан автором диссертации); ж) метод контроля орфоэпической нормы произношения при обучении иностранному языку (разработан автором диссертации и Бархударовой
Е.Л.);
Эксперименты проводились на материале публицистической (газетная реклама), научной (подготовленная спонтанная научная дискуссия) и художественной (чтение текста) речи.
Научная новизна исследования заключается в том, что впервые исследование эксталингвистических факторов речи проводится на основе корреляционного анализа временных рядов текущих значений формантных параметров речевого сигнала, в котором применяется модификация классической кросскорреляционной функции (интервальная корреляционная функция) [Кулаичев 1999]. На базе этого метода разработаны алгоритмы выделения глубинных структур речевого сигнала: квазритмической, квазисегментной и квазикодовой, находящихся в дополнительном отношении с его сегментной и суперсегментной структурами. Были получены данные о параметрах новых уровней структуризации речевого сигнала, статистически значимые для диагностики экстралингвистических факторов речи. Например, на основе анализа параметров квазиакцентуационной структуры речевого сигнала был разработан метод диагностики эмоциональной окраски текстов озвученных дикторами. На основе анализа временного параметра квазициклов речевого сигнала - временной длительности их второй фазы, последовательность которых на оси текущего времени образует его квазисегментную структуру, был разработан метод психологического шкалирования эмоциональнгго напряжения говорящих. В работе было введено новое понятие - «сигнальный тонус» как параметр квазикодовой структуры речевого сигнала, на основе которого был разработан метод количественной оценки интеллектуального напряжения говорящих в дискурсе.
В диссертации на основе факторного анализа типов коммуникативных заданий текстов (как объектов этого анализа), озвученных дикторами, в пространстве центроидов кластеров в массивах текущих значений временной длительности второй фазы квазициклов речевого сигнала - КЦР j» как переменных этого анализа) выдвинута гипотеза о психофизиологическом принципе кодирования коммуникативных намерений говорящих в центральных отделах слухового анализатора.
В диссертационном исследовании сделан вывод о том, что параметры квазиритмической, квазисегментной и квазикодовой структур речевого сигнала статистически значимы для диагностики экстралингвистических факторов речи.
Теоретическая значимость диссертации состоит в том, что выдвигаемая в ней концепция о квазисегментном уровне структурированности речевого сигнала, инвариантного по отношению к сегментному и суперсегментному уровням его структурированности, позволяет дополнить положения теории речеобразования о механизмах управления характеристиками речевых сигналов, развиваемые в работах [Henke 1966; Liberman 1970; Kent, Minifie, 1977; Bowman, 1971; Сорокин, 1985 и др.]:
1) квазисегментная структура речевого сигнала опосредованно отражает дискретный характер отклика механизма центрального управления параметрами речевого тракта на эмоциональный процесс, в рамках которого происходит порождение речи;
2) вегетативные процессы в системе центрального управления речью обусловливают ее эмоциональный компонент, а сознательные процессы управления речью - интенциональный компонент. Эти два важных компонента речевого механизма непосредственно отражены как в акустической форме речевого сигнала, так и на разных уровнях его структурированности;
3) механизм темпоральной организации квазисегментной структуры речи инвариантен по отношению к механизмам ее просодической организации, и является одним из механизмов экспрессивности наряду с ее языковыми механизмами.
Теоретическую значимость имеет также то, что в работе обнаружен иерархический принцип уровневой структуризации речевого сигнала на основе ее связи с функционированием системы языка и операциональным1 механизмов речеобразования.
Например, сегментный и суперсегментный уровень структуризации речевого сигнала обусловлены функционированием в процессе порождения речи всех уровней системы языка и механизмов речеобразования; квазиритмический опосредованно обусловлен функционированием системы языка (которое отражается на квазиакцентуационной структуре речевого сигнала: выделенностью квазислогов типа «-СГ-» по максимуму энергии, частоты основного тона и их временной длительности в его квазиритмических группах) и операциональным функционированием механизмов управ' По аналогии с [Вентцель 2004, с. 15] под операциональным функционированием понимается оптимальное решение, вырабатываемое системой центрального управления речевым трактом для достижения заданных акустических и интенциональных целей (примеч. автора). ления включением и выключением голосового и энергетического источников); Квазисегментный уровень структуризации речевого сигнала математически эксплицируется текущими значениями коэффициента корреляции квазидифференциальных резонансных признаков субсегментов речевого сигнала; квазикодовый уровень структуризации речевого сигнала математически эксплицируется матрицей текущими значениями коэффициентов корреляции между всеми парами формантных параметров речевого сигнала, т.е. только степенью взаимодействия нейронных систем механизмов сигнального управления параметрами конфигурации речевого тракта в процессе речеобразования.
В работе показано, что все вновь обнаруженные уровни структуризации речевого сигнала дополняют друг друга и статистически значимы для диагностики эмоциональных и интенциональных факторов речи, расширяющих объем коннотативных значений смысла интонационно оформленных текстов, порождаемых говорящими в устной форме.
Практическое применение результаты работы могут найти в разработках параметрических методов экспресс-анализа качества обучения орфоэпической норме языка; в разработках автоматических систем экспресс-анализа экстралингвистических факторов речевой коммуникации: эмоционального состояния говорящих, их коммуникативных намерений, степени их эмоционального и интеллектуального напряжения во время общения, видов эмоциональной окраски и типов коммуникативных заданий текстов, озвучиваемых говорящими; в криминалистике и др.
Основные положения, выносимые на защиту:
1. Речевой сигнал, помимо сегментного и суперсегментного уровней, структурирован на квазиритмическом, квазисегментном и квазикодовом уровнях, опосредованно отражающих операциональную реакцию механизма речеобразования при воздействии на него как внутренних, так и внешних экстралингвистических факторов.
2. Диагностика экстралингвистических факторов речи наряду с анализом ее просодической организации должна проводиться на основе учета временной организации ее квазиритмической, квазисегментной и квазикодовой структур (метод выделения КРГ, КСС и ККС).
3. Семантико-смысловая интерпретация коммуникативных намерений говорящего может быть дана на основе результатов факторного анализа объектов исследования (типов коммуникативного задания и видов эмоциональной окраски текстов, озвученных говорящим) в пространстве признаков этих объектов (центроиды кластеров в массивах текущих значений временных параметров квазисегментных структур, характерных для речевых сигналов говорящих);
4. Количественный анализ центроидов кластеров в массивах текущих значений временных параметров квазисегментных структур речевых сигналов с заданной коммуникативной установкой дикторов позволяет в первом приближении осуществить психологическое шкалирование их эмоциональной напряженности и дать в первом приближении психофизиологическую интерпретацию принципа кодирования того или иного коммуникативного намерения дикторов.
5. Квазикодовая структура речевого сигнала характеризует «сигнальный тонус» нейронной системы механизма речеобразования говорящего. Средняя величина квазикода в первом приближении может служить в качестве количественной оценки степени интеллектуального напряжения говорящих в условиях, характерных для подготовленной спонтанной речи, в том числе устного научного дискурса.
Речевой сигнал и его параметры
В соответствии с принятой традицией сигналом называют процесс изменения во времени физического состояния какого-либо объекта, служащий для отображения, регистрации и передачи сообщений. В практике человеческой деятельности сообщения неразрывно связаны с заключенной в них информацией.
Сигналы бывают одномерные и многомерные, детерминированные и случайные, импульсные, аналоговые, дискретные и цифровые [Баскаков, 1988, с.11-14]. В речевой акустике традиционно принято описывать характеристики речи посредством аналоговых одномерных сигналов (осциллограмм), полностью подобных порождающему их процессу озвучивания программы высказывания в речевом тракте.
Наиболее распространенным типом сокращенного описания речевого сигнала как функции давления акустической волны от времени р(Х) является спектральное описание, выраженное в зависимости мгновенных спектров в точках временного среза речевого сигнала от его текущего времени. Другой уровень описания речевых сигналов характеризуется еще большей его компактностью по сравнению с предыдущим. Это уровень параметрического описания речевых сигналов по характеристикам передаточной функции модели речевого тракта и источников его возбуждения. Следующим уровнем описания речевых сигналов является уровень фонемного описания его сегментов. Еще более компактным уровнем описания речевого сигнала является уровень описания его смысла [Чистович, 1976, с. 10-12].
Структура речевого сигнала
В теории речеобразования [Фант, 1968, с. 31, Сапожков, 1963, с. 2730] речевой сигнал представляется как реакция резонансной системы речевого тракта на возбуждение его одним или несколькими генераторами звуковых колебаний.
Таким образом, речевой сигнал рможет быть представлен как сложные функции, зависящие от параметров соответствующих генераторов звуковых колебаний и от параметров сложных систем резонаторов. Для случая дискретного спектра звуковое давление как функция времени после преобразования Лапласа имеет вид: \Р(Л\=\Е(Л\*\М(Л\, (1) где/- частота колебаний Е - генераторная функция, М - передаточная функция речевого тракта.
Второй ключевой характеристикой звуков речи является их временная функция: р(/)|=|£(0|*|М(0|, (2)
В первом приближении можно считать, что функция М(1) отражает изменение формантной структуры речевого сигнала на оси его текущего времени, а функция Еф отражает изменение спектра звуковых источников.
Всю совокупность параметров и характеристик речевого сигнала можно разделить на три группы: амплитудные, частотные и временные.
Временная функция уровня речи В(?) = \р(0\ , или, как ее обычно называют, временная огибающая для всего частотного диапазона и для отдельных участков его, например, для каждой из формантных областей, играет значительную роль в опознавании звуков [Сапожков, 1963, с.30]. Применение цифровых данных измерения текущих значений частоты основного тона Бо (в герцах), а также значений энергетической огибающей речевого сигнала - В(1;) на временной оси речевого сигнала рассмотрено в главе 1 при обсуждении метода выделения квазиритмических групп в речевом сигнале (КРГ).
Заключение научной работыдиссертация на тему "Диагностика экстралингвистических факторов звучащей речи"
Результаты работы могут найти применение в разработке параметрических методов экспресс-анализа качества обучения орфоэпической норме языка (см. разделы 4.1.1. и 4.2.1.); при разработках автоматических систем диагностики экстралингвистических факторов процесса порождения речи и эмоционального состояния говорящих, Их коммуникативных намерений, степени эмоционального и интеллектуального напряжения во время общения (см. разделы 4.2.2. и 4.2.З.); в криминалистике и др.
Заключение.
Проблема моделирования языковой коммуникации связана с поиском новых «каналов языковой связи» [Киров 2001, с. 150-157], в связи с этим параметрический анализ имплицитных уровней структурированности речевого сигнала (помимо сегментного и суперсегментного) как дополнительных к лингвистическому и паралингвистическому информационным каналам может быть полезным для обнаружения имплицитных коннотативных смыслов речи, обнаруживаемых посредством интерпретации семантики ее экстралингвистических факторов.
Актуальность разработок новых методов анализа речи для современной экспериментальной лингвистики обусловлена особым интересом разработчиков в области речевых технологий к изучению человеческого фактора в языке. Практическая потребность как теоретического, так и прикладного языкознания в статистически надежных средствах диагностики экстралингвистических факторов речи особенно ощутима при изучении механизмов экспрессивности, основным «нервом» которой являются «те когнитивные состояния психики человека, которые побуждают его «окрашивать» речь, испытывая определенные эмоциональные состояния» [Телия 1991, с. 3].
В связи с этим при изучении экстралингвистических факторов звучащей речи большое значение приобретает поиск новых методов количественной оценки степени эмоционального напряжения говорящих во время речевой коммуникации. Такая установка на разработку этих методов при исследованиях речи обусловлена тем, что сущность всех эмоциональных явлений заключается в единстве «двух моментов: с одной стороны, некоторого отражаемого содержания, с другой - собственно эмоционального переживания, т.е. той специфической окраски, с которой данное содержание отражается субъектом» [Вилюнас 1976, с. 43].
Поскольку диагностика знака (+/-) и вида эмоциональной окраски речи, традиционно проводимая на основе анализа просодических параметров речевого сигнала, не приводит к однозначным результатам, в диссертационном исследовании была поставлена задача по разработке методов диагностики экстралингвистических факторов речи, решение которой в свою очередь было связано с решением следующих проблем:
1) наряду с просодическим анализом звучащей речи необходимо проводить анализ различных уровней сегментации речевого сигнала (квазиритмического, квазисегментного и квазикодового), которые опосредованно отражают влияние экстралингвистических факторов на процесс реализации моторной программы высказывания;
2) необходим поиск инвариантных параметров речевого сигнала, которые являются статистически значимыми переносчиками экстралингвистической информации в любой языковой системе.
В диссертационном исследовании основное внимание было уделено анализу временных параметров глубинных структур речевого сигнала, опосредованно обнаруживаемых по изменению текущих значений величины коэффициента корреляции между его формантными параметрами на оси текущего времени речевого сигнала. Эти структуры речевого сигнала акустически не выражены в нем, а обнаруживается только на основе алгоритмической обработки данных первичного анализа его просодических и фор-мантных параметров.
В результате разработанных в диссертации методов алгоритмической обработки данных первичного анализа акустических параметров речевого сигнала в нем были выделены следующие структуры:
1. Квазиритмическая (на основе учета моментов текущего времени включения/выключения голосового - Бо Гц и энергетического источников -А дБ).
2. Квазисегментная (на основе учета динамики текущей величины корреляции между экспериментально подобранными отношениями фор-мантных параметров Б, и А Б; - Р1/(Р2 + Бз) и ДР1/(АР2+АРз), которая опосредованно отражает динамику взаимодействия корковых отделов слухового анализатора, интегрально характеризующих на его верхних уровнях квазидифференциальные резонансные признаки субсегментов речевого сигнала : гравис/акут + диффузный/компактный и напряженный/ненапряженный гравис/акут + напряженный/ненапряженный диффузный/компактный) как в процессе порождения речи, так и в процессе ее восприятия.
3. Квазикодовая (была обнаружена на основе учета перераспределений единиц «1» и нулей «О» в строках корреляционной матрицы речевого сигнала, опосредованно отражающей динамику взаимодействий между совместно работающими системами управления параметрами конфигурации речевого тракта и среднюю величину их «сигнального тонуса» в процессе реализации моторной программы высказывания) [Златоустова, Потапова, Потапов, Трунин-Донской 1997, с. 63-67; Якобсон, Фант, Хале 1955].
Как показали результаты проведенных в исследовании экспериментов, параметры сигнального9 уровня структуризации речевого сигнала как физические корреляты психических процессов, на фоне которых протекает производство речи могут быть базовой основой для параметрического анализа экстралингвистических факторов речи в разных языковых системах.
Проведенный в исследовании сравнительный статистический анализ параметров сигнального уровня структуризации речевого сигнала с параметрами сегментного и суперсегментного уровней подтверждает статистическую значимость параметров квазиритмической, квазисегментной и ква
8 Субсегмент речевого сигнала обусловлен длительностями рефрактерных периодов мозга в области (250-300 мс), в течение которых на верхних уровнях слухового и речедвигательного анализаторов речи проводится текущий кросс-корреряционный анализ ее формантных параметров (примеч. автора).
9 Сигнальный уровень структуризации речевого сигнала обусловлен только реакцией механизмов речеоб-разования от воздействия на него определенного эмоционального процесса, обусловленного суммой экстралингвистических факторов речи и не связан с реализацией ее моторной программы (прим. автора) зикодовой структур речевого сигнала для диагностики экстралингвистических факторов процесса порождения речи.
Сделанные в диссертации выводы:
1) квазиритмическая, квазисегментная и квазикодовая структуры речевого сигнала опосредованно отражают дискретный характер отклика центральных механизмов включения/выключения голосового и энергетического источников, а также механизма управления параметрами конфигурации речевого тракта на эмоциональный процесс, в рамках которого происходит порождение речи;
2) эмоциональный и сознательный компоненты речи отражены как в акустической форме речевого сигнала, так и имплицитно на разных уровнях его структуризации;
3) квазиакцентуационная организация квазиритмических групп -КРГ в речевом сигнале, временная организация в нем квазициклов речи (КЦР) и квазикодов (КК), которые инвариантны по отношению к просодической организации речи и являются дополнительными компонентами языковых механизмов экспрессивности - позволяют дополнить понятия атри-куляционных и акустических целей теории речеобразования, развиваемых в исследованиях по речевой акустике [Сорокин 1985, с. 244-277 и др.], понятием о целевой функции системы кодирования/декодирования коммуникативных намерений диктора, обнаруживаемой, например, посредством факторного анализа параметра квазисегментной структуры речевого сигнала см. разделы 3.2.1.4; 3.2.2.4; 3.2.3 п. А.).
Иерархия структур речевого сигнала была построена на основе нарастания степени их имплицитности в речевом сигнале на акустическом уровне их восприятия:
1. Сегментный и суперсегментный уровень структуризации речевого сигнала эксплицирован в нем сегментным и суперсегментным составом речи, характеризуемый ее просодическими параметрами.
2. Квазиритмический уровень структуризации речевого сигнала (КРС) эксплицирован в нем последовательностью субсегментов речевого сигнала первого порядка - квазиритмических групп (КРГ), характеризуемых их временной длительностью, длительностью физических пауз между ними и параметрами квазиакцентуации (выделенности в КРГ квазислогов типа «-СГ-» по максимуму амплитуды, частоты основного тона и их временной длительности.
3. Квазисегментный уровень структуризации речевого сигнала (КСС) эксплицирован в нем последовательностью субсегментов речевого сигнала второго порядка - квазициклов речи (КЦР), характеризуемых временной длительностью их первой и второй фазы.
4. Квазикодовый уровень структуризации речевого сигнала (ККС) эксплицирован в нем последовательностью субсегментов речевого сигнала третьего порядка - квазикодов (КК), вырожденных по всем акустическим параметрам речевого сигнала.
В диссертации на основе факторного анализа типов коммуникативных заданий текстов, озвученных дикторами (как объектов этого анализа), в пространстве центроидов кластеров в массивах текущих значений временной длительности второй фазы квазициклов речевого сигнала - (как переменных этого анализа) подтверждена гипотеза о психофизиологическом принципе кодирования коммуникативных намерений говорящих (см. раздел 3.2.2.6).
Было установлено, что принцип кодирования/декодирования стереотипов коммуникативных намерений дикторов основан на трансформации многомерной проекции центроидов Х.2 с максимальной факторной нагрузкой в две одномерные проекции: «а», где значения V меньше значения величины временной длительности рефрактерного периода верхних отделов слухового пути и корковых отделов слухового анализатора, и «б», где значения Хг больше значения величины временной длительности рефрактерного периода слухового анализатора.
Факторный анализ центроидов Х2\ характерных для речи русских и корейских дикторов (мужской и женский тип голоса) обнаружил, что для центроидов с минимальными значениями в проекциях «а» и «б» характерна определенная дихотомия семантики типов коммуникативных заданий текстов, озвученных дикторами. Эта дихотомия не противоречит дихотомии семантики объектов, расположенных в области главных факторных осей эллипса их рассеяния (см. таблицы 45, 66 и 91), если в проекциях «а» и «б» существует эффект перехвата возбуждения от центроида с минимальным значением величины на следующий центроид с большим значением (см. таблицу 74).
Таким образом, на основании вышесказанного можно сделать вывод о том, что кодирование/декодирование стереотипов коммуникативных намерений дикторов связано с каскадным преобразованием массива текущих значений времени второй фазы квазициклов речи {12} сначала в многомерную пространственную проекцию (в массив цетроидов кластеров - {12'} в пространстве основных факторов), а затем преобразование этого массива в одномерные проекции {12'}а и Ог'}6 с максимальными факторными нагрузками на осях главных факторов.
Такая последовательность в преобразовании массива текущих значений Х2, характерных для речевого сигнала в одномерную пространственную проекцию в слуховом анализаторе согласуется с принципом «перекодирования» при анализе информации человеком «в процессе которого группе входных символов присваивается символ более высокого уровня, эти символы вновь группируются и т.д. до снижения объема информации до приемлемого уровня» [Сорокин 1985, с. 285].
В работе было введено новое понятие - «сигнальный тонус», как параметр квазикодовой структуры речевого сигнала, на основе которого был разработан метод количественной оценки интеллектуального напряжения говорящих (см. раздел 1.2.3. и 3.3.1).
Было показано, что все вновь обнаруженные уровни структуризации речевого сигнала дополняют друг друга и статистически значимы для диагностики экстралингвистических факторов речи, которые позволяет раскрыть коммуникативные намерения говорящих и степень их эмоционального напряжения в процессе речевой коммуникации.
Это позволило сделать вывод о том, что смысловая информация кроме лингвистического и паралингвистического каналов в речевом сигнале может передаваться параллельно еще по нескольким скрытым экстралингвистическим каналам - квазиритмичекому, квазисегментному и квазикодовому.
В диссертации на основе результатов анализа временных параметров квазисегментной структуры речевого сигнала (например, 12') разработан метод психологического шкалирования эмоционального напряжения говорящих.
Список научной литературыДолотин, Константин Иванович, диссертация по теме "Прикладная и математическая лингвистика"
1. Артемов В.А. Психология речевой интонации. Лекции к спецкурсу, ч.И. М., 1976.
2. Альтман Я.А., Бибиков Н.Г., Вартанян Н.А. и др. Слуховая система. СПб.: Наука, 1990. - 620 с.
3. Бажин Е.Ф.и др. Объективная диагностика эмоционального состояния по речи больного в психиатрической клинике// Речь и эмоции. Л., 1975.
4. Бассин Ф.Б. Проблема неосознаваемой психической деятельности // Вопросы философии. 1973, N6.
5. Батов В.И., Сорокин Ю.А. Авторство текста: Некоторые теоретические и прикладные аспекты // Общение. Текст. Высказывание. М.: Наука, 1989. С. 112-118.
6. Блохина Л.П.и др. О нахождении интонационных дифференциальных признаков алгоритмическим методом // Филологические науки. М., 1975, №6.
7. Богородицкий В.А. Фонетика русского языка в свете экспериментальных данных. Казань, 1930.-357 с.
8. Бойко Е.И. Время реакции человека. Академия медицинских наук СССР; Отв. ред. В.Д. Быков. М.: Издательство «Медицина», 1964. - 439 с.
9. Бондарко Л.В. Звуковой строй современного русского языка. М., 1977. - 175 с.
10. Бондаренко В.П., Коцубинский В.П. Модели образования звучной речи. Сб. трудов XVI СЕССИИ Российского акустического общества, - М., 2005.
11. Бондаренко В.П., Мещеряков Р.В., Коцубинский В.П., Выделение особенностей структуры речевого сигнала. Сборник трудов XIII сессии Российского акустического общества. Т.З. - М., ГЕОС, 2003.
12. Брызгунова Е.А. Практическая фонетика и интонация русского языка. М., 1963. - 306 с.
13. Брызгунова Е.А. Интонация как средство выражения субъективно-модальных значений.// Русская грамматика. 42. М.: АН СССР, 1980.
14. Брызгунова Е.А. Звуки и интонации русской речи. М., 1977. - 280 с
15. Брызгунова Е.А. Эмоционально-стилистические различия русской звучащей речи. М., МГУ, 1984.-270 с.
16. Вайнберг Дж., Шумекер Дж. Статистика. Москва: Статистика, 1979. - 386 с.
17. Васильев И.А., Поплужный В.Л., Тихомиров O.K. Эмоции и мышление. М.: МГУ, 1980. -142 с.
18. Вентцелъ Е. С. Исследование операций: задачи, принципы и методология. М., 2004. - 208 с.
19. Вилюнас В.К. Психология эмоциональных явлений. М.: МГУ, 1976. - 142 с.
20. Виноградов В.А. Дейксис // Лингвистический энциклопедический словарь. М.: Советская энциклопедия, 1990. - с. 128.
21. Виноградов В.А. Лингвистические аспекты обучения языку. М.: МГУ, 1976. - 63 с.
22. Витт Н.В. Выражение эмоциональных состояний в речевой интонации: Автореф. канд. дисс. -М., 1965.
23. Витт Н.В. Эмоциональная регуляция речи. Автореф. докт. дисс. М., 1988.
24. Выготский Л. С. Мышление и речь // Выготский Л.С. Собр. Соч. М., 1982. - Т. 2
25. Галунов В.И., Манеров В.Х. Характеристики речевого сигнала как индикатор эмоционального состояния диктора // В сб.: Тезисы IV Всесоюз.конф.: Проблемы инженерной психологии и эргономики. Ярославль, 1974. Вып. 3.
26. Галунов В. И. и др. Влияние индивидуальных и эмотивных изменений параметров арти-куляторного тракта на характеристики речевого сигнала // Речь, эмоции, личность. -Л., 1978.
27. Галунов В.И. Речь, эмоции, личность: проблемы и перспективы // Речь, эмоции, личность.-Л., 1978.
28. Галунов В.И. Психофизические шкалы // Распознавание слуховых образов. Новосибирск, 1970.
29. Галяшина Е.И. Применение теории и практики автоматического распознавания слуховых образов в криминалистической экспертизе фонограмм устной речи // Теория и практика речевых исследований (АРСО-99). -М., 1999.
30. Галяшина Е.И. Комплексное акустико-лингвистическое исследование звучащей речи как базисный принцип установления аутентичности фонограмм. XIII СЕССИИ Российского акустического общества. - М., 2003.
31. Гельфанд С.А. Слух: введение в психологическую и физиологическую акустику. М.: Медицина, 1984. - 352 с.
32. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2001. - 478 с.
33. Графова Т. А. Смысловая структура эмотивных предикатов // Человеческий фактор в языке: Языковые механизмы экспрессивности. -М., "Наука", 1991, с. 67-99.
34. Громыко Г.Л. Теория статистики: Практикум. М., 2006. - 204 с.
35. Цемъянков В. 3. Когнитивная лингвистика как разновидность интерпретирующего подхода// Вопросы языкознания. №4. М., 1994. - С. 17-33.
36. Цемъянков В. 3. Конвенции, правила и стратегии общения (интерпретирующий подход к аргументации) // Известия АН СССР: Серия литературы и языка. №4. - Т. 40. -М., 1982.-С. 317-337.
37. Цолотин К. И. Экспериментальное исследование интонационных стереотипов речи с эмоциональной окраской (на материале русского языка). Дисс. на соискание уч. степ. канд. филолог, наук. М., 1997. - 130 с.
38. Цолотин К. И. Проблемы экспериментального исследования эмоциональной речи // Экспериментальные исследования звучащей речи. М.: Инст. языкознания РАН, 1998.
39. Цолотин К.И., Бархударова Е.Л. Метод экспресс-анализа нарушений артикуляции гласных звукотипов и просодического оформления речи в процессе обучения русскому языку как иностранному // Экспериментальные исследования языка и речи. М.: РАН 2003.
40. Цолотин К. И. Квазиритмические структуры речевых сигналов как основа метода исследования экстралингвистических характеристик речи // Сборник трудов XVI сессии Российского акустического общества (14-18 ноября 2005 года). Т. 3. М.: ГЕОС, 2005.
41. Цолотин К. И. Квазисегментная структура речевого сигнала как основа метода анализа экстралингвистических факторов речи // Вопросы филологии. № 3 (24). - М., 2006. - С. 29-34.
42. Цолотин К. И. Квазиритмическая структура речевого сигнала: Экспериментально-статистическое исследование. М., 2007. - 87 с.
43. Цукелъский Н.И Принципы сегментации речевого потока. М.-Л., 1962. - 137 с.
44. Елисеева И.И., Юзбашев М.М. Общая теория статистики. М., 2003. - 479 с.
45. Ерофеева Е.В. Вероятностные структуры идиомов: Социолингвистический аспект. -Пермь, 2005.-319 с.
46. Ефимова М.Р., Ганченко О.И., Петрова Е.В. Практикум по общей теории статистики. -М., 2006. 336 с.
47. Жинкин Н.И. Язык речь - творчество / Отв. ред. С.И. Гиндина и С.И. Прокопович. -М.: Издательство «Лабиринт», 1998. - 368 с.
48. Жинкин Н.И. Механизмы речи. М., 1958. - 371 с.
49. Зипдер Л.Р. Общая фонетика. М., 1979. - 312 с.
50. Златоустова Л.В. Фонетические единицы русской речи. -М., 1981. 108 с.
51. Златоустова Л.В., Потапова Р.К, Потапов В.В. Трунин-Донской В.Н. Общая и прикладная фонетика. М., 1997. - 415 с.
52. Зубкова Л.Г. Язык как форма: Теория и история языкознания. M., 1999. - 234 с.
53. Каленчук М.Л. Орфоэпическая система современного русского литературного языка: Дис. . докт. филол. наук. М., 1993. - 417 с.
54. Карчажкина В.А. Акустическая структура и функции восходяще-нисходящего тона в современном английском языке: Автореф. канд. дисс. М., 1974.
55. Касаткина Р.Ф. Русская диалектная суперсегментная фонетика: Дис. . докт. филол. наук. -М., 1988.-378 с.
56. Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М., 1992. - 336 с.
57. Киров Е.Ф. Фонология язка. Ульяновск, 1997. - 541 с.
58. Киров Е.Ф. Язык в системе человеческой деятельности (фрагмент спекулятивнойлингвистики) // Теория языка и русистика: наследие Б.Н. Головина. Н-Новгород, 2001.
59. Князев C.B. Структура фонетического слова в русском языке: Синхрония и диахрония.1. М., 2006.-223 с.
60. Ковалев Ю.В., Широбоков А.Н. Использование микро-ЭВМ «Электроника МК-54» для обработки данных лингвистических исследований. М., 1988. - 71 с.
61. Ковалев Ю.В. Фонетические системы языков индии и русского языка. М., 1990. - 80 с.
62. Ковалъчук Pl.И. и др. Исследование возможностей тестирования эмоционального состояния говорящего по спектральным характеристикам речевых сигналов // Тезисы докладов. АРСО-16. Звенигород, 1991.
63. Кодзасов C.B. Интонация// Энциклопедия «Ругский язык».-М.: ИД «Дрофа», 1997.-е. 157-158.
64. Кодзасов C.B., Кривнова О.Ф. Общая фонетика. -М., 2001. 590 с.
65. Копосов Я. В. Формирование базы данных вербальных эквивалентов эмоционального состояния «Страх» // Сб. трудов XIII СЕССИИ Российского акустического общества. М., 2003.
66. Королева Т.М. Интонация модальности в звучащей речи. Киев-Одесса, 1989. - 213 с.
67. Кривнова О. Ф. Чардин И. С. Паузирование при автоматическом синтезе речи // Теория и практика речевых исследований (АРСО-99). М. 1999. - С. 104-129.
68. Красных В. В Основы психолингвистики и теории коммуникации. М., 2002. - 270 с.
69. Красухин К.Г. Очерки реконструкции индоевропейского синтаксиса. М., 2005. 238 с.
70. Кубрякова Е. С. Текст проблемы понимания и интерпретации // Семантика целоготекста. -М., 1987. С. 93-94.
71. Кубрякова Е. С. Человеческий фактор в языке: Язык и порождение речи. М., 1991. - 240 с.
72. Кузнецов П.С. О дифференциальных признаках фонем// Реформатский А. А.Из истории отечественной фонологии: Очерк; Хрестоматия. М., 1970.
73. Кулаичев А.П. Методы и средства анализа данных. М., 1999. - 339 с.
74. Куринский В.А. Автодидактика. М., 1994. - 330 с.
75. Лукьянов П. В. и др. Некоторые результаты исследования речевого сигнала как источника информации об эмоциональном состоянии человека // В сб.: Структурно-функциональный анализ деятельности мозга.- М., 1973.
76. Леонтьев А.Н. Потребности, мотивации, эмоции. М., 1971. - 41 с.
77. Леонтьев A.A. Язык. Речь. Речевая деятельность. М., 1969. - 214 с.
78. Леонтьев A.A. Основы психолингвистики. 3-е изд. М.: Смысл; СПб.: Лань, 2003. - 287 с.
79. Лобанов Б.М. Исследование и разработка методов автоматического синтеза речи по фонемному тексту. Автореф. доктора техн. наук. - Рига, 1984. - 48 с.
80. Лукьянова H.A. Экспрессивность в'системе языка, словаре и речи // Человеческий фактор в языке: Языковые механизмы экспрессивности. М.: "Наука", 1991.
81. Лукьянов П.В и др. Некоторые результаты исследования речевого сигнала как источника информации об эмоциональном состоянии человека // В сб.: Структурно-функциональный анализ деятельности мозга. М., 1973.
82. Лукьянов А.Н. Фролов М.В Сигналы состояния человека-оператора. Изд. "Наука". — М., 1969.
83. ЛурияА.Р. Об историческом развитии познавательных процессов. М., 1974. - 172 с.
84. Лурия А.Р. Нейрофизиология памяти. М., 1974. - 150 с.
85. Лурия А.Р. Основные проблемы психолингвистики. М., 1975. - 160 с.
86. Мардиа К. Земроч П. Таблицы F-распределений. М., "Наука", 1984 - 230 с.
87. Мартине А. Принцип экономии в фонетических изменениях. М., 1960. - 261 с.
88. Маслова В.А. Параметры экспрессивности текста // Человеческий фактор в языке. Языковые механизмы экспрессивности. М.: Наука, 1991.
89. Математический энциклопедический словарь. М.: Сов. энциклопедия, 1988. - 847 с.
90. Михайлов В.Г. Златоустова Л.В. Измерение параметров речи. М.: Радио и связь, 1987. - 166 с.
91. Михайлов В.Г. Акустические измерения в фоноскопической экспертизе // Сб. трудов XIII СЕССИИ Российского акустического общества. М., 2003. - С. 130-134.
92. Надеина Т.М. Фразовая просодия как фактор речевого воздействия. М., 2003. - 150 с.
93. Никитина Н.Ш. Математическая статистика для экономистов. Москва-Новосибирск, 2001.- 167 с.
94. Нушикян Э.А. Спектральные характеристики эмоционально окрашенной речи // В сб.: Тезисы докладов АРСО-11. Ереван, 1980.
95. Нушикян Э.А. О сопоставительном исследовании акустических характеристик эмоциональной речи (на материале англ.,русск. и укр. языков) // В сб.: Актуальные вопросы интонации. М., 1984.
96. Нушикян Э.А. Типология интонации эмоциональной речи. Киев-Одесса, 1986. - 160 с.
97. Обжелян Н.К. Трунин-Донской В.Н Машины, которые говорят и слушают. Кишинев, 1987.- 174 с. .
98. Панов М.В. Русская фонетика. М., 1967. - 438 с.
99. Панов М.В. Современный русский язык. Фонетика. М., 1979. - 254 с.
100. Панов М.В. О слогоделении в русском языке // Проблемы фонетики. Ч. II: Сборник статей / Отв. ред. ЛЛ.Касаткин. М., 1995. - С. 29 - 42.
101. Пиотровская A.A., Пиотровский Р.Г. Математические модели диахронии и текстообра-зования: Статистика речи и автоматический анализ текста. Л., 1974. - 404 с.
102. Потапова Р.К. Сегментно-структурная организация речи: Автореф. дисс. докт. филол. наук.-Л.: ЛГУ, 1981.47 е.
103. Потапова Р.К, Блохина Л.П. Средства фонетического членения речевого потока в немецком и русском языках. М., 1986.
104. Потапова Р.К, Хитина М.В. Выявление и изучение признаков, обуславливающих про-содико-семантическое варьирование компонентов дискурса // Сб. трудов XVI СЕССИИ Российского акустического общества. М., 2005, - С. 78-80.
105. Просодический строй русской речи / Институт русского языка РАН. М., 1996. - 256 с.
106. Реформатский A.A. Дихотомическая классификация дифференциальных признаков и фонематическая модель языка // Вопросы теории языка в современной зарубежной лингвистике.-М., 1961.-С. 106-122.
107. Реформатский A.A. Иерархия фонологических единиц // Конференция по структурной лингвистике, посвященная базисным проблемам фонологии (20 23 мая 1963 г.): Тезисы докладов. - М., 1963. - С. 18 - 19.
108. Румянцев М.К Данные синтеза речи как доказательство в фонетике и фонологии. // Сб. Проблемы доказательства и типологизации в фонетике и фонологии. — М.: АН СССР, 1989.
109. Румянцев М.К. К проблеме исследования просодического устройства двусложного и многосложного слова // Международная конференция «Теория и практика речевой коммуникации». М., 2004. - С. 175.
110. Румянцев М.К. Машинное моделирование единиц речи. М.: МГУ, 1990. - 230 с.
111. Русская грамматика. М., 1982. - T.I. - 784 с.
112. Рябцева Н.К. Язык и естественный интеллект. М., 2005. 170 с.
113. Рябцева Н.К Лингвистическое моделирование естественного интеллекта и представление знаний // Scripta Linguisticae applicatae. Проблемы прикладной лингвистики. 2001. -М., 2002.-С. 228-251.
114. Сапожков М.А. Речевой сигнал в кибернетике и связи. М., 1963. - 450 с.
115. Серебренников Б.А. Роль человеческого фактора в языке. М., 1988.
116. Сигал К.Я. Сочинительные конструкции в тексте. М., 2004. - 403 с.
117. Симонов П.В. Теория отражения и психофизиология эмоций. М., 1970.
118. Симонов П.В. Эмоциональный мозг. М., Наука, 1981.
119. Степанов Ю.С. В трехмерном пространстве языка: Семиотические проблемы лингвистики, философии, искусства. М.: Наука, 1985. - 335 с.
120. Сорокин Ю.А. Психолингвистические аспекты изучения текста. М., 1985.
121. Сорокин Ю.А., Уфимцева Н.В. Психолингвистика и семантика: Итоги исследования // Общение. Текст. Высказывание. М.: Наука, 1989. С. 103-112.
122. Батов В.И., Сорокин Ю.А. Авторство текста: некоторые теоретические и прикладные аспекты // Общение. Текст. Высказывание. М.: Наука, 1989. С. 112-118.
123. Тарасов Е. Ф. Проблемы анализа речевого общения // Общение. Текст. Высказывание. -М.: Наука, 1989. С. 7-40.
124. Тарасов Е.Ф. К построению теории речевой коммуникации // Сорокин Ю.А., Тарасов Е.Ф., Шахнарович A.M. Теоретические и прикладные проблемы речевой коммуникации. -М., 1979.-С. 171.
125. Тарасов Е.Ф., Уфимцева H.B. Методологические проблемы исследования речевого мышления // Исследования речевого мышления в психолингвистике. М.: Наука, 1985.
126. Таубкин В.Л. Распознавание эмоционального состояния человека-оператора с использованием параметров речевого сигнала: Автореф. канд. дисс. М., 1977.
127. Телия В.И. Механизмы экспрессивной окраски языковых единиц //Человеческий фактор в языке: Языковые механизмы экспрессивности.- М., "Наука", 1991.
128. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. - 284 с.
129. Фланаган Дж Анализ, синтез и восприятие речи. М.: Связь, 1968. - 392 с.
130. Фролов М.В. Таубкин В.Л. О влиянии эмоционального состояния диктора на некоторые параметры речевого сигнала // Речь и эмоции. JL, 1975.
131. Хитина MB. Факторы, влияющие на вариативность речи // Материалы Межд. конференции «Информатика правоохранительных систем». М.: Академия управления МВД РФ, 1993,-с. 97-98.
132. Шахнарович A.M., Графова Т.А. Экспериментальное исследование реализации эмотив-ности в речевой деятельности // Человеческий фактор в языке: Языковые механизмы экспрессивности .- М.: Наука, 1991.
133. Шахнарович A.M., Юрьева Н.М. Психолингвистический анализ семантики и грамматики (на материале онтогенеза речи). М., 1990. - 168 с.
134. Широкова A.B. Сравнительная типология разноструктурных языков. М., 2000. - 196 с.
135. Чижов А.П. Алгоритмический поиск акустических дифференциальных признаков интонации: Автореферат канд. дисс. Москва, 1977.
136. Чистович Л.А., Венцов A.B. и др. Физиология речи: Восприятие речи. СПб. 1976. - 386 с.
137. Человеческий фактор в языке. Языковые механизмы экспрессивности / Институт языкознания / Отв. ред. В.Н. Телия. М.: Наука, 1991. - 214 с.
138. Чехов А.П. Собр. соч. Т. 9. М., 1956.
139. Яковлева Э.Б. Специфика сегментации спонтанной речи и коммуникативная значимость хезитаций // Международная конференция «Теория и практика речевой коммуникации». М., 2004.
140. Якобсон Р., Фант Г.М., Хале М. Введение в анализ речи / Новое в лингвистике. Выпуск II. -М., 1962.-684 с.
141. Bowman J.R. The muscle spindle and neural control of the tongue. Implications for speech. -Springfield: Illinois, 1971.
142. Buchwald J.S., Huang C.M. Ear-field acoustic response: Originss in the cat. Science, 1975, 189,-p. 382-384.
143. Davis H. Some properties of the slow cortical response in humans. Science, 1964,146, - p. 434.
144. Devis H. Principles of electric response auditory. Ann. Otol. Rhinol. Laringol. 1976. Vol. 28. N 1. - P. 1-96.
145. Flanagan J.L. Sourse-System Interaction in the Vocal Tract. - Ann. N4, Acad. Sci., 1968, v.155, N1, — p.9-14.
146. Geisler C., Frishkopf L., Rosenblith W. Extraceanial responses in acoustic clicks in man. Science, 1958, 128,-p. 1210-1211.
147. Gelfand S.A. Hearing: An Introduction to Psychological and Physiological Acoustics. Marcel Dekker, INC. New York and Basel, 1981.-349 p.
148. Goldsmith J.A. Autosegmental and metrical phonology. Cambridge, 1990. - 376 p.
149. Henke L.D. Dynamice articulatory model of speech production used computer simulation. Doctoral Thesis, 1956.
150. Hood D.C. Evoked cortical responseaudiometry. In: Physiological Measures of the Audio-Vestibular System/Ed. L. J. Bradford. - New York: Academic, 1975, - p. 349-370.
151. Jewett D.L. Volume-conducted potentialsin response to auditory stimuli as detected by averaging in the cat. EEG Clin. Neurophysiol., 1970, 28, - p. 609-618.
152. Jewett D.L., Romano M.N., Williston J.S. Human auditory evoked potentials; Possible brainstem components detected on the scalp. Science, 1970, 167, - p. 1517-1518.
153. Jewett D.L., Williston J.S. Auditory-evoked far fields averaged from the scalp of humans. -Brain, 1971, 94,-p. 681-696.
154. Kent R. D., Minifie F.D. Coarticulation in recent speech production models. J. of Phonetics, 1977, N5.-P. 115-133.
155. McCandless G., Best L. Evoked responses to auditory stimulation in man using a summating computer. J. Speech. Hearing Res., 1964, 7, - p. 193-202.
156. McCandless G., Best L. Summed evoked responses using pure tone stimuli. J. Speech. Hearing Res., 1966, 9, - p. 266-272.
157. McCarthy J.J. Feature geometry and dependency: A review // Articulatory organization from phonology to space signals: Phonetica 43. 1988. - P. 84 - 108.
158. Meister E. and oth. Increasement of naturalness in synthesized speech. Proc. Xl-th ICPHS, 1987, Tallin, v.3, - p.266-268.
159. Metz O. Studies on the contraction of the tympanic muscles as indicated by changes in impedance of the ear. Acta Otol., 1951, 39, - p. 397-405.
160. Mohr B. Intrinsic Variation in the Speech Signal. Phonetica. - 1971/ - V.23. - P. 65-93.
161. Moller A. Intra-aural muscle contraction in man examined by measuring acoustic impedance of the ear. Laryngoscope, 1958, 68, - p. 48-62.
162. Nushikyan E. The tipologecal analysis of emotional sheech prosody. Xlth ICPHS. V.3., Tallinn, 1987.
163. Ringen C. Vowel harmony: Theoretical implications. New York & London, 1988. - 149 p.
164. Ruhm H., Walker E., Flanigin H. Acoustically evoked potentials in man: Mediation of early componennts. Laryngoscope, 1967, 77, - p. 806-822.
165. Vaughan H. G. The relationship of brain activity to scalp recordings of event-related potentials. In: Average Evoked Potentials: Methods, Results and Evaluation/Eds. E. Donchin, D. Lindsay. - Washington, D. C.; NASA, SP191, 1969.
166. Vaughan H.G., Ritler W. The sourses of auditory evoked responses recorded from the human scalp. EEG Clin. Neurophysiol., 1970, 28, - p. 360-367.
167. Vinarskaya E. Emotionally expressive prerequisites of language units in Russian speech. The eleventh international congress of phonetic sciences (August 1 - 7, 1987).- Tallinn, 1987.-V.l.-P. 397-398.
168. Williams C.E., Stevens K.N. On Determining the Emotional State of Pilots During Flight An Exploratory Study. Aerospase Medicine, 1969, V40, N12, - p.1369-1372.
169. Yrova I. Intonational universalities and perception of emotional intonations // Xlth ICPHS/ V.3. Tallinn, 1987.
170. Zlatoustova L. V. Kedrova G. Y. Perseptive and acoustic characteristics of emotion: A Typological Reseach Based on the Material of Languages with Different Structures // XI th ICPhS. V3.- Tallinn, 1987.