автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Моделирование процессов понимания речи с использованием латентно-семантического анализа

  • Год: 2008
  • Автор научной работы: Соловьев, Алексей Николаевич
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.21
450 руб.
Диссертация по филологии на тему 'Моделирование процессов понимания речи с использованием латентно-семантического анализа'

Полный текст автореферата диссертации по теме "Моделирование процессов понимания речи с использованием латентно-семантического анализа"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

Соловьев Алексей Николаев"«

"уочча17а

МОДЕЛИРОВАНИЕ ПРОЦЕССОВ ПОНИМАНИЯ РЕЧИ С ИСПОЛЬЗОВАНИЕМ ЛАТЕНТНО-СЕМАНТИЧЕСКОГО АНАЛИЗА

Специальность: 10.02.21 - Прикладная и математическая лингвистика

Автореферат

диссертации на соискание ученой степени кандидата филологических наук

0 2 0НТ2ппп

Санкт-Петербург 2008

003448178

Работа выполнена на кафедре математической лингвистики факультета филологии и искусств Санкт-Петербургского государственного университета

Научный руководитель - доктор биологических наук, профессор_

Валерий Иванович Галунов

Официальные оппоненты - доктор филологических наук, профессор

Марусенко Михаил Александрович кандидат биологических наук, в.н.с. Люблинская Валентина Владимировна

Ведущая организация - Санкт-Петербургский институт информатики и автоматизации Российской академии наук

Защита состоится «23» октября 2008 года в 16 часов на заседании Диссертационного совета по защите диссертаций на соискание ученой степени кандидата филологических наук при Санкт-Петербургском государственном университете по адресу: 199034, Санкт-Петербург, Университетская наб , д.7-/9.// ауд

С диссертацией можно ознакомиться в библиотеке им. М. Горького Санкт-Петербургского государственного университета

Автореферат разослан « » 2008 г.

Ученый секретарь диссертационного совета -доктор филологических наук, профессор

К.А.Филиппов

ОБЩЕЕ ОПИСАНИЕ РАБОТЫ

Современные системы автоматического распознавания речи, как правило, содержат два уровня обработки входящего сигнала нижний уровень, на котором распознаются акустические события, поступившие на вход системы, и верхний уровень, на вход которого с нижнего уровня распознавания поступают цепочки сформированных слов или словоформ Для второго уровня предполагается, что уже пройдена так называемая точка распознавания слова (word recognition point) и входящий сигнал в общем случае представляет собой матрицу словоформ с соответствующими коэффициентами вероятности распознавания Из множества предложенных вариантов обычно выбираются словоформы или полученные из них фразы, имеющие наибольшую суммарную вероятность. После этого фразы поступают на вход морфологического и синтаксического анализатора, где отбрасываются некорректные комбинации словоформ. На этом процесс распознавания, как правило, заканчивается Процесс понимания конечного варианта автоматически выбранной системой фразы остается задачей воспринимающего ее субъекта- человека

В некоторых системах автоматического понимания используют дополнительные модули: лексический и семантический Лексический модуль ориентирован на поиск ключевых слов в распознанной фразе и соотнесение фразы с заранее заданной ситуацией Семантический модуль исследует структуру входящей фразы, отношение между распознанными словоформами. Его задача сформировать «семантический пакет», состоящий из действия, объекта, его качества, места действия и лексико-еемантического значения, как для каждой словоформы, так иногда и для фразы в целом

Но даже в случаях применения дополнительных модулей, конечный результат их работы - извлечение смысла из цепочки распознанных акустических событий -является разный В одном случае это набор ключевых словоформ и соответствующих им заранее заданных ситуаций, в другом - преобразование предложений, словоформ или слов по определенным трансформационным правилам в логические структуры (цепочки символов), с заранее заданными возможными связями (валентностями)

В связи с этим возникает ряд вопросов, ответы на которые становятся веб более актуальными в условиях дальнейшего развития систем автоматического распознавания и понимания речи

• Как происходит процесс понимания, каковы его механизмы?

• Каков должен быть результат работы процесса понимания?

• Как при моделировании верхнего уровня систем распознавания и понимания речи можно учитывать его влияние на нижний уровень'

Актуальность проблемы

Актуальность выбранной темы исследования обусловлена не только необходимостью создания высококачественных систем автоматического понимания речи человека, но, прежде всего, отсутствием достаточно ясного представления, как происходит процесс понимания, как его можно моделировать. Решение проблем, связанных с моделированием когнитивных процессов, должно опираться не только на лингвистические методы, но и учитывать опыт нейролингвистических исследований в этой области Поэтому актуальность данной работы определяется еще и необходимостью преодоления лингвистических рамок и достижения более глубокого осмысления процессов понимания речи, с целью их дальнейшего моделирования.

Цель работы и задачи исследования

Основная цель исследования - определение механизмов понимания речи и построение модели понимания с использованием латентно-семантического анализа

В ходе работы решались следующие задачи:

1. С целью описания работы механизмов понимания речи изучить и представить результаты современных нейрофизиологических исследований восприятия речи мозгом человека и на их основе сформулировать рабочую гипотезу работы механизмов понимания

2 Дать определение механизмов понимания речи с точки зрения возможности их дальнейшего моделирования.

3. На основе определения механизмов понимания речи описать модель понимания речи, определить ее основные характеристики

4 Рассмотреть методы и алгоритмы, которые могут быть применены при моделировании процессов понимания, и определить наиболее приемлемые из них в соответствии с предложенной моделью понимания речи

5. Исследовать выбранный метод, показать его основные достоинства и недостатки при использовании в моделях понимания

Материалы и методы исследования

Дня моделирования процессов понимания речи предложен метод латентно-семантического анализа (ЛCA).

В основе этого метода лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших текстовых корпусов. В последние годы метод JICA часто использовался для поиска информации (индексация документов), классификации документов, а также в др>гих областях, где требуется выявление главных факторов из массива информационных данных

Наиболее распространенный вариант J1CA основан на использовании разложения диагональной матрицы по сингулярным значениям (SVD - Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице

Апробирование ЛСА произведено на базе русской речи, собранной и обработанной компанией ООО «Одитек». Автор принимал активное участие в записи речевой базы и обработке материалов

Речевая база содержит широкополосные записи 550 русскоязычных дикторов в возрасте от 18 до 60 лет, проживающих в разных регионах России Записи проводились в различных акустических условиях с учетом возрастных, тендерных и диатектных особенностей дикторов Объем базы - около 160 »асов речи с учетом пауз, хезитаций, речевых и неречевых помех. Корпус базы состоит из читаемой и вызванной спонтанной речи. Вызванная спонтанная речь представляет собой минирассказы на заданную тему. Количество тем - 30. Каждый респондент высказывался на 10 заданных тем

Для записи использовано высококачественное оборудование, специально разработанное для данной речевой базы. Записи велись одновременно по четырём каналам" гарнитурный кардиоидный микрофон, микрофон сотового телефона; широкополосный микрофон, расположенный на среднем (0,5-1 м) и дальнем расстоянии (2-Зм) Характеристики всех каналов: широкополосный, 16 кГц, 16 бит, моно, формат записи - Intel PCM Raw Data Перед записью каждого диктора замерялся уровень шума, который не должен превышать допустимого значения (в зависимости от акустического окружения). Для каждого акустического окружения записывался отклик розового и белого шумов, характеризующий акустические параметры окружающей обстановки База содержит орфографическую разметку всех высказываний и специальные пометки, указывающие на наличие возможных шумов, оговорок, обрывов записи

Обработка базы выполнялась экспертами по речевой акустике с помощью программного обеспечения, разработанного компанией «Одитек»

Из этой базы автором отобран материал, содержащий только вызванную спонтанную речь. Общий объем полученной базы спонтанной речи, содержащей 5165 высказываний 550 респондентов, что соответствует около 110 тысячам словоупотреблений, составляет более 24 часов озвученной речи с учетом пауз.

Дня обработки текстового материала, моделирования первичного этапа понимания речи и его анализа автором разработано программное обеспечение. Всего создано более 30 программ Из них. семь программ для обработки текстового материала, пять программ для реализации латентно-семантического анализа, с помощью остальных программ проводилось тестирование и анализ выбранного метода на базе спонтанной русской речи.

В качестве дополнительных программ разработаны программы для демонстрации работы ЛСА. получения матрицы весов при разных значениях количества сингулярных значений диагональной матрицы; сокращения количества термов, весовые функции которых оказались меньше заданного порога, а также сокращение "термов по количеству их в каждом векторе.

Для написания программ использованы языки программирования Perl и С++, для SVD-анализа - встроенные функции Matlab 7

Научная новизна исследования

На основании результатов современных исследований в области нейрофизиологии восприятия речи мозгом человека, приведенных в работе, дано определение механизмов понимания речи с целью их дальнейшего моделирования и впервые выдвинута гипотеза о первичном этапе понимания речевой информации. На основе данного определения механизмов понимания в качестве метода моделирования выбран латентно-семантический анализ (ЛСА).

Метод ЛСА был впервые использован при обработке русскоязычного корпуса спонтанной речи. Проведена апробация данного метода и приведены результаты тестирования Сравнение результатов, полученных с помощью ЛСА и без применения этого метода, показало преимущество метода ЛСА Дана оценка работы данного метода при разных условиях постановки задачи и определены возможности его применения в моделях автоматического понимания речи Указаны основные достоинства и недостатки предложенной модели понимания речи, рассмотрены возможные пути ее усовершенствования

Теоретическая значимость работы

Теоретическая значимость работы заключается в определении механизмов понимания речи, на основании которого предложена модель первичной обработки семантической информации Эта модель представляет собой некий набор ситуаций, которые активируются и могут корректироваться по мере поступления новой информации Следует отметить, что данная модель учитывает не лексические значения сегментов, а лишь их ассоциативную связность в базе, принадлежность новой информации к тому или иному ряду, состоящему из ассоциативных сегментов.

Теоретически значимыми являются и результаты исследования на корпусе текстов русской спонтанной речи, которые позволяют заключить, что метод ЛСА может использоваться при первичном семантическом анализе входящей информации.

Практическая значимость работы

Результаты этой работы могут быть использованы в области речевых технологий, в частности, в моделях автоматического распознавания и понимания речи

Данные, полученные при исследовании ЛСА, могут быть учтены в различных областях, где требуется выявление главных факторов в большом объеме

лингвистических данных Сам метод может быть полезным для изучения когнитивных механизмов, работающих при речевосприятии

Основные положения, выносимые на защиту

1 Дано определение понимания речи для задач моделирования процессов понимания понимание - это сегментация и интерпретация входящего сигнала. Под сегментацией входящего сигнала подразумевается вычленение части (интегральных и дифференциальных признаков) из целого. Интерпретация - оценка выделенного сегмента, т.е отождествление сегмента с эталонами (метонимический перенос признака (пучка признаков)), находящимися в памяти, возникновение нового эталона или включение механизмов метафорического переноса (перенесение какого-либо признака сегмента на другой эталон (эталоны)) В качестве основной единицы сегментации в моделях распознавания и понимания речи выбрана фонетическая словоформа (ФС) Показана априорная необходимость базы знаний для модели понимания и описаны основные характеристики, которые должны быть присущи таким базам' снятие омонимии и автоматическая классификация информации (в том числе новой).

2 Определены основные свойства предлагаемой модели понимания речи модель должна представлять собой структурированный определенным образом набор ситуаций, подобных фреймам, которые активируются и могут корректироваться по мере поступления новой информации. Процесс понимания состоит из двух этапов, дограмматического (или имеющего латентную грамматику, т.е включенную в лексические единицы) и синтаксическо-грамматического этапа, на котором подключаются механизмы обработки синтаксиса, морфологии и др На первом этапе понимания учитываются не лексические значения сегментов, а лишь ассоциативная связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду Приписывание определенного значения сегменту и выявление истинности этого значения относительно высказывания в целом происходят на втором этапе. Таким образом, модель первичного этапа понимания использует алгоритм семантического и ассоциативного соотнесения сегмента с некими эталонами и определения его принадлежности по выбранному порогу к той или иной ситуации (фрейму) из базы знаний

3 Исследование модели понимания на материале спонтанной русской речи методом JICA показало, что вопрос определения количества главных факторов в значительной степени определяется целями, которые стоят перед исследователем, в том случае, если цель - выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70%, в случае, если необходимо найти тематически близкие документы или для выявления ассоциативной лексики, резко не сокращая при этом количество факторов, то сингулярные значения следует уменьшить примерно на 20%

Апробация работы

Результаты исследований были представлены в докладах на следующих отечественных и международных конференциях и симпозиумах семинар, посвященный памяти В И Галунова «Речевые исследования и технологии настоящее и будущее», 2007, Санкт-Петербург, Вторая международная конференция по когнитивной науке 2006, Санкт-Петербург; XXXIII Международная Филологическая Конференция, 2005, Санкт-Петербург, Международная конференция «SpeeCom 2004» и «SpeeCom 2002», Санкт-Петербург; XV сессия российского акустического общества 2004, Нижний Новгород, XIII сессия российскою акустического общества 2003, Москва; Международная конференция «Диалог 2003», Протвино, Международная конференция «Когнитивное моделирование в лингвистике - 2002», Казань, Международный симпозиум «Акустика детской речи», 2002, Санкт-Петербург

Материалы, касающиеся данной диссертационон работы опубликованы в четырех периодических изданиях, двух российских и двух зарубежных, в том числе три из них в рецензируемых изданиях из списка ВАКа «Вестник СПбГУ», «Cognitive Neuroscience and Neuropsychology» и «Brain Research» (на основании системы цитирования «Web of Science», см. перечень рецензируемых научных журналов и изданий ВАК от 21 апреля 200S г )

Четырнадцать научных статей опубликованы в сборниках научных конференций, три из них на английском языке.

Структура и объем работы

Диссертационная работа изложена на 165 страницах машинописного текста и содержит введение, 5 глав, заключение, список литературы и приложение. Текст диссертации проиллюстрирован 9 рисунками и 7 таблицами Библиографический указатель состоит из 116 источников, из них - 58 на русском, 52 - на английском и 6 -на французском языках.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

В первой главе даны предварительные определения и замечания, необходимые для объяснения работы и моделирования процессов понимания речи. Поскольку понимание непосредственно связано с коммуникативными языковыми процессами, автор счел целесообразным определить, что будет пониматься под языком, речью, коммуникацией Кратко рассмотрены основные лингвистические понятия, такие как смысл, референция, значение

Другим важным аспектом понимания является связь языковых процессов с когнитивной деятельностью человека В связи с этим автор счел необходимым рассмотреть некоторые вопросы, относящиеся к процессам восприятия речи мозгом человека, а также некоторые фило- и онтогенетические аспекты языка. В частности, сделан акцент на том, что онтогенез языковой деятельности проходит две стадии развития - лексическую (или категориальную) и грамматическую, что, возможно, связано с работой разных механизмов мозга человека В соответствии с этим положением при построении моделей понимания речи следует учитывать и разграничивать эти механизмы

В работе рассмотрены различные аспекты понимания речи: семиотический, лингвистический, нейрофизиологический Сформулировано определение понимания речи для задач моделирования процессов понимания

Предложены и рассмотрены некоторые единицы сегментации речи для систем понимания речи (коммуникативный фрагмент (КФ) и ФС), показаны возможности реализации единиц сегментации

Во второй главе дан обзор некоторых моделей понимания, применяемых в современных системах автоматического распознавания и понимания речи, а также

представлены некоторые теоретические модели, предлагаемые для моделирования процессов понимания. Дана краткая классификация моделей, указаны их достоинства и недостатки.

В третьей главе рассмотрены некоторые методы и алгоритмы, применяемые для создания эталонных баз знаний. На основе критериев, обеспечивающих наиболее успешное функционирование систем понимания речи, в качестве метода для создания эталонной базы выбран метод ЛСА.

Четвертая глава представляет собой описание метода ЛСА и его применения в различных научно-исследовательских областях- представления и проверки знаний, кластеризации / классификации информации, анализа связности дискурса и когерентности текста, использование этого метода при построении когнитивных моделей.

Последняя, пятая глава посвящена описанию модели понимания речи с применением ЛСА.

В начале главы дано описание программного обеспечения, которое было написано и использовано для обработки базы и последующего анализа метода ЛСА, а также описаны этапы этого исследования

В качестве материала для исследования использована база данных русской спонтанной'речи

Описан подготовительный процесс, сегментация базы на термы и расчет их весовых функций. Затем олисан процесс определения тематик документов и приведены оценки тематического разбиения текстов для разных параметров (выбора количества документов при автоматической кластеризации корпуса, выбора количества сингулярных значений диагональной матрицы при БУБ анализе, выбор порога весовых функций и пр). После проведенных исследований предложены некоторые варианты выбора сингулярных значений диагональной матрицы при ЭУО анализе, а также указаны случаи, в которых следует выбирать то или иное количество таких элементов Предложен критерий ограничения величины весовых функций при получении ассоциативного словаря.

Тестирование модели проведено при разном соотношении обучающей и тестируемой выборок, приведены оценочные данные Изложены результаты тестирования модели первичного этапа понимания речи, сделаны выводы о ее работе, описаны ее основные достоинства и недостатки

В конце последней главы предложены возможные пути усовершенствования данной модели

В приложении приведены дополните чьные результаты исследования ЛСА. проведен расчет матрицы близости полнотекстовых документов при разном количестве диагональных элементов диагональной матрицы Для наглядности результаты приведены в виде трехмерных графиков

В приложении приведены темы, которые были предложены респондентам для записи речевой базы данных вызванной спонтанной речи

Приведен пример, демонстрирующий ассоциативно-семантическую цепочку словоформ для каждой из предложенных респондентам тем

ОСНОВНЫЕ ВЫВОДЫ И РЕЗУЛЬТАТЫ РАБОТЫ

Результаты работы

1 На основании рассмотренных аспектов понимания и экспериментальных результатов по изучению восприятия речи мозгом человека сделано предположение, что процесс восприятия и обработки информации происходит в два этапа. Первый этап - этап непроизвольного восприятия, позволяющий выявить ситуативность или категориальность входящей информации. Это этап первичной семантической обработки, который позволяет отнести входящее сообщение к той или иной ситуации, происходит принятие решения на уровне доступа к информационным процессам, разворачивающимся в базовом пространстве (мозге человека) Второй этап - этап включения дополнительных механизмов для успешной обработки полученной информации (семантический, синтаксический и грамматический анализ).

Дано определение механизмов понимания речи в контексте их дальнейшего моделирования понимание речи - это сегментация и интерпретация входного сигнала (в данном случае, речевого). Понятие интерпретации, как одного из двух видов интеллектуальных операций, основано на определении Р Якобсона. Сегментация определена как вычленение части (интегральных и дифференциальных признаков) из целого Предложены некоторые возможные единицы сегментации для процесса понимания речи (КФ и ФС), определены возможности реализации единиц сегментации

На основании описания работы механизмов и определения понимания речи предложена модель первичного этапа понимания, указаны основные свойства, которые должны быть присуши предполагаемой модели' модель должна представлять собой некий набор ситуаций, подобно фреймам, которые активируются и могут быть скорректированы по мере поступления новой информации. Модель должна иметь базу, состоящую из определенным образом структурированных лексических единиц, которые связаны между собой по определенным правилам, причем эти связи можно менять динамически (в процессе работы) Процесс понимания можно разбить на два этапа, дограмматический или имеющий латентную (включенную в лексические единицы. ФС или КФ) грамматику и синтаксическо-мофологический, на котором подключаются механизмы обработки синтаксиса, словоизменения и др На первом этапе понимания учитывается не лексические значения сегментов (как базовых, так и новых), а лишь ассоциативная связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду. Приписывание определенного значения сегменту и выявление истинности этого значения относительно высказывания в целом происходят на втором этапе

Таким образом, модель первичного этапа понимания должна работать по алгоритму семантического и ассоциативного отношения сегмента к эталонам, хранящимся в базе, и принятия решения (по выбранной мере близости) принадлежности этого сегмента к тому или иному фрейму из базы знаний

2 Рассмотрены некоторые методы и алгоритмы создания эталонных баз данных, необходимых для систем понимания речи. На основе предложенных критериев выбора для создания эталонной базы использован метод ЛСА.

Одним из наиболее важных критериев точности работы механизмов понимания является снятие проблемы омонимичности лексем и словоформ Из рассмотренных методов и алгоритмов классификации / кластеризации документов (текстов), наиболее удовлетворяющим данным условиям является метод ЛСА Он не только является эффективным для выявления скрытых ассоциативных зависимостей, но и автоматически ликвидирует лексическую омонимичность словоформ, попавших в разные тематики. Кроме того, метод является достаточно гибким в настройке, что позволяет легко менять параметры в зависимости от поставленной задачи

3 Предложен вариант модели понимания речи с использованием ЛСА. При исследовании ЛСА на материале базы спонтанной русской речи получены следующие результаты

Сегментация текста на термы В качестве основной лингвистической единицы для модели понимания речи принято ФС. С учетом этого составлен частотный словарь, содержащий около 19 тысяч словоформ Объем слсваря оказался на 19,7% больше, чем объем того же словаря, но без учета ФС. В корпусе оставлены теги, обозначающие паузы и хезиташи, а также проставлены теги начала и конца высказывания. С целью уменьшения объема матричных вычислений ЛСА отброшены слова и словоформы с частотностью менее 2. Это наиболее оптимальный критерий по отношению сохранения целостности текста и ускорения процессов вычислений при 8УО-анализе Объем корпуса при этом сократился с 109 до 96 тысяч словоформ, а словарь - с 19 до 7 тысяч единиц Таким образом, извлечение из текста низкочастотных слов привело к существенному сокращению объема словарного состава при незначительном уменьшении объема текста.

Расчет весовых функций Приведенная в диссертации формула расчета весовых функций для получения матрицы «термы-на-документы» позволяет учитывать появление терма во множестве документов корпуса: чем чаще встречается терм в разных документах, тем его весовая функция меньше, если терм содержится во всех документах, то он считается неинформативным и его весовая функция обнуляется В данной формуле используется абсолютная частота терма. Это позволяет более объективно выявить важность участия данного терма в определенном документе.

Определение тематик документов Произведена автоматическая кластеризация тестируемого речевого корпуса при его разбиении на 20, 30 и 50 документов. Во всех случаях выделены главные факторы1 с порогом редукции сингулярных значений диагональной матрицы на 20-30% от общего числа диагональных элементов и сравнены с факторами, образовавшимися для предварительно классифицированного текста (реального текста). Выявлено, что на количество факторов и их последовательность влияет размер документа (выбранный размер сегмента) и его

' фактор - термин факторного анализа; основное предположение факторного анализа заключается в том, что корреляционные связи между большим числом наблюдаемых переменных определяются существованием меньшего числа гипотетических ненаблюдаемых переменных или факторов.

однородность, но, несмотря на это, с достаточной точностью можно добиться выявления нескольких первых факторов

При ручном разбиении документов (предварительной классификации) факторы выявляются точнее, при этом дисперсия главных факторов имеет меньшее значение В работе продемонстрированы факторы после проведения БУР-анализа 30-ти документов для предварительно классифицированного и автоматически классифицированного текста Как оказалось, для предварительно разделенного на темы текста выявляется еще один фактор Это объясняется, например, неоднородностью документов, полученных автоматическим делением. При автоматическом разделении текста невыявленный фактор мог попасть в разные документы, вследствие чего могут уменьшиться веса ключевых термов и фактор будет слабо выражгн Либо, наоборот, в один документ могли попасть ключевые термы из разных документов, что привело к конкурированию факторов и уменьшению их абсолютной величины

Проведен сравнительный анализ векторного метода (при разных соотношениях обучающей и тестируемой частей базы) и БУР анализа (при разном сокращении сингулярных значений диагональной матрицы) При сокращении сингулярных значений диагональной матрицы точность соответствия входящих сообщений соответствующим темам ухудшилась, некоторые темы оказались слишком пересекающимися При этом точность определения тех тематик, у которых главные факторы являются ярко выраженными, возрастает. Таким образом, если сообщения, не соответствующие теме данного документа считать соответствующими тому фактору, к которому они теперь принадлежат, то точность повышается.

Остальные факторы при автоматической кластеризации пересекаются приблизительно на 80% с постепенным увеличением их числа (с увеличением числа документов), но с разными абсолютными значениями, те последовательность факторов является нестабильной.

Выбор порога для сингулярных элементов диагональной матрицы при 5УР анализе Исследования БУО анализа показали, что с уменьшением количества сингулярных элементов диагональной матрицы в результате проведения обратной задачи латентно-семантического анализа растет объем лексикона в каждом документе Резкий рост наблюдается при сокращении сингулярных элементов диагональной матрицы на 10-20%, после чего он стабилизируется, и затем, после на 70-80% вновь наблюдается

Выбор критерия ограничения величины весовых функций при получении ассоциативного словаря Для того чтобы уменьшить объем вновь полученного лексикона каждого документа, нужно установить порог значения весовых функций, полученных в обратной задаче.

Графически показано, что значения весовых функций первых 100 слов для всех документов более сильно уменьшаются с сокращением диагональных элементов, В связи с этим предложено введение порога либо для весовых функций, либо для количества термов

Исследования данной базы показали, что ограничение весовой функции величиной не меньше единицы никак не влияет на классификацию документов Более того, даже при выборе разного количества сингулярных элементов диагональной матрицы метод ЛСА достаточно устойчив, при рубрикации уменьшается количество документов, но сами рубрики остаются прежними (до ограничения весовых функций до 3-4)

Вследствие этого предлагается не сокращать значения полученных факторизацией векторов, а ограничить количество термов, например, 40-60 или их весовую функцию до 1-3 для данного корпуса Большее количество термов может привести к увлечению объема вычислений и дополнительному мусору.

Результаты сравнения векторного метода и БУР анализа Для тестирования метода ЛСА использовано текстовое сопровождение базы данных (спонтанная речь)

Общий процент правильно классифицированных сообщений для векторного метода при использовании в качестве тестовой базы всего корпуса составил 88,1% Тестирование проводилось при разном соотношении обучаемой и тестовой частей базы Даже при сокращении обучаемой части до половины и извлечении из нее около 60% лексикона (низкочастотные слова) точность рубрикации снизилась более чем на 10% Это говорит о том, что метод векторного сравнения является простым, в тоже время может обеспечить относительно стабильную точность

Проведено аналогичное исследование для векторного пространства, полученного посредством БУИ-анализа с сокращением сингулярных значений диагональной матрицы на 20-33% и 60-73% (12-8 и 20-23 из 30 диагональных элементов соответственно)

При сокращении сингулярных значений диагональной матицы на 20% и 33% точность соответствия входящим сообщениям ухудшилась до 75,9% и 63,9%

соответственно. Это происходит из-за того, что некоторые рубрики оказываются слишком пересекающимися по своим тематикам, и сообщения из одной рубрики попадают в другую.

Точность определения других тематик, которые являются своего рода аттракторами или определяющими главными факторами при этом возрастает Таким образом, если сообщения, не соответствующие теме данного документа, считать соответствующими тому фактору, к которому они теперь принадлежат, то точность классификации повышается до 88-91%.

Аналогичные расчеты проведены при сокращении сингулярных элементов диагональной матрицы на 60% и 73%. В этом случае сложно говорить о точности классификации (так как нужно рассматривать каждое сообщение в отдельности, что трудновыполнимо для более 5000 сообщений), но можно привести некоторые оценки соответствия той или иной категории выявленному фактору.

Исследования показали, что с сокращением сингулярных элементов диагональной матрицы количество факторов уменьшается (для 60% выявлено 12 факторов, для 73% - 8 факторов) При этом точность классификации для рубрик, которые стали «аттракторами» для выявления главных факторов, выросла, а у некоторых достигла 100%.

Однако, с уменьшением количества главных факторов некоторые рубрики, объединенные в один фактор, не соответствуют друг другу и уже недостаточно точно описывают ситуативность модели.

Таким образом, вопрос определения количества главных факторов достаточно сильно зависит от целей, которые ставит перед собой исследователь: если нашей целью является выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70% (±10%), если же необходимо найти похожие документы для их объединения (например, при добавлении новых тем) или выявления ассоциативной лексики, сильно не уменьшая количество факторов, то сингулярные значения следует сокращать примерно на 20%.

Выводы

1) Процесс понимания состоит из двух этапов обработки информации первичный этап непроизвольного восприятия, с помощью которого определяется ситуативность или категориальность входящей информации, и вторичный,

производящий дополнительную (семантическую и грамматическую) обработку распознанного сегмента. Это следует учитывать при моделировании механизмов понимания.

2) Первичный этап обработки информации представляет собой алгоритм семантического и ассоциативного соотношения сегмента с эталонами из базы знаний по выбранному правилу (евклидовой мере близости данного сегмента к той или иной ассоциативно-семантической категории).

3) Латентно-семантический анализ является достаточно гибким и точным методом для реализации первичного этапа обработки входящей информации в системах автоматического понимания речи.

Список сокращений

ЛСА - латентно-семантический анализ ФС - фонетическая словоформа КФ - коммуникативный фрагмент.

SVD (Singular Value Decomposition) - разложение любой прямоугольной вещественнозначной матрицы в произведение двух ортогональных и одну диагональную матрицы

СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ

1. Galunov V.I., Kochanina J L., Soloviev A.N, Evdomakha A.V., Razumikhin D.V., Tropf H, Hoege H. Wideband speech database for Russian // International workshop "Speech and Computer" Proceedings. SPb. Russia, 2002. - P.l 13-117.

2 Galunov V I., Kouznetsov N G, Soloviev A.N. From Artificial Intelligence to Smart Environment- on the Problem of Speech Recognition // International workshop "Speech and Computer" Proceedings. SPb, Russia, 2004. - P.405-410

3. Shestakova A, Brattico E, Huotilainen M, Galunov V, Soloviev A., Sams M, Ilmomemi R.J and Naatanen R Abstract phoneme representations in the left temporal cortex, magnetic mismatch negativity study // Cognitive Neuroscience and Neuropsychology. Neuroreport: Volume 13(14), 2002.-P 1813-1816

4 Shestakova A, Brattico E., Soloviev A., Klucharev V, Huotilainen M Orderly cortical representation of vowel categories presented by multiple exemplars // Brain Research. Cognitive Brain Research, 21, 2004- P.342-350

5 Soloviev A.N.,Victorova К О., Razumikhin D V About using non-informational functions in model of speech communication // International workshop "Speech and Computer" Proceedings SPb. Russia, 2002 -P 27-31.

6. Галунов В И, Евдомаха А.В , Кочанина Ю.Л, Остроухое А В., Разумихин Д В , Соловьев А.Н. Коллекция речевых баз данных // XXXIII Международная Филологическая Конференция 2005 Тезисы докладов. СПб Изд-во СПбГУ, 2005 -С.15-16.

7. Галунов В И., Соловьев А.Н., Шестакова А H Язык и мозг человека психофизиологические исследования // Интегральное моделирование звуковой формы естественных языков Сб. научных статей / Под ред А С. Асиновского. СПб.. Изд-во ИФИ СПбГУ. 2005. - С.10-12.

8. Галунов В.И., Соловьев А.Н. Некоторые варианты автоматического понимания устной речи // XXXIII Международная Филологическая Конференция 2005. Тезисы докладов. СПб.: Изд-во СПбГУ, 2005.-С. И-13

9. Галунов В И, Соловьев А.Н. Темные пятна в области распознавания речи // Сб. научных сообщений XV сессии Российского акустического общества. M ГЕОС., 2004.-С.9-13.

10. Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи // Информационные технологии и вычислительные системы Вып 2. М, 2004.-С.41-45.

11. Разумихин ДВ. Соловьев А.Н. Системы автоматического распознавания речи с различными моделями организации диалога // Сб. научных сообщений XIII сессии Российского акустического общества M : ГЕОС, 2003 - С 141-144

12. Соловьев А.Н. Язык, мышление и современные системы понимания речи // Вестник СПбГУ. Серия Биология (3) Вып.1 СПб., Изд-во СПбГУ, 2008 - С.99-104

13 Соловьев А.Н., Галунов В И Мышление, язык и системы автоматического понимания речи // Вторая международная конференция по когнитивной науке. Тезисы докладов Т 2 СПб, 2006 - С 437-439

14 Соловьев А.Н., Разумихин Д В., Викторова К О. «А ты сам-то как думаешь1?» (Об использовании неинформационных функций в моделях речевой коммуникации) // Компьютерная лингвистика и интеллектуальные технологии Сб научных статей / Под ред4 Н И. Лауфер, И М. Кобозевой, В П. Селегея М, Наука, 2003 - С.653-657.

15 Соловьев А.Н. Возможность интерпретации семиотических механизмов естественного языка // Обработка текста и когнитивные технологии. Сб. научных статей / Под ред.- В Д Соловьева. Казань, Отечество, 2002. - С.233-245

16 Шестакова А, Братгико Э., Хуотилайнек М, Галунов В., Соловьев А., Ильмониеми Р., Наатанен Р Образы естественного языка в структуре мозга исследования МЭГ // Акустика детской речи Симпозиум с международным участием. СПб., 2002. - С 48-49.

Подписано в печать 04 09.2008 г. Формат 60x84/16 Бумага офсетная Печать офсетная. Усл. печ л. 1,16. Тираж 120 экз Заказ № 20

Типография Издательства СПбГУ 199061, С,- Петербург, Средний пр , 41

 

Оглавление научной работы автор диссертации — кандидата филологических наук Соловьев, Алексей Николаевич

Введение.

Глава 1. Предварительные определения и замечания.

1.1. Эмпирический и рационалистический подходы к моделированию понимания.

1.2. Определение основных понятий, необходимых для построения модели понимания.

1.2.1. Язык и речь.

1.2.2. Коммуникация.

1.2.3. Код.

1.2.4. Информация.

1.3. Некоторые обоснования возникновения языка, фило- и онтогенез.

1.4. Роль правого и левого полушарий в речевосприятии.

1.5. Понимание речи.

1.5.1. Семиотические аспекты понимания.

1.5.2. Лингвистические аспекты понимания.

1.5.3. Нейрофизиологические аспекты понимания.

1.5.4. Определение понимания речи для моделирования процессов понимания.

1.6. Знание и понимание.

1.7. Предварительные выводы.

Глава 2. Обзор моделей, используемых в современных автоматических системах понимания речи.

2.1. Вероятностные модели понимания.

2.1.1. N-граммные модели или модели на НММ.

2.1.2. Модели, основанные на деревьях решений.

2.2. Фреймовые модели понимания.

2.3. Модели, основанные на теории формальных языков.

2.4. Другие языковые модели понимания.

2.4.1. Топологическая модель Р.Тома.

2.4.2. Нейросетевые модели.

2.4.3. Ситуационные модели.

2.5. Краткая классификация моделей понимания.

Глава 3. Выбор, анализ и обоснование метода моделирования.

3.1. Обзор методов и алгоритмов классификации / кластеризации текстов

3.1.1. STC.

3.1.2. Scatter/Gather.

3.1.3. Алгоритм K-means.

3.1.4. SOM.

3.1.5. LSA/LSI.

3.2. Обоснование выбора метода моделирования.

Глава 4. Латентно-семантический анализ и сферы его применения.

4.1. Описание работы JICA.

4.2. Области применения JICA.

4.2.1. Рубрикация текстов (Тематическая классификация и кластеризация документов).

4.2.2. Индексация текстовых корпусов, системы поиска.

4.2.3. Анализ связности дискурса и когерентности текста.

4.2.4. Представление и проверка знаний.

4.2.5. Использование JICA в когнитивных моделях, понимание текста.

Глава 5. Модель первичного анализа понимания речи.

5.1. Общее описание модели.

5.2. Программное обеспечение, использовавшееся для исследований JICA, и этапы исследования.

5.3. Материал для тестирования.

5.4. Подготовка базы.

5.4.1. Сегментация текста на термы.

5.4.2. Расчет весовых функций.

5.4.3. Определение тематик документов.

5.4.4. Выбор порога для сингулярных элементов диагональной матрицы при SVD-анализе.

5.4.5. Выбор критерия ограничения величины весовых функций при получении ассоциативного словаря.

5.5. Результаты тестирования на базе русской речи.

5.5.1. Векторный метод.

5.5.2. SVD-анализ.

 

Введение диссертации2008 год, автореферат по филологии, Соловьев, Алексей Николаевич

Современные системы автоматического распознавания речи, как правило, содержат два уровня обработки входящего сигнала: нижний уровень, на котором распознаются акустические события, поступившие на вход системы, и верхний уровень, на вход которого с нижнего уровня распознавания поступают цепочки сформированных слов или словоформ. Для второго уровня предполагается, что уже пройдена так называемая точка распознавания слова (word recognition point) и входящий сигнал в общем случае представляет собой матрицу словоформ с соответствующими коэффициентами вероятности распознавания. Из множества предложенных вариантов обычно выбираются словоформы или полученные из них фразы, имеющие наибольшую суммарную вероятность. После этого фразы поступают на вход грамматического и синтаксического анализатора1, где отбрасываются некорректные комбинации словоформ. На этом процесс распознавания, как правило, заканчивается. Процесс понимания конечного варианта автоматически выбранной системой фразы остается задачей воспринимающего ее субъекта - человека.

В некоторых системах автоматического понимания используют дополнительные модули: лексический и семантический. Лексический модуль ориентирован на поиск ключевых слов в распознанной фразе и соотнесение фразы с заранее заданной ситуацией. Семантический модуль исследует

1 Под грамматическим анализатором и в целом под грамматикой в речевых технологиях, как и в некоторых других областях, связанных с исследованиями процессов понимания и восприятия речи, подразумевается ее морфологическая часть: словообразование и словоизменение или флексия (склонение, спряжение). структуру входящей фразы, отношение между распознанными словоформами. Его задача сформировать «семантический пакет», состоящий из действия, объекта, его качества, места действия и семантического значения как для каждой словоформы, так иногда и для фразы в целом.

Но даже в случаях применения дополнительных модулей, конечный результат их работы — извлечение смысла из цепочки распознанных акустических событий — является разным. В одном случае это набор ключевых словоформ и соответствующих им, наперед заданных ситуаций, в другом - преобразование предложений, словоформ или слов по определенным трансформационным правилам в логические структуры (цепочки символов), с заранее заданными возможными связями (валентностями).

В связи с этим возникает ряд вопросов, ответы на которые становятся все более актуальными в условиях дальнейшего развития систем автоматического распознавания и понимания речи:

• Как происходит процесс понимания речи, каковы его механизмы?

• Каков должен быть результат работы процесса понимания?

• Как при моделировании верхнего уровня систем распознавания и понимания речи можно учитывать его влияние на нижний уровень?

Актуальность проблемы

Актуальность выбранной темы исследования обусловлена не только необходимостью создания высококачественных систем автоматического понимания речи человека, но, прежде всего, отсутствием достаточно ясного представления, как происходит процесс понимания, как его можно моделировать. Решение проблем, связанных с моделированием когнитивных процессов, должно опираться не только на лингвистические методы, но и учитывать опыт нейролингвистических исследований в этой области. Поэтому актуальность данной работы определяется еще и необходимостью преодоления лингвистических рамок и достижения более глубокого осмысления процессов понимания речи, с целью их дальнейшего моделирования.

Цель работы и задачи исследования

Настоящая работа посвящена вопросам понимания в процессах речевой деятельности человека. Основная цель исследования — определение механизмов понимания речи с учетом существующих на сегодняшний день экспериментальных результатов по изучению восприятия речи мозгом человека и его дальнейшего использования для моделирования систем понимания.

В ходе работы решались следующие задачи:

1. С целью описания работы механизмов понимания речи изучить и представить результаты современных нейрофизиологических исследований восприятия речи мозгом человека; на их основе сформулировать гипотезу работы механизмов понимания.

2. Дать определение механизмов понимания речи с точки зрения возможности их дальнейшего моделирования.

3. На основе определения механизмов понимания речи описать модель понимания речи, определить ее основные характеристики.

4. Рассмотреть методы и алгоритмы, которые могут быть применены при моделировании процессов понимания, и определить наиболее приемлемые из них в соответствии с предложенной моделью понимания речи.

5. Исследовать выбранный метод, показать его основные достоинства и недостатки при использовании в моделях понимания.

Материалы и методы исследования

Для моделирования процессов понимания речи предложен метод латентно-семантического анализа (JICA).

В основе этого метода лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших текстовых корпусов. В последние годы метод J1CA часто использовался для поиска информации (индексация документов), классификации документов, а также в других областях, где требуется выявление главных факторов из массива информационных данных.

Наиболее распространенный вариант JICA основан на использовании разложения диагональной матрицы по сингулярным значениям (SVD -Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.

Апробирование JICA произведено на базе русской речи, собранной и обработанной компанией «Одитек». База содержит широкополосные записи 550 русскоязычных дикторов в возрасте от 18 до 60 лет, проживающих в разных регионах России. Объем базы — около 160 часов речи с учётом пауз, хезитаций, речевых и неречевых помех. Корпус базы состоит из читаемой и вызванной спонтанной речи. Вызванная спонтанная речь представляет собой минирассказы на заданную тему. Количество тем — 30. Каждый респондент высказывался на 10 заданных тем.

Обработка базы выполнялась экспертами по речевой акустике с помощью программного обеспечения, разработанного компанией «Одитек».

Из этой базы автором отобран материал, содержащий только вызванную спонтанную речь. Общий объем полученной базы спонтанной речи, содержащей 5165 высказываний 550 респондентов, что соответствует около 110 тысячам словоупотреблений, составляет более 24 часов с учетом пауз.

Для обработки текстового материала, моделирования первичного этапа понимания речи и его анализа автором было написано программное обеспечение. Всего было использовано более тридцати программ, из них семь программ для обработки текстового материала; пять программ для реализации латентно-семантического анализа; с помощью остальных' программ проводилась апробация и анализ выбранного метода.

Для написания программ использованы языки программирования Perl и С++, для SVD-анализа — встроенные функции Matlab 7.

Научная новизна

На основании результатов современных исследований в области нейрофизиологии восприятия речи мозгом человека, приведенных в работе, выдвинута гипотеза о первичном этапе понимания речевой информации. Впервые дано определение механизмов понимания речи с целью их дальнейшего моделирования. На основе данного определения в качестве метода моделирования процессов понимания выбран латентно-семантический анализ (JICA).

Метод JTCA был впервые использован при обработке русскоязычного корпуса спонтанной речи. Проведена апробация данного метода и приведены результаты тестирования. Сравнение результатов, полученных с помощью JICA и без применения этого метода, показало преимущество метода JICA. Дана оценка работы данного метода при разных условиях постановки задачи и определены возможности его применения в моделях автоматического понимания речи.

Теоретическая значимость работы

Теоретическая значимость работы заключается в определении механизмов понимания речи, на основании которого предложена модель первичной обработки семантической информации. Эта модель представляет собой некий набор ситуаций, которые активируются и могут корректироваться по мере поступления новой информации. Следует отметить, что данная модель учитывает не лексические значения сегментов, а лишь их ассоциативную связность в базе, принадлежность новой информации к тому или иному ряду, состоящему из ассоциативных сегментов.

Теоретически значимыми являются и результаты исследования на корпусе текстов русской спонтанной речи, которые позволяют заключить, что метод ЛСА может использоваться при первичном семантическом анализе входящей информации.

Практическая значимость работы

Результаты этой работы могут быть использованы в области речевых технологий, в частности, в моделях автоматического распознавания и понимания речи.

Данные, полученные при исследовании ЛСА, могут быть учтены в различных областях, где требуется выявление главных факторов в большом объеме лингвистических данных. Сам метод может быть полезным для изучения когнитивных механизмов, работающих при речевосприятии.

Основные положения, выносимые на защиту

1. Дано определение понимания речи для задач моделирования процессов понимания: понимание — это сегментация и интерпретация входящего сигнала. Под сегментацией входящего сигнала подразумевается вычленение части (интегральных и дифференциальных признаков) из целого. Интерпретация — оценка выделенного сегмента, т.е. отождествление сегмента с эталонами (метонимический перенос признака (пучка признаков)), находящимися в памяти, возникновение нового эталона или включение механизмов метафорического переноса (перенесение какого-либо признака сегмента на другой эталон (эталоны)). В качестве основной единицы сегментации в моделях распознавания и понимания речи выбрана фонетическая словоформа (ФС). Показана априорная необходимость базы знаний для модели понимания и описаны основные характеристики, которые должны быть присущи таким базам: снятие омонимии и автоматическая классификация информации (в том числе новой).

2. Определены основные свойства предлагаемой модели понимания речи: модель должна представлять собой структурированный определенным образом набор ситуаций, подобных фреймам, которые активируются и могут корректироваться по мере поступления новой информации. Процесс понимания состоит из двух этапов: дограмматического (или имеющего латентную грамматику, т.е. включенную в лексические единицы) и синтаксическо-грамматического этапа, на котором подключаются механизмы обработки синтаксиса, морфологии и др. На первом этапе понимания учитываются не лексические значения сегментов, а лишь ассоциативная связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду. Приписывание определенного значения сегменту и выявление истинности этого значения относительно высказывания в целом происходят на втором этапе. Таким образом, модель первичного этапа понимания использует алгоритм семантического и ассоциативного соотнесения сегмента с некими эталонами и определения его принадлежности по выбранному порогу к той или иной ситуации (фрейму) из базы знаний.

3. Исследование модели понимания на материале спонтанной русской речи методом J1CA показало, что вопрос определения количества главных факторов в значительной степени определяется целями, которые стоят перед исследователем: в том случае, если цель — выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70%; в случае, если необходимо найти тематически близкие документы или для выявления ассоциативной лексики, резко не сокращая при этом количество факторов, то сингулярные значения следует уменьшить примерно на 20%.

Апробация работы

Результаты исследований были представлены в докладах на следующих отечественных и международных конференциях и симпозиумах: семинар, посвященный памяти В.И. Галунова: «Речевые исследования и технологии: настоящее и будущее», 2007, Санкт-Петербург; Вторая международная конференция по когнитивной науке 2006, Санкт-Петербург; XXXIII Международная Филологическая Конференция, 2005, Санкт-Петербург; Международная конференция «SpeeCom 2004» и «SpeeCom 2002», Санкт-Петербург;. XV сессия российского акустического общества 2004, Нижний Новгород; XIII сессия российского акустического общества 2003, Москва; Международная конференция «Диалог 2003», Протвино;

Международная конференция «Когнитивное моделирование в лингвистике — 2002», Казань; Международный симпозиум «Акустика детской речи», 2002, Санкт-Петербург.

Материалы, касающиеся данной диссертационой работы опубликованы в четырех периодических изданиях: двух российских и двух зарубежных, в том числе три из них в рецензируемых изданиях из списка ВАКа: «Вестник СПбГУ», «Cognitive Neuroscience and Neuropsychology» и «Brain Research» (на основании системы цитирования «Web of Science», см. перечень рецензируемых научных журналов и изданий ВАК от 21 апреля 2008 г.).

Четырнадцать научных статей опубликованы в сборниках научных конференций, три из них на английском языке.

Структура и объем работы

Диссертационная работа содержит введение, 5 глав, заключение, список литературы и приложение. Работа изложена на 165 страницах машинописного текста. Текст диссертации проиллюстрирован 9 рисунками и 7 таблицами. Библиографический указатель состоит из 116 источников, из них - 58 на русском, 52 - на английском и 6 - на французском языках.

 

Заключение научной работыдиссертация на тему "Моделирование процессов понимания речи с использованием латентно-семантического анализа"

5.5.3. Основные выводы из результатов тестирования

Проведенное исследование показало, что вопрос определения количества главных факторов в значительной степени зависит от целей, которые ставит перед собой исследователь: если нашей целью является выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70%; если же мы хотим найти похожие документы для их объединения (например, при добавлении новых тем) или для выявления ассоциативной лексики, сильно не уменьшая количество факторов, то сингулярные значения следует сокращать примерно на 20%.

5.6. Достоинства и недостатки модели

Одним из основных достоинств модели, основанной на ЛСА, является автоматическое решение проблемы омонимии. Эта проблема — одна из самых существенных при создании моделей типа «Смысл-Текст», ее разрешение является очень трудоемким и достигается только методами формального описания языка. В JICA омонимичность может возникать только в пределах одного документа, поскольку разным значениям слова соответствуют разные документы (после JICA) с соответствующими семантическими связями, но даже в этом случае, как показано в работах [Kintsch 2001; Kintsch, Bowles 2002], омонимичность может быть снята исследованием контекста и ассоциативных связей.

В соответствии с представлениями современной нейрофизиологии о механизмах восприятия речи [Pulvermiiller, Shtyrov 2006] эта модель представляет первичный этап анализа понимания: процесс ассоциативного отношения сегмента к неким эталонам и принятия решения по выбранной мере близости его принадлежности тому или иному фрейму из базы знаний. Модель понимания не учитывает лексических значений сегментов (как базовых, так и новых), а лишь ассоциативную связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду. Это говорит о независимости модели от грамматики, и, в частности, синтаксиса, что делает ее непродуктивной в смысле понимания риторических фигур, идиоматических выражений, сложных грамматических конструкций.

Действительно, если риторические фигуры и идиоматические выражения не были включены в обучающую выборку, то с помощью этой модели можно определить (до определенной степени), что это метафора, но зачастую возникают трудности с интерпретацией [Kintsch, Bowles 2002]. Это говорит об этой модели, как первичной в онтогенетическом смысле: известно, что дети до определенного возраста (5-7 лет) не понимают метафор.

Вследствие аграмматичности представленной модели ее можно назвать «правополушарной» (в смысле работы мозговых функций). Для этого есть несколько оснований. Прежде всего, отсутствие грамматики приводит к тому, что это будет модель понимания на уровне языка-пиджина, который возникает на первых этапах изучения иностранного языка взрослыми, при некоторых видах афазии, а также подобен структуре детской речи в раннем онтогенезе. Такой язык грамматически неустойчив: он содержит большое количество ошибок, является медленным и сильно зависит от внешнего контекстуального окружения. По всей видимости, за порождение и восприятие сложных грамматических конструкций отвечает другой, онтогенетически более поздний механизм, что связано с возникновением в левом полушарии некоторых новых механизмов, надстраивающихся над пространством возникшей категориальности. Таким образом, эта модель претендует на раннюю дограмматическую (или категориальную) стадию.

Значительным недостатком этой модели, как и абсолютно всех моделей понимания, является невозможность введения или хотя бы определения доминанты (или мотивированности, как это было показано в исследованиях [Wolfe et al. 1998], см. п. 4.2.4). Конечно, это можно сделать, меняя весовые функции ключевых слов (что, по сравнению со многими моделями, является действительно достоинством этой модели), но пока непонятна автоматизация этого процесса. Возможно, такое понятие будет применимо в комплексных моделях с учетом визуально-тактильных модулей.

Наконец, практическим недостатком этой модели, как указывалось выше, является значительное увеличение трудоемкости вычислений при значительном увеличении объема входных данных.

5.7. Дальнейшее развитие модели

Наиболее интересным направлением дальнейшего развития модели может стать использование некоторых результатов из области теории сложных систем (исследования открытых нелинейных динамических систем в режиме метастабильного хаоса). В физике уже делались попытки построить языковую модель на основе хаотических процессов [Николис 1989; Николис 2000; Соловьев 2002], но значительные результаты в этом направлении не были достигнуты ввиду сложностей, возникающих при первичной формализации языка в соответствии с математическими требованиями. Для данной модели выявление главных факторов аналогично возникновению аттракторов в метастабильной системе. Возможно, это может послужить для дальнейшего развития динамических характеристик модели.

Еще одним направлением развития модели является попытка совместить вероятностные модели языка и JICA. Такие совмещенные модели уже были описаны для автоматической кластеризации методом JICA [Pedersen, Kulkarni 2005], где весовые функции определялись с учетом биграммных моделей. К сожалению, в статье не приведены оценочные характеристики результатов анализа.

В работе [Hofmann 1999] был описан метод латентно-семантического вероятностного индексирования документов. Было показано, что применение вероятностных моделей улучшает результаты индексирования и уменьшает точку ветвления (perplexity) за счет уменьшения шума — слов, не несущих большой семантической нагрузки.

Для данного исследуемого материала были построены различные п-граммные модели, получены значения энтропии и точки ветвления (perplexity). Для биграммной модели значение энтропии составило 5,28 бит, perplexity - 38,98; для трехграммной 4,33 бит и 20,13 соответственно, и для четырехграммной модели - 4,86 бит и 29,11; с извлечением низкочастотных слов из текста энтропия и perplexity незначительно уменьшались; вычисления велись с учетом тегов начала-конца высказывания. Пока не разработан алгоритм объединения или использования вероятностных результатов в ЛСА применительно к модели понимания.

Другой, более практический вариант для развития данной модели можно найти в работах В.Кинтча [Kintsch 1988; Kintsch 2002]. В первой статье он объединил свою интеграционную модель [Kintsch 1988] и метод ЛСА. Он разделяет уже имеющееся знание, на котором базируется ЛСА, и вновь поступающую информацию, которую модель должна интерпретировать. При этом возникает вопрос: как модель должна представлять новые знания, которые не были в нее заложены. Для этого он исследовал два метода: центроидный метод и метод предикации. Центроидный метод основан на выявлении центроида — вектора, вычисляемого как среднее арифметическое векторов всех документов кластера. Метод предикации подразумевает выявление пропозициональной функции внутри документа. После этого производится латентно-семантический анализ термы-на-термы, т.е. поиск близких термов для центроида или предиката. Найденные с помощью такого анализа соседние по ассоциативности термы из контекста могут интерпретировать новую информацию. Исследования В.Кинтча показали, что для коротких предложений оба метода дают приблизительно одинаковые результаты, но для длинных предложений предпочтительнее препозиционный метод.

Другим предметом исследования В.Кинтча были предложения с активным и пассивным залогом. Известно, что ЛСА не различает такие предложения, т.е. ЛСА в силу своей статистической природы не может находить грамматические и синтаксические различия16. Центроидный метод не привел к улучшениям при обнаружении инверсных предложений, в то время как метод пропозиции отчасти смог выявить пропозициональные отношения.

Если модель с использованием JICA дополнить модулем грамматического анализа предложения, это может улучшить механизм понимания, переведя его с дограмматического уровня на следующий, онтогенетически более высокий.

В другой своей статье [Kintsch 2002] предлагает в качестве эталонной базы использовать некий набор макроправил, по которым определяется тематика. Он определяет эти правила как ментальные представления о тексте, описывающие тематическую ситуативность. Эти представления помогают нам объяснить то, что дано, но они не являются сами по себе алгоритмами или вычислительными процедурами, которые автоматически порождаются макропропозициями из текста. При этом метод JICA не позволяет провести глубокий препозиционный и синтаксический анализ текста, пишет в заключении В. Кинтч.

Таким образом, предложенную модель можно назвать первоначальной в развитии механизма понимания. Дальнейшее развитие модели требует тщательных и обширных исследований в смежных областях науки (психологии, физиологии высшей нервной деятельности, теории сложных

16 См. сноску 1. систем и т.д.) и более глубокого понимания когнитивных процессов, обеспечивающих понимание.

Заключение

В ходе работы были получены следующее результаты:

1. На основании рассмотренных аспектов понимания и экспериментальных результатов по изучению восприятия речи мозгом человека выдвинута гипотеза, что процесс восприятия и обработки информации происходит в два этапа. Первый этап — этап непроизвольного восприятия, позволяющий вычленить ситуативность или категориальность входящей информации, этап первичной семантической обработки, который позволяет отнести входящее сообщение к той или иной ситуации. На этом этапе происходит принятие решения на уровне доступа к информационным процессам, разворачивающимся в базовом пространстве (мозге человека). Второй этап — этап включения дополнительных механизмов для успешной обработки полученной информации (семантический, синтаксический и

17 грамматический анализ).

В работе дано определение механизмов понимания речи в контексте их дальнейшего моделирования: понимание речи — это сегментация и интерпретация входящего сигнала (в данном случае речевого). Понятие интерпретации, как одного из двух видов интеллектуальных операций, основано на определении Р.Якобсона. Сегментация определена как

17 См. сноску 1. вычленение части (интегральных и дифференциальных признаков) из целого. Предложены некоторые возможные единицы сегментации для процесса понимания речи (КФ и ФС), определены возможности реализации единиц сегментации.

На основании описания работы механизмов и определения понимания речи предложена модель первичного этапа понимания, указаны основные свойства, которые должны быть присущи предполагаемой модели: модель должна представлять собой некий набор ситуаций, подобно фреймам, которые активируются и могут быть скорректированы по мере поступления новой информации. Иными словами, модель должна иметь базу, состоящую из определенным образом структурированных лексических единиц, которые связаны между собой по определенным правилам, причем эти связи можно менять динамически (в процессе работы). Процесс понимания можно разбить на два этапа: дограмматический (или имеющий латентную грамматику, т.е. включенную в лексические единицы: ФС или КФ) грамматический, на котором подключаются механизмы обработки синтаксиса, словоизменения и др. На первом этапе понимания учитываются не лексические значения сегментов (как базовых, так и новых), а лишь ассоциативная связность сегментов в базе и принадлежность новой информации к тому или иному ассоциативному ряду. Приписывание определенного значения сегменту и выявление истинности этого значения относительно высказывания в целом происходят на втором этапе.

Таким образом, модель первичного этапа понимания должна работать по алгоритму семантического и ассоциативного отношения сегмента к эталонам, хранящимся в базе, и принятия решения (по выбранной мере близости) о принадлежности этого сегмента к тому или иному фрейму из базы знаний.

2. Рассмотрены некоторые методы и алгоритмы создания эталонных баз данных, необходимых для систем понимания речи. На основе предложенных критериев выбора для создания эталонной базы использован метод латентно-семантического анализа.

Одним из наиболее важных критериев точности работы механизмов понимания является снятие проблемы омонимичности словоформ. Из рассмотренных методов и алгоритмов классификации / кластеризации документов (текстов) наиболее удовлетворяющим данным условиям является метод JICA. Он не только является эффективным для выявления скрытых ассоциативных зависимостей, но и автоматически ликвидирует лексическую омонимичность словоформ, попавших в разные тематики. Кроме того, метод является достаточно гибким в настройке, что позволяет легко менять параметры в зависимости от поставленной задачи.

3. На материале базы образцов спонтанной русской речи предложен вариант модели понимания речи с использованием латентно-семантического анализа. Представлены результаты исследования.

Проведен сравнительный анализ векторного метода (при разных соотношениях обучающей и тестируемой частей базы) и SVD-анализа (при разном сокращении сингулярных значений диагональной матрицы).

Общее количество правильно классифицированных сообщений для векторного метода при использовании в качестве тестовой базы всего корпуса составило 88,1%. Тестирование проводилось при разном соотношении обучаемой и тестовой частей базы.

Было проведено аналогичное исследование для векторного пространства, полученного посредством SVD-анализа с сокращением сингулярных значений диагональной матрицы. При сокращении сингулярных значений диагональной матрицы точность соответствия входящих сообщений соответствующим темам снизилась. Точность определения тематик с ярко выраженными главными факторами возросла. Таким образом, если сообщения, не соответствующие теме данного документа, считать соответствующими тому фактору, к которому они теперь принадлежат, то точность классификации повышается до 91%.

Исследования также показали, что с сокращением сингулярных элементов диагональной матрицы количество факторов уменьшается (для 60% было выявлено 12 факторов, для 73% — 8 факторов). При этом точность классификации для рубрик, которые стали «аттракторами» для выявления главных факторов, выросла, а у некоторых достигла 100%. Однако с уменьшением количества главных факторов некоторые рубрики, объединенные в один фактор, не соответствуют друг другу и уже недостаточно точно описывают ситуативность модели.

Таким образом, вопрос определения количества главных факторов в значительной степени зависит от целей, которые ставит перед собой исследователь: если нашей целью является выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70% (± 10%); если же необходимо найти похожие документы для их объединения (например, при добавлении новых тем) или для выявления ассоциативной лексики, сильно не уменьшая количество факторов, то сингулярные значения следует сокращать примерно на 20%.

Подводя итог проделанной работе, можно сделать следующие выводы:

1) Процесс понимания состоит из двух этапов обработки информации: первичного этапа непроизвольного восприятия, с помощью которого определяется ситуативность или категориальность входящей информации, и вторичного этапа, на котором производится дополнительная (семантическая, синтаксическая, морфологическая) обработка распознанного сегмента. Это следует учитывать при моделировании механизмов понимания.

2) Первичный этап обработки информации представляет собой алгоритм семантического и ассоциативного соотношения сегмента с эталонами из базы знаний по выбранному правилу (в данном случае, по евклидовой мере близости данного сегмента к той или иной ассоциативно-семантической категории).

3) Латентно-семантический анализ является достаточно гибким и точным методом для реализации первичного этапа обработки входящей информации в системах автоматического понимания речи.

 

Список научной литературыСоловьев, Алексей Николаевич, диссертация по теме "Прикладная и математическая лингвистика"

1. Бахтин М.М. К методологии гуманитарных наук / Бахтин М.М. Эстетика словесного творчества. М.: «Искусство», 1979.

2. Бехтерева Н.П. Магия творчества и психофизиология: факты, соображения, гипотезы. СПб.: РАН; ИМЧ, 2006.

3. Ван Дейк Т.А., Кинтч В. Стратегии понимания связанного текста // Новое в зарубежной лингвистике / Гл. ред. В.А. Звегинцева. Вып. 13. М.: «Прогресс», 1988. С. 153-211.

4. Венцов А.В., Касевич В.Б. Проблемы восприятия речи. М.: «УРСС», 2003.

5. Венцов А.В., Касевич В.Б., Ягунова Е.В. Корпус русского языка и восприятие речи // Научно-техническая информация. Сер. 2. 2003. № 6. С.25-32.

6. Выготский Л.С. Мышление и речь. М.: «Лабиринт», 2005.

7. Выготский JT.C. Вопросы детской психологии. СПб.: «СОЮЗ», 2006.

8. Ю.Галунов В.И. Бионическая модель системы распознавания речи // Исследование моделей речеобразования и речевосприятия / Под ред. В.И. Галунова. Д., 1981. С.36-52.

9. Галунов В.И. Язык и системы автоматического понимания речи // Восприятие языкового значения. Межвузовский сборник / Калининград: КГУ, 1980. С. 10-21.

10. Галунов В.И., Евдомаха А.В., Кочанина Ю.Л., Остроухов А.В., Разумихин Д.В., Соловьев А.Н. Коллекция речевых баз данных // XXXIII Международная Филологическая Конференция 2005. Тезисы докладов. СПб.: Изд-во СПбГУ, 2005а. С.15-16.

11. Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи // Информационные технологии и вычислительные системы. Вып. 2. М., 2004. С.41-45.

12. Гаспаров Б.М. Язык, память, образ. Лингвистика языкового существования. М.: «Новое Литературное Обозрение», 1996.

13. Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.

14. Демьянков В.З. Фреймовая семантика // Краткий словарь когнитивных терминов / Кубрякова Е.С., Демьянков В.З.,

15. ПанкрацЮ.Г., Лузина Л.Г. Под ред. Е.С. Кубряковой. М.: Филологический факультет МГУ, 1996. С. 189-191.

16. Кант И. Критика чистого разума. М.: «Наука», 2000.

17. Кириченко К.М., Герасимов М.Б. Обзор методов кластеризации текстовых документов // Компьютерная лингвистика и интеллектуальные технологии. Сб. научных статей / Под ред. А.С. Нариньяни. М.: Наука, 2001. Т. 2. С.161-165.

18. Колмогоров А.Н. Автоматы и жизнь // Квант. Вып. 64. М.: Наука, 1988. С.43-62.

19. Колмогоров А.Н., Прохоров А.В. Статистика и теория вероятностей в исследовании русского стиха // Симпозиум по комплексному изучению художественного творчества. М., 1963. — С.23.

20. Крылов С.А. Делимитация тактов в русском письменном тексте // Труды международной конференции «Корпусная лингвистика-2006». СПб.: Изд-во СПбГУ, 2006. С.54-55.

21. Крылов С.А., Ягунова Е.В. Квантитативный подход к выделению инвентарных единиц языка // Вторая международная конференция по когнитивной науке. Тезисы докладов. Т. 1. СПб., 2006. С.329-330.

22. Ламб С.М. О нейрокогнитивной лингвистике // Лекции по когнитивным наукам / Вып. 6. Ред. В.Д. Соловьев. Казань: Отечество, 2003.

23. Лотман Ю.М. О двух моделях коммуникации в системе культуры // Лотман Ю.М. Статьи по семиотике и типологии культуры. Т. 1. / Таллинн: «Александра», 1992а. С.76-90.

24. Лотман Ю.М. О семиосфере // Лотман Ю.М. Статьи по семиотике и типологии культуры. Т. 1. / Таллинн: «Александра», 1992b. С. 1125.

25. Мартемьянов Ю.С. Логика ситуаций. Строение текста. Терминологичность слов. М.: «Языки славянской культуры», 2004.

26. Мартин Н., Ингленд Дж. Математическая теория энтропии. М.: «Мир», 1988.

27. Масленникова Е. Фреймовое представление семантики текста // Лингвистический вестник. Вып. 2. Ижевск: УМО «Sancta lingua», 2000.-C.l 14-124.

28. Мельчук И.А. Опыт теории лингвистических моделей «Смысл-текст». М.: «Языки русской культуры», 1999.

29. Митрофанова О.А. Измерение семантической информации в тексте на основе анализа латентных связей // Труды Международной конференции «MegaLing-2005»: Прикладная лингвистика в поиске новых путей. СПб., 2005. С.80-89.

30. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.

31. Николис Дж. Хаотическая динамика лингвистических процессов и образование паттернов в поведении человека. Новая парадигма селективной передачи информации // Синергетическая парадигма. М.: «Прогресс-Традиция», 2000. С.426-434.

32. Николис Дж. Динамика иерархических систем. Эволюционное представление. М.: «Мир», 1989.

33. Павилёнис Р.И. Проблема смысла: Современный логико-философский анализ языка. М.: «Мысль», 1983.

34. Пятигорский А. Мышление и наблюдение. Рига: «Liepnieks Ritups», 2002.

35. Разумихин Д.В. Использование нейронных сетей на уровне семантики в системе распознавания речи // Сборник докладов IV Всероссийской конференции «Нейрокомпьютеры и их применение -2001». М.: Радиотехника, 2001b. С.208-211.

36. Разумихин Д.В. Разработка системы понимания устной речи в диалоге // Компьютерная лингвистика и интеллектуальные технологии. Сб. научных статей. Т. 2. / Под ред. А.С. Нариньяни. М.: Наука, 2001а. С.323-329.

37. Разумихин Д.В., Соловьев А.Н. Системы автоматического распознавания речи с различными моделями организации диалога //

38. Сб. научных сообщений XIII сессии Российского акустического общества. М.: ГЕОС, 2003. С. 141-144.

39. Соловьев А.Н. Возможность интерпретации семиотических механизмов естественного языка // Обработка текста и когнитивные технологии. Сб. научных статей / Под ред. Соловьева В.Д. Казань: Отечество, 2002. С.233-245.

40. Соловьев А.Н., Галунов В.И. Мышление, язык и системы автоматического понимания речи // Вторая международная конференция по когнитивной науке. Тезисы докладов. Т. 2. СПб., 2006. — С.437-439.

41. Соссюр Ф. Курс общей лингвистики. М.: УРРС, 2004.

42. Том Р. Топология в лингвистике // Успехи математических наук. 1975. Т. XXX. Вып. 1.-С.199-221.

43. Ухтомский А. Доминанта. СПб.: «Питер», 2002.

44. Филлмор Ч. Фреймы и семантика понимания // Новое в зарубежной лингвистике. Вып. XXIII. Когнитивные аспекты языка / Гл. ред. Звегинцев В.А. М.: «Прогресс», 1988. С.52-92.

45. Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы. 2002. Т. 6. Вып. 1-4. С.381-394.

46. Черниговская Т.В., Балонов Л.Я., Деглин В.Л. Билингвизм и функциональная асимметрия мозга // ТЕКСТ И КУЛЬТУРА. Труды по знаковым системам XVI. Тарту, 1983. С.62-83.

47. Черниговская Т.В., Деглин В.Л. Проблема внутреннего диалогизма (нейрофизиологическое исследование языковой компетенции) // Ученые записки Тартуского Университета. Труды по знаковым системам. Вып. 17. Тарту, 1984. С.62-83.

48. Шеннон К. Работы по теории информации и кибернетике. М.: «Издательство иностранной литературы», 1963.

49. Щерба Л.В. О трояком аспекте языковых явлений и об эксперименте в языкознании // Языковая система и речевая деятельность. Л., 1974. С.24-39.

50. Ягунова Е.В. Опорные элементы в восприятии текста // Вторая международная конференция по когнитивной науке. Тезисы докладов. Т. 1. СПб., 2006. С.489-491.

51. Якобсон Р. Два вида афатических нарушений и два полюса языка // Язык и бессознательное. М.: «Гнозис», 1996. — С.27-52.

52. Якобсон Р. Лингвистика и поэтика // Сб. Структурализм: «за» и «против». М.: «Прогресс», 1975. С.193-203.

53. Arbib М.А. The mirror system, imitation, and the evolution of language // Imitaion in animals and artifacts / Eds. Nahaniv C., Dautenhahn K. Cambridge (MA): The MIT press, 2002. P.229-280.

54. Bestgen Y., Cabiaux A.F. L'analyse semantique latente et 'identification des metaphores // Actes de la 9eme Conference annuelle sur le traitement automatique des langues naturelles. Nancy: INRIA, 2002. P.331-337.

55. Black E., Jelinek F., Lafferty J., Magerman D.M., Mercer R., Roukos S. Towards History-Based Grammars: Using Richer Models for Probabilistic Parsing // Proceedings of the 5th DARPA Speech and Natural Language Workshop. Harriman, NY, 1992. P.31-37.

56. Brown P.F., Delia Pietra V.J., de Souza P.V., Lai J.C., Mercer R.L. Class-Based N-Gram Models of Natural Language // Computational Linguistics. 1992. 18(4).-P.467-479.

57. Chomsky N. On nature and language. New York: Cambridge University Press, 2002.

58. Colin Ph. Levels of representation in the electrophysiology of speech perception // Cognitive Science: A Multidisciplinary Journal. 2001. Vol. 25. No. 5.-P.711-731.

59. Cristianini N., Shawe-Taylor J., Lodhil H. Latent Semantic Kernels // Journal of Intelligent Information Systems. March 2002. V. 18. N. 2-3. -P.127-152.

60. Deacon T.W. The Symbolic Species: The Co-Evolution of Language and the Brain. New York: Norton W.W. & Company, 1997.

61. Deerwester S., Dumais S.T., Furnas G.W., Landauer Т.К., Harshman R. Indexing by Latent Semantic Analysis // Journal of the American Society for Information Science. 1990. 41(6). -P.391-407.

62. Denhiere G., Lemaire B. A Computational Model of a Child Semantic Memory // Proceedings of the 26th Annual Meeting of the Cognitive Science Society. 2004a . P.297-302.

63. Denhiere G., Lemaire B. Modelisation des effets contextuels par l'analyse de la s6mantique latente // J.M.C.Bastien (ed.) Actes des Deuxiemes

64. Journees d'etude en Psychologie Ergonomique (EPIQUE 2003). Roquencourt: INRIA, 2003. -P.289-294.

65. Denhiere G., Lemaire B. Representing children's semantic knowledge from a multisource corpus // Proceedings of the 14th Annual Meeting of the Society for Text and Discourse, Chicago, August 1-4 2004b. P.10-13.

66. Denhiere G., Lemaire В., Bellissens C., Jhean-Larose S. Psychologie cognitive et comprehension de texte: une demarche theorique et expdrimentale // S.Porhiel, D.Klinger (eds.). L'unite texte. Pleyben: Perspectives, 2004. -P.74-95.

67. Dessus P. Verification semantique de liens hypertextes avec LSA Hypertext Links Semantic Verification with LSA. // J.-P.Balpe, A.Lelu, S.Natkin, I.Saleh (eds.). Hypertextes, hypermedias et internet (H2PTM'99). Paris: Hermes, 1999. P. 119-129.

68. Foltz P.W. Latent Semantic Analysis for text-based research. Behavior Research Methods // Instruments and Computers. 1996. 28-2. P. 197202.

69. Foltz P.W., Kintsch W., Landauer Т.К. The measurement of textual coherence with Latent Semantic Analysis // Discourse Processes. 1998. 25, 2-3. P.285-307.

70. Galunov V.I., Kochanina J.L., Soloviev A.N., Evdomakha A.V., Razumikhin D.V., Tropf H., Hoege H. Wideband speech database for Russian // International workshop "Speech and Computer" Proceedings. SPb., 2002. -P.l 13-117.

71. Given T. Bio-Linguistics: The Santa Barbara lectures. Amsterdam/ Philadelphia: John Benjamins Publishing Company, 2002.

72. Hofmann T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval, 1999. P.50-57.

73. Jakobson R. Essai de linguistique gёnёrale. Paris: Minuit, 1963.

74. Kintsch W. Metaphor comprehension: a Computational Theory // Psychonomic Bulletin & Review. 2000. 7(2). P.257-266.

75. Kintsch W. On the notions of theme and topic in psychological process models of text comprehension // M. Louwerse & W. van Peer (eds.). Thematics: Interdisciplinary Studies. Amsterdam: Benjamins, 2002. -P.157-170.

76. Kintsch W. Predication // Cognitive Science. 2001. 25-2. P. 173-202.

77. Kintsch W. The role of knowledge in discourse comprehension: A construction-integration model // Psychological Review. 1988. Vol. 95. № 2. — P.163-182.

78. Kintsch W., Bowles A.R. Metaphor comprehension: what makes a metaphor difficult to understand? // Metaphor and Symbol. 2002. 17. -P.249-262.

79. Kintsch W., Patel V.L., Ericsson K.A. The role of long-term working memory in text comprehension // Psychologia. 1999. 42. P. 186-198.

80. Kohonen Т., Kaski S., Lagus K., Salojarvi J., Honkela J., Paatero V., Saarela A. Self Organization of a Massive Document Collection // IEEE Trans. Neural Networks. May 2000. Vol. 11. No. 3. P.574-585.

81. Landauer Т.К., Dumais S.T. A solution to Plato's problem: The Latent Semantic- Analysis theory of the acquisition, induction, and representation of knowledge // Psychological Review. 1997. 104. -P.211-240.

82. Landauer Т., Foltz P., Laham D. An introduction to latent semantic analysis // Discourse Processes. 1998. 25. P.259-284.

83. Lemaire В., Bianco M. Contextual Effects on Metaphor Comprehension: ^Experiment and Simulation // Proc. of the 5th International Conferenceon Cognitive Modeling (ICCM'2003), Bamberg, Germany 2003. P.153-158.

84. Lemaire В., Denhiere G. Cognitive Models based on Latent Semantic Analysis // Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003. -P.23-25.

85. Magerman D.M. Statistical Decision-Tree Models for Parsing // Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, 1995. — P.276-283.

86. Marslen-Wilson W., Tyler L.K. Processing structure of sentence perception // Nature. 1975. 257. P.784-786.

87. Menning H., Zwitserlood P., Schoning S., Hihn H., Bolte J., Dobel C., Mathiak K., Lutkenhoner B. Pre-attentive detection of syntactic and semantic errors // Neuroreport. 2005. 16. P.77-80.

88. Pelleg D., Moore A. X-means: Extending K-means with Efficient Estimation of the Number of Clusters // Proceedings of the Seventeenth International Conference on Machine Learning, June 29-July 02, 2000. -P.727-734.

89. Pinker S., Jackendoff R. The faculty of language: what's special about it? // Cognition. 2005. 95. -P.201-236.

90. Pulvermiiller F. Brain reflections of word and their meaning // Trends in Cognitive Sciences. 2001. Vol. 5. No 12. P.517-524.

91. Pulvermiiller F., Assadollahi R., Elbert T. Neuromagnetic evidence for early semantic access in word recognition // European Journal of Neuroscience. 2001. Vol. 13. -P.201-205.

92. Pulvermiiller F., Shtyrov Y. Automatic processing of grammar in the human brain as revealed by the mismatch negativity // Neurolmage. 2003. 20. P.159-172.

93. Pulvermiiller F., Shtyrov Y. Language outside the focus of attention: The mismatch negativity as a tool for studying higher cognitive processes // Progress in Neurobiology 2006. 79. P.49-71.

94. Pulvermiiller F., Shtyrov Y., Ilmoniemi R.J. Brain Signatures of Meaning Access in Action Word Recognition // Journal of Cognitive Neuroscience. 2005. 17:6. -P.884-892.

95. Rizzolatti G., Arbib M.A. Language within our grasp // Trends in Neurosciences. 1998. 21. P. 188-194.

96. Shestakova A., Brattico E., Soloviev A., Klucharev V., Huotilainen M. Orderly cortical representation of vowel categories presented by multiple exemplars // Brain Research: Cognitive Brain Research. 2004. 21. -P.342-350.

97. Shtyrov Y., Hauk O., Pulvermiiller F. Distributed neuronal networks for encoding category-specific semantic information: the mismatch negativity to action words // European Journal Neuroscience. 2004. 19. -P.1083-1092.

98. Shtyrov Y., Pulvermuller F., Naatanen R., Ilmoniemi R.J. Grammar Processing Outside the Focus of Attention: an MEG Study // Journal of Cognitive Neuroscience. 2003. 15:8. P.l 195-1206.

99. Soloviev A.N., Victorova K.O., Razumikhin D.V. About using non-informational functions in model of speech communication // International workshop "Speech and Computer" Proceedings. SPb., 2002. — P.27-31.

100. Ukkonen E. Constructing Suffix Trees On-Line in Linear Time // Proceedings of the IFIP 12th World Computer Congress on Algorithms, Software, Architecture Information Processing '92, Volume 1. Amsterdam, The Netherlands, 1992. - P.484-492.

101. Wolfe M.B.W., Schreiner M.E., Rehder В., Laham D., Foltz P.W., Kintsch W., Landauer Т.К. Learning from text: Matching readers and texts by Latent Semantic Analysis // Discourse Processes. 1998. 25. -P.309-336.

102. Zwaan R.A. The Immersed Experiencer: Toward an Embodied Theory Of Language Comprehension // The Psychology of Learning and Motivation. 2004. Vol. 44. -P.611-619.

103. Zwaan R.A., Madden C.J. Updating Situation Models // Journal of Experimental Psychology: Learning, Memory, and Cognition. 2004. Vol. 30. No. 1. -P.283-288.

104. Zwaan R.A., Radvansky G.A. Situation Models in Language Comprehension and Memory // Psychological Bulletin. 1998. Vol. 123. No. 2. P.162-185.