автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения
Полный текст автореферата диссертации по теме "Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения"
На правах рукописи
Кобзарева Татьяна Юрьевна
Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения
Специальности 10.02.21 - прикладная и математическая лингвистика и 10.02 Л 9 - теория языка
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук
3 о ОПТ 2008
Москва- 2008
003451031
Работа выполнена на кафедре теоретической и прикладной лингвистики Российского государственного гуманитарного университета
Научный руководитель:
доктор технических наук профессор Леонтьева Нина Николаевна
Официальные оппоненты:
доктор филологических наук Перцов Николай Викторович
кандидат филологических наук Костыркин Александр Вячеславович
Ведущая организация: Институт проблем передачи информации им. А.А. Харкевича, РАН
Защита диссертации состоится 19 ноября в 14.00 на заседании совета по защите докторских и кандидатских диссертаций Д 212-198-08 при Российском государственном гуманитарном университете по адресу: 125993, ГСП-3 Москва, Миусская пл., д.6.
С диссертацией можно ознакомиться в библиотеке РГГУ
Автореферат разослан / о октября 2008 г.
Ученый секретарь Е,Е.Арманд
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Диссертация посвящена исследованию свойств линейной структуры русского предложения и применению этих свойств для иерархизации автоматического синтаксического анализа (СА) и создания эффективной системы СА. Экспериментальные реализации построенной системы подтверждают продуктивность найденного подхода.
В исследовании вводится новый аспект рассмотрения синтаксических явлений - уровень семантики линейного синтаксиса. Для этого уровня построена грамматика, позволившая разделить СА на несколько этапов и построить лингвистически обоснованную и процедурно удобную иерархию этапов.
Главной отличительной чертой работы является то, что построенная грамматика позволяет моделировать сегментную структуру предложения до начала анализа внутренней структуры сегментов, т.е. до построения большей части связей между словами.
Актуальность исследования
Хотя задача СА, необходимого для всех систем машинного перевода и автоматического понимания текстов, была поставлена более полувека назад, устойчивой и общепринятой системы СА до сих пор не создано. Чтобы продвинуться в ее решении, сегодня необходимо не только совершенствовать имеющиеся наработки, но и находить новые подходы - как в теоретическом плане, так и в плане практическом.
СА сталкивается с множеством разнородных явлений, исследование каждого из которых имеет самостоятельный лингвистический смысл. Актуальность избранного в диссертации теоретического подхода обусловлена назревшей необходимостью создания для СА особой грамматики, систематически описывающей семантику линейного синтаксиса и позволяющей построить лингвистически обоснованную иерархию задач СА. Эту грамматику можно использовать при разных конечных целях анализа.
Цель и задачи исследования
Целью диссертации в теоретическом аспекте является исследование семантики линейного синтаксиса русского предложения (РП) и создание грамматики его линейной структуры, а в прикладном аспекте - разработка на этой основе иерархически организованной модульной системы СА, позволяющей правильно интерпретировать линейную структуру РП, минимально используя лексико-семантическую информацию.
Для достижения поставленной цели в диссертации решаются следующие проблемы:
1. Исследуются свойства линейной структуры РП, обусловленные проективностью и рекурсивностью подчинительных и сочинительных связей.
2. На основании результатов этого исследования строится лингвистически и процедурно обоснованная иерархия задач синтаксического анализа.
3. Создается грамматика, описывающая семантику линейного синтаксиса и служащая основой решения каждой из задач СА. Главная специфика этой грамматики состоит в том, что моделирование сегментной организации РП, состоящего из любого числа любых сегментов, предшествует анализу внутренней структуры сегментов.
4. Каждой из задач СА соответствует свой фрагмент грамматики -идеальные модели рассматриваемых явлений и грамматические ситуации линейного контекста, которые позволяют интерпретировать возможные манифестации этих идеальных моделей в тексте.
5. На основе грамматики для каждого модуля создаются алгоритмы, строящие синтаксическую структуру единиц соответствующего уровня анализа.
6. Исходя из задач синтаксического анализа уточняются и решаются проблемы предсинтаксического анализа.
Объект исследования - линейная организация предложений в русских письменных текстах, не являющихся записью или имитацией устной речи.
Предмет исследования - универсальные и специфические свойства линейной структуры РП, определяющие возможность иерархизации синтаксического анализа - построения процедурно удобной и лингвистически обоснованной иерархии модулей синтаксического анализа.
Материалом для проверки теоретических гипотез и возможностей алгоритмических стратегий служил наиболее лингвистически трудный материал, выбранный из художественных текстов (в основном проза О.Мандельштама, В.Набокова, М.Булгакова, Л.Н.Толстого), газетной и журнальной публицистики, энциклопедических статей.
Новизна исследования
Теоретическая новизна работы состоит в том, что в качестве лингвистического базиса СА избрано детальное исследование особого среза синтаксиса - семантики линейной структуры РП и построена грамматика, описывающая эти явления.
Благодаря этому впервые оказалось возможным уже на этапе, предшествующем моделированию структуры отдельных сегментов, автоматически сегментировать РП любой сложности на фрагменты,
внутри которых могут быть эффективно использованы методы СА, основанные на классических «однопредикатных» моделях, восходящих к концепции Л.Теньера.
Подобный подход обусловил и прикладную новизну работы. позволив разработать принципиально новую лингвистически обоснованную иерархию этапов СА, каждый из которых осуществляется одним из независимых модулей, работающих в жестком порядке. На этапе сегментации строятся простые, главные и придаточные предложения, деепричастные, причастные и другие обороты, обособляемые по правилам русской пунктуации. Этот этап эффективно осуществляется в предложениях с любыми допустимыми комбинациями любого числа любых сегментов перед построением большей части связей слов и сегментов. Для охвата любых естественных текстов в диссертации систематически рассмотрены проблемы предсинтаксического анализа, в частности, значимая для СА омонимии частей речи. Создана типология такой омонимии в русском языке в рамках словника «Грамматического словаря» А.А.Зализняка, определены грамматические методы ее разрешения, и разработаны алгоритмы для типов, наиболее важных для анализа.
Новизна работы заключается также в широком лингвистически обоснованном применении для СА алгоритмов рекурсивного типа.
Теоретическая значимость исследования
Теоретическая значимость работы заключается в углублении наших представлений о сложности синтаксического уровня языка и разнообразии взаимодействующих на этом уровне механизмов.
Исследование позволило описать многие феномены линейной структуры РП и в то же время показало, как их использование может путем иерархизации анализа существенно облегчить решение различных проблем СА, в частности избежать построения в ходе анализа ложных гипотетических связей, тем самым предупреждая возможность комбинаторного взрыва.
В результате построения сегментов в рассмотрение вводится новый объект — граф сегментов предложения. Его введение, во-первых, облегчает реализацию последующих этапов СА и, во-вторых, может служить основой для дальнейшего исследования семантики линейного синтаксиса многосегментного предложения.
Прикладная значимость исследования
Разработана новая иерархия этапов автоматического СА русского предложения - два модуля предсинтаксического и четыре модуля СА. Модули предсинтаксического анализа:
1. постморфология - этап решения несловарных проблем морфологического анализа;
2. разрешение омонимии частей речи.
Модули собственно синтаксического анализа:
1. предсегментация - построение связей слов, определяющих единицы линейной структуры при сегментации, в частности, проективные фрагменты именных и предложных групп;
2. сегментация - построение сегментов;
3. внутрисегментный анализ - построение графа связей слов внутри сегментов;
4. межсегментный анализ - установление связей между сегментами.
Впервые создана линейная грамматика сегментной структуры РП и на ее основе в модуле сегментации реализованы рекурсивные процедуры, позволяющие строить сегменты в РП любой сегментной структуры.
Разработан подход, позволяющий, благодаря иерархизации анализа и использованию на каждом этапе анализа свойств линейной структуры РП, строить на каждом уровне анализа только синтаксически правильные интерпретации.
Лингвистически обоснованы новые алгоритмические стратегии анализа - разработаны рекурсивные алгоритмы, доказавшие при экспериментальных реализациях перспективность подхода. В настоящее время система суммарно включает в себя 69 алгоритмов и подпрограмм.
На основе словаря типов омонимии частей речи и линейной грамматики этих явлений для самых больших групп и самых существенных для СА типов такой омонимии разработан универсальный для письменного русского языка модуль их разрешения.
Основные результаты исследования, выносимые на защиту.
1. Исследованы важные для С А свойства проективности и рекурсивности подчинительных и сочинительных связей с точки зрения их манифестации в линейной структуре предложения.
2. На основе этих свойств разработана лингвистически обоснованная и алгоритмически эффективная иерархия этапов СА.
3. Создана грамматика линейного синтаксиса, служащая основанием для реализации всех этапов СА. Она позволяет строить сегменты перед анализом связей внутри каждого из однопредикатных высказываний, составляющих многосегментное предложение. Для такого построения используются функции знаков препинания, их омонимия и синонимия, построена идеальная модель и описаны контекстные условия, определяющие значения текстовых манифестаций этой модели.
4. Соответственно разработанной иерархии задач построена система СА, состоящая из шести независимых модулей, включающая два предсинтаксических (постморфология и разрешение омонимии частей речи) и четыре синтаксических (предсегментация, сегментация, внутрисегментный анализ, межсегментный анализ) модуля. Иерархия процедур и использование свойств линейной
структуры в ходе анализа позволяют строить только истинные интерпретации, что минимизирует вероятность комбинаторного взрыва, возможного при формальном исчисляющем подходе.
5. Предложен и последовательно осуществлен рекурсивный принцип анализа разного типа проективных рекурсивных линейных структур.
6. Созданы модели линейной структуры проективных фрагментов именных и предложных групп (ИГ и ПГ) и рекурсивная стратегия их анализа, позволяющие с учетом возможных синтаксических неоднозначностей строить их проективные фрагменты любой степени сложности.
7. Создан базис для систематического решения уже в предсинтаксических модулях важнейшей для СА проблемы омонимии частей речи. Для этого построен словарь релевантных для СА типов такой омонимии в русском языке (РЯ). Разработаны общие принципы ее разрешения по грамматическому контексту, построены алгоритмы для наиболее значимых типов такой омонимии, что позволило значительно уменьшить синтаксическую неоднозначность в собственно синтаксических модулях.
8. Построены алгоритмы для всех шести модулей СА (в настоящей версии системы - 69 алгоритмов). Из них пять первых модулей экспериментально реализованы и демонстрируют продуктивность разработанного подхода.
Практическая ценность работы
Грамматика линейного синтаксиса, модели и алгоритмы являются продуктивной базой для дальнейших теоретических и экспериментальных исследований в области СА, позволяющей совершенствовать и сам базис, и программные средства его реализации.
Разработанный подход позволяет минимизировать используемый при СА инструментарий и строить на каждом этапе анализа все и только синтаксически истинные варианты интерпретации предложения.
Программная реализация системы может служить аппаратом исследования специфики синтаксиса разных авторов и разных функциональных стилей и, в том числе, для изучения тенденций современных изменений в синтаксисе РЯ. По мере накопления материала она сможет использоваться как инструмент стилистической экспертизы.
Результаты исследования сегментной структуры и функциональных значений знаков препинания могут быть эффективно использованы как объясняющая модель при преподавании русского синтаксиса и для создания компьютерных обучающих программ.
Апробация и публикации
По теме диссертации автором опубликовано 26 работ. В 12 из них (в соавторстве) рассмотрены не только фрагменты лингвистического базиса, но и результаты экспериментальных программных реализаций системы, демонстрирующие продуктивность подхода.
Грамматику линейного синтаксиса и запрограммированные фрагменты системы автор диссертации использует в двух авторских курсах для студентов Отделения теоретической и прикладной лингвистики Института лингвистики РГГУ.
С использованием алгоритмов, разработанных в ходе данного диссертационного исследования, и при консультации автора были написаны 16 курсовых и 9 дипломных работ, а также выполнены и защищены 2 кандидатские диссертации. В настоящее время на базе алгоритмов системы аспиранткой Отделения иятеллектуальных систем в гуманитарной сфере РГТУ A.M. Баталиной и старшим преподавателем этого Отделения М.Е. Епифановым создана инструментальная среда, которая позволяет продолжить экспериментальные исследования линейного синтаксиса.
Основные положения диссертации были представлены в докладах на 14 национальных и международных конференций: на КИИ-2000 и КИИ-2002, 5-ой конференции "Информационное общество, информационные ресурсы и технологии телекоммуникации", ВИНИТИ, Москва, 2000; IV International Conference "Interactive Systems: Problems of Human-Computer Interaction". September 23-27, 2001; Мегалинг'2007; «НТИ-2007»; на конференциях «Диалог» в 2001-2008 гг. Работа прошла обсуждение на кафедре теоретической и прикладной лингвистики Российского государственного гуманитарного университета.
Работа была поддержана грантами ФЦП «Интеграция высшего образования и фундаментальной науки» - проект № 482, РФФИ -проекты № 03-06-80109 и № 03-06-80434.
Объем и структура работы
Диссертация содержит 192 страницы текста. Она состоит из введения, четырех глав, заключения, библиографии и приложений.
В первой главе содержится краткий обзор работ, заложивших основы современных синтаксических представлений и значимых для предлагаемого исследования, развитие этих представлений в современной лингвистике и современное состояние работ по СА.
Во второй главе рассмотрены применительно к линейной структуре предложения свойства проективности и рекурсивности подчинительных и сочинительных связей слов, позволяющие разбить всю процедуру СА на лингвистически обоснованные этапы и определить их иерархию.
В третьей главе описывается обоснованная грамматикой линейного синтаксиса иерархия этапов анализа, реализованных как
независимые модули, работающие в жестком порядке. Рассмотрены задачи каждого модуля, общие принципы и частные проблемы моделирования явлений линейного синтаксиса в каждом из модулей.
В четвертой главе рассмотрена линейная грамматика сегментной организации РП и моделирование на ее основе сегментной структуры. Описаны омонимия и синонимия русских знаков препинания (ЗП), идеальная модель сегментной структуры РП и рекурсивная процедура построения сегментов.
В заключении суммируются результаты исследования.
Далее следует Библиография.
В Приложении приведены 1) списки синтагм, 2) используемые в системе семантические классы и 3) общий список алгоритмов системы.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Первая глава (Автоматический синтаксический анализ русского предложения: история и современное состояние проблемы)
В первой главе представлен краткий обзор идей, важных для данной диссертации, и современного состояния работ по автоматическому СА русского предложения.
Идея механического перевода с языка на язык на основе языка-посредника, в котором понятия кодировались бы числами, возникла еще в 17 веке у Готфрида Лейбница. Тремя столетиями позже американские исследователи А.Бут и У.Уивер предложили использовать для автоматического перевода ЭВМ. В 1954 г. был проведен знаменитый Джорджтаунский эксперимент, после чего начались интенсивные исследования в области машинного перевода (МП). Скоро стало очевидно, что для МП необходимо решить задачи автоматического морфологического и синтаксического анализа.
Теоретические и прикладные исследования в области русского структурного синтаксиса до настоящего времени в значительной мере базируются на идеях А.М.Пешковского и Л.Теньера.
Колоссальная роль работы А.М.Пешковского исчерпывающе рассмотрена в предисловии Ю.Д.Апресяна к ее переизданию 2001-го года1. Не менее важны открытия Люсьена Теньера2: его идея «маленькой драмы» со своими действующими лицами и обстоятельствами - актантами и сирконстантами и синтаксической вершиной - сказуемым; введенное по аналогии с химией понятие валентности; представление синтаксической структуры предложения в виде графа связей слов (стеммы) с сохранением по горизонтали
' Пешковский А М. Русский синтаксис в научном освещении. Языки славянской культуры М2001
2 «Основы структурного синтаксиса» Люсьена Теньера увидели свет только в 1959 году, хотя проблемами общего синтаксиса он занимался с середины 30-х годов
линейного порядка слов, позволившее ему открыть свойство проективности; положение, что «в основании всего структурного синтаксиса лежит соотношение между структурным порядком и порядком линейным» и что «установить стемму предложения - значит преобразовать линейный порядок в структурный» и многое другое.
Первыми исследованиями по автоматическому синтаксическому анализу русского языка были работы И.А. Мельчука , Л.Н.Иорданской4 и О.С.Кулагиной5. В работах И.А.Мельчука и Л.Н.Иорданской ставились следующие задачи: 1. деление предложения на составляющие его простые высказывания (простые предложения, деепричастные и причастные обороты и т.д.); 2. различение синтаксической омонимии; 3. выделение фразеологизмов; 4. получение необходимой информации к частям сложных предложений и ко всему сложному предложению; 5. установление связей между словоформами и между частями сложного предложения.
Главной и все определяющей объявлялась последняя из задач, из нее вытекало решение остальных. Все гипотетически возможные связи строились в ходе единого процесса по словарю синтаксических конфигураций. Связей оказывалось в несколько раз больше, чем истинных и для отбрасывания ложных применялся фильтровый метод, предложенный ДЛесерфом6 и, независимо от него, разрабатываемый в отечественной школе Л.Н. Иорданской, Ф.АДрейзиным и О.С.Кулагиной.
Из идей, близких развиваемому в диссертации подходу, следует назвать следующие. В системе APT О.С.Кулагиной7 была предпринята попытка использовать в системе фильтров фрагментную структуру предложения, что без соответствующей грамматики оказалось неэффективным. Впервые некоторые свойства проективности сочинительных связей исследовала Е.В. Падучева8. А.В.Гладкий указал на недостатки возможностей синтаксического представления при
3 Мельчук И А Автоматический синтаксический анализ Т.1. — Новосибирск. Ред,-изд. отдел Сибирского отделения АН СССР, 1964
4 Иорданская Л Н Автоматический синтаксический анализ Т.2 Межсегментный синтаксический анализ. — Новосибирск ■ Наука, 1967.
5 Работа О.С. Кулагиной описана ею в «Исследованиях по машинному переводу» -М • Наука, 1979.
6ДЛесерф Применение программы и модели конфликтной ситуации к автоматическому синтаксическому анализу, - М: Научно-техническая информация, 1963, вып 10.
7 «Об автоматическом синтаксическом анализе русских текстов», препринт Ин-та прикладной математики им. М В Келдыша АН СССР № 205,М и «О синтаксическом анализе на основе предпочтений», препринт Ин-та прикладной математики им М В Келдыша АН СССР № 3,М
8 Е.В Падучева «О способах представления синтаксической структуры предложения»// В Я. 1964. N2 и «О порядке слов в предложениях с сочинением: сочинительная проективность» // НТИ Сер. 2,1971, №3
помощи непосредственно составляющих (НС) и деревьев зависимостей9.
Далее кратко охарактеризованы синтаксические компоненты в наиболее известных современных системах. СА в системе МП ЭТАП-1 и ЭТАП-210 группы Ю.Д. Апресяна в целом построен на принципах И.А.Мельчука и JI.H Иорданской.
В системе французско-русского автоматического перевода ФРАП в СА уже выделялся этап сегментации (правда, французского предложения)". В 1998-2001 гг. идеи ФРАП были развиты в системе АОТ группы Диалинг. В СА русского предложения в АОТ два модуля -сегментации (фрагментации, ориентированной на анализ наиболее вероятных структур) и построения синтаксических групп, работающие параллельно и обменивающиеся накопленными знаниями.
Система Treeton12 предназначена для морфосинтаксического анализа русского текста и использует формальную модель описания синтаксиса, сочетающую в себе формализмы зависимостей и составляющих (в духе А.В.Гладкого). Ее авторы А.С. Старостин и М.Г. Мальковский развивают подход Н.В.Перцова и С.А.Старостина13, предполагающий строить анализ в основном на морфологических характеристиках слов без использования семантики. Эта система при хорошо разработанном формализме только начинает искать решения лингвистических проблем СА.
Одной из важных, но не удавшихся попыток усовершенствовать СА была попытка О.С.Кулагиной и Т.Б.Агранат14 решить в общем виде
9 А.В Гладкий «Синтаксические структуры естественного языка в автоматизированных системах общения» М, 1985
10 Ю Д., Апресян, И М„ Богуславский, Д Л Иомдин, А В.Лазурский, Н В Перцов, В.З Санников, Л Л Цинман «Лингвистическое обеспечение системы Этап-2» М: Наука, 1989.
11 Н Н.Леонтьева «Система французско-русского автоматического перевода (ФРАП)" лингвистические решения, состав, реализация» - МГПИИЯ им М. Тореза Сборник научных трудов., Вып 271, М ,1986 и Е Г.Соколова «Об организации формализованного синтаксического представления в терминах членов предложения»//Сб научных трудов. Вып 271, МП и ПЛ Проблемы создания системы автоматического перевода. Москва - 1987, С 35-63.
12 А.С Старостин, М.Г Мальковский, Алгоритм синтаксического анализа, используемый в системе морфосинтаксического анализа «ТгееЬэп» // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2007 - М. Изд.РГГУ- С 516-524.
13 Н В.,Перцов, С.А. Старостин, О синтаксическом процессоре, работающем на ограниченном объеме лингвистических средств // Труды международной конференции Диалог'1999, т.2 - Таруса: 1999. С. 224-230.
14 Работы Агранат Т.Б, Кулагиной О .С Об электронном словаре сочетаемости сложносочиненных и сложноподчиненных предложений. "Труды Международного семинара Диалог'2001".т 2 - Аксаково 2001 - С.13-15 и О С. Кулагиной Об одном подходе к установлению отношений между простыми предложениями в составе
задачу сегментации русского предложения путем построения словаря возможных в РЯ комбинаций сегментов.
Кратко рассказано о вероятностном подходе к проблеме СА.
Вторая глава (Свойства проективности и рекурсивности и их роль в иерархизации синтаксического анализа-) посвящена рассмотрению структурных особенностей линейной организации русского предложения (Б), использование которых определяет как общую архитектуру системы, так и алгоритмические решения.
Свойство проективности - это свойство графа связей слов, определяемое линейным порядком слов, связанных отношениями подчинения или сочинения. Показано, что свойства проективности и рекурсивности являются основными свойствами, организующими линейную структуру русского Б. Идеальная структура графа связей слов внутри сегмента представляет собой иерархию вложенных проективных структур - «маленьких драм» по Л.Теньеру. Вершиной такой иерархии структур является предикативная вершина сегмента со своими актантами и сирконстантами. Каждый актант и\или сирконстант, выраженный именной или предложной группой (ИГ или ПГ) с существительным (Ы), имеющим согласованное определение -причастие, прилагательное или их синтаксический эквивалент (А) -может вводить в структуру свою «маленькую драму» со своими актантами и сирконстантами. Так, в сегменте, представленном на Рис.1 у сказуемого Проплыла субъект_
ПрОНЛЫЛа ыморожвпчая
гУдчз ярхо-з&гечбя хеаСгчоя вертка .(МачдельЕггаи)
Рис.1
выражен ИГ с вершиной ветка. Согласованное определение замороженная вводит свое обстоятельство места, выраженное ПГ в стакане. Возникает иерархию из двух предикативных ситуаций.
Из свойства проективности следует: если границами некоторого отрезка в предложении являются два слова Ьк и 1л, связанные отношениями подчинения или сочинения (Ьк II1Л или Ьк С 1л), то в этом отрезке (1) только слова-границы Ьк и 1д могут иметь связи со словами, находящимися вне этого отрезка и (2) никакое слово внутри отрезка не может быть хозяином слова-границы. Для отрезков линейной структуры, удовлетворяющих этим условиям, вводится понятие проективного фрагмента (ПФ-).
ПФ актантов и сирконстантов, выраженные ИГ с согласованными А в препозиции или ПГ, задаются синтагматической связью N Л А или предлог (Р) И N. Иерархия этих связей представлена в линейной
сложного при автомагическом анализе текстов. Математические вопросы кибернетики 2001,№10-С 15-34
структуре рекурсивной структурой вложенных ПФ (матрешкой ПФ), где порядок вложений соответствует порядку их следования в иерархии связей в графе. При этом самые «длинные» связи ЫИА или РИМ задают ПФ актантов или сирконстантов вершины сегмента.
Использование ПФ ИГ и ПГ упрощает линейную структуру в. Так, ПФ, в горящий солью, трельяжами, серыми листьями, жаворонками и стрекозами, гремящий тарелками барбизонский полдень Ю.Мандельштам. далее М), задаваемый связью в Я полдень элиминирует из рассмотрения четыре запятые.
Рассмотренные особенности линейной структуры сегмента показывают, что строить ПФ ИГ и ПГ удобно перед сегментацией. Тогда же строятся и некоторые другие связи, объединяющие слова в группы, служащие при сегментации единицами текста.
Для моделирования рекурсивной структуры ИГ и ПГ удобны рекурсивные алгоритмы, начинающие анализ каждой матрешки с самого глубокого вложения ПФ. При таком порядке работы мы, элиминируя из рассмотрения каждый очередной построенный ПФ, возвращаемся в исходную ситуацию. Моделирование каждого ПФ ИГЛПГ с согласованным определением в препозиции удобно начинать с его левого элемента - А или Р, поэтому реконструировать матрешку удобно справа налево, так как при этом анализ начинается с самого глубокого вложения. Рассмотрим условную схему анализа. Олицетворение пассивной и обреченной на всяческую пассивность мысли, подглядывающей мир, неподвижной, неспособной охватить движение. (П. Флоренский)
Пассивной и
обреченной
дат есячгсуую пассиазсмь
Рис.2.
Условная схема на Рис.2 иллюстрирует порядок процедур при моделировании. Двигаясь справа налево и элиминируя каждый очередной построенный ПФ из рассмотрения (ПГ - целиком, для ПФ ИГ существительное-вершина остается в зоне анализа), мы для каждой итерации можем использовать один и тот же словарь контекстных ситуаций. На Рис.3 - схема моделирования матрешки ПФ из прозы В.Набокова:
Рис.3.
На Рис.4 - визуализация результатов работы соответствующей программы):
Г
г
Грязная . на серой древесной бумаге . всегда похожая на корректуру . газетка Рис.4
Учитывая особенности грамматики этих явлений, удается строить ПФ для любых грамматически вероятных структур ИГ и ПГ. Для рассмотренных выше получаем следующие ПФ (Рис.5,б - из (М))
рмг. с ^ I I -г ф I
Проплыла замороженная в голубом стакане ярко-зеленая хвойная ветка
Г-Г-
...... 2 ;|;
РИС 6 В ГС!"1*ЩИЙ соль>о • трельяжами серыми листьями жаворонками и стрекозами гремящий тарелками бврбизонскнй полдень
Далее свойства проективности и рекурсивности рассмотрены применительно к линейной структуре РП при сочинении.
Функциональные особенности структуры сочиненных групп. В результате сочинительного сокращения при «вынесении за скобки» (в некоторых случаях - с определенными изменениями морфологических характеристик) общего члена сочиненных групп (старый папа и старая мама => старые {папа и мама)) происходит объединение нескольких исходных синтаксических структур.
При этом несколько слов или сегментов могут оказаться в графе подчинительных связей функционально единой группой в структуре 8 по отношению к этому общему хозяину или слуге: (загорелые и веселые) дети; В Москве (было холодно и топили печи); (На столах и на лавках) лежал слой пыли.
Ситуацию осложняет функциональная двойственность сочиненных слов. Они выступают и как один узел графа, и как отдельные узлы - потенциальные корни веток графа, имеющие собственных слуг, а в некоторых случаях даже заполняют разные валентности. С этой двойственностью связана специфика моделирования структуры графа 8 при сочинительном сокращении.
Если рассматривать сочиненные слова как единое целое, мы теряем возможность фиксировать неоднозначности типа:
Вподг_
Спа^лл л^;*1ч1.ны и женщи. 1Ы Старш л^ясчык« и женщины
1-и л п I—1
оат> так а лквхю давно липе и лшблм
Рис 7
Кроме того, как замечено в исследовании В.З.Санникова15, при этом возникают проблемы в ситуациях, когда сочиненные слова заполняют разные валентности (пример Санникова): Когда, кто, куда, кого и на какой срок командировал?
Это заставляет отказаться от представления, что граф зависимостей является деревом, так как обычные условные приемы, которые используются для сохранения проективности при сочинении, мешают правильно моделировать синтаксическую структуру.
В нашей системе сочинительная проективность задается как особое свойство линейной структуры, определяющее «зоны влияния» сочиненных слов.
Рекурсивность и проективность сочинительных связей. Зоны влияния сочиненных слов.
О некоторых частных случаях рекурсивности некоторых подчинительных связей в простом предложении, используя понятия гнездования, вставления и самовставления, писал еще Н.Хомский16. В данном случае это свойство исследуется применительно к сочинительным связям.
В предложении В.Набокова Он услышал вокруг шум голосов, воющий звук парадной двери и, осторожно выглянув в окошечко, увидел внизу отца, который, как мальчик, взбегал... мы находим рекурсивную структуру (матрешку) сочиненных конструкций (на Рис.8 сочинительные связи изображены скобками под текстом, программная реализация модуля сегментации И.М.Ножова):
ОН УСЛЫШАЛ ВОКРУГ ПУМ ГОЛОСОВ В01ЩИЙ ЗВУК ПАРАДНОЙ ДВЕРИ И УВИДЕЛ ВНИЗУ ОТЦА
Свойства проективности линейной структуры при сочинении.
При сочинении слов или сегментов в предложении между ними должен быть соединяющий их оператор сочинения (Бк): сочинительный союз, знак препинания или их комбинация.
15 В 3. Санников «Русские сочинительные конструкции (Семантика Прагматика. Синтаксис.)» Автореферат диссертации Москва- 1987.
16 Хомский Н Аспекты теории синтаксиса // Изд Моск.ун-та,1972
1-ое свойство. Слово между левым или правым сочиненным и оператором Рк, их соединяющим, не может иметь сочиненного с ним вне отрезка предложения, ограниченного соответственно левым или правым сочиненным и Бк (Рис.9).
Неон
Ьс оч
г^Ь х. и ...¿к... Гц... гк ... 1л1
Рис.9
2-е свойство. Если Ьб - слуга слова 1л - находится между этим 1л и Бш - оператором, сочиняющим 1л с некоторым Ьп, то все слова ветки графа, корнем которого является находятся между У и Бш.
Эти два свойства задают в линейной структуре предложения проективные отрезки рекурсивной структуры сочиненных конструкций, т.е. зоны, внутри которых слова могут быть связаны.
Рекурсивность и иерархия сочинительных связей.
На Рис.10 скобками выделены сочиненные группы, горизонтальные скобы под текстом - сочинительные связи слов, а горизонтальная линия под текстом, разделенная перпендикулярами, опущенными от сказуемых - условная схема членения линейной структуры предложения на зоны влияния сочиненных вершин.
Он [навести! [старшего брата я свою старую, осаьную мать] и [долго н охотно] рассказывал]
зона 1
J
зона!
Рис.10
Для линейной организации этой трехъярусной матрешки сочиненных групп в первую очередь важно то, что введение зон анализа внутри проективного фрагмента сочиненной конструкции: первая -между левым сочиненным навестил и Р3=м и вторая - между Р3 и правым сочиненным рассказывал, при моделировании структуры связей исключает построение ложных интерпретаций (см. Рис.11)
иННЗЕв
2т
1 " т["
> ср4га и сбою стар1
гп старшего ората и йога старую, зона 1
бспйу
1С0ГО1
до мать а долго н охотно раеск! зна-?-
Рис.11
Ситуация, когда между двумя ближайшими сочиненными сказуемыми несколько операторов, может порождать синтаксическую неоднозначность.
Рассмотренные свойства в значительной степени определяют грамматику процедур сегментации.
Третья глава (Общие принципы организации системы, иерархия модулей синтаксического анализа и их задачи) - описание общих принципов организации системы, иерархии модулей СА и их задач.
Система состоит из следующих модулей, работающих в жестком порядке.
1. Постморфология - решение несловарных проблем морфанализа.
2. Разрешение омонимии частей речи.
3. Предсегментация - подготовка текста к сегментации: построение сложного сказуемого, ПФ ИГ и ПГ задающих границы проективных фрагментов и др.
4. Сегментация - построение сегментов.
5. Внутрисегментный анализ - поиск связей слов внутри построенных сегментов.
6. Межсегментный анализ - построение связей сегментов.
Рассматриваются статический лингвистический и динамический алгоритмический базисы анализа. Они в совокупности должны обеспечивать возможность устанавливать соответствие между множеством линейных манифестаций языковых явлений и множеством их грамматических значений.
Используются три словаря: словарь основ (VL), словарь таблиц флексий (VT) и словарь концов слов (VF), обеспечивающий анализ морфологически продуктивных моделей, основ которых нет в VL, в объеме «Грамматического словаря» Зализняка. Например, таких, как выделенные слова (М): такую степень зачеловеческого бытия; в неясных видениях первосонья, привычными обобщительными рукоплесканиями, про которые даже такая продвинутая система морфанализа как Starling объявляет, что «слово не найдено».
Статья VL содержит информацию о способности управлять существительным в Род., Дат., Вин., Тв. падежах, инфинитивом, ПГ, подчинительным союзом и о семантических классах.
Список синтагм задает отношения RN, связывающие в тексте два слова классов Xj и Yi: Xj RN Yi, где Xj и Yi заданы перечнем частей речи с указанием определенных морфологических характеристик и семантических ограничений, минимально необходимых для различения разных видов связи.
Динамическая компонента (алгоритм) устанавливает соответствие между линейными структурами текста и словарными или идеальными.
Каждый модуль использует, помимо словарной информации, информацию о линейном порядке компонент S; информацию,
полученную предшествующими модулями; лингвистические модели явлений и стандартные подпрограммы.
Информация о лексических особенностях слов и структур задается при необходимости списками слов или структур. Поиску стандартных ситуаций предшествует проверка, не является ли исследуемый контекст исключением. Простейший пример - поиск хозяина для прилагательных самый и такой. Они могут выступать не только в роли полнозначных определений (попал в самое яблочко, хочу такую книжку), но и в роли слуги прилагательного, модифицируя его значение. При этом самый служит образованию аналитической превосходной степени (самый маленький ножик), а конструкция такой маленький ножик неоднозначна: _
[ | | | I *-1|
1.такой маленький ножик 2. такой маленький ¡ножик Рис.12
Вар.1. (Рис.12) может быть построен по общим правилам. Чтобы построить оба варианта, ищем ситуацию-исключение (непосредственно справа от такоШсамый есть другое А). Если для самый вар.1 найден, анализ закончен, если нет - работают общие правила. Для такой, если вар.1 построен, порождается дубль Б без этой связи, где по общим правилам строится вар. 2.
Как было показано, для анализа рекурсивных структур удобно использовать рекурсивную процедуру, которая начинает анализ матрешки с самого глубокого вложения. Для ИГ и ПГ на самое глубокое вложение мы попадаем, двигаясь по Б справа налево.
Рассмотрена специфика матрешек - ИГ с именами собственными (ИС): хозяин ИС находится обычно слева от ИС (хозяин дома Иван Иванович), кроме случая вынесения его в обособленный оборот (...Иван Иванович, хозяин дома,...). Между хозяином ИС и ИС могут стоять другие ИГ и ПГ (глава фирмы "Монолитспортстройобъект" Иван Шебалдин; директор фестиваля "Балтийский Дом" Сергей Шум). Их анализ удобно начинать с ИС — правой компоненты ПФ , поэтому для них на самое глубокое вложение мы попадаем, двигаясь по тексту слева направо.
Рис.13. Условная схема анализа матрешки ПФ ИС:
фирмы "Мохозптспортапрогюбъект "
Иван Шебалдин.
Далее описываются модули системы.
В модуле постморфологического анализа анализируются слова и морфологически автономные словосочетания, которые в результате словарного морфанализа не могут быть правильно
проинтерпретированы: окказиональные сокращения, названия в кавычках, сложные числительные в буквенной и цифро-буквенной записи (двести шестой; один млн. 236 тыс. ; 16 сотен 25 десятков и т.д.); имена собственные и.т.д.
Модуль разрешения омонимии частей речи анализирует случаи, когда слово в составе словосочетания может менять свой морфологический статус - во вводных оборотах, словосочетаниях вряд ли, все равно, как бы и т.д., в местоимениях, разорванных вложением предлога (ни для кого, не с чем) и т.д., а также разрешает омонимию частей речи при совпадении форм разных частей речи и при узуальной омонимии. Приведен созданный для этого модуля список из 58 типов омонимии частей речи для РЯ, упорядоченный по убыванию количества омонимов.
Модуль предсегментации готовит текст для следующего этапа анализа - сегментации. В частности, «связывает» (делая слугами в соответствующих синтагмах) слова, которые могли бы претендовать на роль вершины сегмента или подлежащего. В настоящей версии системы в этом модуле строятся ПФ ИГ и ПГ, синтагмы с ИС, аббревиатурами, названиями в кавычках, конструкции с числительными, сложные сказуемые, аналитические формы, конструкции с необособленным как и т.д.
Далее кратко охарактеризован Модуль сегментации и приведены примеры работы его программных реализаций. Грамматика этого модуля подробно описана в четвертой главе.
Модуль внутрисегментного анализа (ВА) в настоящей версии состоит из алгоритмов: 1) поиск сказуемого и подлежащего, если они не найдены в процессе сегментации; 2) заполнение словарно заданных валентностей - управление инфинитивом, Род.п., Дат.п., Вин.п., Твор.п.); 3. поиск хозяина ПГ; 4. поиск хозяев определительных ИГ в Род. и наречий.
Каждый из алгоритмов ВА состоит из грамматически нормативных правил и открытого словаря «Частных случаев» -синтаксических конфигураций - исключений. Исключения могут быть заданы с любой степенью точности, вплоть до конкретных словоформ. Поиск исключений предваряет работу общих правил. Ниже приводятся примеры работы ВА (стрелки нумерованы, но на картинке номера не выводятся). В первом примере (Рис.14) все связи построены по нормативным правилам:
■
Рис.14
Контекст во втором примере (Рис.16) - Комиссар ЕС по правам человека назвал массовое безгражданство основной проблемой Латвии - содержит исключение комиссар Я по (Я правам), задаваемое словарем исключений (Рис.15):
Рис.15
16 [X ... ПГ= по Я64 правам + человека]: где 1. между X и по м.б. только ИГ в Род.п., ПГ, наречия, частицы & 2. X = библиотека, Госбюро, документы, Евросуд, законодательство, комитет, комиссар, Конвенция...
В результате строится граф (Рис.16):
Рис.16
Межсегментный анализ - это этап построения связей между сегментами. Свойства линейной структуры, грамматика, алгоритмы и частные проблемы, определяющие его работу, рассмотрены в третьем разделе четвертой главы.
В Четвертой главе (Моделирование сегментной структуры русского предложения. Два этапа сегментации) подробно рассмотрены лингвистический и алгоритмический базисы модулей построения сегментов и графа их связей.
В первом разделе четвертой главы рассмотрены функции знаков препинания (ЗП). Функция ЗП входит в набор его значений, если существует линейная структура, где это значение у ЗП единственное. Для каждого ЗП определен набор функций.
Функции ЗП делятся на две группы: функции связывания слов в проективные отрезки внутри сегмента уэ. функция членения в на сегменты. Например, запятая - оператор сочинения слов уб. запятая -левая или правая граница сегмента. При этом одни и те же ЗП могут выступать и в той и в другой функции, что порождает функциональную омонимию ЗП. И, с другой стороны, у разных знаков могут быть одинаковые функции, т.е. имеет место функциональная синонимия ЗП.
Показано, что в линейной структуре может происходить «слияние» знаков препинания, когда один знак берет на себя функции нескольких. Рассмотрены значимые случаи таких слияний. Например, во фрагменте Процесс одевания, которому предается Акакий Акакиевич, шитье и облачение в шинель... (Набоков) первая запятая — левая граница сегмента, а вторая имеет одновременно две функции: она правая граница придаточного, но если элиминировать придаточное, запятая останется, т.е. ее вторая функция - сочинение: Процесс одевания, шитье... Подобные явления называем бифункциональностью ЗП.
Сегментация - это процедура разрешения омонимии ЗП. При этом омонимия сегментной структуры Б, т.е. случаи, когда в линейной структуре 8 сегменты можно построить более чем одним способом, соответствует неразрешимой омонимии ЗП. Так, предложение Он видел соседа, работающего в огороде отца, брата и деда можно интерпретировать, как предложение с цепочкой сочиненных ИГ, когда обе запятые сочиняют: соседа. работающего в огороде отиа. брата Оно может быть понято и как предложение с обособленным придаточным оборотом, где первая запятая - его левая граница. Оборот работающего в огороде отца может быть вложен между двумя сочиненными ИГ соседа, брата, и тогда вторая запятая бифункциональна: служит правой границей оборота и сочиняет ИГ. Или же вторая запятая только сочиняет ИГ отиа, брата внутри оборота. Три разных способа членения на сегменты задают уже на этапе сегментации три разных правильных понимания этого 8.
Во втором разделе четвертой главы описана грамматика моделирования сегментной структуры РП. Рассмотрены идеальная модель сегментной структуры, используемая при анализе, рекурсивная процедура построения сегментов и группы линейных ситуаций, определяющие интерпретацию запятых.
Вводятся следующие понятия.
Сегменты - части 8, соответствующие отдельным «маленьким драмам», синтаксическая автономность которых эксплицитно выражена в тексте ЗП и иногда - сочинительными союзами, но выражена неоднозначно в силу функциональной омонимии ЗП. Отрезки - цепочки слов между ближайшими ЗП с учетом проективности связей, уже построенных к текущему моменту анализа, еще не объявленные сегментами.
р-сегмент - простое предложение простое-главное в составе сложноподчиненного.
а-сегмент - сегмент, не являющийся Р-сегментом: придаточное предложение; деепричастный оборот; обособленный согласованный оборот с вершиной =А (А-оборот), где А может быть полным причастием, полным прилагательным, местоименным прилагательным, порядковым числительным; сегмент-приложение; сравнительный оборот; уточняющий оборот; обособленный предложный оборот; вводный оборот.
а-отрезок - отрезок, который является частью а-сегмента, но еще не объявлен сегментом, так как его правая граница еще не определена. Минимальный а-отрезок -эго минимальная компонента а-сегмента, с которой начинается построение сегмента: для придаточного - отрезок, в котором есть подчинительный союз, для деепричастного оборота-отрезок, где есть деепричастие, и т.д. (¡-отрезки - все отрезки, которые не являются а-отрезками.
Первый этап анализа - формирование а-сегментов.
После членения на отрезки и поиска минимальных левых составляющих а-сегментов (уже определенного типа: придаточных, Эу-об, А*-об и т.д.) получаем линейную последовательность отрезков предложения (Рис.17):
Отгржеам образ далекого, странного Хчизкэ склонясь код кр\д<ш\ [дречг&т иеы}
Р-ЙЖ-Ь а-отр-2 а-отр-1
Рис.17
Моделируем рекурсивную структуру матрешки сегментов, начиная анализ каждой очередной вложенной составляющей с ее минимальной левой компоненты. Как уже было показано, оптимальной при этом является рекурсивная процедура, работающая справа налево. Графически стратегию анализа можно условно изобразить так: Рис.18
Р-ахв. конец 8
а-отр-2 а-отр-1
4 ••
4---
Двигаясь справа налево, к каждому очередному а-отрезку по правилам грамматики пытаемся присоединить ближайший справа р-отрезок. Если это удается, для удлиненного а-отрезка процедура повторяется. Как только очередной Р-отрезок присоединить не удается, а-отрезок - в силу проективности сегмента -объявляется а-сегментом, и начинается удлинение следующего справа налево а-отрезка. Рассмотрим эту процедуру на примере из прозы Набокова: р\*=[Я совсем растерялся], Р¡+1=[не понимал\ а5=[что это все значит] Рп=[и], а4=[стоя на одном месте], рк=[смотрел в темноту на удалявшегося крошечного человека], аъ=[который], аг-[растягивая большие шаги], Р 1=[быстро шел к городу\ Р,+1=[и на смеющихся гуляк], а!^[которые следовали за ним]
а» Рп см .Л* «3 а3 рн-1 -п а!
и-
Рис.19. Условная схема анализа этого Б.
/ / \ . . 1 СОВСЕМ РАСТЕРЯЛСЯ НЕ ПОНИМАЛ И СМОТРЕЛ В ТЕМНОТУ НА УДАЛЯВШЕГОСЯ КРОШЕЧНОГО ЧЕЛОВЕКА И НА СМЕНЯЮТСЯ ГЫЛ
А
ЧТО 410 ви! э^мит
СТОЯ НА ОДНОМ МЕСТЕ
»ОТв^КЙ КЫС1РЗ К ГС?-ОДУ
А
К ГС?- "
/Л
РАСТЯГИВАЯ Большие ШАГИ
>С.ТОГЫ( ЫМ'.Г:/ 1А Ьг(М
Рис.20. Визуализация результатов сегментации в программной реализации модуля сегментации И.М.Ножова.
Рассмотрены правила удлинения. Все ситуации делятся на три группы: 1. удлинение обособленных оборотов, которые не могут быть разорваны вложениями а-сегментов, 2. удлинение деепричастных оборотов и А-оборотов и 3. удлинение придаточных предложений.
Описана идеальная модель сочинения сказуемых в линейной структуре придаточного, потенциально разорванного вложениями любого количества матрешек, состоящих из а-сегментов. На основе этой модели строится поиск правой границы придаточного.
Следующий этап - построение (3-сегментов. Все построенные а-сегменты элиминируются, и в цепочке оставшихся Р-отрезков ищутся границы зон влияния предикативных вершин простых предложений, составляющих каркас многосегментного предложения.
В третьем разделе четвертой главы рассмотрено построение связей сегментов.
Отношение подчинения сегментов выражается связью слова-хозяина сегмента-хозяина и слова-слуги сегмента-слуги. Каждый а-сегмент потенциально имеет хотя бы одного хозяина, и при поиске его хозяина, во-первых, определяется сегмент, где его слово-хозяин может находиться, и, во-вторых, какое именно слово может быть его хозяином. Словом-слугой в а-сегменте-слуге - обороте объявляется его вершина, а в придаточном - подчинительный союз. Подчиненные сегменты, «вложенные» по смыслу в сегмент-хозяин, могут физически в предложении находиться далеко от сегмента-хозяина. Место в в, где может находится хозяин а-сегмента, определяется на основании трех свойств проективности межсегментных связей.
Свойство 1. Если ак-сегмент полностью погружен в о^-сегмент, т.е. в предложении и левее, и правее ак-сегмента есть хотя бы одно слово а'-сегмента (м.б. неконтактно), то хозяин ак-сегмента и любой сочиненный с ним а-сегмент, подчиненный тому же хозяину, не могут находиться в линейной структуре предложения ни левее, ни правее границ а'-сегмента.
Свойство 2. Если левее (или правее) ак-сегмента есть часть (хотя бы одно слово) р-сегмента (м.б. неконтактно), то хозяин ак-сегмента и, соответственно, соподчиненный (сочиненный с ним) а'-сегмент не могут находиться левее (или, соответственно, правее) этой - ближайшей слева (или справа) к ак-сегменту - части Р-сегмента.
Свойство 3. Если правее некоторого отрезка ак-сегмента есть левая граница а'-сегмента (м.б. неконтактно), то хозяин ак-сегмента (и сочиненного и соподчиненного ему ап-сегмента) не может находиться в линейном отрезке предложения между левой и правой границами а'-сегмента.
Кроме этих трех свойств проективности межсегментных связей, учитываются рассмотренные во второй главе свойства проективности сочинительных связей.
Вторую проблему при поиске слова-хозяина придаточного предложения (ПП) составляет то, что ГШ не только может замещать актант или сирконстант, но и быть присубстантивным определением -слугою № ....решает, что книга бездарна,... ..город, что на горе-, ...знаю, где он спрятал... ...в десятой главе, где автор...
Для выбора хозяина для ПП, способного быть слугою И, нужно определить, какие именно N могут выступать в роли их хозяев. Если N -претендентов на эту роль в сегменте, где может находиться хозяин, нет, хозяином объявляется предикативная вершина сегмента. Показано, что во многих случаях проблема поиска слова-хозяина требует дополнительного семантического исследования.
В Заключении суммируются основные результаты работы.
Основные теоретические результаты работы.
• Исследованы применительно к линейной структуре предложения свойства проективности и рекурсивности подчинительных и сочинительных связей;
• создана грамматика линейного синтаксиса: модели значимых для анализа синтаксических явлений, среди них впервые -грамматики линейной сегментной структуры русского предложения;
• построена принципиально новая иерархия модулей СА, где сегментация предшествует моделированию внутренней структуры сегментов;
• построена типология функциональных значений знаков препинания и контекстные особенности их определения;
• построена типология синтаксически значимых видов омонимии
частей речи и грамматика ее разрешения.
• предложен оригинальный метод реализации синтаксического анализа предложений по лингвистически и процедурно обоснованным этапам;
Основные практические результаты исследования.
• Созданная линейная грамматика русского предложения может использоваться разными системами автоматического анализа русскоязычных текстов.
• Разработанная система синтаксического анализа дает неизбыточные результаты, имеющие самостоятельную ценность для разных систем.
• Главные процедуры реализованы, доказана их эффективность.
• Построенные в результате такого синтаксического анализа сегменты могут подаваться на вход следующей за ними семантической интерпретации, опирающейся уже на семантический словарь.
Основные положения диссертации описаны в следующих работах автора:
1. Построение графа связей сегментов (поверхностно-синтаксический анализ русского предложения) // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог 2008 - М, Наука, 2008 - С. 192-198 (0.5 п.л.)
2. Лингвистический базис анализа поверхностно-синтаксических связей сегментов в русском предложении. Вестник РГТУ. № 6, Серия «Языкознание»: Московский лингвистический журнал, Т. 10, 2008 - С. 173-186 (0.5 п.л.)
3. Система автоматического морфологического членения текста.// НТИ серия 2 - Информационные процессы и системы. №2,1979. - С. 23 - 27. (в соавторстве с Г.АЛесскисом) (0,5 п.л.)
4. Сегментация русского предложения // Труды конференции. Седьмая национальная конференция по искусственному интеллекту с международным участием. КИИ' 2000 - М. Издательство Физико-математической литературы. 2000 - С. 879-880. (в соавторстве с Д.Г Лахути, И.М. Ножовым) (0,2 п.л.)
5. Сегментация русского предложения (Поверхностно-синтаксический анализ как самостоятельный модуль анализа текста) // Материалы 5-ой международной конференции "Информационное общество, информационные ресурсы и технологии телекоммуникации" ВИНИТИ. НТИ. М. 2000. Секция "Интеллектуальные системы автоматизированной поддержки научных исследований" - С. 31-34 (в соавторстве с Д.Г Лахути, И.М. Ножовым) (0,2 пл.)
6. Kobzareva Tatyana. Afanasyev Roman. An automatic analysis of morphologically multivalued words as an independent module of surface-syntactical analysis for Russian language // IV International Conference "Interactive Systems: Problems of Human-Computer Interaction". September 23-27,2001 (0,3 п.л.)
7. Модель сегментации русского предложения // Труды международного семинара Диалог'2001. Аксаково 2001. Т.2 С.185-194 (в соавторстве с Д.Г. Лахути и И.М. Ножовым) (0,5 п.л.)
8. Построение комплекса алгоритмов разрешения морфологических неоднозначностей на базе словаря диагностических ситуаций // Обработка текста и когнитивные технологии, вып.6. Казань: "Отечество", 2001, С. 82-87 (в соавторстве с Р.Н.Афанасьевым) (0.3 пл.)
9. Некоторые аспекты анализа сочинения при сегментации русского предложения // КИИ'2002. Труды восьмой национальной конференции по искусственному интеллекту с международным участием. - М. Физматлит. Т.1. - С. 192-198 (0,5 п.л.)
10. Универсальный модуль предсинтаксического анализа омонимии частей речи в русском языке на основе словаря диагностических ситуаций // Труды международного семинара Диалог'2002 Протвино 2002. Т.2. - С. 258-268 (в соавторстве с Р.Н.Афанасьевым) (0.5 п.л.)
11. Интеллектуальная система предсинтаксического анализа русского текста (ИСПА) // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2003. Протвино, 11-16 июня 2003, - С. 5-10 (в соавторстве с Р.Н.Афанасьевым) (0.5 п.л.)
12. Проблема кореференции в рамках поверхностно-синтаксического анализа русского языка // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2003— М.: Наука, 2003 — С. 278-284 (0,5 п.л.)
13. Инструментальная среда для экспериментов с алгоритмами поверхностно-синтаксического анализа // Труды Международной конференции Диалог'2004, — М.: Наука, 2004 — С. 32-38 (в соавторстве с Баталиной A.M., Епифановым М.Е., Ивличевой О.О., Лахути Д.Г.) (0.5 пл.)
14. Морфанализ in vivo // Труды Международной конференции Диалог'2004, — М.: Наука, 2004 — С. 286-291 (0.5 пл.)
15. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал. М. 2004. Т.8 №1, С. 31-80 (2 пл.)
16. Автоматизация отладки алгоритмов поверхностно-синтаксического анализа // Труды Международной конференции Диалог'2005, - М.
Наука, 2005 - С. 45-50 (в соавторстве с Баталиной A.M., Айриян Г.Ю., Епифановым М.Е., Лахути Д.Г.) (0.5 п.л.)
17. Омонимия и синонимия знаков препинания в русском тексте // Труды Международной конференции Диалог'2005. — М.: Наука,2005 — С. 233-237 (0.5 п.л.)
18. Рекурсивность и проективность сочинительных связей в русском тексте // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции Диалог 2006, Бекасово, 31 мая - 4 июня 2006 г. — М.: Наука, 2006. — С. 223-229 (0.5 п.л.)
19. Опыт экспериментальной реализации алгоритмов поверхностно-синтаксического анализа // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог 2006, Бекасово, 31 мая - 4 июня 2006 г. — М.: Наука, 2006. — С. 51-56 (в соавторстве с Баталиной A.M., Епифановым М.Е., Кушнарёвой Е.В., Лахути Д.Г.) (0.5 п.л)
20. Объектная среда для отладки алгоритмов поверхностно-синтаксического анализа. / Десятая национальная конференция по искусственному интеллекту с международным участием КИИ-2006: Труды конференции. Т.2. - М.: Физматлит, 2006, с. 589-597 (в соавторстве с Айриян Г.Ю., Баталиной A.M., Епифановым М.Е., Кушнарёвой Е.В., Лахути Д.Г.) (0,5 п.л.)
21. Иерархия задач поверхностно-синтаксического анализа русского предложения // НТИ, Сер.2, №1,2007, - С. 23-35 (1,3 п.л.)
22. Построение и использование проективных фрагментов именных и предложных групп (Поверхностно-синтаксический анализ русского предложения) // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог 2007 - М., Наука, 2007 - С. 175-182 (0.5 пл.)
23. Автоматизированная отладка алгоритмов сегментации русского предложения. Материалы 7-ой международной конференции «НТИ-2007», Москва, ВИНИТИ, 2007, - С. 358-359. (в соавторстве с Баталиной A.M., Епифановым М.Е., Е.В., Лахути Д.Г., Мартыновой В .А., Шуваловой К.В.) (0,1 п.л.)
24. Объектное моделирование сегментационного анализа русского предложения // Мегалинг'2007. Горизонты прикладной лингвистики и лингвистических технологий. Международная научная конференция. Украина, Крым, Партенит. 24.09.07 - 28.09.07. С. 249-250. (в соавторстве с Баталиной A.M., Епифановым М.Е., Е.В., Лахути Д.Г., Мартыновой В.А., Шуваловой К.В.) (0,1 п.л.)
25. Опыт экспериментальной реализации сегментационного анализа русского предложения // Компьютерная лингвистика и
интеллектуальные технологии. Труды Международной конференции Диалог 2007 М., Наука, 2007 - С. 333-338 (в соавторстве с Баталиной A.M., Епифановым М.Е., Кушнарёвой Е.В., Лахути Д.Г.) (0.5 п.л.)
26. Некоторые свойства линейной структуры именных и предложных групп (Поверхностно-синтаксический анализ русского предложения)// Вестник РГГУ. № 8/07, Серия «Языкознание» (Московский лингвистический журнал № 9/2), - Москва 2007. - С. 113-130 (0.7 пл.)
Подписано в печать 14.10 2008 г
Печать трафаретная
Заказ №951 Тираж ЮОэкз
Типография «11-й ФОРМАТ» ИНН 7726330900 115230, Москва, Варшавское ш, 36 (499) 788-78-56 www autoreferat.ru
Оглавление научной работы автор диссертации — кандидата филологических наук Кобзарева, Татьяна Юрьевна
ВВЕДЕНИЕ
Актуальность исследования
Цель работы и задачи исследования
Объект, предмет и материал исследования
Новизна и значимость исследования
Теоретическая значимость исследования
Прикладная значимость исследования
Основные результаты исследования
Практическая ценность работы
Основные используемые понятия
Методы исследования
Апробация
Структура работы
ПЕРВАЯ
ГЛАВА. Автоматический синтаксический анализ русского предложения: история и современное состояние проблемы
1.1. История постановки задачи
1.2. Теоретические предпосылки создания автоматического синтаксического анализа. Структурный синтаксис.
1.3. Первые работы по синтаксическому анализу русского текста
1.4. Современное состояние проблемы
1.5.Частные проблемы автоматического анализа
1.6. Вероятностные подходы
1.7. Выводы
ВТОРАЯ
ГЛАВА. Свойства проективности и рекурсивности и их роль в иерархизации синтаксического анализа
2.1. Введение
2.2. Проективность и рекурсивность подчинительных связей
2.2.1. Понятие проективного фрагмента
2.2.2. Иерархия предикативных ситуаций в сегменте
2.2.3. Место именных и предложных групп в линейной структуре предложения
2.2.4. Особенности линейной организации рекурсивной «матрешки» именных и предложных групп
2.2.5. Процедура анализа рекурсивных структур. Анализ матрешек именных и предложных групп
2.2.6. Типы линейной конфигурации именных и предложных групп
2.2.7. Некоторые проблемы, возникающие при анализе согласованного определения в препозиции к хозяину
2.2.8. Ограничение зоны поиска хозяина согласованного определения и слуги предлога как фильтр проективности
2.2.9. Выводы по разделу 2.2.
2.3. Рекурсивность и проективность сочинительных связей в русском тексте
2.3.1. Введение
2.3.2. Функциональные особенности структуры сочиненных групп
2.3.2.1. Сочинительное сокращение
2.3.2.2. Обязательная манифестация сочинения в тексте
2.3.2.3. Сочинительное сокращение как фактор недревовидности графа
2.3.2.4. Рекурсивность и проективность сочинительных связей. Зоны влияния сочиненных слов
2.3.2.5. Рекурсивность и иерархия сочинительных связей
2.3.3. Выводы к разделу 2.3.
ТРЕТЬЯ
ГЛАВА. Общие принципы организации системы, иерархия модулей синтаксического анализа и их задачи
3.1 Уровни анализа и соответствующие им модули СА
3.2. Динамическая и статическая компоненты анализа
3.2.1. Верификация лингвистических и алгоритмических решений
3.2.2. Структура словарей и морфологический анализ
3.2.2.1. Словари
3.2.2.2. Морфологический анализ
3.2.3. Синтагмы
3.2.4. Особенности организации процедуры анализа рекурсивных структур
3.3. Задачи модулей
3.3.1. Модуль постморфологического анализа
3.3.1.1. Числительные
3.3.1.2. Названия в кавычках
3.3.1.3. Имена собственные лиц
3.3.2. Модуль разрешения омонимии частей речи
3.3.2.1. Словосочетания
3.3.2.2. Частичная омонимия
3.3.2.3. Словарь типов омонимии частей речи
3.3.3. Модуль предсегментации
3.3.3.1. Именные и предложные группы
3.3.3.1.1. Поиск хозяина имени собственного
3.3.3.1.2. Анализ определительных именных и предложных групп
3.3.4. Модуль сегментации
3.3.5. Модуль внутрисегментного анализа
3.3.6. Межсегментный анализ
3.3.7. Анализ кореференции
ЧЕТВЕРТАЯ
ГЛАВА. Моделирование сегментной структуры русского предложения. Два этапа сегментации.
4.1. Омонимия и синонимия знаков препинания в русском тексте
4.1.1. Знаки препинания и проективность линейной структуры
4.1.2. Омонимия и бифункциональность знаков препинания 103 4.1.2.1.Запятая
4.1.2.2. Тире
4.1.2.3. Двоеточие
4.1.2.4. Скобки
4.1.2.5. Точка
4.1.3. Омонимия знаков препинания и сегментная омонимия линейной структуры предложения
4.1.3.1. Примеры неоднозначности сегментации при определении значения запятой — правой границы сегмента vs. оператора сочинения
4.1.3.2. Некоторые неоднозначности интерпретации знаков препинания при определении левой границы вложенных сегментов, вытекающей из омонимии знаков препинания
4.1.4. Синонимия знаков препинания
4.2. Грамматика сегментной структуры русского предложения и принципы его сегментации
4.2.1. Сегментация как ключевая компонента системы
4.2.2. Сегмент в линейной структуре предложения
4.2.3. Идеальная модель линейной структуры сегментов в русском предложении
4.2.4. Осложнение линейной структуры предложения вложениями
4.2.5. Операторы и их функции в предложении: функции запятых и сочинительных союзов
4.2.6. Бифункциональность запятой и функциональная неоднозначность операторов
4.2.7. Сегментация
4.2.7.1. Объект, задача и организация анализа
4.2.7.2.Две ступени моделирования сегментной структуры
4.2.7.2.1 Стратегия анализа ос-сегментов
4.2.7.2.2. Процедура формирования а-сегмента
4.2.8. Свойство проективности линейной структуры сегментов
4.2.9. Семантика сегментной структуры или условия присоединения
4.2.9.1. Условия удлинения деепричастных и причастных оборотов
4.2.9.1.1. Запреты присоединения
4.2.9.1.2. Условия присоединения
4.2.9.1.2.1. Присоединение без опоясывания
4.2.9.1.2.2. Условия присоединения (З-отрезка по сочинению при разрыве
4.2.9.1.2.3. Условия присоединение (3-отрезка по управлению при разрыве
4.2.9.2. Построение а-сегмента — придаточного
4.1.9.3. Условия удлинения а-отрезка - придаточного
4.2.9.4. Анализ сочинения предикатов при удлинении придаточных
4.2.10. Построение Р-сегментов
4.2.11. Выводы к разделу 4.2.
4.3. Второй этап сегментации — построение графа связей сегментов
4.3.1.Лингвистический базис построения связей сегментов и некоторые проблемы, возникающие при поиске слова - хозяина сегмента
4.3.2. Отношения между сегментами
4.3.3. Особенности сегментной структуры предложения, осложняющие поиск межсегментных связей
4.3.3.1. Факторы, осложняющие ответ на вопрос, какое слово является хозяином а-сегмента
4.3.3.2. Факторы, осложняющие ответ на вопрос, где искать хозяина а-сегмента
4.3.4. Проективность межсегментных связей
4.3.5. Общие правила проективности межсегментных связей
4.3.6. Поиск хозяина деепричастного оборота
4.3.7. Специфика поиска хозяина ПП
4.3.7.1. Виды ПП
4.3.7.1.1. А
4.3.7.1.2. В
4.3.7.1.2.1. Скрепы
4.3.7.1.2.2.Семантика хозяина ПП
4.4. Выводы к разделу 4.3.
Введение диссертации2008 год, автореферат по филологии, Кобзарева, Татьяна Юрьевна
Работа посвящена исследованию свойств линейной структуры русского предложения, важных для организации автоматического синтаксического анализа (СА), и созданию на основе полученных результатов теоретической базы и самой системы синтаксического анализа, экспериментальные реализации которой подтвердили продуктивность найденного подхода.
Этот подход позволил разделить СА на несколько ступеней и построить лингвистически обоснованную и процедурно удобную их иерархию.
Главной особенностью лингвистического базиса системы является такая линейная грамматика сегментной структуры русского предложения, которая позволяет начинать собственно синтаксический анализ с моделирования его сегментной структуры до этапа анализа внутренней структуры сегментов, т.е. до построения большей части связей слов.
Актуальность исследования
Актуальность работы определяется тем, что хотя задача синтаксического анализа, необходимого для всех систем машинного перевода и автоматического понимания текстов, была поставлена более полувека назад, устойчивой и общепринятой системы синтаксического анализа до сих пор не создано. Чтобы продвинуться в ее решении, сегодня необходимо не только совершенствовать имеющиеся наработки, но и находить новые подходы — как в теоретическом плане, так и в плане практическом.
Очевидно, что задача синтаксического анализа, сначала казавшаяся, как и задача машинного перевода, решаемой в обозримое время, является — в силу бесконечной вариативности естественного языка — сложнейшей задачей, допускающей лишь приближенные решения.
Актуальность избранного в диссертации теоретического подхода обусловлена назревшей необходимостью построения для СА особой — систематически описывающей семантику линейного синтаксиса — грамматики, которая позволяет определить иерархию лингвистически обоснованных подзадач СА и которую можно использовать при разных конечных целях анализа.
Компьютерные технологии совершенствуются. Возникла возможность, не боясь усложнения программ, использовать алгоритмические решения, естественно вытекающие из свойств текста и позволяющие упрощать грамматический базис системы, не только не поступаясь сложностью реальной языковой картины, но создавая возможности более полного ее анализа.
Цель работы и задачи исследования
Целью диссертации в теоретическом аспекте является исследование семантики линейного синтаксиса русского предложения и создание грамматики его линейной структуры, а в прикладном - разработка на этой основе иерархически организованной модульной системы СА, позволяющей строить синтаксически истинные интерпретации линейной структуры русского предложения, минимально используя лексико-семантическую информацию.
Для достижения этой цели в диссертации решаются следующие задачи.
1. Исследуются свойства линейной структуры русских предложений.
2. На основании результатов этих исследований строятся идеальные модели синтаксических явлений, что позволяет лингвистически и процедурно обоснованно построить иерархию этапов синтаксического анализа.
3. Каждый этап анализа организуется как независимый модуль, для которого на основании идеальных моделей, созданных для рассматриваемых явлений, исчисляются грамматические ситуации линейного контекста, позволяющие интерпретировать возможные манифестации идеальных моделей в тексте.
4. Создается линейная грамматика, позволяющая на ранних этапах анализа моделировать сегментную структуру русского предложения.
5. На основе этой линейной грамматики для каждого модуля строятся алгоритмы, строящие синтаксическую структуру анализируемых единиц текста.
6. Определяются и решаются проблемы предсинтаксического анализа.
Объект исследования — линейная организация предложений в русских письменных текстах, не являющихся записью или имитацией устной речи.
Предмет исследования — универсальные и специфические свойства линейной структуры русского предложения, определяющие возможность построения процедурно удобной и лингвистически обоснованной иерархии модулей системы синтаксического анализа.
Материалом для проверки теоретических гипотез и возможностей алгоритмических стратегий служили художественные тексты (в основном проза О.Мандельштама, В.Набокова, М.Булгакова, Л.Толстого), газетная и журнальная публицистика, энциклопедические статьи.
Новизна работы
Теоретическая новизна работы состоит в том, что впервые вводится как феномен, требующий системного исследования, новый уровень синтаксического моделирования — семантика линейного синтаксиса, для которого строится грамматика линейного синтаксиса, описывающая этот срез синтаксических явлений.
Именно на этой основе впервые оказалось возможным автоматически сегментировать русское предложение с сегментной структурой любой сложности на фрагменты, внутри которых могут быть эффективно использованы методы СА, основанные на классических «однопредикатных» моделях, восходящих к концепции Л.Теньера.
Это исследование обусловило прикладную новизну работы -позволило разработать принципиально новую организацию СА: лингвистически обоснованное деление СА на несколько этапов, задачи которых решают работающие в жестком порядке независимые модули.
Специфика системы состоит в том, что создан работающий на основе линейной грамматики сегментной структуры модуль сегментации, который строит сегменты — простые-главные и придаточные предложения, деепричастные, причастные и другие обороты - все обособляемые по правилам русской пунктуации части предложения — уже на первых шагах моделирования структуры предложения, до того, как анализируется внутренняя структура каждого из сегментов, т.е. основная часть связей слов и сегментов строится после сегментации.
Впервые систематически рассмотрена проблема значимой для СА омонимии частей речи: создана типология такой омонимии в русском языке в рамках словаря [Зализняк 1980] , построена грамматика и модуль разрешения наиболее важных для синтаксиса ее типов.
Новизна работы заключается также в лингвистически обоснованном широком применении при СА естественного языка алгоритмов рекурсивного типа.
Теоретическая значимость исследования
Теоретическая значимость работы заключается в углублении наших представлений о строении синтаксического уровня языка и разнообразии взаимодействующих на этом уровне механизмов.
Исследование позволило описать многие феномены линейной структуры русского предложения и в то же время показало, как их использование может — путем иерархизации анализа — существенно облегчить решение различных проблем СА, в частности, избежать в ходе анализа построения ложных гипотетических связей, тем самым предупреждая возможность комбинаторного взрыва.
Построение сегментов, во-первых, облегчает последующие этапы СА и, во-вторых, является базой для формирования нового объекта — графа сегментов предложения — который может служить основой для следующего этапа моделирования структуры многосегментного предложения — исследования семантики связей его сегментов.
Прикладная значимость исследования
Определены этапы автоматического СА — два модуля предсинтаксического анализа и четыре модуля собственно СА, построена иерархия этих модулей для русского языка.
Модули предсинтаксического анализа:
1. постморфология - этап решения несловарных проблем морфологического анализа;
2. разрешение омонимии частей речи.
Модули собственно синтаксического анализа:
1. предсегментация — построение необходимых для сегментации связей слов, определяющих единицы линейной структуры при сегментации, в частности, проективные фрагменты именных и предложных групп (см. 2.1 второй главы);
2. сегментация — построение сегментов (см. 2-ой раздел четвертой главы);
3. внутрисегментный анализ - построение графа связей слов внутри сегментов;
4. межсегментный анализ - установление связей между сегментами (см. 3-й раздел четвертой главы).
На основе новых алгоритмических стратегий анализа, обоснованных построенной грамматикой, и семантики линейного синтаксиса анализируемых зон синтаксических явлений для каждого модуля разработаны рекурсивные алгоритмы, доказавшие при экспериментальных реализациях перспективность подхода. В настоящее время система суммарно включает в себя 69 алгоритмов и подпрограмм (см. в Приложении «Список алгоритмов поверхностно-синтаксического анализа»).
Впервые на основе идеальной модели и грамматики линейной сегментной структуры русского предложения реализованы рекурсивные процедуры, позволяющие строить сегменты в предложениях с любыми грамматически допустимыми комбинациями любого количества любых сегментов перед моделированием внутренней структуры сегментов, т.е. перед построением большей части связей слов.
Свойства проективности и рекурсивности используются непосредственно в процессе анализа, что позволяет строить на каждом уровне анализа только синтаксически истинные варианты интерпретации.
На основе словаря типов омонимии частей речи и линейной грамматики этой зоны явлений для самых больших групп и самых существенных для СА типов такой омонимии разработан модуль их разрешения для письменного русского языка.
Построен рекурсивный алгоритм, позволяющий находить подчинительные связи слов, являющихся границами проективных фрагментов определительных именных групп с согласованными распространенными определениями и предложных групп для линейных структур любой комбинаторной сложности с учетом потенциально возможных неоднозначностей интерпретации.
Основные результаты исследования
1. Важные для СА свойства — проективность и рекурсивность подчинительных и сочинительных связей - исследованы с точки зрения их манифестации в линейной структуре сегмента и в сегментной структуре предложения.
2. На основе выявленных особенностей линейной структуры предложения разработано лингвистически естественное и алгоритмически удобное иерархическое членение СА на шесть процедурно независимых модулей, включающее два предсинтаксических (постморфология и разрешение омонимии частей речи) и четыре синтаксических (предсегментация, сегментация, внутрисегментный анализ - моделирование структуры сегментов, межсегментный анализ — построение связей сегментов).
3. Построена собственно система СА, шесть модулей которой состоят суммарно из 69 алгоритмов и стандартных подпрограмм, большая часть которых запрограммирована в экспериментальном режиме и при
5* тестировании демонстрирует хорошие результаты. Ее лингвистический и алгоритмический аппараты позволили минимизировать используемый инструментарий и строить на каждом этапе только синтаксически истинные варианты интерпретации предложения.
4. Разработана служащая базисом модуля сегментации грамматика линейной сегментной структуры русского предложения (РП), позволяющая моделировать сегментную структуру предложения на этапе, предшествующем анализу связей внутри каждого из однопредикатных высказываний, составляющих многосегментное предложение. В ней описаны функциональные значения знаков препинания, их омонимия и синонимия, идеальная модель сегментной структуры русского предложения и обоснованы контекстные условия, определяющие при построении сегментов значения возможных текстовых манифестаций этой модели путем определения функций знаков препинания.
5. На основе грамматики сегментной структуры созданы и реализованы рекурсивные алгоритмы модуля сегментации русского предложения.
6. Промоделирована иерархия связей внутри сегмента, определяющая линейную организацию сегмента и рекурсивной линейной структуры проективных фрагментов определительных именных и предложных групп (ИГ и ПГ), позволяющая иерархизировать задачи моделирования структуры предложения.
7. Разработан рекурсивный алгоритм, строящий проективные фрагменты ИГ и ПГ любой степени сложности.
8. Для решения задач пред синтаксического анализа, важных для С А естественного текста, построена классификация типов омонимии частей речи русского языка в объеме словника «Грамматического словаря» А.А.Зализняка и грамматика и соответствующий модуль разрешения наиболее значимых типов этой омонимии.
Практическая ценность работы
Описанные свойства линейной структуры русского предложения, разработанные модели и сами модули СА могут быть применены во многих системах автоматической обработки русского текста.
Грамматика линейного синтаксиса, модели и алгоритмы являются продуктивной базой дальнейших теоретических и экспериментальных исследований в области СА, позволяющей совершенствовать и сам базис, и программные средства его реализации.
Результаты исследования сегментной структуры и функциональных значений знаков препинания могут быть эффективно использованы как объясняющая модель при преподавании русского синтаксиса.
Грамматика линейного синтаксиса, служащая лингвистическим базисом системы, может быть успешно использована для разработки компьютерных обучающих программ как для целей совершенствования синтаксических навыков у школьников, так и для обучения синтаксису русского языка как иностранного.
Программная реализация системы может служить аппаратом исследования специфики синтаксиса разных авторов и разных функциональных стилей, и, в том числе, для изучения тенденций современных изменений в синтаксисе русского языка. По мере накопления материала она сможет использоваться как инструмент стилистической экспертизы.
В настоящее время аспиранткой Отделения интеллектуальных систем в гуманитарной сфере РГГУ A.M. Баталиной и старшим преподавателем этого Отделения М.Е. Епифановым на базе алгоритмов системы создана инструментальная среда для экспериментов с алгоритмами синтаксического анализа, которая позволяет легко корректировать и пополнять алгоритмы.
Основные используемые понятия.
При обсуждении линейной структуры предложения (S) будем использовать следующие понятия.
Слова и морфологически автономные группы слов [Плунгян 2003], эксплицитно заданные пробелами и функционирующие как слова. Сегменты - части предложения с эксплицитно заданными соответственно правилам русской пунктуации границами: простые предложения или простые в роли главных (простые-главные), придаточные предложения, деепричастные обороты, всякого рода определительные, вводные и другие обороты, требующие обособления.
Операторы: знаки препинания, сочинительные союзы и их комбинации -компоненты линейной структуры, служащие границами сегментов, и\или манифестирующие сочинительные связи слов или сегментов [Кобзарева 2005]: функциональная омонимия и синонимия знаков препинания рассмотрена в четвертой главе.
Проективные фрагменты — отрезки предложения, удовлетворяющие условиям проективности [Иорданская 1967], которые являются частью сегментов и границами которых служат слова, связанные отношениями подчинения или сочинения [Кобзарева 2006, 2007-6]. Связи слов и сегментов
При моделировании структуры S будем различать три вида связей слов и\или сегментов: 1. направленные от хозяина к слуге отношения подчинения, 2. ненаправленное отношение сочинения и 3. ненаправленное отношение кореференции. 6) Синтагмы
Все связи слов и сегментов получают при анализе номера соответственно номерам синтагм в списке принятой в системе классификации связей (см. «Список синтагм» в Приложении). При этом синтагмы не объединяются в отношения непосредственной доминации, как в [Мельчук 1964, Иорданская 1967], т.е. семантическая эквивалентность синтагм не устанавливается.
Методы исследования Идеальная модель явления
На каждом из моделируемых уровней, для которого создается отдельный модуль анализа в системе, на основании лингвистических представлений и наблюдений соответствующих явлений строятся одна или несколько идеальных моделей подлежащих анализу синтаксических явлений. Каждая такая модель является обобщением, объединяющим большую часть возможных в русском языке линейно-комбинаторных манифестаций группы синтаксически близких явлений.
На каждом этапе анализа предполагается строить только синтаксически истинные варианты интерпретации линейной структуры. Для этого создаются универсальные фрагменты грамматики линейной структуры русского предложения и исчисляются грамматические ситуации линейного контекста, позволяющие интерпретировать возможные манифестации идеальной модели в тексте.
Универсальные свойства текста и динамическая компонента анализа Важную роль в исследовании играет установка на поиск
1. универсальных свойств текста, присущих структурам всех синтаксических уровней,
2. специфических лингвистических особенностей рассматриваемых структур,
3. способов оптимального использования найденных свойств.
На основании этих свойств вводятся универсальные, работающие на всех этапах анализа правила и специфические для каждого уровня правила, которые задают набор возможных структур для рассматриваемых явлений, а также определяют оптимальные процедуры идентификации структур.
Группы лингвистических правил объединены в алгоритмы, каждый из которых представляет собой дерево, узлами которого являются описания ситуаций, определяющие синтаксическое значение текстовых манифестаций синтаксически близких явлений, моделируемых данным алгоритмом. Каждый модуль системы включает в себя несколько алгоритмов, определяющих свойства синтаксической структуры, информация о которых необходима для следующего этапа анализа. Контекстные ситуации в алгоритмах записываются на естественном языке в форме, близкой к обычным грамматическим описаниям, что делает их легко доступными для понимания.
Используется обычная морфологическая и следующая словарная синтаксическая информация:
1) грамматическая, не описывающая лексической сочетаемости, модель управления: способность управлять существительными в определенных падежах, инфинитивом, предлогом и подчинительным союзом и
2) синтаксически значимые семантические классы существительных (предметы одушевленные - неодушевленные, единицы измерения, параметры и т.д.).
Структура самих алгоритмов и языка объектного моделирования, используемого в настоящее время для экспериментальной реализации системы [Баталина 2004, 2005, 2006, 2007-а, 2007-6], позволяют легко исправлять и пополнять множество возможных ситуаций линейного контекста, учитываемых при анализе, уточнять списки исключений из правил непосредственно в алгоритмах, не меняя словарную информацию о лексемах. Проверка истинности моделей и работоспособности используемых алгоритмических стратегий
Проверка истинности построенных моделей, их дополнение и корректировка предполагают постоянное уточнение описанных явлений и лингвистический поиск не охваченных алгоритмами явлений. Чтобы это было возможно, необходима в первую очередь экспериментальная реализация соответствующих фрагментов системы. Каждая из моделей и соответствующий фрагмент грамматики, задающий условия актуализации явления, являются базисом определенного алгоритмического решения. Программы алгоритмов должны отлаживаться в два этапа: in vitro и in vivo. Отладка in vitro предполагает отладку программ на искусственно отобранных или созданных специально для отладки искусственных примерах, тестирующих соответствие программ алгоритмам, т.е. реализованной версии лингвистической модели. После достижения такого соответствия необходимо работать in vivo — на естественных текстах, представляющих естественное многообразие манифестаций явления. Это очень важный этап, на котором могут выявляться неучтенные и часто неожиданные варианты явлений или просто недостаточность сформулированных определений линейных конфигураций.
Апробация
Общий лингвистический базис системы, модели синтаксических явлений для построения отдельных модулей и экспериментальные варианты их программных реализаций были представлены на 14 конференциях: на КИИ-2000 и КИИ-2002 - седьмой и восьмой национальных конференциях по искусственному интеллекту с международным участием, на 5-ой международной конференции "Информационное общество, информационные ресурсы и технологии телекоммуникации", ВИНИТИ, Москва, 2000; на IV International Conference "Interactive Systems: Problems of Human-Computer Interaction". September 23-27, 2001; на международной научной конференции Мегалинг'2007 - Горизонты прикладной лингвистики и лингвистических технологий (совместный); на 7-ой международной конференции «НТИ-2007»; на международной конференции «Диалог» в 2001- 2008 годах .
С использованием алгоритмов, разработанных в ходе данного диссертационного исследования, и при консультации автора были написаны 16 курсовых и 9 дипломных работ, а также выполнены и защищены 3 кандидатские диссертации в Институте лингвистики РГГУ и других вузах.
Лингвистический базис и алгоритмические решения описаны автором в статьях, опубликованных в материалах перечисленных конференций и в статьях в Московском лингвистическом журнале в 2004 г., Т.8 №1 [Кобзарева 2004-6], в Вестнике РГГУ. № 8/07, Серия «Языкознание» (Московский лингвистический журнал № 9/2) в 2007 году [Кобзарева 2007в], в НТИ, Сер.2, №1 в 2007 году [Кобзарева 2007-а] и в Вестнике РГТУ, Серия «Языкознание» в 2008 году [Кобзарева 2007-6].
Работа была поддержана грантами ФЦП - проект № 482, РФФИ — проекты № 03-06-80109 и № 03-06-80434.
Грамматику линейного синтаксиса и программные реализации фрагментов системы автор диссертации использует в двух авторских курсах для студентов Отделения теоретической лингвистики Института лингвистики РГГУ.
Структура работы
В первой главе дается исторический обзор и описывается современное состояние работ по данной проблематике.
Во второй главе рассматриваются важные структурные особенности линейной организации русского предложения. Их описание представляет семантику линейного синтаксиса и вводит новый уровень описания — грамматику линейного синтаксиса, которая определяет как общую архитектуру системы, так и алгоритмические стратегии анализа.
В третьей главе описаны собственно иерархия этапов анализа линейной структуры предложения и соответствующие модули системы с кратким лингвистическим и алгоритмическим обоснованием используемых стратегий.
В четвертой главе подробно изложены основные положения впервые разработанной для русского языка линейной грамматики сегментной структуры русского предложения и алгоритмический базис решения задач двух этапов сегментации предложения - построения сегментов и графа их связей.
Работу завершает Заключение.
Далее следуют Библиография и Приложения.
Заключение научной работыдиссертация на тему "Иерархизация синтаксического анализа на основе свойств линейной структуры русского предложения"
4.4. Выводы к разделу 4.3.
Как было показано, при построении связей между сегментами мы можем на основании свойств проективности сегментов определить зону, где находится слово-хозяин сегмента-слуги.
Основные сложности поиска слова хозяина возникают при появлении альтернативы для ПП, которые в сегменте-хозяине могут и замещать валентности, и выступать как присубстантивные определения актантов и сирконстантов. Для грамматически корректного решения этой проблемы^ необходимо задавать в словаре информацию о лексической сочетаемости существительных и подчинительных союзов, что требует отдельного исследования.
ЗАКЛЮЧЕНИЕ
Основными результатами работы, выносимыми на защиту и определяющими научную и прикладную новизну работы, являются следующие.
1. Исследование линейной организации подчинительных и сочинительных связей и сегментной структуры русского предложения, изложенное в диссертации, вводит новый уровень синтаксического описания — уровень семантики линейной структуры текста, который предлагается называть линейным синтаксисом.
2. Для этого среза синтаксических явлений разработана грамматика линейного синтаксиса для следующих синтаксических явлений. 2.1.Свойства проективности и рекурсивности впервые систематически исследованы применительно к организации линейной структуры подчинительных и сочинительных связей как внутри сегментов, так и для сегментной структуры русского предложения.
2.2.Рассмотрена иерархия проективных подчинительных связей в линейной структуре сегментов, порождающая рекурсивность линейной структуры сегментов.
2.3 .Именные и предложные группы (ИГ и ПГ) изучены с точки зрения проективности и рекурсивности их линейной структуры.
2.4.Применительно к линейной структуре предложения исследованы свойства проективности и рекурсивности сочинительных связей.
2.5.Построена грамматика сегментной структуры, моделирующая семантику линейного синтаксиса сегментной структуры русского S, в рамках которой описаны а) значимая для СА функциональная омонимия и синонимия знаков препинания и б) идеальная модель сегментной структуры, с использованием которой и на основе семантики линейной сегментной структуры разработаны рекурсивные процедуры, моделирующие сегменты путем определения по контексту функций знаков препинания до этапа моделирования структуры связей слов внутри сегментов; а также в) на основе свойств проективности сегментов и сочинительных отношений моделируется структура связей сегментов.
2.6.Для решения задач предсинтаксического анализа построена синтаксически обоснованная типология омонимии частей речи, а для самых существенных для СА типов определены принципы ее разрешения по грамматическому контексту.
3.На основе грамматики линейного синтаксиса СА разбит на шесть подзадач и определена их иерархия.
4. Построена система СА, состоящая их 6 работающих в жестком порядке независимых модулей, суммарно состоящих их 69 алгоритмов и стандартных подпрограмм (см. «Список алгоритмов» в Приложении): два модуля предсинтаксического анализа, решающие морфосинтаксические проблемы, и четыре модуля собственно синтаксического анализа: предсегментация — построение связей, определяющих линейные компоненты S, выступающие единицами текста при сегментации, сегментация — построение сегментов, внутрисегментный анализ — построение всех связей слов в сегментах и межсегментный анализ — построение связей сегментов.
5. На основе исследованных в грамматике линейного синтаксиса свойств линейной структуры в СА применены естественно вытекающие из этих свойств алгоритмические стратегии СА — рекурсивные алгоритмы.
5.1. Впервые на основе идеальной модели и линейно-комбинаторной грамматики сегментной структуры русского S реализованы рекурсивные процедуры, которые позволяют строить сегменты в русских S с любыми грамматически допустимыми комбинациями любого количества любых сегментов до построения большей части связей слов.
5.2.Использование свойств проективности и рекурсивности в ходе анализа позволяет строить на каждом уровне анализа только синтаксически истинные варианты интерпретации S.
5.3.Построены рекурсивные алгоритм, позволяющий находить подчинительные связи слов — границ проективных фрагментов, выступающих единицами линейной структуры при сегментации, в частности — определительных именных и предложных групп любой комбинаторной сложности со всеми потенциально возможными неоднозначностями интерпретации (1раздел второй главы).
5.4.0боснованы алгоритмические стратегии - применение рекурсивных процедур для анализа рекурсивных линейных структур.
Список научной литературыКобзарева, Татьяна Юрьевна, диссертация по теме "Прикладная и математическая лингвистика"
1. Агранат 1999. Агранат Т.Б., Кулагина О.С. О способах различения омонимии предложных словосочетаний при автоматическом анализе текста (на примере конструкций с предлогом С) НТИ ВИНИТИ Сер. 2 Информац. процессы и системы М. 1999 №7 с. 28-31
2. Адамец 1992. Адамец П. Несколько замечаний о синтаксической омонимии в русском языке.\\Системные семантичнские связи языковых единиц. М.1992.
3. Апресян 1989. Апресян Ю.Д., Богуславский И.М., Иомдин Д.Л., Лазурский А.В., Перцов Н.В., Санников В.З., Цинман Л.Л. Лингвистическое обеспечение системы Этап-2, М.: Наука, 1989.
4. Арутюнова 1976. Арутюнова Н.Д. Предложение и его смысл. М.: Наука. 1976.
5. Бакулов 1990-а. Бакулов А.Д., Леонтьева Н.Н., Шаляпина З.М. Системы семейства ЭТАП// Справочник, Искусственный интеллект, Книга 1, Системы общения и экспертные системы, Москва «Радио и связь» 1990, С. 253-255
6. Бакулов 1990-6. Бакулов А.Д., Леонтьева Н.Н., Шаляпина З.М. Система французско-русского машинного перевода ФРАП // Справочник, Искусственный интеллект, Книга 1, Системы общения и экспертные системы, Москва «Радио и связь» — 1990, С.255-260.
7. Баталина 2004-6. Баталина A.M., Айриян Г.Ю., Епифанов М.Е.,.Кобзарева Т.Ю., Лахути Д.Г. Автоматизация отладки алгоритмов поверхностно-синтаксического анализа // Труды Международной конференции Диалог'2005, С. 45-50.
8. Владимирова 1985. Владимирова Е.В., Карпова Г.Д., Лесскис Г.А., Урииовская И.Д. Словарь окончаний в системе автоматического индексирования документов "Скобки". // НТИ, Сер.2, №6, 1985, с 29-31.
9. Гершензон 2002. Гершензон Л.М., Панкратов Д.В. Фрагментационный анализ русского предложения в системе ARTEFACT. // Труды Международного семинара Диалог'2002. Т. 2. Протвино 2002. С. 126-132.
10. Гладкий 1969. Гладкий А. В., Мельчук И. А., Элементы математической лингвистики, М., 1969.
11. Гладкий 1973. Гладкий А. В., Формальные грамматики и языки, М., 1973.
12. Гладкий 1985. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985
13. Гладкий 2007. Гладкий А.В. Синтаксические структуры естественного языка. М., 2007.
14. Дрейзин 1988. Дрейзин Ф.А. Синтаксическая омонимия // Машинный перевод и прикладная лингвистика. М., 1988
15. Ермаков 2004. Ермаков А.Е., Плешко В.В. Компьютерная морфология в контексте анализа связного текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2004. Москва, Наука, 2004 - С. 185-190.
16. Зализняк 1980. Зализняк А.А. Грамматический словарь русского языка. — М.: Русский язык, 1980.
17. Зинкина 2005. ЗинькинаЮ.В., ПяткинН.В., Невзорова О.А. Разрешение функциональной омонимии в русском языке на основе контекстных правил // Труды межд. конф. Диалог'2005.-М.: Наука, 2005. С. 198-202.
18. Ингве 1965. Ингве В. Гипотеза глубины. Новое в лингвистике. Вып.1 V. Изд. Прогресс. М.1965. с.126-138.
19. Иомдин 1990. Иомдин JI.JI. Автоматическая обработка текста на ЕЯ: модель согласования. М. Наука. 1990.
20. Иомдин 2002. Иомдин JI.JI. Уроки русско-английского. Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2002. М.: Наука, 2002 — С. 2002
21. Иомдин 2003. Иомдин JI.JI. Большие проблемы малого синтаксиса. Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Компьютерная лингвистика и интеллектуальные технологии: Москва, Наука, 2003 - С 216-222
22. Иорданская 1967-а. Иорданская JI.H. Синтаксическая омонимия в РЯ (с точки зрения автоматического анализа и синтеза). НТИ, сер.2 1967, №5 -С 917
23. Иорданская 1967-6. Иорданская JI.H. Автоматический синтаксический анализ. Т.2. Межсегментный синтаксический анализ. —■ Новосибирск.: Наука, 1967.
24. Кнорина 1972. Кнорина JI.B., Раскина А.А. Использование словаря-справочника омонимии флексий при автоматической обработке текста. Ереван, 1972. 5 с. (Автоматическая обработка текстов на естественных языках: Семинар стран-членов СЭВ).
25. Кобзарева 2001-6. Кобзарева Т.Ю., Афанасьев Р.Н. Построение комплекса алгоритмов разрешения морфологических неоднозначностей на базе словаря диагностических ситуаций. Обработка текста и когнитивные технологии, вып.6. Казань: "Отечество", 2001.
26. Кобзарева 2002-6. Кобзарева Т.Ю. Некоторые аспекты анализа сочинения при сегментации русского предложения // КИИ'2002. Труды восьмой национальной конференции по искусственному интеллекту с международным участием. М.: Физматлит т. 1. С. 192-198.
27. Кобзарева 2003. Кобзарева Т.Ю. Проблема кореференции в рамках поверхностно-синтаксического анализа русского языка // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2003. — М.: Наука, 2003.— С 278 -284.
28. Кобзарева 2004-а. Кобзарева Т.Ю. Морфанализ in vivo. // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог'2004. — М.: Наука, 2004. — С 286-291.
29. Кобзарева 2004-6. Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал. — М.: Изд-воРГГУ, 2004. —Т. 8.— №1.— С.31-80.
30. Кобзарева 2005. Кобзарева Т.Ю. Омонимия и синонимия знаков препинания в русском тексте II Компьютерная лингвистика и интеллектуальныетехнологии. Труды Международной конференции Диалог'2005. — М: Наука,2005. —С. 233-237.
31. Кобзарева 2007-а. Кобзарева Т.Ю. Иерархия задач поверхностно-синтаксического анализа русского предложения // НТИ, Сер.2, 2007, № 1. С 23-35.
32. Кобзарева 2007-6. Кобзарева Т.Ю. Лингвистический базис анализа поверхностно-синтаксических связей сегментов в русском предложении. Вестник РГГУ. № 6, Серия «Языкознание»: Московский лингвистический журнал, Т.Ю, 2008 С. 173-186
33. Кронгауз 2001. Кронгауз М.А. Семантика. М. 2001.
34. Кулагина 1979. Кулагина О.С. Исследования по машинному переводу. — М.: Наука, 1979.
35. Кулагина 1987. Кулагина О.С. Об автоматическом синтаксическом анализе русских текстов. Препринт Ин-та прикладной математики им. М.В.Келдыша АН СССР № 205,М.
36. Кулагина 1990. Кулагина О.С. О синтаксическом анализе на основе предпочтений. Препринт Ин-та прикладной математики им. М.В.Келдыша АН СССР № 3,М.
37. Кулагина 2001. Кулагина О.С. Об одном подходе к установлению отношений между простыми предложениями в составе сложного при автоматическом анализе текстов. Математические вопросы кибернетики. 2001, №10,-С. 15-34
38. Лаптева 2003. Лаптева О.А. Речевые возможности текстовой омонимии. М. 2003.
39. Леонтьева 1986. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. МГПИИЯ им. М. Тореза. Сборник научных трудов., Вып. 271, М.,1986. г
40. Леонтьева 1996. Леонтьева Н.Н. О предмете "прикладная лингвистика" // Московский лингвистический альманах "Спорное в лингвистике". 1996. Вып.1.
41. Леонтьева 1995. Леонтьева Н. Н. «Политекст»: информационный анализ политических текстов. // НТИ, Сер.2, 1995, №4.
42. Леонтьева 2006. Леонтьева Н. Н. Автоматическое понимание текста: системы, модели, ресурсы — М., 2006
43. Лесерф 1963. Д. Лесерф. Применение программы и модели конфликтной ситуации к автоматическому синтаксическому анализу, М.: Научно-техническая информация, 1963, вып. 10.
44. Мальковский 2006. Мальковский М.Г., Старостин А.С. Модель синтаксиса в системе морфосинтаксического анализа «Treeton» \\ Компьютерная лингвистика и интеллектуальные технологии, Труды Международной конференции Диалог 2008. М. Наука, 2006 С .
45. Мартемьянов 2004. Мартемьянов Ю. С. Логика ситуаций. Строение текста. Терминологичность слов. М.: Языки русской культуры, 2004.
46. Мельчук 1964. Мельчук И.А. Автоматический синтаксический анализ. Т.1. — Новосибирск.: Ред.-изд. отдел Сибирского отделения АН СССР, 1964.
47. Мельчук 1985. Мельчук И.А. Поверхностный синтаксис русских числовых выражений. Wien: Wiener Slawischer Almanach 1985
48. Мельчук 1993. Мельчук И.А. Согласование, управление, конгруэнтность. ВЯ 1993 №5.-С. 16-58.
49. Мельчук 1995. Мельчук И.А. Русский язык в модели «Смысл Текст». М. 1995.
50. Невзорова 2006. Невзорова О.А., Зинькина, Ю.В.,Пяткин Н.В. Методконтекстного разрешения функциональной омонимии: анализ применимости. Труды Международной конференции Диалог'2006. — М.: Наука С.
51. Ножов 2002. Ножов И.М. Проектирование сегментационного анализатора русского предложения // КИИ-2002. Труды конференции, т.1 — М., Физматлит, 2002.
52. Ножов 2003. Ножов И.М. Процессор синтаксической сегментации русского предложения // НТИ. Сер. 2. — 2003. — № 11. — С. 26-37.
53. Падучева 1964. Падучева, Е.В. О способах представления синтаксической структуры предложения // ВЯ. 1964. N 2.
54. Падучева 1971. Падучева Е.В. О порядке слов в предложениях с сочинением: сочинительная проективность//НТИ. Сер. 2, 1971, №3. С 14-20
55. Падучева 1974. Падучева, Е.В. О семантике синтаксиса: Материалы к трансформационной грамматике русского языка. М., 1974.
56. Панкратов 2000. Панкратов Д. В., Гершензон Л. М., Ножов И. М. Описание фрагментации и синтаксического анализа в системе Диалинг. // Техническая документация, www.aot.ru, 2000.
57. Пащенко 1967. Пащенко Н.А. Об одном подходе к проблеме снятия омонимии при автоматической обработке текста на естественном языке. НТИ. Сер.2. №4. 1967.
58. Пешковский 2001. Пешковский A.M. Русский синтаксис в научном освещении. Языки славянской культуры. М 2001.
59. Плунгян 2003. Плунгян В.А. Общая морфология. Введение в проблематику.М., 2003.
60. Поспелов 1959. Поспелов Н.С. Сложноподчиненное предложение и его структурные типы// ВЯ. 1959 №2. с.21-27
61. Ревзин 1978. Ревзин И.И. Структура языка как моделирующей системы. М.: Наука. 1978.
62. Санников 1963. Санников В.З. Место распространенного определения по отношению к определяемому слову в русской фразе. ВЯ, 1963, №1 с. 124130.
63. Санников 1987. Санников В.З. Русские сочинительные конструкции (Семантика. Прагматика. Синтаксис.). Автореферат диссертации. Москва -1987.
64. Севбо 1967. Севбо П.А. О громоздкости синтаксических структур. НТИ. Сер.2. N2 1971.
65. Сиротинина 1974. Сиротинина О.Б. Порядок слов в русском языке. М.1974.
66. Сокирко 2001. Сокирко А. В. Семантические словари в автоматической обработке текста (по материалам системы Диалинг). Автореф. дисс. к.т.н. — М., 2001.
67. Соколова 1987. Соколова Е.Г. Об организации формализованного синтаксического представления в терминах членов предложения. // Сб.научных трудов. Вып. 271, МП и ПЛ. Проблемы создания системы автоматического перевода. Москва 1987, С. 35-63.
68. Сущанская 1089. Сущанская Н. Ф. Программный препроцессор для естественноязыковых интерфейсов. Автореф. дисс. к.т.н. — К.: РИО ИК, 1989.
69. Теньер 1988. Теньер Люсьен, Основы структурного синтаксиса. — М.: Прогресс, 1988.
70. Тестелец 2001. Тестелец Я.Г. Введение в общий синтаксис. М., 2001.
71. Федорова 2004. Фёдорова О.В., Янович И.С. Об одном типе синтаксической многозначности, или Кто стоял на балконе \\ Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2004— М.: Наука, С 644-649.
72. Фитиалов 1967. Фитиалов С.Я. Об эквивалентности грамматики НС и грамматики зависимостей // Проблемы структурной лингвистики. М., 1967
73. Хомский 1962. Хомский Н., Синтаксические структуры // Новое в лингвистике, вып. 2, -М., 1962.
74. Хомский 1972. Хомский Н. Аспекты теории синтаксиса // Изд.Моск.ун-та,1972.
75. Циммерлинг 1999. Циммерлинг А.В. Порядок слов и синтаксические позиции. // Труды международного семинара "Диалог 98" по компьютерной лингвистике и её приложениям /А.С. Нариньяни (ред.). Казань, 1999.
76. Шахматов 2001. Шахматов А.А. Синтаксис русского языка. М.2001.
77. Шведова 1979. Шведова И.Ю.(отв. ред.) Грамматика современного русского литературного языка. М., 1979
78. Шрейдер 1964. Шрейдер Ю.Ф. Свойство проективности языка. НТИ, 1964, №8.