автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Модели многозначности русской предметной лексики: глобальные и локальные правила разрешения омонимии
Полный текст автореферата диссертации по теме "Модели многозначности русской предметной лексики: глобальные и локальные правила разрешения омонимии"
на правах рукописи
КОБРИЦОВ Борис Павлович
МОДЕЛИ МНОГОЗНАЧНОСТИ РУССКОЙ ПРЕДМЕТНОЙ ЛЕКСИКИ: ГЛОБАЛЬНЫЕ И ЛОКАЛЬНЫЕ ПРАВИЛА РАЗРЕШЕНИЯ
ОМОНИМИИ
Специальность 10.02.19 - "Теория языка"
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата филологических наук
Москва 2004
Работа выполнена в Учебно-научном центре лингвистической типологии при Российском государственном гуманитарном университете
Научный руководитель:
доктор филологических наук, Рахилина Екатерина Владимировна
Официальные оппоненты:
доктор филологических наук, Янко Татьяна Евгеньевна
кандидат филологических наук Панина Анна Сергеевна
Ведущая организация:
филологический факультет Московского государственного университета им. М.В.Ломоносова
Защита состоится "8" декабря 2004 г. в 14 часов на заседании диссертационного совета Д.212.198.08 в Российском государственном гуманитарном университете (125 267, Москва, Миусская пл., д.6).
С диссертацией можно ознакомиться в библиотеке государственного гуманитарного университета
Российского
Автореферат разослан
ноября 2004 г.
Ученый секретарь диссертационного совета
М.Б. Рукодельникова
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Реферируемая диссертация посвящена изучению многозначных предметных имен в русском языке. В отличие от традиционных подходов в области исследования многозначности, направленных на установление семантических зависимостей между разными значениями слов и выявление регулярных механизмов переноса, в настоящей работе представлен новый взгляд на эту проблему: исследование языковых средств, которые позволяют носителю выбрать нужное значение многозначных слов. В диссертации проводится описание структуры и типов конструкций с предметными именами - теория конструкций (в частности грамматика конструкций Ч.Филлмора) принципы стала базой для лингвистического эксперимента по частичному разрешению многозначности в корпусе с морфосемантической разметкой.
На основе подробной таксономической классификации предметной лексики, созданной для Национального корпуса русского языка при участии автора диссертации, в работе строятся и описываются модели многозначности, покрывающие предметные слова для словаря объемом около 120 тыс. лексем. Исследуются особенности сочетаемости лексем, входящих в эти модели, и конструируются правила выбора значения, работающие с опорой на сочетаемостные ограничения. На размеченном корпусе объемом около 20 млн. словоупотреблений была опробована работа этих правил и оценена их точность и эффективность.
Таким образом объектом исследования являются предметные имена, представляющие регулярные модели многозначности.
Целью работы является подробное описание таких моделей, а также описание сочетаемости многозначных предметных имен в рамках определенных языковых конструкций, которое позволило сформулировать ряд лингвистических правил разрешения многозначности предметных имен при их употреблении в корпусе текстов с морфосемантической разметкой.
В соответствии с поставленной целью необходимо было решить ряд конкретных задач:
- создание полной таксономической классификации предметных имен во всех значениях;
- выделение моделей многозначности;
- описание структуры правил сочетаемости предметных имен, способствующих разрешению многозначности, для продуктивных моделей
- создание комплекса пилотных правил для отдельных таксономических классов и проверка их точности и эффективности на представительном корпусе русских текстов.
гОС НАЦИОНАЛЬНА*! БИБЛИОТЕКА |
Актуальность исследования определяется, тем, что в теоретическом плане регулярная многозначность предметных имен мало изучена Если для глагольной лексики существует большое количество работ, посвященных исследованию моделей многозначности, то для предметных имен число таких работ чрезвычайно мало. Между тем, многозначность предметных имен представляет серьезную проблему, которая давно осознана в прикладной области (в связи задачами машинного перевода, см. отечественные исследования Апресян и др. 1989, Шаляпина и др. 1999, Wilks 1990, Kelly, Stone 1975 и мн др).
В свою очередь, внимание прикладных специалистов к этим задачам должно стимулировать и теоретический анализ данной проблематики Действительно, адекватное решение проблемы именной многозначности моделирует когнитивные механизмы выбора верного значения в тексте человеком. Такой выбор происходит, с одной стороны, с опорой на хорошо известные эффекты семантического согласования (см. Гак 1972, Апресян 1974/95), а с другой стороны, на базе синтаксических конструкций, различающих противопоставленные друг другу значения: каждому значению свойственен свой набор таких конструкций. Теоретические принципы грамматики конструкций отражены в работах Fillmore 1992, Goldebrg 1995, ср. также Шведова 2003, Апресян 1967. Именно эти принципы и стали предметом подробного теоретического исследования в настоящей работе.
Материалом исследования сочетаемости предметных имен стал Национальный корпус русского языка (www.ruscorpora.ru). На момент проведения эксперимента корпус имел объем 20 млн. словоупотреблений; этот вариант корпуса использовался при работе на диссертацией. Из исходного морфологического словаря корпуса (его ядро составил словарь системы "Диалинг" объемом около 120 тыс. единиц, см. Сокирко 2001) был выбран массив предметных имен (около 22 тыс. словозначений), который стал основой для таксономической разметки многозначной предметной лексики (около 10 тыс. словозначений).
При создании таксономической классификации предметной лексики автор опирался на принципы классификации, принятые в электронной базе данных "Лексикограф", разрабатываемой под руководством Е В.Падучевой в отделе лингвистических исследований ВИНИТИ с 1992 г. (Падучева, Кустова 1994).
Научная новизна исследования заключается прежде всего в том, что все теоретические построения были применены и проверены на реальном представительном корпусе русского языка. В работе впервые приводятся полные списки всех многозначных предметных имен в русском языке, а также выделяются все модели регулярной многозначности, существующие в данном лексическом поле Созданы и описаны механизмы создания правил сочетаемости предметных имен, на основе которых можно осуществлять выбор верного значения имени в тексте, а также приводятся конкретные
группы правил для нескольких таксономических классов. Кроме того, данное исследование представляет собой эксперимент по формированию методов работы над корпусом с морфосемантической разметкой.
В диссертации исследуется природа многозначности и связь отдельных значений многозначных имен с конкретными семантико-синтаксическими конструкциями русского языка и доказывается роль таких конструкций при выборе значений в тексте. В этом состоит теоретическая значимость работы.
Практическая ценность работы заключается в том, что все ее результаты, начиная от таксономической классификации лексики, полных списков предметных имен русского языка, перечня моделей многозначности и, наконец, правил снятия семантической омонимии, базирующихся на анализе конструкций, могут быть использованы дня создания грамматических описаний (в том числе специальной грамматики конструкций), при составлении словарей, а также в других лексикографических исследованиях русского языка.
Кроме того, правила, предложенные в работе, позволяют снять часть лексической неоднозначности на любом корпусе с морфосемантической разметкой. Таким образом, результаты диссертационного исследования могут найти применение при разработке информационных систем нового поколения, в которые входит семантическая интерпретация текстов: описанные правила могут повысить точность и эффективность работы подобных систем.
Апробация работы. Основные положения диссертации и результаты исследования на его различных этапах обсуждались на семинарах отдела лингвистических исследований ВИНИТИ, а также семинарах по корпусной лингвистике Института русского языка им. В.В.Виноградова; на конференции Диалог'2004; 2-м Международном конгрессе исследователей русского языка (Москва 2004). Правила разрешения многозначности, сформулированные в исследовании, использовались для обработки текстов в Национальном корпусе русского языка и отражены в отчете по созданию Национального корпуса русского языка.
Структура работы. Диссертация состоит из введения, пяти глав, заключения, двух приложений и списка литературы, включающего 128 названий.
Во Введении формулируется объект исследования, обосновывается актуальность и новизна выбранной темы, определяются цели и содержание поставленных задач.
В первой главе рассматривается проблема многозначности с точки зрения корпусной лингвистики. Подробно определяется задача исследования, описываются принятые в нашей работе подходы к проблеме описания сочетаемости предметных имен. Обосновывается необходимость построения
таксономической классификации предметной лексики, ориентированной на сочетаемостные свойства лексем.
Во второй главе приводится обзор существующих в зарубежных исследованиях методов разрешения семантической неоднозначности. Оцениваются их преимущества и недостатки, а также возможность применения к русскому материалу. Подчеркивается новизна нашего метода, построенного на сочетаемостных правилах, ориентированных на описание контекстов в терминах таксономических классов.
В третьей главе дается краткое изложение метода классификации принятого в работе. В связи с этим рассматриваются общие проблемы и существующие подходы к созданию лексических классификаций, в зарубежной и отечественной лингвистике. Дается описание таксономической классификации предметных имен.
В четвертой главе рассматривается проблема выбора значения на основе сочетаемости таксономических классов. Формулируется метод разрешения семантической неоднозначности, основанный на последовательном применении правил семантической сочетаемости разного уровня семантической дробности: определяются понятия глобальных и локальных правил. Приводятся основные характеристики этих правил и их различия. Описываются различные типы конструкций, на основе которых строятся правила выбора значения.
В пятой главе подробно рассматриваются конкретные правила выбора значения для многозначных предметных имен, представляющих классы растений и веществ. Приводятся сами правила и подробно анализируются и классифицируются исключения из них. Дается статистическая оценка эффективности работы правил на материале Национального корпуса русского языка и рекомендации по уточнению таксономической классификации, принятой в корпусе.
В Заключении обобщаются основные результаты исследования, их соотношение с поставленными задачами и определяются перспективы дальнейшей работы в данной области.
СОДЕРЖАНИЕДИССЕРТАЦИИ
В первой главе диссертации "Проблемы лексической многозначности" определяется основной объект исследования и рассматривается лексическая многозначность как комплекс лингвистических проблем, решение которых необходимо как для построения грамматики русского языка, так и для развития различных прикладных исследований.
Если опираться на данные толковых словарей (MAC; Ожегов, Шведова и др.), то подавляющее большинство слов русского языка (как впрочем и любого другого естественного языка) окажется многозначным. Между тем, говорящие практически не ощущают трудностей при восприятии речи или письменного текста, связанных с тем-, что одни и те же слова могут
обозначать разные объекты или понятия. Значит, в языке действуют эффективные механизмы снятия лексической многозначности. Однако пока эти механизмы не описаны и представляют собой серьезную лингвистическую проблему, особенно если учесть, что решение задачи выбора правильного значения чрезвычайно важно для систем машинного перевода, информационного поиска и других систем автоматической обработки текста.
Проблема лексической многозначности находится в центре внимания исследователей уже очень длительное время и ей посвящено большое количество работ (Апресян 1974/95, Падучева 1988, Шмелев 1973, Pustejovsky 1996, Вейнрейх 1980 и мн. др.). Однако в существующих исследованиях наблюдается явный уклон в сторону глагольной и предикатной многозначности, в то время как проблема многозначности именно предметных существительных оказывается как бы на периферии. Это связано; во-первых, в целом с длительной традицией глаголоцентричного описания языка (подробнее Goldberg 1995), при котором предикатная лексика как фреймообразующая, всегда находилась в центре интересов теоретиков. Во-вторых, в глагольной лексике больше и многозначности, и регулярной многозначности, так что и в этом отношении предметная лексика привлекала меньшее внимание исследователей.
Между тем, именная многозначность не менее интересна, чем глагольная, - и с общетеоретической точки зрения (в плане разработки принципов ее описания, отличных от глагольной), и с точки зрения типологической (релевантность моделей многозначности для разных языков), и с точки зрения прикладной лингвистики — в данной работе рассматривается именно этот комплекс проблем.
Первым этапом работы стало выделение инвентаря моделей предметно-именной многозначности, которое строилось следующим образом: из морфологического словаря "Диалинг" (Сокирко 2001), основанного на грамматическом словаре А.А.Зализняка (Зализняк 1997), толковом словаре СИ Ожегова (Ожегов 1984) и других, выли выбраны все предметные существительные русского языка (около 22 тыс. слов в разных значениях), и для них была построена таксономическая классификация, внедренная в структуру Национального корпуса русского языка (около 20 млн. словоупотреблений). На ее основе становится возможным выделение полного списка многозначных имен, имен с регулярной многозначностью, а также описание моделей именной многозначности. Модель многозначности "С1--С2" определяется как множество имен, у которых одно значение относится к таксономическому классу С1, в другое - к классу С21.
1 Отметим, что в таком определении модель многозначности отличается от регулярной полисемии (Апресян, 1995). так как включает в себя и случаи омонимии существительных
Модели представляют интерес с общетеоретической точки зрения, то есть для изучения природы регулярных механизмов переноса значения. Эта достаточно традиционная для лингвистики задача (ср. работы Апресян 1974/95 с. 164-216, Lakoff, Johnson 1980 и мн. др.) в настоящей работе практически не рассматривается. С другой стороны, каждое значение многозначного слова выступает в определенном языковом контексте — и в этом отношении модели многозначности существенны для теории конструкций русского языка. В свою очередь, конструкции позволяют сформулировать правила снятия многозначности для корпуса текстов с морфосемантической разметкой (НКРЯ), что является одной из целей нашей работы.
Вторая глава "Методы разрешения семантической неоднозначности" посвящена обзору существующих подходов к проблеме снятия лексической многозначности в тексте, в ней формулируется наш подход к решению данной задачи.
Проблема выбора правильного значения слова была впервые поставлена в 1960 гг. (Bar-Hillel, 1960), когда в ходе активных исследований в области создания систем машинного перевода стало очевидным, что для адекватного анализа и перевода текста необходимо точно знать, в каком значении употребляется каждое слово в предложении. Заметим, что разрешение лексико-семантической неоднозначности в тексте как самостоятельная лингвистическая проблема ставилась преимущественно в зарубежных исследованиях. В отечественной лингвистике эта задача осознавалась как релевантная (но не первоочередная) для построения систем машинного перевода (Апресян и др. 1989, Шаляпина 1999).
В общих чертах, зарубежные исследования в данном направлении можно разделить на два класса: работы, в которых выбор значения осуществляется в результате действия специально сформулированных лингвистических правил, и работы, где разрешение многозначности выполняется на основе статистического анализа контекстов, в которых встречается слово в одном из своих значений. Хронологически, системы первого типа появились первыми, затем на смену им пришли статистические системы.
В системах первого типа (см., например, Weiss 1973; Kelly, Stone, 1975) правила выбора значения задаются вручную для каждого многозначного слова. Такие правила описывают различные аспекты сочетаемости слова и могу применяться к любому вхождению рассматриваемого слова в любом тексте. Неоспоримым преимуществом данного метода является то, что для работы правил выбора значения не требуется никаких дополнительных данных. Однако у него есть и ряд недостатков, главный из которых состоит в том. что правила формулируются отдельно для каждого слова. Очевидно, это требует очень большого времени
и труда исследователя. Подобные системы носили в основном экспериментальный характер и создавались для выбора значения очень ограниченного числа слов (ср. в работе Weiss, 1973 для пяти английский слов). Такие ограничения носили объективный характер, так как в тот период исследователи не имели возможности проводить оценку работы своих правил на большом массиве примеров из электронных корпусов.
По мере развития информационных технологий исследователи получили возможность оперировать большими объемами текстов, что значительно облегчило работу по изучению лексической многозначности. В то время, 1960 гг. была выдвинута так называемая дистрибутивная гипотеза (Harris, 1951), согласно которой слово в одном из своих значений склонно употребляться в схожих контекстах. Она определила теоретическую базу систем выбора значения нового поколения: развитие методов математической лингвистики, а также технических средств позволило создавать достаточно эффективные для английского языка системы снятия лексической многозначности, основанные не на применении правил, а на оценке распределения слов в разных значениях в различных контекстах.
Общая схема работы таких систем (подробнее см. Kilgarriff 1991; Yarowsky 1992) выглядит следующим образом: сначала создается, так называемый тренировочный корпус, в котором для каждого вхождения многозначного слова вручную приписывается значение, в котором оно употреблено. После этого в работу вступает статистический модуль, который для каждого употребления многозначного слова создает набор контекстов, где рассматриваемое слово выступает в одинаковом значении. Причем под контекстом понимается не только набор словоформ, входящих в непосредственное окружение многозначного слова, но и сведения об их грамматической категории, принадлежности к определенному семантическому классу (в некоторых системах), частоте употребления в корпусе и др. Таким образом, каждому слову в одном из значений ставится в соответствие список контекстов, в которых оно может употребляться. Этот этап называется обучением системы. Наконец, для оценки эффективности работы такой системы, ее запускают для текстов с неснятой многозначностью.
Из сказанного видно основное преимущество такого подхода: исключается необходимость детального анализа сочетаемости отдельных слов. Главная задача исследователя состоит в том, что максимально полно описать возможные типы контекстов встречаемости, которые будут использованы при работе статистического модуля.
В то же время, очевидны и недостатки подобных систем: в них из поля зрения ускользает содержательная лингвистическая информация о сочетаемостных свойствах, которые мотивированы самой семантикой слов Кроме того, конечная эффективность существенно зависит от размера и состава тренировочного корпуса. Так, если, например, -в тренировочном
корпусе многозначное слово ни разу не встречается, то, разумеется, система не сможет выбрать правильное значение при анализе новых вхождений.
Отметим также, что такой статистический анализ контекстов плохо применим к русскому материалу. Известно, что степень свободы порядка слов в английском языке гораздо ниже, чем в русском, а именно порядок слов является одним из важнейших критериев при сопоставлении контекстов из тренировочного корпуса и контекстов в новых употреблениях. Частичное подтверждение данного тезиса слабой применимости статистических методов анализа контекстов к русскому языку можно найти в работе (Чардин 2004), где показана чрезвычайно низкая эффективность алгоритмов снятия синтаксической омонимии, основанных на применении статистических моделей.
Таким образом, при разработке собственного подхода к проблеме выбора значения для русских предметных имен мы решили объединить сильные стороны и по возможности преодолеть недостатки обоих описанных методов. Основными свойствами нашей экспериментальной системы снятия многозначности являются:
<1> построение лингвистических правил выбора значения, апеллирующих к семантическому классу слов, составляющих его контекст;
<2> применимость полученных правил к любому тексту с морфосемантической разметкой (как следствие из <1>);
<3> использование данных электронного корпуса текстов для выявления сверхчастотных словосочетаний и выбор семантической интерпретации входящих в них многозначных имен.
В отличие от систем первого поколения наши правила формулируются не для отдельных лексем, но для целых таксономических классов. Фактически, такие правила выбора значения определяют специальные языковые конструкции (см. Fillmore 1992, Апресян 1974/95, Goldberg 1995), в которых могут употребляться русские предметные имена, таким образом, в ходе решения прикладной задачи снятия многозначности мы можем наметить пути создания грамматики конструкций для русского языка.
С одной стороны, такие правила позволяют описывать общие семантико-сочетаемостные свойства больших групп лексики. С другой - при этом подходе на порядок повышается сфера действия таких правил: они применимы к любым многозначным именам из описанных таксономических классов (ср. необходимость построения правил разрешения многозначности для отдельных слов).
В третьей главе диссертации "Таксономическая классификация предметных имен" в соответствии с сформулированной в предыдущей главе задачей, для построения правил выбора значения нам необходимо иметь
исчерпывающую таксономическую классификацию русской лексики, поэтому здесь приводится обзор существующих типов лексических классификаций, а также дается детальное описание классификации предметных имен, принятой в данной работе.
Вообще говоря, любая классификация предполагает определенное структурирование предметной области, тем не менее, при создании той или иной классификации перед ее авторами стоят вполне определенные цели, которые оказывают свое влияние на конечный результат. Классификации могут различаться в зависимости от того, на решение каких задач они ориентированы.
Можно сказать, что история создания лексических классификаций (в современном лингвистическом понимании) берет начало с публикации знаменитого тезауруса английской лексики под редакцией Питера Роже (Roget, 1852). Цель этой классификации явно декларируется в самом названии: "организация лексики для облегчения выражения идей и помощи в литературной композиции" (Thesaurus of English words and phrases classified so as to facilitate the expression of ideas and assist in literary composition). Классификация имеет жесткую иерархическую структуру с максимальной глубиной подклассов равной семи. Каждое слово или словосочетание принадлежат только одному из классов, причем многозначные слова входят в разные классы в соответствии со своим значением.
Любопытно, что в данном тезаурусе список категорий общий для всех частей речи: к одному классу могут принадлежать существительные, прилагательные и глаголы. Это с одной стороны отражает континуальность лексических значений, но с другой создает определенные трудности при работе с самой классификацией. Дело в том, что одним из основных свойств иерархической структуры является наследование признаков более дробными классами от более крупных. Однако даже в области предметной лексики этот принцип действует далеко не всегда. Так, например, стол, с одной стороны, является предметом мебели, а с другой - одновременно относится и к классу имен поверхностей, что проявляется в его сочетаемости, ср : рыться в стопе, но лежать на столе. Понятно, что это не верно. Вообще, при создании классификации предметных имен существует как минимум два типа сведений о семантике слова, которые создают трудности для описания их в формате древовидной классификации - это мереологическая и топологическая информация. Обычно для решения этих проблем для слов, имеющих такие семантические компоненты, вводятся дополнительные бинарные признаки, которые фактически определяют отдельный фасет внутри иерархической классификации. Вместе с тем, очевидно, что подобные технические приемы не отражают того, как реально устроена семантика предметной лексики.
Глагольная лексика тем более не укладывается в жесткие рамки иерархии. Она обладает намного более -гибкой семантической структурой,
чем существительные, которая не позволяет организовать ее в виде дерева, и гораздо лучше представима в виде семантической сети с множеством сложных взаимосвязей между отдельными доменами (см. Miller, 1993). В большинстве лексических классификаций последнего времени принято разделять предметные и предикатные слова, так как их значение устроено по-разному.
Из более современных лексических классификаций, которые частично преодолевают ограничения единой иерархической структуры, и по своим параметрам наиболее приближаются к той классификации, которая необходима для решения наших задач, стоит отметить проект WordNet (Miller 1995) и Русский семантический словарь (Шведова 2000). Их общим преимуществом по сравнению с тезаурусом Роже является то, что классификация лексики проводится для отдельных грамматических категорий. Тем не менее, организация этих словарей так же не позволяет создавать композитные семантические описания, кроме того эти классификации изначально были ориентированы на решение других задач, отличных от наших.
Недостатки указанных систем призвана решить классификация предметной лексики, созданная на основе лексической базы данных "Лексикограф", разрабатываемой в отделе лингвистических исследований ВИНИТИ под рук. Е.В.Падучевой с 1992 г. (о классификации предметных имен в этой системе см. Рахилина 1992; Красильщик, Рахилина 1992). Среди ее основных признаков можно выделить следующие:
- ориентированность на сочетаемостное поведение лексем;
- возможность описания многозначных слов;
- фасетная организация, которая предполагает возможность рассматривать одно словозначение как одновременно относящееся к разным классам полученной таксономии.
Ядро нашей классификации составили предметные имена из "Лексикографа" (около 4000 единиц), классификация была дополнена предметными существительными из словника морфологического словаря "Диалинг", общий объем базы данных составил примерно 22000 словозначений (из них многозначных предметных имен - около 9500 словозначений).
В четвертой главе "Конструкции с предметными именами как основа для глобальных и локальных правил выбора значения" рассматриваются основные принципы выделения языковых конструкций с предметными именами и механизмы снятия семантической многозначности.
В соответствии с сформулированными выше положениями в данной работе процедура выбора значения существительных основывается на анализе морфосемантического контекста. Помимо этого использование
корпуса позволяет легко выделять сверхчастотные случаи употребления фиксированных словосочетаний, в которых выбор значения задается вручную.
Прежде чем непосредственно переходить к исследованию языковых конструкций с предметными именами, необходимо определить сами синтаксические контексты, которые будут рассматриваться в работе. Таких контекстов выделяется пять типов:
- контексты с адъективным определением (Adj + Norn)
- контексты с генитивным определением (Noun + Noun Gen)
- контексты с именем в роли субъекта г л а г о0ию_Ыот + Verb_fín)
контексты с именем в роли объекта глагола (Verb +Noun_Acc)
- предложные конструкции
- правила, в которых значение имени определяется его грамматическими характеристиками, в частности, морфологическим числом
Отметим, что, так как в нашем корпусе отсутствует синтаксическая разметка текстов, то, говоря о предметном имени в роли субъекта глагола, мы имеем в виду ровно описанную выше конструкцию,.. когда за существительным в именительном падеже непосредственно следует глагол в личной форме. Такой упрощенный подход выбран, чтобы правило не давало неверных результатов из-за того, что в его зону действия попали нерелевантные синтаксические конструкции. С одной стороны это сокращает число контекстов, для которых можно применять правила выбора значения, с другой - остается возможность расширения сферы действия правил за счет введения в систему элементов синтаксического анализа.
Итак, мы описываем сочетаемость предметных имен через анализ конструкций. На основании выделенной конструкции задается правило выбора значения все такие правила по своему действию можно разделить на два основных типарестриктивные и селективные. В правилах первого типа описываются контексты, в которых имя не может употребляться в значении, относящемся к некоторому определенному таксономическому классу, ср. следующее правило:
Существительное класса веществ не может употребляться в роли субъекта глагола класса ментальных действий, речи, эмоций и др. (видеть, говорить, думать, сознавать и пр.)
Таким образом, например, в предложении:
- Нетуж, ваше высокоблагородие, ты мне не перечь, — строго сказал
проводник.. (Васильев Б. Были и небыли)
у многозначного имени проводник - '1) вещество, не оказывающее значительного сопротивления электрическому току; 2) провожатый, указывающий путь из числа возможных интерпретаций будет исключено первое значение. Легко видеть, что правила такого типа позволяют сразу выбрать значение только тогда, когда у слова существует не больше двух вариантов значения, в противном случае правило сокращает число потенциальных вариантов.
Правила такого типа в работе называются глобальными так как, во-первых, они в основном применимы к именам крупных таксономических классов, а во-вторых, формулируются на основе общих и достаточно очевидных свойствах обозначаемых именами объектов, по которым они противопоставляются друг другу: статичность, одушевленность, исчисляемость и др. Так например, имена растений и веществ, с одной стороны, противопоставлены именам живых существ по свойству одушевленности, а с другой противопоставлены друг другу по свойству статичности (растения не могут передвигаться, в то время как для веществ это вполне допустимо).
Как уже говорилось, наличие полной классификации предметных имен позволяет выявить все модели многозначности для данного класса лексики. Для исследования именных конструкций в отдельных моделях многозначности мы брали только достаточно крупные группы (от 5 слов), слова в которых достаточно широко представлены корпусе: модели, для которых общее число употреблений входящих слов не превышает 100, не рассматривались.
Селективные правила, в отличие от рестриктивных, основаны не на общих сочетаемостных запретах, а на предпочтениях: для каждого контекста они осуществляют выбор из двух возможных значений. Правила такого типа называются локальными, так как они выбирают значение на основе противопоставления двух конкретных вариантов в одном контексте и такие правила формулируются только для отдельных моделей многозначности, ср. следующее правило:
если при глаголах создания физического объекта одно из имен, репрезентирующих модель многозначности "вещество-картина" (акварель, масло, гуашь, темпера и пр.), употреблено в творительном падеже, то оно выступает в значении вещество, ср.:
Она нарисовала акварелью маленький паровозик с очень большим дымом. (Битов А. Азарт, или Неизбежность ненаписанного)
ср. также другой контекст, в котором имя акварель получает противоположную интерпретацию:
Под акварелью стояла подпись: "Отъезд из Петергофа 27июня 1762
года". (Радзинский Э. Княжна Тараканова)
Помимо теоретической задачи описания языковых конструкций с предметными именами данное исследование предполагает практическое применение полученных результатов для частичного снятия семантической многозначности в корпусе НКРЯ. Поэтому для каждого сформулированного правила на материале корпуса проводилась проверка с целью определения точности и эффективности его работы. Это, во-первых, позволяет примерно оценить количество употреблений многозначных имен, в которых на основе правил можно выбрать верное значение, а во-вторых, позволяет выявить неточность или неполноту самих правил, а также скорректировать таксономическую классификацию лексики.
Такая проверка проводится в виде выполнения поискового запроса по массиву текстов с указанием контекстных ограничений, определенных в условии правила. Так, если в глобальном правиле говорится, что имена не могут употребляться в роли субъекта при глаголах речи, то для проверки этого правила необходимо прежде всего найти употребления имен в роли субъекта глагола - они и будут отрицательными примерами для данного правила. В идеале, во всех таких случаях из списка потенциальных значений имени правило удаляет значение 'вещество', - и таким образом, многозначность будет снята. На деле ситуация обстоит сложнее: далеко не во всех случаях действие правила однозначно. Наш опыт показывает, что все отрицательные примеры можно разделить на пять категорий:
1. Правило работает корректно, многозначность снимается.
2. Правило работает корректно, но многозначность не снимается, так как в рассматриваемой конструкции многозначно не только имя, но и другие участники конструкции. Таким образом, конструкция может иметь несколько равноправных интерпретаций. В подобных случаях снятие многозначности откладывается до этaпa работы локальных правил.
3. Многозначность не снимается из-за неточности именной, глагольной или адъективной таксономической классификации. После внесения необходимых изменений в классификацию многозначность в данном употреблении снимается, либо такой пример переводится в категорию 2 (см. выше).
4. Многозначность не снимается в силу того, что конструкция, в которой употреблено имя, является специальным художественным приемом, ср. усталые деревья и т.п. Список таких примеров приведен в Приложении 1.
5. Рассматриваемое предложение попало в список отрицательных примеров из-за некорректной работы программы поиска по тексту. Вообще говоря, такие примеры не интересны с
лингвистической точки зрения, однако, они выделяются и классифицируются отдельно для того, чтобы впоследствии при работе в данном направлении усовершенствовать технические средства и избежать подобных ситуаций.
Необходимо различать точность и эффективность работы правила. В ситуации, когда контекст полностью удовлетворяет условию правила, но, вместе с тем, имя употреблено не в том значении, которое предполагается согласно этому правилу, следует говорить о неточности правила. Формально, точность глобальных правил никогда не равна 100 процентам, так как для любого такого правила существует список случаев художественного употребления, нарушающих условие. Кроме того, при начальной оценке глобального правила его точность понижается за счет наличия предложений из категории 3. Таким образом, можно сказать, что оценка точности правила позволяет выявить такие интересные побочные результаты, как художественные метафоры и ошибки классификации.
После исследования отрицательных примеров и необходимых изменений в классификации можно делать выводы относительно эффективности работы правила. Эффективность правила определяется в процентном отношении: число случаев снятия многозначности для имен данного таксономического класса, выступающих в рассматриваемой синтаксической конструкции, к общему количеству употреблений таких имен в корпусе.
Для локальных правил точность работы всегда стремится к 100 процентам. Фактически, для исследованных таксономических классов имен было выявлено не более 10 употреблений многозначных предметных имен, противоречащих локальным правилам (они рассматриваются отдельно). Эффективность работы локальных правил определяется так же как и для глобальных.
В ходе исследования локальных правил для отдельных моделей оказалось, что среди них можно выделить три структурных типа.
1) Правила, которые формулируются только в терминах таксономических классов, в их условии отсутствует упоминание конкретных лексем, которые должны входить в состав конструкции. В качестве примера приведем следующее локальное правило:
Если имя, репрезентирующее модель многозначности "вещество-пространство/место" (вода, асфальт, земля и др.), выступает в роли субъекта при глаголе движения, то оно употреблено в значении вещество, ср:
Скоро звякнул металл о металл, земля просыпалась в небольшую
пустоту, и Олег воскликнул пережатым голосом, подзывая девочку.
(Славникова О. Стрекоза увеличенная до размеров собаки)
2) В правилах второго типа одна из позиций синтаксической конструкции задается непосредственно конкретным словом:
если имя из модели "растение--еда" (картошка, салат и др.) или "вещество-еда" (масло, сахар и др.) употребляется с адъективным определением, выраженным прилагательным постный, то оно выступает в значении еда, ср.:
В то время как занимаешься постным салатом, на память приходят
разные забавные случаи, связанные с деревенской банькой зимнего
дела. (Пьецух В. Деревенские дневники)
Несмотря на кажущуюся малоупотребимость прилагательного постный, в корпусе на 20 млн. словоупотреблений оно встретилось около 220 раз, что является достаточно представительной выборкой примеров для введение указанного правила.
3) Наконец правила третьего типа представляет собой вырожденный случай, когда все позиции конструкции задаются конкретными словами. Фактически, в условии таких правил находится фиксированное словосочетание, а в заключении, соответственно, то значение, в котором в нем выступает многозначное имя, ср.:
В конструкции государственная бумага
существительное бумага употреблено в значении документ.
Подчеркнем еще раз вырожденность правил такого типа - с лингвистической точки зрения они малоинтересны, однако в прикладном аспекте с их помощью можно снять довольно большой процент многозначности Корпус позволяет легко выявить подобные сверхчастотные конструкции, для которых многозначность однажды будет снята вручную.
Пятая глава диссертации "Имена веществ и растений: правила разрешения многозначности" состоит из двух разделов, в которых описываются глобальные и локальные правила выбора значения для имен данных таксономических классов. Ниже на примере нескольких глобальных правил для имен веществ и локальных правил для имен растений мы покажем, как в работе осуществляется экспериментальное исследование конструкций с русскими предметными именами.
Для имен веществ помимо стандартных глобальных правил, описывающих адъективные конструкции, а также конструкции с существительным в роли субъекта и объекта глаголов и имеющих рестриктивный характер, выделяется два дополнительных правила выбора значения, которые основаны на специфических свойствах имен этого класса. Так, известно, что вещества относятся к классу так называемых неисчисляемых объектов. Это значит, что в их словоизменительной
парадигме отсутствует множественное число. Точнее, следует говорить, что множественное число таких существительных обладает особой семантикой: оно может выражать определенный класс подобных объектов (масла, жиры — видообразующее множественное), большое скопление объектов (льды, снега), у имени может присутствовать только форма множественного числа (сливки, чернила) и т.д. (подробнее см. Зализняк 1967, Соболева 1979, Ляшевская 1999, 2004 и др.). В любом случае, такое числовое противопоставление позволяет говорить, что имя вещества не может употребляться во множественном числе, сохраняя свое исходное значение. Таким образом, для данного таксономического класса можно сформулировать отдельное глобальное правило, которое позволяет снять многозначность примерно в 6500 предложениях (10% всех употреблений многозначных имен веществ).
Другое специальное глобальное правило для имен данного класса основано на регулярной многозначности вида "вещество-материал". Действительно для многих имен веществ характерно выступать в роли материала изготовления каких-либо продуктов. В русском языке существуют как минимум две специальные конструкции, выражающие такое отношение, они описываются в следующих селективных глобальных правилах:
(1) Если имя, одно из значений которого относится к классу веществ, употреблено в родительном падеже после предлога из и эта конструкция следует сразу после имени, обозначающего артефакт, то оно употребляется в значении вещество, ср.:
До сих пор ходят легенды про НИИ, рабочие и ИТРы которых в
институтских мастерских делали себе для дач лопаты из титана.
(Эдельман О. Советские люди на рабочем месте)
В данном примере у многозначного имени титан='1) мифическое существо; 2) человек огромных творческих возможностей; 3) вещество; 4) приспособление для нагревания воды' будет выбрано верное третье значение.
(2) Если имя, одно из значений которого относится к классу веществ, имеет адъективное определение и употреблено в родительном падеже после имени, обозначающего артефакт, то оно употребляется в значении вещество, ср.:
Ширма красного дерева со сборчатыми шелковыми застежками,
этажерка1 (Кучаев А. В германском плену)
Дчя имен веществ на основе нашей таксономической классификации выделяется всего 19 моделей многозначности. Для исследования сочетаемости и построения локальных правил выбора значения мы выбрали
шесть из них : вещество-место, вещество-напиток, вещество-еда, вещество-человек, вещество-приспособление, вещество-изображение.
В общей сложности для них было сформулировано 15 локальных правил, их совокупная эффективность составила 14 процентов.
Очень любопытная ситуация обнаруживается в ряде локальных правил для моделей многозначности "растение-плод", "растение-напиток/еда". Для каждой из этих моделей формулируется следующее правило, ср.3:
Если имя, репрезентирующее модель "растение-плод", имеет адъективное определение из класса прилагательных вкуса, то имя употреблено в значении плод, ср.:
Ходили на рынок и, пачкая губы, ели сладкую чернику с
попадавшимися вягодахсосновыми иглами илисточками.
Особенность имен этих классов ("растение", "плод", "еда/напиток") состоит в том, что они, так сказать, образуют "продовольственную" цепочку. Каждый объект этой цепочки может употребляться в пищу, а прилагательные вкуса, естественным образом, определяют продукт, предназначенный в пищу. В такой ситуации для многозначного имени должно выбираться то значение, которое относится к классу семантически наиболее близкому к продуктам питания, то есть при выборе из двух вариантов "растение" или "плод", должно выбираться значение "плод", а при выборе из трех вариантов "растение", "плод" или "напиток" правильным значением будет "напиток". Так например, сочетание сладкий кофе допускает единственную интерпретацию для имени кофе как "напиток". В целом эта стратегия укладывается в теоретические рамки семантического согласования, но, помимо это, здесь обнаруживается и прикладной аспект выбора правильного значения. Таким образом, в данном случае для корректного выбора значения необходимо установить приоритет действия правил для отдельных моделей: сначала должны выполняться правила для модели "растение—напиток/еда", затем - правила для модели "растение—плод".
Среди других локальных правил выбора значения для имен класса растений можно отметить правила сочетаемости с прилагательными температуры, цвета и размера. Для моделей, в которых одно из значений относится к классу "съедобных" объектов, выделяется правило,
2 Остальные маргинальные случаи (одно слово в модели. крайне низкая встречаемость в корпусе слов из модели) особого интереса не представляют.
1 Отметим, что данную ситуацию нельзя описать в виде глобального правила, которое бы запрещало употребление имен растений с прилагательными вкуса, гак как вполне допустимо: Онаузнала этот дом сразу, по сложенной из камней ограбе. вросшей в песок, по запаху пречых сетей, соленого дерева, кожи и копоти — по тем застарелы запахам, каких не знач ни один из домов поселка. (Дмитриев А. Штиль)
описывающее употребление таких имен в роли субъекта глаголов физиологического действия (есть, пить, грызть, глодать и пр.)
В общей сложности для существительных таксономического класса растений выделяется 16 моделей многозначности, из которых подробно исследуются пять моделей: "растение—плод", "растение—еда/напиток", "растение—человек/животное", "растение—место", "растение—вещество".
Всего для них было сформулировано 16 локальных правил разрешения многозначности, их общая эффективность составила около 15 процентов.
8 Заключении подводятся итоги проведенного исследования и делаются следующие краткие выводы:
1. Детальная таксономическая классификация предметных существительных является мощным инструментом в исследовании многозначности этого класса лексики.
2. Правила контекстной сочетаемости предметных имен в существенной степени предопределяются принадлежностью слова к определенному таксономическому классу.
3. Предметные имена в русском языке могут образовывать языковые конструкции, которые, в частности, регулируют выбор значения многозначного имени.
4. В подобных конструкциях многозначное имя получает единственную семантическую интерпретацию.
5. Следовательно, детальное описание таких конструкций позволит сформулировать лингвистические правила выбора значения для предметных имен в любом тексте с морфосемантической разметкой.
6. Правила сочетаемости могут формулироваться на разных уровнях дробности семантического описания: глобальные правила относятся к крупным классам таксономической классификации, локальные правила -определяют выбор значения для конкретной модели многозначности.
7. Изучение работающих правил (как глобальных так и локальных), и прежде всего, анализ случаев их нарушения позволяет не только совершенствовать саму систему фильтров для выбора верного значения Многозначного имени, но и способствует уточнению таксономической классификации в целом.
8. Природа этих правил также может быть разной: с одной стороны, глобальные правила обычно носят рестриктивный характер (накладывают определенные запреты на контекст), а с другой - действуют селективные признаки (локальные правила), различающие семантически близкие слова.
9 Исследование контекстного поведения предметной лексики на базе корпуса с морфосемантической разметкой позволяет выявлять и описывать конструкции русского языка, релевантность которых для языковой системы (в том числе и для разрешения семантической многозначности) бесспорна.
Основные положения диссертации отражены в следующих публикациях автора:
1. Морфология и синтаксис в проекте Русский стандарт (создание корпуса грамматически размеченных русских текстов) // Кобозева И.М. (ред.), Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции Диалог'2003. М.: Наука, 2003, с.272-278.
2. Методы снятия семантической многозначности // Научно-техническая информация, сер.2, вып. 3. М. .ВИНИТИ, 2004. с. 15-27.
3. Именная классификация как лингвистическая проблема (соавт. О.Н.Ляшевская, Е.В Рахилина) // II Международный конгресс исследователей русского языка "Русский язык: "Русский язык: исторические судьбы и современность". Москва, 18-21 марта 2004 г. Труды и материалы. М.: МГУ, 2004, с. 224
4. Автоматическое разрешение семантической неоднозначности в Национальном корпусе русского языка (соавт. О.Н.Ляшевская) // Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог' 2004. М.:Наука, 2004, с.298-304.
5. Разрешение семантической неоднозначности предметных имен на основе правил сочетаемости для таксономических классов // "Обработка текста и когнитивные технологии", № 10. М.:"Учеба" МИСиС, с.55-62.
Принято к исполнению 03/11/2004 Исполнено 04/11/2004
Заказ № 422 Тираж-100 экз.
ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Балаклавский пр-т, 20-2-93 (095) 747-64-70 (095)318-40-68 www autoreferat ru
2 О о € ù
Оглавление научной работы автор диссертации — кандидата филологических наук Кобрицов, Борис Павлович
Введение.
Глава 1. Проблема лексической многозначности.
1. Лексическая многозначность.
2.1. Методы описания многозначности.
2.2 Метафора и метонимия.
3. Грамматика конструкций. Другой взгляд на многозначность.
4. Конструкции с предметными именами. Разрешение многозначности.
Глава 2. Методы снятия семантической неоднозначности.
2.1 О методах снятия семантической неоднозначности.
2.2 Снятие неоднозначности с помощью правил, построенных вручную.
2.3 Снятие семантической неоднозначности на основе данных электронного корпуса.
2.3.1 Словари и снятие семантической неоднозначности.
2.3.2 Выбор значения более одного слова одновременно.
2.3.3 Разметка корпуса вручную. щ 2.3.4 Переводные словари и параллельные корпуса.
2.3.5 Параллельные корпуса.
2.3.6 Тезаурусы.
2.4 Тестирование системы.
2.5 Итоги.
Глава 3. Классификация предметных имен.
3.1 Основные понятия.
3.1.1 Естественность классификации.
3.1.2 Иерархия.
3.1.3 Фасетная классификация.
3.1.4 Наследование признаков.
3.2 Примеры лексических классификаций.
3.2.1 Тезаурус Питера Марка Роже.;.
3.2.2 База данных WordNet.
3.2.3 EuroWordNet.
3.2.4 Русский WordNet.
3.2.5 Русский семантический словарь (РСС).
3.3 Классификация предметных имен в нашей работе.
3.3.1 Работа над исходным материалом.
3.3.2 Структура классификации.
Глава 4. Конструкции с предметными именами как основа для глобальных и локальных правил выбора значения.
4.1 Типы синтаксических зависимостей.
4.1.1 Адъективное определение.
4.1.2 Генитивная конструкция.
4.1.3 Предложное управление.
4.1.4 Глагольное управление.
4.2 Конструкции с предметными именами.
4.2.1 Семантическая разметка.
4.2.2 Правила снятия семантической неоднозначности.
4.3 Типы правил.
4.3.1 Глобальные правила.
4.3.1 Локальные правила. Модели многозначности.
4.4 Итоги. щ
Глава 5. Имена веществ и растений: правила разрешения многозначности
5.1 Предметные имена класса ВЕЩЕСТВ.
Глобальные правила.
Локальные правила.
Модель ВЕЩЕСТВО - ПРОСТРАНСТВО / МЕСТО.
Модель ВЕЩЕСТВО - НАПИТОК.
Модель ВЕЩЕСТВО - ЧЕЛОВЕК.
Модель ВЕЩЕСТВО-ПРИСПОСОБЛЕНИЕ.
Модель ВЕЩЕСТВО-РАСТЕНИЕ.
Модель ВЕЩЕСТВО-ИЗОБРАЖЕНИЕ.
5.2 Предметные имена класса РАСТЕНИИ.
Глобальные правила.
Локальные правила.
Модель РАСТЕНИЕ-ПЛОД.
Модели РАСТЕНИЕ-ЕДА и РАСТЕНИЕ-НАПИТОК.
Введение диссертации2004 год, автореферат по филологии, Кобрицов, Борис Павлович
Реферируемая диссертация посвящена изучению многозначных предметных имен в русском языке. На базе подробной таксономической классификации предметной лексики, созданной для Национального корпуса русского языка (НКРЯ) при участии автора диссертации, в работе строятся и описываются модели многозначности покрывающие предметные слова для словаря объемом около 120 тыс. лексем. Исследуются особенности сочетаемости лексем, входящих в эти модели, и конструируются правила выбора значения, работающие с опорой на сочетаемостные ограничения. На размеченном корпусе объемом около 20 млн. словоупотреблений была опробована их работа и оценена точность и эффективность.
Таким образом объектом исследования являются предметные имена, представляющие регулярные модели многозначности.
Целью работы является подробное описание таких моделей, а также описание сочетаемости многозначных предметных имен в рамках определенных языковых конструкций, которое позволило сформулировать ряд лингвистических правил разрешения многозначности предметных имен при их употреблении в корпусе текстов с морфосемантической разметкой.
В соответствии с поставленной целью необходимо было решить ряд конкретных задач: создание полной таксономической классификации предметных имен во всех значениях; выделение регулярных моделей многозначности; описание структуры правил сочетаемости предметных имен, способствующих разрешению многозначности, для продуктивных моделей создание комплексов пилотных правил для отдельных таксономических классов и проверка их точности и эффективности на представительном корпусе русских текстов.
Актуальность исследования определяется, тем, что в теоретическом плане регулярная многозначность предметных имен мало изучена. Если для глагольной лексики существует большое количество работ, посвященных исследованию моделей многозначности, то для предметных имен число таких работ чрезвычайно мало. Между тем, многозначность предметных имен представляет серьезную проблему, которая хорошо осознана в прикладной области (например задачи машинного перевода, см. отечественные исследования Апресян и др. 1989, Шаляпина и др. 1999).
В свою очередь, внимание прикладных специалистов к этим задачам должно стимулировать и теоретический анализ данной проблематики. Действительно, адекватное решение проблемы именной многозначности моделирует когнитивные механизмы выбора верного значения в тексте человеком. Такой выбор происходит, с одной стороны, с опорой на хорошо известные эффекты семантического согласования (см. Шмелев 2002, Апресян 1974/95), а с другой стороны, на базе синтаксических конструкций, различающих противопоставленные друг другу значения: каждому значению свойственен свой набор таких конструкций. Теоретические принципы грамматики конструкций отражены в работах Fillmore, Kay 1992; Goldebrg 1995, ср. также Шведова 2003, Апресян 1967. Именно эти принципы и стали предметом подробного теоретического исследования в настоящей работе.
Материалом исследования сочетаемости предметных имен стал Национальный корпус русского языка (www.ruscorpora.ru). На момент проведения эксперимента корпус имел объем 20 млн. словоупотреблений. Именно этот вариант корпуса использовался при работе на диссертацией. Базовый морфологический словарь корпуса (основан на словаре системы "Диалинг" объемом около 120 тыс. единиц, см. Сокирко 2001) был использован для выбора массива предметных имен (около 22 тыс. словозначений), который стал основой для таксономической разметки многозначной предметной лексики (около 10 тыс. словозначений).
Основой для создания таксономической классификации предметной лексики стала электронная база данных "Лексикограф", разрабатываемая под руководством Е.В.Падучевой в отделе лингвистических исследований ВИНИТИ с 1992 г.
Научная новизна исследования заключается прежде всего в том, что все теоретические построения были применены и проверены на реальном представительном корпусе русского языка. В работе впервые приводятся полные списки всех многозначных предметных имен в русском языке, а также выделяются все модели регулярной многозначности, существующие в данной лексике. Созданы и описаны механизмы создания правил сочетаемости предметных имен, на основе которых можно осуществлять выбор верного значения имени в тексте, а также приводятся конкретные группы правил для нескольких таксономических классов. Кроме того, данное исследование представляет собой эксперимент по формированию методов работы над корпусом с морфосемантической разметкой.
Теоретическая значимость. В диссертации исследуется связь отдельных значений многозначных имен с конкретными семантико-синтаксическими конструкциями русского языка и доказывается роль таких конструкций при выборе значений в тексте. В этом состоит теоретическая значимость работы. В работе изучается природа многозначности и ее отражение в сочетаемости лексики. Эти результаты важны для создания специальной грамматики конструкций для русского языка, а также могут быть использованы в других лексикографических исследованиях русского языка.
Практическая ценность работы заключается в том, что все ее результаты, начиная от таксономической классификации лексики, полных списков предметных имен русского языка, перечня моделей многозначности и, наконец, правил снятия семантической омонимии, базирующихся на анализе конструкций, могут быть использованы для 4 создания грамматических описаний (в том числе грамматики конструкций), а также при составлении словарей.
Кроме того, правила, предложенные в работе, позволяют снять часть лексической неоднозначности на любом корпусе с морфосемантической разметкой. Таким образом, результаты диссертационного исследования могут найти применение при разработке информационных систем нового поколения, в которые входит семантическая интерпретация текстов: описанные правила могут повысить точность и эффективность работы подобных систем.
Апробация работы. Основные положения диссертации и результаты исследования на его различных этапах обсуждались на семинарах отдела лингвистических исследований ВИНИТИ, а также семинарах по корпусной лингвистике Института русского языка им В.В.Виноградова; на конференции Диалог'2004; 2-м Международном конгрессе исследователей русского языка (Москва 2004). Правила разрешения многозначности, сформулированные в исследовании, использовались для обработки текстов в Национальном корпусе русского языка, и отражены в отчете по проекту создания Электронного корпуса русского языка.
Структура работы. Диссертация состоит из введения, пяти глав, заключения, двух приложений и списка литературы, включающего 128 названий.
Заключение научной работыдиссертация на тему "Модели многозначности русской предметной лексики: глобальные и локальные правила разрешения омонимии"
Заключение
Настоящая работа посвящена изучению языковых конструкций с предметными именами русского языка. Мы предлагаем подход к описанию лексической многозначности, при котором основное внимание уделяется не правилам, лежащим в основе формирования новых значений слов, а принципам выбора верного значения в тексте. По результатам данного диссертационного исследования можно сделать несколько выводов:
1. Детальная таксономическая классификация предметных существительных является мощным инструментом в исследовании многозначности этого класса лексики.
2. Правила контекстной сочетаемости предметных имен в существенной степени предопределяются принадлежностью слова к определенному таксономическому классу.
3. Предметные имена в русском языке могут образовывать языковые конструкции, которые, в частности, регулируют выбор значения многозначного имени.
4. В подобных конструкциях многозначное имя получает единственную семантическую интерпретацию.
5. Следовательно, детальное описание таких конструкций позволит сформулировать лингвистические правила выбора значения для предметных имен в любом тексте с морфосемантической разметкой.
6. Правила сочетаемости могут формулироваться на разных уровнях дробности семантического описания: глобальные правила относятся к крупным классам таксономической классификации, локальные правила - определяют выбор значения для конкретной модели многозначности.
7. Изучение работающих правил (как глобальных так и локальных), и прежде всего, анализ случаев их нарушения позволяет не только совершенствовать саму систему фильтров для выбора верного значения многозначного имени, но и способствует уточнению таксономической классификации в целом.
7. Природа этих правил также может быть разной: с одной стороны, глобальные правила обычно носят рестриктивный характер (накладывают определенные запреты на контекст), а с другой — действуют селективные признаки (локальные правила), различающие семантически близкие слова.
8. Исследование контекстного поведения предметной лексики на базе корпуса с морфосемантической разметкой позволяет выявлять и описывать конструкции русского языка, релевантность которых для языковой системы (в том числе и для разрешения семантической многозначности) бесспорна.
Список научной литературыКобрицов, Борис Павлович, диссертация по теме "Теория языка"
1. Азарова И.В. и др. Компьютерный тезаурус русского языка типа WordNet // Труды межд. конференции Диалог'2003. М.: Наука, 2003.
2. Азарова И.В. и др. Разработка компьютерного тезауруса русского языка типа WordNet // Доклады научной конференции "Корпусная лингвистика и лингвистические базы данных". Спб., 2002.
3. Апресян Ю. Д. Избранные труды, том I. Лексическая семантика: 2-е изд., испр. и доп. — М.: Школа "Языки русской культуры" РАН, 1995
4. Апресян Ю.Д. и др. Новый объяснительный словарь синонимов русского языка. М., 1997.
5. Апресян Ю.Д. Экспериментальное исследование семантики русского глагола. М.: "Наука", 1967.
6. Апресян Ю.Д., и др. Лингвистическое обеспечение системы ЭТАП-2. М.:Наука, 1989.
7. Арутюнова Н.Д. Предложение и его смысл. М.:Наука, 1976.
8. Арутюнова Н.Д. Языковая метафора: синтаксис и лексика // Лингвистика и поэтика. М., 1979.
9. Вейнрейх У. Опыт семантической теории. — В кн.: Новое в зарубежной лингвистике, вып. X. М., 1980
10. Гак В.Г. К проблеме семантической синтагматики // Проблемы структурной лингвистики 1971., 1972.
11. Ельмслев Л. Пролегомены к теории языка // Новое в лингвистике. М., 1960. Вып.1
12. Забродин В.Ю. О критериях естественности классификаций//НТИ, сер.2, М., 1981 №8
13. Зализняк А.А. Грамматический словарь русского языка. М.:Русский язык. 1977.
14. Зализняк А.А. Русское именное словоизменение. М. 1967.
15. Звонкин А.И., Фрумкина P.M. Свободная классификация: модели поведения. //НТИ сер.2, №6. М.:ВИНИТИ, 1980.
16. Золотова Г.А. Синтаксический словарь: Репертуар элементарных единиц русского синтаксиса. М.: Наука, 2001.
17. Кобрицов Б.П. Методы снятия семантической неоднозначности // Научно-техническая информация. Сер.2. 2004. — №1.
18. Кобрицов Б.П., Ляшевская О.Н., Рахилина Е.В. Именная классификация как лингвистическая проблема // Труды конференции Конгресс русского языка. — 2004. -МГУ.
19. Корпусная лингвистика в России (сост. Рахилина Е. В., Шаров С. А.) // Научно-техническая информация, сер. 2: Информационные процессы и системы, 2003, №№ 6 и 10.
20. Красильщик И.С., Рахилина Е.В. Предметные имена в системе "Лексикограф".// Научно-техническая информация. Сер.2, N 9, 1992.
21. Курилович 1962 — Курилович Е. Заметки о значении слова. // Курилович Е. Очерки по лингвистике. М., 1962.
22. Кустова Г.И., Падучева Е.В. Словарь как лексическая база данных. Вопросы языкознания, 1994, N3.
23. Леонтьева Н.Н. Русский общесемантический словарь (РОСС): структура, наполнение//НТИ. Сер.2. 1997.
24. Ляшевская О.Н. Нестандартное числовое поведение русских существительных. Дис. канд. филолог, наук. М. 1999.
25. Ляшевская О.Н. Семантика русского числа. М.:Языки славянской культуры, 2004.
26. Меграбова Э.Г. О взаимоотношении лексики и формальных средств языка при изучении лексики как системы//научно-методическая конференция преподавателей иностранных языков вузов Дальнего Востока. 1-я. 1971.
27. Морковкин В. В. Опыт идеографического описания лексики. М., 1977.
28. Мейен С.В., Шрейдер Ю.А. Методологические аспекты теории классификации.// Вопросы философии. М., 1976, № 12
29. Ожегов С. И. Шведова Н.Ю. Словарь русского языка. М., 1992.
30. Падучева Е.В. Два подхода к семантическому анализу категории числа // То honor Roman Jakobson, v.II. The Hague Paris, 1967.
31. Падучева E.B. О парадигме регулярной многозначности (на примере глаголов звука). -НТИ. Сер. 2. 1988, № 4
32. Падучева Е.В. Метонимические и метафорические переносы в парадигме глагола назначить // Типология и теория языка: от описания к объяснению. Сб. к 60-летию А.Е.Кибрика. М.:Языки русской культуры, 1999. с.488-502.
33. Падучева Е.В. Динамические модели в семантике лексики. М.:Языки славянской культуры, 2004.
34. Плунгян В.А., Сичинава Д.В. Морфологическая информация в национальном корпусе русского языка // Труды П-го Международного конгресса русистов-исследователей 2004,
35. Поляков В.Н. Использование технологий, ориентированных на лексическое значение, в задачах поиска и классификации // Проблемы прикладной лингвистики, 2004 (в печати)
36. Рахилина Е.В. О лексических базах данных // Научно-техническая информация. сер.2. N 9. М.:ВИНИТИ, 1992.
37. Розина Р.И. Таксономические отношения в лексике // НТИ сер. 2 № 10. 1984
38. Розина Р.И. О некоторых производных значениях глаголов перемещения в русском языке // Моск. лингв, журн. 1996. Т. 2. С. 352-360.
39. Словарь русского языка: в 4 т. 4-е изд. стер. М.: 1999 MAC.
40. Словарь современного русского языка: в 17 т. М.; Л., 1948-1965 БАС.
41. Смирницкий А.И. Лексикология английского языка. М.: Изд-во литературы на иностранных языках. 1956
42. Соболева П.А. Лексикализация множественного числа и словообразование // Лингвистика и поэтика. М.:Наука, 1979. с.47-85.
43. Сокирко А.В. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ). Дис. канд. технич. наук. М.:2001.
44. Степанов Ю.С. Иерархия имен и ранги субъектов. //Известия АН СССР. Сер. лит. и яз., М., 1979 т.38, №4
45. Степанов Ю.С. Имена. Предикаты. Предложения. Семиологическая грамматика // Ин-т языкознания. М., 1981
46. Успенский Б.А. О вещных коннотациях абстрактных существительных // Семиотика и информатика, вып.11, 1979 (перепечатано в: Семиотика и информатика, вып.35. М.:"Языки русской культуры", 1997)
47. Филлмор Ч. Дело о падеже // НЗЛ, вып. X. М.:Прогресс, 1981.
48. Чардин И. 2004. Лингвистические корпусы с разметкой на основе грамматики зависимостей и их применение при автоматическом синтаксическом анализе. М. 2004.
49. Ченки А. Семантика в когнитивной лингвистике. // Фундаментальные направления современной американской лингвистики. Под ред. А.А.Кибрика, И.М.Кобозевой и И.А.Секериной. М, 1997
50. Шаляпина З.М. и др. Экспериментальный комплекс ЯРАП как инструмент сопоставительных лингвистических исследований. // Общее и восточное языкознание. М.: Современный писатель, 1999, с.64-79
51. Шведова Н. Ю. Русский семантический словарь. М., 2000
52. Шведова Н.Ю. Очерки по синтаксису русской разговорной речи. // РАН Институт русского языка. М.: Азбуковник, 2003.
53. Шмелев Д.Н. Избранные труды по русскому языку. М.: Языки славянской культуры. 2002. с. 30-72.
54. ALPAC (1966). Language and Machine: Computers // Translation and Linguistics, National Research Council Automatic Language Processing Advisory Committee, Washington, D.C.
55. Bar-Hillel, Yehoshua (1960). Automatic Translation of Languages. // Alt, Franz; Booth, A. Donald and Meagher, R. E. (Eds), Advances in Computers, Academic Press, New York. 247-261.
56. Black E. An experiment in computational discrimination of English word senses // ШМ Journal, 32(2), 1988, p. 185-194.
57. Boas F. Race, Language and Culture, Macmillan, New York, 1940.
58. Bryan R. Abstract thesauri and graph theory applications to thesaurus research. // Sedelow, Sally Yeates (Ed.), Automated Language Analysis. University of Kansas Press, Lawrence, Kansas, 1973. p.45-89.
59. Buitelaar, Paul (1997). A lexicon for underspecified semantic tagging. // ACL-SIGLEX Workshop "Tagging Text with Lexical Semantics: Why, What, and How?" April 4-5, 1997, Washington, D.C., 25-33.
60. Chomsky N. Syntactic structures. Mouton, The Hague, 1957.
61. Choueka Y., Dreizin F. Mechanical resolution of lexical ambiguity in a coherent text. // Proceedings of the International Conference on Computational Linguistics, COLING76, Canada, 1976.
62. Cowie J., Guthrie J., Guthrie L. Lexical disambiguation using simulated annealing // Proceedings of COLING Conference, 1992. p.359-365.
63. Dagan A., Schwall U. Two languages are more informative than one // Proceedings of the ACL, (29), 1991. p.130-137.
64. Demetriou G.C. Lexical disambiguation using constraint handling // Prolog (CHIP) // Proceedings of the European Chapter of the ACL, 1993. p.431-436.
65. Eaton H. Semantic frequency list for English, French, German and Spanish. Chicago University Press, Chicago, 1940.
66. Fillmore Ch.J. The case for case // Universals in Linguistic Theory. NY: Holt, Rinehart, and Winston. 1968. p. 1-88
67. Fillmore, Ch. J. Frame semantics // Linguistics in the Morning Calm, Seoul: Hanshin Publishing Co., 1982. p.l 11-137.
68. Fillmore, Ch. J., Kay P. Construction Grammar course book. Berkley, UC, 1992.
69. Gale W.A., Church K.W. A program for aligning sentences in bilingual corpora // Proceedings of the ACL, 29,1991. p. 177-184.
70. Gale W.A., Church K.W., Yarowsky D. A Method for Disambiguating Word Senses in a Large Corpus // Computers and the Humanities, 26,1992. p.415-439.
71. Garside R. The CLAWS word tagging system // The computational analysis of English: a corpus based approach, (ed.) R. Garside, G. Leech, G. Sampson, Longman, 1987. p.30-41.
72. Goldberg A. A Construction Grammar approach to argument structure. Chicago: Univ. of Chicago. 1995
73. Grolier Multimedia Encyclopedia CD-ROM. Grolier Interactive Inc., 90 Sherman Turnpike, Danbuiy, CT 06816, USA
74. Guthrie J.A., Guthrie L., Wilks Y., Aidinejad H. Subject-dependent co-occurrence and word sense disambiguation // Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, CA, 1991. p. 146-152.
75. Harris Z. Methods in structural linguistics. The University of Chicago Press, 1951.
76. Hearst M. Noun homograph disambiguation using local context in large text corpora // Proceedings of the 7th conference, UW Centre for the New OED & Text Research Using Corpora, 1991.
77. Hirst G. Semantic interpretation and the resolution of ambiguity. Cambridge: Cambridge University Press, 1986.
78. Ide N., Veronis J. Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art. Computational Linguistics, 24(1), 1998.
79. Iker H. SELECT: A computer program to identify associationally rich words for content analysis. I. Statistical results. // Computers and the Humanities, 8,1974. p.313-19.
80. Imbs P. Tresor de la Langue Francaise. Dictionnaire de la langue du XIXe et du XXe siecles (1989-1960). // Editions du Centre National de la Recherche Scientifique, Paris, 1971.
81. Jackendoff R.S. Semantics and cognition. Cambr. (Mass.): MIT, 1983.
82. Johansson S. The LOB corpus of British English texts: presentation and comments. // ALLC Journal, 1(1), 1980. p.25-36.
83. Jorgensen J. The psychological reality of word senses // Journal of Psychological Research, 19,1990. p.167-190
84. Kelly E., Stone P. Computer recognition of english word senses. North-Holland Publishing Co., Amsterdam, 1975.
85. Kilgarriff A. Corpus word usages and dictionary word senses: What is the match? An empirical study // Proceedings of the 7th conference, UW Centre for the New OED & Text Research Using Corpora, 1991.
86. Kucera H., Kucera F., Winthrop N. Computational Analysis of Present-Day American English, Brown University Press, Providence, 1967.
87. LakofTG., Johnson M. Metaphors we live by. Chicago: Univ. of Chicago. 1980.
88. Lakoff G. Women, fire and dangerous things: What categories reveal about the mind. Chicago: Univ. of Chicago, 1987.
89. Lesk M. They said true things, but called them by wrong names — vocabulary problems in retrieval systems. // Proc. 4th Annual Conference of the University of Waterloo Centre for the New OED, 1988.
90. Lesk M. Automatic Sense Disambiguation Using Machine Readable Dictionaries: How to Tell a Pine Cone from an Ice Cream Cone. // Proc. of SIGDOC, Toronto, 1986. p. 1-9.
91. Longman dictionary of contemporary English, New edition, Longman
92. Lorge I. Semantic Content of the 570 Commonest English Words. Columbia University Press, New York, 1949.
93. Masterman M. The thesaurus in syntax and semantics. // Mechanical Translation, 4, 1957.
94. Michea, R. Les vocabulaires fondamentaux. // Recherche et techniques nouvelles au service de l'enseignement des langues vivantes, Universite de Strasbourg, Strasbourg, 1964. p.21-36.
95. Miller G., Beckwith R., Fellbaum Ch., Gross D., Miller KJ. WordNet: An on-line lexical database. //International Journal of Lexicography, 3(4), 1990. p.235-244.
96. Palmer H. Second Interim Report on English Collocations, Institute for Research in English Teaching, Tokyo, 1933.
97. Partee В. Lexical semantics and compositionality // L.Gleitman, M.Liberman (eds.), Invitation to cognitive science, part IrLanguage. Cambridge:MIT, 1995
98. Patrick A.B. An exploration of abstract thesaurus instantiation. M. Sc. thesis, University of Kansas, Lawrence, Kansas, 1985.
99. Pustejovsky J. Lexical Semantics: The Problem of Polysemy. Oxford: Clarendon, 1996.
100. Pustejovsky J. The Generative Lexicon. Cambridge: MIT Press, 1998.
101. Quirk R. Towards a description of English usage. // Transactions of the Philological Society, 1960. p.40-61.
102. Roget P.M. Thesaurus of English words and phrases classified so as to facilitate the expression of ideas and assist in literary composition Lnd., 1852.
103. Roget's thesaurus of English words and phrases. New ed. prepared by B. Kirkpatrick. Harmondsworth: Penguin, 1988.
104. Rosch E. et. al. Basic objects in natural categories. // Cognitive psycology 7, 1976. p.573-605.
105. Sedelow S., Sedelow W. Categories and procedures for content analysis in the humanities. // The Analysis of Communication Content, John Wiley & Sons, New York, 1969. p.487-499.
106. Simpson J., Weiner E. The Oxford English dictionary, 2nd ed. Oxford university press, 1989.
107. Small S., Rieger C. Parsing and comprehending with word experts (a theory and its realisation), // Strategies for Natural Language Processing, W.G. Lehnert & M. H. Ringle, Eds., LEA, 1982. p.89-148.
108. Sparck J. Synonymy and semantic classification. Ph. D. thesis, University of Cambridge, Cambridge, England, 1964.
109. Stone PhJ. Improved quality of content analysis categories: Computerizeddisambiguation rules for high-frequency English words. // The Analysis of Communication Content, John Wiley and Sons, New York, 1969. p.199-221.
110. Stone Ph.J. et. all. The General Inquirer: A Computer Approach to Content Analysis. MIT Press, Cambridge, Massachusetts, 1966.
111. Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network // Proceedings of the International Conference on Information & Knowledge Management (CIKM), 2, 1993. p.67-74.
112. Thorndike Ed.L. On the frequency of semantic changes in modern English. // Journal of General Psychology, 66,1948. p.319-327.
113. TomaselloM. Constructing a Language: A Usage-Based Theory of Language Acquisition. London: Harvard University Press. 2003.
114. Weiss S. Learning to disambiguate // Information Storage and Retrieval, v.9,1973
115. Weiss S. Learning to disambiguate // Information Storage and Retrieval, 9, 1973.
116. Wierzbicka A. Lexicography and conceptual analysis. Ann Arbour: Karoma, 1985
117. Wilks Y. et. all. Providing Machine Tractable Dictionary Tools. // Machine Translation, 5,1990. p.99-154.
118. Yarowsky D. A comparison of corpus-based techniques for restoring accents in Spanish and French text. // Proceedings of the 2nd Annual Workshop on Very Large Text Corpora. Las Cruces, 1994. p. 19-32.
119. Yarowsky D. Decision lists for lexical ambiguity resolution: application to accent restoration in Spanish and French. // Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, New Mexico, 1994. p.88-95.
120. Yarowsky D. Word sense disambiguation using statistical models of Roget's categories trained on large corpora. // Proceedings of the 14th International Conference on Computationa, 1992.
121. Yarowsky D. Word sense disambiguation using statistical models of Roget's categories trained on large corpora. // Proceedings of the 14th International Conference on Computational Linguistics, COLING'92,23-28 August, Nantes, France, 1992. p.454-460.
122. Yarowsky D. Unsupervised word sense disambiguation rivalling supervised methods // Proceedings of the ACL, 33. 1995
123. Zipf G.K. "The meaning frequency relationship of words." // Journal of General Psychology, 33,1945. p.251-266.