Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов

Хохлова, Мария Владимировна

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов

Год: 2010
Автор научной работы: Хохлова, Мария Владимировна
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Санкт-Петербург
Код cпециальности ВАК: 10.02.21

Диссертация по филологии на тему 'Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов'

Полный текст автореферата диссертации по теме "Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

ХОХЛОВА МАРИЯ ВЛАДИМИРОВНА

ИССЛЕДОВАНИЕ ЛЕКСИКО-СИНТАКСИЧЕСКОЙ СОЧЕТАЕМОСТИ В РУССКОМ ЯЗЫКЕ С ПОМОЩЬЮ СТАТИСТИЧЕСКИХ МЕТОДОВ (НА БАЗЕ КОРПУСОВ ТЕКСТОВ)

Специальность 10.02.21 - Прикладная и математическая лингвистика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата филологических наук

САНКТ-ПЕТЕРБУРГ 2 4 013 2и!|

2010

4855815

Работа выполнена на кафедре математической лингвистики Филологического факультета Санкт-Петербургского государственного университета

Научный руководитель:

Официальные оппоненты:

Ведущая организация:

кандидат филологических наук, доцент Виктор Павлович Захаров

доктор филологических наук, профессор,

заведующая кафедрой

прикладной лингвистики

Российского государственного

педагогического университета

им. А.И. Герцена

Лариса Николаевна Беляева

кандидат филологических наук, доцент кафедры общего языкознания Санкт-Петербургского государственного университета Павел Анатольевич Клубков

Учреждение Российской академии наук Институт русского языка им. В.В. Виноградова РАН

Защита состоится «16» февраля 2011 года в 16 часов на заседании совета Д 212.232.23 по защите докторских и кандидатских диссертаций при Санкт-Петербургском государственном университете по адресу 199034, г. Санкт-Петербург, Университетская наб., д. 11, ауд. 191.

С диссертацией можно ознакомиться в Научной библиотеке им. М. Горького Санкт-Петербургского государственного университета (Санкт-Петербург, Университетская наб., д. 7/9).

Автореферат разослан « & » сЗМО г.

Ученый секретарь диссертационного совета Д 212.232.23

доктор филологических наук, профессор

■Ж

К.А. Филиппов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Данная работа направлена на описание и экспериментальную верификацию лингвистических и статистических приемов выявления коллокаций в корпусах текстов на материале русского языка. Проблема изучения синтагматической сочетаемости и устойчивости сочетаний слов является одной из ключевых в лингвистике. Существующая литература и словари не всегда полно и последовательно отражают информацию о сочетаемостных предпочтениях лексем, об устойчивых словосочетаниях.

Таким образом, актуальность темы обусловлена тем, что получение новых данных о сочетаемости, разработка новых методов ее изучения должны способствовать развитию лексикографии, синтаксиса, семантики. Статистические методы, лежащие в основе данной диссертации, открывают новые перспективы для подобного рода исследований. Применение описываемых методов для получения информации о лексической и синтаксической сочетаемости на базе больших корпусов текстов уже сегодня служит основой для создания словарей и грамматик нового типа. Особенно важно их сопряжение с другими методами, используемыми в области теоретической и прикладной лингвистики.

В настоящее время в современной лингвистике незаменимым инструментом и одновременно материалом для лингвистических исследований и решения прикладных задач стали корпусы текстов. Тем не менее, пользователям корпусов трудно справиться с большим объемом выдаваемой информации, переработать ее и определенным образом классифицировать. Возникает проблема переизбытка данных. Нужна система «фильтров», которая помогала бы отбирать значимые факты языка, относящиеся, в частности, к теоретическим и прикладным аспектам сочетаемости. Статистический аппарат, применяемый в корпусах текстов, позволяет пользователям ранжировать результаты поиска по разным параметрам и задавать пороговые значения, что приводит к выдаче наиболее значимой информации.

Объектом диссертационного исследования выступает явление синтагматической сочетаемости в русском языке. Предмет исследования — статистически устойчивые сочетания (коллокации), соответствующие определенным лексико-синтаксическим моделям.

Материалом исследования послужили данные трех корпусов новостных текстов русского языка объемом 78 млн., 157 млн. и 174 млн. словоупотреблений соответственно.

Целью работы является исследование и решение комплекса теоретических вопросов, связанных с троякой природой коллокаций (лексической, синтаксической и статистической), разработка общей модели лексико-синтаксических сочетаний в русском языке и изучение методов их выделения.

Для достижения поставленной цели в диссертации решен ряд задач:

1. Проанализировано понятие «коллокация» в зарубежной и отечественной лингвистике.

2. Описаны статистические меры для вычисления силы синтагматической связанности.

3. Изучено и описано программное обеспечение, выявляющее коллокации в корпусах текстов.

4. Проведены экспериментальная проверка и сравнительный анализ эффективности различных мер ассоциации, используемых для выделения коллокаций, на материале русского языка.

5. Произведен анализ синтаксической типологии словосочетаний.

6. Разработано системное описание моделей коллокаций русского языка в рамках лексико-синтаксических шаблонов и базовой модели русского синтаксиса для системы типа Sketch Engine; разработанные правила описания лексико-синтаксических шаблонов апробированы на материале корпусов русского языка.

Методы исследования, использованные в работе, включают контекстный, сопоставительный и другие виды анализа. Применялся также

статистический анализ по корпусам текстов русского языка с использованием следующих статистических мер: MI, t-score, log-likelihood и salience. Лингвистические корпусы позволяют рассматривать элементы текста одновременно в нескольких аспектах и получить разнообразные данные о них (например, морфологические, статистические характеристики, контексты словоупотреблений и др.).

Научная новизна исследования заключается в том, что в нем впервые в отечественной лингвистике сочетаемость рассматривается в аспекте своей троякой природы: лексической, синтаксической и статистической. Использованы статистический и лексико-синтаксический подходы к явлению сочетаемости. В настоящей работе впервые осуществлен последовательный цикл разработки аппарата для выявления коллокаций на основе лексико-синтаксических шаблонов — от теоретического описания до практического внедрения в программу.

Теоретическая значимость исследования заключается в создании комплексной системы описания сочетаемости, базирующейся на грамматике лексико-синтаксических шаблонов для русского языка и статистических методах. Совмещение синтаксического подхода со статистическими методами, предлагаемое в диссертационном исследовании, является вкладом в создание единой теории словосочетаний, учитывающей синтаксический, семантический и узуальный аспекты сочетаемости. Теоретический интерес представляют также новые данные о сочетаемости лексических единиц, их контекстном окружении, полученные на основе корпусов текстов. Создана и апробирована новая методика исследования и лексикографического описания сочетаемостных предпочтений лексем.

Практическая значимость работы обусловлена ее результатами, которые могут быть использованы в лексикографической практике при составлении словарей и справочников, написании грамматик, в информационном поиске для автоматического расширения информационных запросов, при снятии семантической неоднозначности. Полученные результаты

и разработанное программное обеспечение могут найти применение в курсах по лексикологии, лексикографии, корпусной лингвистике, компьютерным технологиям и информационным системам, а также при обучении русскому языку.

В результате исследования сформулированы и выносятся на защиту следующие положения:

1. Количественные показатели устойчивой сочетаемости, вычисленные на основе мер ассоциации и статистических данных, получаемых на больших корпусах, эффективно отражают реально существующие семантико-синтагматические связи разного типа и устойчивые словосочетания. Извлечение коллокаций с помощью статистических методов позволяет выявить устойчивые сочетания, отсутствующие в словарях и другой лингвистической литературе.

2. Комбинация статистического и синтаксического подходов к исследованию сочетаемости и к выявлению коллокаций является более эффективным методом, чем статистический подход. Синтаксический подход реализуется в разработанных лексико-синтаксических шаблонах, учитывающих возможные синтаксические отношения мезвду словами в определенном контексте на основе морфологической разметки корпуса.

3. Описание лексико-синтаксических шаблонов, используемых в системе Sketch Engine, представляет собой формальную модель русского синтаксиса для словосочетаний разного типа. Это вариант грамматики, представленный в виде структурных образцов (лексико-синтаксических шаблонов) языковых конструкций, в которых указываются существенные грамматические характеристики лексем и синтаксические условия употребления языкового выражения, построенного в соответствии с шаблоном.

4. Сопряжение описанной грамматики со статистическими методами позволяет получать данные о сочетаемостных предпочтениях лексем в рамках конкретных моделей и о продуктивности различных синтаксических моделей.

Апробация работы. Отдельные аспекты и основные положения диссертационного исследования обсуждались на многих отечественных и зарубежных международных конференциях и семинарах, в частности: на международных филологических конференциях преподавателей и аспирантов в Санкт-Петербургском государственном университете (2008, 2010 гг.), на международной конференции "Computer Treatment of Slavic and East European Languages" (Братислава, Словакия, 27 октября 2007), на заседаниях семинаров «Автоматическая обработка естественного языка» (Санкт-Петербург, 10 октября 2009 года), "Recent Advances in Slavonic Natural Language Processing" (Брно, Чехия, 5 декабря 2009), "Sketch Grammar" (Любляна, Словения, 4 февраля 2010), на XIII и XIV международных лексикографических конгрессах "EURALEX" (Барселона, Испания, 18 июля 2008; Леэварден, Нидерланды, 6 июля 2010) и др. По теме диссертации опубликовано 12 работ, в том числе две статьи в российских изданиях, рекомендованных ВАК РФ («Вестник Санкт-Петербургского государственного университета» №2, 2010г.; «Структурная и прикладная лингвистика» №8,2010г.).

Структура работы. Диссертация состоит из Введения, 4 глав, Заключения, Списка литературы и трех Приложений. Основной текст диссертации занимает 211 страниц, содержит 14 таблиц и 18 рисунков. Список литературы состоит из 119 наименований.

СОДЕРЖАНИЕ РАБОТЫ Во Введении обосновываются актуальность темы диссертационного исследования, ее научная новизна и практическая значимость. Формулируются цель и задачи работы, определяются объект, предмет и методы исследования, описывается структура диссертации.

Первая глава «Явление синтагматической сочетаемости» посвящена описанию общей проблемы синтагматической связанности. Сочетаемость слов определяется различными факторами: лексическими, грамматическими и семантическими — и представляет собой одно из проявлений языковой

синтагматики. Общетеоретические аспекты сочетаемости отражены в трудах российских и зарубежных лингвистов (В.В. Виноградов, JI.H. Иорданская, И.А. Мельчук, Дж. Синклер, В.Н. Телия, Дж. Ферс, У. Хайд и др.).

Проблема сочетаемости в лингвистике подробно исследована в лексикологии. Рассматриваются такие параметры (явления) как семантическая совместимость лексем, сочетаемость семантических классов, перенос значения и т.п., то есть в основе подхода к ее описанию лежат лексико-семантические понятия. При этом, однако, нередко отмечаются особенности словоизменения устойчивых сочетаний и грамматические ограничения на элементы словосочетаний.

В лингвистической литературе для обозначения устойчивых сочетаний широко используется термин «коллокация» Этот термин впервые был введен основоположником Лондонской школы структурной лингвистики, представителем британского контекстуализма Дж. Р. Ферсом [Firth 1957: 94]. В научной литературе на русском языке термин «коллокация» впервые появился в Словаре лингвистических терминов О.С. Ахмановой [Ахманова 1966]. Первой работой в российской лингвистике, полностью посвященной исследованию понятия коллокации на материале русского языка, является монография Е.Г.Борисовой [Борисова 1995а]. В процессе коммуникации говорящим в значительной мере используются не столько отдельные слова, сколько повторяющиеся, воспроизводимые конструкции, или коллокации. Подобные элементы являются важным строительным материалом любого языка. Под коллокациями здесь понимаются характерные, часто встречающиеся сочетания слов, появление которых рядом друг с другом основывается на регулярном характере взаимного ожидания и задается семантическими факторами. В рамках семантико-синтаксического подхода коллокации рассматриваются как комплексные семантико-синтаксические единицы. Они характеризуются семантической, синтаксической и дистрибутивной регулярностью. В теории «СмыслоТскст» и в других работах

И.А. Мельчука коллокации рассматриваются как подкласс более обширного класса несвободных словосочетаний, или фразем.

В разделе 1.2 приведены различные определения сочетаемости [Академическая грамматика 1980; Апресян и др. 1969; Апресян 1974; Апресян 1995; Борисова 1995а; Мельчук 1960 и др.]. В работе описаны типы сочетаний в зависимости от степени связанности элементов словосочетаний, например, свободные, фразеологизированные, несвободные (коллокации) и др. Некоторые авторы выделяют среди свободных сочетаний лексически ограниченные и лексически неограниченные словосочетания [Валгина и др. 2002]. В диссертации рассматривается место коллокаций в других классификациях, в частности во фразеологических [Балли 1955; Виноградов 1977; Телия 1996], а также классификация в рамках подхода теории «СмыслоТекст» (классификация фразем) [Иорданская, Мельчук 2007].

Словосочетания являются одновременно предметом синтаксиса и описываются в соответствующих грамматиках и справочниках [Академическая грамматика 1980; Золотова 1988]. В разделе 1.6 описан синтаксический подход к сочетаемости и анализируются разные типы словосочетаний в зависимости от лексико-грамматических свойств главного слова и от семантико-синтаксических отношений между словами (атрибутивные, объектные, субъектные, обстоятельственные, комплетивные) [Валгина и др. 2002]. Другой подход к исследованию явления синтагматической связанности, который рассмотрен в настоящей диссертации, — это описание сочетаемости с помощью лексико-синтаксических шаблонов (иногда их называют лексико-грамматическими или морфологическими шаблонами) [Большакова и др. 2007; Васильева 2004; Митрофанова, Захаров 2008; Рабчевский и др. 2008; Сидорова 2008а, 20086]. В работе [Большакова и др. 2007] лексико-синтаксический шаблон определяется как «структурный образец языковой конструкции, который отображает ее лексические и поверхностно-синтаксические свойства». В нашем понимании, вслед за [Митрофанова, Захаров 2008], лексико-синтаксический шаблон — это структурный образец (модель) языковой

конструкции, в котором указываются существенные грамматические характеристики множества лексем, которые входят в языковые выражения, принадлежащие данному классу, и синтаксические условия употребления языкового выражения, построенного в соответствии с шаблоном (например, правила согласования морфологических признаков лексем). Это понятие использовано и развито нами в главе 4.

Во второй главе «Статистико-комбинаторные методы и программный аппарат для исследования сочетаемости» рассматриваются статистико-комбинаторные методы и существующий программный аппарат для исследования сочетаемости. Основное внимание уделяется вероятностно-статистическим методам выявления коллокаций, являющимся развитием идей британского контекстуализма.

Внедрение в лингвистику компьютерных технологий принесло и новые методы изучения и освоения проблемы сочетаемости. Исследование, касающееся сочетаемости лексических единиц, необходимо проводить на базе реальных текстовых данных, поскольку «значение слова есть способ его употребления» [Витгенштейн 1991: 72]. Сегодня такие реальные данные представлены корпусами текстов (в общем виде это совокупность текстов и программный аппарат для работы с ними), которые на большом репрезентативном объеме материала предоставляют информацию о связях слова с его окружением. Корпусно-ориентированный подход к рассмотрению коллокаций можно назвать статистическим. В корпусной лингвистике понятие «коллокация» переосмысливается или упрощается. Наличие больших корпусов текстов позволяет делать выводы о статистических закономерностях в сочетании одних лексических единиц с другими. Как уже говорилось, в нашем исследовании мы будем понимать под коллокацией статистически устойчивое словосочетание. При этом статистически устойчивое сочетание может быть как фразеологизированным, так и свободным. Сочетаемость часто рассматривается как континуум, т.е. как шкала без точных границ между разными типами сочетаний.

В настоящий момент выявление коллокаций на базе статистических методов занимает ведущее место в лексикографической практике [Atkins 2008; Hausmann 1979; Hausmann 1985; Kilgarriff 2006; Sinclair 1991]. В последнее время за рубежом и в России создаются специальные словари коллокаций [Benson 1997; Crowther et al. 2002; Sinclair 1995; Бирюк 2008; Денисов 2002; Кустова и др. 2008].

За последние годы появилось большое число исследований и разработок, посвященных коллокациям, затрагивающих как теоретические аспекты статистического подхода к данному понятию, так и практические методы выявления коллокаций (см., например, обзор в работе [Evert 2004]). Математическим аппаратом для установления синтагматической связи между словами в тексте служат меры ассоциации (association measures). В данном случае речь идет о статистической ассоциации, которая, в свою очередь, может иметь причиной синтаксическую или лексическую связанность. Линейная близость и частота совместной встречаемости могут оказаться важной предпосылкой для нахождения устойчивых сочетаний. Меры ассоциации вычисляют силу синтагматической связи между элементами в составе коллокации. Эти меры учитывают как частоту совместной встречаемости, так и другие параметры, прежде всего частоту в данном корпусе каждого отдельного элемента. Значения мер ассоциации можно считать показателями силы синтагматической связи между элементами словосочетаний. Чаще других используются Mi-score, t-score и log-likelihood. Общее же количество данных мер исчисляется многими десятками.

Коэффициент синтагматической близости элементов словосочетания, вычисляемый с помощью большинства мер ассоциации, является производным прежде всего от частоты совместной встречаемости, частот элементов словосочетания и объема корпуса. Покажем эту зависимость на примере формулы для меры MI для биграмм, введенной в работе [Church, Hanks 1990]. В ее основе лежит понятие взаимной информации (mutual information),

заимствованное из теории информации и впервые примененное в работе [Fano 1961].

MI (коэффициент взаимной информации, или зависимости) сравнивает зависимые контекстно-связанныс частоты с независимыми, как если бы слова появлялись в тексте совершенно случайно:

»✓г/ \ 1 f(n,c)xN MI(n,c) = log2 J)

где MI— mutual information; n — ключевое слово; с — коллокат\f(n,c) — частота встречаемости ключевого слова п в паре с коллокатом с\ f(n), f(c) — абсолютные (независимые) частоты ключевого слова п и коллоката с в корпусе (тексте); N— общее число словоформ в корпусе (тексте).

Мера t-score также учитывает частоту совместной встречаемости ключевого слова и его коллоката, показывая, насколько неслучайной является сила ассоциации (связанности) между коллокатами [Evert 2004]:

t-score(n,c) = - —

JfW)

Мера salience, используемая в рассматриваемой нами далее системе Sketch Engine, вычисляется по следующей формуле:

salience(n,c) = 14 + log,

т+т

Как видим, эти формулы основываются на тех же данных, что и мера Ml. Мера log-likelihood (логарифмическая функция правдоподобия) несколько более сложная (подробно описана в работах [Dunning 1993; Oakes 1998]), также учитывает вышеуказанные частоты.

Во второй части данной главы описаны программные средства выявления коллокаций, использующие статистический аппарат. К ним относятся: сервис поиска биграмм на сайте АОТ (Автоматическая Обработка Текста); сервис поиска коллокаций по корпусам русских текстов, созданный в университете

г. Лидса (Великобритания) С.А. Шаровым, на базе корпус-менеджера CQP [Шаров 2002а]; система Sketch Engine [Kilgarriff et al. 2004].

В третьей главе «Эксперименты по выявлению устойчивых сочетаний статистическими методами» описаны эксперименты по применению статистических методов выявления коллокаций в текстах на русском языке.

Одна из задач исследования — оценка эффективности различных мер ассоциации на основе корпусов русского языка. Для решения данной задачи была проведена серия экспериментов с целью сравнения эффективности статистических методов выявления коллокаций, базирующихся на мерах MI, t-score, log-likelihood.

Материалом для нашего исследования послужили коллокации 19 существительных, входящих в первую тысячу самых частотных слов в электронном частотном словаря русского языка С.А. Шарова [Шаров 20026] и одновременно присутствующих в словаре коллокаций русского языка Е.Г.Борисовой [Борисова 19956]: власть, внимание, возможность, война, вопрос, дождь, жизнь, закон, любовь, место, мнение, мысль, ночь, ответ, помощь, радость, слово, случай, смысл. Исследование проводилось на базе газетного корпуса русских текстов университета г. Лидса (Великобритания) объемом 78 млн. слов (новостные издания «Известия», «Труд» и Strana.ru).

Для каждого слова в качестве коллокаций были рассмотрены биграммы, т.е. сочетания данного слова со словами, контактно находящимися справа и слева от него. Результаты поиска представлены списком коллокаций, представляющим собой шесть таблиц (рассматривались левый и правый контексты для трех мер), б которых приводятся сами коллокации (представленные леммами — столбец Collocation), а также совместная частота встречаемости компонентов биграммы (столбец Joint), частота первого слова (столбец Freql) и частота второго слова (столбец Freq2) соответственно; в последних трех столбцах — значения разных мер ассоциации: LL score (log-likelihood), MI и t-score. Полученные данные были сведены в две таблицы (для

левого и правого контекстов) (см., например, фрагмент выдачи, содержащий сочетания со словом «война» для левого контекста, в табл. 1).

Табл. 1

Меры ассоциации для слова «война»

Collocation Joint Freql Freq2 LL score MI T-score

холодный война 171 4747 32279 469,90 9,31 13,06

гражданский война 194 12469 32279 451,11 8,10 13,88

мировой война 154 25171 32279 285,92 6,76 12,29

начинаться война 138 19820 32279 264,97 6,94 11,65

идти война 167 47464 32279 264,43 5,96 12,72

чеченский война 83 13558 32279 153,79 6,76 9,03

партизанский война 45 728 32279 135,77 10,09 6,70

отечественный война 67 14847 32279 113,95 6,32 8,08

настоящий война 58 24357 32279 80,36 5,40 7,43

священный война 31 1526 32279 75,95 8,49 5,55

этот война 130 476434 32279 51,37 2,27 9,04

заканчиваться война 29 5896 32279 50,50 6,44 5,32

афганский война 23 4208 32279 41,24 6,59 4,75

объявлять война 32 16404 32279 41,18 5,11 5,49

грянуть война 14 457 32279 37,19 9,08 3,73

иракский война 26 10448 32279 36,54 5,46 4,98

информационный война 24 8846 32279 34,74 5,58 4,80

быть война 123 664975 32279 30,60 1,71 7,70

необъявленный война 9 76 32279 30,19 11,03 3,00

затяжной война 12 571 32279 29,59 8,54 3,45

ценовый война 13 1062 32279 28,53 7,76 3,59

полномасштабный война 11 491 32279 27,48 8,63 3,31

кончаться война 13 1285 32279 27,29 7,48 3,59

Всего же для левого контекста для слова «война» было выдано 106 сочетаний. Для правого контекста для слова «война» было найдено 81 сочетание.

Полученные коллокации мы сравнили с устойчивыми сочетаниями, приведенными для данных существительных в словарях русского языка, а именно: в Словаре коллокаций [Борисова 19956], в БАС [Словарь современного русского языка 1948-1965; Большой академический словарь русского языка 2004-2010], MAC [Словарь русского языка 1981-1984] и в Словаре синонимов и сходных по смыслу выражений [Абрамов 2006] (были рассмотрены словосочетания, представленные в толковых словарях «за ромбом»).

Так, словосочетаниям из табл. 1 в Словаре коллокаций [Борисова 19956] и БАС [Большой академический словарь русского языка 2004-2010] соответствуют следующие:

Табл. 2

Collocation Joint Freql Freq2 LL score Ml T-score

вспыхивать война 5 Л tm ¿¿Ui. 1ЛПЛ f У О 1(1 С OA

гражданский война 194 12469 32279 4Sl.ll 8,10 13,88

идеологический война 4 1678 32279 5,53 5,40 1,95

идти война 167 Aim 32279 264,43 5,96 12,72

кровопролитный война 6 251 32279 15,18 8,72 2,44

мировой война 154 25171 32279 285,92 6,76 12,29

партизанский война 45 728 32279 135,77 10,09 6,70

разражаться война 9 881 32279 18,94 7,50 2,98

холодный война 171 4747 32279 469,90 9,31 13,06

Для всех сводных таблиц и для всех словарей были построены графики, на которых отражены значения соответствующей меры для каждой коллокации (по оси ординат) и значения рангов коллокаций (по оси абсцисс), совпавших с соответствующими сочетаниями в словарях. На рис. 1. приведен пример одного из таких графиков для меры М1. Заштрихованные темным цветом зоны соответствуют словосочетаниям, найденным хотя бы в одном из указанных словарей.

На всех графиках прослеживается одинаковая тенденция, а именно: большинство коллокаций (фразем), зафиксированных в словарях, оказывается в левой половине графика (соответствующей верхней части отсортированного по значению меры списка), т.е. коллокации, зафиксированные в словарях, имеют высокие показатели связанности — значения мер ассоциации.

В результате эксперимента были также выделены коллокации, не зафиксированные ни в одном из словарей. Анализ подобных сочетаний показал, что сочетания, находящиеся в верхней части списка коллокаций (отсортированного по убыванию по одной из мер), действительно относятся к классу устойчивых и, следовательно, должны быть учтены в словарях разных типов. В нижней части списка в подавляющем большинстве случаев оказываются свободные сочетания.

Рис. 1. Значения меры М1 для рассмотренной выборки коллокаций Сравнительный анализ данных, полученных на основе различных мер ассоциации, показывает следующее. Мера М1, возможно, дает наилучшие результаты. Она позволяет выделить устойчивые фразеологизированные словосочетания, а также сочетания, где в качестве коллокатов выступают имена собственные, а также низкочастотные специальные термины. К особенностям использования меры ^соге можно отнести то, что она, в первую очередь, выделяет коллокации с очень частотными словами-коллокатами, в частности, со служебными словами. Поэтому для ^соге, как правило, необходимо задавать список стоп-слов, чтобы «отбросить» самые частотные слова, сочетания с которыми неизменно оказываются вверху таблицы: предлоги, мсстоимсния или союзы.

Таким образом, можно утверждать, что статистический метод выявления коллокаций, основанный на мерах ассоциации, дает лингвистически обоснованные результаты.

При этом были выявлены недостатки и ограничения существующего инструментария. В частности, важно уметь находить разрывные коллокации со

свободным порядком, искать коллокаты не только по леммам, но и по словоформам, искать коллокаты для гнезда опорных однокоренных слов, уметь варьировать размер окна, в котором ищутся коллокаты. Нередко реальные коллокации представляют собой n-граммы, где п больше двух, тогда встает вопрос выбора формул для мер ассоциации для таких словосочетаний. При отборе коллокаций из текста должна соответствующим образом производиться обработка знаков препинания и служебных слов, имен собственных и т.п.

Четвертая глава «Грамматика Word Sketch и выявление лексико-синтаксических сочетаний» посвящена описанию экспериментов по выявления коллокаций в текстах на русском языке с использованием комбинации статистического и синтаксического методов, основывающихся на разработанных в рамках диссертационного исследования лексико-синтаксических шаблонах.

Как уже было сказано, при автоматическом выявлении коллокаций помимо статистических критериев отбора данных должны работать и другие методы, основывающиеся на собственно лингвистических' моделях. Данная идея заложена и реализована в известной системе Sketch Engine [Kilgarriff et al. 2004]. Задача такой системы — обеспечить лексикографов необходимым и достаточным лексическим массивом и инструментарием, позволяющим, например, классифицировать результаты по синтаксическим типам словосочетаний. Она выдает для заданного ключевого слова типичные словосочетания, обусловленные, с одной стороны, синтаксисом, накладывающим ограничение на сочетаемость слов в заданном языке, а с другой стороны, вероятностными закономерностями, связанными с семантикой и языковым узусом. Результат работы программы представлен наиболее частотными (устойчивыми) словосочетаниями с учетом грамматических (структурных) формул.

Как было показано в главе 3, статистический метод дает лингвистически обоснованные результаты, но при этом он должен быть дополнен алгоритмами, учитывающими особенности реализации коллокаций в текстах.

В качестве статистического аппарата в данной системе для вычисления силы синтагматических связей на материале корпуса используется мера salience. Материалом для тестирования созданной грамматики лексико-синтаксических шаблонов и проведения экспериментов были выбраны корпусы новостных текстов русского языка объемом 157 млн. и 174 млн. словоупотреблений.

Работа модуля Word Sketch основывается на разработанной нами грамматике лексико-синтаксических шаблонов, которая содержит описание синтаксических отношений между словами. В терминах системы Sketch Engine шаблоны называются правилами и имеют свой метасинтаксис.

Знак «=» вводит название правила (чаще всего совпадает с описываемым грамматическим отношением). Каждое грамматическое отношение записывается на отдельной строке. Используя набор тегов можно описать отношение между подлежащим и сказуемым следующим образом: =subject/subject_of

2:"N...n." [tag="A....g."|tag="A....g"|tag="A....n."]{0,l} [tag="N...g."]{0,2} [tag="Q"]{0,3} [tag="Afpns-s"|tag="R"|tag="Afc"]{0,3} l:"Vmi......."

Цифра 1 обозначает, что слово, соответствующее следующему за ней тегу (напр., l:"N...n."), является ключевым, т.е. именно для этого слова ищутся словосочетания; цифра 2 обозначается, что слово, которое соответствует следующему за ней тегу (2:" А....п."), является окружением ключевого слова (его коллокатом). Подлежащее и сказуемое могут быть разорваны следующими словами: словосочетанием существительного и связанного с ним прилагательного; прилагательного, которое находится в постпозиции по отношению к подлежащему; наречиями и частицами.

В ходе работы нами были описаны лексико-синтаксические шаблоны

словосочетаний для русского языка. Данные правила написаны на языке

регулярных выражений для морфологически размеченного корпуса русского

языка в терминах системы Sketch Engine. Поиск в системе осуществляется по

тегам, содержащим информацию о морфологической разметке словоформ. Так,

тегу Ncfpnn соответствует нарицательное неодушевленное (п) .существительное

(Nc) женского рода (f) множественного числа (р) в именительном падеже (п). На основе данных правил с привлечением статистических методов получаются таблицы характерной сочетаемости для заданных слов (word sketches). При описании лексико-синтаксических шаблонов нами были использованы теоретические положения, описанные в [Академическая грамматика 1980; Золотова 1988] и в работе [Большакова и др. 2006].

Всего нами было описано 18 типов отношений, среди них: сочинительное отношение (=и/ши);

субъектное отношение (Ni+V: =subject/subject_of, =passive/subj_passive, =6bimbjxdj/subj_6bimb);

объектное отношение (V+N2, V+N3, V+N4l V+N5: =object2/object2_of, =object3/object3_of, =object4/object4_of, -inst modifier/inst modifies; V+Vinf: =postJnf/verbjjost inf; AdjKp+V: =modaljnf/modal);

атрибутивное отношение (N+N2: =gen_modifier/gen_modifier; Adj+N =a_modifier/modifies);

компаративное отношение (N+Adjcomp+N2: comparative)) обстоятельственное отношение {=adv_modifier/adv modifies)-, сочетания с предлогами (Prep+N, V+Prep: =prec_prep, =post prep; N+PP, V+PP: =pp_%s, =pp_obj_%s).

Приведем пример описания объектного отношения, разработанного в рамках исследования. *DUAL

=object4/object4_of

l:"Vmi.*" [tag="R"]? [tag="A....a.?"]{0,3} 2:"N...a." #деепричастие

l:"Vmg.*" [tag="R"]V [tag="A....a.?"]{0,2} 2:"N...a." #причастие

l:"Vmp....a.*" [tag="R"]? [tag="A....a.?"]{0,2} 2:"N...a." #инфинитив

l:"Vmn.*" [tag="R"]? [tag="A....a.?"]{0,2} 2:"N...a."

Данное правило описывает отношение между глаголом и его прямым объектом. Рассматриваются личные формы глагола, деепричастие, причастие и

инфинитив. В качестве лскссм, разрывающих эту связь, могут быть наречия и согласованные определения.

1:"Упи.*" [1аё="Л....а.?"]{0,3} 2:"Ы...а."

Ниже приведены примеры результатов выдачи в ввде конкорданса, найденные для данного шаблона в вышеописанных корпусах. За знаком / приводится тег морфологической разметки для заданного слова.

. К ним

какого-либо народа и делает

академия, студенты которой проходят/Vmip3p-a-p здесь

/R практику /Ncfsan

языком. Частная грамматика

производства, конечно же, Тебя зовут Александр? Ты панциря на спине и Мировой войны они маааааленышм пацанёнком, загянется. - Он

»DUAL

=post_inf/verb_post_inf l:"Vmi.*" 2:"Vmn.*" l:"Vmp.*" 2:"Vmn.*" l:"Vmn.*" 2:"Vmn.*"

изучает /Vmip3s-a-p непосредственно /R язык

/Ncmsan появляются /Vmip3p-m-p еще /R вопросы /Ncmpan

читаешь /Vmip2s-a-p наизусть /R стихи /Ncmpan откладывает /Vmip3s-a-p внутрь /R личиику /Ncfsan искали /Vmis-p-a-p там /R

прибежище /Ncnsan сачковал /Vmis-sma-р как-то /R уроки /Ncmpan бросил /Vmis-sma-е украдкой /R взгляд /Ncmsan

, требующие Быкова?

. Но редко можно в киевском зоопарке на часы . - Смотри

Данные лексико-синтаксические шаблоны описывают примыкание инфинитива к глаголу.

получается, что Баку поставлял и пошла спокойно домой,

американский антрополог,

продолжает /V mip3s-a-p поставлять /Vmn—а-р легла /Vmis-sfm-е спать /Vmn—а-р пытался /Vmis-smm-p понять /Vmn—а-е

миру таланты? Ландау, проспала целый день, , почему некоторые общества

На данном рисунке (см. рис. 2) приведены сводные таблицы сочетаемости для слова «работа», иллюстрирующие некоторое отношение, которое было описано в вышеназванной грамматике1.

1 Приведена лишь часть выданных результатов.

I Homo] [Cww"c»f «tww»} Ww<j Ш I ¡Wo«! S»

I Turn on ctUB<feringl [Мопв fSaval

работа Russian web corpus freq — 166355

ШШШа ^ШШШй^-Л. 26493:1,91 'МШШ

¡вестись . ■ Ш 10.01; ¡совместный . •'• •■.'761 9.58: [диссертация. •.'■:. 337 76' [специальность 177 9.32;

1 пру водиться. . 201: ;874: [воспитательный.; 370 070; ;лроект; , [создание;..; 363 8.07!

[кипеть:.. • : £2 ■■8.37! ¡научный :• 547 8 71 j [альбом ' . ■ 3g 7.53 ; благоустройство : ' i3S 7.75i

¡продолжаться. '• 127' 8.17] [курсовой-. ' 285 843; законопроект- ;'•; • 247.31! [восстаноагшние :"::73 7.45!

¡начаться: •' >ш 8.0811т»келый. •.••/'. / 424 8.38; [сценарий;' 35 7.26; ¡реконструкция ■•■:''. S0 7.36!

| предстоять: '■'..■121 1 .»-»1:Не~р71тчвог!ЬГг. .. ... 2£0 3 ■прдготсака: ['.;••['. : 1S1725;

[закипеть \ 62 • :7.99;;дипломный' [.;[.': ' . 241 8.19; рукопись . 18б[99] [совершенствование :!.:487.22!

[начинаться . •• •;■ 133 7.6; ПОСТОЯННЫЙ ' [ . 308 8.1.3] ;фильм ': ':.aZ6.85j 'разминирование ■ ■ Ш 7-11:

¡выполняться . йй .7,50; [практический' ■ 271 8.13: [поэма- :■ ,15 676; :С60МССТ»1Т6ПССТО0 2S6.34;

[спориться 21 :..7.44; [самостоятельный [ 256 : 8.1; ¡спектакль :■[:. [: :'[ [ II 6,1.5; [ремонт.:. Ü hi"

[идти ■' . : 518 7.39; [кропотливый . . ' 224 8.08; ;пьеса- ' ■ 13 6.05! ; изучение' . . 7I6.S1!

'заключаться. ' II • 7..33; активный'-- •;• :'. 239 8.04! [роман • ['• 38 5..86] •¿чистка •;; 29': 6.81

!лродвк1 аться : dl • 7-231 боевой '. ' 260 8,0; [перевод , ••■2Z5.91j ;сосгавпение;: :;':азв'.7ч!

'найтись- • : 4S 6.92; [исследовательский , 219 7.98! [повесть1 ■ : : 125.73; [замена-. : Л 6.731

{требовать - ■ : m 6.77.; [нормальный [':' 296 7,94! ¡книга. -. V' ;' SS 572; [приоодени© :[;•[. : 216J31i

¡оплачиваться 21 676; [дальнейший • 263 7,92[ [К0МП03ИЦИЯ[ • ;['[ •. [8 5.66; [укреппение '• •[ •- : .37 6.59!

[требоваться'.:[ • 61 6.69 [[успешный.;.' ■ 213 7.7.7! [составление :. . [•[ 9 5:64! ликвида1^я:[: . ; ::' 30 6.55|

[состоять :" 12 6 69; творческий •; ,223.7771 произведение; 19 542! [сбор

:Приносить :: ■ - .53. 6.6!-основной; /229 777! [портрет' ;,':-12-. 5.4! [формирование,'

[нравиться;- : ei . 6.59| [домашний :[ • ■•[,• 218775! [картина , [. -325.38; выявление: [•:-[ ['[; : • :;:2S6.52l

[предполагать ;, £8. .649; [хороший •';."•' 593 7.68- [совершенствование ; •[ -8 5.37; [проектирований;;-^;

{Строиться ;•;'; •[[[•' 30 : 6 47; раэъяснкгельный !': : ' 156 7.58[ сюкет Ц5;25[ монтаж ':_;■ ■. 216.43

Завершаться!.: ••:• 21 . 643; [подготовительный. .•''158 7.57/ бомба '•'•"•.■' 25.04; \ен$дренм& .. ■: ai6.ii!

; прекращаться 22 :6.38[ [серьезный. . ':':, .272 7.57. ■рассказ. '['. [ II4 96! [тематика. - ;'.' i}r2S- 6.4!

[осуществляться •' 34 ■ 6.36; ^большой У ■■..;;.•.' : 639 7.55! ;.созданйе_ . ' :'j У-- ¿¿4.77! [профилактика 25-.64I

Рис. 2. Пример словосочетаний с ключевым словом /¡работа»

В заголовке каждой таблицы на темном фоне приведены название данного отношения (яи^ес^оГ, а_тосШег, рр_над, рр_по), количество коллокаций, участвующих в нем (7679, 26498, 2242, 6448), и значение меры ассоциации для данного отношения (0,7; 1,9; 20,0; 5,6). В первом столбце каждой таблицы приведены слова, встречающиеся в контексте с ключевым словом «работа». Во втором столбце указана абсолютная частота того или иного словосочетания. В третьем столбце представлено значение статистической меры (подсчеты основаны на данных о частотах компонентов коллокаций), согласно которой выданы эти коллокации. Отношение «яиЦес^о/» описывает глаголы, встречающиеся при существительном «работа» в позиции субъекта. Среди них можно выделить фазовые глаголы: начаться/ начинаться, завершаться, прекращаться. Атрибутивные словосочетания представлены в таблице «а_тосИАег»: совместная работа, воспитательная работа, научная работа, курсовая работа, тяжелая работа, напряженная работа, дипломная работа и др. Особый интерес представляют обороты с предлогами. Например, модель «работа по»: работа по

специальности, работа по созданию, работа по благоустройству, работа по восстановлению, работа по реконструкции и т.д.

Функция Difference (при ее вычислении используется описанная нами грамматика) показывает результат сравнения слов, похожих по своей дистрибуции. Она выдает модели и словосочетания, присущие обоим словам, а также те модели и словосочетания, которые характерны или являются единственно возможными только для одного из данных слов. Ниже приведена часть результатов выдачи функции Difference для слов «большой» и «крупный» (см. рис. 3).

|ноше|[свп;сог(1аксе|у/о[с1 List) [word SkBtch|Thesa4rus|sketch-Plft||sk€tch-BYai|

большой/крупный rianAK freq =

11564/9648

change

options

большой 6:Q 4.0 2.D 0 i.pmiun

modifies 6603 3209 7.9 7.1 И/11Л11 1309 1077 0-91.4

fiiiiJss il! ил, .CpOTtlFCjCOEOUHaK - С 10 4 ô.O

Тийф 233 ù iiM Z-4 IIP 9.6 0,0

количсогео ¿43 S ÎOA 0.0 Ш b.o/.J

ЧиСТЬ hS fl 9.5 0.0 Ù ел

bSfHF l 11 S 7 0.0 йзйацтлкй n U „■ t i

ЕНИГЛ L 0.0 |-|1я;>:гици;:ннг-'й ik 0.0 8.S

ilji i 1\4 0.0 СНЧфОННЧ? 2ЕИЙ Г 8.3 G/.-

корабль 102 1 8.4 5.1- Еречл-ртгий - ¿si h o." ? f.

f- 0.4 Ou fer 1 Oft.^ АПИ Г' И р| J F. 3 И ri U Й .2.4 %,0 8.5'

сумма SI S2 6.4 8.3: Vpjmhi i г I«up iilïllift 0 '< Б.4'

0 ei ;o,o" S.? 14 и

1 Г . Г*-- 'i" Î 8.? 4j общественный M 1 8:3 4.8

■проект il i£2 4.6 3.1 Ч^говый 'Ф. lîffil Ч-Ьле

СЧйГ , „, ÏL ii. ¿.С- ■ '.è й ШШ 7.ô 0.0

jfeEammisil 5..S V4,- ïSi ч я è.o: llll ù 5

V С Wh о/ a ':/kl.- "I-

партия 2 L'ïd 3.9 7.8 îWim; л L 7.5 OA

0 7.A м.'.лзоредП"!". ' fl ■',4 G.C

î; 1? 0,0 ca~..bn;î t 7,4

Рис. 3. Пример выдачи результатов при использовании функции Difference

На приведенном выше рисунке каждому слову соответствует четыре числа: первые два — частота встречаемости словосочетаний для слов «большой» и «крупный»; вторые два — значения меры ассоциации для каждого словосочетания. Серым цветом обозначены словосочетания, характерные для лексемы «большой» (по уменьшению интенсивности цвета), темно-серый цвет отвечает словосочетаниям, типичным для слова «крупный» (по увеличению интенсивности цвета), белым цветом отмечены словосочетания, присущие обоим словам.

Проведенные эксперименты доказали возможность поиска осмысленных словосочетаний по заранее описанным лексико-синтаксическим шаблонам. При этом можно искать как контактные, так и дистантные словосочетания. Можно выбирать меру, согласно которой будет высчитываться сила синтагматической связанности языковых элементов. Немаловажным представляется тот факт, что система выдает фрагмент результатов, что позволяет пользователю не обращаться к полному объему выдачи, зачастую слишком большому.

На основе лексико-синтаксических шаблонов и грамматики Word Sketch можно получать данные о конструкциях, связанных с той или иной лексической единицей (например, ее модели управления, конструкции со вспомогательными глаголами и др.). Это позволяет выделить словосочетания, характерные для определенных типов словарей, например, для словарей глагольного управления, предложного управления и т.п.

В Заключении диссертационного исследования сформулированы его основные результаты, изложены проблемы, требующие дальнейшего изучения.

Как было показано в экспериментах в главах 3 и 4, статистические методы позволяют достаточно успешно автоматически выделять на базе корпусов текстов устойчивые словосочетания. Некоторая часть этих сочетаний зафиксирована в словарях русского языка. Таким образом, коллокации, выявляемые с помощью статистических методов, являются лингвистически достоверными. При этом некоторые из них оказываются устойчивыми

сочетаниями, отсутствующими в словарях и другой лингвистической литературе.

В ходе работы был проведен сравнительный анализ различных мер ассоциации, который показал, что мера М1 как инструмент выявления коллокаций в русском языке в целом дает наилучшие результаты. Также, возможно, стоит изучить вариант введения новой метрики, например, ввести величину, равную сумме рангов коллокаций по разным мерам.

В диссертации показано, что сложная природа коллокаций требует комплексных методов их выделения. А именно: в основе нашего исследования лежит сопряжение статистических и лингвистических методов, базирующихся на синтаксической и дистрибутивной регулярности элементов коллокаций. Нами был рассмотрен статистический метод изучения лексико-синтаксической сочетаемости, представленный «чисто» статистическим подходом и подходом, использующим лексико-синтаксические шаблоны (т.е. комбинированным подходом).

Использование лексико-синтаксических шаблонов позволяет производить более дробную классификацию выдаваемых коллокаций, при которой словосочетания классифицируются по моделям. В рамках описанного в главе 4 подхода меры ассоциации рассчитываются отдельно для каждой конкретной модели, следовательно, устойчивые словосочетания, характерные для отдельных моделей, будут выданы согласно их количественным показателям для заданного отношения и не будут рассредоточены в общем списке. Таким образом, описанная грамматика лексико-синтаксических шаблонов позволяет производить более точный расчет силы синтагматической связи, так как каждой модели соответствуют свои часготные характеристики. Было показано, что с помощью данной системы можно также получить данные об отношениях разного типа: атрибутивных, объектных и т.д.

Как было показано, синтагматические связи во многом обусловлены семантическими факторами, поэтому сочетание статистических методов с семантическим подходом представляется весьма важным. В свою очередь,

разработанный нами инструментарий позволяет выявлять и измерять семантические связи между словами (функции Difference, Clustering, Thesaurus). Видимо, дальнейшим усовершенствованием данного аппарата может стать семантическая разметка корпусов, дополняющая морфологическую. На ее основе можно классифицировать словосочетания в зависимости от значений слов.

Практическое применение работы, в первую очередь, может быть найдено в лексикографической практике. Мы видим и другие задачи, где есть потребность в автоматизированных методах извлечения коллокаций из больших корпусов текстов. В частности, это составление онтологий, машинный перевод, обучение языку, отладка лингвопроцессоров, задачи информационного поиска.

Разработанная в рамках диссертационного исследования грамматика лексико-синтаксических шаблонов была внедрена в работающую систему Sketch Engine и используется для выдачи информации о лексико-синтаксической сочетаемости на базе корпуса русских текстов.

Использование описанных методов, а именно комбинирование статистических и синтаксических подходов к анализу лексической сочетаемости, которое ранее не применялось к русскому языку, открывает новые возможности в изучении данной проблематики.

Основные положения диссертации отражены в следующих публикациях:

1. Хохлова М.В. Разработка грамматического модуля русского языка для специализированной системы обработки корпусных данных // Вестник Санкт-Петербургского государственного университета. Серия 9. Филология, востоковедение, журналистика. Выпуск 2. - СПб., 2010. - С. 162-169.

2. Хохлова М. Исследование сочетаемости и устойчивости лексических единиц автоматическими методами // Структурная и прикладная лингвистика. Выпуск 8. - СПб., 2010. - С. 206-218.

3. Хохлова М. Word Sketches для русского языка // Материалы XXXIX Международной филологической конференции. Секция прикладной и математической лингвистики. - СПб., 2010. - С. 73-78.

4. Khokhlova M. Building Russian Word Sketches as Models of Phrases // Proceedings of the XIV EURALEX International Congress. - Ljouwert, 2010. -P. 364-371.

5. Khokhlova M., Zakharov V. Statistical collocability of Russian verbs // After Half a Century of Slavonic Natural Language Processing. - Brno, 2009. -P. 105-112.

6. Khokhlova M. Applying Word Sketches to Russian // Proceedings of Raslan 2009. Recent Advances in Slavonic Natural Language Processing. - Баю, 2009. -P. 91-99.

7. ХохловаМ.В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы. - Хельсинки, 2008. - С. 343-357.

8. ЗахаровВ.П., ХохловаМ.В. Статистический метод выявления коллокаций // Языковая инженерия в поиске смыслов. XI Всероссийская объединенная конференция «Интернет и современное общество». - СПб., 2008. - С. 4054.

9. Khokhlova M. Extracting Collocations in Russian: Statistics vs. Dictionary // JADT 2008: actes des 9es Journées Internationales d'Analyse Statistique des Données Textuelles, Lyon, 12-14 mars 2008: Proceedings of 9th International Conference on Textual Data statistical Analysis, Lyon, March 12-14, 2008. -Lyon, 2008.-P. 613-624.

10. Khokhlova M. Analysis of Collocations in Russian: Corpus vs Dictionary // In Proceedings of the ХП1 EURALEX International Congress (Barcelona, 15-19 July 2008). Eds. Elisenda Bernai, Janet DeCesaris. - Barcelona, 2008. - P. 1365 -1372.

11. Khokhlova M. Collocations in Russian: Analysis of Association Measures. // In Proceedings of the Fourth International Seminar "Computer Treatment of Slavic and East European Languages", Bratislava, Slovakia, 25-27 October 2007. -Bratislava, 2007. - P. 96-103.

12. ХохловаМ.В. Автоматизированные методы вычисления устойчивости двухсловных сочетаний в тексте // Материалы III Международной научной конференции «Прикладная лингвистика в науке и образовании» (16-17 марта 2006 С. Петербург). - СПб., 2006. - С. 153-157.

ОНУТ Филологического факультета СПбГУ 199034 Санкт-Петербург, Университетская наб., д. Подписано в печать 21.12.2010 Тираж 150 экз.

Оглавление научной работы автор диссертации — кандидата филологических наук Хохлова, Мария Владимировна

Введение.

Глава 1. Явление синтагматической сочетаемости.

1.1. Синтагматические отношения.

1.2. Понятие сочетаемости и ее виды.

1.3. Типы сочетаний.

1.4. Явление устойчивости.

1.5. Понятие коллокации.

1.5.1. Понятие коллокации в рамках британского контекстуализма.

1.5.2. Семантико-синтаксический подход к определению коллокации.

1.5.3: Заключительные замечания к понятию коллокации.

1.6. Синтаксический подход к описанию сочетаемости.

1.6.1. Описание сочетаемости с помощь шаблонов.

1.6.2. Валентность.

1.6.3. Синтаксические типы словосочетаний.

1.7. Выводы.

Глава 2. Статистико-комбинаторные методы и программный аппарат для исследования сочетаемости.

2.1. Основные понятия.

2.2. Меры ассоциации.

2.2.1. Мера Ml.

2.2.2. Мера T-score.

2.2.3. Мера Log-likelihood.

2.2.4. Мера Dice.

2.2.5. Мера Z-score.

2.2.6. Статистический аппарат в системе Sketch Engine.

2.2.7. Выводы: лингвистическая оценка мер ассоциации.

2.3. Программно-технологическое обеспечение для вычисления силы синтагматической связанности.

2.3.1. Программные средства с возможностью поиска идиоматических \ оборотов без статистического аппарата.

2.3.1.1. НКРЯ.

2.3.1.2. Alex/Alex +.

2.3.1.3. Кросслексика.

2.3.2. Программные средства со статистическим аппаратом для поиска словосочетаний.

2.3.2.1. АОТ.

2.3.2.2. Сервис для выявления коллокаций на базе корпусов Leeds.

2.4. Система Sketch Engine.

Глава 3. Эксперименты по выявлению устойчивых сочетаний статистическими методами.

3.1. Материал и инструменты исследования.96 >

3.2. Методика исследования.

3.3. Выявление коллокаций для слова «война».:.

3.4. Анализ выявления коллокаций с помощью мер LL, MI, t-score.

3.4.1. Результаты для меры LL.

3.4.2. Результаты для меры Ml.

3.4.3. Результаты для меры t-score.

3.5. Выводы.

Глава 4. Грамматика Word Sketch и выявление лексико-синтаксических сочетаний.

4.1. Word Sketches как часть системы Sketch Engine.

4.2. Язык регулярных выражений системы Sketch Engine.

4.3. Грамматика Word Sketch (описание лексико-синтаксических шаблонов)

4.3.1. Общие постулаты.

4.3.2. Описание лексико-синтаксических сочетаний для русского языка.

4.3.3. Другие варианты описания лексико-синтаксических шаблонов для русского языка.

4.4. Эксперименты по выявлению коллокаций на основе лексикосинтаксических шаблонов.

4.4.1. Материал для исследования.

4.4.2. Подготовка корпуса.

4.4.3. Результаты.

4.5. Выводы.

Введение диссертации2010 год, автореферат по филологии, Хохлова, Мария Владимировна

Сочетаемость слов определяется различными факторами: лексическими, грамматическими и семантическими и представляет собой одно из проявлений языковой синтагматики. Существуют разные подходы к изучению синтагматических отношений. Значение слова зависит «от общественно осознанных и отстоявшихся контекстов его употребления, от конкретных лексических связей его с другими словами, обусловленных присущими данному языку законами сочетания словесных значений.» [Виноградов 19776: 163].

Широко распространен подход, при котором устойчивая сочетаемость определяется семантической совместимостью элементов данного словосочетания и/или конкретной синтаксической моделью. Еще один подход, получивший распространение в последние годы, заключается в выявлении статистических закономерностей при построении текста. Появилась возможность проверить применимость статистического метода на материале больших корпусов текстов, посмотреть, какие типы словосочетаний могут быть выделены. В российской лингвистике, вслед за западной, для обозначения устойчивых словосочетаний стал использоваться термин «коллокация».

В настоящей работе основной акцент делается на описании формальных механизмов лексико-синтаксической сочетаемости и выявления коллокаций. Внедрение данных методов в изучение сочетаемости имеет как теоретическое, так и практическое значение. Наше диссертационное исследование является своего рода объединением этих трех подходов к изучению сочетаемости: лексического (семантического), синтаксического и статистического.

Исследования, проводимые в этой области, базируются на использовании программного обеспечения, которое может представлять собой самостоятельный программный продукт или «надстройку» над корпусом текстов с использованием статистических методов. На данный момент для русского языка, к сожалению, доступно ограниченное количество подобных средств обработки текста. Их можно свести к следующим: 1) механизм выявления коллокаций на базе корпусов русских текстов на сервере университета г. Лидса 1 (разработчик — С.А. Шаров); 2) сервис поиска по биграммам на сайте «Автоматическая обработка текста» 2 (разработчики — А.Н. Аверин, А.В. Сокирко).

Актуальность темы. Проблема изучения синтагматической сочетаемости . важна в современной лингвистике. Существующая лингвистическая литература и словари не всегда полно и последовательно отражают информацию о сочетаемости лексем, об устойчивых словосочетаниях — таким образом, в них не отражается в достаточной степени положение того или иного слова в системе языка (которое определяется его связями, в- том числе текстовыми, с другими лексическими единицами.). Поэтому получение новых данных о сочетаемости, разработка новых методов ее изучения должны , способствовать развитию лексикографии, синтаксиса, семантики.

Исследование коллокаций на базе корпусов текстов тесно связано с применением статистических методов и является одним из новых и развивающихся подходов к исследованию языка, его грамматического и лексического описания. Тем не менее, на материале русского языка таких исследований крайне мало.

Применение статистических методов к анализу лексической сочетаемости на базе больших корпусов текстов уже сегодня служит основой при создании словарей и грамматик нового типа, в том числе, словарей устойчивых словосочетаний. Тем не менее, требуется дополнительное программное и лингвистическое обеспечение для дальнейшего усовершенствования работ, поскольку вручную невозможно обработать огромное количество языкового материала, предоставляемого корпусами, включая статистически устойчивые сочетания (коллокации). Также возникает необходимость создания дополнительных средств (своего рода фильтров)

Ьйр://согри51 .leeds.ac.uk/ruscorpora.html http://mvw.aot.ru/demo/bigrams.html между» корпусом и пользователем-лингвистом, которые будут обрабатывать выдаваемые результаты и помогать отбирать значимые факты языка, в нашем случае, относящиеся к теоретическим и прикладным аспектам лексической сочетаемости. Одним из примеров такого формального «фильтра» является разработанная английскими и чешскими исследователями система так называемых «лексических шаблонов». Задача такой системы — обеспечить лексикографов необходимым лексическим массивом и инструментарием, позволяющими получать объективную информацию о связях слова с другими, классифицировать контексты слова по синтаксическим типам и др. Механизм системы Sketch Engine для выделения словосочетаний в корпусе разработан в настоящее время для ряда европейских языков (английский, ирландский, испанский, итальянский, немецкий, португальский, словенский, французский, чешский), а также для китайского и японского языков. Он порождает на основе грамматически размеченного корпуса списки, в которых содержится информация о «поведении» слов — их сочетаемости с количественным указанием силы связи применительно к грамматическим моделям. Для русского языка данная система пока не была апробирована.

Другой подход к описанию типовых синтагматических отношений между словами представлен в модели «Смысл <=> Текст», разработанной отечественными лингвистами. Данная модель оперирует понятием лексических функций, которые можно рассматривать как аппарат для построения словосочетаний. Под сочетаемостью языковой единицы, как утверждает И.А. Мельчук, понимается «число других элементов, с каждым из которых данный элемент может вступать в определенное отношение (скажем, быть зависимым от него: например, сочетаемость прилагательного — это число существительных, к которым оно может быть определением, и т.д.)» [Мельчук 1960: 80].

Традиционные подходы к описанию понятия коллокации в целом можно свести к следующим:

1) подход, берущий начало в работах британских контекстуалистов [Firth 1957; Firth 1968 и др.];

2) семантико-синтаксический подход [Иорданская, Мельчук 2007; Мельчук 1974; Телия 1996; Cowie 1978; Hausmann 1979; Hausmann 1985 и др.].

Термин «коллокация» впервые был введен основоположником Лондонской школы структурной лингвистики, представителем британского контекстуализма Дж. Р. Фёрсом [Firth 1957: 94]. В рамках этого направления под коллокациями понимаются характерные, часто встречающиеся сочетания слов, «появление которых рядом друг с другом основывается на регулярном характере взаимного ожидания и задается не грамматическими, а чисто семантическими факторами» (цит. по: [Сусов 2006: 153]).

В рамках семантико-синтаксического подхода коллокации рассматриваются как комплексные семантико-синтаксические единицы. Они характеризуются семантической, синтаксической и дистрибутивной регулярностью. Одним из типов устойчивых сочетаний являются фразеологические единицы. Подобные речевые элементы в работах разных авторов называются по-разному: фразеологизмы, идиомы, фраземы, «устойчивые глаголъно-именные сочетания» [Дерибас 1983], «аналитические лексические коллокации» [Телия 1996] и др.

Термин «коллокация» в русскоязычной научной литературе впервые появился в Словаре лингвистических терминов О.С. Ахмановой [Ахманова 1966]. Первой работой в российской лингвистике, полностью посвященной исследованию понятия коллокации на материале русского языка, является монография Е.Г. Борисовой [Борисова 1995а].

В теории «Смысл О Текст» и в других работах И.А. Мельчука (см., например: [Иорданская, Мельчук 2007]) коллокации рассматриваются как подкласс более обширного класса несвободных словосочетаний, или фразем.

Коллокацией называется словосочетание, в котором одно из слов является семантической доминантой, а второе выбирается в зависимости от него для передачи смысла всего выражения. Этому типу фразем соответствуют: англ. land a job (букв, «приземлиться на должность») — «найти работу», stand а comparison [with N] (букв, «выстаивать сравнение с N») — «выдерживать сравнение с N». Большинство коллокаций в теории «Смысл <=> Текст» называется лексико-функциональными выражениями [Иорданская, Мельчук 2007: 239].

Таким образом, можно обобщенно сказать, что в традиционной лингвистике под коллокацией понимается определенный тип устойчивого словосочетания, где устойчивость базируется на семантических отношениях. В этих сочетаниях одно из слов является опорным1 — аргументом (node), а второе — коллокат (collocate) (или остальные, если рассматривается сочетание из нескольких слов) — является своего рода «функцией» от данного аргумента, причем лексическое значение этого элемента словосочетания отличается от основного значения (основных значений) этого слова в лексической системе языка (например, «бить баклуши», «выносить сор из избы»). Иными словами, традиционно, значение коллокации не равняется сумме значений ее составляющих.

В настоящее время термин «коллокация» нашел широкое применение в корпусной лингвистике, в рамках которой понятие коллокации переосмысливается или упрощается. Этот подход можно назвать статистическим. Во главу угла ставятся частотные характеристики, поэтому коллокации в корпусной лингвистике могут быть определены как статистические устойчивые словосочетания. При этом статистически устойчивое сочетание может быть как фразеологизированным, так и свободным. И именно появление больших репрезентативных корпусов текстов позволяет получить достоверные данные о частоте того или другого сочетания в языке в целом.

3 Ср.: семантическая доминанта в теории «Смысл о Текст».

Исследование коллокаций в настоящий момент играет одну из ведущих ролей в лексикографической практике [Беляева и др. 1996; Atkins, Rundell 2008; Hausmann 1979; Hausmann 1985; Kilgarriff 2006; Sinclair 1991]. В последнее время за рубежом и в России были созданы специальные словари коллокаций [Benson 1997; Crowther et al. 2002; Kjellmer 1994; Бирюк и др. 2008; Денисов, Морковкин 1983; Кустова и др. 2008; Шайкевич 2003].

Высокая величина частоты совместной встречаемости, казалось бы, говорит об устойчивости данного сочетания. Однако этой характеристики недостаточно, чтобы говорить о' предпочтительной сочетаемости данного аргумента именно с данным коллокатом. Вполне возможно, частота совместной встречаемости с другими коллокатами окажется еще выше. Поэтому был выработан целый ряд статистических мер (они получили название мер ассоциации, или мер ассоциативной связанности, англ. association measures), вычисляющих именно силу синтагматической связи элементов в составе коллокации. В общем случае, эти меры учитывают как частоту совместной встречаемости, так и другие параметры, прежде всего частоту в данном корпусе каждого отдельного элемента. Значения мер ассоциации можно считать показателями силы синтагматической связи между элементами словосочетаний. Общее количество этих мер исчисляется многими десятками. Описание наиболее распространенных мер см. [Evert 2004]. Чаще других используются MF-score, t-score и log-likelihood.

Однако остаются нерешенными многие проблемы, которые возникли внутри статистической методологии. Можно отметить, что существующий программный инструментарий автоматического выявления коллокаций на основе статистических методов весьма неудовлетворителен — как в части лингвистического обеспечения, так и с точки зрения выходных интерфейсов. Проблематично проводить поиск разрывных словосочетаний, варьировать размер контекстного окна относительно опорного слова. Особым образом нужно обрабатывать имена собственные, знаки препинания, служебные слова.

Особое значение имеет выдача коллокаций, построенных по определенной синтаксической модели, учет отношения зависимости между элементами коллокаций или сочетание грамматических признаков.

Целью настоящей диссертации является исследование и решение комплекса теоретических вопросов, связанных с троякой природой коллокаций (лексической, синтаксической и статистической), разработка общей модели лексико-синтаксических сочетаний в русском языке и изучение методов их выделения.

Для достижения поставленной цели в диссертационном исследовании был решен ряд теоретических и практических задач:

1. Проанализировано понятие «коллокация» в зарубежной и отечественной лингвистике.

2. Описаны статистические меры для вычисления силы синтагматической связанности.

3. Изучено и описано программное обеспечение, выявляющее коллокации в корпусах текстов.

4. Проведены экспериментальная проверка и сравнительный анализ эффективности различных мер ассоциации, используемых для выявления коллокаций, на материале русского языка.

5. Произведен анализ синтаксической типологии словосочетаний.

Объектом исследования выступает явление синтагматической сочетаемости в русском языке. Предмет исследования — статистически устойчивые сочетания (коллокации), соответствующие определенным лексико-синтаксическим моделям.

Методы исследования, использованные в работе, включают контекстный, сопоставительный и другие виды анализа. Применялся также статистический анализ по корпусам текстов русского языка с использованием следующих статистических мер: MI, t-score, log-likelihood и salience. Лингвистические корпусы позволяют рассматривать элементы текста одновременно в нескольких аспектах и получить разнообразные данные о них (например, морфологические, статистические характеристики, контексты словоупотреблений и др.).

Базой исследования послужили данные трех корпусов новостных текстов русского языка объемом 78 млн., 157 млн. и 174 млн. словоупотреблений соответственно.

Новизна исследования заключается в том, что в нем впервые в отечественной лингвистике сочетаемость рассматривается в аспекте своей троякой природы: лексической, синтаксической и статистической. Использованы статистический и лексико-синтаксический подходы к явлению сочетаемости. В настоящей работе впервые осуществлен последовательный, цикл разработки аппарата для выявления коллокаций на основе лексико-синтаксических шаблонов — от теоретического описания до практического внедрения в программу.

Теоретическая значимость исследования заключается в создании комплексной системы описания сочетаемости, базирующейся на грамматике лексико-синтаксических шаблонов для русского языка и статистических методах. Совмещение синтаксического подхода со статистическими методами, предлагаемое в диссертационном исследовании, является вкладом в создание 1 I единой теории словосочетаний, учитывающей синтаксический, семантический и узуальный аспекты сочетаемости. Теоретический интерес представляют также новые данные о сочетаемости лексических единиц, их контекстном окружении, полученные на основе корпусов текстов. Создана и апробирована новая методика исследования и лексикографического описания сочетаемостных предпочтений лексем.

Практическая значимость работы заключается в следующем:

1. созданное описание коллокаций может быть использовано в теоретических исследованиях по синтаксису словосочетаний, а также при написании грамматик;

2. результаты, полученные в диссертационном исследовании, и доработанный программный аппарат для русского языка могут служить базой для создания словарей русского языка;

3. программное обеспечение, адаптированное для русского языка, можно использовать при обучении;

4. разработанные методы и механизмы могут быть использованы в грамматических и стилистических программах-корректорах;

5. результаты исследования могут быть полезны при снятии семантической неоднозначности;

6. механизм выявления коллокаций и найденные сочетания могут быть использованы для автоматического расширения информационных запросов.

Апробация и внедрение результатов работы. Отдельные аспекты и основные положения диссертационного исследования обсуждались в докладах в рамках международных филологических конференций преподавателей и аспирантов в Санкт-Петербургском государственном университете (2008 г., 2010 г.), на международной конференции "Computer Treatment of Slavic and East European Languages" (Братислава, Словакия, 27 октября 2007), на заседании семинара «Автоматическая обработка естественного языка» (Санкт-Петербург, 10 октября 2009 года), на семинаре "Recent Advances in Slavonic Natural Language Processing" (Брно, Чехия, 5 декабря 2009), на международном семинаре Sketch Grammar (Любляна, Словения, 4 февраля 2010), на ХП1 и XTV международных лексикографических конгрессах "EURALEX" (Барселона, Испания, 18 июля 2008; Леэварден, Нидерланды, 6 июля 2010). По теме диссертации опубликовано 12 работ, в том числе две статьи в российских изданиях, рекомендованных ВАК РФ («Вестник Санкт-Петербургского государственного университета» №2, 2010г.; «Структурная и прикладная лингвистика» №8,2010г.).

На защиту выносятся следующие положения:

1. Количественные показатели устойчивой сочетаемости, вычисленные на основе мер ассоциации и статистических данных, получаемых на больших корпусах текстов, эффективно отражают реально существующие семантико-синтагматические связи разного типа и устойчивые словосочетания. Извлечение коллокаций с помощью статистических методов позволяет выявить устойчивые сочетания, отсутствующие в словарях и другой лингвистической литературе.

2. Комбинация статистического и синтаксического подходов к исследованию сочетаемости и к выявлению коллокаций является более эффективным методом, чем статистический подход. Синтаксический подход реализуется в разработанных лексико-синтаксических шаблонах, учитывающих возможные синтаксические отношения между словами в определенном контексте на основе морфологической разметки корпуса.

Структура и объем работы. Диссертация состоит из Введения, четырех глав, Заключения, Списка литературы и трех Приложений. Основной текст диссертации занимает 211 страниц, содержит 14 таблиц, 18 рисунков. Список литературы состоит из 119 названий.

Заключение научной работыдиссертация на тему "Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов"

4.5. Выводы

Проведенные эксперименты доказали возможность поиска осмысленных словосочетшшй по заранее описанным лексико-синтаксическим шаблонам. При этом можно искать как контактные, так и дистантные словосочетания. Можно выбирать меру, согласно которой будет высчитываться сила синтагматической связанности, языковых элементов. Немаловажным представляется тот факт, что система выдает наиболее релевантные фрагменты результатов, что позволяет пользователю не. обращаться к полному объему выдачи, зачастую слишком большому.

Аппарат лексико-синтаксических шаблонов позволяет выявлять устойчивые словосочетания (например, «крепкий чай»), имена собственные, термины. Однако морфологическая разметка программы TreeTagger для русского языка выдает большой процент ошибок (в том числе плохо распознаются омоформы), что существенным образом затрудняет анализ и дальнейшую доработку правил.

На основе описанных лексико-синтаксических шаблонов можно получать данные о конструкциях, связанных с той или иной лексической единицей (например, конструкции, реализующие ту или иную модель управления, конструкции со вспомогательным глаголом, адъективным или наречным модификатором, идиоматические обороты), выделяя словосочетания по данным моделям для определенных типов словарей: например, словари глагольного управления, предложного управления.

Разработанная нами грамматика и базирующийся на ней программный аппарат (система Sketch Engine) позволяют получать наборы лексико-синтаксических сочетаний с количественными оценками их употребительности в русском языке и с указанием силы связей между элементами словосочетаний.

Инструменты Thesaurus, Clustering, Differences, работающие «поверх» нашей грамматики, позволяют исследовать семантические связи между словами.

Заключение

Применение описанных методов, а именно комбинирование статистического и лексико-синтаксического подходов к анализу лексической сочетаемости, которое ранее не применялось к русскому языку, открывает новые возможности в изучении данной проблематики.

Очевидно, что автоматический анализ текста (с помощью описанных в данном исследовании методов) — это только первоначальный этап для выявления коллокаций. Затем, как правило, требуется ручная обработка полученных результатов (под ручной мы понимаем дополнительный интеллектуальный анализ).

Как было показано в описании экспериментов в главах 3 и 4, статистические методы позволяют достаточно успешно автоматически выделять на базе корпусов текстов устойчивые словосочетания. Некоторая часть этих сочетаний зафиксирована в имеющихся словарях русского языка. Таким образом, результаты, демонстрируемые при использовании статистико-комбинаторных методов, являются лингвистически достоверными, зафиксированными в большом количестве источников.

При сравнении сочетаний, полученных с помощью статистических методов, со словарями наблюдается одинаковая тенденция: чем меньше значение меры, тем больше вероятность, что эти словосочетания не зафиксированы как устойчивые в словарях русского языка, и наоборот. Большинство коллокаций, зафиксированных в словарях, оказывается в верхней части списка, составленного на основе одной из мер ассоциации. В качестве общего вывода можно отметить, что ранг выделенного словосочетания обратно пропорционален вероятности того, что оно окажется устойчивым, т.е. чем выше ранг, тем больше вероятность найти это словосочетание в словарях. Таким образом, можно сказать, что данные об устойчивой сочетаемости, приведенные в словарях, совпадают с данными, полученными на основе мер ассоциации, или, по-другому, что статистические меры ассоциации достаточно хорошо выявляют реально существующие семантико-синтагматические связи.

Более того, среди коллокаций с высокими рангами далеко не все из них зафиксированы в словарях. Таким образом, встает вопрос о дальнейшей обработке данных, зафиксированных в списках и являющихся кандидатами на включение в словари.

Большую роль в объективизации «статистических» коллокаций играет объем корпуса. Например; на корпусах малых объемов не видны различия между результатами, которые выдаются разными статистическими мерами^ т.е. сочетаемость слова, выявленная подобным образом, будет примерно одинаковой. Это происходит из-за малой частоты самих слов и словосочетаний.

Вероятно, что для большинства исследований и задач стоит использовать сбалансированный корпус,, состоящий из текстов разных функциональных стилей. В то же время, интерес представляют также эксперименты на основе корпусов разных функциональных стилей. Можно даже предположить, что для корпуса определенного функционального стиля (например, научного) объем может быть меньшим, чем для упомянутого выше сбалансированного корпуса или использованного нами корпуса новостных текстов. Так как языковые конструкции, в том числе термины, научного стиля имеют тенденцию повторяться и, вероятно, окажутся в верхней части списка.

Также остро стоит вопрос о качестве корпусной разметки и самих текстов. Во-первых, в тестах зачастую содержатся ошибки сканирования, неудаленные структурные элементы (если тексты берутся из сети Интернет). Во-вторых, морфологическая разметка проводится автоматически, некоторым словоформам можно могут быть приписаны два или более морфологических показателя и несколько лемм. Вручную невозможно снять возникшую морфологическую неоднозначность или ошибки морфологического анализа на таких больших объемах текстов. Со всем этим тесным образом связано получение более «чистых» результатов.

Что касается самих использованных мер ассоциации, то наилучшие результаты выдает мера Ml. Также, возможно, стоит изучить вариант введения новой метрики, например, ввести величину, равную сумме рангов коллокаций по разным мерам.

Нами был рассмотрен статистический подход к изучению лексико-синтаксической сочетаемости, представленный «чисто» статистическим подходом, и подход, использующий лексико-синтаксические шаблоны.

В главе 3 было продемонстрировано, что списки сочетаемости, получаемые на основе только вероятностно-статистических методов, зачастую включают знаки препинания или служебные слова. В рамках нашего подхода, использующего лексико-синтаксические шаблоны, данная проблема была практически полностью решена, т.к. рассматривались слова, связанные синтаксическими отношениями в пределах одной синтагмы (полностью эту проблему можно было бы решить, наложив ограничение на «нежелаемые» языковые элементы, что вполне возможно в рамках разработанных нами лексико-синтаксических шаблонов).

В системах выдачи словосочетаний Leeds и АОТ отсутствовала возможность работы с разрывными словосочетаниями (строго говоря, можно было только задавать количество слов в контекстном окне, опять же, под словами понимались и знаки препинания). В рамках разработанной нами грамматики Word Sketch описываются все словосочетания, независимо от порядка слов и расстояния между ними.

Еще один недостаток, на который можно было обратить внимание в ходе экспериментов в главе 3, и, с нашей точки зрения, главный — слова выбираются статистическим методом на основе частот по всему корпусу вне зависимости от их распределения по грамматическим моделям. В верхней части единой таблицы оказываются, таким образом, высокочастотные словосочетания (выявленные согласно одной из мер) для всего корпуса, при этом высокая частота словосочетания внутри некоторой конкретной модели может оказаться намного ниже наивысшей частоты для всех словосочетаний. Т.е. характерные словосочетания, обладающие средней частотой, окажутся внутри общего списка. В рамках описанного в главе 4 подхода меры ассоциации рассчитываются отдельно для каждой конкретной модели, следовательно, устойчивые словосочетания, характерные для отдельных моделей, будут выданы согласно их частотным характеристикам для заданного отношения и не будут рассредоточены в общем списке.

Так, словосочетания! с высокочастотными словами, которые часто искажают картину, будут выданы в отдельной таблице (например, глагол + предлог, предлог + существительное, существительное/глагол + предлог + существительное).

Таким образом, описанная грамматика лексико-синтаксических шаблонов позволяет производить более точный расчет силы синтагматической связи, так как каждой модели соответствуют свои частотные характеристики.

Как было показано, синтагматические связи во многом обусловлены семантическими факторами, поэтому именно семантическая взаимообусловленность и предсказуемость коллокаций являются весьма важными. В свою очередь, разработанный нами инструмент позволяет выявлять и измерять семантические связи между словами (функции Thesaurus, Clustering, Differences).

Как было показано, с помощью существующей системы можно получить данные об отношениях разного типа в языке: атрибутивных, объектных и т.д.

Видимо, дальнейшим усовершенствованием данного аппарата может стать семантическая разметка, а именно использование корпусов с подобным видом разметки. На их базе можно классифицировать словосочетания в зависимости от значений слов (например, как в случае многозначных первообразных предлогов).

Практическое применение нашей работы, в первую очередь, может быть найдено в лексикографической практике. Коллокации, выдаваемые на основе использования статистических методов и особенно комбинации этих методов с синтаксисом (грамматика Word Sketch), не зафиксированные ни в одном из словарей, после тщательного анализа могут пополнить существующие словари и грамматики. Грамматика Word Sketch была нами внедрена в промышленно работающую систему Sketch Engine и используется для выдачи информации о лексико-синтаксической сочетаемости на базе корпуса русских текстов. С ее функционированием можно ознакомиться на сайте: http://sketchengine.co.uk. В настоящее время мы видим несколько важнейших прикладных задач, где есть потребность в автоматизированных методах извлечения коллокаций из больших корпусов текстов. В частности, это составление словарей и других лексикографических пособий, составление онтологий, обучение языку, отладка лингвопроцессоров, задачи информационного поиска.

Кроме того, существует обширный класс прикладных задач, использующих дистрибутивную информацию о словах (например, разрешение лексико-семантической неоднозначности, автоматическое исправление опечаток, классификация текстов, информационный поиск и др.), полученные нами результаты Moiyr использоваться при подготовке данных для работы в рамках этих задач.

Таким образом, обобщая, можно сказать, что исследованные нами методы извлечения коллокаций, а также разработанный аппарат лексико-синтаксических шаблонов имеют большую практическую значимость и могут быть использованы в различных областях прикладной лингвистики:

• при обучении языкам;

• при решении проблем, связанных с переводом текстов (в том числе с машинным переводом);

• при снятии неоднозначности при автоматическом анализе;

• в задачах создания автоматизированных систем семантического анализа и синтеза текстов;

• в исследованиях, посвященных социальным явлениям, например, в работах о языковой картине мира и др.

Список научной литературыХохлова, Мария Владимировна, диссертация по теме "Прикладная и математическая лингвистика"

1. Абрамов Н. Словарь русских синонимов и сходных по смыслу выражений. - М.: Русские словари, 2007. - 667 с.

2. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. JL: Наука, 1967. - 403 с.

3. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. -М.: Просвещение, 1966. 305 с.

4. Апресян Ю.Д. Значение и оттенок значения // Известия АН СССР. Отделение литературы и языка. Т. ХХХП. Вып. 4. -М., 1974. - С. 320330.

5. Апресян Ю.Д. Избранные труды. Том 1. Лексическая семантика: Синонимические средства языка. М.: Языки русской культуры, 1995. -472 с.

6. Апресян Ю.Д., Жолковский Ю.Д., Мельчук И.А. Об одном способе изучения сочетаемости слов // Русский язык в национальной школе. 1969. №6.-С. 61-71.

7. Архангельский B.JI. Устойчивые фразы в современном русском языке. Опыт теории устойчивых фраз и проблемы общей фразеологии. Ростов-на-Дону, 1964.-315 с.

8. Ахманова О.С. Словарь лингвистических терминов. — М.: Советская энциклопедия, 1966. 608 с.

9. Балли Ш. Общая лингвистика и вопросы французского языка / пер. с фр. М.: Изд-во иностранной литературы, 1955. — 416 с.

10. Беляева JI.H., Герд A.C., Убин И.И. Автоматизация в лексикографии // Прикладное языкознание: Учебник / JI.B. Бондарко, JI.A. Вербицкая, Г.Я. Мартыненко и др. Отв. Редактор A.C. Герд. СПб.: Изд-во С.Петербург. ун-та, 1996. С. 318-333.

11. Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка. М., 20086. Электронный ресурс. URL: http://dict.ruslang.ru/abstrnoun.php (дата обращения: 5.10.2010).

12. Богуславский И.М. Сфера действия лексических единиц. — М.: Языки русской культуры, 1996. 464 с.

13. Большой академический словарь русского языка (БАС) / Гл. ред. К.С. Горбачевич. Т. 1-12. М., СПб., 2004-2010.

14. Борисова Е.Г. Коллокации. Что это такое и как их изучать. М.: Филология, 1995а. - 49 с.

15. Борисова Е.Г. Слово в тексте. Словарь коллокаций (устойчивых словосочетаний) русского языка с англо-русским словарем ключевых слов. -М.: Филология, 19956. 149 с.

16. Валгина Н.С., Розенталь Д.Э., Фомина М.И. Современный русский язык: Учебник / Под редакцией Н.С. Валгиной. — М.: Логос, 2002. 528 с.

17. Виноградов В.В. Об основных типах фразеологических единиц в русском языке // Виноградов В.В. Избранные труды. Лексикология и лексикография. М., 1977а.-С. 140-161.26; Виноградов В.В. Основные типы лексических значений слова //

18. Виноградов В.В. Избранные труды. Лексикология и лексикография; М., 19776. -С. 162-189.

19. Витгенштейн Л; О достоверности // Вопросы философии. 1991. № 2.

20. Дементьева И., Танабакова В.Д. Коллокация как средство семантизации слова в английском словаре // Language and Literature. № 4 Электронный ресурс. URL: http://fi-gf.utmn.ru/last/No4/text6.htm^{дата обращения: 5.10.2010).

21. Денисов П.Н., Морковкин В.В. Словарь сочетаемости слов русского языка. -М.: Русский язык, 1983. — 688 с.

22. Дерибас В.М. Устойчивые глагольно-именные словосочетания русского языка. -М:, 1983.

23. Жуков В.П. Русская фразеология. — М.: Высшая школа, 1986. — 310 с.

24. Караулов Ю.Н., Черкасова Г.А., Уфимцева Н.В., Сорокин Ю.А., Тарасов Е.Ф. Русский ассоциативный словарь. В 2 т. Т. 1. От стимула к реакции. -М.: АСТ-Астрель, 2002. 784 с.

25. Кацнельсон С.Д. О грамматической категории // Вестник ЛГУ. 1948. №■2;

26. Кацнельсон С.Д. Общее и типологическое языкознание. Л.: Наука, 1986. -298 с.

27. Копотев М.В., Мустайоки А. Современная корпусная лингвистика // 81ауюа НеЫп^еп^а 34. Инструментарий русистики: Корпусные подходы. Хельсинки, 2008. - С. 7-24.

28. Копыленко М.М., Попова З.Д. Очерки по общей фразеологии. Воронеж: Изд-во Воронеж, ун-та, 1978. - 144 с.

29. Кустова Г.И. Словарь русской идиоматики. Сочетания слов со значением высокой степени. М., 2008. - Электронный ресурс. ХЖЬ: http://dict.ruslang.ru/magn.php (дата обращения: 5.10.2010).

30. Кутина Л.Л. Формирование норм словоупотребления при заимствовании и теория интерференции // Теория языка. Методы его исследования и преподавания. К 100-летию со дня рождения академика Л. В. Щербы Л.: Наука, 1981.-292 с.

31. Мельчук И.А. О терминах «устойчивость» и «идиоматичность» // Вопросы языкознания. 1960, № 4. С. 73-80.

32. Мельчук И. А. Опыт теории лингвистических моделей «Смысл*-»Текст». — М.: Наука, 1974.-314 с.

33. Молотков А.И. Основы фразеологии русского языка. JL: Наука, 1977. — 284 с.

34. Налимов В.В, Вероятностная модель языка. М.: Наука, 1979. - 303 с.

35. Перцов Н.В. О роли корпусов в лингвистических исследованиях // Труды международной конференции «Корпусная лингвистика-2006»; СПб;: Изд-во G.-Петерб. ун-та, 2006. - С. 318-331.

36. Пиотровский P. F. Текст, машина, человек. Л.: Наука, 1975; - 327 с.

37. С. 103-106. Электронный ресурс. URL:http://rcdl2008.jinr.ru/pdf/103l06рарег10.pdf (дата обращения: 5.10.2010).

38. Рогожникова Р.П. Толковый словарь сочетаний, эквивалентных слову, М.: Астрель, 2003. 416 с.

39. Русская грамматика. Т. I, II / Н. Ю. Шведова (гл. ред.). М.: Наука, 1980. (АГ-1980)

40. Сидорова Б.А. Подход к построению предметных словарей по корпусу текстов// Труды международной конференции «Корпусная лингвистика-2008». СПб., 20086.- С. 365-372.

41. Словарь русского языка: В 4 т. (MAG) / Под ред. А.П. Евгеньевой: 2-е изд., испр. и доп. - М;*. Русский язык, 1981-1984.

42. Словарь современного русского литературного языка: В 17 т. (БАС) / Под ред. А.М. Бабкина, С.F. Бархударова, Ф.П. Филина и др. -М.; Ли Изд-во АН СССР, 1948-1965.

43. Солодуб Ю.П., Альбрехт Ф.Б. Современный русский язык. Лексика и фразеология (сопоставительный аспект). М.: Наука, 2003. - 264 с.

44. Соссюр Ф. де. Курс общей лингвистики / Пер. А.М.Сухотина. М.: Соцэкгиз, 1933. — 272 с.

45. Сусов И.П. История языкознания: Учебное пособие для студентов старших курсов и аспирантов. М.: Восток-Запад, 2006. - 295 с.

46. Телия В.Н. Русская фразеология: семантический, прагматический и лингвокультурологический аспекты. — М.: Языки русской культуры, 1996. -288 с.

47. Теньер Л. Основы структурного синтаксиса. М., «Прогресс», 1988.653 с.

48. Тестелец Я.Г. Введение в общий синтаксис. — М.: РГГУ, 2001. 800 с.

49. Угланова И.А., Ерофеева Е.В. Частотная категория в языке и речевой деятельности II. Слово отзовется: Памяти Аллы Соломоновны Штерн и Леонида Вольковича Сахарного. — Пермь: Перм. госуд. ун-т, 2006. С. — 197-203.

50. Шайкевич А .Я., Андрющенко В.М., Ребецкая H.A. Статистический словарь языка Достоевского. М.: Языки славянских культур, 2003. -832 с.

51. Шанский Н.М. Русское языкознание и лингводидактика. М.: Русский язык, 1985. - 239 с.

52. Шанский Н.М. Фразеология современного русского языка. М.: Высшая школа, 1963. - 156 с.

53. Шаров С.А. Частотный словарь современного русского языка. 2002. -Электронный ресурс. URL: http^/bokrcorpora.narod.ru/frqlist/irqlist.html (дата обращения: 5.10.2010).

54. Ярцева В.Н, ред. Лингвистический энциклопедический словарь. — М.: Советская энциклопедия, 1990. 685 с.

55. Atkins S., Rundell М. The Oxford Guide to Practical Lexicography. Oxford: Oxford University Press, 2008. — 552 p.

56. Bartsch S. Structural and functional properties of collocations in English. A corpus study of lexical and pragmatic constraints on lexical cooccurrence. -Tübingen: Narr, 2004. 244 p.

57. Benson M. Collocations and idioms // Ilson, Robert (ed.), Dictionaries, lexicography and language learning. Oxford, 1985. P. 61-68.

58. Benson, Morton et al. (eds.): The BBI Dictionary of English Word Combinations. Revised edition. Amsterdam, Philadelphia, 1997.

59. Benson, M. Collocations and general-purpose dictionaries // International Journal of Lexicography. Oxford: Oxford University Press, 1990. - Vol. 3. -Issue l.-P. 23-34.

60. Berry-Rogghe G.L.M. The Computation of Collocations and Their Relevance in Lexical Studies // The Computer and Literary Studies. / A.J. Aitken, R.W. Bailey and N. Hamilton-Smith. Edinburgh: Edinburgh University Press, 1973.-P. 103-112.

61. Biber D., Conrad S., Reppen R. Corpus Linguistics: investigating language structure and use. Cambridge: Cambridge University Press, 1998. — 312 p.

62. Bolshakov I. CrossLexica: A Large Electronic Dictionary of Collocations and Semantic Links in Russian. — Электронный ресурс. Систем, требования: Microsoft Office PowerPoint. URL: http://vmw.gelbukh.com/xiex/XLexE.ppt (дата обращения: 5.10.2010).

63. Church К., Hanks P. Word association norms, mutual information, and lexicography // Computational Linguistics. 1990. - Vol. 16. - Issue 1. — P. 22-29.

64. Cowie A.P. The place of illustrative material and collocations in the design of a learner's dictionary // In Honour of A.S. Hornby / Strevens P. Oxford: Oxford University Press, 1978. - 207 p.

65. Cowie A.P. General introduction // Cowie, A. P. et al. (eds.), Oxford Dictionary of Current Idiomatic English, Volume 2. Oxford: Oxford University Press 1983.-P. 10-17.

66. Crowther J., Dignen S., Lea D. (Eds.). Oxford collocations dictionary for students of English. Oxford: Oxford University Press, 2002.83. Ôermâk F. (ed.) Kolokace. Praha: TJstav Ceského nârodniho korpusu, 2006.

67. Durco P. Collocations in Slovak (Based on Slovak National Corpus) // Computer treatment of Slavic and East European languages. Fourth International Seminar, Bratislava, Slovakia, 25-27 October 2007. Bratislava: Tribun, 2007. P. 43-50.

68. Evert S. STS: SigDiff the statistical significance of differences // The International Workshop on "Computational approaches to collocations". — Vienna, 2002 Электронный ресурс. Систем, требования: Adobe Acrobat

69. Reader. URL: http://www.ofai.at/~brigitte.krenn/colloc02/sigdiff.pdf (дата обращения: 5.10.2010).

70. Evert S., Krenn В. Using small random samples for the manual evaluation of statistical association measures // Computer Speech and Language. Vol. 19(4), 2005.-P. 450-466.

71. Fano R. Transmission of information. Massachusetts: MIT Press, 1961. —

72. Firth J.R. Papers in linguistics 1934-1951. London: Oxford University Press, 1957.-245 p.

73. Firth J.R. Selected papers of J.R. Firth, 1952-1959. London: Harlow, Longman, 1968. - 219 p.

74. Fontenelle T. Collocation acquisition from a corpus or from a dictionary: a comparison // Proceedings I-П. Papers submitted to the 5th EURALEX International Congress on Lexicography in Tampere, Finland. Tampere: Yliopisto, 1992. -P. 221-228.

75. Halliday M., ed. In memory of John Firth. London, 1966.

76. Halliday M. Current ideas in systemic practice and theory. London: Pinter, 1991.- 157 p.

77. Hausmann F J. Un dictionnaire de collocations est-il possible? // Travaux de Linguistique et de Littérature. — Strasbourg: Centre de philologie et de littérature romanes de l'université de Strasbourg, 1979. -Vol. 17. P. 187-195.

78. Hausmann FJ. Kollokationen im deutschen Wörterbuch: ein Beitrag zur Theorie des lexicographischen Beispiels // Lexicographie und Grammatik, 28. 30. 6. 1984. Bergenholtz, H. and Mugdon, J. eds. - Tübingen: Max Niemeyer, 1985.-P. 118-129.

79. Heid U., Gouws R. A model for a multifunctional electronic dictionary of collocations // Proceedings of the XIIthEuralex International Congress. -Torino: Université di Torino, 2006. P. 979-988.

80. Hunston S. Corpora in Applied Linguistics. Cambridge: Cambridge University Press, 2002. - 254 p.

81. Kahane S., Polguère A. Formal foundation of lexical functions // Proceedings of ACL/EACL 2001 Workshop on Collocation. Toulouse, 2001. - P. 8-15.

82. Kilgarriff A., Rychly P., Smrz P., Tugwell D. The Sketch Engine // Proceedings of the Xlth Euralex International Congress. Lorient: Universite de Bretagne-Sud, 2004. - P. 105-116.

83. Kilgarriff A. Collocationality (and how to measure it) // Proceedings of the Xllth Euralex International Congress. Torino: Universitä di Torino, 2006. -P. 997-1004.

84. Kjellmer G. A dictionary of English collocations based on the Brown Corpus. 3 volumes. Oxford: Clarendon Press, 1994.v v

85. Kren M. Kolokacni miry a cestina: srovnani na datech CNK // Cermâk F. (ed.) Kolokace. Praha: Ûstav Ceského nârodniho korpusu, 2006. - P. 223-248.

86. Manning Ch., Schütze H. Foundations of Statistical Natural Language Processing. Massachusetts: MIT Press, 1999. - 717 p.

87. Matthews P.H. The Concise Oxford dictionary of linguistics. Oxford: Oxford University Press, 1997. - 414 p.

88. Mel'cuk I.A. 1998: Collocations and lexical functions // Phraseology: Theory, Analysis, and Applications / Cowie A.P. Oxford: Clarendon Press, 1998. — P. 23-53.

89. Oakes M. Statistics for corpus linguistics. Edinburgh: Edinburgh University Press, 1998. - 303 p.

90. Palmer F.R. Semantics: A new outline. M.: Progress, 1992. — 109 p.

91. Porzig W. Wesenhafte Bedeutungsbeziehungen // Beiträge zur Geschichte der deutschen Sprache und Literatur. 1934. - № 58. - S. 70-97.

92. Rychly P., Smrz P. Manatee, Bonito and word sketches for Czech // Труды, международной конференции «Корпусная лингвистика-2004»: Сборник докладов. СПб.: Изд-во Санкт-Петербургского госуд. ун-та, 2004.1. С. 324-334.

93. Salton G. Automatic text processing. The transformation, analysis, and retrieval of information by computer. Massachusetts: Addison-Wesley, 1989. -543 p.

94. Sinclair J. Beginning the study of lexis // In memory of J.R. Firth / Bazell C., Catford J., Halliday M., Robins R. (eds) London: Longman, 1966. — P. 410430.

95. Sinclair J. Corpus, concordance, collocation. — Oxford: Oxford University Press, 1991.-196 p.

96. Sketch Engine Corpus Querying Электронный ресурс. URL: http://trac.sketchengine.co.uk/wiki/SkE/CorpusQuerying (дата обращения: 5.10.2010).

97. Stubbs М. Collocations and semantic profiles: On the cause of the trouble with quantitative studies // Functions of Language. 1995. -Vol. 1 — P. 23-55.

98. Trier J. Der Deutsche Wortschatz im Sinnbezirk des Verstandes. Die Geschichte eines Sprachlichen Feldes. Heidelberg: Carl Winters Universitatsbuchh, 1931. - 347 s.

99. Weeber M., Vos R., Baayen R. Extracting the lowest-frequency words: Pitfalls and possibilities // Computational Linguistics. 2000. - Vol. 26. - P. 301-317.

Полный текст автореферата диссертации по теме "Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов"

Оглавление научной работы автор диссертации — кандидата филологических наук Хохлова, Мария Владимировна

Введение диссертации2010 год, автореферат по филологии, Хохлова, Мария Владимировна

Заключение научной работыдиссертация на тему "Исследование лексико-синтаксической сочетаемости в русском языке с помощью статистических методов"

Список научной литературыХохлова, Мария Владимировна, диссертация по теме "Прикладная и математическая лингвистика"

Похожие темы диссертаций