Корпусно-ориентированное исследование референции

Красавина, Ольга Николаевна

автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Корпусно-ориентированное исследование референции

Год: 2006
Автор научной работы: Красавина, Ольга Николаевна
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Москва
Код cпециальности ВАК: 10.02.19

Диссертация по филологии на тему 'Корпусно-ориентированное исследование референции'

Полный текст автореферата диссертации по теме "Корпусно-ориентированное исследование референции"

На правах рукописи

Ольга Николаевна Красавина

Корпусно-ориентированное исследование референции (принципы аннотации и анализ данных)

Специальности: 10.02.19 —теория языка;

10.02.21 — прикладная и математическая лингвистика

Автореферат диссертации на соискание ученой степени кандидата филологических наук

Москва 2006 г.

Работа выполнена на кафедре теоретической и прикладной лингвистики филологического факультета Московского государственного университета им. М. В. Ломоносова

Научный руководитель

Официальные оппоненты

доктор филологических наук, профессор Андрей Александрович Кибрнк доктор филологических наук, профессор

Ведущая организация

Вера Исааковна Подлесская;

кандидат филологических наук Елена Григорьевна Соколова Московский государственный

лингвистический университет (МГЛУ)

Защита диссертации состоится

и М

2006 года на заседании

диссертационного совета Д 501.001.24 при Московском государственном университете им. М. В. Ломоносова по адресу: 119992, Москва, Ленинские горы, МГУ им. М. В. Ломоносова, 1-й корпус гуманитарных факультетов, филологический факультет.

С диссертацией можно ознакомиться в читальном зале 1-го корпуса гуманитарных факультетов МГУ им. М. В. Ломоносова.

Автореферат разослан_2006 года.

Ученый секретарь

диссертационного совета

О. В. Дедова

Общая характеристика диссертации

В реферируемой работе рассматривается проблематика, неоднократно обсуждавшаяся в лингвистической литературе, но до сих пор мало исследованная эмпирически — референциальный выбор. Референциальный выбор — это процесс выбора говорящим одного из нескольких потенциально возможных средств референции: Вася пошел в кино — этот мальчик пошел в кино — он пошел в кино. В то время как язык допускает сосуществование альтернативных, «конкурирующих» возможностей именовать объекты дискурса, говорящий выбирает только одну из них. Соответственно, объектом исследования являются условия, определяющие выбор одной именной группы из репертуара альтернативных именных групп при осуществлении референции — местоимений, указательных местоимений, полных именных групп. Именные группы (далее, ИГ) могут составлять от 55 до 80 процентов текста (в зависимости от жанра).

Референциальный выбор — феномен, зависящий в каждом конкретном случае от влияния различных факторов, ср. [Givón (ed.) 1983]', [Кибрик 1997J2, Всеволдова [2000]3. Эти факторы являются, в свою очередь, индикаторами степени активации, или доступности референта (ср, например, [Chafe 1994]4; [Tomlin and Pu 1991]5). Цель исследования, определяющая конкретные задачи исследования, состоит в том, чтобы исследовать природу этих факторов на представительном корпусном материале.

Материалом для данного исследования послужили следующие исходные данные:

• RST Discourse Treebank — корпус английских публицистических текстов, аннотированных по риторической структуре дискурса [Mann and Thompson 1988] (см. Рис. 2);

• Potsdam Commentary Corpus (PCC) - корпус немецких публицистических текстов, аннотированных по риторической структуре дискурса;

• NEGRA — «факультативный» корпус, частично аннотированный по референции, а также по ряду релевантных морфо-синтвксических и семантических признаков (согласовательные признаки, одушевленность и т.д.).

Необходимым условием для изучения референциального выбора корпусным методом является наличие аннотации по референции. В корпусах RST Discourse Treebank и PCC эта аннотация отсутствовала. В связи с этим, в работе ставятся следующие практические задачи:

1) разработать методологию корпусной разметки по референции;

2) осуществить аннотацию корпусов по референции;

3) рассмотреть влияние предположительно релевантных факторов на

референциальный выбор, в частности

• прояснить влияние линейной и риторической структуры дискурса на референциальный выбор;

• прояснить взаимодействие дискурсивной структуры и когнитивной доступности;

• провести исследование этих факторов в контрастивно-лшггвистической

1 Givón, Т. (ed.). (1983). Topic continuity in discourse: an introduction. In: Topic continuity in discourse: a quantitative cross-language study, Amsterdam: Benjamins. T. Givón (ed.).

2 Кибрик, A.A. (1997). Моделирование многофакторного процесса: выбор референциального средства в

русском дискурсе, Вестник МГУ, 1997, Лг»4.

Всеволодова, М. В. Теория функционально-коммуникативного синтаксиса. М., 2000. * Chafe, W. (1994). Discourse, Consciousness, and Time. The Flow and Displacement of Conscious Experience in Speaking and Writing. Chicago, University of Chicago Press.

5 Tomlin, R. and M. Pu (1991). The management of reference in Mandarin discourse. Cognitive Linguistics 2 (65-93).

перспективе.

Таким образом, в работе одновременно представлены и прикладной, и теоретико-методологический аспекты.

Методологические вопросы исследования, связанные с аннотацией корпуса, выделены в особый раздел в Главе Четвертой, которая в целом посвящена более подробному обсуждению аннотационной схемы и теоретических проблем, связанных с аннотацией по референции.

Актуальность исследования определяется тем, что в современной литературе по референциальному выбору основное внимание до сих пор было направлено на личные и притяжательные местоимения как составляющие одного гомогенного класса. Хотя в некоторых исследованиях и можно встретить примеры отдельного рассмотрения этих референциальных средств, это происходит скорее ad hoc, без каких-либо теоретических оснований на это. С другой стороны, хотя среди лингвистов в последние десятилетия растёт интерес к корпусным исследованиям, рсферснциальный выбор в целом мало исследован на материале представительных корпусов естественно-языковых примеров, особенно, что касается его взаимодействия с риторической структурой. Причина этого отчасти объективная: настоящая ситуация такова, что корпусов, аннотированных по референции, очень мало, а общедоступных корпусов практически не существует. Создание таких корпусов, а также восполнение теоретических пробелов в понимании того, как функционирует референциальный выбор, с помощью анализа этих корпусов — актуальная задача. Наличие одновременно и референциальной, и риторической аннотации является на данный момент уникальной характеристикой. Предыдущие попытки эмпирической проверки влияния фактора риторической структуры на анафору с помощью корпусов, аннотированных и по референции, и по риторической структуре ограничивались данными небольшого объема.

Рефереруемое исследование разделяет методологическую установку, согласно которой модель употребления некоторого референциального средства должна не только описывать некоторые случаи употребления, но и подтверждать или опровергать гипотезы о влиянии тех или иных факторов. Результаты работы подтверждают гипотезу о том, что объяснительная модель референциального выбора должна быть многоуровневой, в том смысле, что эти факторы принадлежат различным описательным уровням языка, а не только одному уровню - семантике или синтаксису.

Научная новизна работы определяется тем фактом, исследование не ограничивается локальной (синтаксической) анафорой, часто объяснимой на основании синтаксических правил в предалах одного предложения, а также тем что в реферируемой работе впервые предлагается унифицированный подход к вычислению степени референциальной доступности, в котором моделируются предсказания основных теорий, связывающих доступность с фактором дискурсивной (риторической) структуры [Глава 3]. Теоретическая модель сопровождается дополнительными исследованиями на материале корпусов (см. выше).

Данная работа дополняет и во многом конкретизирует наблюдения, представленные в фундаментальной работе российского лингвиста-семантиста Е.В. Падучевой [Падучева 19856].

Теоретическая значимость. Данное исследование является вкладом в теоретические и методологические аспекты изучения референциальных средств. Описание описание принципов, контролирующих и регулирующих употребление отдельных типов референциальных средств, является необходимым шагом на пути к пониманию общих механизмов референциального выбора.

' Падучева, Е.В. (1985). Высказывание и его соотнесенность с действительностью: (референциальные аспекты семантики местоимений). Москва.

Одним из главных результатов работы является опровержение главных предположений известных теорий — теории центрирования (Grosz et al. 1995), теории вен (Cristea et al. 1998) и теории стеков (Grosz and Sidner 1986). Эмпирические результаты, полученные при квантитативном анализе корпусов, опровергли предположение, что достаточно только одного фактора, чтобы предсказать референциальный выбор. Необходимость учитывать факторы различной природы показывается на примере взаимодействия и взаимокомпенсации следующих факторов:

• линейное и риторическое расстояние;

• расстояние и одушевленность;

• расстояние и релевантность референта в последующем дискурсе.

Практическое значение. Результаты данной работы релевантны для исследований в области прикладной лингвистики. Анафорическая разметка является по сей день одним из самых сложных видов аннотации, и для нее по-прежнему не существует единого стандарта. В данной работе осуществляется попытка создания такого стандарта, а также производится его проверка в действии.

Понимание того, как функционирует, например, дистантная местоименная анафора, можно использовать для оптимизации алгоритмов по разрешению и генерированию анафоры, и, следовательно, систем по разрешению и генерированию анафоры. Лексические соответствия референциальных средств в разных языках в зависимости от дискурсивного контекста являются существенным компонентом в системах машинного перевода. Понимание связи дискурсивной структуры и анафоры может использоваться для автоматического экстрагирования дискурсивной структуры текста на основании формы анафорических выражений.

Апробация работы. Основные положения диссертации были представлены и обсуждены на конференции по компьютерной лингвистике и интеллектуальным технологиям ДИАЛОГ (Верхневолжский, июнь 2004 г. (Россия)), Пятой международной конференции по анафоре и разрешению анафоры (Discourse Anaphora and Anaphor Resolution Colloquium, Сан Мигуэль (Португалия), сентябрь 2004 г.), на Шестой международной конференции по прагмасемантике (Szklarska Poreba Workshop on the Roots of Pragmasemantics, Сцкларска Пореба (Польша), февраль 2005 г.), на конференции лингвистов-аспирантов (Вартин (Германия), июль 2005 г.), на на конференции по компьютерной лингвистике и интеллектуальным технологиям ДИАЛОГ (Звенигород, июнь 2005 г. (Россия)), на международной конференции по корпусной лингвистике (Бирмингем (Великобритания), июль, 2005 г.), на Четвертой международной конференции по контрастивной лингвистике (International Contrastive Linguistics Conference, Сантьяго де Компостела (Испания), сентябрь 2005 г.) и на Шестой международной конференции по мультидисциплинарным подходам к дискурсу по теме «Выделенность в дискурсе» (Multidisciplinaiy approaches to discourse: Salience in discourse, Корин/Берлин (Германия), октябрь 2005 г.). Работа прошла обсуждение на кафедре теоретической и прикладной лингвистики МГУ им. М. В. Ломоносова.

Структура работы. Диссертация состоит из пятя глав, заключения и библиографии, а также приложения. В перевой главе дайтся краткая характеристика предмета диссертации, цели работы, использованного материала и значимости исследования. Вторая глава посвящена теоретическим вопросам референции, третья — фактору дискурсивной структуры и его влиянию на референциальный выбор, четвертая — методологическим и теоретическим аспектам аннотации корпусов по референции, пятая — эмпирическому исследованию факторов рефсренциального выбора на материале аннотированных корпусов. Список использованной литературы насчитывает более 270 позиций отечественной и зарубежной литературы.

Краткое содержание диссертации

Глава 1. Введение

Первая глава является вводной и описывает постановку задачи (раздел 1.1), использованные корпуса текстов (раздел 1.2), поставленные в работе цели (раздел 1.3), ее научную новизну (раздел 1.4), теоретичекое и практическое значение (раздел 1.5), апробацию (раздел 1.6) и структуру работы (раздел 1.7). Во введении подытоживаются основные характеристики работы: 1) сочетание прикладной и теоретико-методологической направленности; 2) использование репрезентативного корпуса естественного, а не сконструированного дискурса; 3) материал состоит из целостных дискурсов, а не примеров, состоящих из одного-двух предложений; 4) суждения делаются не исключительно на основании интуиции исследователя, а на интуиции многих авторов, тексты которых вошли в корпус; 5) теоретические изыскания производятся в духе психологически адекватных подходов к референции в дискурсе; 6) исследовательским вопросом является не грамматичность или неграмматичность рассматриваемого предложения, а степень маркированности языковых употреблений; 7) результаты интерпретируются в вероятностных терминах, как тенденции, а не как дискретные категории; 8) исследование проводится на материале двух языков, что позволяет делать весомые предположения об универсальности наблюдаемых тенденций.

Глава 2. Референции в дискурсе.

Во второй главе делается упор на теоретические вопросы референции в целом и референциального выбора в частности.

В разделе 2.1 определяются теоретические рамки исследования. Автор данной работы разделяет функционально-когнитивный подход к языку [Кибрик (в печати)']. В подразделе 2.1.1 рассматривается вопрос мотивированности языка когнитивными структурами и процессами, языковая форма находится в отношении изоморфизма ее когнитивному означаемому Важным является принцип иконического соответствия дискурсивной выделенности объекта и средством его кодирования в тексте: чем больше выделенностъ (топикальность - ср. [Иубп 19908]), тем менее эксплицитное референциальное средство будет выбрано говорящим в немаркированном контексте (подраздел 2.1.2). В 2.1.3 объсняется понятие маркированности как критерия, противопоставленного критерию «грамматичности» в генеративизме. Маркированные языковые употребления противопоставлены немаркированным и являются менее частотными, более сложными формально и когнитивно. Типичным, немаркированным средством наименования высоко активированных референтов являются, таким образом, личные местоимения и референциальные нули.

В разделе 2.2 определяется понятийный аппарат исследования. В подразделе 2.2.1 описывается когнитивная база исследования. Мы исходим из принятого в дискурсивном анализе допущения, что дискурс - это отражение коммуникативного акта. Участники дискурса - это говорящий и слушающий. Термин «референциальный выбор» отражает перспективу говорящего, или перспективу порождения, которая противопоставляется перспективе слушаещего, или перспективе понимания. С когнитивной точки зрения это значит, что при порождении дискурса говорящий, или автор, учитывая состояние ментальной модели слушаещего на момент í и своих

' Кибрик А.Е. 2006 (в печати). Когнитивный подход к языку. "Компьютеры, мозг и познание". Под ред. Б.М.Величковского и В. Д.Соловьева. М.: Наука. В печати.

* Giv6n, Т. (1990). Syntax. A functional-typological introduction, Amsterdam: Benjamins.

коммуникативных целей, осуществляет выбор адекватного языкового средства в момент t+1.

Для описания предполагаемых состояний ментальной модели участников дискурса в когнитивно-ориентированных моделях анафоры используются термины «доступность», «активация» (или «уровень активации»), «состояния памяти и внимания» и др.. Мы будем пользоваться интуитивным понятием дискурсивной выделенности, а его коррелятами — доступностью и активацией только в тех случаях, когда речь идет о работах соответсвующих авторов, либо, если рассматривается когнитивная сторона референциального выбора.

В подразделе 2.2.2 вводятся используемые в исследовании ключевые понятия. В ряде отечественных работ анафора определяется как часть процесса референции, причем не любой, а конкретной (в отличие от универсальной, экзистенциальной и т.п.) — к объектам мира, естественного или вымышленного, к которым производит отсылку говорящий во время речевого акта, то есть не к самим смысловым значениям языковых выражений [ср. Земская и др. 19819]. В реферируемой работе рассмотрению подлежали только случаи конкретной референции.

Анафора в данной работе понимается как дискурсивная анафора. В отличие от текстовой анафоры — традиции, в рамках которой анафора объясняется с помощью формально-синтаксических правил на уровне предложения, данный термин включает в себя понятие дискурса как текста в совокупности с его «окружением» (условиями порождения и понимания, намерениями говорящего и т.п.) и как нелинейной, иерархической структуры, воспроизводящей ментальные структуры и процессы.

Исходя из логики функционально-когнитивной мотивированности порядка следования стурктурных элементов текства, порядок упоминания референтов в дискурсе релевантен per se. В связи с этим, катафора рассматривается как феномен, который отличается от анафоры, и должен рассматриваться отдельно от анафоры. Далее, для корпусной работы необходимо прояснение того, какое отношение подлежит аннотации, в том числе его семантика и направленность (если имеется).

Кореферентность (отношение идентичности) является базисным типом отношения между двумя упоминаниями референта в тексте, отношение, по определению, транзитивное и симметричное. Однако поскольку существует возможность референции к объектам, репрезентация которых еще не является активированной в момент их упоминания (катафора), направление референции является релевантным. Поэтому, говоря об аннотации референции в корпусе, мы в дальнейшем будем использовать некоторый синтез между анафорой и кореферентностью - отношение идентичности референции при релевантности направления, то есть асимметричное и транзитивное отношение.

В разделе 2.3 анализируются когнитивные подходы к референциальному выбору и факторам активации — факторам, влияющим на степень активации референта в некоторый момент дискурса. Подробно обсуждаются две влиятельные теории: Иерархия Доступности Ариель [Ariel 199010] и Иерархия Данности Гундел и др. [Gundel et а]. 1993п]. Иерархия Доступности постулирует соответствие конкретных типов референциальных форм дискретным уровням активации и является, в связи с этим, более подробной. Доступность определяется как когнитивное усилие, необходимое для интерпретации референциальной формы. По этой причине говорящий выбирает то референциальное средство, которое требует меньше всего когнитивных затрат. В отличие от Иерархии Доступности, Иерархия Данности оперирует с дискретными категориями. Референциальные средства, соответствующие веем

9 Земская, Е.А., Китайгородская MB., Ширяев Е.Н. (1981). Русская разговорная речь. М.

10 Ariel, М. (1990). Accessing Noun-Phrase Antecedents, London: Routledge.

" Gundel, J., N. Hedberg and R. Zacharskj (1993). Cognitive status and the form of referring expressions in discourse. Language 69(2): 274-307.

статусам «ниже» данного, являются потенциально возможными альтернативами. Каждый последующий статус включает в себя предыдущие, например, то, что является „активированным", является также и знакомым" и т.д., ср. Рис. 1.

в фокусе > активированный > знакомый > уникальный > конкретно-референтный > неконкретно-

референтный

in focus activated familiar uniquely referential type identifiable

identifiable

(it) Uhat} {that N) [the N} {indefinite this N} {aN}

{this} . {this N)

Рис. 1: Иерархия данности (Gundel et al. 1993)

В разделе 2.4 рассматриваются представленные в литературе индикаторы (маркеры) доступности, или факторы активации, а именно, внутренние свойства референта (например, одушевленность), лексические свойства (лексическая форма), грамматические свойства (например, грамматическая роль), дискурсивные свойства (например, центральность референта в дискурсе). Особенное внимание уделяется факторам центральности, одушевленности и субъектности, дискурсивному статусу и форме антецедента.

Соотношение степени доступности, активации, или выделенности и референциального выбора, о котором шла речь до сих пор, является по сути общепринятой гипотезой. Известное наблюдение, впервые зафиксированное в работе Лангакера [Langacker 196912], что личные местоимения третьего лица, как правило, имеют антецедент в предыдущей клаузе в позиции субъекта, связано именно с этим явлением: позиция субъекта связана с повышенной дискурсивной выделенностью. С другой стороны, существуют гипотезы, пытающиеся объяснить референциальный выбор на основании независимых синтаксических критериев, как, например, параллелизм. Однако это наблюдение находится в «конфликте» с гипотезой, объясняющей употребеяение референциалышх средств на основании ислючителыю дискурсивной выделенности. Гипотеза, которая выдвигается в реферируемой работе, заключается в том, что явления типа параллелизма не противоречат иконическому соответствию степени выделенности и выбору формы: это соответствие просто имеет место не на уровне референции, но и на уровне структуры предложения. Рассматриваются также другие противоречащие друг другу критерии доступности, в частности, преимущество «первого упоминания» (упоминания в самом начале предложения) и критерий недавности упоминания [Gernsbacher 199013].

Глава 3. Фактор двскурсивно-структурной доступности

В главе третьей мы рассматриваем гипотезу о влиянии потенциально сильнейшего фактора - иерархического устройства дискурса на референциальный выбор и его взаимодействие с критерием недавности упоминания референта.

Важным, а в теории стеков (stack model) [Grosz and Sidner 198614] и теории вен (veins theory) [Cristea et al. 199815] единственно рассматриваемым фактором, влияющим

11 Langacker, R. (1969). On pronominal ization and the chain of command. In W. Rebel and S. Schane (Eds.),

Modem Studies in English. Englewood Cliffs, N1: Prentice Hall.

" Gernsbacher, M. A. (1990). Language comprehension as structure building., Hillsdale, NJ: Erlbaum.

14 Grosz, B. and C. Sidner (1986). Attention, intentions, and the structure of discourse. Computational Linguistics 12(3): 175-204.

на референциальную доступность, является иерархическая структура дискурса. Однако до сих пор этот фактор был мало изучен, а у немногочисленных существующих подходов есть ряд проблем:

• неединообразность используемого материала, теоретических предпосылок и, в связи с этим, проблема сопоставимости выводов;

• отсутствие солидной эмпирической проверки.

Для того чтобы сравнить теорию стеков и теорию вен и оценить их предсказательную силу, а также в целом роль фактора дискурсивно-струкгурной доступности, был предложен и имплементирован специальный подход. В этом подходе производится репрезентация теории стеков и теории вен на общем основании. На основании этого подхода производится эмпирическое исследование (раздел 3.4)

Структура дискурса может быть двух типов: линейная и иерархическая. Линейная структура моделируется в реферируемой работе как линейное расстояние, то есть количество клауз между клаузой анафора и антецедента.

Иерархическая структура моделируется как верархическое расстояние — кратчайший путь от анафора до антецедента по риторическому дереву (ср. Рис. 2). Для предсказания прономинализации мы вводим пороговое значение т. Если значение иерархического расстояния до узла Р меньше, чем г, и а — местоимение, то /? достаточно доступен, чтобы в нем мог находиться кандидат в антецеденты местоимения, находящегося в а. Так, согласно нашему подходу, в теории стеков каждому типу грани, при котором антецедент находится в сателлите, приписывается значение 1, а всем остальными типам — 0. Пороговое значение (т) равно 1. В теории вен ядра — всегда доступны, правые сателлиты — недоступны для поиска антецедента, а левые сателлиты доступны при ограниченных обстоятельствах

Рис. 2. Построение кратчайшего пути по риторическому дереву от анафора (а) до антецедента (7?) (прямые стрелки).

Вопреки ожиданиям, эмпирическая проверка теорий (84 английских, 134 немецких текстов из корпусов) показала, что линейное расстояние предсказывает прономинализацию лучше, чем иерархическое расстояние, моделированное на основании теории стеков и теории вен.

Далее, мы провели анализ различия линейной и иерархической структуры при подсчете расстояния в тексте с учетом линейной и риторической структуры с использованием более тонкого подхода - метод риторического расстояния [Кибрик 199716]. Этот анализ показал, что в ряде случаев расстояние, подсчитанное с учетом

15 Cristea, D., N. Ide and N. Romaiy (1998). Veins Theory. A model of global discourse cohesion and coherence. 36th Ann. Meeting of the ACL.

16 Кибрик, A.A. (1997). Моделирование многофакторного процесса: выбор референциаиьного средства в русском дискурсе, Вестник МГУ, 1997, №4.

риторической структуры, отличается от линейного расстояния и объясняет прономинализацию лучше, чем линейное расстояние. Поскольку исходный метод риторического расстояния имел ряд недостатков, этот метод подвергся изменениям, которые подробно обсуждаются в разделах 3.5-3.6. Имплементация метода и эмпирическая проверка представлены в разделе 3.7. Основные положения модифицированного подхода можно обобщить следующим образом:

• сателлиты являются менее доступными как антецеденты, чем ядерные узлы,

• ядерные узлы в симметричных отношениях являются менее доступными, чем ядерные узлы в асимметричных отношениях.

Таким образом, при построении пути от анафора (а) до антецедента (JS) проникновение в симметричную структуру и выход из нее считаются как половина шага, то есть один такой шаг получает значение 0,5.

Однако и этот метод, хотя и показавший преимущество перед другими теориями в результате эмпирической проверки, оказался хуже, чем линейное расстояние. Представляются следующие возможности интерпретации этих выводов:

• прономинализация предсказывается лучше на основании более простого метода — линейного расстояния;

• линейное и риторическое расстояние взаимодействуют: линейное расстояние более полезно для предсказания прономинализации в локальных контекстах, а иерархическое — в глобальных.

Допуская возможность того, что при референции на небольших расстояниях, предсказания насчет прономинализации действительно осуществляются лучше на основании референциального расстояния, а при референции на больших расстояниях лучше использовать риторическое расстояние, необходима проверка этого эффекта на материале крупного корпуса. Кроме того, как линейное, так и риторическое расстояние недостаточны для предсказания референциального выбора. Таким образом, очевидной становится необходимость рассмотрения других факторов. Исследование на материале репрезентативных корпусов является целью, которой посвящены дальнейшие главы реферируемой работы.

Глава 4. Аннотация крупного корпуса для изучения референциального выбора

В главе четвертой описаны требования к корпусной аннотации, характеристики существующих аннотационных схем для референциальной аннотации, а также изложена аннотационная схема - принципы, положенные в основу аннотации данных корпусов, и процедура имплементащш данной аннотационной схемы с применением программы ММАХ (Рис. 3).

В начале главы описываются общие требования к корпусной аннотации. В подразделе 4.1.3 производится обзор существующих схем для аннотации по референции, в частности, UCREL, MUC, DRAMA, MATE, GNOME, MULL Проблемой всех схем является отсутствие единого стандарта. Предложенная в данной работе схема для аннотации по референции служит не только непосредственным задачам данного исследования, но и представляет собой попытку стандартизировать процедуру анафорической аннотации.

17 Millier, C. and M. Strube (2001). Annotating Anaphoric and Bridging Relations with MMAX. Proceedings of the 2d SIGdial Workshop on Discourse and Dialogue, Aalborg, Denmark.

тттгшшмттьт^тжтжтщттяш,- - ; - - ^ ^

Не веШпвв Kept* То* Но

[They] do not flinch at writing [them.]

that bs my job—get {[policyholders]) what [Biey] be enttled to, says [Bill Schaeffer, a claims supervisor who flew In [from Aetna)' [s] 8ndgepott, Conn, office.]'

[The Victorian house that (Ms. Johnson] is Inspecting] has been deemed unsafe by town officials.

But [she] asks a workman toting [the bricks] [from the lawn] to ghi [her] a boost through an open first- floor window.

Once inside^ |she| spends nearly four hours measuring and diagramming each room [in the 60- year-old house,] gathering

e'iough information to estimate what [it] would cost to rebuild [t ]

[She] snaps photos [of me buckled floors] and [the plaster that has fallen away |from the walls.]]

Рис. 3. Образец текста в процессе аннотации по референции с помощью программы ММАХ (кореферентные элементы соединены дугой)

В разделе 4.2 дается более детальная характеристика используемых корпусов, изначально аннотированных по риторической структуре, на была произведена аннотация по референции которых с применением разработанной схемы.

Начиная с раздела 4.3, следует изложение принципов аннотации по референции. В целом, имеет место следующая закономерность: чем больше детализация, тем больше пользы для эмпирических исследований анафоры и, в то же время, тем сложнее аннотация, как с теоретической, так и с практической точки зрения. В процессе создания этой схемы мы поставили перед собой цель достичь компромисс между детализацией и реалистичностью выполнения. Для этого мы вводим разграничение на основную и расширенную схемы. Основная схема представляет собой базисный способ референциальной аннотации. Расширенная схема разработана для аннотации большего количества референциальных средств, анафорических отношений и дополнительных признаков. Другими словами, основное различие между основной и расширенной схемой состоит в наборе основных и второстепенных элементов, а также типов анафорического отношения. Список аннотируемых элементов и атрибутов — расширяемый, что дает исследователю возможность дополнить недостающие характеристики, которые он намерен аннотировать в своем корпусе.

В основной схеме предусмотрена только аннотация базисного типа анафоры — кореферентности. Выбор антецедента при аннотации производится на основании Принципов 1 ' и 3 (см. ниже). С точки зрения направления референции, различаются два вида катафоры: дискурсивная (пример (1)) и синтаксическая (пример (2)). Дискурсивная катафора, соответствует неместоименной катафоричекой референции: в целях возбуждения любопытства автор может употреблять ИГ, лексический состав которой недостаточен для идентификации референта, который, как правило, является релевантным объектом последующего дискурса (пример (1)).

(1) Schade ist nur bei all diesen strengeren Regelungen, dass es wohl wieder mal zum großen Teil [die Falschenji trifft. Nämlich ¡jene, die sich artig an die Spielregeln halten, sich in Deutschland integrieren wollen und vorschriftsmäßig ihre geplanten Fahrten bei den zuständigen Stellen ankündigen und genehmigen lassen wollen]t.

"Жаль только, что при всех этих строгих мерах, пострадавшими окажутся прежде всего {не виноватые//. А именно, это обратится против [тех, кто придерживается правил игры, хочет интергрироватъся в Германии и оповещает, в соответсвии с предписаниями, соответсвующие ведомства о запланированных поездках/¡. '

(2) Through [his]a lawyers, [Mr. Antar]a has denied allegations in the SEC suit

Далее разбираются принципы, которые были положены в основу аннотации, а именно:

• Принципы выбора аннотируемых элементов (раздел 4.3.1);

• Принципы разметки анафорических связей (подраздел 4.3.2);

• Принципы разметки дополнительных признаков (подраздел 4.3.4).

Наряду с этими принципами, были разработаны стратегии по устранению многозначности (подраздел 4.З.З.).

Маркируемый элемент (тагкаЫе), далее элемент - это составляющая текста, которая является реализацией семантических объектов и способна вступать в анафорические отношения. Семантически элемент соответствует прототипическому дискурсивному референту [КагЦипеп 197618]. С точки зрения синтаксиса элементами могут быть либо ИГ, либо предложные группы (111').

С точки зрения как лексических и синтаксических, так и семантических — референциальных — различий мы выделяем два типа элементов:

• основные элементы;

• второстепенные элементы.

Далее, перечисляются виды основных и второстепенных элементов (подраздел 4.3.1). Основные элементы соответствуют выражениям, которые могут употребляться в тексте в анафорической функции и подлежат аннотации по умолчанию. К основным элементам относятся:

• определенные, указательные и посессивные ИГ;

• имена собственные;

• личные и указательные местоимения;

• прономинальные адвербиалы (в немецком);

• относительные местоимения*19;

• референциальные нули*;

• рефлексивы*.

Второстепенные элементы, как правило, соответствуют дискурсивно-новым референтам и не могут употребляться в анафорической функции, однако могут являться антецедентами анафорических выражений, и подлежат аннотации только в том случае, если последнее выполняется. К второстепенным элементам относятся:

• неопределенные ИГ: ИГ с неопределенным артиклем и без артикля;

• клаузы, предложения или группы предложений*;

• вопросительные местоимения*20.

Необходимо отметить, что в спорных случаях первоочередным критерием при выделении основных и второстепенных элементов, являются лексические характеристики. Так, разграничение определенных и неопределенных ИГ является теоретически сложной задачей. Даже если взять за основу одну из существующих объяснительных теорий, использование сложных критериев непомерно усложняет аннотацию. Поэтому мы рассматриваем ИГ с артиклем как определенные и, соответственно, аннотируем их как основные элементы, а ИГ с неопределенным артиклем и ИГ без артикля - как второстепенные элементы.

18 Karttunen, L. (1976). Discourse referents. Syntax and Semantics. J. McCawley, New York Academic Press. 7.

19 Компоненты, относящиеся к расширенной схеме, помечаются знаком *.

20 Вопросительные местоимения могут, хотя и редко, быть антецедентом личного местоимения, например, [Who]w didn 7 brush [his]w teeth today?

Аннотации не подлежат следующие употребления основных элементов:

• Эксплетивные выражения

(3) Then, when it would have been easier to resist them, nothing was done.

• Местоимения, являющиеся контроллером относительного предложения:

(4) Dazu kommt, dass in Werder am 24. Februar ein Bürgermeister gewählt wird und es bisher als sicher galt, dass CDU-Amtsinhaber Werner Größe unangefochten bleibt.

'К тому же, в Бердере 24 февраля будет избран мэр города и до сих пор считалось, что величие настояшего мэра Вернера из партии ЦЦУостается неприкосновенным.'

• Местоимения и другие основные элементы, входящие в состав идиоматических и лексикализованных выражений.

(5) It sent Kate into the pits when she learned from her "friend" Martha, who seemed to get off on laying bad trips on people, that Harvey was getting it on with Carol.

В данном примере есть несколько идиоматических фраз, которые содержат местоимения или полные ИГ - потенциальные основные элементы, которые, однако не должны быть аннотированы как таковые, потому что be sent into the pits значит «расстраиваться, впадать в депрессию», a get it on значит «иметь сексуальпые отношения». Ни the pits, ни it не являются дискурсивными референтами,

• As, than (в английском) и bis, als, wie (в немецком) не входят в состав маркируемых элементов, поскольку они не являются полноценным предлогами21.

• Неопределенно-личные местоимения: man (в немецком), they (в английском).

Элементы, в состав которых входит приложение, придаточное предложение н т.п. являются более сложными по своей природе. Чтобы учесть этот признак при аннотации и последующем анализе данных, мы ввели понятие составной ИГ. ИГ является составной, если она содержит более одной простой именной группы, ср. следующие примеры:

(ба) [the surplus or profit required under Delaware law for payment ofthe dividend]

(бб) [NBI, a maker of word processing systems] (6e) [its financial advisor and investment banker]

Части ИГ не всегда расположены рядом с друг другом. Иногда ИГ могут «разрываться». Распространенным типом разрывных элементов являются составные антецеденты — ИГ, которые коллективно являются антецедентом типа [JohnJj kissed [Mary]m and [they]jm smiled. Технически эти объекты аннотируются как один элемент. Для этого мы предусмотрели еще один уровень аннотации, называемый «групповой» (groups). Выделение этого отдельного уровня необходимо, так как элементы групп могут быть различного характера и принадлежать различным уровням — как основных, так и второстепенных элементов. До того, как отдельные элементы становятся частью группы, они подлежат базисной аннотации как основные или второстепенные

21 Особенностью предлогов [в нем.] является способность управлять падежом существительного. В случае bis, ah, wie, падеж существительного остается неизменным.

элементы. Таким образом, обеспечивается аннотация на обоих уровнях элементов: (основном или второстепенном) и уровне групп.

В ходе изложения аннотационной схемы предлагается всего б фундаментальных принципов аннотации:

Принцип 1. Преимущество аннотации основных элементов как антецедентов.

Если последним до настоящего упоминания является второстепенный элемент, по референт был упомянут ранее как основной элемент, антецедентом является основной элемент.

основные элемевты> второстепенные элементы

В примере (7) у аннотатора возникли сомнения, что является антецедентом элемента the program. Аннотатор выделяет второстепенный элемент student loan, однако не уверен, что между двумя элементами имеет место отношение идентичности. Согласно Принципу 1, антецедентом является основной элемент the federal credit, который является основной темой текста.

(7) But recent events indicate that the federal credit is out of control. Student loan defaults remain high at about 12%, and the program has been rocked by allegations of fraud and mismanagement.

Принцип 1'. Преимущество основных элементов

При аннотации антецедента, выбор производится согласно следующей шкале предпочтений:

основные > второстепенные > групповые

Однако, если кроме отдельных упоминаний элементов, к которым производится референция как к группе, уже производилась референция ранее как к группе в виде основного элемента, то антецедентом является этот групповой элемент. В этом случае искусственное объединение референтов в группу не нужно. Ср. пример (8):

(8) [Sharon],... [Arafat]a... [both]s+a... [.SharonJ,... [Arafat],,... [they]^a

Принцип 2. Принцип максимального объема

Аннотации подлежат элементы максимального объема:

• элемент включает в себя все зависимые составляющие главного слова: придаточные относительные, приложения, определения, обстоятельства и левые/правые дислокации;

• в случае сочиненных ИГ соблюдается правило двойной аннотации: аннотации подлежат и части ИГ как отдельные элементы, и вся сочиненная ИГ.

Пример:

(9) [the money that [Mr. Antar] is using to pay legal fees] — придаточное относительное (то есть 'the money ' как таковое не аннотируется)

Принцип 3: Принцип цепочки

Анафорическое выражение имеет не более одного антецедента, которым

является линейно последнее упоминание референта (за исключением катафоры). Все упоминания одного референта в тексте образуют, таким образом, референциальную цепочку (см. Рис. 3).

последнее упоминание > более ранние упоминания референта

Принцип 4: Интра-сентенциальная катафора

Если в пределах одного предложения существует упоминание референта справа от анафора, то это упоминание является более предпочтительным кандидатом в антецеденты, чем упоминание референта в предыдущем предложении

Этот принцип легализирует аннотацию синтаксической катафоры, причем постулирует ее преимущество перед анафорической интерпретацией.

Принцип 5: Преимущество эксплицитного антецедента

В случае сомнений, имеет ли место отношение кореферентности, или возможна нереферентная интерпретация анафорического элемента (как в случае экстетивных и идиоматических выражений, генерических употреблений, событийной или ассоциативной анафоры), приоритетным является референтное чтение.

анафора > другие интерпретации

В данном принципе отдельно не рассматривается проблема наличия антецедента и проблема референтности. Смысл этого принципа состоит в том, что при возможности одновременного наличия нескольких интерпретаций предпочтение отдается той интерпретации, согласно которой есть эксплицитный антецедент в тексте.

(10) At stake was an $80,000 settlement involving who should pay what share of cleanup costs at the site of a former gas station, where undergroundfuel tanks had leaked and contaminated the soil. And the lawyers were just as eager as the judge to wrap [it] up.

Л в (10) может быть интерпретировано либо как кореферентное $80, ООО settlement с зависимыми словами, либо как нереферентное. В случае сомнения, предпочтительным является первый тип интерпретации, при этом it получает пометку о двусмысленности (ambiguity): ambig-ante-rel (об аннотации дополнительных признаков см. ниже). Таким образом, в конечном корпусе исследователь получает возможность отсортировать случаи двусмысленности и изучать их отдельно.

Элементы, помеченные как многозначные, не мотут являться антецедентами, если есть другие кандидаты. Это единственное исключение из принципа цепочки (см. Принцип 3).

В подразделе 4.3.4 излагаются принципы аннотации дополнительных признаков. Для аннотации по референции, в принципе, достаточно разработанного концепта аннотации элементов и референциальных цепочек. Такая аннотация может быть использована в области автоматической обработки языка, но не для лингвистических исследований референции. Для изучения того, какие факторы влияют на референциальный выбор, необходима дополнительная информация, интегрированная в аннотацию. В рамках данной схемы мы предусматриваем аннотацию следующих дополнительных параметров: референтно^ть, прямая речь, тип

фразы, форма ИГ, неоднозначность, тип анафоры, составная ИГ, грамматическая роль, одушевленность. Так, например, признаку «реферециаяьный статус» могут быть присвоены при аннотации следующие значения:

• не указано (not specified) [значение по умолчанию]

• реферирующий (referring)

• дискурсивно-новый (discourse-new)

• дискурсивная катафора (discourse-cataphora)

• другое (other)

ИГ, связанные с помощью некоторого вида анафорического отношения с предыдущими упоминаниями дискурсивных референтов, получают значение «реферирующий» при аннотация. Первое упоминание референта в дискурсе классифицируется как дискурсивно-новое. Дискурсивная катафора получает соответствующее значение. Нереферентные - генерические, предикативные и т.п. объекты получают значение «другое».

В разделе 4.4. рассматриваются методологические и технические аспекты имплементации аннотационной схемы и процедуры проведения аннотации, прослеживается путь от исходных текстов к конечному продукту.

Процедура аннотации — чрезвычайно важный фактор при выполнении любой аннотации, поскольку от этого напрямую зависит качество получившегося корпуса. Разработка процедуры аннотации являлась одной из наших исследовательских задач.

Аннотация немецких текстов проводилась в три этапа: тренировка, выполнение аннотации и контроль качества и произведение исправлений. Аннотация английских текстов была распределена на четыре этапа, в связи с их языковой и содержательной сложностью: тренировка, выполнение аннотации элементов и анафорических связей, выполнение аннотации дополнительных признаков, контроль качества и внесение исправлений. В подразделе 4.4.2 производится также анализ ошибок.

Немецкий корпус был аннотирован двумя носителями языка, студентами прикладной лингвистики Потсдамского университета. Тексты были распределенены на 4 порции для каждого аннотатора — после аннотации каждой порции проходила встреча, на которой обсуждались сложные случаи. В аннотации английского корпуса было задействовано 15 аннотаторов — студентов Отделения Теоретической и Прикладной Лингвистики МГУ, которые производили аннотацию в рамках летней практики. Каждый практикант получил по одной порции.

Глава 5. Корпусное исследование факторов референпиального выбора

Пятая глава посвящена эмпирическому исследованию факторов референциальпого выбора на аннотированных корпусах текстов. В разделе 5.1 излагаются два пилотных исследования, проведенные независимо друг от друга. Для первого исследования была аннотирована часть английского корпуса — AST Discourse Treebank, аннотированного по анафоре в соответствии с ранней версией нашей аннотационной схемы с помощью программы PAlinkA:2. Для немецкого исследования была использована часть корпуса РСС, аннотированная в соответствии с вышеописанной схемой с помощью последней версии программы ММАХ. Цели обоих исследований состояли в следующем:

• предварительная проверка гипотез о влиянии фактора расстояния на референциальный выбор;

» предварительная проверка гипотезы о разнородности класса личных

2 Orasan, K, R. Evans and R. Mitkov. (2000). Enhancing preference-based anaphora resolution with genetic algorithms. NLP 2000. Berlin-Heidelberg, Springer-Verlag.

местоимений;

• проверка адекватности анафорической разметки.

Изолируя один из возможных различительных признаков местоимений, число и падеж, мы получаем три оппозиции:

• актантные не-акгантные (посессивные);

• в единственном числе уб. во множественном числе;

• номинативные Ув. не-номинативные местоимения.

Актантнымп местоимениями мы называем местоимения в номинативе и аккузативе, но не в генитиве.

Предполагалось, что левая часть этих оппозиций соответствует немаркированным, основным употреблениям местоимений, тогда как правая часть -маркированным, периферийным. Основным признаком немаркированных употреблений является их более высокая частотность, что можно легко проверить с помощью квантитативного исследования, ср. [Хйубп 199523].

В английском материале наблюдается несколько различий между типами местоимений, ср. Рис. 4. В немецком языке, это касается только посессивных и актантных местоимений (Рис. 5). В итоге, в английском языке наблюдается больше различных видов личных местоимений, тогда как в немецком — меньше.

Расстояние 0 * 1

посессивы аккузативы множественные местоимения в единственном числе

местоимения в номинативе актантные местоимения

Рис, 4: Типы местоимений (англ.)

Расстояние

посессивные актантные

Рис. 5: Типы местоимений (нем.)

Результаты пилотного исследования показали, что гипотезы относительно гетерогенности типов местоимений и их взаимного распределения верны (с небольшими уточнениями) на небольшой выборке примеров. Корпусная аннотация оказалась валидной, поскольку она позволяет экстрагировать падежную информацию о свойствах референциальных выражений и расстоянии между ними.

Если же говорить о контекстно-зависимом понятии прототипичное™, то для каждого значения расстояния были определены самые прототипические местоимения, менее прототипические и т.д. Так, для английского языка при расстоянии 0, посессивы являются прототипическими, а при расстоянии 1, местоимения в единственном числе, номинативные и актантные местоимения.

В результате исследований, описанных в Главе 3, а также в предыдущем разделе, стала ясной потребность рассмотрения большего количества факторов и на большем количестве материала (см. Табл. 1). В разделе 5.2 мы возвращаемся к фактору иерархического и линейного расстояния. Также рассматриваются следующие факторы, как в совокупности с другими факторами, так и отдельно:

• центральность референта в дискурсе;

• грамматическая роль;

23 Giv6n, Т. (1995). Functionalism and Grammar. Amsterdam, Philadelphia, John Benjamins.

• лексическая форма антецедента;

• синтаксический параллелизм;

• позиция в предложении;

• референциальный статус антецедента

Рассматриваемые классы референциальных выражений включают: местоимения (посессивы и актантные местоимения; местоимения единственного и множественного числа; актантные местоимения в номинативе и аккузативе; ИГ типа both, beide (нем.) 'оба'), указательные ИГ (местоимения ближнего дейксиса, местоимения дальнего дейксиса, полные указательные ИГ ближнего дейксиса, полные указательные ИГ дальнего дейксиса. Простые ИГ подразделяются на несоставные ИГ, составные ИГ и имена собственные. Типы рассматриваемых отношений - это анафора, катафора и референция к группам (см. выше).

RST Discourse Treebank РСС NEGRA

Референциальные выражения24 29.227 5.263 58.815

Референциальные выражения, являющиеся именными анафорами или антецедентами 11.877 2.466 12.098

Табл. 1: Аннотация корпусов по референции

Далее мы будем выделять четыре группы факторов:

1. свойства референта (подраздел 5.2.1);

2. свойства антецедента (подраздел 5.2.3);

3. свойства пары анафора и антецедента (подраздел 5.2.3);

4. комплексные эффекты (подраздел 5.2.4);

5. другие факторы (подраздел 5.2.5).

Первым фактором из категории «свойства референта» была центральность. Выяснилось, что центральность не является достаточно сильным фактором сама по себе, чтобы можно было проводить различия между употреблением референцильных средств только на основании этого фактора: лишь от 6% до 34% от соответствующего типа референциального выражения обозначают центральный референт в дискурсе. Тем не менее, в обоих языках маркеры высокой доступности - местоимения — кодируют центральные референты чаще, чем остальные референциальные средства. Далее была проверена гипотеза о том, что центральность является компенсирующим потерю активации фактором, например, при увеличении расстояния. При рассмотрении изменения частотности референции к центральным объектам дискурса в зависимости от расстояния, однако, были обнаружены следующие тенденции. Местоимения, встретившиеся на расстояниях больше одной клаузы, осуществляют референцию к центральным и нецентральным сущностям как минимум в равной степени. Возможно, в этих случаях вступают в силу другие компенсирующие факторы.

Следующим фактором в этой группе была одушевленность. 90% личных и 82% притяжательных местоимений осуществляют референцию к одушевленным объектам, тогда как простые ИГ кодируют преимущественно неодушевленные объекты (76%). Имена собственные и указательные местоимения осуществляют референцию и к одушевленным, и к неодушевленным объектам в равной степени.

24 Референциальные выражения включают все определенные ИГ, включая местоимения, так и неопределенные ИГ, если они выступают в роли антецедента.

Далее, были изучены следующие факторы из второй категории (подраздел 5.2.2): грамматическая роль, форма антецедента, позиция в предложении и рефсрециальный статус.

ГРАММАТИЧЕСКАЯ РОЛЬ. Референциальным средством, наиболее коррелирующим с позицией субъекта являются местоимения. Местоимения употребляются в два раза чаще при субъектном антецеденте, чем простые ИГ. Посессивные местоимения наиболее зависимы от субъектной позиции антецедента. Среди определенных и указательных ИГ не наблюдается сильных различий, наибольшая зависимость от позиции субъекта наблюдается у указательных ИГ, наименьшая - у имен собственных.

За исключением имен собственных, все референциальные средства имеют чаще всего определенную (артиклевую) ИГ в качестве антецедента, что, впрочем, естественно, связано с большей частотностью простых ИГ в целом.

Актантные местоимения чаще употребляются с местоименным антецедентом, чем посессивные, а посессивные местоимения чаще употребляются с неопределенной ИГ в качестве антецедента, чем актантные местоимения, что свидетельствует о том, что посессивные местоимения требуют меньше активации.

ПОЗИЦИЯ В ПРЕДЛОЖЕНИИ. Всего непосредственно в начале предложения употребляется очень немного антецедентов референциальных средств. Антецеденты местоимений в целом чаще употребляются в позиции начала предложения, чем в конце.

РЕФЕРЕНЦИАЛЬНЫЙ СТАТУС. Наибольшее количество дискурсивно-новых антецедентов - у указательных местоимений, меньше всего — у личных местоимений и имен собственных. Это является подтверждением гипотезы о том, что одной из основных функций употребления указательных ИГ является кодирование второго упоминания референта в дискурсе. С другой стороны, большинство дискурсивно-новых референтов кодируется простыми ИГ, далее с большим отставанием следуют личные местоимения, имена собственные и посессивные местоимения. Указательные местоимения составляют всего лишь 4,30% всех дискурсивно-новых референтов.

Рассмотренные факторы третьей категории — свойства пары анафора и антецедента - это синтаксический параллелизм, а также линейное и иерархическое расстояние между анафорой и антецедентом (подраздел 5.2.3).

ПАРАЛЛЕЛИЗМ. Эффект параллелизма, как и в пилотном исследовании (см. 5.1.2) наблюдается сильнее всего у местоимений. В то же время, этот эффект менее сильный, чем субъектность антецедента и недостаточно сильный (52,55%), чтобы на основании только него можно было предсказывать прономинализацию.

РАССТОЯНИЕ. Результаты пилотного исследования, изложенного в Третьей Главе, подтвердились: линейное расстояние и иерархическое расстояние компенсируют друг друга: линейное расстояние полезно для предсказания прономинализации в локальных контекстах (соседние клаузы), а иереархическое расстояние - в более глобальных контекстах.

Комплексные эффекты (подраздел 5.2.4) — это совместное влияние нескольких факторов, таких как одушевленность и расстояние, а также позиция в предложении и расстояние.

ОДУШЕВЛЕННОСТЬ И РАССТОЯНИЕ. Как в английском, так и в немецком языках, частотность одушевленных референтов актантных и посессивных местоимений возрастает с увеличением расстояния, причем у посессивных местоимений эта тенденция проявляется сильнее. Этот результьтат свидетельствует о том, что, во-первых, одушевленность является компенсирующим фактором по отношению к расстоянию, а во-вторых, посессивные местоимения сильнее зависимы от наличия этого компенсирующего фактора.

Насчет указательных местоимений трудно делать определенные выводы, в связи с их более низкой частотностью, однако наблюдаются следующие тенденции. В

немецком языке различия в референции к одушевленным и неодушевленным референтам с ростом расстояния не наблюдается. В английском языке расстояние, равное 1, является пороговым: после него количество одушевленных референтов возрастает, а неодушевленных убывает.

ПОЗИЦИЯ В ПРЕДЛОЖЕНИИ И РАССТОЯНИЕ. При исследовании фактора позиции в предложении (см. выше), стало ясным, что значения, соответствующие абсолютному началу и абсолютному концу не являются объективными критериями. Здесь позиция антецедента в предложении моделируются с помощью подстановки различных количественных пороговых значений. Та часть, которая находится ниже этого порога, считается началом, та часть, которая находится выше этого порога, считается концом. Оптимальным количественным порогом для измерения относительной позиции референциального средства в предложении оказалось значение 0,3 на шкале от 0 до 1.

«Дальние» (то есть при расстоянии, большем чем одна клауза) местоимения чаще употребляются при антецеденте в начале предложения, «ближние» местоимения — при антецеденте в конце предложения. В немецком языке и у ближних, и у дальних местоимений наблюдается тенденция к употреблению с антецедентом в конце предложения.

Таким образом, гипотеза о взаимодействии критериев первого упоминания и недавности упоминания при прономинализации подтверждается в английском языке: начальная позиция в предложении играет роль в глобальных контекстах, тогда как недавность упоминания является коррелятом доступности в локальных синтаксических структурах.

ДРУГИЕ ФАКТОРЫ. Рассматривается фактор релевантности референта для развития последующего дискурса. Для измерения тематической важности в наших корпусах использовалась эвристическая мера топикальной устойчивости в последующем дискурсе. Топикальная устойчивость измерялась как частотность упоминания референта в последующих 20 предложениях. Далее, мы рассматривали случаи, в которых референт встречался в последующем дискурсе, и случаи, в которых референт вообще больше не упоминался.

В результате оказалось, что имена собственные в корпусе РСС обладают наибольшей топикальной устойчивостью (значение >1): больше 2/3 имен собственных упоминаются как минимум один раз в дальнейшем дискурсе. За ними следуют с небольшим отставанием простые ИГ. Местоимения же, включая указательные местоимения, практически в одинаковой степени имеют значения (0) и (>1). По видимости, местоимения в наименьшей степени зависят от фактора релевантности референта для последующего дискурса. При расстоянии, равном 0, медиальное значение топикальной устойчивости местоимений также равно 0. При увеличении расстояния, медиальное значение топикальной устойчивости увеличивается и равно 1. Фактор релевантности похож на фактор протагонизма и одушевленности: эти факторы является компенсирующим фактором активации: релевантность референта в последующем дискурсе может компенсировать воздействие снижающих активацию факторов, как, например, расстояние.

Заключение

В заключении подводятся итоги и описываются результаты работы.

В реферируемой работе были представлены результаты исследования референциального выбора, сочетающего теоретические и приладные аспекты, на материале английского и немецкого языков. При этом были достигнуты следующие теоретико-лингвистические цели:

• была внесена методологическая и теоретическая ясность в изучение

особенностей употребления различных типов личных местоимений на материале двух языков;

• было прояснено влияние линейной и риторической структуры дискурса на когнитивную доступность референта и на референциальный выбор.

Главным результатом работы является подтверждение гипотезы о том, что для объяснения референциального выбора не достаточно одного фактора. Это было показано эмпирически. Фактор дискурсивной структуры, моделированный в соответствии с двумя важными теориями дискурсивно-структурной доступности, теорией вен и теорией стеков, а также в соответствии с более тонким подходом риторического расстояния, взаимодействует с фактором, компенсирующим его на низких расстояниях: линейная близость. Линейная близость, или фактор нсдавности, в свою очередь, взаимодействует с эффектом начальной позиции в предложении, или эффектом первого упоминания. При этом, на более высоких расстояних, возрастает роль таких компенсирующих факторов, как одушевленность и релевантность референта в последующем дискурсе. Так, для референции с помощью простых ИГ не обязательна важность референта в последующем дискурсе. Для местоимений этот фактор приобретает важность с увеличением расстояния. Для указательных местоимений релевантным оказывается влияние дискурсивного статуса антецедента: при референции к дискурсивно-новым объектам, которые еще недостаточно активированы, чтобы быть кодированы как местоимения, используются указательные местоимения.

Таким образом, вместо одного фактора, необходимо учитывать взаимодействие нескольких факторов для предсказания референциального выбора. Данные результаты опровергают утверждения известных теорий, использующих всего один фактор для предсказания прономинализации (теория центрирования, теория вен, модель стеков).

Важным эмпирическим результатом является подтверждение гипотезы относительно гетерогенности типов местоимений и их взаимного распределения. Как в английском, так и в немецком языке актантные и посессивные местоимения обладают различными свойствами употребления и должны рассматриваться как два отдельных класса. Местоимения в именительном падеже и в позиции подлежащего являются наиболее частотными, местоимения единственного числа — более частотны, чем местоимения во множественном числе, и, в английском языке, менее зависимы от расстояния до антецедента и, соответственно, уровня когнитивной доступности референта. ..

Кроме того, в работе были достигнуты следующие прикладные цели:

• был представлен ресурс, который может быть использован в дальнейших исследованиях - корпуса, аннотированные по референции;

• был разработан и проверен в действии аннотационный стандарт.

Анафорическая разметка является по сей день одним из самых сложных видов аннотации, и для нее по-прежнему не существует единого стандарта. Предложенная схема для аннотации по референции, использовавшаяся в данном исследовании, предлагает концепцию, с помощью которой достгается компромисс между уровнем детализации и реалистичностью выполнения. Кроме непосредственных целей данного исследования, эта схема может быть полезна в целом для аннотации корпусов по референции, ибо она является попыткой создания стандарта для такого вида аннотации.

Результаты данного исследования релевантны для теории языка, а также для прикладных исследований и естественно-языковых приложений, как, например, разрешение и генерирование анафоры.

Публикации

По данной работе были опубликованы следующие работы:

1. Красавина, О. Употребление указательной именной группы в русском письменном дискурсе. Москва: Вопросы языкознания, 3,2004.

2. Krasavina, О., М. Busch. 2004. Corpus methods in studies of anaphora: annotation requirements and methodological strategies. Proceedings of DIALOG-2004, Verchnevolzhsky, Russia.

3. Krasavina, O. 2004. Use of third-person pronouns and rhetorical structure. Proceedings of the 5th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC-2004), San-Miguel, Portugal, September 23-24.

4. Chiarcos, С., O. Krasavina 2005. Rhetorical distance revisited: a parametrized approach. Workshop in Constraints in Discourse, Dortmund, 3-6 June.

5. Chiarcos, С., O. Krasavina. 2005. Annotation guidelines. POCOS — Potsdam Coreference Scheme. http://amor.cmsJiu-berlin.de/~krasavio/annorichtlinien.pdf (18.05.2006).

6. Kibrik, A., O. Krasavina. 2005. A corpus study of referential choice: the role of rhetorical structure. Proceedings of International Conference in Computational Linguistics and Information Technologies (DLALOG-2005), 3-5 June.

7. Krasavina, O. 2005. Discourse structure as a determinant of referential choice. Proceedings of linguistic workshop Wartin 2005 (Fries, N. and S. Kiyko (eds.)), 1-3 July.

8. Chiarcos, С., O. Krasavina. 2005. Rhetorical distance revisited: a pilot study. Proceedings of Corpus Linguistics Conference 2005, Birmingham, UK, 15-17 July.

9. Krasavina, O. 2005. Types of third-person pronouns and salience conditions. Proceedings of the 6th International Workshop "Multidisciplinary approaches in discourse: salience in Discourse" (Stede et al. (eds.)), Chorin/Berlin, 5-8 October.

Принято к исполнению 29/08/2006 Исполнено 30/08/2006

Заказ № 570 Тираж: 100 экз.

ООО «11-й ФОРМАТ» ИНН 7726330900 Москва, Варшавское ш., 36 (495) 975-78-56 (495) 747-64-70 www.autoreferat.ru

Оглавление научной работы автор диссертации — кандидата филологических наук Красавина, Ольга Николаевна

Глава 1 Введение.

1.1 Постановка задачи.

1.2 Материалы и метод.

1.3 Цели и задачи работы.

1.4 Научная новизна.

1.5 Теоретическое и практическое значение.

1.6 Апробация работы.

1.7 Структура работы.

Глава 2 Референция в дискурсе.

2.1 Теоретические рамки.

2.1.1 Мотивированность языка когнитивными структурами и процессами

2.1.2 Принцип иконического соответствия.

2.1.3 Понятие маркированности.

2.1.4 Вместо резюме.

2.2 Понятийный аппарат.

2.2.1 Когнитивный компонент.

2.2.2 Анафора и катафора, референция и кореферентность.

2.2.3 Анафора, ассоциативная анафора, дейксис.

2.2.4 Дискурсивная анафора.

2.2.5 Терминология (референциальные средства).

2.3 Когнитивная мотивация референциалыюго выбора.

2.3.1 Иерархия доступности.

2.3.2 Иерархия данности.

2.3.3 Ограничения теорий когнитивной доступности и возможности их дополнения.

2.4 Индикаторы доступности, выделенности, или активации.

2.4.1 Независимый способ определения степени активации.

2.4.2 Центральность, одушевленность и подлежащность.

2.4.3 Дискурсивный статус и форма антецедента.

2.4.4 Конфликт «противоречащих мотиваций».

2.5 Выводы главы 2.

Глава 3 Фактор дискурсивной структуры и расстояние.

3.1 Принципы организации дискурса.

3.1.1 Линейная структура.

3.1.2 Риторическая структура.

3.1.3 Влияние риторической структуры по сравнению с линейной.

3.2 Теории дискурсивно-структурной доступности.

3.2.1 Теория стэков.

3.2.2 Теория вен.

3.2.3 Попытки интегрирования модели стеков и Теории Риторической Структуры.

3.3 Репрезентация теории стеков и теории вен на общем основании.

3.3.1 Метод.

3.3.2 Репрезентация теорий.

3.4 Эмпирическая проверка предсказаний теории вен и теории стеков.

3.4.1 Вводные замечания.

3.4.2 Методологические аспекты имплементации иерархического расстояния.

3.4.3 Обсуждение результатов.

3.5 Понятие риторического расстояния.

3.5.1 Исходный метод.

3.5.2 Модифицированный метод риторического расстояния.

3.6 Проблема определения антецедента.

3.7 Эмпирическая проверка риторического расстояния и сравнение с теорией вен и теорией стэков.

3.7.1 Имплементация.

3.7.2 Обсуждение результатов.

3.7.3 Связь линейного и иерархического расстояния.

3.7.4 Другие аспекты риторической структуры.

3.8 Выводы Главы 3.

Глава 4 Аннотация крупного корпуса для изучения референциального выбора

4.1 Развитие корпусных методов исследования референции.

4.1.1 Требования к корпусной аннотации.

4.1.3 Существующие аннотационные схемы.

4.2 База данных: корпуса и их характеристики.

4.2.1 RST Discourse Treebank.

4.2.2 Potsdamer Commentary Corpus.

4.3 Осуществление референциальной аннотации корпусов RST Treebank и РСС.

4.3.1 Принципы разметки анафорических выражений.

4.3.2 Принципы разметки анафорических связей.

4.3.3 Стратегии по устранению двусмысленности при аннотации.

4.3.4 Принципы разметки дополнительных признаков.

4.4 Имплементация схемы.

4.4.1 Техническая имплементация.

4.4.2 Процедура аннотации.

4.5 Выводы Главы 4.

Глава 5 Корпусное исследование факторов референциального выбора.

5.1 Пилотные исследования.

5.1.1 Результаты английского исследования.

5.1.2 Результаты немецкого исследования.

5.1.3 Сравнение и обсуждение результатов.

5.2 Корпусное исследование: предварительные замечания.

5.2.1 Свойства референта.

5.2.2 Свойства антецедента.

5.2.3 Свойства пары анафора и антецедента.

5.2.4 Комплексные эффекты.

5.2.5 Другие факторы.

5.3 Выводы Главы 5.

Введение диссертации2006 год, автореферат по филологии, Красавина, Ольга Николаевна

Для понимания того, что такое грачматика, и почему она устроена так, как она устроена, необходимо учитывать естественные параметры, которые определяют язык и грамматику: сознание и коммуникацию, устройство мозга и сознания, социально-обусловленные процессы и культуру, изменение и вариативность, усвоение языка и его эволюцию. (Givon 1995:xv) (перевод мой O.K.) Творческий характер это одно из фундаментальных свойств человеческого языка. Говорящий располагает богатым инвентарем возможностей вербализации одного и того же смысла. Называя объекты действительности, говорящий выбирает одну из них. Рассмотрим следующий пример из газеты Wall Street Journal: (1.1) Сержио Мартинез, паяльщик, содержащий свою семью, состоящую из семи человек, на сумму около семи долларов в день, откладывал каждое песо, когда (он/Сержио Мартинез/Мистер Мартинез) только мог, чтобы оплатить своей дочери, Гризельде, обучение в частной щколе. Как одна из единиц бедных учеников, имеющих среднее образование. Мисс Мартинез (Гризельда/она) мечтала стать художником-декоратором. Но в итоге она ({0/ эта} молодая женщина молодой специалист) смогла получить только секретарскую работу. В возрасте тридцати четрырех лет и незамужем, она (Мисс Мартинез эта окенщина его дочь) зарабатывает всего семьдесят долларов в неделю и спращивает себя, не непрасно ли была жертва ее отца (*Мистера Мартинез *его) [перевод мой ОК]). Мы видим, что в ряде случаев существует более одной возможности Sergio Martinez, а tinsmith who supported his family of seven on the equivalent of a few dollars a day, saved every peso he (*{Mr. /Sergio} Martinez) 1 could to pay for a private-school education for his daughter, Griselda. As one of the few poor students in town to finish high school, Ms. Martinez (Griselda /she) dreamed of becoming an interior designer. But all she ({the/this} young {woman/professional}) could land was a secretarial job. Now 34 old and unmarried, she (Ms. Martinez this woman his daughter) earns just $70 a week and wonders whether her fathers (Mr. Martinezs his) sacrifice was in vain (The WSJ, Vol. XXIII No. 117, July 18,2005).референции к протагонистам данного отрывка (отдельные возможности лексических альтернатив перечислены в скобках). Так, Griselda (см. второе предложение), по всей вероятности, ничего не меняет в интерпретации референта и, таким образом, является не менее приемлемой альтернативой, чем употребленное Ms. Martinez. Однако возможность лексического варьирования не безгранична. В приведенном выше примере некоторые употребления референциальных выражений совершенно незаменимы. Так, во второй строке полная именная группа невозможна на месте местоимения he, а именная группа Ms. Martinez в последнем предложении не может быть заменена на референциально эквивалентную дескрипцию his daughter, а her fathers нельзя заменить именной группой Mr. Martinezs. Процесс выбора говорящим одного из нескольких потенциально возможных средств референции во время порождения речи, результатом которого является связное, когерентное высказывание, мы будем называть реферет{иальным выбором вслед за Chafe (1980); Ariel (1990); Кибрик (1997). Референциальный выбор тесно связан с установлением когерентности механизмом, благодаря которому текст воспринимается как единое целое, а не как набор частей. Объектом исследования настоящей работы является именная референция, то есть референциальный выбор именных групп. Именные группы (далее, ИГ) могут составлять от 55 до 80 процентов текста (в зависимости от жанра), ср. Biber et al. 1999:231,, и, по мнению данных авторов, являются основными носителями смысла в дискурсе. Употребление исследовательской референциальных средств является популярной в темой в последние десятилетия и представлено литературе по теории языка (например, Givon 1983; Chafe 1976, 1994; Ariel 1990, 2001; Gundel et al. 1993; Stevenson et al. 1995; Кибрик 1996, в связи с проблематикой копштивной доступпости, или выделепности референта; Fox 1987; Asher 1993; Cristea et al. 2000 о связи дискурсивной структуры и Подсчеты были произведены для английских текстов для всех ИГ, в том числе для ИГ без определенной референции.референциальной доступности) и в прикладных исследованиях (например, Ge et al. 1998; Wolters 2001; Mitkov 2002; Gardent 2003, в связи с проблематикой разрешения и генерирования анафоры), В российской традиции об анафоре и референции в целом писали В,В. Иванов (1979), А.С. Чехов (1981), Н.Д, Арутюнова (1982), М.А. Кронгауз (1983) Е.В. Падучева (1985.), Л.И. Куликов (1985), А.А. Кибрик (1987; 1997 и т.д.), О. Богуславская и И. Муравьева (1987); Г.Е. Крейдлин и А.С. Чехов (1989), В.И. Подлесская (1990), В. Гладров (1992), А.Д. Шмелев (1992), Ю. Толдова (1994) и другие. Мы исходим из распространенной гипотезы, что референциальный выбор тесно связан с процессом активирования информации в кратковременной памяти (working memory) (Chafe 1994; Tomlin and Pu 1991; Givon 1995; Kibrik 1999). Этот когнитивный процесс регулируется с помощью ряда синтаксических, лексико-семантических и прагматических факторов, как, например, информационный статус, синтаксическая и семантическая роль референта и т.д. Поскольку референциальный выбор в каждом конкретном случае зависит от совместного влияния различных факторов, мы говорим о референциалыюм выборе как о многофакторном процессе, ср. Givon (1980), Кибрик (1997), Strube and Wolters (2000). Исследование природы этих факторов на представительном эмпирическом материале является в данный момент актуальной задачей, которую, ввиду количества накопленного опыта в области анафоры, можно по праву считать своевременной и назревшей, а также значимой для лингвистики в целом, ср. Кибрик (1997): Многие языковые явления и процессы не могут быть объяснены элементарным образом, так как их реализация зависит от множества факторов одновременно... Одна из насущных задач лингвистики научиться описывать многофакторные процессы, то есть моделировать взаимодействие релевантных факторов..1 Постановка задачи Каждый день человек сталкивается с новой информацией. Для того, чтобы адекватно реагировать на нее, он нуждается в специфических когнитивных механизмах. При встрече с неизвестным человек ищет «ключи» признаки, на основании которых он может активировать тот или иной механизм. Эта способность человека позволяет отождествить объект на основании всего лишь нескольких признаков, как, например, при распознавании объектов на расстоянии. Эта способность, с другой стороны, является причиной стереотипов и клише: мы смотрим на вещи, на людей и на события через призму известного и знакомого. Как в жизни, так и в науке, это может являться источником систематических искажений реальности, В настоящее время накоплена огромная база знаний в области исследования принципов и условий употребления средств референции. Но степень влияния различных факторов на референциальный выбор по сей день не ясна. Очевидно, причина стагнации не в том, что анафору недостаточно исследовали. Логично подозревать причину в том, «как». Во-первых, поколения лингвистов занимались изучением анафоры исключительно методом интроспекции, причем на лично изобретенных примерах. Во-вторых, из-за технической и методологической сложности работы с крупными корпусами текстов, большипство эмпирических исследований до сих пор часто проводилось всего лишь на нескольких десятках естественно-языковых примеров. Но как, не имея перед собой предсавительных эмпирических данных, можем мы понять, где истина, а где мы переступаем границы разумного? Не начинаем ли мы вместо того, чтобы создавать модели, объясняющие язык, строить наще воснриятие языковой действительности па основании наших же моделей? Проблемой чисто теоретических дискуссий, основывающихся на ограниченных эмпирических или вообще искусственных данных, является отсутствие объективной возможности разрешить конфликты между их предсказаниями. Рассмотрим несколько примеров таких конфликтов. Исходя из допущения когнитивно-ориентированных теорий, что позиция субъекта используется для кодировапия самого активированпого референта в предыдущем предложении, в следующей клаузе ожидается местоименная референция к этому объекту, ср. (Grosz et al. 1995). На основании этого допущения можно объяснитъ примеры (1.2а) и (1.2Ь), но не (1.2с). С другой стороны, существует гипотеза синтаксического параллелизма, сутъ которой состоит в том, что синтаксическая позиция местоимения имеет тенденцию совпадать с синтаксической позицией антецедента (Stevenson et al. 1995). Это объясняет местоименную референцию в (1.2с), но не в (1.2а) и (1.2а) (1.2b) (1.2c) John kicked Bill. Mary told him to go home. [=John] Bill was kicked by John. Mary told him to go home. [=Bill] John kicked Bill. Mary punched him. f=Billf Случаи конфликта часто представляют собой тупиковые ситуации для систем разрешения анафоры, которые строятся на имплементации предпочтений преимуществ одних факторов перед другими (ср. Orasan et al. 2000). Рассмотрим еще ряд примеров: (1.3а) George removed the disc from the computer and then disconnected it. (1.3b) George removed the disc from the computer and then copied it. (1.3c) The Chinese have been copying American computers and producing them at less than a quarter of the cost\ В (1.3 a) разрешение анафоры происходит неправильно, если алгоритм строится на имплементации преимуществ одних грамматических ролей перед другими. Ближайшим антецедентом, совпадающим с анафором по роду и имеющим более приоритетную роль, является the disc (прямой объект), тогда как правильпый антецедент, the computer, имеет менее престижную роль. Однако в (1.3b) эта стратегия работает: the computer и являются прямыми объектами. В (1.3с) стратегия предпочтений вообще не работает, так как референция производится к некоторому имплицитному объекту, а не (КеЫег 2002 с. 143). Идентификация референта (в квадратных скобках) проводилась в рамках эксперимента. (Mitkov 2002:46) 10 непосредственно к американским компьютерам. В российской лингвистике основополагающие работы по референции принадлежат Е.В. Падучевой (Падучева 1980; 1982; 1983; 1985). В работах Е.В. Падучевой рассматривается широкий спектр употреблений референциальных средств, и описываются семантические различия между этими употреблениями. В работе В.Н. Полякова денотативные статусы Е.В. Падучевой расшифровываются в логико-семантических терминах в виде лингво-семантических графов (Поляков 1997). Принимая во внимание выдающиеся заслуги Е.В. Падучевой в изучении референции, необходимо отметить, что остаются области, требующие донолнительных исследований. Так, например, в работе (Падучева 1985) охвачено большое количество случаев употребления группы этот X. И все же остается неясным, какие факторы предопределяют употребление именно указательной группы с местоимением этот, а не простой ИГ или местоимения, так как вышеперечисленные условия могут также выполняться и для простых ИГ, и для местоимений. Классификация личных местоимений предлагается лишь с точки зрения денотативных статусов их антецедентов и логической структуры нредложения. В настоящем исследовании установки, мы будем придерживаться модель другой методологической некоторого согласно средства которой должна употребления описывать референциального не только некоторые случаи употребления, но и подтверждать или опровергать гипотезы о влиянии тех или иных факторов. Мы покажем, что объяснительная модель референциального выбора должна быть многоуровневой, в том смысле, что эти факторы принадлежат различным описательным уровням языка, а не только одному уровню семантике или синтаксису. Единственный способ проверить влияние факторов на различных уровнях это исследовать природу этих факторов на представительном корпусном материале. В настоящем исследовании мы выбрали именно этот путь. 11 .2 Материалы и метод Анафора сложный механизм и усваивается полностью относительно поздно, ср. (de Week 1991; Childers and Tomasello 2001, Millogo 2005). Сложность функционирования анафорического механизма в дискурсе отчасти является причиной того, что, несмотря на пристальное внимание исследователей, многие методологические и теоретические вопросы в области анафоры остаются открытыми. Другая причина историческая: долгое время занятие лингвиста состояло буквально в том, чтобы размышлять над отдельными примерами, в лучшем случае, вырванными из контекста, а чаще просто придуманными. Результатом этого процесса стало появление системы абстрактных, независимых от коммуникативных функций правил, пригодных для объяснения того или иного языкового употребления в этих примерах (ср. Chomsky 1981, 1995; Reihnart 1983). Такой способ формально- синтаксического изыскания известен также под несколько саркастичным именем armchair linguistics, поскольку, грубо говоря, все, что нужно для исследования это кресло и собственная языковая компетенция. Подробнее мы остановимся на этом подходе в

Заключение научной работыдиссертация на тему "Корпусно-ориентированное исследование референции"

5.3 Выводы Главы 5

В примерах (1.4) и (1.5) было показано наличие конфликта между правилами, постулируемыми в различных моделях (см. Введение). Автоматические системы, в которых имплементированы стратегии предпочтений одних правил перед другими, становятся настолько громоздкими и сложными, что остается только задуматься над тем, неужели языковая реальность действительно настолько сложна, и сколько селекционных операций должно произойти в считанные доли миллисекунды в мозгу, когда адресат интерпретирует данный аспект высказывания. Утверждая в обзоре последних достижений в области разрешения анафоры (Mitkov 2002), что целью моделей разрешения анафоры является составить исчерпывающий список всех правил и исключений, автор невольно демонстрирует, что терапия на самом деле мало чем отличается от диагноза.

Мы рассматриваем конфликт различных правил, или, в терминах функциональной традиции, различных мотиваций как подтверждение того, что существует не одна абсолютная теория, объясняющая все случаи употребления, а множество стратегий, применимых только в определенных ситуациях и неприменимых в других.

Референциальные средства располагаются на шкале доступности, место их расположения соответствует области доступности, при которой наиболее вероятно их употребление (ср. Ariel 1990; Ariel 2001). На (условных) границах этих областей возможна диффузия, так что области доступности различных референциальных средств могут пересекаться. На левом полюсе шкалы, который соответствует максимальной доступности, расположены местоимения, на правом - простые ИГ, а посередине - указательные местоимения. С уменьшением доступности увеличивается эксплицитность -количество лексического материала, используемого для кодирования информации. Однако, помимо этого процесса, происходит еще и обратный процесс: с ростом эксплицитности уменьшается роль когнитивных факторов, таких как степень доступности в референциалыюм выборе, и возрастает вероятность, что дополнительные, независимые от доступности факторы вступят в силу (ср. Рис. 52).

Релевантность степени доступности

Манифестаций в дискурсе: ■ престижная позиция ■ близость к антецеденту

Статус информации данное/новое:

Эхстралингвистичесхие, speakerprivate", прагматические факторы

Свойства референта: Одушевленность протагонизм

Рис. 52: Степень влияния доступности и дополнительных факторов в зависимости от референциального средства

Действительно, есть функции, более приоритетные для одних референциальных средств и менее приоритетные для других и наоборот. Для местоимений, например, мы предлагаем следующую иерархию функций референциальных выражений по приоритетности:

Идентификация/доступность > добавление новой информации и т.д.

Идентификация референта на основании степени его доступности является основной функцией референциальных выражений в письменном дискурсе. Чтобы слушающий мог идентифицировать референт правильно, говорящий должен адекватно подобрать референциальное средство. В отличие от устного дискурса, где участники дискурса могут координировать процесс «он-лайн», в письменном дискурсе говорящий редко получает второй шанс уточнить референцию.

Надо иметь в виду, что с точки зрения теории языка крайне неправильно предсказывать употребление референциальных средств только на основании их наиболее приоритетных функций. Разумеется, в алгоритмах разрешения анафоры таким образом повышается вероятность правильного результата. Однако меньшинство случаев, для которого приоритетная стратегия не работает, игнорируется. Важно отметить, что для теоретического описания эти случаи не менее важны, чем все остальные. Ключ к пониманию процесса референции заложен в том, как взаимодействуют между собой различные и, возможно, конкурирующие механизмы. В настоящем исследовании и, в особенности, в Главе 5, на представительном эмпирическом материале были изучено и выявлено взаимодействие следующих механизмов:

• линейное и иерархическое расстояние

• преимущество первого упоминания и преимущество недавности упоминания

• подлежащность антецедента и параллелизм грамматических ролей

• одушевленность и расстояние (а также другие факторы активации и их зависимость от расстояния).

В данной главе мы показали, что линейное и иерархическое расстояние действительно взаимодействуют, как и преимущество первого упоминания с преимуществом недавности, причем в обоих случаях играет роль, на каком уровне происходит референция - более локальном или более глобальном. Мы показали, что как подлежащность антецедента, так и фактор параллелизма значимы для употребления местоимений, с тем отличием, что во втором случае когнитивная выделенность, или доступность, или активация имеет место на уровне текстовой структуры (группы предложений, связанных специальным отношением когерентности), а не референциальной цепочки. Мы также показали, что такие факторы, как одушевленность, релевантность референта для последующего дискурса компенсируют потерю активации референта при увеличении расстояния в дискурсе до антецедента местоимения.

Глава 6 Заключение

В настоящей работе были представлены теоретические и прикладные аспекты референциального выбора, исследованные на репрезентативном корпусном материале. В качестве эмпирической базы были использованы корпуса, для референциальной аннотации и анализа которых была применена теоретически нейтральная методология, специально разработанная в рамках настоящего исследования для данных целей. Кроме синтаксических и семантических свойств дискурсивных объектов, были изучены факторы, связанные с дискурсивной структурой, причем как с теоретико-методологической перспективы, так и эмпирически. При этом, благодаря размеру использовавашихся корпусов, было достигнуто качество исследовательской работы, до сих пор не представлявшееся возможным.

Мы рассмотрели две важнейшие теории референциальной доступности, Иерархию Данности и Иерархию Доступности, утверждающие, что доступность, или активация в памяти является главным детерминантом референциального выбора, и показали, что они имеют потенциал для уточнения. Так, для указательных местоимений диапазон возможного уровня активации шире, чем им приписывается, а для описания их употребления необходимо учитывать другие, прагматические факторы.

Важным выводом является прояснение влияния линейной и риторической структуры дискурса на референциальный выбор. Линейное расстояние показало преимущество над теорией вен (Cristea 2000) и моделью стеков (Grosz and Sidner 1986), а также над понятием риторического расстояния, разработанного A.A. Кибриком (1997) и уточненного в рамках данной работы. С одной стороны, это опровергает центральную гипотезу этих подходов о том, что иерархическая структура дискурса является более сильным фактором, чем линейная структура. С другой стороны, оказывается, что риторическое расстояние является индикатором глобальной структуры дискурса и локальные стратегии имеют соответственно разные зоны действия.

Этот результат соответствует сформулированному в настоящей работе предположению, что глобальная структура дискурса соответствует иерархической организации дискурса, а локальная - линейной.

Анафорическая разметка является по сей день одним из самых сложных видов аннотации, и для нее по-прежнему не существует единого стандарта. Предложенная схема для аннотации является попыткой претворить в жизнь такой стандарт. Для этого был предложен компромисс между детализацией и реалистичностью выполнения, что являлось «камнем преткновения» в корпусной традиции до сих пор. Данная схема была использована для проведения описанного в Главе 5 исследования. Однако кроме непосредственных целей данной работы, она может быть полезна в целом для аннотации корпусов по референции. С помощью имплементации концепта основной и расширенной схем, исследователь с любым уровнем технических навыков получает возможность выбора необходимого уровня детализации.

В настоящей работе подвергнуты критическому анализу главные предположения известных теорий - теории центрирования (Grosz et al. 1995), теории вен (Cristea et al. 1998) и теории стеков (Grosz and Sidner 1986). Эмпирические результаты, полученные при квантитативном анализе корпусов, опровергли предположение, что достаточно только одного фактора, чтобы предсказать референциальный выбор. Необходимость учитывать факторы различной природы показывается на примере взаимодействия и взаимокомпенсации следующих факторов:

• линейное и риторическое расстояние;

• расстояние и одушевленность;

• расстояние и релевантность референта в последующем дискурсе.

Важную проблему представляет собой тот факт, что лингвисты до сих пор концентрировались на рассмотрении оппозиции местоимений и простых ИГ. В данной работе отдельному рассмотрению подверглись более детальные категории. Результаты исследования показали, что при изучении местоимений необходимо выделять как минимум две категории: актантные и посессивные местоимения. Далее, указательные местоимения, в связи с их низкой частотностью, часто рассматриваются как одна категория с личными местоимениями (в том числе и в рамках настоящей работы), тем не менее, важно отдавать себе отчет в том, что это отдельная категория с особенными свойствами. Последнее было также подтверждено описанными в данной работе эмпирическими результатами. Среди простых ИГ необходимо проводить разграничения по степени сложности. Для этого в данной работе были введены формальные критерии, по которым некоторая ИГ рассматривалась как простая и как составная. Как и в случае местоимений, полные указательные ИГ также подлежат отдельному рассмотрению.

Результаты данной работы уточняют результаты изысканий многих исследователей (Ariel 1990; Gundel et al. 1993, Кибрик 1997)

• с формальной точки зрения

• на репрезентативном корпусном материале.

Употребление указательных ИГ зависит от когнитивной активации референта, но не определяется ею. Это подтверждается, во-первых, тем, что одушевленность референта не так существенна для употребления указательных ИГ, как для зависящих в первую очередь от активации референциальных средств - местоимений. Во-вторых, прагматические факторы, как утверждение референта в дискурсе, играет более значимую роль в употреблении указательных ИГ, чем некоторый определенный уровень активации. Это подтверждается результатами анализа фактора «дискурсивный статус референта»: указательные ИГ имеют преимущественно дискурсивно-новые антецеденты. Далее, чаще, чем остальные референциальные средства, указательные ИГ имеют неопределенные ИГ в качестве антецедента.

Кроме того, на основании эмпирических данных мы предлагаем следующее разрешение «конфликта» первого упоминания и недавности. В немецком языке и у ближних, и у дальних местоимений наблюдается тенденция к употреблению с антецедентом в конце предложения. Этот результат можно интерпретировать в соответствии с утверждением Пражской школы о существовании фокальной области в предложении: даже дискурсивно-новые референты, употребленные в пределах этой области, становятся максимально доступными/выделенными (salient) (Hajicova and Vrbova, Hajicova et al. 1990), ср. также исследование на материале датского языка (Navaretta 2002). Возможно, в немецком языке фокальная область сконцентрирована именно в конце предложения.

Описанные в работе результаты были получены для английского и немецкого языков, однако общие механизмы взаимодействия рассмотренных факторов, в частности, расстояния, иерархической структуры дискурса и референциального выбора могут иметь универсальный характер.

Результаты данной работы имеют также практическое значение. Так, в системах автоматического перевода наличие адекватного алгоритма разрешения анафоры, в котором учитываются особенности референциальных средств в соответствующих языках, исключительно важно.

Понимание принципов, контролирующих и регулирующих употребление отдельных типов референциальных средств, является необходимым шагом на пути к пониманию общих механизмов референциального выбора.

Список научной литературыКрасавина, Ольга Николаевна, диссертация по теме "Теория языка"

1. Армеева, А.Р. «Когнитивная категория выделенности и ее языковые корреляты», Диссертация , М., 2001.

2. Арутюнова, Н.Д. (1982). Лингвистические проблемы референции. В кн.: НЗЛ. М: Прогресс, вып. 13, с. 347-359.

3. Богуславская, О.Ю. и Муравьева, И.А. (1987). Механизм анафорической номинации. В кн.: Моделирование языковой деятельности в интеллектуальных системах (под ред. А.Е. Кибрика и A.C. Нариньяни). М: Наука, с. 78-127.

4. Бонч-Осмоловский, Ф. (2005). Проблема преобразования референциальной разметки в формат ММАХ-2. Курсовая работа. МГУ им. Ломоносова.

5. Гладров, В. (1992). Семантика и выражение определенности неопределенности // Теория функциональной грамматики. Субъектность. Объектность. Коммуникативная перспектива высказывания. Определенность/неопределенность. СПб: Наука. С. 232-266.

6. Евстигнеев В.А. (1985). Применение теории графов в программировании. — М.: Наука.

7. Ефимова, З.В. (2003). Факторы, влияющие на выбор референциальных выражений в японском нарративе. В кн.: Актуальные проблемы японского и общего языкознания. Ред. В.М. Алпатов. Москва, Восточная Литература.

8. Земская, Е.А., Китайгородская М.В., Ширяев E.H. (1981). Русская разговорная речь. М.

9. Иванов, В.В. (1979). Категория определенности-неопределенности и шифтеры. В кн.: Категория определенности-неопределенности вславянских и балканских языках. М: Наука, с. 90-118.

10. Кибрик A.A. (1983). Об анафоре, дейксисе, и их соотношении. В сб.: Разработка и применение лингвистических процессоров. Под ред. А.С.Нариньяни. Новосибирск.

11. Кибрик, A.A. (1987). Механизмы устранения референциального конфликта в русском языке. Моделирование языковой деятельности в интеллектуальных системах (под ред. А.Е. Кибрик, A.C. Нариньяни). Москва: Наука, 128-146.

12. Кибрик, A.A. (1997). Моделирование многофакторного процесса: выбор референциального средства в русском дискурсе, Вестник МГУ, 1997, №4.

13. Кибрик, A.A. и Плунгян, В.А. (1997). Функционализм. В сб.: Фундаментальные направления современной американской лингвистики. Под ред. A.A. Кибрика, И.М. Кобозевой и И.А. Секериной. Москва.

14. Кибрик, A.A., Кобозева, И.М. и Секерина, И. А. (ред.) (1997). Фундаментальные направления современной лингвистики. Москва.1. Кибрик, A.A. Дейксис.httD://www.krugosvet.ru/articles/76/l 007612/1007612al .htm (03.03.06)

15. Кибрик А.Е. 2006 (в печати). Когнитивный подход к языку.

16. Крейдлин, Г.Е. и Чехов, A.C. (1989). Соотношение семантики, актуального членения и прагматики в лексикографическом описании анафорических местоимений (на материале местоимений группы ТОТ). ВЯ.

17. Красавина, О. Н. (2002). Употребление указательной именной группы в русском письменном дискурсе. Дипломная работа. МГУ им. Ломоносова.

18. Красавина, О. Н. (2004). Употребление указательной именной группы в русском письменном нарративном дискурсе. М: ВЯ, Выпуск 3.

19. Кристофидес H.H. Теория графов. Алгоритмический подход. М.: Мир, 1978.

20. Кронгауз, М.А. (1983). Тип референции именных групп с кванторными местоимениями все, всякий и каждый. В кн.: Семиотические аспекты формализации интеллектуальной деятельности. Тезисы докладов. Москва: ВИНИТИ, с. 208-210.

21. Крылов, С.А. (1983). Морфосинтаксические механизмы выражения категориидетерминации в современном русском языке // Разработка и применение лингвистических процессоров. Новосибирск,, с. 148-170.

22. Куликов, JI.H. (1985). О взаимозаменяемости анафорических местоимений этот и такой. Вестник МГУ, серия 9. Филология, № 1.

23. Литвиненко, А.О. (2000). Теория Риторической структуры как универсальный инструмент описания дискурса. Дипломная работа, Глава 2. МГУ им. Ломоносова.

24. Падучева, Е.В. (1980). О денотативном статусе именных групп в предложении. Учен, запис. Тарт. университета, вып. 519, с. 48-81.

25. Падучева, Е.В. (1982). Значение и синтаксические функции слова это. В кн.: Проблемы структурной лингвистики 1980. М.: Наука, с. 76-90.

26. Падучева, Е.В. (1983). К теории референции: имена и дескрипции в неэкстенсиональных контекстах. НТИ: Сер. 2, №1, с. 24-29.

27. Падучева, Е.В. (1985). Высказывание и его соотнесенность с действительностью: (референциальные аспекты семантики местоимений). Москва. Наука.

28. Петрова, А. (2004). Автоматическое установление референции именных групп и притяжательных местоимений в английском тексте. Курсовая работа. МГУ им. Ломоносова.

29. Подлесская, В.И. (1990). Вопросы лексической и синтаксической семантики: анафора в современном японском языке. Москва.

30. Поляков, В. Н. (1997). Модели алгоритмического типа для распознавания семантических связей в системах машинной обработки естественного языка. Диссертация на соискание ученой степени кандидата технических наук. М.

31. Соколова, Е.Г. и М.В. Болдасов (2005). Планирование текстов в системах генерации на естественном языке. Труды конференции ДИАЛОГ Звенигород, 1-6 июня 2005 г.

32. Соссюр, Ф. де. (1998). Курс общей лингвистики. М.

33. Тестелец, Я.Г., (2000). Введение в общий синтаксис. Москва, Российский Государственный Гуманитарный Университет.

34. Толдова, С.Ю. (1994). Структура дискурса и механизм фокусирования как важные факторы выбора номинации объекта в тексте. Автореферат на соискание ученой степени кандидата филологических наук. Московский Государственный Университет.

35. Трубецкой, Н. (1939/1960). Основы фонологии. М.

36. Чехов, А.С. (1981). Отождествляющее анафорическое отношение как фактор внутренней организации высказывания. В кн.: МП и ПЛ, вып. 19, с. 3961.

37. Шмелев, А.Д. (1992). Определенность/неопределенность в аспекте теории референции. В кн.: Теория функциональной грамматики. Субъектность. Объектность. Коммуникативная перспектива высказывания. Определенность/Неопределенность. СПб.: Наука, С.266-278.

38. Abney, S. Р. (1991). Parsing by chunks. Principle-based parsing: Computation and psycholinguistics. R. C. Berwic, S. P. Abney and C. Tenny. Boston, Kluwer Academic Publishers: 257-278.

39. Anderson, A., M. Bader, E. Bard, E. Boyle, G. Doherty, S. Garrod, S. Isard, J. Kowtko, J. McAllister, J. Miller, C. Sotillo, H. Thompson and R. Weinert. (1991). The HCRC Map Task Corpus. Language and Speech 34:351-366.

40. Aone, C. and S. W. Bennett (1994). Evaluating Automated and Manual Acquisition of Anaphora Resolution Strategies. 33d Annual Meeting of the ACL, Santa Cruz, New Mexico.

41. Ariel, M. (1990). Accessing Noun-Phrase Antecedents, London: Routledge.

42. Ariel, M. (1991). "The function of accessibility in a theory of grammar." Journal of Pragmatics 6:443-463.

43. Ariel, M. (1994). "Interpreting anaphoric expressions: a cognitive versus a pragmatic approach." Journal of Linguistics 30: 3-42.

44. Ariel, M. (2001). Accessibility theory: an overview. Text representation: linguistic and psycholinguistic aspects. T. Sanders, Amsterdam u.a.: Benjamins. 8: 29-87.

45. Asher, N. (1993). Reference to abstract objects in discourse, Dordrecht: Kluwer.

46. Baddeley, A. (2003). Working Memory and language: an overview. Journal of communication disorders 36 (2003): 189-208.

47. Biber, D., S. Conrad and R. Reppen (1998). Corpus linguistics: investigating language structure and use. Cambridge; New York, Cambridge University Press.

48. Biber, D., S. Johansson, G. Leech, S. Conrad and E. Finegan (1999). Longman Grammar of Spoken and Written English.

49. Boas, F. (1940). Race, Language and Culture. New York, Macmillan.

50. Bongers, H. (1947). The History and Principles of Vocabulary Control. Worden, Wocopi.

51. Bosch, P. (1983). Agreement and Anaphora: A study of the Role of the Pronouns in Syntax and Discourse. London, Academic Press.

52. Bosch, P., Rozario, T,. and Y. Zhao (2003). Demonstrative pronouns and personal pronouns. German der vs. er. Proceedings of the EACL2003. Budapest. Workshop on the computational treatment of anaphora.

53. Bosch, P. (2005). Productivity, Polysemy, and Predicate Indexality. Presentation in "Semantikzirkel". Berlin, ZAS. 03.06.

54. Bosma, W. E. (2005). Query-based summarization using rhetorical structure theory. 15 th Meeting of CLIN, LOT, Leiden.

55. Botley, S. (1999). Corpora and discourse anaphora: using corpus evidence to test theoretical claims, University of Lancaster, UK.

56. Botley, S. and T. McEnery (2000). Discourse anaphora. Corpus-based and Computational Approaches to Discourse Anaphora.

57. Branco, A., T. McEnery and R. Mitkov, Eds. (2005). Anaphora Processing: linguistic, cognitive and computational modelling. Current issues in linguistic theory. Amterdam/Philadelphia, John Benjamins.

58. Brants, S., S. Dipper, S. Hansen, W. Lezius and G. Smith (2002). The TIGER Treebank. Proceedings of the Workshop on Treebanks and Linguistic Theories Sozopol.

59. Brants, S. and S. Hansen (2002). Developments in the TIGER Annotation Scheme and their Realization in the Corpus. Third Conference on Language Resources and Evaluation (LREC 2002).

60. Brants, T. (2000). TnT A statistical Part-of-Speech Tagger. Sixth Conference on Applied Natural Language Processing (ANLP), Seattle, WA.

61. Britton, B. K. et. al. (2001). Thinking about bodies of knowledge. Text Representation. Linguistic and psycholinguistic aspects, Amsterdam: Benjamins273-306.

62. Brown, C. (1983). Topic continuity in written English narrative. In: Givon, T. (ed.). (1983a), Topic continuity in discourse: a quantitative cross-language study, Amsterdam: Benjamins.

63. Bruneseaux, F. and L. Romary (1997). Codage des references et coreferences dans les dialogues homme-machine. ACH-ALLC'97, Ontario, Canada.

64. Carden, G. (1982). Backward anaphora in discourse context. Journal of linguistics, 18,361-387.

65. Carlson, L., D. Marcu and M. E. Okurowski (2003). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. Current directions in discourse and dialogue, Kluwer Academic Publishers85-112.

66. Cathercole, S.E. and A. Baddeley (1993). Working memory and language. Hove, Sussex, Lawrence Erlbaum.

67. Chafe, W. (1976). Givenness, contrastiveness, definiteness, subjects, topics and point of view. Subject and topic. C. N. Li. New York, Academic Press: 2555.

68. Chafe, W. (1994). Discourse, Consciousness, and Time. The Flow and Displacement of Conscious Experience in Speaking and Writing. Chicago, University of Chicago Press.

69. Chambers, C. and R. Smyth (1998). Structural parallelism and attentional focus: a test of Centering Theory. Journal of Memory and Language, 39: 593-608.

70. Chiarcos, C. (2005). Mental salience and grammatical form: Generating referring expressions. Multidisciplinary Approaches to Discourse (MAD), Berlin-Chorin.

71. Chiarcos, C. and O. Krasavina (2005a). Rhetorical Distance revisited: A parametrized approach. Workshop in Constraints in Discourse, Dortmund.

72. Chiarcos, C. and O. Krasavina (2005b). Annotation Guidelines. POCOS Potsdam Coreference Scheme. http://amor.cms.huberlin.de/~krasavio/annorichtlinien.pdf (09.02.2006)

73. Chiarcos, C. and O. Krasavina (2005c). Rhetorical Distance Revisited: A pilot study. Proceedings of Corpus Linguistics 2005, Birmingham, UK.

74. Childers, J.B. and Tomasello, M. (2001). The role of pronouns in young children's acquisition of the english transitive construction. Developmental psychology. 37, 6,739-748.

75. Chomsky, N. (1981). Lectures on government and binding. Dordrecht, Holland ; Cinnaminson, N.J., Foris Publications.

76. Chomsky, N. (1995). The minimalist program. Cambridge, Mass., The MIT Press.

77. Chomsky, N. (2005)Three Factors in Language Design // Linguistic Inquiry, Vol. 36, Number 1:1-22.

78. Clark, H.H. and J.S. Begun (1971). The semantics of sentence subjects. Language and Speech, 14 (34-46).

79. Clark, H.H. (1977). Bridging. Thinking: Readings in Cognitive Science. P. Johnson-Laird and P. Wason. Cambridge, Cambridge University Press.

80. Clark, H.H. and C.R. Marshal (1981). Definite reference and mutual knowledge. In A.H. Joshi, B. Webber, and I.A. Sag, editors, Elements of Discourse Understanding. Cambridge University Press.

81. Comrie, B. (1997). Pragmatic Binding: Demonstratives as anaphors in Dutch. Berkley Linguistics Society 23:49-61.

82. Cornish, F. (1999). Anaphora, Discourse and Understanding. Evidence from English and French. Oxford, Clarendon.

83. Crawley, R.A. (1986). Some factors influencing the comprehension of pronouns in text. Proceedings of the Eighth Annual Conference of the Cognitive Society,pp. 613-620. Hillsdale, NJ. Erlbaum.

84. Cristea, D., N. Ide and N. Romary (1998). Veins Theory. A model of global discourse cohesion and coherence. 36th Ann. Meeting of the ACL.

85. Cristea, D., N. Ide, D. Marcu and M.-V. Tablan (2000). Discourse Structure and Co-Reference: An Empirical Study. 8th International Conference on Computational Linguistics COLING'2000, Luxembourg.

86. Curl, T. S. (1999). The Lakhota definite articles and topic marking, University of Kansas: Linguistics Graduate Student Association.

87. Dale, R. and C. Mellish (1998). Towards the Evaluation of Natural Language Generation. 1st International Conference on Language Resources and Evaluation (LREC), Granada.

88. Davies, S., M. Poesio, F. Bruneseaux and L. Romary (1998). Annotating coreference in dialogues: proposal for a scheme for MATE. First draft.

89. De Weck, G. (1991). La cohe'sion dans les textes d'enfants. Paris: Delachaux et Niestle

90. Dipper, S., M. Götze, M. Stede and T. Wegst (2004). Annis: A linguistic database for exploring information structure. Interdisciplinary Studies on Information Structure, Potsdam: Universitätsverlag.

91. Ehrlich, K. and K. Rayner (1983). "Pronoun assignment and semantic integration during reading: eye movements and immediacy of processing." Journal of verbal learning and verbal behavior 22(1): 75-87.

92. Fligelstone, S. (1992). Developing a scheme for annotating text to show anaphoric relations. New Directions in English language corpora. Methodology, results, software developements. G. Leitner. Berlin, Mouton de Gruyter: 153-70.

93. Fox, B.A. (1986). Local patterns and general principles in cognitive processes: Anaphora in written and conversational English. Text, 6,25-51.

94. Fox, B. A. (1987). Discourse Structure and Anaphora: written and conversational English.

95. Fox, B. A. (ed.) (1996). Studies in anaphora. Amsterdam, the Netherlands ; Philadelphia, J. Benjamins Pub.

96. Fraurud, K. (1996). Cognitive ontology and NP form. Reference and referent accessibility. T. Freitheim and J. Gundel. Amsterdam, Benjamins65-87.

97. Fries, C. and A. Traver (1940). English Word Lists: A Study of their Adaptability and Instruction. Washington, DC, American Council of 3J.,Ecation.

98. Gardent, C. and K. Striegnitz (2003). "Generating bridging definite descriptions." Computer meaning. Dordrecht: Kluwer Academic Publishers 3.

99. Garside, R., G. Leech and T. McEnery (1997). Corpus annotation: linguistic information from computer text corpora. Londan, Longman.

100. Ge, N., J. Hale and E. Charniak (1998). A statistical approach to anaphora resolution. Sixth Workshop on Very Large Corpora.

101. Gernsbacher, M. A. (1989). "Mechanisms that improve referential access." Cognition 32: 99-156.

102. Gernsbacher, M. A. (1990). Language comprehension as structure building., Hillsdale, NJ: Erlbaum.

103. Gernsbacher, M. A. (1991). Cognitive processes and mechanisms in language comprehension: The structure building framework. The psychology of learning and motivation. G. H. Bower. New York, Academic Press. 27: 217263.

104. Gibbs, R. W. (1994). The poetics of mind: Figurative Thought, Language, and Understanding. Cambridge:, Cambridge University Press.

105. Givon, T. (1979). From discourse to syntax: grammar as a processing strategy. In T. Givon(ed.).

106. Givön, T. (ed.). (1983a). Topic continuity in discourse: an introduction. In: Topic continuity in discourse: a quantitative cross-language study, Amsterdam: Benjamins. T. Givön (ed.)

107. Givön, T. (1983b). Topic continuity in discourse: a quantitative cross-language study, Amsterdam: Benjamins.

108. Givön, T. (1990). Syntax. A functional-typological introduction, Amsterdam: Benjamins.

109. Givön, T. (1995). Functionalism and Grammar. Amsterdam, Philadelphia, John Benjamins.

110. Givön, T. (2001). Syntax. Amsterdam / Philadelphia, John Benjamins.

111. Götze, M. (2003). Zur Annotation von Informationsstruktur. Institut of Linguistics, Universität Potsdam.

112. Graesser A., C., Gernsbacher M. A. and R. S. Goldman (2003). Handbook of discourse processes. Mahwah, N.J.; London, Lawrence Erlbaum.

113. Grimes, J. (1978). Papers in Discourse. Arlington: SIL.

114. Gross, J. (2003). Algorithmen zur Behandlung von Anaphora in Zeitungskommentaren, Technische Universität Berlin.

115. Grosz, B. (1977). The representation and use of focus in a system for understanding dialogs, Menlo Park: Stanford Research Insitute.

116. Grosz, B. and C. Sidner (1986). Attention, intentions, and the structure of discourse. Computational Linguistics 12(3): 175-204.

117. Grosz, B., S. Weinstein and A. Joshi (1995). Centering a framework for modeling the local coherence of discourse. Computational linguistics 21(2): 203-25.

118. Gundel, J., N. Hedberg and R. Zacharski (1993). Cognitive status and the form of referring expressions in discourse. Language 69(2): 274-307.

119. Gundel, J. (1996). Relevance theory meets the givenness hierarchy: an account of inferrables. T.Freitheim and J. Gundel (eds.): 141-53.

120. Gundel, J., Borthen, K. and T.Freitheim. (1999). Focus of attention and pronominal reference to "higher order entities' in English and Norwegian. CONTEXT'99.

121. Hajicova, E. and J. Vrbova. (1982). On the Role of the Hiararchy of Activation in the Process of Natural Language Understanding, in J. Horecky (ed.), Proceedings of the 9 International Conference on Computational Linguistics, Prague- Amsterdam: 107-113.

122. Hajicova, E., P. Kubon and V. Kubon. (1990). Hierarchy of Salience and Discourse Analysis and Production. In H. Karlgren (ed.), Proceedings of the 13 th International Conference on Computational Linguistics (COLING'90), Vol. Ill; Helsinki: 144-148.

123. Halmari, H. (1996). On accessibility and coreference. T.Freitheim and J. Gundel (eds.): 155-177

124. Hawkins, J.A. (1994). A Performance Theory of Order and Constituency. Cambridge: Cambridge University Press.

125. Heim, I. (1982). The Semantics of Definite and Indefinite Noun Phrases. University of Massachusetts.

126. Halliday, M. and R. Hasan (1976). Cohesion in English. London, Longman.

127. Helbig, G. and J. Buscha (2001). Deutsche Grammatikein Handbuch fiir den Auslanderunterricht. Berlin u.a., Langenscheidt.

128. Himmelmann, N. (1996). Demonstratives in Narrative Discourse: A taxonomy of unversal uses. In Fox (ed.): 205-254.

129. Hirschman, L. and N. Chinchor (1997). MUC-8: Coreference Task Definition.

130. Hirschman, L. (1998). MUC-7 Coreference Task Definition. MUC7/8.

131. Hirst, G. (1981). Anaphora in natural language understanding. Berlin, Springer Verlag.

132. Hitzeman, J. and M. Poesio (1998). Long-distance pronominalisation and global focus. ACL/COLING 98, Montreal.

133. Hobbs, J. R. (1976). Pronoun resolution. New York, City College.

134. Jacennik, B. and M. S. Diyer (1992). Verb-Subject Order in Polish. Pragmatics of Word Order flexibility. D. Payne, Amsterdam: Benjamins: 209-241.

135. Jakobson, R. (1985). N.S.Trubetzkoy's letters and notes. Berlin N.Y. -Amsterdam: Mouton.

136. Kadratoff, Y. (1999). Knowledge discovery in texts: a definition and applications.

137. Kaiser, E. (2005). Referential properties of different forms. In Branco et al. (eds.). Anaphora Processing: linguistic, cognitive and computational modelling. Selected papers from DAARC 2002.

138. Kameyama, M. (1999). "Stressed and unstressed pronouns: complementary preferences." P. Bosch and R. van der Sandt (eds.) Focus: Linguistic, cognitive and computational perspectives. Cambridge: CUP.

139. Kamp, H. and U. Reyle (1993). From Discourse to Logic. Introduction to Modeltheoretic Semantics of Natural Language, Formal Logic and Discourse Representation Theory. Dordrecht.

140. Karttunen, L. (1976). Discourse referents. Syntax and Semantics. J. McCawley, New York Academic Press 7.

141. Keenan, E. L. and B. Comrie. (1977). "Noun phrase accessibility and universal grammar." Linguistic Inquiry 8:63-99.

142. Kehler, A. (2002). Coherence, Reference, and the Theory of Grammar, CSLI Publications.

143. Kelleher, J. and J. Genabith (2004). Exploiting Visual Salience for the Generation of Referring Expressions. 17th Int. FLAIRS Conference, Miami, Florida.

144. Kennedy, G. (1998) An Introduction to Corpus Linguistics. Longman, London

145. Kibble, R. and R. Power (2000). An integrated framework for textplanning and pronominalisation. International Conference on Natural Language Generation (INLG)".

146. Kibrik, A. A. (1996). Anaphora in Russian narrative prose: A cognitive account. Studies in Anaphora. B. Fox. Amsterdam, John Benjamins.

147. Kibrik, A. A. (1999). Reference and working memory: Cognitive inferences from discourse observation. Discourse Studies in Cognitive Linguistics. K. van Hoek, A. A. Kibrik and A. Noordman. Amsterdam and Philadelphia, John Benjamins.

148. Kibrik, A. A. (2000). A cognitive calculative approach towards discourse anaphora. Discourse Anaphora and Anaphor Resolution Colloquium (DAARC'2000).

149. Kibrik, A. A. (2002). Discourse types, genre schemata, and rhetorical relations. 6th Conference on Conceptual Structure, Discourse, and Language, Rice University, Houston, Texas.

150. Kibrik, A. A. and O. Krasavina (2005). A corpus study of referential choice. The role of rhetorical structure. DIALOG'05, Zvenigorodsky, Russia.

151. Kibrik, A. A., V. I. Podlesskaya, T. M. Kalkova and A. O. Litvinenko (2002). Cognitive structure of narrative discourse: the analysis of children's night dream stories. DIALOG02.

152. Knott, A., J. Oberlander, M. O'Donnell and C. Mellish (2001). Beyond elaboration: the interaction of relations and focus in coherent text. T. Sanders, J. Schilperoord and W. Spooren. Amsterdam, Philadelphia, John Benjamins: 181-196.

153. Krasavina, O. (2004). The use of demonstratives in written Russian discourse. Unpublished manuscript. Berlin.

154. Kronrod, A. and O. Engel (2001). "Accessibility theory and referring expressions in newspaper headlines." Journal of Pragmatics 33: 683-689.

155. MacDonald, M. and MacWhinney, B. 1990. Measuring inhibition and facilitation from pronouns. Journal of memory and language, 29:469-492.

156. Mann, B. and S. A. Thompson (1987). Rhetorical Structure Theory: A Theory of Text Organization, USC.

157. Mann, W. C. and S. A. Thompson (1988). "Rhetorical Structure Theory: Toward a functional theory of text organisation." Text 8(3): 243-281.

158. Marcu, D. (1997). From local to global coherence: a bottom-up approach to text planning, the National Conference on Artificial Intelligence (AAAI'97).

159. Marcu, D. (1999). Instructions for manually annotating the discourse structure of texts.

160. Marcu, D. (2000). Extending a Formal and Computational Model of Rhetorical Structure Theory with Intentional Structures a la Grosz and Sidner. 18th International Conf. on Computitional Linguistics (COLING'2000).

161. Marcus, M., B. Santorini and M. A. Marcinkiewicz (1993). "Building a large annotated corpus of English: the Penn Treebank." Computational linguistics 19(2): 313-330.

162. Marslen-Wilson, W., Levy, E. and L. Tyler. (1982). Producing interpretable discourse: The establishment and maintenance of reference. In R.J. Jarvella and W.Klien (Eds.), Speech, place and action (pp. 339-328). New York: Wiley.

163. McCoy, K. F. and M. Strube (1999). Generating Anaphoric Expressions: Pronoun or Definite Description? Workshop on the Relation of Discourse/Dialogue Structure and Reference.

164. McEnery, T. and A. Wilson (1996). Corpus linguistics. Edinburgh, Edinburgh University Press.

165. McEnery, T., I. Tanaka and S. Botley (1997). Corpus annotation and reference resolution, the ACL Workshop on Operational Factors in Practical, Robust Anaphora Resolution for Unrestricted Text.

166. McEnery, T. and A. Wilson (2001). Corpus linguistics. Edinburgh, Edinburgh University Press.

167. Millogo, V. E. (2005). "The use of anaphoric pronouns by French children in narrative: evidence from constrained text production." Child language 32: 439-461.

168. Mitkov, R. (1998). Robust pronoun resolution with limited knowledge. Proc. of theth

169. International Conference on Computational Linguistics (COLING'98)/ACL'98 Conference: 869-875.

170. Mitkov, R. (2002). Anaphora resolution, Pearson Education Limited.

171. Modjeska, N. N. (2003). Resolving Other-Anaphora. School of Informatics, University of Edinburgh.

172. Morton, T. S. (2000). Coreference for NLP applications. 38th Annual Meeting of the Association for Computational Linguistics, Hong Kong.

173. Moser, M. and J. Moore (1996). "Toward a synthesis of two accounts of discourse structure." Computational Linguistics 22(3): 409-419.

174. Müller, C. and M. Strube (2001). Annotating Anaphoric and Bridging Relations with MMAX. Proceedings of the 2d SIGdial Workshop on Discourse and Dialogue, Aalborg, Denmark.

175. Murphy, G. L. (1985). "Processes of understanding anaphora." Journal of Memory and Language 24: 290-303.

176. Myhill, J. (1992). Typological Discourse Analysis: Quantitative Approaches to the Study of Linguistic Function. Oxford, Blackwell.

177. O'Donnell, M. (2000). RSTTool 2.4 a markup tool for Rhetorical Structure Theory. 1st International Natural Language Generation Conference, Mitzpe Ramon, Izrael.

178. Orasan, K, R. Evans and R. Mitkov. (2000). Enhancing preference-based anaphora resolution with genetic algorithms. NLP 2000. Berlin-Heidelberg, SpringerVerlag.

179. Orasan, K. (2003). PALinkA: A highly customisable tool for discourse annotation. Fourth SIGdial Workshop on Discourse and Dialogue, Sapporo, Japan.

180. Passoneau, R. (1996). Instructions for applying Discourse Reference Annotation for Multiple Applications (DRAMA).

181. Payne, T. E. (1985). Referential distance and discourse structure in Yagua. Work Papers of the Summer Institute of Linguistics. University of North Dakota: 1-67.

182. Pearson, J., R. Stevenson, and M. Poesio (2001). Effects of animacy, thematic role and sentence position on the production of referring expressions. M. Poesio (ed.), In Proceedings of SEMPRO-2001, University of Edinburgh.

183. Poesio, M. (2004a). Discourse Annotation and Semantic Annotation in the GNOME Corpus. ACL Workshop on Discourse Annotation, Barcelona.

184. Poesio, M. (2004b). The MATE/GNOME Scheme for Anaphoric Annotation Revisited. SIGDIAL, Boston.

185. Poesio, M. (2004c). An empirical investigation of definiteness. International Conference on Linguistic Evidence, Tuebingen.

186. Poesio, M., R. Delmonte, A. Bristot, L. Chiran, and S. Tonelli. (2004). The VENEX corpus of anaphora and deixis in spoken and written Italian", submitted.

187. Poesio, M., F. Bruneseaux and L. Romary (1999). The MATE meta-scheme for coreference in dialogues in multiple languages. ACL Workshop on Standards for Discourse Tagging, Maryland.

188. Poesio, M,, B. di Eugenio and G. Keohane (2002). Discourse Structure and Anaphora: An Empirical Study, University of Essex.

189. Polanyi, L. (1988). A formal model of the structure of discourse. Journal of Pragmatics 12:601-638.

190. Popescu, A. (2003). Evaluation-driven design of a robust coreference resolution system. Natural language engineering 9(3): 281-306.

191. Posner, M.I. and C.R. Snyder. (1974). Attention and cognitive control, in R.L. Solso (ed.) Information processing and cognition: the Loyola Symposium, Hillsdale, NJ: Erlbaum.

192. Prince, A. and P. Smolensky. (2004). Optimality theory: constraint interaction in generative grammar. Blackwell publishing.

193. Prince, E. (1981). Toward a taxonomy of given-new information. Radical Pragmatics. P. Cole. New York, Academic Press:223-256.

194. Prince, E. (1992). The ZPG Letter: Subjects, Definiteness, ,and Information-status.

195. Discourse Description: diverse analyses of a fund raising text. S. Thompson and W. Mann. Philadelphia/Amsterdam, John Benjamins B.V.:295-325.

196. Pustet, R. (1997). Diskursprominenz und Rollensemantik Eine funktionale Typologie von Partizipantensystemen, Lincom Europa.

197. Ravnholt, 0. (1996). Grammatical Cues and "Referential Distance" in the Retrieval of Antecedents in Discourses. Discourse Anaphora and Resolution Colloquium (DAARC'96).

198. Reboul, A. (1997). What (if anything) is accessibility? A relevance-oriented criticism of Ariel's Accessibility Theory of referring expressions. Discourse and pragmatics in functional grammar. J. H. e. a. Connolly. Berlin/NY, de Gruyter 91-108.

199. Reinhart, T. (1983). Anaphora and Semantic Interpretation. London, Croom Helm.

200. Reitter, D. and M. Stede (2003). Step by step: underspecified markup in incremental rhetorical analysis. Proceedings of the 4th International Workshop on Linguistically Interpreted Corpora (LINC-03) (at EACL 2003), Budapest.

201. Salton, G. and M.J. McGill (1983). Introduction to modern information retrieval. McGraw-Hill.

202. Sanders, T. J. M., Wilbert P.M. Spooren, and Leo G.M.Nordman (1992). Towards a taxonomy of coherence relations. Discourse Processes 15: 1-35.

203. Schauer, H. (2000). Referential Structure and Coherence Structure. 7e conference annuelle sur le traitement automatique des langues naturelles (TALN2000), Lausanne, Switzerland.

204. Schiller, A., S. Teufel and C. Stöckert (1999). Guidelines für das Tagging deutscher Textkorpora mit STTS., Institut für Maschinelle Sprachverarbeitung, University of Stuttgart and Seminar für Sprachwissenschaft, University of Tübingen.

205. Schmid, H. (1994). Probabalistic Part-of-Speech Tagging Using Decision Trees. International conference on new methods in language processing, Manchester, UK.

206. Sibun, P. (1992). Generating text without trees. Computational Intelligence 8(1): 102-122.

207. Siewierska, A. (1993a). Subject and object order in written Polish: some statistical data. Folia Lingüistica. XXVII.

208. Siewierska, A. (1993b). " Syntactic weightvs information structure and word order vari-ation in Polish." Journal of Linguistics 29.

209. Skut, W., B. Krenn, T. Brants and H. Uszkoreit (1997). An annotation scheme for free word order languages. In ANLP-97, Washington DC.

210. Snider, N. (2005). A Corpus Study of Left Dislocation and Topicalization, Stanford University.

211. Soon, W. M. and H. T. Ng (2001). "A machine learning approach to coreference resolution of noun phrases." Computational linguistics 25(3): 309-344.

212. Stede, M. (1999). Rhetorical structure and thematic structure in text generation. Levels of Representation in Discourse (LORID), Edinburgh.

213. Stede, M. (2002). DiMLex: A Lexical Approach to Discourse Markers. Alessandria (Italy): Edizioni dell'Orso.

214. Stede, M. (2004). The Potsdam Commentary Corpus. ACL-04 Workshop on Discourse Annotation, Barcelona, July.

215. Stede, M. and C. Chiarcos (2004). Salience Driven Text Planning. INLG04, Brockenhurst/UK.

216. Stede, M. and S. Heintze (2004). Machine-Assisted Rhetorical Structure Annotation. International Conference on Computational Linguistics, COLING-2004, Geneva.

217. Stevenson, R. et. al. (1995). "The role of parallelism in strategies of pronoun comprehension." Language and speech 38: 393-418.

218. Strube, M. and U. Hahn (1996). "Functional Centering". Proc. of ACL '96:270-277.

219. Strube, M. (1998). Never look back. An alternative to Centering. Proc. ACL.

220. Strube, M. and M. Wolters (2000). A probabilistic Genre-Independent Model of Pronominalization. 1st Meeting of the North American Chapter of the Association for Computational Linguistics, Seattle, WA, USA.

221. Strube, M., S. Rapp and C.Müller (2002). The influence of Minimum Edit Distance on Reference Resolution. EMNLP "02: 312-319

222. Taboada, M. (2004). Building coherence and cohesion: task-oriented dialogue in

223. English and Spanish. Amsterdam/Philadelphia, John Benjamins.

224. Tanaka, I. (2000). The value of annotated corpus in the investigation of anaphoric pronouns, with particular reference to backwards anaphora in English.

225. Tetreault, J. and J. Allen (2003). An empirical evaluation of pronoun resolution and clausal structure. Int. Symp. on Reference Resolution and its Applications to Question Answering and Summarization.

226. Tomlin, R. and M. Pu (1991). "The management of reference in Mandarin discourse." Cognitive Linguistics 2: 65-93.

227. Tomlin, R. S. (1987). Linguistic reflections of cognitive events. Coherence and Grounding in Discourse. R. S. Tomlin. Amsterdam, Benjamins: 455-480.

228. Tomlin, R. S. (1995). Focal attention, voice, and word order. An experimental, cross-linguistic study. Word order in discourse. Downing P. and M. Noonan: 517-554.

229. Vazquez Rozas, V. (2004). Some thoughts on the calculation of referential distance. DELTA online.: 27-47.

230. Walker, M. A. (1996). "The Cache Memory Model." Computational Linguistics 22(2): 255-264.

231. Walker, M.A: and Prince, E. (1996). A bilateal approach to givenness: a hearer status algorithm and a centering algorithm. Benjamin.

232. Walker, M. A. (1998). Centering, anaphora resolution, and discourse structure. Centering in Discourse. M. A. Walker, A. K. Joshi and E. F. Prince, Oxford: Oxford University Press: 401-435.

233. Walker, M. A., A. K. Joshi and E. F. Prince (1998). Centering, anaphora resolution, and discourse structure. Centering in Discourse. Oxford: Oxford University Press: 401-435.

234. Wanner, E. (1974). On remembering, forgetting, and Understanding Sentences: a study of the deep structure hypothesis, The Hague: Morton, 1974.

235. Webber, B. (1979). A formal approach to discourse anaphora. New York, Garland.

236. Webber, B. (1991). "Structure and ostension in the interpretation of discourse deixis." Natural Language and Cognitive Processes 2(6).

237. Webber, B., M. Stone, A. Joshi and A. Knott (2003). "Anaphora in discourse structure." Computational Linguistics 29(4): 545-587.

238. Wolters, M. (2001). Towards Entity Status. Institut für Kommunikationsforschung und Phonetik. Universität Bonn.

239. Zifonun, G. (1997). Grammatik der deutschen Sprache. New York, de Gruyter.