автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Нахождение анафорических связей при автоматическом анализе текста
Полный текст автореферата диссертации по теме "Нахождение анафорических связей при автоматическом анализе текста"
На правах рукописи
* ^
АХРЕНОВА Наталья Александровна
\
НАХОЖДЕНИЕ АНАФОРИЧЕСКХ СВЯЗЕЙ ПРИ АВТОМАТИЧЕСКОМ АНАЛИЗЕ ТЕКСТА (НА МАТЕРИАЛЕ АНГЛИЙСКОГО ЯЗЫКА)
Специальность 10.02.21 — «Прикладная и математическая лингвистика»
Автореферат
диссертации на соискание ученой степени кандидата филологических наук
МОСКВА-2003
Диссертация выполнена на кафедре теоретической и прикладной
лингвистики
Московского государственного областного университета
Научный руководитель: академик МАИ,
доктор филологических наук, профессор Ю.Н. Марчук
Официальные оппоненты: доктор филологических наук
Татаринов В.А. кандидат филологических наук Меркулова C.B.
Ведущая организация: Отдел прикладного языкознания
института языкознания РАН
а
Защита состоится: -D октября 2003 г. в ✓Г ШШШ на заседании диссертационного совета Д 212. 155. 04 в Московском государственном областном университете по адресу: 105082, Москва, Переведеновский пер., д. 5/7.
С диссертацией можно ознакомиться в библиотеке Московского государственного областного университета по адресу: 105005, Москва, ул. Радио, д. 10а..
Автореферат разослан «-/2003 года
Ученый секретарь диссертационного совета уу /
доктор филологических наук, профессор х Г.Т. Хухуни
poof-1* 4<¿9
Общая характеристика работы
Реферируемая диссертация посвящена изучению семантических, синтаксических, контекстологических характеристик анафоры и нахождению анафорических связей при автоматическом анализе текста на материале газетных статей. Выявление анафорических связей при автоматическом анализе текста позволяет открыть новые перспективы в изучении проблемы создания систем автоматического анализа.
Сейчас прикладная лингвистика представляет собой дисциплину, которая объединяет большое количество разнообразных проблем, связанных с решением практических задач, часто выходящих за рамки самой лингвистики. В разное время на первый план в ней выходят и различные проблемы, на которых и сосредотачиваются основные усилия. Вследствие ряда объективных причин в отечественной прикладной лингвистике одной из таких актуальных задач является разработка лингвистического обеспечения различного рода автоматических и автоматизированных систем. Это и системы автоматического перевода, и системы информационного поиска, и системы автоматизированного управления. Все большую актуальность в настоящее время приобретает разработка систем искусственного интеллекта.
Если первоначально разработка лингвистического обеспечения велась преимущественно в плане моделирования и формализации естественного языка, то сейчас первичным является моделирование понимания естественного языка. Такая задача первоначально решалась применительно к ведению диалога между человеком и компьютером. Она заключалась в том, чтобы осуществить перевод вопроса, обращенного к компьютеру, с естественного языка на язык внутреннего представления информации, принятый в данной системе. Для этой цели, как правило, использовался семантический язык в виде фрейма, сети или языка исчисления предикатов (Перцова 1980). Тот факт, что компьютер на осмысленный вопрос дает такой же осмысленный ответ, можно рассматривать как своего рода свидетельство того, что здесь имеет место понимание. Но о моделировании
РОС. ПЕРСОНАЛЬНАЯ БИБЛИОТЕКА С. Петербург
200JTPK
собственно понимания в тгом случае можно говорить лишь условно (Новиков 2000).
С большим основанием к пониманию следует отнести более сложный класс задач, связанных с анализом и пониманием полных текстов. Н.Н Леонтьева в одной из своих последних работ убедительно показала, что необходимость моделирования понимания в той или иной форме присутствует во всех основных видах систем, связанных с автоматической обработкой информации, представленной на естественном языке (Леонтьева 2000).
Результатом такого компьютерного понимания является та или иная информация, которая извлекается компьютером из текста и фиксируется в виде различных семантических представлений. При этом основным инструментом, используемым для автоматического понимания, являются различного рода знания, предварительно аккумулируемые в системе. Роль знаний в этом процессе, несомненно, велика, о чем свидетельствуют данные, характеризующие понимание текста человеком. Так, например, в работе Н. Рафиковой экспериментально доказывается теоретическое положение о том, что в основе понимания, осуществляемого человеком, лежит актуализация определенных структур знания в результате воздействия на когнитивную сферу языковых единиц различного уровня (Рафикова 2000). Но понимание не сводится только лишь к актуализации знаний. Известно, что знать и понимать — это не одно и то же. «Можно знать нечто и не понимать его действительного смысла," можно успешно действовать, но не понимать сущность происходящего» (Гусев, Тульчинский 1985, 17). Поэтому глубокое и полное понимание, которое, конечно же, в значительной степени базируется на знании, все же выходит за его рамки, поднимается над ним и представляет собой, возможно, особый вид знания, своего рода «знание о знании». Такой переход означает переход на уровень смысла, который участвует в процессе осмысления и как средство и как его конечный результат. Вне этого понимание и смысл оказываются комплиментарными понятиями, т.е. одно предполагает другое. «Понятия смысла и понимания являются соотносительными и не могут рассматриваться в отрыве друг от друга. Смысла также нет вне понимания, как и понимание есть усвоение некоторого смысла», — пишут по этому поводу С.С. Гусев и Г.Л. Тульчинский
(Гусев, Тульчинский 1985,42).
Наметившаяся тенденция в плане моделирования понимания в автоматических системах - особая роль смысла в этом процессе. В то же время крайняя противоречивость и неопределенность представлений об этом явлении — все это является основанием для того, чтобы активизировать усилия, направленные на изучение смысла, мышления, понимания и, соответственно, языка как продукта этих процессов психической деятельности человека.
Важность изучения этих процессов подчеркивается, в первую очередь, тем, в каком русле идут современные исследования в области компьютерной лингвистики. Здесь необходимо отметить работу группы ученых под руководством профессора Новикова А.И. над экспериментальным изучением смысла (Новиков 2002), также работу Леонтьевой H.H., связанную с автоматической обработкой информации, представленную на естественном языке (Леонтьева 2000). Бесспорно, заслуживают упоминания исследования в области обучения при помощи компьютера и разработки основных стратегий компьютерного обучения в лингвистике, а также разработки тестирующих и моделирующих программ обучения и т.д., описанных в книге Потаповой Р.К. «Новые информационные технологии и лингвистика» (Потапова 2002).
К решению задач, выдвинутых современными системами искусственного интеллекта и другими, которые мы условно называем системами автоматического понимания или анализа текста, теоретическая лингвистика оказалась не готова. Она не предложила способов формирования таких единиц, которые воспринимались бы другой, внешней системой, не разработала «словарей» соответствий между лингвистическими и экстралингвистическими понятиями. Лингвистический анализ не строит крупных единиц «навстречу» единицам, описывающим факты и события действительности и отношения между ними.
В результате образовался разрыв, на одной стороне которого — лингвистические сущности, единицы, которые строятся только лингвистическим анализом (внутренние единицы), на другой — система понятий конкретной области знаний (внешние единицы). Два языка — внутренний и внешний —
оказались не в состоянии найти точек соприкосновения друг с другом.
В результате практические системы весь свой искусственный интеллею тратят на преодоление этого разрыва, причем для решения конкретной задачи в каждой узкой предметной области этот разрыв преодолевается заново.
Мы делаем вывод, что в любой модели анализа текста необходимо сочетание двух подходов — информационного и лингвистического.
Как результат обобщения, или как теоретическое обоснование разных гипов прикладных систем, разработана абстрактная модель, названная информационно-лингвистической моделью (ИЛМ), в рамках которой можно проследить по шагам все звенья автоматического понимания текста. То есть ее смысл сводится к тому, что из одного и того же естественного текста (ЕТ) система может извлекать разную информацию для разных пользователей в зависимости от их интересов, объема знаний и от того, какие модули компьютерного знания подключены к процессу понимания ЕТ. Такой подход (возможность извлечения разных «смыслов» из единого множества текстов, своего рода лингвистическая относительность) обосновывается и практической необходимостью (действительно, разным пользователям нужна разная информация из текстов), и соображениями конструктивного характера: отдельные модули создаются как самостоятельно работающие подсистемы, которые включаются и выключаются в разных режимах работы системы.
Концептуальные структуры текста желательно создавать на основе хороших лингвистических представлений текста. Это означает учет всех свойств текста — от графематических особенностей до свойств связности текста —■ и привлечение описаний объектов предметной области (ПО) в виде тезаурусов или других способов задания специальных знаний. Кроме того, концептуальные структуры необходимо соотносить с возможными запросами пользователя (это сфера информатики) и с языком адресата информации. Важно также знание того, каковы внутренние установки и цели автора текста (это прагматика - сравнительно новая область теоретической лингвистики).
Пока никому не удалось реализовать такую модель, которая может учесть все эти аспекты и выдавать Адресату (или пользователю) необходимую информацию из произвольного корпуса текстов. Тем более важно рассмотреть теоретически, из каких «кубиков» складывается механизм автоматического понимания.
Как показывает современная практика работы с системами машинного перевода наиболее «слабыми» местами любой системы являются блоки автоматического синтаксического и семантического анализа текстов. Но данные проблемы являются глобальными и тяжелорешаемьми, поэтому мы должны начинать процесс решения этих проблем поэтапно, а не комплексно. Необходимо сначала сделать эти самые «кубики», а уже потом построить полновесную модель автоматического синтаксического или семантического анализа.
В нашей работе мы остановились на формировании одного такого «кубика», а точнее - на построении алгоритма нахождения анафорических связей. Надо отметить, что данный аспект находится на стыке семантики и синтаксиса и занимает умы многих ведущих ученых мира, так как, решение этой проблемы, поможем снять ряд трудностей и задач не только в области прикладной лингвистики, но и в области лингвистики текста.
Методологической основой работы являются общетеоретические и специальные труды отечественных и зарубежных ученых-лингвисюв в области машинного перевода (Андреева Н.Д., Бар-Хиллела И., Василевского A.JI., Кулагиной О.С., Леонтьвой H.H., Марчука Ю.Н., Мельчука И.А., Нелюбина Л.Л, Пиотровского Р.Г. Арнольда Д., Миткова Р., Дорра Б., Hutchins W.J. и др.). Определение онтологических черт, необходимых и достаточных для функционирования анафоры в закрепленных за ней синтаксических и семантических функциях, предполагает отграничение анафоры от других синтаксических и семантических явлений (дейксис, катафора, эпифора и г.д.) и выясние ее места и роли в системе языка. Для характеристики языкового материала, использованного в качестве анафоры, мы прибегли к помощи основных положений когнитивистики, общего языкознания, компьютерной лингвистики, лингвистики текста (Арутюнова Н.Д, Апресян Ю.Д., Беневист Э.,
Блумфильд Л., Леонтьева Д.А., Новиков А.И., Падучева В.В., Рождествнский Ю.В., Якобсон Р., Хомский H , Huang Y., Hobbs J.R., Preuss S., Lyons J., Lappan Sh., Tsujii J. и др.), положения отечественной и зарубежной лингвистической теории перевода (Федоров А.В., Рецкер Я.И., Комиссаров В.Н.).
Таким образом, объектом исследования являются анафорические связи личных анафорических местоимений 3-го лица мужского и женского рода единственного и множественного числа в современной газетной политической статье.
В качестве предмета исследования мы выбрали установление антецедентов автоматическим способом, посредством выявления формальных характеристик смысловых и содержательных зависимостей.
В соответствии с объектом и предметом нашего диссертационного исследования мы определили следующую цель исследования: систематизация формальных средств выражения анафорических связей и зависимостей для основного состава личных местоимений английского языка определенного функционального стиля.
Частными задачами исследования являются: - изучение контекстных проявлений синтаксических связей анафорического типа для выбранного состава местоимений; проверка их алгоритмическим способом;
составление алгоритмов нахождения анафорических связей для прикладных целей.
Основными методами и приемами исследования мы считаем: дистрибутивный метод, сопоставительный метод, метод прямого перевода, количественный анализ лингвистических явлений синтаксического характера, связанных с анафорой.
Материалом исследования послужили английские и американские газеты (издающиеся в Великобритании "The Times", "The Guardian", "The Independent" и США "Washington Times") за период с 2000 по 2003 год. Объем проанализированного материала составил более 1200 текстов политических
статей. Всего было отобрано и проанализировано по 500 примеров на каждый случай употребления анафорических местоимений 3-го лица единственного и множественного числа мужского и женского рода.
Для анализа выбраны средства массовой коммуникации, обладающие достаточной авторитетностью (британская газета "The Times" - один из старейших и широко цитируемых источников информации не только в Великобритании, но и во всем мире; не менее известна пользующаяся репутацией «серьезного» издания американская газета "Washington Times").
Научная новизна исследования заключается в том, что современный политический текст не изучался с точки зрения выявления анафорических связей в целях автоматической переработки, не существует достаточно эффективных алгоритмов для нахождения таких связей и для более широкого использования таких алгоритмов, например, в составлении обучающих программ.
Теоретическая значимость работы объясняется тем, что решение задачи автоматического нахождения анафорических связей есть часть важной и не решенной до сих пор проблемы автоматического синтаксического анализа естественных языков. Здесь также есть выход в теорию текста и фундаментальные положения языковой деятельности и языкового мышления.
Практическая значимость состоит в использовании разработанных алгоритмов нахождения анафорических связей для задач машинного перевода, автоматического индексирования, автоматического получения содержания и смысла текста, в построении человеко-машинного интерфейса и систем искусственного интеллекта.
Апробация работы. Результаты работы обсуждались на шестой Международной конференции ассоциации LATEUM на базе МГУ им. М.В. Ломоносова (сентябрь 2000 г.); на научно-практических конференциях на базе Коломенского государственного педагогического института (март 2002, апрель 2003); на научно-практической конференции Московского государственного областного университета (март 2002); на Международной научно-практическая
конференция «Языки мира и мир языка», на базе Московской Академии Экономики и Права (январь 2003). Основное содержание диссертационного исследования отражено в 6 публикациях.
На защиту выносятся следующие положения:
1. Анафора играет большую роль в автоматическом синтаксическом и семантическом анализе текста, так как без эффективного разрешения анафорических отношений не может быть удовлетворительного синтаксического и семантического анализа. Авторы современных систем автоматического анализа и синтеза зачастую упускают из вида этот немаловажный аспект функционирования языка.
2. Разрешение анафоры требует оптимального алгоритмического взаимодействия как семантических, так и синтаксических факторов, в котором преобладающую роль занимают синтаксические факторы.
3. Тип языка - аналитический или флективный - оказывает существенное влияние на состав и структуру определения анафорических связей.
4. С точки зрения алгоритмического разрешения анафоры наиболее целесообразен подход, основные принципы которого были заложены при разработке проекта Kit-Fast в рамках исследования Eurotra-D и впоследствии развиты и дополнены в рамках нашей работы.
5. Созданный нами алгоритм нахождения анафорических связей обеспечивает эффективность на уровне 80%.
Цели и задачи диссертационного исследования определили ее композиционное построение.
Диссертация состоит из введения, трех глав, заключения, приложения и библиографии.
Во введении излагаются теоретические положения, лежащие в основе исследования; обосновывается выбор темы и актуальность предпринятого исследования; объясняется, в чем заключается научная новизна, теоретическая значимость и практическая ценность результатов исследования; ставится цель и формулируются конкретные задачи исследования анафорических связей;
характеризуются материалы и уточняются методы исследования, используемые в работе; формулируются основные положения, выносимые на защиту.
Первая глава посвящена описанию истории развития машинного перевода и автоматического анализа текста, а также краткому разъяснению состояния автоматического синтаксического и семантического анализа на современном этапе.
Мы живем в мире информационных технологий, которые прочно вошли в нашу жизнь. С каждым годом увеличивается число пользователей Интернета -Всемирной паутины, которая претендует на роль единого информационного пространства в планетарном масштабе. Единственной преградой, которая незримо присутствует во всей Сети, является языковой барьер. Это проблема, общая как для реального, так и для «виртуального» мира сети Инернет, до настоящего момента так и не нашла своего кардинального решения. Попытки внедрения универсального языка типа Эсперанто не привели к их массовому использованию, и единственным способом преодоления языкового несоответствия является перевод, известный еще с древнейших времен, когда этим делом занимались толмачи.
Но нынешний век, где информация передается и изменяется 24 часа в сутки, где применяются электронные средства связи, диктует свои условия. Такой классический подход к осуществлению перевода чаще всего перестал оправдывать себя, так как требует больших затрат. В некоторых случаях более целесообразным представляется использование машинного или автоматического перевода и систем машинного перевода. Развитие таких систем позволит оперативно осуществлять перевод информации и обрабатывать большие массивы документов в предельно короткие сроки, т.е. удовлетворять основному требованию сегодняшней жизни: оперативной обработке огромных массивов информации при минимальных затратах.
Несмотря на то, что машинный перевод имеет многолетнюю историю становления и развития, на значительные достижения в данной области
существует огромное количество «белых пятен» в современных системах МП, которые предстоит еще заполнить современным ученым-лингвистам.
Наиболее часто встречающимися ошибками МП можно считать ошибки в области автоматического синтаксического и семантического анализа и синтеза.
Сложность синтаксического анализа заключается, по мнению ведущих ученых, в том, что основные грамматические модели и конструкции заложены в мозг человека с рождения, а не являются приобретенными факторами и отражают знание человека о внешнем мире. Именно это роднит синтаксический анализ текста с проблемой искусственного интеллекта. Решение общей задачи облегчает то, что большинство языков обладает проективной (фиксированной) структурой предложения.
Основная проблема теории синтаксических структур - разработка способов представления синтаксической структуры для выполнения целого ряда условий качественного работы программы: для интерпретации семантики предложения, для преобразования структуры входного предложения на одном языке в структуру выходного предложения на другом языке (так называемый грамматический перевод предложения).
За много лет, в течение которых ведется работа над автоматическим синтаксическим анализом текста, было разработано и предложено огромное количество гипотез, приемов и методов, которые на сегодняшний день не имеют выхода в прагматику текста. Единственным способом анализа, подтвердившим свою состоятельность, считается анализ предложения по частям речи и членам предложения.
Поэтому синтаксический анализ может быть алгоритмизирован, но лишь в той степени, в которой поставлена и уточнена задача алгоритмизации. И в связи с этим сам по себе определяется вывод о том, что работа в области поиска более результативных глобальных методов должен быть приостановлен или вообще прекращен.
Высказывается справедливое предположение о том, что разработка систем синтаксического анализа должна вестись одновременно и в тесной связи с разработкой автоматического семантического анализа текста.
Это связано в первую очередь с тем, что семантика вышла из состояния попутно рассматриваемой проблемы и перешла в разряд основополагающей в области автоматической обработки текста. И в связи с этим выделяют три обстоятельства: внешние, внутренние и результаты взаимодействия лингвистики с другими смежными областями.
Сейчас исследования в области автоматической семантики ведутся в русле определения смысла предложения. Большинство лингвистов считает смысл предложения многоаспектным образованием, в котором отражены как лингвистические, так и экстралингвистические факторы. В образовании предложения каждый из аспектов может получить статус основополагающего и смыслообразующего, а также послужить исходной единицей.
В изучении смысла выделяют четыре подхода: антологоцентричесьсий, концептоцентрический, синтактико-центрический, антропоцентрический. И внутри каждого из этих подходов определяются различные способы анализа текста и способы нахождения связей в тексте. В рамках этих подходов было доказано, что без учета факторов, связанных с коммуникантами, невозможно рассматривать системы автоматического семантического анализа. Поэтому сегодня единственным подходом, доказавшим свою состоятельность, считается антропоцентрический.
Также отмечается, что семантика вообще и особенно автоматическая семантика тесно связаны с таким понятием, как «текст», так как именно текст является на сегодняшний день старейшим состоявшимся средством хранения и передачи информации независимо от того, устная она или письменная. Именно через текст можно узнать о намерениях коммуникантов, их представлениях об окружающем мире в целом, что просто необходимо для адекватно сделанного перевода.
Сегодня семантика остается одной из самых загадочных областей прикладной лингвистики, так как помимо чисто семантических проблем мы сталкиваемся с проблемой многозначности и другими. Именно поэтому, несмотря на значительный прогресс в данной области, эта проблема нуждается в значительной доработке, а иногда и в значительном пересмотре основных положений.
Во второй главе нами рассматриваются основные категории теории референции, а особое внимание уделяется анафоре.
Теории референции начали складываться сначала в логике и философии, а уже потом стали неотъемлемой частью лингвистической теории. Сегодня процессы референции являются одной из основополагающих составляющих теории текста, дискурса, так как именно референция отражает коммуникативные установки говорящего, его интенции, фонд знаний собеседников, коммуникативную организацию высказывания, а также непосредственное отношение собеседников к контексту. Для теории референции важно возвращение языка к действительности, т.е. показать, как значимые единицы языка прилагаются к окружающему миру, помогают адресату адекватно идентифицировать предметы. В формировании референции участвуют различные языковые средства: дейктические и анафорические местоимения; имена собственные, выполняющие номинативную функцию и обладающие единичной референцией независимо от условий коммуникации; субстантивные выражения, которые состоят из имен нарицательных, выполняющих денотативную функцию (или функцию обозначения) и приложимых к любому объекту, относительно которых истинно их значение, и актуализаторов, служащих для обозначения референции с класса до индивида.
Теория референции в традиционном подходе неразрывно связана с прагматикой речи, она учитывает все основные типы отношений, определяющих коммуникацию, т.е. перспективные связи между языком.
Для обозначения отношений между значениями референтного средства и его антецедента также употребляется термин «кореференция», предложенный
Халлидеем и Хасаном. Ими было доказано, что семантическая интерпретация требует информации, выраженной не в самом тексте, а вне его, и может восстанавливаться в памяти из контекста ситуации. Под «контекстом ситуации» понимаются те экстралингвистические факторы, которые имеют отношение к самому тексту, но находятся вне его.
Основными категориями референции являются такие понятия как: эндофора, эгзофора, дейксис и анафора. Если границы между эндофорой и эгзофорой проведены достаточно четко, то до сих пор в лингвистических исследованиях основным и неразрешенным остается вопрос о критериях разграничения анафоры и дейксиса. Для нашего же исследования данное разграничение имеет первостепенную значимость, поэтому мы придерживаемся следующих бесспорных на сегодняшний день различий: 1) дейктическими местоимениями принято считать местоимения 1-го и 2-го лица единственного и множественного числа, а местоимения 3-го лица единственного и множественного числа принято - анафорическими; 2) при дейксисе идет указание на предмет, а при анафоре происходит перенос свойств одного объекта на другой.
В данной главе основное внимание было сосредоточено на анафоре и анафорических выражениях. Нами также были рассмотрены способы, методы и особенности анафорической номинации; явление субституции; проведены различия между антецедентом и квазиантецедентом; рассмотрена семантика анафоры; структура анафорических выражений; особенности классификации анафоры.
В результате мы хотели бы выделить следующие моменты:
- анафорические выражения содержат: основную часть, коюрая в свою очередь делится на собственно анафорический компонент (анафорическое средство) и лексический компонент; и вспомогательную часть, в которую входят кванторные слова, а также усилители слова и частицы;
- к анафорическим средствам в первую очередь относятся местоимения в отсылочной функции;
- выделяют два структурных вида анафорических отношений: простые (лексический компонент отсутствует) и составные (есть лексический компонент);
- существует несколько классификаций анафор и анафорических выражений, но наиболее полной и универсальной является классификация, предложенная Yan Huang, так как она учитывает особенности строения и функционирования языков различных языковых групп, а не базируется на каком-то одном европейском или азиатском языке.
Третья глава освещает основные результаты нашей практической работы.
Таким образом, из Главы III видно, что основной объем серьезных исследований в области анафоры и ее алгоритмизации ведется за рубежом, а в России в силу ряда объективных причин исследования в этой области практически прекращены или не ведутся вообще. Этим и обуславливается выбор нами темы. Данная глава дает подробное описание хода нашего эксперимента, ниже приводятся краткие выводы из того, над чем мы работали.
В ходе нашего исследования нами было проанализировано 1200 газетных статей, из которых мы выбрали по 500 примеров на каждое из местоимений. На основе анализа примеров предлагаем следующую последовательность действий для нахождения анафорических связей: 1)выявить местоположение
антецедента по отношению к анафору в тексте; 2) определить роль антецедента и личных анафорических местоимений в предложении; 3) определить, в каких частях текста могут находиться личные анафорические местоимения третьего лица единственного числа мужского и женского рода.
Так, анафоры могут находиться в одном предложении с антецедентом: Mr. Kostunica has insisted that Mr. Milosevic be treated with what he sees as the dignity worthy of a former head of state ("Milosevic may be Next After Police Chief Held" by Dragan Petrovic and Joun Phillips). Они встречаются и в одном абзаце, но в разных предложениях: Mr. Charles proudly showed off the headless corpses lying by the roadside. One had a deep cross cut into its chest where the heart had been torn out "I eat the heart", he said, grinning ("Refugees Flee Lead-Hunters in Race
to the Coast" from Catherine Philp). Антецедент может находится в конце предыдущего абзаца, а анафор в первом предложении следующего абзаца: Netanyahu had returned to Israel from the United States on Sunday and announced his intention to run for the Prime Minister's job only hours after Barak resigned. However, he has not yet secured the nomination to run from his rightwing Likud party. ("Netanyahu Gets Help in Knesset" by G Myre). В предложении анафор обычно выступает в роле подлежащего- Gusinskv. detained at Russia's request Tuesday, has called the charges political and part of an official clamp-down on the press He has come under heavy pressure this year■ and was jailed briefly in June, also on fraud charges ( "Prosecutors Preparing Gwinsky Extradition" by Patrick Lannin) .
В тексте анафоры встречаются в следующих структурах:
1) в простых предложениях: в начале предложения, в начале предложения после вводных слов however, first, secondly, although etc.: So Mr. Blair may well think He has a piece of paper to wave against American and British critics of the EU's defense plans ("Take on Trust. Blair has Promised Bush the Moon on European Defense "), Mr. Brown, who has resisted calls for a big Budget giveaway, wants to focus attention at the election on his plans for further public spending on the NHS, education and transport. However, he is drawing up an additional package to help recruitment in key service ("Budget to Focus on Families and Public Services " by Tom Baldwin)',
2) в сложносочиненных предложениях : Gusinskv. detained at Russia's request Tuesday, has called the charges political and part of an official clamp-down on the press He has come under heavy pressure this year, and was jailed briefly in June, also on fraud charges ("Prosecutors Preparing Gusinsky Extradition" by Patrick Lannin);
3) в сложноподчиненном предложении с придаточными разных типов. Например: Mr. Mandelson's special protection officers stayed at the cottage when he visited. An alarm was also installed on police orders in the main house ("Mystery Theft from Spy Author" by Andrew Pierce)-, But the film's emotional ace in the hole is
the hitman played by James Gandolfini It's not so far removed from his turn as the Mafia family man in the TV series "The sopranos ", except that here he has added twist of being gay. ("Down Tarantino Way" Sean Macaulay), Barak, who savs he's not afraid of running against Netanyahu, voted in favor of the law that would allow his rival to enter the race ("Netanyahu Gets Help in Knesset" by Greg Myre);
4) при передаче прямой речи- перед прямой речью, между частями прямой речи, после прямой речи. Например: Mr McAvov. however, said that it was; still not enough to indicate support in the union as a whole. He added: "It would be daft to go for a one-day strike and not get an overwhelming majority The Government would say. "They are driven by lunatics. "("Teachers Set for Industrial Action Over Pay Scheme" by John O'Heary); Adopted by his grand parents because his mum couldn 't look after him, Childs got involved in tae kwon do because he was skinny and his grandfather thought he needed to be able to defend himself He set up the first Youth Training scheme in martial arts, went on to become five times British tae kwon do champion and now has his own school
"Kids are materialistic They want the next pair of Nike trainers ". he says. " I teach them about dedication and hard work" ("How Kids Can Get Their Kicks "); Visiting the governor's office on another matter, Bullock smiled and pointed to his allies in the room. "Governor, we 're going to screw you on this one. " he said. ( "Learning Compromise... " by HowardFineman);
5) при передаче косвенной речи (The role of Mr Feakins was highlighted yesterday by Jim Scudamore, the Government chief vet. He said that sheep had been sent to 23 farms since February 1 ("Horror of Man Who Exported the Disease " by Valerie Elliott).
В нашей работе также мы определили спектр текстов, которые могут быть подвергнуты машинному переводу, и пришли к выводу, что большинство художественных текстов, а также текстов, которые носят не просто информативный характер, а передаются через восприятие той или иной проблемы автором, не поддаются машинной обработке.
В результате исследования выяснилось, что в 400 примерах из 500 на каждый случай антецедент был найден верно, чю означает, что коэффициент достоверности данного алгоритма равен 80%. Проанализировав случаи, в которых алгоритм находит анафорические связи неверно, мы пришли к выводу о том, что объяснение этому необходимо искать в постановке знаков препинания в английском тексте. Как известно, помимо общих правил постановки знаков препинания в английском языке допускается некоторая свобода в постановке того или иного пунктуационного знака. Этим не часто, но все же пользуются авторы политических статей для достижения определенного стилистического эффекта и придания некоторой эмоциональной окрашенности тексту. Вот именно в этих случаях и происходит сбой в работе алгоритма. Для преодоления этого барьера необходимо составлять алгоритм на базе большего количества примеров, но даже и тогда процент неправильно найденных связей между антецедентом и анафором всего лишь снизится, а не ликвидируется вообще.
Данное исследование также показало, что в основном антецедент соответствует сразу нескольким анафоро-разрешающим факторам, что естественно облегчает понимание текста для компьютера. Таким образом, «идеальный антецедент» является одновременно и подлежащим, и темой, и агентом. Однако нередко бывают случаи, что это правило не соблюдается, а процесс нахождения анафорических связей проходит достаточно успешно. В этом случае антецедент должен выступать в предложении в роли дополнения.
Но существует ряд условий, которые необходимы для эффективной работы нашего алгоритма. Он может функционировать, только являясь частью «развитой» системы автоматического анализа или перевода текста. В данном случае под «развитой» системой мы подразумеваем систему, в которой имеется хорошо разработанный лексический, морфологический, синтаксический и семантический компоненты, заложено строгое ограничение стиля изложения повествования (в нашем случае это газетная политическая статья, т.е. текст-публицистического стиля).
Помимо этого необходимо учитывать, что каждый стиль имеет свои нюансы анафорических отношений. Поэтому наш алгоритм не может считаться полностью универсальным и может работать с такой эффективностью лишь в случаях с политическим газетным текстом. Если же мы меняем тематику, то нам необходимо провести анализ текстов на предмет анафорических связей и вычленить более общие для этого стиля употребления анафоры.
Опираясь на вышеизложенные результаты и выводы исследования, мы утверждаем, что общая концепция и принципы построения нашего алгоритма лишь намечают пути совершенствования систем синтаксического и семантического автоматического анализа и синтеза текста.
В заключении изложены общие выводы проведенного исследования.
Проблема автоматического анализа текста на современном этапе развития науки и техники представляется одной из самых важных в теории и практике перевода, так как в наш век всеобщей компьютеризации машине отводится лидирующая роль на всех производствах. Парадоксально, что с довольно-таки высоким уровнем развития технологий в современном мире не создано системы автоматического анализа и синтеза естественноязыковых текстов, которая могла бы удовлетворить или хотя бы частично соответствовать достаточно высоким требованиям, как отдельного человека, так и всего социума в целом.
Исследование показало, что помимо разработки систем машинного перевода, которые ведутся достаточно давно и, надо отметить, в некоторых областях с большим успехом, сегодня интерес человечества переключен на проблемы синтаксического и семантического анализа и синтеза текстов, искусственного интеллекта, создание новых, более объемных и узкоспециальных словарей, охватывающих все новые и новые области знания современного индивида. Однако все еще остается неразгаданным природа большого количества лингвистических явлений, которые получили достаточное описание в общей лингвистике. Эти явления еще являются загадкой для представителей компьютерной лингвистики, и одной из таких проблем является анафора или анафорические отношения в тексте. «Загадочность» этого явления
заключается в его природе, так как помимо лингвистических знаний, понятийного аппарата человека в формировании анафорических отношений участвует психика, что, как известно, является еще мало изученной областью знания и еще не до конца определены сферы соприкосновения лингвистики и психологии человека. На данный момент алгоритм нахождения анафорических связей в современных отечественных системах машинного перевода фактически отсутствует, так как исследования в этой области в нашей стране практически не ведутся.
Подводя итоги нашего исследования по проблеме нахождения анафорических связей при автоматическом анализе текста, мы пришли к выводу, что данный аспект требует системного подхода и комплексного изучения, так как, совершенствуя один элемент системы, нельзя забывать и о других составляющих. В работе мы определили основные аспекты совершенствования современных систем машинного перевода. Одним из них является разработка алгоритма нахождения анафорических связей для личных анафорических местоимений единственного и множественного числа.
В ходе исследования помимо разработки алгоритма нахождения анафорических связей мы пришли к заключению о том, что, исследуя анафору, можно определить спектр текстов, которые могут быть подвергнуты автоматическому переводу и анализу. Так, тексты художественного стиля и передающие информацию через восприятие автора не могут быть переведены адекватно при помощи машины, тексты же публицистического и официально-делового стилей легко поддаются автоматической обработке.
Согласно результатам данного исследования процесс нахождения анафорических связей проходит в три этапа: 1) определение местоположения в тексте антецедента по отношению к анафору; 2) определение местонахождения личных анафорических местоимений Зго лица единственного и множественного числа в тексте; 3) установление роли личных анафорических местоимений в английском предложении.
Результаты проделанной работы были обобщены и систематизированы в схеме нахождения анафорических связей для личных анафорических местоимений 3-го лица единственного и множественного числа, на основании которой был создан рабочий алгоритм нахождения анафорических связей.
В библиографическом списке перечисляется использованная научная литература на русском, английском, немецком языках.
В приложении предлагаются образцы текстов, использованные нами при составлении и проверке алгоритма нахождения анафорических связей, части словарей-конкордансов личных анафорических местоимений he, she, they, а также схема алгоритма нахождения анафорических связей для he, she, they. Основные положения диссертации отражены в публикациях:
1. Ахренова H.A. Нахождение анафорических связей при автоматическом анализе текста (на материале английского языка)//Проблемы теории языка и переводоведения № 6.- Москва, 2001. - с. 4-12.
2. Ахренова H.A. Первоначальные результаты исследования по проблеме анафорических отношений. Простейший алгоритм нахождения анафорических связей// Проблемы теории языка и переводоведения № 7.-Москва, 2002. - с. 14-21.
3. Akhrenova N.A. The Importance of Anaphora Resolution for Machine ТгапэМоп/УМатериалы 6-й Международной конференции LATEUM. -Москва, 2002.-с. 70-71.
4. Ахренова H.A. О некоторых «периферийных» типах анафоры//Сборник научных трудов КГПИ. -Коломна, 2002. - с 158-164.
5. Ахренова H.A. Важность личных анафорических местоимений третьего лица для общей и прикладной лингвистики//Проблемы лингвистики и межкультурной коммуникации № 1. - Москва, 2003. - с. 22-32.
6. Ахренова H.A. К вопросу о реальной и «гипотетической» анафоре. В печати.
Подписано в печать' 20 08 2003г Бумага офсетная Гарнитура «Тайме» Формат бумаги 60/84 „16 Усл. п.л 1,5
_Тираж 100 экз. Заказ № 197_
Отпечатано в Издательстве МГОУ с готового оригинал-макета 105005 г Москва, ул Радио, д 10-а, тел 265-41-63, факс 265-41-62
PH Б Русский фонд
2005-4 24489
ц, *
Ч^ А
Оглавление научной работы автор диссертации — кандидата филологических наук Ахренова, Наталья Александровна
ВВЕДЕНИЕ.
ГЛАВА I. ИСТОРИЯ ВОПРОСА: МАШИННЫЙ ПЕРЕВОД И АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТА. АВТОМАТИЧЕСКИЙ ИНФОРМАЦИОННЫЙ ПОИСК.
§ 1. ИСТОРИЯ СТАНОВЛЕНИЯ И РАЗВИТИЯ МАШИННОГО
ПЕРЕВОДА.
§ 2. СОВРЕМЕННОЕ СОСТОЯНИЕ АВТОМАТИЧЕСКОГО СИНТАКСИЧЕСКОГО АНАЛИЗА ТЕКСТА.
§ 3. СОВРЕМЕННОЕ СОСТОЯНИЕ АВТОМАТИЧЕСКОГО СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА.
ВЫВОДЫ К ГЛАВЕ 1.
ГЛАВА II. АНАФОРИЧЕСКИЕ СВЯЗИ КАК ЦЕНТРАЛЬНАЯ ПРОБЛЕМА СОВРЕМЕННОГО СИНТАКСИЧЕСКОГО АНАЛИЗА.
§ 1. ПОНЯТИЯ РЕФЕРЕНЦИИ И ДЕЙКСИСА В ЛИНГВИСТИКЕ.
§ 2. МЕСТО АНАФОРЫ В ОБЩЕЙ ЛИНГВИСТИКЕ.
2.1. АНАФОРИЧЕСКАЯ НОМИНАЦИЯ КАК ЧАСТНЫЙ СЛУЧАЙ ВЕРБАЛИЗАЦИИ АНАФОРИЧЕСКОЙ СИТУАЦИИ. ПОНЯТИЕ АНАФОРИЧЕСКОЙ НОМИНАЦИИ.
2.1.1. АНАФОР И АНТЕЦЕДЕНТ; АНАФОРИЧЕСКОЕ И АНТЕЦЕДЕНТНОЕ ВЫРАЖЕНИЕ; АНАФОРИЧЕСКОЕ ОТНОШЕНИЕ.
2.1.2. СУБСТИТУТ АНАФОРИЧЕСКОГО ВЫРАЖЕНИЯ.
2.1.3. ЭКСПЛИЦИТНАЯ И ИМПЛИЦИТНАЯ АНАФОРА. КВАЗИАНТЕЦЕДЕНТ, КВАЗИАНТЕЦЕДЕНТНОЕ ВЫРАЖЕНИЕ.
2.1.4. ЭТАЛОННАЯ НОМИНАЦИЯ АНТЕЦЕДЕНТА.
2.1.5. ПРОБЛЕМА ГРАНИЦ АНТЕЦЕДЕНТА И АНАФОРА.
2.2. СЕМАНТИКА АНАФОРЫ.
2.2.1. СЕМАНТИКА АНАФОРЫ В ШИРОКОМ И УЗКОМ СМЫСЛЕ.
2.2.2. ТИПЫ СЕМАНТИЧЕСКИХ ОТНОШЕНИЙ МЕЖДУ АНТЕЦЕДЕНТОМ И КВАЗИАНТЕЦЕДЕНТОМ.
2.3. АНАФОРИЧЕСКОЕ ВЫРАЖЕНИЕ.
2.3.1. СТРУКТУРА АНАФОРИЧЕСКОГО ВЫРАЖЕНИЯ.
2.3.2. КЛАССЫ АНАФОРИЧЕСКИХ ВЫРАЖЕНИЙ.
2.4. ПРОЦЕДУРА АНАФОРИЧЕСКОЙ НОМИНАЦИИ.
ВЫВОДЫ К ГЛАВЕ II.
ГЛАВА III. АЛГОРИТМ НАХОЖДЕНИЯ АНАФОРИЧЕСКИХ СВЯЗЕЙ ПРИ АВТОМАТИЧЕСКОМ АНАЛИЗЕ ТЕКСТА.
§ 1. МЕСТО АНАФОРЫ В ПРИКЛАДНОЙ ЛИНГВИСТИКЕ.
§ 2. АЛГОРИТМ НАХОЖДЕНИЯ АНАФОРИЧЕСКИХ СВЯЗЕЙ ПРИ АВТОМАТИЧЕСКОМ АНАЛИЗЕ ТЕКСТА. ПРОВЕРКА ЭФФЕКТИВНОСТИ РАБОТЫ АЛГОРИТМА.
2.1. МОРФОЛОГИЧЕСКИЙ ФИЛЬТР.
ОЦЕНКА ВОЗМОЖНЫХ АНТЕЦЕДНТОВ
2.2. СЕМАНТИЧЕСКИЕ СВОЙСТВА АНТЕЦЕДЕНТОВ.
2.3. МЕСТОПОЛОЖЕНИЕ АНАФОРА ПО ОТНОШЕНИЮ
К АНТЕЦЕДЕНТУ.
2.4. РОЛЬ ЛИЧНЫХ АНАФОРИЧЕСКИХ МЕСТОИМЕНИЙ В АНГЛИЙСКОМ ПРЕДЛОЖЕНИЕ.
2.5. МЕСТОНАХОЖДЕНИЕ ЛИЧНЫХ АНАФОРИЧЕСКИХ МЕСТОИМЕНИЙ 3-ГО ЛИЦА ЕДИНСТВЕННОГО ЧИСЛА В ТЕКСТЕ.
2.6. РЕЗУЛЬТАТЫ ТЕСТА.
ВЫВОДЫ К ГЛАВЕ Ш.
Введение диссертации2003 год, автореферат по филологии, Ахренова, Наталья Александровна
Прикладная лингвистика зародилась в середине XX века и как научная дисциплина получила название «структурная, прикладная и математическая лингвистика», которое сохранилось до сегодняшнего дня. В отечественной традиции прикладная лингвистика четко делится на квантитативную (математическую) лингвистику, изучающую применение количественных методов при исследовании лингвистических явлений, и компьютерную (вычислительную, инженерную) лингвистику, которая посвящена разработке и реализации автоматизированных систем обработки речевых и текстовых сообщений, в последние годы все чаще называемых речевыми и текстовыми лингвистическими процессорами (ЛП).
В начале своего пути компьютерная лингвистика была в основном представлена модельными и экспериментальными автоматизированными информационно-поисковыми системами и системами машинного перевода, которые в дальнейшем пополнились автоматизированными системами распознавания и синтеза отдельных слов, а также автоматическими словарями.
Сейчас прикладная лингвистика представляет собой дисциплину, которая объединяет большое количество разнообразных проблем, связанных с решением практических задач, часто выходящих за рамки самой лингвистики. В разное время на первый план в ней выходят и различные проблемы, на которых и сосредотачиваются основные усилия. Вследствие ряда объективных причин в отечественной прикладной лингвистике одной из таких актуальных задач является разработка лингвистического обеспечения различного рода автоматических и автоматизированных систем. Это и системы автоматического перевода, и системы информационного поиска, и системы автоматизированного управления. Все большую актуальность в настоящее время приобретает разработка систем искусственного интеллекта.
Если первоначально разработка лингвистического обеспечения велась преимущественно в плане моделирования и формализации естественного языка, то сейчас первичным является моделирование понимания естественного языка. Такая задача первоначально решалась применительно к ведению диалога между человеком и компьютером. Она заключалась в том, чтобы осуществить перевод вопроса, обращенного к компьютеру, с естественного языка на язык внутреннего представления информации, принятый в данной системе. Для этой цели, как правило, использовался семантический язык в виде фрейма, сети или языка исчисления предикатов (Перцова 1980). Тот факт, что компьютер на осмысленный вопрос дает такой же осмысленный ответ, можно рассматривать как своего рода свидетельство того, что здесь имеет место понимание. Но о моделировании собственно понимания в этом случае можно говорить лишь условно (Новиков 2000).
С большим основанием к пониманию следует отнести более сложный класс задач, связанных с анализом и пониманием полных текстов. Н.Н. Леонтьева в одной из своих последних работ убедительно показала, что необходимость моделирования понимания в той или иной форме присутствует во всех основных видах систем, связанных с автоматической обработкой информации, представленной на естественном языке (Леонтьева 2000).
Результатом такого компьютерного понимания является та или иная информация, которая извлекается компьютером из текста и фиксируется в виде различных семантических представлений. При этом основным инструментом, используемым для автоматического понимания, являются различного рода знания, предварительно аккумулируемые в системе. Роль знаний в этом процессе, несомненно, велика, о чем свидетельствуют данные, характеризующие понимание текста человеком. Так, например, в работе Н. Рафиковой экспериментально доказывается теоретическое положение о том, что в основе понимания, осуществляемого человеком, лежит актуализация определенных структур знания в результате воздействия на когнитивную сферу языковых единиц различного уровня (Рафикова 2000). Но понимание не сводится только лишь к актуализации знаний. Известно, что знать и понимать — это не одно и то же. «Можно знать нечто и не понимать его действительного смысла, можно успешно действовать, но не понимать сущность происходящего» (Гусев, Тульчинский 1985, 17). Поэтому глубокое и полное понимание, которое, конечно же, в значительной степени базируется на знании, все же выходит за его рамки, поднимается над ним и представляет собой, возможно, особый вид знания, своего рода «знание о знании». Такой переход означает переход на уровень смысла, который участвует в процессе осмысления и как средство и как его конечный результат. Вне этого понимание и смысл оказываются комплиментарными понятиями, т.е. одно предполагает другое. «Понятия смысла и понимания являются соотносительными и не могут рассматриваться в отрыве друг от друга. Смысла также нет вне понимания, как и понимание есть усвоение некоторого смысла», — пишут по этому поводу С.С. Гусев и Г.Л. Тульчинский (Гусев, Тульчинский 1985,42).
Наметившаяся тенденция в плане моделирования понимания в автоматических системах, особая роль смысла в этом процессе, в то же время крайняя противоречивость и неопределенность представлений об этом явлении — все это является основанием для того, чтобы активизировать усилия, направленные на изучение смысла, мышления, понимания и, соответственно, языка как продукта этих процессов психической деятельности человека.
Важность изучения этих процессов подчеркивается, в первую очередь, тем, в каком русле идут современные исследования в области компьютерной лингвистики. Здесь необходимо отметить работу группы ученых под руководством профессора Новикова А.И. над экспериментальным изучением смысла (Новиков 2002), также работу Леонтьевой Н.Н., связанную с автоматической обработкой информации, представленную на естественном языке (Леонтьева 2000). Бесспорно, заслуживают упоминания исследования в области обучения при помощи компьютера и разработки основных стратегий компьютерного обучения в лингвистике, а также разработки тестирующих и моделирующих программ обучения и т.д., описанных в книге Потаповой Р.К. «Новые информационные технологии и лингвистика» (Потапова 2002).
К решению задач, выдвинутых современными системами искусственного интеллекта и другими, которые мы условно называем системами автоматического понимания или анализа текста, теоретическая лингвистика оказалась не готова. Она не предложила способов формирования таких единиц, которые воспринимались бы другой, внешней системой, не разработала «словарей» соответствий между лингвистическими и экстралингвистическими понятиями. Лингвистический анализ не строит крупных единиц «навстречу» единицам, описывающим факты и события действительности и отношения между ними.
В результате образовался разрыв, на одной стороне которого — лингвистические сущности, единицы, которые строятся только лингвистическим анализом (внутренние единицы), на другой — система понятий конкретной области знаний (внешние единицы). Два языка — внутренний и внешний — оказались не в состоянии найти точек соприкосновения друг с другом.
В результате практические системы весь свой искусственный интеллект тратят на преодоление этого разрыва, причем для решения конкретной задачи в каждой узкой предметной области этот разрыв преодолевается заново.
Мы делаем вывод, что в любой модели анализа текста необходимо сочетание двух подходов — информационного и лингвистического.
Как результат обобщения, или как теоретическое обоснование разных типов прикладных систем, разработана абстрактная модель, названная информационно-лингвистической моделью (ИЛМ), в рамках которой можно проследить по шагам все звенья автоматического понимания текста. Коротко говоря, ее смысл сводится к тому, что из одного и того же естественного текста (ЕТ) система может извлекать разную информацию дня разных пользователей в зависимости от их интересов, объема знаний и от того, какие модули компьютерного знания подключены к процессу понимания ЕТ. Такой подход (возможность извлечения разных «смыслов» из единого множества текстов, своего рода лингвистическая относительность) обосновывается и практической необходимостью (действительно, разным пользователям нужна разная информация из текстов), и соображениями конструктивного характера: отдельные модули создаются как самостоятельно работающие подсистемы, которые включаются и выключаются в разных режимах работы системы.
Концептуальные структуры текста желательно создавать на основе хороших лингвистических представлений текста. Это означает учет всех свойств текста — от графематических особенностей до свойств связности текста — и привлечение описаний объектов предметной области (ПО) в виде тезаурусов или других способов задания специальных знаний. Кроме того, концептуальные структуры необходимо соотносить с возможными запросами пользователя (это сфера информатики) и с языком адресата информации. Важно также знание того, каковы внутренние установки и цели автора текста (это прагматика - сравнительно новая область теоретической лингвистики).
Пока никому не удалось реализовать такую модель, которая может учесть все эти аспекты и выдавать Адресату (или пользователю) необходимую информацию из произвольного корпуса текстов. Тем более важно рассмотреть теоретически, из каких «кубиков» складывается механизм автоматического понимания.
Как показывает современная практика работы с системами машинного перевода наиболее «слабыми» местами любой системы являются блоки автоматического синтаксического и семантического анализа текстов. Но данные проблемы являются глобальными и тяжело решаемыми, поэтому мы должны начинать процесс решения этих проблем поэтапно, а не комплексно. Должны сначала сделать эти самые «кубики», а уже потом построить полновесную модель автоматического синтаксического или семантического анализа.
В нашей работе мы остановились на формировании одного такого «кубика», а точнее - на построении алгоритма нахождения анафорических связей. Надо отметить, что данный аспект находится на стыке семантики и синтаксиса и занимает умы многих ведущих ученых мира, так как, решив эту проблему, мы сможем снять ряд трудностей и задач не только в области прикладной лингвистики, но и в области лингвистики текста.
Так объектом исследования являются анафорические связи личных анафорических местоимений 3-го лица единственного и множественного числа в современной газетной политической статье.
В качестве предмета исследования мы выбрали установление антецедентов автоматическим способом, посредством выявления формальных характеристик смысловых и содержательных зависимостей.
В соответствии с объектом и предметом нашего диссертационного исследования мы определили следующую цель исследования: систематизация формальных средств выражения анафорических связей и зависимостей для основного состава личных местоимений английского языка определенного функционального стиля.
Частными задачами исследования являются:
- изучение контекстных проявлений синтаксических связей анафорического типа для выбранного состава местоимений;
- проверка их алгоритмическим способом;
- составление алгоритмов нахождения анафорических связей для прикладных целей.
Основными методами и приемами исследования мы считаем: дистрибутивный метод, сопоставительный метод, метод прямого перевода, количественный анализ лингвистических явлений синтаксического характера, связанных с анафорой.
Материалом исследования послужили английские и американские газеты (издающиеся в Великобритании "The Times", "The Guardian", "The Independent" и США "Washington Times") за период с 2000 по 2003 год. Объем проанализированного материала составил более 1200 текстов политических статей. Всего было отобрано и проанализировано по 500 примеров на каждый случай употребления анафорических местоимений 3-го лица единственного и множественного числа мужского и женского рода.
Для анализа выбраны средства массовой коммуникации, обладающие достаточной авторитетностью (британская газета "The Times" - один из старейших и широко цитируемых источников информации не только в Великобритании, но и во всем мире; не менее известна пользующаяся репутацией «серьезного» издания американская газета "Washington Times").
Научная новизна исследования заключается в том, что современный политический текст не изучался с точки зрения выявления анафорических связей в целях автоматической переработки, не существует достаточно эффективных алгоритмов для нахождения таких связей и для более широкого использования таких алгоритмов, например, в составлении обучающих программ.
Теоретическая значимость работы объясняется тем, что решение задачи автоматического нахождения анафорических связей есть часть важной и не решенной до сих пор проблемы автоматического синтаксического анализа естественных языков. Здесь также есть выход в теорию текста и фундаментальные положения языковой деятельности и языкового мышления.
Практическая значимость состоит в использовании разработанных алгоритмов нахождения анафорических связей для задач машинного перевода, автоматического индексирования, автоматического получения содержания и смысла текста, в построении человеко-машинного интерфейса и систем искусственного интеллекта.
На защиту выносятся следующие положения:
1. Анафора играет большую роль в автоматическом синтаксическом и семантическом анализе текста, так как без эффективного разрешения анафорических отношений не может быть удовлетворительного синтаксического и семантического анализа. Авторы современных систем автоматического анализа и синтеза зачастую упускают из вида этот немаловажный аспект функционирования языка.
2. Разрешение анафоры требует оптимального алгоритмического взаимодействия как семантических, так и синтаксических факторов, в котором преобладающую роль занимают синтаксические факторы.
3. Тип языка - аналитический или флективный - оказывает существенное влияние на состав и структуру определения анафорических связей.
4. С точки зрения алгоритмического разрешения анафоры наиболее целесообразен подход, основные принципы которого были заложены при разработке проекта Kit-Fast в рамках исследования Eurotra-D и впоследствии развиты и дополнены в рамках нашей работы.
5. Созданный нами алгоритм нахождения анафорических связей обеспечивает эффективность на уровне 80%.
Апробация работы. Результаты работы обсуждались на шестой Международной конференции ассоциации LATEUM на базе МГУ им.
М.В. Ломоносова (сентябрь 2000 г.); на научно-практических конференциях на базе Коломенского государственного педагогического института (март 2002, апрель 2003); на научно-практической конференции Московского государственного областного университета (март 2002); на Международной научно-практическая конференция «Языки мира и мир языка», на базе Московской Академии Экономики и Права (январь 2003). Основное содержание диссертационного исследования отражено в 6 публикациях.
Заключение научной работыдиссертация на тему "Нахождение анафорических связей при автоматическом анализе текста"
Выводы к Главе III:
Таким образом, из Главы III видно, что основной объем серьезных исследований в области анафоры и ее алгоритмизации ведется за рубежом, а в России в силу ряда объективных причин исследования в этой области практически прекращены или вообще не ведутся. Этим и обуславливается выбор нами темы. Данная глава дает подробное описание хода нашего эксперимента, и ниже приводятся краткие вывода того, над чем мы работали.
В ходе нашего исследования нами было проанализировано 1200 газетных статей, из которых нами было выбрано по 500 примеров на каждое из местоимений. На основе анализа примеров мы предлагаем следующую последовательность действий для нахождения анафорических связей: 1) выявить местоположение антецедента по отношению к анафору в тексте; 2) определить роль антецедента и личных анафорических местоимений в предложении; 3) определить, в каких частях текста могут находиться личные анафорические местоимения третьего лица единственного числа мужского и женского рода.
Так анафоры могут находиться как в одном предложении с антецедентом, так и в начале абзаца, в котором встречается анафор. В предложении анафор обычно выступает в роле подлежащего.
В тексте анафор встречается в следующих структурах: 1) в простых предложениях: в начале предложения, в начале предложения после вводных слов however, first, secondly, although etc.; 2) в сложносочиненных предложениях; 3) сложноподчиненном предложении с придаточными разных типов; 4) при передаче прямой речи: перед прямой речью, между частями прямой речи, после прямой речи; 5) при передачи косвенной речи.
В нашей работе также мы определили спектр текстов, которые могут быть подвергнуты машинному переводу и пришли к выводу, что большинство художественных текстов, а также текстов, которые носят не просто информативный характер, а которые передаются через восприятие той или иной проблемы автором не поддаются машинной обработке.
В результате исследования выяснилось, что в 400 примерах из 500 на каждый случай антецедент был найден верно, что означает, что коэффициент достоверности данного алгоритма равен 80%. Проанализировав случаи, в которых алгоритм находит анафорические связи неверно, мы пришли к выводу о том, что объяснение этому необходимо искать в постановке знаков препинания в английском тексте. Как известно, помимо общих правил постановки знаков препинания в английском языке допускается некоторая свобода в постановке того или иного пунктуационного знака. Этим не часто, но все же пользуются авторы политических статей для достижения определенного стилистического эффекта и придания некоторой эмоциональной окрашенности тексту. Вот именно в этих случаях и происходит сбой в работе алгоритма. Для преодоления этого барьера необходимо составлять алгоритм на базе большего количества примеров, но даже и тогда процент неправильно найденных связей между антецедентом и анафором всего лишь снизится, а не ликвидируется вообще.
Заключение
Проблема автоматического анализа текста на современном этапе развития науки и техники представляется одной из самых важных в теории и практике перевода, так как в наш век всеобщей компьютеризации машине отводится лидирующая роль на всех производствах. Парадоксально, что с довольно-таки высоким уровнем развития технологий в современном мире не создано системы автоматического анализа и синтеза, которая могла бы удовлетворить или хотя бы частично соответствовать достаточно высоким требованиям, как отдельного человека, так и всего социума в целом.
Исследование показало, что помимо разработки систем машинного перевода, которые ведутся достаточно давно и надо отметить в некоторых областях с большим успехом, сегодня, интерес человечества переключен на проблемы синтаксического и семантического анализа и синтеза текстов, искусственного интеллекта, создание новых, более объемных и узкоспециальных словарей, охватывающих все новые и новые области знания современного индивида. Однако все еще остается неразгаданным природа большого количества лингвистических явлений, которые получили достаточное описание в общей лингвистике, но все еще являются загадкой для представителей компьютерной лингвистики и одной из таких проблем является анафора или анафорические отношения в тексте. «Загадочность» этого явления заключается в его природе, так как помимо лингвистических знаний и понятийного аппарата человека в формировании анафорических отношений участвует психика, что, как известно, является еще мало изученной областью знания и еще не до конца определены сферы соприкосновения лингвистики и психологии человека. На данный момент алгоритм нахождения анафорических связей в современных отечественных системах машинного перевода фактически отсутствует, так как исследования в этой области в нашей стране практически не ведутся.
Подводя итоги нашего исследования по проблеме нахождения анафорических связей при автоматическом анализе текста, мы пришли к выводу, что данный аспект требует системного подхода и комплексного изучения, так как, совершенствуя один элемент системы, нельзя забывать и о других составляющих. В работе мы определили основные аспекты совершенствования современных систем машинного перевода. Одним из них является разработка алгоритма нахождения анафорических связей для личных анафорических местоимений единственного и множественного числа.
В ходе исследования помимо разработки алгоритма нахождения анафорических связей мы пришли к заключению о том, что, исследуя анафору можно определить спектр текстов, которые могут быть подвергнуты автоматическому переводу и анализу. Так тексты художественного стиля и передаваемые через восприятие информации автором не могут быть переведены адекватно при помощи машины, а тексты функционального стиля очень легко поддаются автоматической обработке.
Согласно результатам данного исследования процесс нахождения анафорических связей проходит в три этапа: 1) определение местоположения в тексте антецедента по отношению к анафору; 2) определение местонахождения личных анафорических местоимений Зго лица единственного и множественного числа в тексте; 3) установление роли личных анафорических местоимений в английском предложении.
Результаты проделанной работы были обобщены и систематизированы в схеме нахождения анафорических связей для личных анафорических местоимений Зго лица единственного и множественного числа (см. Приложение), на основании которой был создан рабочий алгоритм нахождения анафорических связей.
Список научной литературыАхренова, Наталья Александровна, диссертация по теме "Прикладная и математическая лингвистика"
1. Автоматический перевод 1949 — 1963 гг.: Критико-библиографический справочник//Сост. И.Л. Мельчук, Р.Д. Равич. М., 1967. - 516 с.
2. Андреев Н.Д. Машинный перевод и проблема языка-посредника//Вопр. Языкозн. 1957. № 5. с. 117-121.
3. Апресян Ю.Д., Богуславский И.М., Иомдин JI.JI. и др. Лингвистическое обеспечение системы «Этап-2». М., 1989. 295 с.
4. Арутюнова Н.Д. Лингвистические проблемы референции//Новое в зарубежной лингв. Выпуск XIII. Логика и лингвистика. М., 1982.
5. Арутюнова Н.Д. Сокровенная связка//Изв. АН СССР. Сер. Лит. и языка. 1980. № 4.
6. Арутюнова Н.Д. Предложение и его смысл. М.: Наука, 1976. 384 с.
7. Ахманова О.С. и др. Синтаксис как диалектическое единство коллигации и коллокации. М.: Изд. МГУ, 1969.
8. Бар-Хиллел И. Будущее машинного перевода//Науч. докл. высшей школы. Филол. науки. 1962. № 4. с. 203-206.
9. Беляева Л.Н. Применение ЭВМ в лингвистических исследованиях и лингводидактике. Л., 1986. 84 с.
10. Бенвенист Э. Общая лингвистика. М., 1974. 315 с.
11. Богуславская О.Ю., Муравьева И.А. Механизмы анафорической номинации//Моделирование языковой деятельности в интеллектуальных системах. М., 1987. — с. 78-128.
12. Блумфильд Л. Язык. М.: Изд. «Прогресс», 1968. 607 с.
13. Василевский А.Л., Марчук Ю.Н. Вычислительная лингвистика. Учебное пособие для студентов отделения прикладной лингвистики. М., МГПИИЯ им. М. Тореза, 1970. 265 с.
14. Гусев С.С., Тульчинский Г.Л. Проблема номинация в философии. М., 1985. 268с.
15. Диалог 97. Труды международного семинара по компьютерной лингвистике и ее приложения. Ясная Поляна 10-15 июня 1997 г. Под ред. Нариньяни А.С. М., 1997. 315 с.
16. Диалог 96. Труды международного семинара по компьютерной лингвистике и ее приложения. Пущино, 4-9 мая 1996 г. Под ред. Нариньяни А.С. М., 1996. 305 с.
17. Диалог 95. Труды международного семинара по компьютерной лингвистике и ее приложения. Казань, 31 мая-4 июня 1995 г. Под ред. Бухарева Р.Г. и др. Казань, 1995. 362 с.
18. Дикарева С.С. Семантика анафоры//Структур. и прикл. лингвистика. JL, 1987. - Вып. 3. - с.29-38.
19. Емельянова О.В. Функционирование анафорических местоимений в контексте с неопределенным антецедентом // Вопр. англ. контекстологии. JL, 1990. - Вып. 3. - с. 44-49.
20. Звегенцев В.А. Предложение и его отношение к языку и речи. М., Изд-во МГУ, 1976. 306 с.
21. Зелко В.М. Проблема разработки лингвистического обеспечения систем китайско-русского информационного машинного перевода. Канд. дис. М., ин-т языкознания АН СССР. 1991. с. 96-112.
22. Комиссаров В.Н. Слово о переводе. М.: ИНО, 1973. — 237 с.
23. Компьютерра 2002. Интернет. http://www.computera.rU/ffline2002//446//8250
24. Кулагина О.С. Исследования по машинному переводу. М., 1979.- 319 с.
25. Кулагина О.С., Мельчук И.А. Машинный перевод с французского языка на русский//Вопр. языкозн. 1956. №5. с. 111-121.
26. Лейкина Б.М., Никитина Т.Н., Откупщикова М.И. и др. Система автоматического перевода, разрабатываемая в грамматике математической лингвистики. ВЦ ЛГУ//Науч.-тех. Информация. 1966. № 1.- с. 40-50.
27. Леонтьева Д.А. Психология смысла. М., 2000.
28. Леонтьева Н.Н. К теории автоматического понимания текстов. М.: МГУ, 2000.
29. Леонтьева Н.Н. К теории автоматического понимания естественных текстов. Часть 1. Моделирование системы «мягкого понимания» текста: информационно-лингвистическая модель. М.: Изд. МГУ, 2000.
30. Леонтьева Н.Н. Система французско-русского перевода (ФРАП): лингвистические решения, состав, реализация//Машинный перевод и прикладная лингвистика: Проблема создания системы автоматического перевода. Вып. 271. М, 1987. с. 6-26.
31. Марчук Ю.Н. Основы компьютерной лингвистики. Учебное пособие. — М.: Изд-во МПУ «Народный учитель», 2000. 226 с.
32. Марчук Ю.Н. Методы моделирования перевода. М, 1985. 199 с.
33. Марчук Ю.Н. Проблемы машинного перевода. М, 1983. 201 с.
34. Маслова С.Б. Об анафорической и дейктической функции лексемы that: (На материале соврем, англ. яз.) // Одес. Гос. Ун-т им. И.И. Мечникова. Одесса, 1990. - 42 с.
35. Машинный перевод: Сб. статей. М., 1957. 314 с.
36. Мельчук И. А. Опыт теории лингвистических моделей «смысл-текст». М, 1974. 314 с.
37. Мельчук И.А. Работы по машинному переводу с СССР//Вестн. АН СССР, 1959. № 2. с. 43-47.
38. Молошная Т. Н. Алгоритм машинного перевода с английского языка на русский//Проблемы кибернетики. Вып. 3. М., 1960. с. 209-272.
39. Молчанова Е.К. Дейктические и анафорические местоимения суффиксы в языках среднеазиатского языкового союзаУ/Сов. Тюркология. Баку, 1987. - № 2. - с. 80-85.
40. Новиков А.И. Доминантность и транспозиция в процессе осмысления текстаУ/Scripta linguisticay applicatae. Проблемы прикладной лингвистики 2001. Сборник статей/Отв. ред. А.И. Новиков. - М.: «Азбуковник», 2001. - с. 155-180.
41. Падучева В.В. Высказывание и его соотнесенность с действительностью. М., 1985.
42. Падучева В.В. Презумпции и другие виды неэксплицитной информации в тексте//Научно-техническая информация. Сер. 2. 1981. № 11.
43. Панов Д.Ю. Автоматический перевод. 2-е изд. М., 1958. 72 с.
44. Переводная машина П.П. Троянского: Сб. матер, по переводной машине для перевода с одного языка на другие, предложенной П.П. Троянским в 1933 г./Отв. ред. Д.Ю. Панов. М., 1959. 52 с.
45. Перцова Н.Н. О системах понимания текста на ЕЯ. Препринт ВЦ СО АН СССР. Вып. 231. Новосибирск, 1980.
46. Пиотровский Р.Г. Инженерная лингвистика и теория языка. Л., 1979.- 112 с.
47. Потапова Р. К. Новые информационные технологии и лингвистика: Учебное пособие. М.: МГЛУ, 2002. - 576 с.
48. Прикладное языкознание. Учебник/Л.В. Бондаренко, Л.А. Вербицкая, Г.Я. Мартыненко и др.; Отв. редактор А.С Герд. СПб.: Изд-во С.-Петербург. Ун-та., 1996. 528с.
49. Пушкина Е.Н. Личные местоимения в субстантивном анафорическом замещении/Горьк. гос. пед. ин-т иностр. яз. им. Н.А. Добролюбова. Горький, 1989. — 20 с.
50. Рафикова Н.В. Психологические исследования процессов понимания текста. Тверь, 1999.
51. Рецкер Я.И. О закономерных соответствиях при переводе на родной язык. Теория и методика учебного перевода. — М., 1950.
52. Рождественский Ю.В. Типология слова. М., Высшая школа, 1969, 321 с.
53. Русская грамматика. Т2: Синтаксис. М., 1980.
54. Русская грамматика. Т2. Синтаксис. М., 1970.
55. Синтаксический компонент в системах машинного перевода//ВЦП. Сер. 2, Машинный перевод и автоматизация информационных процессов. Обзорная информация. Вып. 5. М., 1981. 130 с.
56. Словарь русского языка: В 4-х т/АН СССР, Ин-т С48 рус.яз.; Под ред. А.П.Евгеньевой. — 2-е изд., испр. И доп. — М.: Русский язык, 1981.T.I. А-Й. 1981.- 698 с.
57. Фреге Г. Смысл и денотат. // Семиотика и информатика. 1977. -Вып. 8. - с.181-210.
58. Чижаковский В.А., Беляева Л.Н. Тезаурус в системах автоматической переработки текста. Кишенев, 1983. 163 с.
59. Шаляпина З.М. Англо-русский многоаспектный автоматический словарь (АРМАС)//Машинный перевод и прикладная лингвистика. Вып. 17. М., 174.-с. 7-67.
60. Языкознание БЭС/Гл.ред. В.Н. Ярцева — 2-е изд.- Я41М.: Большая Рос. Энциклопедия, 1998. 685 е.: ил.
61. Якобсон Р. Лингвистика и поэтика// Структурализм «за» и «против». М., 1975.
62. Ariel Mira, Assessing Noun-Phrase Antecedents. London: Routledge, 1990.-320 p.
63. Arnold D. Machine translation: an introductory guide. Cambrige University Press. 1992. p. 340.
64. Bobrow D.G. A question-answering systemfor high school algebra word problems/ AFIPS conference proceedings. 1964. p. 16, pp. 591-614.
65. Chomsky Noam, Lectures on Government and Binding. — Dorchester: Foris, 1981.-250 c.
66. Chomsky Noam, Some Concepts and Consequences of the Theory of Government and Binding. Cambridge, Mass.: The MIT Press, 1982. - 240 c.
67. Chomsky Noam, Knowledge of Language: Its Nature, Origin and Use. — New York: Praeger, 1986. 220c.
68. Chomsky Noam, The Minimalist Program. Cambridge, Mass.: The MIT Press, 1995.-210c.
69. Clark Herbert H. and Marshall Catherine C., Definite reference and Mutual Knowledge. Joshi, Webber and Sag, 1981. - 160 p.
70. Clark Herbert H. Using language. Cambridge: Cambridge University Press. 1996.
71. Dorr B.J. Machine Translation: A View from the Lexicon. Cambridge, MA, MIT, 1993.-432 p.
72. Dugas A., Labelle D. Le groupe nominal N1 de N2 et autres suites N de N// Informatique and Langue Naturelle, I.L.N. 93, Actes. Dec. 2-3, 1993, Nante. Universite de Nantes, 1993. pp.445-456.
73. Evans Gareth Pronouns, qualifiers and relative clauses I. Canadian Journal of Philosophy. 1977. p. 7, pp. 467-536.
74. Geldbach S., Anaphora and translation discrepancies in Russian-German MT // Kluwer Academic Publishers. Internet, 1998.
75. Grimes J. The thread of discourse. The Hague: Mouton Publishers; 1975.
76. Grosz B. The representation and use of focus in a system for understanding dialogs. Technical Note 150, Artificial Intelligence Center, SRI4 1977.
77. Halliday M.A.K., Hasan R. Cohesion in English. London: Longmans, 1976.
78. Halliday M.A.K. Language as social semiotics: The sociological interpretation of language and meaning. London, 1978.
79. Hirst G. Anaphora in natural language understanding: a survey. New York: Springer-Verlag, 1981.
80. Hobbs J.R., Resolving Pronoun References. Lingua'44, 1978. pp. 311-338.
81. Huang Yan, Anaphora. A Cross-linguistic Study. Oxford University Press, 2000. - 396 c.
82. Huang Yan, The Syntax and Pragmatic Anaphora: A Study with Special Reference to Chinese. Cambridge: Cambridge University Press.
83. Hutchins W.J., Somers H.L. An Introduction to Machine Translation. Ac. Press. 1992.-337 p.
84. Hutchins W.J. Recent Developments in Machine Translation. A Review of the last Five Years. New Directions in Machine Translation/Conference Proceedings. Budapest. — 1988. - pp. 7-62.
85. Hutchins W.J. Translation Past, Present, Future. Harwood, 1986, 382 p.
86. Jarafsky D., Martin J. Speech and Language Processing. Upper Saddle, 2002. pp. 672-673, 684-690.
87. Karttunen L. Discourse referents, in J McCawley. Syntax and Semantics 7: Notes from the Linguistic Underground. London: Academic Press, 1976.
88. Kempson R. Grammar and conversation principle. Newmeyer, 1988.
89. Kempson R. Logical form: the grammar cognition interface. Journal of Linguistics, 1988.
90. Lappin, Shalom, Herbert L. An Algorithm for Pronominal Anaphora Resolution. Computational Linguistics. 1994. pp. 525-561.
91. Lust Barbara, Studies in the Acquisition of Anaphora, 2 vols. -Dordrecht: D. Reidel, 1986.
92. Lyons J. Semantics, 2 vols. Cambridge: Cambridge University Press, 1977.
93. Machine Translation: Theoretical and Methodological Issues. Ed. By S Nirenburg. New York, 1987. 350 p.
94. Matsui T. Bridging and relevance. Ph.D. dissertation, University College, London, 1995.
95. Matsui T. Bridging reference and the notion of "topic" and focus'. Lingua, 1994.
96. Mitkov R. Anaphor and Machine Translation. Internet, 1998.
97. Mitkov R. Factors in Anaphora Resolution. Inernet, 1997.
98. Mitkov R. Anaphora Resolution in natural Language Processing and Machine Translation. IAI Working Papers. Saarbrucken, 1995.
99. Quine Wiilard Van Orman. Word and Object. Cambridge, Massachusetts: the M.I.T. Press, 1960.
100. Quirk R., Greenbaum S., Leech G, Svartvik J. A grammar of contemporary English. London: Longmans, 1972.
101. Radford A. Transformational Grammar. A First Course. Cambridge University Press. 1988.- pp. 116-117.
102. Reiger C. Conceptual memory and inference. In Schank R. editor. Conceptual information processing. Amsterdam: North-Holland Press, 1975.
103. Sinder C. Towards a computational theory of definite anaphora comprehension in English discourse. Technical report 537, Artificial Intelligence Laboratory, MIT, 1979.
104. Wasow Th. Reflections on Anaphor // Studies in the Acquisition of Anaphor. Dordrecht etc, 1986, vol. I. - pp. 107-122.
105. Webber B.L. A formal approach to discourse anaphora. New York: Garland Publishing, 1979.
106. Winograd T. Procedures as a representation of data in a computer program for understanding natural language. Technical Report 17, MIT Artificial Intelligence laboratory, 1971.
107. Wilks Y. A preferential pattern-seeking semantics for natural language inference. Artificial Intelligence, 6, 1975.
108. Woods W. Translation network grammars for natural language analysis. Communications of the ACM, 13(10), 1970.