Морфологический анализ в системе англо-персидского машинного перевода

Мосавимиянгах Тайеби

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Морфологический анализ в системе англо-персидского машинного перевода

Год: 2002
Автор научной работы: Мосавимиянгах Тайеби
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Москва
Код cпециальности ВАК: 10.02.21

450 руб.

Диссертация по филологии на тему 'Морфологический анализ в системе англо-персидского машинного перевода'

Оглавление научной работы автор диссертации — кандидата филологических наук Мосавимиянгах Тайеби

ВВЕДЕНИЕ-

1. Цель исследования

2. Теоретическое и практическое значение исследования

3. Актуальность темы

4. Методология

5. Структура и основное содержание исследования

ГЛАВА ПЕРВАЯ: ОБЩИЕ ПРОБЛЕМЫ ПЕРСИДСКОГО МАШИННОГО ПЕРЕВОДА

1. Введение

2. Орфографические проблемы

3. Морфологические проблемы

4. Синтаксические проблемы

5. Алгоритмические проблемы

АНГЛО

ОБЩАЯ АНАЛИЗА ДЛЯ

БЛОК-СХЕМА МАШИННОГО

ГЛАВА ВТОРОЯ:

МОРФОЛОГИЧЕСКОГО ПЕРЕВОДА ТЕКСТА —

1. Введение

2. Различные подходы к морфологическому анализу

3. Виды морфологического анализа

3.1. Морфологический анализ со словарем основ

3. 2. Морфологический анализ со словарем словоформ

3. 3. Морфологический анализ методом логического умножения

3. 4. Морфологический анализ с помощью таблиц (без словаря)

3. Морфологический анализ в англо-персидском машинном переводе

4. Общая блок-схема морфологического анализа

ГЛАВА ТРЕТЬЯ: МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ГРУППЫ СУЩЕСТВИТЕЛЬНОГО И ГРУППЫ ГЛАГОЛА ДЛЯ МП (При переводе с английского на персидский язык).

Введение диссертации2002 год, автореферат по филологии, Мосавимиянгах Тайеби

Группа существительного

1. Морфологическая система персидского языка

2. Сравнение именных систем двух языков

3. Алгоритм перевода групп существительного Группа глагола

1. Сравнение глагольных систем двух языков

2. Морфологическая система английских и персидских глаголов 3.3. Алгоритм перевода глагольной конструкции

ГЛАВА ЧЕТВЕРТАЯ: ПРОБЛЕМА НЕОДНОЗНАЧНОСТИ В СИСТЕМАХ МАШИННОГО ПЕРЕВОДА----------------------76

1. Введение

2. Различные виды неоднозначности в англо-персидском машинном переводе

2. 1. Структурная неоднозначность 2. 2. Омоними 2. 3. Лексические идиомы 2. 4. Пустой эквивалент

2. 5. Многозначность

3. современные методы для решения проблемы неоднознаяности словоформы

3. 1. Система TAGGIT 3. 2. Система CLAWS 3.3. Система VOL SONGA

3. 4. Снятие омонимии с помощью второго языка

1. 2. 2. 2. 2. 3. 3. 3.

ГЛАВА ПЯТАЯ: АЛГОРИТМ ДЛЯ АНАЛИЗА АНГЛИЙСКИХ СЛОВОФОРМ-----------------------------------------------------------96

1. Введение

2. Алгоритм

3. Корпус

ЗАКЛЮЧЕНИЯ---------------------------------------------------------108

БИБЛИОГРАФИЯ-----------------------------------------------------118

ПРИЛОЖЕНИЕ (А)----------------------------------------------------125

ПРИЛОЖЕНИЕ (Б)----------------------------------------------------129

ПРИЛОЖЕНИЕ (В)----------------------------------------------------137

ПРИЛОЖЕНИЕ (Г)----------------------------------------------------142

ВВЕДЕНИЕ

Мы живём в мире информационной технологии, которая быстро входит в нашу жизнь. Компьютер выступает как неотделимый элемент нашей жизни не только на рабочем месте, но также и в обыкновенной жизни. Быстрое развитие новой информационной технологии является доказательством роста роли вычислительных методов и постепенной дигитализации всех новых отраслей нашей жизни. Единственный барьер, который невидимо представлен во всем коммуникационном пространстве (communicational means) - языковой барьер. Проблема его преодоления до сих пор не нашла кардинального решения. Попытки введения универсального языка, такого как « Эсперанто» или любого другого языка не дали желаемых результатов, и единственным методом для преодоления лингвистического барьера является перевод.

В ранние периоды работа по переводу выполнялась устными переводчиками, однако, в нынешнем столетии, когда информация поступает 24 часа в сутки, нужны электронные способы перевода. По сравнению с последним столетием объемы информации, предназначенной для перевода, существенно увеличились. В некоторых случаях более целесообразно использовать автоматический перевод и системы машинного перевода. Разработка таких систем позволяет оперативно получать необходимую информацию и обрабатывать большее количество документов в максимально короткие сроки

В течение последних десяти лет интерес к разработке и использованию систем машинного перевода существенно вырос. Это связано с быстрым ростом разработок вычислительных технологии и постепенной интеграцией всемирного информационного пространства в единой сети, чей прототип - Интернет.

Как показывают статистические исследования, только 6% земного населения использует английский язык как родной, однако, в настоящее время, 90% всей информации в сети Интернет только на английском языке. Перевод больших объемов информации в крупных центрах и информационных службах осуществляется с использованием технологий машинного перевода [ Хроменков, 2000].

Машинный перевод - одно из первых лингвистических приложений техники компьютера и одна из наиболее стимулирующих проблем вычислительной лингвистики. Машинный перевод -интересная теоретическая и практическая проблема современной лингвистики; несомненно, он останется и в будущем одной из важных проблем науки лингвистики. Понятие машинного (автоматического) перевода предусматривает передачу основных функций и действий перевода компьютеру, оставляя функции редактирования и модифицирования алгоритмов и словарей человеку [ Марчук, 1989].

Наиболее полно и детально морфологическая информация должна быть представлена в системах морфологического анализа, ориентированных на решение с помощью ЭВМ задач теоретического плана, таких, как изучение функционирования языка в речи, изучение структурной организации текста, типологии текстов [Якубайтис, Т. А. 1981], и практических задач, касающихся базовых языков общения человека с ЭВМ (предусматривается отбор основных морфологических категорий естественного языка по частоте употребления их в текстах), машинного перевода (МП), информационного поиска (используются информационные языки высокого уровня).

Помимо этого, существующее разнообразие систем морфологического анализа можно объяснить поисковым характером самой проблемы автоматизации морфологического анализа. Последняя связана с большим количеством теоретических вопросов лингвистика общего характера, касающихся: возможности описания размытых лингвистических объектов (например, частей речи) четким, однозначным набором единиц; принципов классификации лингвистических объектов на основе формальных признаков; и более частных вопросов - природы частой речи, их функционального сближения, взаимосвязи морфологического уровня с другими уровнями и т. д. Ни один из них не имеет однозначного решения в лингвистике.

1. Цель исследования

Морфологический анализ для машинного перевода традиционно занимается идентификацией всех флективных морфем глаголов, существительных, прилагательных, наречий и некоторых других грамматических категорий в исходном языке и восстановлением их эквивалентов в выходном языке. Однако, морфологический анализ в текущих автоматических системах обработки текста - процедура, с помощью которой можно получить всю информацию относительно различных уровней лингвистической структуры, которую только можно извлечь из текстовой формы лексической единицы.

Цель этого исследования - разработать соответствующую процедуру, при которой все положения данной темы принимают во внимание применимость процедуры к обоим языкам - английскому и персидскому. Для достижения этой цели, должны рассматриваться как подобия, так и различия между морфологическими системами двух языков. Другая цель этой работы - разработка общего алгоритма, в пределах которого могут изучаться проблемы морфологического анализа для системы машинного перевода.

Поскольку морфологический анализ имеет дело с различными проблемами, такими как проблема неоднозначности и лемматизации, представлены и обсуждаются некоторые новые методы. Мы начинаем наше исследование от общих положении, переходя затем к деталям анализа и синтеза. Мы надеемся что наше исследование будет полезно не только для машинного перевода, но и для ряда других приложений, таких как формальный анализ текстов, хранение и поиск информации, преподавание как в машинной форме (компьютерное изучение языка) так, и в традиционных формах преподавания.

Заключение научной работыдиссертация на тему "Морфологический анализ в системе англо-персидского машинного перевода"

ЗАКЛЮЧЕНИЕ

В проектировании каждой системы машинного перевода нам нужна информация различных видов, включая лингвистическую и программную информацию. Поскольку мы заняты частью лингвистической проблемы, мы неизбежно должны отличать и выделять различные уровни лингвистического анализа, которые являются необходимыми в компилировании информации для проектирования качественной системы машинного перевода. Эти уровни следующие: орфографический уровень, фонологический уровень, морфологический уровень, синтаксический уровень, семантический уровень и морфологический анализ для машинного перевода традиционно занимается идентификацией всех флективных морфем глаголов, существительных, прилагательных, наречий и некоторых других грамматических категорий в исходном языке и восстановлением их эквивалентов в выходном языке. Однако, морфологический анализ в текущих автоматических системах обработки текста - процедура, с помощью которой можно получить всю информацию относительно различных уровней лингвистической структуры, которую только можно извлечь из текстовой формы лексической единицы. Наша цель в этом исследовании морфологический уровень англо-персидского машинного перевода.

Такое исследование необходимо не только для лингвистики, но и для некоторых других областей, таких, как теория перевода, информационной поиск, машинный перевод и автоматическая обработка текста. В рамках машинного перевода морфологический анализ предшествует другим этапам, таким, как синтаксический анализ, потому что морфологический анализ начинается с исследования входных словоформ, и информация, полученная на

109 этом этапе, необходима для выполнения синтаксического анализа. Кроме того, результаты этого этапа могут быть полезны для лексикографии, а также для вычислительной лексикографии.

Морфологический анализ является подсистемой (компонентом) системы автоматического анализа текста, направленной на изучение структурной организации текстов данного типа на морфологическом, синтаксическом (в пределах предложения), лексическом и сверхфазовом уровнях.

Исходя из общей целевой установки системы, в задачу машинного перевода включается: 1) однозначная идентификация единиц текста в терминах лексико- грамматических классов 2) определение словоизменительных характеристик словоформы внутри класса (грамматический подкласс) 3) сведение словоизменительных парадигм и приведение словоформ одной лексемы к канонической форме. Эта информация необходима для использования при последовательных этапах автоматической обработки текста.

В осуществлении морфологического анализа можно различать несколько направлений. Одной из обычных процедур в этом случае является классическая диаграмма анализа, разделяющая словоформы на основы и суффикс. Другой подход, который был разработан в последние годы, основан на математических моделях, таких как модель п-диаграммы (модели биграммы и триграммы), а также модели ё-биграммы [Цутсуми Дж. и другие 1994].

Морфологический анализ для машинного перевода может быть выполнен со словарем основ и со словарем словоформ. В англоперсидском морфологическом анализе, проводимом при машинном переводе текста, мы используем первый метод, а именно, морфологический анализ со словарем основ. Для выполнения морфологического анализа в персидском языке использование словаря основ оказывается гораздо более экономичным, чем использование словаря словоформ. Этот словарь содержит только настоящую и прошедшую основы для каждого глагола. Используя эти две основы , мы можем построить все формы персидского глагола, при помощи некоторых таблиц. В случае других частей речи, в словаре представлены только основы слов, а конструирование других форм происходит с помощью морфологических правил и некоторых таблиц.

Для достижения успешного машинного перевода, следующим этапом после составления соответствующего словаря должно стать выполнение удовлетворительного морфологического анализа. Результаты, полученные после выполнения этого этапа необходимы для двух последующих этапов, таких как "синтаксический анализ перед переводом" и "синтаксический анализ после перевода."

Общая блок схема, в пределах которой проблема морфологического анализа может изучаться представлена в главе два. Мы считаем, что данная блок-схема является наиболее подходящей к персидской морфологической системе, чем какая-нибудь другая. Эта блок-схема для морфологического анализа может быть принята как наиболее общая из существующих систем машинного перевода. Однако она зависит от типа языка и требует разнообразных данных о языке.

Глагол и существительное- две наиболее важных категории в любом языке.В этой работе мы предпочитаем анализировать только эти две категории. Для достижения этой цели мы сравниваем грамматические подкатегории этих двух категорий, такие как лицо, число, время, наклонения и т.д.

Сравнение двух систем групп существительного в английском и персидском языках в рамках сопоставительного морфологического анализа является не только обязательным этапом в любой системе машинного перевода, но также может быть использовано в обучающих языковых программах для каждого из этих двух языков.

Статистические исследования, основанные на частотности появления групп существительного в рассматриваемых текстах, содержащих более 400 английских существительных с их переводом на персидский, показывают, что наиболее значимыми конструкциями с высокой частотностью являются следующие конструкции группы существительного, соответственно:

1+оГ+№>2-►№>1+МР2

Аг1:.(Ое£)+К►Ы

Аг1.(1пс1е£)+Ы -► ек+Ы

Таким образом,больше внимания следует уделять этим двум типам групп существительного и проблемам их перевода.

В обоих сопоставляемых языках глагол является одной из самых употребительных категорий. Он обладает разнообразием лексических и грамматических значений. Поэтому естественно, что наибольшие расхождения в языках с разной типологией мы наблюдаем именно с точки зрения глагола. Несмотря на то, что в рассматриваемых языках глагол имеет ряд особенностей в сфере значения или употребления, с точки зрения основных глагольных конструкций два эти языка похожи гораздо больше, чем какая-либо другая пара языков.

Согласно анализу нашего выборочного текста (включающего более 400 английских предложений с их переводом на персидский) наиболее известные глагольные конструкции с высокой степенью повторяемости -следующие: глагольная конструкция—морфологические единицы—частота настоящее неопределенное-----П(ми)+НО+С----------------19.1

Чо Ье' (настоящее время)—аст/хаст+С-----------------------12.7 инфинитив.П(бе)+НО+С---------------------11.6 прошедшее неопределенное-----НО+С.10.4

Таким образом, нужно обратить больше внимания на эти конструкции при переводе английских текстов на персидский.

Существуют также некоторые сложные случаи, связанные с глагольными конструкциями, для которых нет решения. Один из особых случаев связан с конструкцией причастий прошедшего времени. Рассмотрим, например, следующее предложение: 'Besides the constraints imposed by lack of space, politics has also played a part.'

Если перевод осуществляется человеком, то известно, что слово 'imposed' в первой части предложения является причастием, но компьютер, в который был введен наш алгоритм ,не может определить это слово как причастие, потому что оно считается прошедшим неопределенным в данном контексте. До сих пор мы не смогли разработать алгоритм, справляющийся с этой проблемой.

Другой проблематичной конструкцией являются причастия настоящего времени и их перевод, соответствующий позиции в предложении. Следующее предложение, извлеченное из выборочного текста может служить хорошим примером:

Crowded buses will be rushing around the city carrying the people visiting one another.'

В вышеупомянутом предложении машина не делает разницы между двумя последними ing-овыми формами, потому что они находятся в одинаковых структурных позициях. Это означает, что им обоим предшествуют существительные с артиклем.

Проблема неоднозначности при машинном переводе текстов отличается от проблемы, возникающей при переводе, осуществляемом человеком. Так как компьютеру предоставляются только письменные тексты, он механически не может использовать связный текст. Однако эта проблема была решена путем анализа дискурса, который находится за пределами анализа этого исследования.

Различные виды неоднозначности, которые мы выделили и классифицировали следующие:

1) синтаксическая неоднозначность

2) омоним

3) лексические идиомы

4) пустой эквивалент

5) многозначность

Эти виды неоднозначности определены и применены к англоперсидскому машинному переводу. Они могут отличаться для любой другой пары языков. Эти пять видов неоднозначности являются взаимоисключающими. Это означает, что с решением одного вида неоднозначности в конкретном случае другой вид неоднозначности в том же самом случае все же остается или возникает другой вид неоднозначности в результате решения первого.

Одним из наиболее эффективных решений для синтаксической неоднозначности является парсерная идентификация дополнений и составление для каждого дополнения списка слов, которыми оно может быть модифицировано, без создания отдельного блок анализа для каждого случая. Таким образом, решается неоднозначность, связанная с дополнениями. Семантическая и прагматическая информация может использоваться для того, чтобы выбрать наиболее вероятный и приемлемый host для каждого дополнения. Это может осуществляться или через синтаксический анализ (Woods 1973: Simmons and Bennet-Novak 1975), или после завершения синтаксической фазы (Borgida 1975; Hobbs and Grishman 1976).

Другим классом конструкций, вызывающим высокую степень синтаксической неоднозначности, является координатный союз (конструкции, включающие "and" и "or" и т. д.). Эти конструкции, подобно дополнениям (adjuncts), всегда составляли проблему в компьютерной лингвистике. Когда в предложении возникает союз, прерывается обычная процедура парса, и в дерево анализа вставляется специальный узел (такой, как узлы KCl, КС2, КСЗ указанные выше), и создается подходящее определение для этого узла союза. Это определение применимо ко всем возможным сочетаниям элементов, приведенным в главе четыре (Crishman 1986).

Методика разрешения проблемы омонимов предварительно синтаксическая. Рассматривая контекст, к которому принадлежит омонимичная форма, мы можем определять виды категорий слова, подходящие для этого контекста, и затем выбирать соответствующий вид категории. Конечно, прежде всего, мы должны иметь несколько статей (entries) в словаре для каждой омонимичной формы, по числу классов, к которому она принадлежит.

Самым лучшим решением для проблемы идиом в машинном переводе является сохранение целого идиоматического выражения в особом отделе словаря, и поиском по ходу его обнаружения в тексте. Многозначность может находиться в пределах того же самого класса формы. Более подходящим способом для выбора лучшего эквивалента для многозначного слова в определенном контексте является рассмотрение темы данного текста, а также семантических связей в тексте. Предпочтительным решением может быть использование особого вида словаря, который называется «контекстологическим словарем». Он помогает машине решить проблему многозначности слов исходного языка на основе эквивалентов выходного языка с помощью серии алгоритмов.

В настоящее время быстро расширяется применение статистических подходов и методов на основе статистики при обработке естественного языка и в машинном переводе. Статистическая лингвистика опирается, в основном, на исследования частотности появления разнообразных лингвистических единиц, включающих словоформы, лексемы, морфемы, фонемы, буквы и т.д. в выбранном корпусе текстов. На основе этих данных решаются разные лингвистические проблемы, такие как проблема неоднозначности.

До сих пор проблема неоднозначности словоформ была такой проблемой, для которой не существовало определенного удовлетворительного решения в рамках всестороннего применения. Однако недавно были разработаны статистические методы для решения этой проблемы. Выделяют следующие современные методы для снятия омонимии смысла слова без обращения к помощи синтаксического или семантического уровня информации: Система TAGGIT; система CLAWS; система VOLSONGA; снятие омонимии с помощью второго языка и многие другие системы.

В последной главе мы представили новый метод, позволяющий отделять суффиксы и префиксы в английских словах. Он не зависит от типа языка и опирается, главным образом на специально составленный корпус, состоящий из списков основ, словоформ, суффиксов и префиксов, который был скомпилирован вручную. В сфере информационного поиска процедура разделения кажется очень полезной, потому что существует набор документов, каждый из которых получает словесное описание в заголовке и иногда в резюме.

Рассматривая результаты исследования, можно сказать, что этот метод требует рассмотрения нескольких важных моментов. Для выполнения этого эксперимента не требуется большой корпус, на основе которого подсчитывается частотность определенных слов или словоформ, что само по себе является очень изнурительной работой. Эта программа, кроме того, может выделять разные суффиксы и префиксы в слове с определением их места и порядка. Исключая составления специального корпуса, остальная часть программы работает полностью автоматически без участия человека. Программа использует словарь основ, словоформ и аффиксов как точку отсчета и не требует никаких специальных лингвистических познаний.

Настоящий метод, с помощью которого были проанализированы английские слова, показывает точность более 90 процентов. Для этой программы был разработан сложный алгоритм. Естественно, что для некоторых других языков, имеющих более сложную систему морфологического анализа, эта программа будет усложнена. Хотя основное применение этого метода - автоматический морфологический анализ, он вполне может быть использован в системах автоматической обработки текста для разных целей, таких, например, как информационный поиск. Он также может использоваться в системе машинного перевода с английского на любой другой язык.

Список научной литературыМосавимиянгах Тайеби, диссертация по теме "Прикладная и математическая лингвистика"

1. Г. (1975) Морфологический анализ слов на основе словаря словоформ. // Автоматизация обработки текстов, НТИ, Сер. 2, 9, с.29-33.

2. Белоногов, Г. Г. и Бщгатырев, В. И. (1973) автоматизированные информационные системы. М,: Сов. Радио.

3. Белоногов, Г. Г. и др. (1983) Автоматизация лингвистической обработки словарей. // Научи. Техн. Информ., Сер. 2, 11, с. 20-24.

4. Бортэ, Л. В. (1979) Проявление связей между частями речи в современном русском языке. Кишинев: штиинца.

5. Валипур, А. Р. (1998) Анализ и синтез глагольных форм и конструкций при машинном переводе с русского на персидский язык. // Диссертация, МГУ, Москва.

6. Гендина, Н. И. (1979) Выявление аспектов содержания документов с помощью формальных текстовых признаков. // Науч. Техн. Информ., Сер. 2, 34, с.7-13

7. Зубов, А. В. и Зубова, И. И. (1992) Основы лингвистического информатики. Ч. 2, Компьютерная лингвистика, Учебное пособие, Минск МГПИИЯ.

8. Керостелев, Л. Ю. (1985) Некоторые особенности обработки неопознанных слов в системе машинного перевода. // Науч. Техн. Информ., Сер. 2, 4, с. 23-28.

9. Крылова, И. П. и Гордон, Е. М. (1999) Грамматика современного английского языка. Книжный дом «Университет», Москва.

10. Марчук, Ю. Н. (1983) Проблемы машинного перевода. Москва: Наука.

11. Марчук, Ю. Н. (1984) Машинный перевод в СССР. // Междунар. Форум по информ. и докум., Т. д, 2, с. 3-7.

12. Марчук, Ю. Н. (1985) Методы моделирования перевода. Москва: Наука.

13. Марчук, Ю. Н. (1999) Основы компьютерной лингвистики. Учебное пособие, Москва.

14. Мирам, Г. Э. (1996) Дистрибутивная модель синтаксиса и семантики научного текста для систем автоматической обработки информации. // Докторская диссертация, МПУ, Москва.

15. Молошная, Т. Н. (1960) Алгоритм машинного перевода с английского на русский. // Проблемы кибернетики, Москва, Физматгиз, Вып. 4, с. 25-27.

16. Мосавимиангах, Т. и Марчук, Ю. Н. (2000) Связь синтаксиса и морфологии в машинном переводе. // на: восточные языки, труды X сессии российского акустического общества, 10 с.

17. Мосавимиангах, Т (2002) Проблемы англо-персидского машинного перевода. // Перевод в современном мире, ВЦП, Всероссийский центр переводов, Москва.

18. Мохаммади, М. Р. (1998) Система русско-персидского машинного перевода на основе переводных соответствий (лексический аспект). // Диссертация, МГУ, Москва.

19. Орехов, Ю. В. (1977) Автоматическое различение омонимии словоформ. // Автоматизация обработки текстов, НТИ, Сер. 2, 4, с. 3436.

20. Перебейнос, В. И. (1989) Морфологический анализ научного текста на ЭВМ. Издательство «Наукова думка,» Москва.

21. Пиотровский Р. Г. (1975) Текст, машина, человек. Ленинград: Наука.

22. Прицкер, А. И. (1971) Статистико-дистрибутивный метод выделения грамматических классов слов. // Машин, перевод и прикл. Лингвистика. Москва: Изд-во МГПИИЯ, Вып. 14, с. 165-172.

23. Супрун, А. Е. (1971) Части речи в русском языке. Москва: Просвещение.

24. Хейс, Д. (1971) Методы исследования в области автоматического перевода. II Автоматический перевод, Москва: Прогресс, с 41-43.

25. Хорина, JI. Б. (1977) Морфологический анализ при автоматическом индексировании. // Вопросы информационной теории и практики, 3 (30), с. 34-41.

26. Хроменков, П. Н. (2000) Анализ эффективности современных систем машинного перевода. // Диссертация, МГУ, Момква.

27. Эммарлу, Р. (1998) Синтаксический анализ и синтез именных словосочетаний при машинном переводе с русского на персидский. // Диссертация, МГУ, Москва.

28. Якубайтис, Т. А. (1981) Части речи и типы текстов. Рига: Зинатне.

29. Abeille, A, and others (1990) Using lexicalized tags for machine translation. // Proceeding of 13th international conference on computational linguistics, Helsinki, Finland, pp. 1-6

30. Alegria, I. and others (1996) Automatic morphological analysis of Basque. // Literary and linguistic computing, Vol. 11, No. 4, pp. 193-203/

31. Anthony, G. O. (1960) Automatic language translation. Harvard university Press, Cambridge, Massachusetts.

32. Anvari, H. and Givi, H. (1998) Persian language grammar (2), Fatemi Press, Tehtan.

33. Arapov, M. V. and Krylov, Y. K. (1980) Mathematical models of classification in application to some problems of statistical linguistics. // Computational linguistics and related topics. Tallinn, pp. 14-16.

34. Arnold, D. (ed) (1994) Machine translation: an introductory guide, London.

35. Ball, C. N. (1994) Automated text analysis: cautionary tales. // Literary and linguistic computing, Vol. 9, No. 4, pp. 295-302.

36. Bear, J. (1988) Morphology with two-level rules and negative rule features. // Proceeding of the 12th international congress on computational linguistics (COLLING 88), pp. 21-31.

37. Boguraev, B. and Drisco, T. (1989) Computational lexicography for natural language processing, Longman group UK Limited.

38. Brown, P. F. (1991) Word sense disambiguation using statistical methods. // Proceeding of association for computational linguistics (ACL), pp. 264-270.

39. Byrd, R. J. (1983) Word formation in natural language processing systems // Processing of the English international joint conference on Artificial intelligence.

40. Charniak, E. (1993) Statistical language learning. Massachusetts institute of technology, the MIT Press, London, England.

41. Dagan, I. and Itai, A. (1994) Word sense disambiguation using a second language monolingual corpus. // Association for computational linguistics, pp. 563-596.

42. Dermatas, E. (2000) A stochastic algorithm for determining word suffixes: experiments in the Greek language. // COMLEX 2000, Kato Achaia, Greece, pp 39-43.

43. DeRose, S. J. (1988) Grammatical category disambiguation by statistical optimization.// Computational linguistics, Vol. 14, No. 1, pp. 31-39.

44. Gale, W. A. and others (1992) A method for disambiguating word senses in a large corpus. // Computers and the humanities, Vol. 26, No. 6, pp. 415-439

45. Garside, R. and others (1987) The computational analysis of English: a corpus-based approach. Longman Group UK Limited, London and New York.

46. Garvin, P. L. (1972) On machine translation: selected papers. Hague: Mouton.

47. Gazdar. G. and Mellish, CH. (1989) Natural language processing in prolog, London.

48. Grishman, R. (1989) Computational linguistics: an introduction. Cambridge university Press.

49. Grover, C. and others (1987) A computational grammar of English. // Lancaster working papers in linguistics, Vol. 47.

50. Hattout, N. (2000) Morphological pairing based on the network model. // COMLEX2000, Kato Achaia, Greece, pp. 35-38.

51. Hutchins, W. J. (1986) Machine translation: past, present future. Ellis Horwood Limited, Chichester, England.

52. Jackendoff, R. (1975) Semantic and morphological regularities in the lexicon. // Language, No. 51, pp. 639-671.

53. Kaasik, U. and Tylgova, J. (1980) Some problems of the automatic morphological analysis of word forms in Estonian texts. // Computational linguistics and related topics, Tallinn, pp. 54-54.

54. Kaplan, A. (1950) An experimental study of ambiguity and context. // Cited in : Mechanical translation, No. 1, pp. 1-3.

55. King, M. (1978) Machine translation today: the state of the art. Edinburg university Press, Edinburg.

56. Kucera, H. and Francies, W. N. (1967) A computational analysis of present-day American English, London.

57. Kyriakos, N. and others (2000) A straightforward approach to morphological analysis and synthesis. // COMLEX2000, Kato Achaia, Greece, pp. 31-34.

58. Marshall, I. (1983) Choice of grammatical word-class without global syntactic analysis: tagging words in the LOB corpus. // Computers and the humanities, Vol. 17, No. 4, pp. 139-150.

59. Marchuk, Yu. N. (1989) Machine-Aided translation: a survey of current systems. // Computational linguistics. Walter de Gruyter. Berlin, New York, pp 682-688.

60. Marchuk, Yu. N. (1988) Machine translation in USSR. // Encyclopedia of library and information science, Vol. 44, Suppl. 9, M. Dekker Inc. N. Y. Basel, pp. 183-194.

61. Marchuk, Yu. N. (1979) The contextological dictionary: use in programmed language teaching. // Computers and the humanities, No. 123, pp. 277-281.

62. Meya, M. (1987) Morphological analysis of Spanish for retrieval. // Literary and linguistic computing, Vol. 2, No. 3, pp. 166-170.

63. Miram, G. E. (1998) Translation algorithms. Kyiv, "Twin inter".

64. Mosavimiangah, T. (2002) Problems on English-Persian machine translation. // Vaprosiphilology, No. 3, Academy of sciences. Moscow.

65. Mosavimiangah, T. (2001) Comparative analysis of noun phrase for MT ( with reference to English and Persian). //prablemy theory ezika i pirivodovedenia, Moscow pedagogical university. Moscow. No. 6, pp. 68-78.

66. Mosavimiangah, T. (2000) Ambiguity problem in English-Persian machine translation. // problemy theory ezika i pirivodovedenia, Voscow pedagogical university. Moscow. No. 4, pp. 88-98.

67. Oflazer, K. (1994) Two-level description of Turkish morphology. // Literary and linguistic computing, Vol. 9, No. 2, pp. 137-148.

68. Petrovsky, R. G. (2000) In: Early years in machine translation. Ed. By W. J. Hutchins, John Benjamins Pule. Co., Amsterdam Philadelphia, pp. 233-242.

69. Picken, C. (ed.) (1986) Translating and the computer. 7th international conference on translating, Information house. London.

70. Pigott, I. M. (1984) The difficulty of developing logical algorithms for machine translation of natural language. // In conference on machine translation, Cranfield, England.

71. Porter, M. F. (1980) An algorithm for suffix stripping. //Program, Vol. 14, No. 3,pp. 130-137.

72. Price, J. D. (1968) An algorithm for analyzing Hebrew words. // Computer studies in the humanities and verbal behavior. Vol. 1, No. 2, pp. 137-165.

73. Ritchie, G. and others (1992) Computational morphology: practical mechanism for the English lexicon. MIT Press, Cambridge, MA.

74. Russel, G. J. and others (1983) A dictionary and morphological analyzer for English. // Processing of 11th international congress on computational linguistics (COLLING 86), pp. 277-279.

75. Su, K. and Chang, J. (1990) Some key issues in designing machine translation systems. //machine translation, No. 5, pp. 265-300.

76. Suppes, P. (1970) Probabilistic grammar for natural languages. // Syntheses, No. 22, pp. 95-116.

77. The Danlex-Group (1986) Descriptive tools for electronic processing of dictionary data: studies in computational lexicography. London.

78. Tomita, M. (1986,) Efficient parsing for natural language: a fast algorithm for practical systems. Kluwer academic publishers, London.

79. Tsuju, J. (1997) Machine translation: productivity and conventionality of language. // Current issues in linguistic theory, Vol. 136, pp. 377-392.

80. Van Eynde, F. (1993) Linguistic issues in machine translation. Pinter Publishers, London and New York.

81. Yorick, A. W. (1972) Grammar, meaning and the machine analysis of language. Routledge and Kegan Paul, London.

82. Tsutsumi, H. and others (1994) Multi-lingual machine translation based on statistical information. // QUALICO 94, 2nd international conference on quantitative linguistics, Moscow Lomonosov state university. Proceedings, pp. 147-152.

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21 диссертация на тему: Морфологический анализ в системе англо-персидского машинного перевода

Оглавление научной работы автор диссертации — кандидата филологических наук Мосавимиянгах Тайеби

Введение диссертации2002 год, автореферат по филологии, Мосавимиянгах Тайеби

Заключение научной работыдиссертация на тему "Морфологический анализ в системе англо-персидского машинного перевода"

Список научной литературыМосавимиянгах Тайеби, диссертация по теме "Прикладная и математическая лингвистика"

Похожие темы диссертаций

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Морфологический анализ в системе англо-персидского машинного перевода