Трансфер в современных системах машинного перевода

Новиков, Виктор Алексеевич

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Трансфер в современных системах машинного перевода

Год: 2001
Автор научной работы: Новиков, Виктор Алексеевич
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Москва
Код cпециальности ВАК: 10.02.21

450 руб.

Диссертация по филологии на тему 'Трансфер в современных системах машинного перевода'

Оглавление научной работы автор диссертации — кандидата филологических наук Новиков, Виктор Алексеевич

Диссертация состоит из введения, трех глав, заключения, списка использованной литературы и одного приложения. Приложение содержит образцы переводов текстов современными системами машинного перевода.

Содержание исследования

Во введении обоснован выбор темы, ее актуальность, научная новизна, цели, задачи, теоретическая и практическая ценность диссертационного исследования. Сформулированы методы исследования и положения, выносимые на защиту.

Введение диссертации2001 год, автореферат по филологии, Новиков, Виктор Алексеевич

Научная новизна работы заключается в комплексном подходе к проблеме трансфера, с учетом его лингвистических, архитектурных и машинных характеристик. Впервые также осуществлен анализ СМП с количественной и качественной оценкой трансферных характеристик системы. Проанализированы СМП трансфёрного типа, работающие с русским, немецким и английским языками.

Целью работы является исследование компонента трансфера в современных СМП, его характеристик, способы разработки, эффективность, влияние качества работы трансфера на суммарную эффективность системы.

Для достижения поставленной цели потребовалось разрешение следующих задач: изучение эволюции понятия «трансфер» с момента его появления по настоящий момент; изучение типологических описаний СМП, содержащих в своей основе признаки трансфера; выявление характеристик трансфера и их теоретическое обоснование; разработка методов составления трансфёрного компонента; анализ и типология трансферных ошибок, их связь с ошибками других типов, методы их прогнозирования и устранения; комплексный анализ трансфера в современных СМП.

Теоретический аспект данной работы заключается в определении лингвистических характеристик трансфера на двух этапах: машинном и предмашинном. Теоретическая значимость данного исследования заключается в возможности использования результатов исследования при разработке систем, содержащих трансферный компонент в явном виде. Нами был создан ряд лингвистических программных инструментов для создания и дополнения трансферных словарей, на основе полученных результатов. В рамках исследования рассматриваются основные концепции и модели машинного перевода: перевод с интерлингвой, модель переводных соответствий и их разновидности. Рассматриваются все технологии машинного перевода, проанализировать их архитемурные и лингвистические особенности, выявить их взаимосвязь с трансфером, а также возможности комбинирования различных подходов к моделированию машинного перевода.

Практические задачи исследования направлены на разработку "методов реализации теоретически обоснованных критериев создания и функционирования трансфера. Практическая ценность данной работы заключается в том, что на основе трансферных исследований можно воспользоваться методами отбора и составления переводных соответствий, методами архитектурного конструирования системы, а также более эффективно сочетать лингвистическое и программное обеспечение СМП, используя современные технологии проектирования и программирования, сетевых и коммуникационных технологий.

Исследование имеет два аспекта: исследование текстов на русском, немецком, английском языках, их анализ для организации трансфера, и сопоставительный анализ современных действующих трансферных систем машинного перевода. Материалом исследования стали более 200 небольших текстов на русском, немецком, английском языках, общим объемом около 30000 слов. Тематика текстов— общенаучная, компьютерные технологии, подъязыки компьютерных технологий: сети, микропроцессоры, операционные системы, базы данных, языки программирования, спецификации аппаратного обеспечения и программных протоколов и интерфейсов. Источником языкового материала послужила специальная литература, технические спецификации и документации, руководства по эксплуатации, а также тексты аналогичной тематики иноязычных ресурсов глобальной сети Интернет.

Кроме того, объектом исследования стали действующие доступные системы машинного перевода: Promt, Stylus, Socrat, Power Translator, Systran, Transit, Спринт, Retrans, Ertrans.

Методами исследования послужили сопоставительные исследования лексики, принцип «черного ящика», метод аналогии, типологическое сопоставительное описание, разработана методика отбора из текстов переводных соответствий и методика количественно-качественной оценки эффективности трансфера.

На защиту выносятся следующие положения:

1. Трансфер в самом общем определении этого понятия применим практически к любой системе машинного перевода, если он представляет собой машинный перенос значения единицы входного языка на соответствующие единицы.

2. В основе трансферных СМП лежит модель переводных соответствий, трансфер осуществляет поиск и установление переводных соответствий.

3. Важную роль в разработке эффективных СМП играют новые компьютерные, коммуникационные и информационные технологии, новейшие технологии проектирования, разработки и распространения программного обеспечения. Особенно сильное влияние на развитие технологий машинного перевода оказывает глобальная сеть Интернет, ставшая также средой для разработки, тестирования и распространения систем машинного перевода.

4. Трансферный компонент СМП взаимодействует с другими этапами обработки текста при переводе, его эффективность зависит от корректного функционирования всех уровней анализа.

5. Ошибки, допускаемые системами машинного перевода на этапе трансфера, существенно влияют на суммарную эффективность лингвистического обеспечения системы машинного перевода.

Первая глава посвящена описанию технологий и концепций машинного перевода, решается неоднозначность определения трансфера, выделяется место трансферных СМП в ряду современных систем машинного перевода.

В современной компьютерной лингвистике понятие трансфера чрезвычайно неоднозначно, практически каждый исследователь представляет трансфер в соответствии со своими взглядами на основные концепции машинного перевода. Понятие трансфера тесно связано с этими концепциями. Несмотря на достаточно подробные классификации и типологии систем машинного перевода, не всегда представляется возможным однозначно определить, к какому именно типу принадлежит данная система машинного перевода. Даже дифференцируя СМП трансферного типа от всех остальных, можно наблюдать значительные расхождения внутри данной группы СМП, начиная от различий в понимании сущности и концепции трансфера, и заканчивая реальным встраиванием трансферного компонента в действующую или модельную систему. Исследуя наиболее общие для всех систем особенности трансфера, можно выявить и исследовать наиболее общие для определенного круга систем характеристики и методы реализации трансфера.

С учетом истории развития трансфера, изучения теоретического материала, переработкой результатов практических экспериментов, можно предположить, доказать и сделать вывод, что трансфер представляет собой компонентную структуру системы машинного перевода, содержащую описание процесса перевода ШЬдн&2е№ языка на выходной и осуществляющую процедуру поиска, нахождения и обработки межъязыковых соответствий на всех уровнях обработки естественного языка.

Трансфер является составной частью систем машинного перевода, которые, в свою очередь, выделяются в отдельный класс лингвистических текстовых процессоров [Грязнухина и др. 1990, Зубов 1990, ИИ-90, Королев 1991, Марчук 1990, Нелюбин 1991, Smith 1990].

Одна из основных особенностей трансфера— его применимость только к двуязычным межъязыковым операциям, в частности, к переводу. Если такие составляющие СМП (системы машинного перевода) как анализ, синтез могут применяться в других лингвистических процессорах, то трансфер в нашем определении может функционировать лишь в системе машинного перевода.

В системах машинного перевода зазличают два основных подхода к осуществлению выражения значений одного языка в терминах другого. Это теория переводных соответствий и модель извлечения смысла из текста. Вокруг этих теорий и по сей день ведутся жаркие споры. Основным предметом споров вокруг этих концепций является понятие интерлингвального интерфейса, то есть связи и характере взаимодействий между языками данной языковой пары. Модель переводных соответствий представляет непосредственную интерлингвальную связь, а модель СМП с интерлингвой соответственно содержит в явном виде своеобразный буфер между задействованными в процессе перевода языками — язык-посредник [Мельчук 1974,1975, Dorr 1993,1994,1997, Maxwell et al. 1988, Schubert 1988]. В таких системах не происходит поиск соответствий как таковой, как известно, в них осуществляется перевод исходного текста на язык-посредник, затем перевод с языка-посредника на язык переводного текста. В результате такого искусственного опосредования вероятность сбоя и искажения на каждой фазе обработки входного текста возрастает. Ведь для увеличения вероятности правильной передачи содержания, смысла текста, интерлингва должна стремиться к максимальной структурной и лексической близости к исходному языку: IL -> SL соответственно (IL-интерлингва, SL- входной язык), язык переводного текста должен быть близок по своей структуре и лексике интерлингве: IL ->TL (TL-переводной язык). Перевод осуществляется по следующей упрощенной схеме: SL-> IL—> TL. Вследствие такого опосредования, вероятность потери П/некоторых структур SL, а также TL увеличивается, что ухудшает суммарную эффективность системы, даже при определенной гибкости и динамичности языка-посредника. Вычеркивание промежуточного члена из предыдущей схемы и будет как раз представлять наиболее общую модель СМП на переводных соответствиях: SL-> TL.

Превосходство СМП с интерлингвой предполагалось также и с точки зрения многоязычного перевода, то есть при однажды разработанном языке посреднике для подключения к системе новых языков достаточно провести их начальную обработку в соответствии с внутрисистемным форматом, а интерлингва решит большинство лингвистических трудностей текста на уровне смысла. Ущербность трансферных систем в этом плане признавалась в необходимости более тщательного исследования языка не в плане значения текста, а в плане его структуры, что не позволяет решить проблемы сверхфразовых единств, анафор, эллипсисов и т.п. Кроме того, сторонники СМП с интерлингвой приводили доводы о слишком большом количестве частностей в машинном описании естественного языка, что можно в принципе также решить при помощи языка-посредника.

Первые системы получили название "СМП прямого перевода" (Direct Machine Translation). Одно из главных отличий первых СМП от последующих и современных заключается в нерасчлененности систем такого типа на отдельные компоненты; перевод строился соединением в одной программе нескольких алгоритмов, операции анализа и синтеза осуществлялись непосредственно друг за другом. К СМП прямого перевода можно отнести системы XONTX, первые версии систем LOGOS и SYSTRAN [Hutchins 1986]. Хотя именно СМП SYSTRAN была одной из первых систем, в которой лингвистическое обеспечение было разделено на более-менее независимые модули, хотя в основном эта модульность коснулась не столько собственно лингвистического, сколько программного обеспечения [Hutchins 1986]. Мы не будем подробно рассматривать системы такого типа, для данного исследования представляется важным противопоставить одну из ключевых характеристик систем машинного перевода— расчлененность лингвистического и программного обеспечения. Системы прямого перевода на сегодняшний день функционируют, однако, качество их перевода неудовлетворительное. Одна из таких систем — Tolken97 (разработчик — Hagsten & Со), ниже ** приведены примеры перевода: с немецкого языка на английский

Die Option Kontrast wird nicht in allen Macintosh-Treiberversionen angeboten.

The Option Contrast come no to everybody Macintosh-Treiberversionen angeboten. Tolken97 — с английского языка на немецкий

If you increase the complementary color, the main color becomes less vivid.

Falls du/sie erhoehen complementary faerben, hauptsaechlich faerben wurden weniger lebendig. Tolken97

Очевидно, что рассматриваемая система не производит никаких трансформаций, что говорит о недостаточно развитом грамматическом компоненте или об отсутствии оного. Система просто осуществляет поиск слов или словосочетаний по словарю входного языка, и заменяет его соответствующим словом выходного языка. Такая операция также подразумевает опору на модель переводных соответствий, трансфер такого типа называется прямым [ЬеЬ-Ьещег 1988].

Трансферные системы, то есть системы с явно выраженной фазой трансфера пришли на смену системам прямого перевода. Хотя системы с ограниченным набором правил грамматики, разноуровневых преобразований встречаются и по сей день: как правило, это проекты отдельных энтузиастов, программистов и лингвистов, а также тестируемые на предмет словарной билингвы системы, находящиеся на ранних стадиях разработки. Согласно классификации СМП, предложенной А.Д. Бакуловым, Н.Н. Леонтьевой [Бакулов и др. 1990], Королевым Э.И. [Королев 1991] СМП подразделяются на следующие типы: системы прямого перевода; трансферные СМП; семантические СМП.

Системы трансферного типа стало отличать, прежде всего, наличие развитого грамматического компонента, который представляет собой набор формализмов, решающий задачи анализа грамматических конструкций входного текста, и соотносящий их с соответствующими конструкциями выходного языка. Трансфер с самого начала отличался от систем первого типа относительно развитой модульностью, и, соответственно, гибкостью. Кроме того, трансферные системы сразу вследствие своей гибкости стали целью экспериментов исследователей, задававших различные уровни глубины синтаксиса и семантики. Поэтому развитие этих систем пошло по двум основным путям: одна разновидность трансферных систем представляла собой системы, содержащие процедуры синтаксического анализа, отражающие лишь поверхностные структуры, и системы, которые пытались проводить глубинный синтаксический анализ, а также осуществлять семантический разбор разных уровней языка.

Трансфер в системе GETA (разновидность системы GETA— СМП ARIANE) состоит из двух стадий: лексического (концептуального) трансфера и трансфера структурного, то есть синтаксического. В словаре соотносятся канонические формы входного и выходного языков и в процессе перевода этап лексического трансфера решает проблему разного количества компонентов в этих языках, когда одному слову входного языка соответствует идиома или связное словосочетание выходного языка или наоборот, когда отдельной или многокомпонентной системе соответствует только одно слово выходного языка. Как правило, все многокомпонентные составляющие распознаются еще на более ранних этапах анализа, однако часто поиск их соответствия происходит только на этапе трансфера, подобным образом решаются и проблемы многозначности, все, которые можно разрешить на дотрансферных уровнях, решаются до начала трансфера, остальные— во время операции " трансфера. Структурный (синтаксический) трансфер занимается решением проблемы структурных расхождений в системе языков. Например, обрабатывает отрицания, различия в управлении глаголов, осуществляет транспозицию прилагательных и существительных. В таком виде переработанная цепочка передается на этап синтаксического синтеза, который занимается построением структуры выходного языка, причем все сопоставительные трудности были уже решены на этапе трансфера. Обработав «глубинное» представление синтаксической структуры предложения, трансфер производит более «поверхностную обработку» данной структуры. Этап трансфера, по существу, представляет собой этап установления соответствий разной степени «глубины» [Марчук 1985, 1983].

Системы семантического типа кардинально отличаются от прямых и трансферных систем. Концептуальная составляющая (лексико-семантическая часть) таких СМП представлена не словарем- билингвой, а базой знаний, поэтому данное направление машинного перевода получило название Knoledge-Based Machine Translation (КВМТ) [Mitamura, Nyberg, Carbonell 1993], [Lonsdale, Mitamura, Nyberg]. Данное направление основано на модели "смысл <=> текст", предложенной Мельчуком И.А. и Жолковским А.К. [Жолковский и др. 1967, Мельчук 1974]. Системы семантического типа основаны на совсем иных принципах, нежели трансферные системы, и не являются объектом нашего рассмотрения. Одной из первых систем такого типа была СМП КВМТ-89 [Королев 1991]. ч

Значения единиц входного языка передаются значениям выходного языка в таких системах при помощи интерлингвы [Mitamura, Nyberg, Cairbonell 1991]. СМП такого типа вызывают большой интерес у исследователей. На настоящий момент действующих СМП (коммерческих и промышленных) семантического типа нет, все они носят экспериментальный характер.

Вследствие ориентации на алгоритм, а не компонентную архитектуру СМП, первые системы не были разделены на отдельные этапы обработки текста. Это приводило к неэкономичному использованию ресурсов при разработке СМП. С появлением деления обработки входного текста на уровни анализа и синтеза появилась возможность сделать алгоритм перевода реверсивным, то есть поменять направление перевода, не прилагая значительных усилий на первоначальную разработку. Схема изменения направления перевода в рамках данной языковой пары выглядит следующим образом: S1 ->Т1 <=> Т1-» S1.

Очевидно, что характеристика реверсивности словарного и алгоритмического обеспечения трансфера зависит прямо пропорционально от величины его модульности, то есть, чем больше степень независимости компонентов СМП друг от друга, тем больше вероятность обращения алгоритма перевода, изменения его направления. Вероятность успешной обратимости алгоритма зависит от степени расчлененности алгоритма:

811— 812— 813— — 815

815— 814— 813— 8й— 811,

Чем больше членов содержит алгоритм, тем больше вероятность сбоя внутри него, вероятность сбоя еще больше увеличивается при обращении алгоритма. Объективные расхождения в системах двух языков, задействованных в машинном переводе, не всегда позволяют расчленить алгоритм так, чтобы он одинаково корректно работал в обоих направлениях. Как правило, это вызвано расхождением формальных синтаксических описаний. Мы будем рассматривать реверсивность лишь лексического трансфера, т"о есть двуязычной словарной составляющей С МП трансферного типа.

Реверсивность является одной из важнейших особенностей, характеризующих как бинарные, так и множественные автоматические словари [Нелюбин 1991]. Реверсивность словарного обеспечения СМП - позволяет практически вдвое сократить время, затрачиваемое на разработку, а также на отладку систем такого типа. К сожалению, ни один словарь-билингва современных СМП не является реверсивным.

Разработка системы машинного перевода — процесс весьма трудоемкий и наукоемкий, занимающий значительное время. Поэтому разработчики СМП, как правило, концентрируют свои усилия на создании такой системы, в которую можно было бы впоследствии встраивать другие языки, т.е. не разрабатывать систему для данной языковой пары «с нуля», а использовать для этого прежнюю структуру системы, предыдущие наработки. С точки зрения проектирования системы такой подход предоставляет очевидные преимущества, экономя необходимые для разработки ресурсы, В лингвистическом аспекте разработка системы изначально для нескольких языков или для возможного потом расширения системы в плане дополнения ее другими языками сталкивается с огромным количеством проблем. Даже родственные языки, чрезвычайно близкие друг другу на всех уровнях представления, имеют массу структурных различий, что, в свою очередь, затрудняет машинную реализацию такой системы.

Поэтому подавляющее большинство современных СМП являются бинарными, то есть перевод осуществляется только в рамках одной языковой пары. Пока нет СМП, одновременно осуществляющих перевод с/ на несколько разных языков.

Сторонниками модели СМП с языком-посредником приводятся ^доводы н" о возможности относительно быстрой и простой разработки изначально мультиязыковой системы- Они исходят из того, что смысл одинаков во всех языках, поэтому достаточно разработать мощный и универсальный язык-интерлингву и минимальный набор правил анализа-синтеза для каждого языка-конституента системы.

В действительности, этот подход себя не оправдал, и декларированные преимущества модели при её реализации превращаются в недостатки вследствие отсутствия работоспособных интерфейсов, переходников между интерлингвой и входящими в систему естественными языками. Этот недостаток приводит к ухудшению модульности и расчлененности системы и усложняет её и без того непростую корректировку.

Вторая глава посвящена описанию уровней трансфера. Йз концепций расчлененности лингвистического обеспечения, деления архитектуры СМП на компоненты вытекают предпосылки стратификации трансфера, деления этого процесса на уровни. Разделение трансфера на уровни представляет собой последовательную обработку межъязыковых соответствий в зависимости от уровня лингвистического описания обрабатываемой в данный момент единицы перевода. Такая стратификация трансфершго компонента позволяет эффективнее алгоритмизировать процесс перевода, увеличить эффективность и простоту отладки лингвистического обеспечения на этапе трансфера и в системе в целом. Кроме того, такое членение выглядит вполне логичным и отражает деление описания языка в теоретическом плане и СМП в практическом применении на уровни морфологии, синтаксиса, лексики, семантики. Не вдаваясь в подробное глубокое исследования понятия смысла, мы можем сделать вывод, что основной смысл предложения, даже вырванного из контекста, большей частью передается отдельными словами, а точнее лексемами, меньшая же часть выражается посредством морфологии и синтаксиса. Отсюда следует, что эффективность системы машинного перевода может бьггь существенно увеличена за счет увеличения машинного лексикона системы, пополнения словарей, особенно тематических^ эффективного решения явлений омонимии, синонимии, полисемии. Мы последовательно будем рассматривать уровни трансфера, находящиеся во взаимосвязи друг с другом и дополняющие ** друг друга в процессе обработки естественно-языкового текста. Мы будем различать уровень лексического трансфера, представленный двуязычной билингвой или мультиязыковым системным словарем соответствий, и уровень представления синтаксических конструкций и их соответствий в разных языках. Семантический уровень как таковой не существует отдельно в машинном описании языка, семантические категории, используемые в процессе установления межъязыковых соответствий на уровне лексем и синтагм.

Рисунок 1 Стратификация трансфера продиктована логикой последовательности обработки предложения на естественном языке. Программа-диспетчер обращается поочередно к различным уровням:

Мы разделяем компонент трансфера на 2 составляющие: лексическую и синтаксическую.

Лексический трансфер представляет собой концептуальную составляющую трансферных СМП. Мы рассматриваем лексический трансфер, в основе которого лежит принцип переводных соответствий. Перевод, а в машинном понимании, скорее, переход, осуществляется именно на этапе поиска и отождествления переводных соответствий. Лексический трансфер состоит из описания правил и списка преобразований. В связи с этим можно выделить два структурных уровня лексического трансфера: декларативный и функциональный. Декларативный, или описательный, уровень —■ объявленные характеристики трансфера как компонента до начала перевода, функциональный уровень— языковые проблемы, решаемые в процессе перевода. В первом случае уместно говорить о статическом трансфере, не производящим преобразования динамически, и не подвергаемому преобразованиям, во втором случае — о динамическом, компонентом достаточной степени гибкости, решающим задачи в процессе перевода, опираясь на предмашинные описания (домашинный и допереводной трансфер) и математическо-лингвистический аппарат, решающий степень глубины, достаточности, необходимости и количества преобразований, или их ненужности в данном конкретном случае.

Любая система трансферного типа, не содержащая псевдоинтерлингвы и построенная на переводных соответствиях, содержит в себе словарь- билингву, если в системе производится перевод только в рамках двух языков, и мультиязычный параллельный словарь соответствий. Этот словарь- билингва отличается от других системных - словарей наличием слов всех, обычно двух задействованных в переводе языков, минимумом морфологической и грамматической информации.

При анализе лексики входного текста мы разделяем неоднозначности, которые необходимо решать на этапах анализа и неоднозначности, которые необходимо решать на этапе трансфера: Словосочетание "compact disc" имеет в русском языке следующее соответствие: "компакт-диск". При автоматическом парсингё возникает неопределенность, является ли в данном исходном словосочетаний слово compact прилагательным, или же существительным. В зависимости от решения данного вопроса, который решается на этапах анализа, трансфер (в зависимости от контекста) определяет соответствие: compact disc = компакт-диск, или compact = компактный, disc = диск.

Reihungen werden durch einen Verweis auf den Anfang der Reihung uebergebracht. — Массивы размещаются в памяти при помощи указателя на начало массива.

Reihung в контексте "программирование" означает только "массив", создание алгоритмов для автоматического определения контекста является чрезвычайно сложным делом и возможно только на искусственно ограниченных семантических полях. Неверное определение контекста может привести к подобным ошибкам:

4Нанизывания передаются ссылкой от начала нанизывания. (PROMT98).

Этап синтаксического трансфера может заключаться в том, что «каждая пара непосредственно связанных друг с другом слов преобразуется в словосочетание на выходном языке, оформленное в соответствии с грамматическими нормами выходного языка, зафиксированными в модели управления, с фиксированным порядком слов. При этом сохраняется порядок следования фрагментов, а также актантов и сирконстантов предиката и их взаимное расположение. Лексическая составляющая не в состоянии полностью осуществить перевод, не обращаясь к другим уровням описания текста, ведь «эквивалентность текстов не означает эквивалентности составляющих их элементов, в частности, слов» [Супрун 1988]. Если системы первого поколения были в основном ориентированы на обработку лексики, то системы второго поколения, с развитым грамматическим компонентом, широко опирались на синтаксис языков входного и выходного текстов. Интерес к синтаксису возник не случайно, значительная часть фактической и лингвистической информации заключается именно в синтаксических структурах текста, многие значения зависимы от характера синтаксических связей и отношений, синтаксическими правилами и закономерностями пронизаны все субкомпонентные составляющие естественно-языкового текста.

Трансфер на синтаксическом уровне выполняет ту же роль, что и на уровне лексики, то есть отождествление конструкций входного-выходного языков. «Трансфер заключается в том, что каждая пара непосредственно связанных друг с другом слов преобразуется в словосочетание на выходном языке, оформленное в соответствии с грамматическими нормами выходного языка, зафиксированными в модели управления, с фиксированным порядком слов. При этом сохраняется порядок следования фрагментов, а также актантов и сирконстантов предиката и их взаимное расположение» [Королев 1990]. Если на лексическом уровне очевидность необходимости соотнесения лексических соответствий не вызывает сомнений, как не вызывает сомнений и относительная простота четкого разграничения сферы действия этапов анализа, трансфера и синтеза, то на - уровне синтаксиса задача существенно усложняется и перестает быть тривиальной. Эта задача зачастую осложняется и весьма заметными различиями систем языков, ведь в случае отсутствия аналогов каких-либо конструкций входного языка в выходном языке придется придумывать правила, трансформирующее несовпадающие компоненты и приводящие их к единой форме, подготавливая их к дальнейшим стадиям обработки. В системе АМПАР проводятся следующие преобразования: перестановка в препозицию существительных, связанных с предшествующим существительным по родительному падежу; производится перестановка в постпозицию причастных оборотов; осуществляется трансформация актива в пассив в случаях, когда требуется сохранить порядок слов русского предложения.

Основная задача синтаксического трансфера —■ осуществление корректного поиска, нахождения и установления соответствий синтаксического уровня.

Кавдая СМП ориентирована на определенный тип грамматики. Различают несколько типов формальных грамматик, и условия выполнения синтаксического трансфера напрямую зависят от типа формализации языка, в частности, синтаксического уровня естественного языка.

Этим синтаксический трансфер существенно отличается от лексического трансфера, нарушая модульность СМП и ограничивая возможность создания полноценной лингвистической гетерогенной среды. *В связи 'с этим, разработка синтаксического компонента трансфера возможно только после полного регламентирования степени и уровня формализации в конкретной СМП, что не позволяет говорить о каких-либо общих признаках синтаксического компонента систем машинного перевода.

Рассмотрим конкретные случаи выражения синтаксических структур входного языка в терминах выходного языка. Возьмем, к примеру, простое предложение на немецком языке: Ich lese Buecher.

И переведем его на английский и русский языки: Немецкий— Ich lese Buecher. Английский — I read books. Русский — Я читаю книги.

Очевидно, что вне контекста данные предложения, точнее их синтаксическая структура, тождественна. Построив формализованную схему данного предложения, мы отобразим его синтаксическую структуру.

Русский:

Рисунок 3

Третья глава посвящена количественно-качественной оценке трансфера и ошибкам, допускаемым различными уровнями трансфера.

Исходя из понимания трансфера как этапа по нахождению разноуровневых соответствий, можно выделить следующие критерии корректности и ошибочности осуществления такого рода операций. Первая особенность оценки параметров трансферного компонента СМП является достаточная затрудненность совокупной объективной оценки результативности трансфера и качества перевода. В связи с этим необходимо произвести стратификацию методики исследования и оценки качества и производительности трансферного компонента таким образом, как производится стратификация трансфера при разработке СМП.

Выявление закономерностей ошибок, допускаемых СМП, построение их достоверной и систематизированной статистики позволит улучшить качество конкретной системы машинного перевода, учесть наиболее часто допускаемые ошибки при разработке СМП с целью устранения их уже на начальной стадии разработки СМП. В основе анализа трансферного компонента СМП лежит текст, подлежащий переводу данной СМП. Подбор текстов на начальном этапе тестирования является случайным, основное требование— текст не должен быть художественным или поэтическим, перевод подобных текстов, впрочем, не являлся раньше и не является сегодня основной задачей машинного перевода. Распространенным является подход, когда этап соответствий СМП разрабатывается на каком-то массиве текстов, для перевода тематики которых и предназначалась изначально конкретная СМП. Это исключает достаточно многочисленные неоднозначности входного текста.

Несмотря на практически повсеместное распространение трансферных СМП, их доминирующее положение на рынке современных СМП, этап и компонент трансфера недостаточно полно исследован, что и стало одной из основных причин выбора темы данного исследования. Мы предлагаем методику количественной и качественной оценки трансфера, так как трансфер, как компонент СМП, оказывает значительное влияние на эффективность лингвистического обеспечения и качество перевода системы в целом. Имеется несколько методик оценки качества перевода современных СМП, однако до настоящего времени не было методики оценки трансфера как компонента СМП. Мы постарались восполнить этот пробел.

Оценивать трансфер можно по нескольким параметрам: по уровню передачи соответствия; по типу передаваемого соответствия.

Методом оценки качества функционирования трансферного компонента стал метод сплошной выборки на основе текстоцентрического подхода. Выбранные параллельные тексты на трех языках подверглись тщательному анализу на предмет установления в них межъязыковых переводных соответствий. Установленные соответствия были классифицированы в соответствии с типологией Марчука Ю.Н., но с учетом специфики обработки этих соответствий этапом трансфера: были выделены соответствия лексического и синтаксического трансфера: эквивалентные; вариантные; трансформационные.

Затем мы осуществили перевод текстов при помощи разных СМП и провели сравнительный анализ на предмет корректного установления межъязыковых переводных соответствий выделенных нами типов. Затем количество правильно установленных соответствий каждого типа было разделено на общее количество соответствий данного типа:

Мощность трансфера= Правильные соответствия

Все соответствия

Затем результат был умножен на 100% и было получено процентное - соотношение правильно установленных соответствий в данном тексте.

При этом были получены следующие результаты, зафиксированные следующим образом: Название системы Тип трансфера Эквивалентные соответствия Вариантные соответствия Трансформационные соответствия.

Представляется интересным оценивать родственные системы, например, Promt и Stylus, ведь, по заверениям разработчиков, каждая новая версия системы представляет собой гигантский скачок в качестве перевода. Подтвердить или опровергнуть прогресс СМП может только независимое исследование. СМП Stylus 3.01 Гигант. Лексический трансфер.

Эквивалентные соответствия: 83% Вариантные соответствия: 72% Трансформационные соответствия: 75 %.

СМП PROMT98 (без подключения дополнительных словарей) Лексический трансфер.

Эквивалентные соответствия: 83% Вариантные соответствия:72% Трансформационные соответствия: 75%

СМП PROMT98 (с подключением специализированных словарей)

Лексический трансфер. Эквивалентные соответствия: 93% Вариантные соответствия: 82% Трансформационные соответствия: 72%

Направление немецкий язык — английский язык. СМП Power Translator

Лексический трансфер. Эквивалентные соответствия: 95% Вариантные соответствия: 87% Трансформационные соответствия: 81%

СМП SYSTRAN Лексический трансфер. Эквивалентные соответствия: 96%

Вариантные соответствия: 90% Трансформационные соответствия: 84%

СМП EASY TRANSLATOR Лексический трансфер. Эквивалентные соответствия: 88% Вариантные соответствия: 87% Трансформационные соответствия: 72%

Оценивать подобным образом синтаксический трансфер подобным образом мы считаем нецелесообразным ввиду крайне низкого качества синтаксического анализа современных СМП, что существенно влияет на качество синтаксического уровня трансфера Процент правильно установленных соответствий синтаксического уровня крайне невысок.

Полученные результаты позволяют сделать определенные выводы: качество трансфера напрямую зависит от эффективности работы алгоритмов анализа;

СМП одного семейства (PROMT и STYLUS 3.01) отличаются по качеству передачи соответствия незначительно, эффективность трансфера возрастает при подключении специализированных тематических словарей;

Количественной оценке подлежит только лексический трансфер.

Качество трансфера зависит от расхождений систем языков, задействованных в переводе: качество установления соответствий в паре немецкий язык — английский язык существенно выше, чем в паре немецкий язык — русский язык, что объясняется значительно меньшим количеством расхождений систем родственных языков.

Трансферные ошибки представляют собой особый класс ошибок СМП. Такого рода ошибки и сбои происходят на этапе поиска, нахождения и установления межъязыковых соответствий. Соответственно разделению уровней трансфера можно разделить и ошибки, допускаемые СМП на этапе трансфера: ошибки лексического трансфера, ошибки синтаксического трансфера.

Несмотря на модульность архитектуры СМП, к которой стремятся ч разработчики, трансфер тесно связан с другими компонентами СМП, и результаты их работы прямо или косвенно влияют на эффективность трансферных операций. Ошибка, допущенная системой на этапах анализа, может привести к сбою на этапе трансферных преобразований. Например, ошибка, допущенная системой на этапе морфологического анализа:

Mit einigen Erweiterungen versehen iaesst es sich auch im Bereich der Bueroautomation einsetzen. — С некоторыми дополнениями она [система] может применяться также в автоматизации делопроизводства. Трудность перевода этой фразы заключается в том, что машине достаточно трудно отличить инфинитив глагола от причастия, так как в данном случае эти формы совпадают: Versehen—Infinitiv; Versehen—Partizip 2

Вся конструкция представляет собой распространенное определение.

Вот как перевели эту фразу СМП, и какие ошибки были при этом допущены:

С несколькими расширениями можно снабжать(исполнять, ошибаться) это также в области(диапазоне) автоматизации делопроизводства установку. (PROMT 98)

Неправильно определенная часть речи, или класс слова, его морфологический код, повлекли за собой ошибки на этапе синтаксического анализа, и, соответственно, трансфера.

With some expansions equipped leaves it put also into the area of the Bueroautomation. (Simply Translating Deluxe)

В данном примере причастие переведено правильно, соответственно, оно было передано на этапе трансфера причастием.

Данный класс ошибок представляет собой ошибки, допущенные перед, или после этапа трансфера, и повлиявшие на его корректную работу. Мы называем такие ошибки внетрансферными.

Ошибки могут быть допущены непосредственно на этапе выполнения трансферных преобразований. Например:

Vielen dieser Forderungen kommt das Betriebssystem UNIX mit seinen zahlreichen Hilfsprogrammen nach. — Многим из этих требований отвечает * операционная система UNIX со своими многочисленными вспомогательными программами.

Многим из этих долговых обязательств следует операционная система UNIX с многочисленными вспомогательными программами. (PROMT 98)

Здесь допущена ошибка в передаче соответствия «Forderung"="Tpe6oBaHHe", что говорит либо о неполноте словаря-билингвы СМП, либо об ошибке в алгоритме контекстного анализатора СМП, либо произошел сбой при семантическом анализе.

Many of these demands are able to finish the operating system UNIX with his/its numerous support-programs. (Simply Translating Deluxe)

Данная система передала соответствие «Forderung"="demand" корректно, однако при передаче соответствия "nachkommen"="measure up" опустила грубую ошибку, заметно исказив смысл всего высказывания.

Здесь уместно подразделять ошибки непосредственно на соответствующие уровни, в зависимости от текущего уровня трансфера. Мы выделяем 2 класса непосредственно трансферных ошибок: ошибки лексического трансфера; ошибки синтаксического трансфера.

Ошибки лексического трансфера представляют собой некорректно проведенную операцию по выражению лексических единиц входного языка в соответствующих единицах выходного языка.

Согласно теории межъязыковых соответствий, можно выделить 3 типа лексических соответствий: эквивалентные; вариантные; трансформационные.

Соответственно, выделяются и ошибки лексического трансфера: ошибки лексического трансфера при эквивалентных соответствиях; ошибки лексического трансфера при вариантных соответствиях;

- ошибки лексического трансфера при трансформационных соответствиях.

Разные виды соответствий определяют и ошибки такого же типа: ошибки могут быть допущены в эквивалентных соответствиях, вариантных и трансформационных.

Ошибки лексического трансфера происходят на этапе поиска, нахождения и установления межъязыковых соответствий. Сообразно качеству соответствий выделяются ошибки лексического трансфера в эквивалентных, вариантных и трансформационных соответствиях. Ошибки лексического трансфера в эквивалентных соответствиях имеют следующие признаки: непереведенные слова; неправильно переведенные слова.

Однако этих формальных признаков недостаточно, чтобы утверждать, что они произошли именно на этапе трансфера. Непереведенные слова могли быть неправильно распознаны на дотрансферных фазах, например на этапе морфологического анализа. Проверить, что ошибка (непереведенное слово) была допущена именно компонентом трансфера, позволяет обращение к словарю-билингве. Именно из-за отсутствия в двуязычном трансфертом словаре необходимого эквивалентного соответствия слово не переводится системой. Основное решение данной проблемы — занесение соответствия в словарь, многие системы, предоставляющие пользователю возможность самостоятельного пополнения словаря, выпускают и дополнительные тематические словари с целью максимально покрыть лексический слой участвующих в переводе языков.

При дополнении словаря, особенно производимым пользователем, возникает опасность неправильного определения типа соответствия: занесенное в один словарь слово может существенно изменять значения в других контекстах. Значительное место занимают ошибки, нечетко разделяемые на уровни, например, предлоги, обладающие лексическим и грамматическим значением. Такого рода соответствия описываются отдельно и относятся к вариантно-трансформационным. Мы выделили при оценке трансфера наиболее типичных ошибок лексического трансфера в современных СМП.

PROMT98:

Эквивалентные соответствия:

Die Erzeugung eines neuen Prozesses geschieht durch den Systemaufruf fork

Производство нового процесса происходит системным призывом fork

Der aufrufende Prozess wird nun als Vaterprozess bezeichnet, der neuerzeugendeals Sohnprozess.

Призывающий процесс указывается теперь как процесс отца , пеиеггеи&е как процесс сына.

Отделить ошибки, допускаемые синтаксическим трансфером, от ошибок синтаксического анализа и синтаксического синтеза чрезвычайно сложно. В силу закрытости алгоритмов современных СМП независимые исследователи вынуждены изучать механизм работы СМП по принципу "черного ящика", то есть, подавая на вход СМП тестовые предложения, на выходе анализируя их. Доказать, что ошибка произошла в компоненте синтаксического трансфера, можно только при пошаговом исполнении этого этапа.

Наиболее типичные ошибки компонента трансфера: отсутствие соответствующего правила в выходном языке, если система работает кроме трансформационных, на эквивалентных синтаксических соответствиях.

Ошибки в трансформациях: данная ошибка допускается при предмашинной реализации вариантных и трансформационных соответствиях, а также при непосредственном динамическом исполнении трансформации в реальном тексте.

В заключении изложены общие выводы проведенного исследования.

В основе концепции трансферных систем машинного перевода лежит модель переводных соответствий разного уровня и различной степени глубины. Основная задача этапа трансфера — алгоритмическое нахождение и установление этих соответствий в определенной языковой паре. Помимо бинарных трансферных пар возможна такая организация трансферного компонента, при которой перевод может быть осуществлен одновременно в рамках нескольких языков. Разработка и отладка мультиязыкового набора переводных соответствий, особенно эквивалентного типа, гораздо менее трудоемкая процедура по сравнению с разработкой отдельных бинарных пар.

Благодаря многочисленным преимуществам архитектуры трансферных систем по сравнению с системами других типов, трансферные СМП занимают на сегодняшний день лидирующие позиции в осуществлении автоматического перевода. Основными преимуществами трансферных систем по сравнению с системами прямого перевода: относительная гибкость лингвистического обеспечения, возможность добавления в систему новых правил, не нарушая структуру всей системы; более высокое качество перевода, достигающееся за счет применения более развитых формальных грамматик; более четкое регламентирование операций, выполняемых каждым этапом перевода.

Основные преимущества трансферных систем перед СМП с интерлингвой: более простая отладка системы;

• —ориентация на прагматическое описание естественных языков, и, как следствие, относительно приемлемое качество перевода;

СМП с трансфером работают уже сейчас, они являются промышленной продукцией и коммерческим товаром, в то время, как СМП с интерлингвой остаются на уровне экспериментальных разработок и не дают сколько-нибудь внятного результата. Была разработана методика количественной и качественной оценки трансфера и получены практические результаты оценки трансфера в современных СМП. Основное содержание диссертационного исследования отражено в следующих публикациях:

1. Новиков В.А. Лексические межъязыковые соответствия в параллельных текстах при составлении трансферного компонента систем машинного перевода*— М.МГУ, Русский язык: исторические судьбы и современность: Международный конгресс исследователей русского языка.2001,520с.

2. Новые технологии разработки программного обеспечения применительно к системам машинного перевода трансферного типа. // Проблемы теории языка и переводоведения. Сборник статей. №4, М.,МПУ, 2000, с: 51-58

3. Разрешение многозначности предлога "von" при машинном переводе.(депонир0вана №46-2000, деп. от 24.04.2000)

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21 диссертация на тему: Трансфер в современных системах машинного перевода

Оглавление научной работы автор диссертации — кандидата филологических наук Новиков, Виктор Алексеевич

Введение диссертации2001 год, автореферат по филологии, Новиков, Виктор Алексеевич

Похожие темы диссертаций

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Трансфер в современных системах машинного перевода