Анализ и оценка эффективности современных систем машинного перевода

Хроменков, Павел Николаевич

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Анализ и оценка эффективности современных систем машинного перевода

Год: 2000
Автор научной работы: Хроменков, Павел Николаевич
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Москва
Код cпециальности ВАК: 10.02.21

450 руб.

Диссертация по филологии на тему 'Анализ и оценка эффективности современных систем машинного перевода'

Полный текст автореферата диссертации по теме "Анализ и оценка эффективности современных систем машинного перевода"

МОСКОВСКИЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ

на правах рукописи

РГБ ОД

ХРОМЕНКОВ 2 О НОЯ ?ПП0

Павел Николаевич

АНАЛИЗ И ОЦЕНКА ЭФФЕКТИВНОСТИ СОВРЕМЕННЫХ СИСТЕМ МАШИННОГО ПЕРЕВОДА

Специальность 10.02.21 — "Структурная, прикладная и математическая лингвистика"

Автореферат

диссертации на соискание учёной степени кандидата филологических наук

МОСКВА — 2000

Диссертация выполнена на кафедре теоретической и прикладной лингвистики Московского педагогического университета.

Научный руководитель: академик МАИ,

доктор филологических наук, профессор Ю.Н.Марчук

Официальные оппоненты: доктор филологических наук,

профессор А.Л. Семенов, кандидат филологических наук, доцент Веселов П.В.

Ведущая организация: Отдел прикладного языкознания

Института языкознания РАН

17-

Защита состоится: ' июля 2000г. в 11 часов на заседании диссертационного совета Д. 113.11.05 в Московском педагогическом университете по адресу: 107042 Москва, Переведеновский пер., 5/7.

С диссертацией можпо ознакомится в библиотеке Московского педагогического университета по адресу: 107005, Москва, ул. Радио, д. 10а.

Автореферат диссертации разослав Йюоня 2000г.

Ученый секретарь диссертационного еовега доктор филологических наук,-профессор ——Г.Т. Хухуии

Даппая работа посвящена анализу и типологическому описанию современных систем машинного перевода.

Мы живем в мире информационных технологий, которые прочно вош;и в нашу жизнь. С каждым годом увеличивается число пользователей Интернета -Всемирной паутины, которая претендует ш роль единого информационнохо пространства в планетарном маенггабе. Единственной преградой, которая незримо присутствует во всей Сети, является языковой барьер. Эта ггробле»ма, общая как для реального, так и для "виртуального" мира сети Интернет, до настоящего момента так и не нашла своего кардинального решения. Попытки внедрения универсального языка типа Эсперанто или какого-либо другого языка не привели к их массовому использованию, и единственным способом преодоления языкового несоответствия является перевод, известный еще с древнейших времен, когда этим делом занимались толмачи.

Но нынешний век, где информация изменяется 24 часа в сутки, применяются электронные средства связи, диктует свои условия. В такой ситуации классический подход к осуществлению перевода не всегда оправдывает себя, т.к. требует больших капиталовложений и временных затрат. В некоторых случаях более целесообразным представляется использование машинного игог автоматического перевода и систем машинного перевода (СМП). Развитие таких систем позволит оперативно осуществлять перевод информации и обрабатывать большие массивы документов в предельно сжатые сроки, т.е. удовлетворять основному требованию сегодняшней жизни: оперативной обработке огромных массивов информации при мшшматьяых затратах.

Выбор данной темы исследования обусловлен в первую очередь ее новизной, недостаточной степенью исследованности и актуальпостью рассматриваемых задач. Проблема эффективности машинного перевода является одним из ключевых факторов, определяющих перспективность развития данной области науки. В настоящее время не существует единой системы оценки эффективности работы существующих СМП. В данной работе предпринимается попытка проведения сравнительного анализа современных коммерческих СМП. В исследовании участвовали системы, осуществляклцие перевод с русского языка на английский и обратно и системы перевода с английского языка на немецкий и обратно.

Целью настоящей работы является сопоставительное исследование эффективности современных СМП. В основу качественного показателя результатов перевода и эффективности систем были положены не только лингвистические, но и экстралингвистические критерий оценки СМП.

Для достижения поставленной цели потребоватось разрешение следующих

задач:

— выявление современных СМП, нашедших сюе промышленное и коммерческое применение и являющихся уже не исследовательскими прототипами, а реально действующими системами, обладающими свойствами готового продукта;

— типологическое описание современных СМП и выявление доминирующего типа СМП;

— выделение основных критериев оценки эффективности машинного перевода (МП);

— проведение сравнительного исследования результатов переводов, выполненных современными СМП;

— анализ и типология ошибок при работе с СМП;

— апробация методов оценки на действующих системах МП и оценка их эффективности.

Теоретический аспект данной работы заключается в лингвистической разработке методов оценки. Системы рассматриваются, изучаются и оцениваются по принципу "черного ящика", который подразумевает отсутствие полной информации об алгоритмах работы системы, и на входном этапе мы априорно не знаем, с какой системой работаем. В результате исследования лингвистической компоненты систем МП создается теоретическое обоснование для определения типа системы и ее лингвистического обеспечения. Теоретическая значимость данного исследования заключается в возможности определения, дальнейшего моделирования и совершенствования лшн-Биотической составляющей не только в СМП, но и в целом в системах искусственного интеллекта (ИИ), неотъемлемой частью которых собственно и является МП. В рамках исследования предлагается расширить типологию переводных соответствий, предложенную Марчуком Ю.Н. (Марчук, 1983).

Практические исследования направлены на подтверждение правильности выработанных критериев и методов оценки СМЛ, возможности их использования в качестве тестового массива не только для рассматриваемых в данной работе СМП, но и в делом для оценки эффективности существующих СМП, которые работают с указанными языковыми парами. Практическая ценность данной работы заключается в том, что потенциальный пользователь СМП при выборе программы машинного перевода может воспользоваться приводимыми в данной работе тестами для проведения первичной оценки СМП.

Материалом исследования стали более 300 текстов на русском, английском и немедком языках. Источником языкового материала послужила сеть Интернет, наиболее динамично реагирующая па языковые преобразования современности.

Методами исследования послужили принцип "черного ящика", привлечение тестовых групп конечных пользователей, типологическое, лингвистическое и экстралингвисгическое сопоставительное описание.

На защиту выносятся следующие положения:

1. Доминирующим типом современных СМП являются СМП трансферного типа, получившие достаточно широкое промышленное и коммерческое распространение. Таким образом, системы трансферного типа представляют собой единственный класс СМП, который может быть подвержен сравнительно-сопоставительному исследованию с целью выявления эффективности современных систем МП.

2. Функционирование, развитие и совершенствование систем машинного перевода в настоящее время происходит в сети Интернет, которая является источником материалов не только для тестирования систем, но и служит рабочим пространством для такого рода систем в планетарном масштабе. Дальнейшая эксплуатация и разработка новейших СМП будет осуществляться посредством Интернета.

3. При типологическом исследовании ошибок при работе систем МП следует придерживаться комплексного подхода, базирующегося на учете этапов функционирования системы. Следует выделять ошибки автоматического анализа и синтеза, которые в свою очередь подразделяются на более конкретные подклассы, отражающие работу алгоритмического аппарата системы.

4. Подавляющее большинство современных СМП основано на принципе переводных соответствий. В результате типологического исследования модели ■ переводных соответствий возникла необходимость создания расширенной классификации переводных соответствий. Предложенная типология переводных соответствий на основе лингвистического обеспечения СМП позволяет более широко рассматривать проблему ошибок при работе систем МП и может быть использована при создании новых систем, основанных на применении принципа параллельных текстов.

5. Практическая классификация современных СМП, основанная на учете экстралингвиетпческих факторов и качества переводов, выполненных данными системами, позволяет составить впечатление об эффективности и функциональных возможностях каждой системы. Указанная 1-радация СМП представляет практическую ценность при выборе конкретной системы МП.

СТРУКТУРА РАБОТЫ

Диссертация состоит из введения, трех глав, заключения, списка использованной литературы и одного приложения. Приложение содержит образцы параллельных переводов текста в различных СМП.

СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ

Во введении обоснован выбор темы, ее актуальность, научная новизна, дели, задачи, теоретическая и практическая ценность диссертационно!« исследования. Сформулированы методы исследования и положения, выносимые на защиту.

Первая глава посвящена описанию современного состояния машинного перевода и типологической классификации существующих коммерческих систем МП.

За последнее десятилетие значительно возрос интерес к разрабопсс и использованию СМП. Такое положение вещей связано в первую очередь с бурным ростом и развитием вычислительной техники и постепенной интеграцией всемирного информационного пространства в единую сеть, прототипом которой

является Интернет. Уже более года на таком крупном и известном поисковом узле как AltaVista используется машинный лерепод в режиме реальною времени. На данном сервере, получившем название Babelfish, существуют различные возможности бесплатного перепода:

— можно перевести первые 250 слов любого документа, имеющегося у потенциального посетителя сайга;

— можно перевести любую страничку, задав в соответствующем окне ее адрес;

— а можно перевести и результаты поиска, полученные даяиой поисковой системой.

С 1994 года в службе CompuServe проводится эксперимент по внедрению и использованию СМП п онлайновых форумах. В настоящее время функция машинного перевода внедрена на б форумах. Компания Globalink. организовала в сети Интернет онлайновую службу машинного перевода, получившую название Comprende и являющуюся реачьной коммерческой системой, осуществляющей перевод с использованием СМП.

Российские ресурсы сети Интернет в области онлайнового перевода не сто ль обширны и разнообразны, что определяется в первую очередь ограниченным числом фирм, профессионально занимающихся созданием СМП. Перевод в режиме реального времени мозкпо полутать на сайте признанного лидера в области создания российских СМП, фирмы "ПРОМТ, Translate.ru. Перевод осуществляется с русского языка на английский, немецкий, французский и обратно, а также с английского на французский и обратно, с английскою на испанский, с немецкого на английский и с немецкого языка на французский и обратно. На сайте фирмы "Арсен&ть", занимающейся разработкой СМП, также имеется возможность осуществления онлайнового перевода. Однако в отличие от сервера фирмы "ПРОМТ", перевод осуществляется только с английског о языка на русский и обратно.

В последнее время в комплект поставок современных СМП все чаще и чаще входят программные продукты, обеспечивающие возможность перевода вебстраниц, электронной почты и онлайновых конференций.

Среди зарубежных фирм-производителей СМП, следует отметить компании SYSTRAN и Globalink. В комплект поставки SYSTRAN PRO 2.0 входит программа для перевода в Сета (WcbTrans), которая поддерживает все использующиеся в CMII рабочие языки, также существует возможность подключения модулей перевода к

почтовой программе Eudora и Интернет-браузеру Netscape Navigator. Компания Globalink- также разработала программу перевода в Интернете под названием Web Translator и создала модули перевода для программы Eudora. Фирма "ПРОМТ' разработала Интернет-переводчик, подучивший название PROMT Internet. Он переводит с английского, немецкого, французского языков на русский и обратно. Компания "Арсеналь" также выпустила Интернет-переводчик под названием "Сократ интернег", представляющий собой браузер на основе Internet Explorer 4.0, который переводит с английского, немецкого, французского языков и обратно.

Системы машинного перевода занимают немаловажное место среди лингвистических процессоров, относясь в большей степей! к классу текстовых процессоров. Ках отмечал Пиотровский Р.Г., к лингвистическим процессорам относят автоматизированные системы обработки текстовой и речевой информации. К классу текстовых процессоров, согласно классификации, предложенной Златоустовой JI.B., Королевы« Э.И, Марчуком Ю.Н. и другими авторами, кроме СМП также относятся (ГрязнухинаТ.А., Зубов A.B., Нелюбин Л.Л., Smith P.D.):

- автоматизированные информационные системы (АИС) и системы управления базами данных (СУБД);

- автоматические словари;

- системы автоматического проектирования (САПР);

- системы машинного перевода (СМП);

- редакционвд-издательские системы;

- системы автоматической компрессии текстов;

- системы автоматической адаптации текстов;

- автоматизированные обучающие системы;

- экспертные системы;

- системы шифровки и дешифровки текстов;

- системы автоматической атрибуции текстов.

Системы машинного перевода, являясь лишь частью перечисленных выше лингвистических процессоров, тем не менее, юрагот важную роль в развитии лингвистических автоматов. Б настоящее время наибольшее развитие получит! СМП, относящиеся к классу текстовых процессоров. Несмотря на это, ведутся активные работы в области создания СМП устной речи на иностранный язык. Такие

исследования проводились в British Telecom, SLT, ATR, при создании системы Verbmobil, в университете Каряеги Меллона в рамках проектов SNAP и Janus. Таким образом, можно говорить о непосредственной снязи СМП с другими текстовыми (в частности с автоматизированными информационными системами (АИС) и автоматизированными переводными словарями) и речевыми процессорами. Особого внимания заслуживает уже состоявшийся коммерческий проект, который осуществила компания Linguatec. Суть этого проекта заключается в слиянии СМП Personal Translator и системы распознавания речи Via Voice компании IBM для преобразования речи в текст, дальнейшего его перевода и обратного преобразования в речь, что является, по сути, переводом.

Современные СМП, согласно классификации, предложенной А.Д. Бакуловым, H.H. Леонтьевой, Э.И. Королевым н другими исследователями, подразделяются на следующие типы (Капанадзе О.Г., Кулагина О.С., Bátori I., Ilutchins W.J., Meli S., Schmitz В., Trujillo А.):

— СМП прямого rana;

— Трансферные СМП;

— СМП семантического типа.

Подавляющее большинство современных коммерческих СМП относится к системам трансферного типа. Кроме этого, мм полагаем, что, учитывая степень современного теоретическою обоснования СМП, совершенно уместно говорить об одном доминирующем типе СМП, а именно о системах трансферного типа и их модификациях (системы, основанные на использовании примеров и параллельных текстов, Example-Based Machine Translation (ЕВМТ) и т.д.).

Системы прямого типа в настоящее время практически не используются, став достоянием истории развития СМП. Системы, основанные на использовании баз знаний и языка-посредника, на сегодняшний день все же являются системами будущего, находясь на этапе лабораторных исследований и являясь, по сути, экспериментальными системами.

Следует также проводить классификацию СМП по степени их разработанности. В соответствии с делением, предложенным H.H. Леонтьевой, З.М. Шаляпиной и Э.И. Королевым, мы подразделяем СМП на следующие типы:

— исследовательские прототипы (изложен принцип действия системы безотносительно к условиям ее функционирования);

— экспериментальные системы (системы, прошедшие проверку на экспериментальных тестовых массивах);

— промышленные системы, работающие с реальными текстами, имеющие определенные помехоустойчивые, качественные и скоростные характеристики и прошедшие тестовые испытания,

— коммерческие системы — системы, обладающие всеми свойствами промышленных систем, предназначенные для коммерческой продажи и представляющие собой законченный самодостаточный продукт, имеющий свойства товара.

Подавляющее большинство рассматриваемых; в данном исследовании систем МП относится к коммерческим системам.

В 1952 году при поддержке фонда Рокфеллера в Массачусетсом технологическом институте (MIT) прошла первая конференция, посвященная проблемам машинного перевода. Результатом этой конференции стало создание в Джорджтаунском университете исследовательской группы под руководством Леона Досгерта, которая занялась подготовкой первого эксперимента по машинному переводу. Публичная демонстрация МП состоялась 7 января 1954 года в Нью-Йорке, в здании вычислительного центра IBM и получила впоследствии название Джорджтаунского эксперимента. Исследования в области МП в СССР начались вскоре после проведения Джордасгаунского эксперимента в начале 1954 года. В это время начали работу 3 основные группы; две в Москве и одна в Ленинграде. В 1955 году в Институте точной механики и вычислительной техники АН СССР проходит первый эксперимент по осуществлению МП в СССР. В рамках эксперимента на компьютере БЭСМ Академии наук СССР был осуществлен перевод с английского языка на русский текстов по прикладной математике. Объем словаря составлял уже 2300 слов. В 1956 году в Москве была создана Лаборатория машинного перевода под руководством Ю.А. Моторина. К 1957 году группа Моторина обработала почти 5 млн, словоупотреблений, на основе которых были созданы частотные словари, покрывающие до 98,5% английского текста газетной тематики. В 1959 году Лаборатория машинного перевода продемонстрировала СМИ, способную

переводить любые английские тексты общественно-политической тематики. Система могла работать на любом типе ЭВМ, что обеспечивало ее мобильность. Несмотря на то, что данная СМП нуждалась в доработке, ее можно с полным правом отнести к первым промыпшешиым СМП.

Особенностью систем МП прямого типа является перевод достаточно низкого качества, используемый в основной в качестве чернового варианта. К системам прямого перевода относятся ранние версии таких прохрамм как SYSTRAN, LOGOS,

SPANAM, TRANSOFT, АМПАР-АНРЛП-СБРИНТ, СИЛОД, GERENG-GERRUS и др.

С середины 60-х годов начинается бурное развитие синтаксической теории. Для систем МП данного типа характерен развернутый синтаксический анализ и синтез, причем анализ осуществляется в категориях входного языка, а синтез в категориях выходного языка. Для того чтобы преобразовать результаты анализа в категории, используемые для синтаксического синтеза, требуется трансфер. Следует отметить, что современные трансфсрные СМП, согласно концепции переводных соответствий, предложенной Марчуком Ю.Н., все же целесообразно отнести к системам машинного перевода траясфсриого типа, основанным на переводных соответствиях.

Переводные соответствия подразделяются на:

— эквивалентные (эквиваленты, появившиеся в силу языкового тождества);

— вариантные (контекстуально-зависимые эквиваленты);

— трансформационные (требуют различных преобразований для правильной передачи смысла).

В 1984 году М. Нагао предложил принцип перевода с помощью примеров или параллельных текстов (Example-Based Machine Translation (ЕВМТ)), который во многом перекликается с концепцией переводных соответствий, выдвинутой Ю.Н. Марчуком. Принцип действия систем МП, основанных на использовании параллельных текстов, заключается в создании архива переводов, где храгоггея уже переведенные предложения, как на исходном, так и на выходном языках. Кроме этого структура предложений, которые носят наиболее общий характер, представляется в виде эталона (как во входном, так и в выходном предчожениях), по аналогии с которым строятся реальные предложения.

В последнее время стали также создаваться СМП, использующие комбинированные принципы перевода (mulii-engine machine translation, МЕМТ). В таких системах наряду с СМП травсферного типа существует архив переводов, принцип действия которого описан выше. Среди современных коммерческих СМП к этому классу относятся СМП Langenscheidt T1 Plus 3.0 и Power Translator Plus.

Оценивая состояние современных СМП трансферного типа, следует отметить доминирующую роль модели "текст-текст", предложенной Марчуком Ю.Н. и являющейся продолжением его концепции переводных соответствий.

В 80-х годах появились СМП, основанные на знаниях (КВМТ). Основным отличием данных систем от других программ машинного перевода является наличие компоненты, включающей экстралингвистические знания. К этому классу относятся системы семантического типа, иснользурщие , модель. '¡смысд<->текст",

Ъ cz^^roua-bui симтф Olfr- Г Г if/

. пазраоотаннуку) А.К. Жолковским, И.А. Мельчушм. Существует достаточное 'PlJUsuM^ КЛлЩшга^^Яи» . , h £ / crfi. rt 7 -i^ïT,

' количество исследовательских прототипов данного класса: ASCOF, ATLAS 11, DLT,

CONTRAST, HICATS/JE, КВМТ-89, LUTE, PIVOT, PLAIN, ROSETTA, SEMSYN,

TRANSLATOR. Данное направление, возможно, получит свое широкое

распространение лшшь после прорыва в области создания систем ИИ, когда станут

возможными формализация и представление в системе экстралингвистческих

знаний.

Следует отметить основные тенденции развития, наметившиеся в последнее

время:

— распространение номенклатуры СМП — увеличение числа рабочих языков и тематики систем;

— переход к разработке речевых СМП, связь с текстовыми СМП и другими речевыми и текстовыми ЛП в интегральных системах;

— сокращение сроков разработки СМП, распространение промышленных и коммерческих систем МП трансферного типа;

— важность этапов совершенствования и оценки эффективности СМП;

— массовое внедрение СМП в сети Интернет и дальнейшее распространение систем во Всемирной паутине.

Вторая глава посвящена типологическому описанию ошибок при работе МП и построению расширенной модели переводных соответствий.

Проблемой оценки эффективности СМП занимаются на протяжении длительного времени. Несмотря на все многообразие предлагаемых методик, в настоящий момент нет единой общепринятой методики оценки эффективности СМП.

Кроме практического подхода к оценке переводов, выполненных с помощью систем МП, существуют и: теоретические аспекты данной деятельности. Ванников Ю.В. предлагает оценивать перевод, учитывая различные типы адекватности перевода: семантико-стилистическуго, функциональную и дезидеративную. Соотнесенность перевода с оригиналом также может быть выявлена на основе их преобразований в базиспые структуры и последующего сравнения с учетом некоторого числа допустимых расхождений. Такие трансформации в глубинно-синтетические структуры предлагаются Мартемьяновым Ю.С., а Шаляпина З.М. преобразует их в глубинно-семантические структуры. А. И. Новиков предлагает сравнивать тексты оригинала и перевода на основе декотатной структуры предложений. Королев Э.И., придерживаясь традиционного подхода к оценке качества перевода, предлагает считать основными критериями эффективности перевода понятность и адекватность. Кулагина О.С. в своей работе отмечает, что для репрезентативности оценки эффективности СМП необходимо проводить их тестирование на представительных массивах информации. Проблемой понятности и адекватности перевода, выполненного СМП, занимались не только отечественные ученые, цо и их зарубежные коллега. Одним из первых результатов оценки эффективности СМП можно считать знаменитый доклад ALP АС.

Приведем пятибалльную шкалу оценки перевода, предложенную Nagao:

1. Смысл предложения понятен и не возникает никаких вопросов. Грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования.

2. Смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.

3. Общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя,

словоупотребления и стилистических ошибок. Требуется обращение к оригиналу.

4. В предложении имеется большое количество грамматических, словоупотребителышх и стилистических ошибок. Смысл предложения с трудом можно понять после внимательного изучения.

5. Смысл предложения непонятен.

Критерий адекватности, наряду с критерием понятности, являются одними из важнейших элементов оценки качества перевода. Для исследования большинства коммерческих СМП независимыми экспертами применяется принцип "черного ящика", когда предположение о внутренней структуре системы МП и ее типе делается на основании выполненных ею переводов. В противовес принципу "черного ящика" используется принцип прозрачности системы, иначе именуемый "glass box". Этот принцип применяется при оценке эффективности системы ее создателями и разработчиками. Также широкое применение нашел принцип использования тестовых массивов текста. Для этой цели используются как реальные тексты, гак и искусственно созданные для проверки правильности перевода того шш иного языкового явления. Так Маргарет Кинг и Фалкедал предлагают комбинированное использование тестовых и реальных массивов текста для того, чтобы проверить функционирование системы не только в заранее заданных для нее условиях, но и в непредсказуемой обстановке реального текста, смоделировать которую практически невозможно.

При проведении оценки эффективности СМП немаловажную роль играет цель такого исследования а его непосредственные участники. Согласно градации, принятой М. Кинг, Труджилло, Хатчинсом, Сомерсом и другими исследователями, выделяются следующие группы:

Исследователи Спонсоры исследований Разработчики Покупатели Переводчики

Конечные пользователи переводов

Системы МЛ кроме лингвистической компоненты состоят также из программного обеспечения. D связи с этим в рамках проекта EAGLES/TEMAA были разработаны и созданы специальные стандарты (ISO 9126 и ISO 14000). Для этого были специально выявлены шесть основных характеристик качества программного обеспечения: функциональность, надежность, практичность, эффективность, открытость и портативность. Данные критерии применимы также ко всем остальным типам программного обеспечения.

Несмотря иа многообразие рассмотренных теоретических и практических подходов к решению данной проблемы, их объединяет одна общая тенденция: какой бы ни была методика оценки качества переводов, она так или иначе исследует, классифицирует и пытается устранить ошибки, допущенпые в процессе перевода.

Для оценки рассматриваемых нами систем применяется принцип "черного ящика", теоретически обоснованный моделью нсреводиых соответствий. Модель переводных соответствий состоит из двух компонентов: предметного и динамического. Следует сразу отметить, что динамический компонент не будет рассматриваться в рамках данной работы ввиду невозможности исследования лингвистического обеспечения и алгоритмов рассматривасмых систем. Предметный компонент также состоит из двух элементов: предметного и переводного. В состав предметного элемента входят лексика, грамматика и семантика. Перечисленные составляющие во взаимодействии образуют текст. Переводной компонент состоит из типов переводных соответствий, с учетом которых будет строиться типология ошибок при работе МП. Нами рассматриваются 3 основных типа переводных соответствий: эквивалентные, вариантные и трансформационные.

Развивая модель переводных соотвегствий, предложенную Марчуком Ю.Н., Киселев A.II. предлагает уточнить типологию переводных соответствий, сообразно условиям функционирования СМП СПРИНТ. Согласно уточненной типологии, выделяются следующие типы переводных соответствий: на уровне отдельных слов:

- однозначные (табличные);

- многозначные (схемные); на уровне словосочетаний:

- табличные;

- схемные.

на уровне грамматических конструкций (схемные); на уровне грамматических категорий (схемные).

Под табличными понимаются независимые от контекста соответствия, которые задаются в системе в виде жестко взаимосвязанных таблиц. Схемными считаются такие соответствия, выбор которых, несмотря на конечную заданиость всех возможных вариантов, зависит от контекста.

Основываясь на модели переводных соответствий и результатах эмпирических исследований современных коммерческих СМП, проведенных по принципу "черного ящика", нами были выявлены следующие типы ошибок, характерных для МП:

— ошибки автоматического анализа:

— лексического анализа

— морфологического анализа

— синтаксического анализа

— текстового анализа;

— ошибки автоматического синтеза:

— текстового

— семантического

— синтаксического

— морфологического

— лексического.

Ошибки лексического анализа наиболее гранспарентны при оценке качества МП. К таким ошибкам относится появление в выходном тексте непереведенных или неправильно переведенных слов, причинами которого являются как неполнота автоматического словаря, так и наличие орфографических ошибок во входном тексте и неправильное разрешение лексической омонимии и полисемии: Publishable translation / publishable трансляции, Types of translation / типы трансляции, Natural-language translation enigine / двигатель трансляции естественного языка / перевода естественного языка, развитие Интернета / Entwicklung Интернета, darüber

hinaus ! out of darüber, ohne deren Layouts zu verändern / without layouts to verändern, mit eingeschränktem Funktionsumfang J with United Funktionsumfang.

Приведенные выше примеры отражают наиболее общие ошибки лексического анализа, вызванные неполнотой словаря и неправильным разрешением омонимии и полисемии. Словарные ошибки, относящиеся к разряду лексикографических, moot быть достаточно легко исправлены путем дополнения словарей и создания при необходимости алгоритмов разрешения омонимии и полисемии. В настоящее время проблема многозначности решается в основном путем создания узкоспециализированных словарей, позволяющих пользователю наиболее точно задать контекст переводимого текста.

К ошибкам, вызванным конкретной работой автоматического анализа, относятся ошибки нарушения согласования и управления. Такие ошибки, как отмечает Рябцева Н.К., могут быть вызваны неправильной работой не только морфологического, но и синтаксического, а также семантического блоков. Примером таких ошибок может служить неправильно заданное падежное управление (например: to help companies expand i помочь компаниям расширять; finds useful - находит ... полезный), предполагав управление (например, send invoices to а different address — посылать счета различному адресу / послать счет фактуру в другой адрес), неправильное согласование числа (company officials say-иредставители компании говорит).

К ошибкам собственно морфологического анализа относится неправильное определение грамматических планов. Проиллюстрируем данное явление на конкретных примерах: доставка заказанных товаров ¡delivery of booking goods, Gut ist die Kompatibilität / Tocap является совместимостью, ist gedacht / is imaginarily.

К ошибкам синтаксического анализа относится неправильное или неполное определение синтаксической структуры входного ¿федложения, которое в свою очередь ведет к неправильному синтезу выходного предложения: Der virtuelle Uebersetzer im Word ... der sich erweitern läßt J The virtual translator ... which is extend can, My newsletter is read in France ... / Мое информационное письмо читать в Франция.

Среди ошибок, вызванных текстовым анализом, самыми распространенными являются неправильное распознавание антецедентов местоимений, анафорических

отношений и эллиптичных структур. К сожалению, данная проблема до настоящего момента не нашла своего кардинального решения, так как распознавание и понимание данных структур человеком основывается на использовании понятийно-категориального аппарата и широком рассмотрении контекста. Приведем примеры таких ошибок: ... I received letter from a French company ... I put it through the translator / ... Я получил символ от Французской кампании ... Я помещал это через переводчика ... / Я устанавливаю этому через переводчика / Ich führte sie durch ...

. По завершении автоматического анализа и необходимых трансферных. преобразований наступает этап автоматического синтеза. При такого рода преобразованиях, равно как и при автоматическом анализе, системы допускают целый ряд ошибок на уровне текстового, синтаксического, морфологического и лексического синтеза.

Ошибки текстового синтеза заключаются в неправильном синтезе связочных конструкций, антецедентов и т.д. Приведем примеры ошибок при текстовом синтезе: The explosion of interest in machine translation is not about productivity ... It's about trying to do the types of translations... / Взрыв интереса (процента) в машинном переводе не относительно производительности... Это - относительно попытки делать типы трансляций...

В процессе синтаксического синтеза наиболее распространенной ошибкой является неправильный порядок слов в выходном тексте: Siemens habe sich ehrgeizige Ziele gesetzt und werde nicht auf Etappenzielen stehen bleiben. / Siemens садился ehrgeizige цели и не будет относиться (не стоять) на цепях этапа остаются. The current Web site allows users to ... / Der aktuelle Netzstandort Benutzern erlaubt...

К ошибкам морфологического синтеза относятся: неправильное употребление форм глаголов, неверное согласование составного сказуемого, некорректный синтез слов, принадлежащих к различным частям речи: Августовский кризис не привел к значительному снижению трафика / august crisis not has bringed about significant reduction of traffic ..., I got the idea /Я получать идея.

К ошибкам лексического синтеза мы относим не только собственно лексические ошибки, но и ошибки управления. Такая классификация рассматривается нами уместной в связи с тем, что функции сипьноуправлязощих предлогов в подавляющем большинстве случаев включаются в информационную

ячейку слова в АС (автоматическом словаре). Приведем некоторые примеры: бизнесмены / businessmans, российский пользователи / russia users, пользователи Интернета / users Internonthal, machine translation / Maschirte-Uebersetzung.

Ошибки, допущенные на этапе лексического анализа, оказывают влияние на морфологический, синтаксический и текстовый этапы анализа и ммут повлечь за собой появление новых ошибок на указанных этапах. Неправильная работа системы на этапе анализа и некорректное разрешение неоднозначностей ведут в свою очередь к появлению ошибок на этапе синтеза. Исходя из этого, мы полагаем, что ошибки, возникающие в результате работы СМП, необходимо рассматривать системно, с учетом не только имеющейся па выходе информации, но и с привлечением дополнительных сведении о работе тех или иных алгоритмов перевода на каждом языке системы.

Таким образом, в результате наших исследований мы пришли к выводу о целесообразности рассмотрения переводных соответствий иа лексическом, морфологическом и синтаксическом уровнях. Основой предложенного деления соответствий послужил!' результаты типологического исследования ошибок при работе СМП. Поэтому мы выделили следующие типы переводных соответствий: по программному обеспечению: табличные схемные

по лингвистическому обеспечению:

эквивалентные соответствия лексического типа; эквивалентные соответствия морфологического типа; эквивалентные соответствия синтаксического тина; вариантные соответствия лексического типа; вариантные соответствия морфологического типа; варианпше соответствия синтаксического типа; трансформационные соответствия лексического типа; трансформационные соответствия морфологического типа; трансформационные соответствия синтаксического типа; трансформационные соответствия текстового типа.

Рассмотрим переводные соответствия лексического типа с точки зрения оцешш качества работы современных. СМП и выявления ошибок перевода. Эквивалентные соответствия лексического типа представляют собой диалектическое противоречие, являясь, с одной стороны, наиболее простыми элементами для перевода, а, с другой стороны, составляя едва ли не самый обширный класс переводческих ошибок. Ввиду однозначного соответствия лексических единил входного и выходного языка их перевод осуществляется по установленной схеме, а именно путем внесения в автоматический словарь значений соответствующих единиц.

Вариантные соответствия лексического типа также составляют один из наиболее крупных классов лексических ошибок при МП. В отличие от эквивалентных соответствий, вариантные соответствия лексического типа и ошибки, вызванные их неправильным переводом, не могут быть столь оперативно устранены. Разрешение многозначности в процессе МП решается не только словарными, но и алгоритмическими методами. Тем не менее, данная проблема не имеет однозначного решения, и пополнение словарей пользователем может вызвать некорректную работу системы на других массивах текстов. Приведем примеры таких ошибок: Web Site / Selmnetz-Aufstellungsort ! участок ткани / Spinnwebe / Gewebe-Gelande, I received a letter /Я получил символ, newsletter / Mitteilungsblatt.

Трансформационные соответствия лексического типа - наиболее сложный вид соответствий для перевода посредством СМП, который в большинстве случаев переводится некорректно, так как требует коренного преобразования структуры словосочетания.

Рассмотрим функционирование переводных соответствий на морфологическом уровне. Под эквивалентными соответствиями морфологического типа мы предлагаем рассматривать такие соответствия морфологического уровня, которые остаются пеизметшми и образуют переводное единство в рамках взятого текста. В приводимом ниже примере, глагол «sein», который в исходном предложении находится в прошедшем времени и множественном числе, переводится на русский язык глаголом "быть", который также представлен во множественном числе и прошедшем времени: Die Uebersetzungen waren bei schwierigen Texten holprig / Переводы были при трудных текстах holprig. Суть данных соответствий

заключается в том, что сходные структуры, вне зависимости от контекста и прочих факторов будут иметь одинаковый перевод на уровне морфологических характеристик. Мы полагаем, что закономерности такого рода должны найти свое отражение при функционировании ЕВМТ-систем (Example-Based Machine Translation systems), позволяя осуществлять корректный перевод по аналогии с образцом, имеющимся в архиве системы.

К вариантным соответствиям морфологического типа относятся конструкции, при переводе которых существует несколько взаимоприемлемых в условиях машинного перевода вариантов отображения морфологических характеристик. Причем оба варианта считаются приемлемыми для СМП с последующим выбором доминирующего варианта на уровне постредактирования человеком: шляпа моего отца/ der Hut von meinem Vater, der Hut meines Vaters, оперение птицы /das Gefieder von dein Vogel; das Gefieder des Vogels.

Трансформационные соответствия морфологического типа встречаются довольно редко, если их рассматривать в чистом виде, как они описаны у Марчука Ю.Н., где они функционируют в основном на синтаксическом уровне.

Минимальной единицей переводных соответствий синтаксического типа является предложение. Целесообразно также отмечать эквивалентные, вариантные и трансформационные соответствия и на уровне предложений. Под эквивалентными соответствиями синтаксического типа мы предлагаем рассматривать такие предложения, структура которых на входном языке полностью соответствует структуре предложений на выходном языке: Sie läuft unter Windows 95/98 und MT4.0 sowie mit eingeschränktem Funktionsumfang auch unter Window,i3. Ix. / It runs under Window 95/98 and MT 4.0 as well as with reduced function range also under Windows 3Jx.

Трансформационные соответствия синтаксического типа подразумевают полное перестроение структуры выходного предложения rio сравнению со структурой входного предложения. Приведем для иллюстрации пример, заимствованный у Комиссарова: If the funeral had been yesterday, I could not recollect it better. Правильно это предложение переводится на русский язык следующим образом: "Я помню эти похороны так, как будто они были вчера". А вот как его перевели системы МП: Если похороны были вчера, я ne мог бы

вспоминать их лучше. Wenn das Begräbnis gestern gewesen war, könnte ich sich nicht besser erinnern. Результаты перевода свидетельствуют о том, что данные структуры, в которых необходима трансформация, не всегда правильно переводятся СМП, требуя редакторской правки.

В результате типологического исследования ошибок машинного перевода стало возможным уточнение модели переводных соответствий с вычленением новых типов соответствий, характерных дня функционирования современных СМП. Расншрецкая классификация позволяет определять соответствия и, соответственно, исправлять ошибки на всех языковых уровнях, используемых в современных системах.

Третья глава посвящена описанию действующих коммерческих систем и оценке их эффективности. Объектом исследования стали следующие СМП: PROMT 98, SYSTRAN PRO 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt T1 Standard 3.0, Personal Translator Plus 2.0, I'fnver Translator Deluxe и опНпс-переводчики (wvwv.translate.ru, Сократ онлайн).

Системы машинного перевода, рассматриваемые в нашем исследовании, тестируются по принципу "черного ящика" в соответствии с типологией ошибок, изложенной во второй главе. Каждая система оценивается по пятибальной шкале:

5 - отличный перевод (смысл нонятен, требует минимального постредактирования)

4 - хороший перевод (общий смысл понятен, требуется постредактирование)

3 - удовлетворительный перевод (общий смысл в большинстве случаев понятен, на требуется постредактирование с обращением к оригиналу)

2 - неудовлетворительный перевод (общий смысл б» обращения к оригиналу понять сложно, необходим большой объем постредактирования)

1 - неприемлемый перевод (смысл понять невозможно, обьем постредактирования сопоставим с выполнением перевода еще раз)

Оценка понятности и адекватности перевода исходному тексту осуществлялась не только самими исследователям!, к этому анализу привлекались также участники контрольных групп, в состав которых входили студенты лингвистического отделения Московского педагогического университета (МПУ). Помимо лингвистических факторов, которые легли в основу оценочной шкалы для рассматриваемых СМП, анализироватись также и экстралингвистические факторы. В результате исследования были получены следующие результаты, свидегельстауюшие об эффективности рассматриваемых систем:

Группа СМП, поддерживающая русский язык: Англо-русское направление перевода

1. CMII PROMT 98: перевод подавляющего большинства текстов удовлетворительный (3 - в скобках представляется бал по предложенной ранее оценочной шкале), встречаются тексты, которые могли бы быть отнесены к разряду хороших переводов (4). Постредактирование требуется во всех случаях. Занимает первое место среди систем, осуществляющих перевод с английского языка на русский. В процессе перевода требуется пополнение пользовательского словаря. В некоторых случаях сложно понять выходной текст без обращения к оригиналу, и ои не всегда адекватен оригиналу. По сервисным возможностям и количеству специализированных словарей данная СМП является бесспорным лидером. PROMT 98 считается самой дорогой программой среди СМП российских разработчиков.

2. СПРИНТ-5 характеризуется удовлетворительным переводом текстов (3). Выходные тексты требуют обязательного постредактирования. Система занимает второе место среди российских СМП по качеству перевода. СМП СПРИНТ-5 требует дальнейшей отладки и изменения некоторых алгоритмов перевода. Сервисные функции системы и ее цепа исследованию не подвергались, так как на настоящий момент данная СМП не является конкурентоспособной по данным показателям.

3. Сократ 2.0: данная CM1I осуществляет перевод удовлетворительного качества (3), требующий значительного постредактирования. Некоторые отрезки выходного текста невозможно понять без обращения к оригиналу. Требуется пополнение словарей и расширение их номенклатуры, которая уступает рассмотренным выше системам. Сервисные функции системы крайне отраничены. Данная СМП занимает третье место среди остальных программ Mil по качеству перевода и сервисным функциям. Соотношение цепа/качество является сбалансированным.

Русско-английское направление перевода

PROMT 98: система показала хорошее качество перевода (4) с необходимым постредактированием. Количество незнакомых слов было незначительным. Рассматриваемая СМП занимает первое место среди систем МП с русского языка на английский. Сочетание сервисных функций и количества словарей является оптимальным. Соотношение цена/качество является несколько непропорциональным с явным завышением в сторону стоимости системы.

1. SYSTRAN PRO 2.0: система выполняет переводы хорошего качества (4), требующие дальнейшего постредактирования. Требуется некоторое пополнение словарей системы. По качеству перевода и сервисным функциями СМП SYSTRAN PRO 2.0 занимает второе место. Учитывая, что русский язык не является основным языковым направлением, разрабатываемым в системе SYSTRAN, такие результаты тестирования свидетельствуют о высоком уровне всей системы. По сервисным характеристикам СМП SYSTRAN PRO 2.0 уступает СМП PROMT 98, однако количество специализированных словарей достаточно велико. Соотношение цена/качество полностью соответствует предоставляемым программой переводам и по этому показателю CMII SYSTRAN PRO 2.0 опережает СМП PROMT 98, предоставляя качественные переводы при более низких капиталовложениях. Основным достоинством системы является го, что все специализированные словари (а их насчитывается 22) поставляются в комплекте с программой и входят в ее базовую стоимость.

2. Сократ 2.0 показала удовлетворительное качество перевода (3), требующего значительного постредактирования. В протестированных текстах были обнаружены грубые ошибки анализа, и синтеза, которые свидетельствуют о

несовершенстве или ошибках в алгоритмах системы. Появление таких ошибок в различных версиях системы свидетельствует об их закономерности. Система нуждается в некоторой доработке и устранении выявленных ошибок. Сервисные функции практически полностью отсутствуют. Соотношение цена/качество является реальным.

2. Группа СМП, осуществляющая перевод с английского языка па немецкий и с немецкого на английский

1. SYSTRAN PRO 2.0 занимает лидирующее положение среди рассматриваемых СМП, показывая хорошие результата перевода (4) в целом. В отдельных случаях система продемонстрировала отличный перевод (5), практически не требующий постредактирования. Однако в подавляющем большинстве случаев все-таки требуется определенная обработка выходного текста с изменением структуры предложения и добавлением новой лексики, особенно при работе с англонемецкой языковой парой. По сервисным функциям и количеству специализированных словарей CMII SYSTRAN PRO 2.0 также занимает ведущие позиции, однако, не всегда является бесспорным лидером. Соотношение цена/качество оправданно, несмотря на более высокую, по сравнению с остальными системами, стоимость.

2. Personal Translator Plus: система показала удовлетворительное качество перевода (3), требующее значительного постредактирования с обращением к оригиналу в некоторых случаях. Общий смысл переведенных текстов ясен без обращения к оригиналу, однако требуется изменение структуры предложения и добавление новой лексики. Такого рода преобразования имеют место преимущественно при переводе с английского языка на немецкий. СМП Personal Translator Plus предоставляет расширенные сервисные функции, позволяя осуществлять перевод с помощью архива уже переведенных предложений. Соотношение цена/качество является приемлемым при переводе, продемонстрированным системой.

3. Power Translator Deluxe: система показата удовлетворительные результаты (3), заняв третье место среда тестируемых СМП. Выходной текст требует несколько большего по сравнению с рассмотренными выше системами объема

постредактирования. Во многих случаях требуется пополнение словаря новой лексикой и изменение структуры выходных предложений на немецком языке. СМП Power Translator Deluxe обладает хорошими сервисными функциями, однако, отсутствие специализированных словарей сказывается на разрешении многозначности и качестве перевода в делом. 4. Langenscheidt T1 Standard 3.0 выполняет переводы удовлетворительного качества (3). Однако объем постредактирования, добавления повой лексики и ошибки алгоритмического характера при переводе существительных на немецкий язык позволяет поставить систему только на четвертое место в ряду протестированных СМП. Система МП Langenscheidt T1 Standard 3.0 предоставляет стандартные сервисные возможности и предлагает большое количество специализированных словарей. Достоинством данной системы является возможность тематического деления добавляемой лексики. Такая функция имеется только у данной программы и не представлена больше ни в одной из рассматриваемых нами систем. Соотношение цепа/качество является оправданным, при повышении качества переводов данное соотношение станет оптимальным.

Бесспорным лидером среди российских оп1ше-переводчиков является сайг www.translate.ru фирмы "ПРОМТ". Для работы сайта используется модифицированный модуль перевода, несколько отличный от используемого в базовых системах. Качество перевода, выполненного данным опИпе-переьодчиком, сопоставимо и не уступает качеству работы базовых систем. На сайте имеется возможность подключения некоторого числа специализированных словарей, что является несомненным преимуществом по сравнению с остальными рассматриваемыми online-переводчиками (Сократ-онлайп, AltaVista), где такая опция отсутствует.

В заключении изложены общие выводы проведенного исследования.

СМГ1 трансферного типа являются единственными программами МП, голучившими свое промышленное и коммерческое распространение, и занимают [омипируюгцее положение. В основу функционирования современных сметем тина 1ВМТ, МЕМТ и других положен принцип переводных соответствий на основе юдели "текст-текст". СМП семантического типа находятся на этапе геследовательских прототипов и не в состоянии конкурировать на рынке с истемами трансферного типа.

Несмотря на многообразие методик оценки эффективности систем МП, в [астоящее время превалируют эмпирические методы тестирования СМП. 1аибольшее распространение получили статистические методы, принцип "черного гщика", учет семантической полноты и точности, а также принцип понятности и декватности. Широко попользуется метод привлечения конечных пользователей да оценки выходного текста. В исследовании применяется принцип "черного |щика" с последующей классификацией ошибок, допущенных системой в процессе 1еревода, привлечением оценки, полученной в тестовых группах и окончательным ранжированием СМП по пятибальной оценочной шкале.

Предложена новая, более развернутая классификация переводных »ответствий по лингвистическому обеспечению, отвечающая задачам описания анализа и синтеза современных СМП. Данная классификация позволяет описывать зее языковые уровни и служит прекрасным инструментарием для создания и разработки систем МП, основанных на использовании примеров (ЕВМТ).

Типологическое исследование ошибок машинного перевода целесообразно проводить не на основе грамматических явлений, а с учетом этапов работы системы.

Проблема оценки современных СМП должна решаться комплексно с учетом не только лингвистических, но и экстралингвистических факторов функционирования программы. Данная методика позволяет оценивать рассматриваемые систсмы не только с точки зрения лингвистических факторов, но и с учетом экспертного заключения от тестовых групп и привлечением экстралипгвистических факторов. Предложенная градация систем МП по эффективности их работы позволяет потенциальному пользователю более четко ориентироваться в возможностях систем и необходимых затратах па их содержание.

Результаты нашего исследования могут быть использованы при принятии решения о приобретении той или иной СМП.

Итоги работы обсуждались на научной конференции "Коммуникативные стратегии на пороге XXI века" (Москва, МГУ, январь 1999 года), на конференции "Теория н практика речевых исследований (АРСО-99)" (Москва, МГУ, сентябрь 1999 года) и были представлены в виде тезисов на Десятую сессию Российского акустического общества (Москва, Акустический институт им. акад. H.H. Андреева, май 2000 года). Основное содержание диссергациояного исследования отражено в следующих публикациях:

1. Хроменков П.Н. Виртуальный мир: миф или реальность. Вестник Московского педагогического университета, Вып. 2, Москва, 1998. — Стр. 50-55.

2. Хроменков ГШ. Системы машинного перевода в сети Интернет. Проблемы филологии, лингводидактики и межкультурной коммуникации. Москва, 1999. — Стр. 121 - 141.

3. Хроменков П.Н. Совремешюе состояние и перспективы развития систем машинного перевода (СМП). Материаш конференции "Теория и практика речевых исследований (АРСО-99)", Москва, 1999. — Стр. 56 - 57.

4. Хроменков П.Н. К вопросу об анализе ошибок в современных системах автоматического перевода. Сборник трудов X сессии Российског о акустического общества, Т.2, Российская академия естественных наук, М., 2000. — Стр. 336 -338.

5. Хроменков П.Н. СМП PROMT 98 и СМИ SYSTRAN PRO 2.0: общие черты и различия. В печати.

Оглавление научной работы автор диссертации — кандидата филологических наук Хроменков, Павел Николаевич

Введение з

Глава 1 Современное состояние разработки систем машинного перевода

1.1 Роль и место СМП среди других лингвистических процессоров

1.2 Типология современных систем МП

1.3 Системы прямого перевода

1.4 Трансферные СМП

1.5 СМП семантического типа

1.6 Выводы к главе

Глава 2 Современная методология оценки эффективности систем машинного перевода

2.1 Современные методы оценки СМП

2.2 Типология ошибок при работе МП

2.3 Выводы к главе

Глава 3 Оценка эффективности основных действующих систем машинного перевода

3.1 Краткая характеристика систем МП: PROMT 98, Systran Pro 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt Т1 Standard 3.0, Personal Translator Plus 2.0, Power Translator Deluxe

3.2 Оценка эффективности современных СМП: PROMT 98, Systran Pro 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt T1 Standard 3.0, Personal Translator Plus 2.0, Power Translator Deluxe

3.3 Выводы к главе.

Введение диссертации2000 год, автореферат по филологии, Хроменков, Павел Николаевич

Мы живем в мире информационных технологий, которые прочно вошли в нашу жизнь. На работе и дома мы пользуемся современными средствами связи; компьютер превратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в обыденной жизни. Бурное развитие новых информационных технологий свидетельствует о всевозрастающей роли вычислительной техники в мировом информационном пространстве, о постепенной дигитализа-ции все новых и новых отраслей нашей жизни. С каждым годом увеличивается число пользователей Интернета — Всемирной паутины, которая претендует на роль единого информационного пространства в планетарном масштабе. Несмотря на противоречивость нашего мира, наличие вооруженных конфликтов и разногласий между странами, Сеть становится "виртуальной реальностью" особого типа, позволяющей осуществлять такую интеграцию между народами, которая в реальной жизни остается все еще несбыточной мечтой. Сеть Интернет - это мир без границ, где в течение нескольких секунд можно оказаться на другой части земного шара. Единственной преградой, которая незримо присутствует во всей Сети, является языковой барьер. Эта проблема, общая как для реального, так и для "виртуального" мира сети Интернет, до настоящего момента так и не нашла своего кардинального решения. Попытки внедрения универсального языка типа Эсперанто или какого-либо другого языка не привели к их массовому использованию, и единственным способом преодоления языкового несоответствия является перевод, известный еще с древнейших времен, когда этим делом занимались толмачи.

Но нынешний век, где информация изменяется 24 часа в сутки и применяются электронные средства связи, диктует свои условия. В такой ситуации классический подход к осуществлению перевода не всегда оправдывает себя, т.к. требует больших капиталовложений и временных затрат. По сравнению с прошлыми веками объем информации, предназначенной для перевода, значительно увеличился. В некоторых случаях более целесообразным представляется использование машинного или автоматического перевода и систем машинного перевода (СМП). Развитие таких систем позволит оперативно осуществлять перевод информации и обрабатывать большие массивы документов в предельно сжатые сроки, т.е. удовлетворять основному требованию сегодняшней жизни: оперативной обработке огромных массивов информации при минимальных затратах.

Выбор данной темы исследования обусловлен в первую очередь ее новизной, недостаточной степенью исследованности и актуальностью рассматриваемых задач. Проблема эффективности машинного перевода является одним из ключевых факторов, определяющих перспективность развития данной области науки. В настоящее время не существует единой системы оценки эффективности работы существующих СМП. В данной работе предпринимается попытка проведения сравнительного анализа эффективности современных коммерческих СМП. В исследовании участвовали системы, осуществляющие перевод с русского языка на английский и обратно, и системы перевода с английского языка на немецкий и обратно. Для определения степени влияния языковой интерференции на качество перевода в эксперимент были включены англонемецкая и немецко-английская языковые пары.

Для достижения поставленной цели потребовалось разрешение следующих задач: выявление современных СМП, нашедших свое промышленное и коммерческое применение и являющихся уже не исследовательскими прототипами, а реально действующими системами, обладающими свойствами готового продукта; типологическое описание современных СМП и выявление доминирующего типа СМП; выделение основных критериев оценки эффективности машинного перевода (МП); проведение сравнительного исследования результатов переводов, выполненных современными СМП; анализ и типология ошибок при работе с СМП; апробация методов оценки на действующих системах МП и оценка их эффективности.

Теоретический аспект данной работы заключается в лингвистической разработке методов оценки. Системы рассматриваются, изучаются и оцениваются по принципу "черного ящика", который подразумевает отсутствие полной информации об алгоритмах работы системы, и на входном этапе мы априорно не знаем, с какой системой работаем. В результате исследования лингвистической компоненты систем МП создается теоретическое обоснование для определения типа системы и ее лингвистического обеспечения. Теоретическая значимость данного исследования заключается в возможности определения, дальнейшего моделирования и совершенствования лингвистической составляющей не только в СМП, но и в целом в системах искусственного интеллекта (ИИ), неотъемлемой частью которых собственно и является МП. В рамках исследования предлагается расширить типологию переводных соответствий, предложенную МарчукомЮ.Н. (Марчук, 1983).

Практические исследования направлены на подтверждение правильности выработанных критериев и методов оценки СМП, возможности их использования в качестве тестового массива не только для рассматриваемых в данной работе СМП, но и в целом для оценки эффективности существующих СМП, которые работают с указанными языковыми парами. Практическая ценность данной работы заключается в том, что потенциальный пользователь СМП при выборе программы машинного перевода может воспользоваться приводимыми в данной работе тестами для проведения первичной оценки СМП. На основе результатов такого теста можно будет принять окончательное решение о целесообразности применения СМП в тех или иных отраслях промышленности и получить начальное представление о качестве машинного перевода и имеющихся на сегодняшний день недостатках в этой области. Такие предварительные исследования, основанные на материалах, приводимых в данной работе, позволят сэкономить капиталовложения, избежать последующих финансовых потерь и разочарований вследствие завышенных требований к СМП.

Материалом исследования послужили более 300 текстов на русском, английском и немецком языках. Источником языкового материала послужила сеть Интернет, наиболее динамично реагирующая на языковые преобразования современности.

Методами исследования послужили принцип "черного ящика", метод тестовых групп конечных пользователей, типологическое, лингвистическое и экстралингвистическое сопоставительное описание.

На защиту выносятся следующие положения: 1. Доминирующим типом современных СМП являются СМП трансферного типа, получившие достаточно широкое промышленное и коммерческое распространение. Таким образом, системы трансферного типа представляют собой единственный класс СМП, который может быть подвержен сравнительно-сопоставительному исследованию с целью выявления эффективности сож JTTT временных систем МП.

4. Подавляющее большинство современных СМП основано на принципе переводных соответствий. В результате типологического исследования модели переводных соответствий возникла необходимость создания расширенной классификации переводных соответствий. Предложенная типология переводных соответствий на основе лингвистического обеспечения СМП позволяет более широко рассматривать проблему ошибок при работе систем МП и может быть использована при создании новых систем, основанных на применении принципа параллельных текстов.

5. Практическая классификация современных СМП, основанная на учете экстралингвистических факторов и качества переводов, выполненных данными системами, позволяет составить впечатление об эффективности и функциональных возможностях каждой системы. Указанная градация СМП представляет практическую ценность при выборе конкретной системы МП.

Результаты работы обсуждались на научной конференции "Коммуникативные стратегии на пороге XXI века" (Москва, МГУ, январь 1999 года), на конференции "Теория и практика речевых исследований (АРСО-99)" (Москва, МГУ, сентябрь 1999 года) и были представлены в виде тезисов на Десятую сессию Российского акустического общества (Москва, Акустический институт им. акад. Н.Н. Андреева, май 2000 года). Основное содержание диссертационного исследования отражено в 5 публикациях.

Заключение научной работыдиссертация на тему "Анализ и оценка эффективности современных систем машинного перевода"

3.3 Выводы к главе

В результате исследования эффективности современных СМП были выявлены системы, показавшие наилучшие результаты в ходе проведенного тестирования. Следует отметить, что за исключением некоторых систем практически все рассмотренные СМП показывают одинаковый базовый уровень перевода и обладают основными сервисными функциями.

Проведенное нами исследование и деление отражают эффективность лингвистического обеспечения и качество перевода для каждой отдельной программы. В результате исследования было выявлено, что все без исключения системы нуждаются в настройке на предметную область, в которой они будут использоваться. Без проведения такой отладки трудно говорить об успешном использовании СМП. Результаты данного исследования представляют практическую ценность при выборе той или иной СМП, т.к. системы, занявшие первые места в нашей классификации, обладают хорошим качеством перевода и значительными сервисными возможностями.

Тестирование СМП с английским и немецким языками показало, что перевод, вследствие близости данных языков, выполняется с меньшим числом ошибок, нежели в случае с русским языком. Однако такие явления, которые присущи только одному языку из рассматриваемой пары (например, рамочная конструкция в немецком языке), переводятся не всегда корректно и требуют вмешательства редактора. На основании полученных результатов можно сделать вывод, что языковая интерференция способствует повышению качества перевода и сокращает количество ошибок, т.к. все преобразования происходят на уровне эквивалентных и вариантных соответствий. Проведенный анализ результатов перевода позволяет также выдвинуть гипотезу об универсальном характере переводческих трудностей при работе систем МП. Гипотеза требует дальнейшей проверки и развития.

Данные исследования, полученные эмпирическим путем, позволяют сделать вывод, что лучшей СМП, осуществляющей перевод с русского и на русский язык, является СМП PROMT 98. Среди зарубежных систем, работающих с английским и немецким языками, следует выделить СМП SYSTRAN PRO 2.0, которая показала наилучшие результаты перевода. Указанные системы являются лидерами не только среди традиционных СМП, но и в области таких новых информационных технологий, как Интернет, предоставляя услуги бесплатного перевода в режиме реального времени. Мы полагаем, что сфера информационных технологий станет играть ключевую роль в развитии СМП.

Заключение

В результате типологического и сравнительно-сопоставительного исследования современных СМП по принципу "черного ящика" и на основе случайной выборки текстов можно сделать следующие выводы.

СМП гармонично сочетаются с другими текстовыми и речевыми процессорами, образуя самодостаточный конгломерат, который может быть использован в системах искусственного интеллекта (ИИ) и прочих информационных системах. Современные СМП активно используются и интегрируются в сеть Интернет. Дальнейшее развитие СМП будет происходить с помощью Всемирной паутины, неотъемлемой частью которой станут современные системы машинного перевода, работающие в режиме реального времени. Наблюдается тенденция к увеличению номенклатуры рабочих языков и созданию систем, работающих с редкими языками,

СМП трансферного типа являются единственными программами МП, получившими свое промышленное и коммерческое распространение, и занимают доминирующее положение. В основу функционирования современных систем типа ЕВМТ, МЕМТ и других положен принцип переводных соответствий на основе модели "текст-текст". СМП семантического типа находятся на этапе исследовательских прототипов и не в состоянии конкурировать на рынке с системами трансферного типа. Несмотря на попытки создания новой универсальной теории представления и формализации экстралингвистических знаний, данная проблема по-прежнему не решена.

Несмотря на многообразие методик оценки эффективности систем МП, в настоящее время превалируют эмпирические методы тестирования СМП. Наибольшее распространение получили статистические методы, принцип "черного ящика", учет семантической полноты и точности, а также принцип понятности и адекватности. Широко используется метод привлечения конечных пользователей для оценки выходного текста. Отсутствие единого стандарта оценки современных систем МП свидетельствует о недостаточной исследованности данной отрасли науки и наличии неразрешенных проблем и разногласий между исследователями. В нашем исследовании применяется принцип "черного ящика" с последующей классификацией ошибок, допущенных системой в процессе перевода, привлечением оценки, полученной в тестовых группах, и окончательным ранжированием СМП по пятибалльной оценочной шкале.

В результате исследования была выявлена необходимость расширенной трактовки модели переводных соответствий. Имеющаяся типология переводных соответствий не охватывает всего спектра межъязыковых отношений. Таким образом, была предложена новая, более развернутая классификация переводных соответствий по лингвистическому обеспечению, отвечающая задачам описания анализа и синтеза современных СМП. Данная классификация позволяет описывать все языковые уровни и служит прекрасным инструментарием для создания и разработки систем МП, основанных на использовании примеров (ЕВМТ).

Типологическое исследование ошибок машинного перевода целесообразно проводить не на основе грамматических явлений, а с учетом этапов работы системы. В этой связи нам представляется уместным выделять ошибки автоматического анализа и синтеза, которые в свою очередь делятся на ряд классов, соответствующих конкретным этапам работы алгоритмов системы. Основываясь на результатах исследования, мы считаем целесообразным применение системного подхода к проблеме оценки качества современных систем МП. Причины возникновения переводческих ошибок настолько взаимосвязаны, что исправление одной ошибки без учета общей ситуации может привести к снижению эффективности системы в целом.

Проблема оценки современных СМП должна решаться комплексно с учетом не только лингвистических, но и экстралингвистических факторов функционирования программы. Данная методика позволяет оценивать рассматриваемые системы не только с точки зрения лингвистических факторов, но и с учетом экспертного заключения от тестовых групп и привлечением экстралингвистических факторов. Предложенная градация систем МП по эффективности их работы позволяет потенциальному пользователю более четко ориентироваться в возможностях систем и необходимых затратах на их содержание. Результаты нашего исследования могут быть использованы при принятии решения о приобретении той или иной СМП.

Рассмотренный в данной работе круг проблем не является исчерпывающим и требует продолжения исследований в данной области. Отдельного развернутого исследования требует проблема типологии переводных соответствий. На основе переводных соответствий нового типа, описанных в данной работе, возможно построение универсальной системы оценки эффективности СМП, которая, возможно, будет находиться в корреляционной зависимости с предложенным тезисом об универсальном характере переводческих трудностей при работе СМП. Предложенная гипотеза требует отдельного изучения и проверки, т.к. в рамках данной работы была осуществлена лишь постановка проблемы и определены основные направления исследования.

Список научной литературыХроменков, Павел Николаевич, диссертация по теме "Прикладная и математическая лингвистика"

1. Андреев Н. Д. Основные направления работы экспериментальной лаборатории машинного перевода. В кн.: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986. — 382 p.

2. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. М.: Просвещение., 1966. — 302 с.

3. Бакулов А.Д., Леонтьева Н.Н., Шаляпина З.М. Отечественные системы машинного перевода. В кн.: ИИ-90: Искусственный интеллект/ Справочник/ Книга 1. Системы общения и экспертные системы. М.: Радио и связь. -1990. Стр. 248-261.

4. Боброва В .Я. Системы машинного перевода. Итоги науки и техники. Сер. Информатика. М.: ВИНИТИ. -1990. - Т.14. - Стр. 149-178.

5. Ванников Ю.В. Виды адекватности и типология перевода.— В кн.: Совершенствование перевода научно-технической литературы и документов: Тез. докл. всесоюзн. конф. М. — 1982.

6. Ванников Ю.В. Понятие адекватности текста и типы адекватности перевода.— В кн.: Уровни текста и методы его лингвистического анализа. М., 1982а.

7. Вардуль И.Ф. Об изучении семантического аспекта языка. Вопросы языкознания № 6/73. — Стр. 9-21.

8. Вольф М. Европа "проспала" интернет-торговлю? PCWeek/RE, 2 сентября 1998 г.

9. Грязнухина Т.А., Дарчук Н.П., Клименко Н.Ф. и др. Использование ЭВМ в лингвистических исследованиях. Киев: Наукова Думка. - 1990. - 266 с.

10. Искусственный интеллект/ Справочник/ Книга 1. Системы общения и экспертные системы. М.: Радио и связь. - 1990. - 458 с.

11. Капанадзе О.Г. Современные зарубежные системы машинного перевода. -М.: ВЦП.- 1989.- 102 с.

12. Каничев М. Встреча компьютерных толмачей. Мир ПК, №8 1998. — Стр. 100-102.

13. Ким Т. В 2005 году население Интернета перевалит за полмиллиарда. ZDNet UK, 18 декабря 1998 г.

14. Киселев А.Н. Элементы теории и практики переводных соответствий // НТИ / ВИНИТИ. Сер. 2, Информ. процессы и системы. М., 1993. - N 8. — Стр. 1621.

15. Комиссаров В.Н. Слово о переводе. М.: ИНО, 1973. — Стр. 237.23 .Королев Э.И. Промышленные системы машинного перевода — М.: ВЦП, 1991. — 100 с.

16. Котов Р.Г., Марчук Ю.Н., Нелюбин JI.JI. Машинный перевод в начале 80-х годов// ВЯ. 1983. - N1. - Стр. 31-38.

17. Кулагина О.С. Исследования по машинному переводу. М.: Наука. - 1979. -320 с.

18. Кулагина О.С. Машинный перевод: современное состояние // Семиотика и информатика. М., 1989. - Вып. 29. — Стр. 5-33.

19. Кулагина О.С. О семантическом анализе на основе предпочтений. Препринт Института прикладной математики АН СССР. Москва №3/90. — Стр. 1-20.

20. Кюннап Э. Автоматическое распознавание речи. Таллинн: Ин-т кибернетики АН Эстонии - 1989. - 108 с.

21. Леонтьева Н.Н. База знаний и автоматический перевод (проект многоязычной информационно-справочной системы)// Междунар. семин. по машин, переводу "ЭВМ И ПЕРЕВОД 89"/ Тбилиси, 27.11.-02.12. 1989 г./ Тезисы докладов. М.- 1989. —Стр. 178-181.

22. Леонтьева Н.Н., Шаляпина З.М. Современное состояние машинного перевода. В кн.: ИИ-90: Искусственный интеллект/ Справочник/ Книга 1. Системы общения и экспертные системы. М.: Радио и связь. 1990. — Стр.216.248.

23. ЛЭС: Лингвистический энциклопедический словарь. — М.: Советская энциклопедия, 1990. — 685 с.

24. Мартемьянов Ю. С. Эквивалентность в порождающей грамматике.— В кн.: Теория перевода и научные основы подготовки переводчиков: Тез. всесоюзн. конф. М., 1975. —Ч. II.

25. Марчук Ю.Н, Об автоматизации составления схем перевода многозначных слов. Научно-техническая информация, ВИНИТИ АН СССР, № 9, 1964. — Стр. 35-38.

26. Марчук Ю.Н., Моторин Ю.А. Основные принципы автоматизации перевода с английского языка на русский. Вопросы радиоэлектроники, серия ЭВТ, вып. 7, 1970. —Стр. 11-19.

27. Марчук Ю.Н. Синтактико-семантический анализ в системе машинного перевода АМПАР. В кн.: Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — Стр. 8-9.

28. Марчук Ю.Н. Проблемы машинного перевода. М.: Наука. - 1983. — 201 с.

29. Марчук Ю.Н. Методы моделирования перевода. — М,: Наука. 1985. — 233с.

30. Марчук Ю.Н. Математические методы в языкознании/ Обзор материалов конференции COLING-88. М.: ИНИОН. - 1990. - 46 с.

31. Марчук Ю.Н. Проблемы компьютерной лингвистики; Модель "текст-текст" и переводные соответствия в теории машинного перевода. Сборник научных статей. Минск 1997. — Стр. 21-29

32. Марчук Ю.Н. Основы компьютерной лингвистики. М.; Народный учитель. -2000. — 227 с.41 .Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — 196 с.

33. Мельчук И.А. Опыт теории лингвистических моделей "СМЫСЛ-ТЕКСТ". -М.: Наука. 1974.-314 с.

34. Мельчук И.А. Русский язык в модели "смысл-текст". Москва-Вена-Школа "Языки русской культуры", 1995. — 682 с.

35. Митин В. ПРОМТ владеет французским на 30% лучше, чем конкуренты. PC Week: 12 ноября 1999 г.

36. Молдокулова Н.В., Трунин-Донской В.Н. Лингво-акустические проблемы создания системы распознавания слитной речи на ЗВМ. Фрунзе: Илим. -1989.- 136 с.

37. Моторин Ю.А., Марчук Ю.Н. Реализация автоматического перевода на современных серийных ЭВМ общего назначения. Вопросы радиоэлектроники, серия ЭВТ, вып. 7, 1970.— Стр. 20-29.

38. Моуд Д. Машинный перевод: новое поколение технологий. Новые продукты помогают переводить основной смысл содержания глобальных интрасетей. PC Week.

39. МСМП-89: ЭВМ и перевод/ Международный семинар по машинному переводу/ Тбилиси, 27.11.-02,12. 1989 г./ Тезисы докладов. М.: ВЦП. - 1989. - Стр. 348.

40. Нелюбин Л.Л. Перевод и прикладная лингвистика. М.: Высшая школа., 1983. —207 с.

41. Методическое пособие). М.; Всесоюзный центр переводов, 1991. — 152 с.

42. Нелюбин Jl.JI., Хухуни Г.Т. История и теория зарубежного перевода. Учебник, М.: МПУ, Издательство Сигнал, 1999. — 144 с.

43. Нелюбин Л.Л., Хухуни Г.Т. История и теория перевода в России. Учебник, М.: МПУ, Издательство Сигнал, 1999а. — 151 с.

44. Новиков А. И. Применение денотатной структуры текста для перевода научно-технической литературы.— В кн.: Психолингвистические аспекты грамматики. М. — 1979.

45. Перминов С. Купля-продажа в сети Интернет. "Московская правда" №11 (23584) от 20 января 1999 г.

46. Пиотровский Р.Г. Машинный перевод в группе "Статистика речи": результаты и перспективы. В кн.: Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — Стр. 5-7.

47. Пиотровский Р.Г. На путях создания интеллектуальных систем обработки текста/о лингвистическом автомате/ ЭВМ и перевод. М.: ВЦП, 1991.

48. Попов Э.В. Экспертные системы. Решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987. — 288 с.

49. Потапова Р.К. Речевое управление роботом. М.: Радио и связь. - 1989 - 248 с.

50. Потапова Р.К. Тайны современного кентавра. М.: Радио и связь. 1992 -248с.

51. Потапова Р.К. Речь: коммуникация, информация, кибернетика. — М.: Радио и связь, 1996. —1500 с.

52. Рецкер Я.И. О закономерных соответствиях при переводе на родной язык. Теория и методика учебного перевода. М.: 1950.

53. Рябцева Н.К. Информационные процессы и машинный перевод: Лингвист, аспект / Отв. ред. Котов Р.Г.; АН СССР. Ин-т языкознания. М.: Наука, 1986.- 167 с.

54. Рябцева Н.К. Текст как объект содержательного анализа и проблемы формализации перевода // Текст и перевод. М., 1988. — Стр. 101-113.

55. Суханова М. Кто лучше переводит. Мир ПК, № 1/97.

56. Суханова М. Страна Советов. Мир ПК, № 6/98. — Стр. 95.

57. Федоров А.В. Основы общей теории перевода. -М.: Высшая школа, 1983.

58. Хауорт Р. Веб-устройства заговорили. ZDNet, 28 мая 2000 г.

59. Шаляпина З.М. К проблеме построения формальной модели процесса перевода. — В кн.: Теория перевода и научные основы подготовки переводчиков: Тез. докл. всесоюзн. конф. М., 1975. Ч. II.

60. Alshawi H. The Core Language Engine. MIT Press, Cambridge, MA, 1992.

61. Alshawi H., Carter D. Training and Scaling Preference Functions for Disambiguation. Computational Linguistics. 20(4), 1994. —pp. 635-648.

62. Arnold D., Balkan L., Humphreys R.L., Meijer S., Sadler L. Machine Translation: An Introductory Guide. Oxford: NCC and Oxford Blackwell, 1994.

63. Barnett M. E-commerce standard should enable "one-click" shopping. June 15, The Industry Standard, 1999.

64. Batori I., Weber H.J. Neue Ansatze in Maschineller Sprachubersetzung:

65. Wissensprasentation und Textbezug, Niemeyer, Tubingen, 1986.

66. Batori I. Paradigmen der Maschinellen Sprachubersetzung, In Baton I., Weber H.J. Neue Ansatze in Maschineller Sprachubersetzung: Wissensprasentation und Textbezug. Niemeyer, Tubingen, 1986, pp. 3-27.

67. Boitet K. Twelve Problems for Machine Translation // International Conference on Current Issues in Computational Linguistics University Sains Malaysia, Penang, Malaysia, 1991 Proceedings, pp. 45-47.

68. Borchers D., Huskes R. Web-TV undNetPC, c't 8/97. — S. 14-15.

69. Bowman L.M. Open your eyes, get some cash, ZDNN, 03. 09. 1998.

70. BroersmaM. Israel set to double its Net population. ZDNetNews, 06. 07. 1998.

71. Brown R. Example-Based Machine Translation in the Pangloss System. In Proceedings of the 16th International Conference on Computational Linguistics (COLING'96), 1996.

72. Bub Т., Wahlster W., Waibel A. Verbmobil: The Combination of Deep and Shallow Processing for Spontaneous Speech Translation. In Proceedings of ICASSP-97, Munich, Germany, 1997.

73. Buschbeck-Wolf B. Resolution on Demand. Verbmobil Report 196, IMS, Universitat Stuttgart, Germany, 1997.

74. Buschbeck-Wolf В., Dorna M. Quality and Robustness in MT — A Balancing Act, in Lecture Notes in Artificial Intelligence 1529, Berlin, Heidelberg, New York: Springer-Verlag, 1998: pp. 62-72.

75. BYTE: BYTE, 1993, January, —pp. 153-186.

76. Collins В., Cunningham P. Adaptation-guided retrieval: Approaching EBMT with caution. In Proceedings of TMI-97, Santa Fe, New Mexico, 1997, pp. 119-126.

77. Das Stillworterbuch der deutschen Sprache, Bd.2 Duden, Mannheim Leipzig -Wien - Zurich: Dudenverlag, 1988, 864 p.

78. Dorna M. The ADT-Package for the Verbmobil Interface Term. Verbmobil Report 104, IMS, Universitat Stuttgart, Germany, 1996.

79. Dorr В.J. Machine Translation: A View from the Lexicon. Cambridge, MA, MIT, 1993,432р.91 .Dorr B.J. Machine Translation divergences. A formal description and proposed solution. Computational linguistics 20(4), 1994, pp. 597-633.

80. EAGLES Evaluation Group Workshop Evaluation in Natural Language Engineering: Standards and Sharing. Brussels, November 26th and 27th, 1997.

81. EAGLES and Current Evaluation Practices, Workshop ETI, University of Geneva, September 8-9,1998.

82. EAI: Encyclopedia of Artificial Intelligence. — New York: A Wiley Interscience Publication, 1990, 1200 p.

83. ELL: Encyclopedia of Language and Linguistics. — Oxford — New York — Seoul — Tokyo: 1994, 5644 p.

84. Engler T. Der Vermobil-Forschungsprototyp Report, Maschinelle Ubersetzung, DFKI, Kiinstliche Intelligent BMBF, c't 7/97, S. 108.

85. Fourchin A.J., Harland G., Barry W. et al, eds. Speech Input and Output Assessment: Multilingual Methods and Standards. Chichester, England: Ellis Horwood. - 1989, 290 p.

86. Frederking R., Nirenburg S. Three Heads are Better than One. In Proceedings of ANLP'94, Stuttgart, Germany, 1994.

87. Frederking R. et al. Integrating Translations from Multiple Sources with the Pangloss Mark III Machine Translation System. In Proceedings of the First Conference for Machine Translation in Americas (AMTA), Columbia, Maryland, October 1994.

88. Furuse O., Iida H. Constituent boundary parsing for example-based machine translation. In Proceedings of COLING'94, Kyoto, 1994, pp. 105-111.

89. Gerwen R.P. Automatic Text-to-Speech Conversion for Spanish. -Nijmegen -1991, 115 p.

90. Goodman K., Nirenburg S. The KBMT Project: A Case Study in Knowledge-Based Machine Translation. San Mateo, CA, Morgan Kaufmann, 1991.

91. Hakkani D.Z., Tur G., Oflazer K., Mitamura Т., Nyberg E.H. An English-to-Turkish Interlingual MT System. In Lecture Notes in Artificial Intelligence 1529, Berlin, Heidelberg, New York: Springer -Verlag, 1998, p. 83

92. Harper K. Soviet research in machine translation, 1961. In: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986, 382 p.

93. Hauenschild C., Heizmann S. Machine Translation and translation theory. Berlin; New York; Mounton de Gruyter, 1997,263 p.

94. Heizmann S. SCS-Studie: Maschinelle Ubersetzung SCS Informationstechnik

95. Hovy E., Gerber L. MT at the paragraph level: Improving English Synthesis in SYSTRAN. In Proceedings of TMI-97, Santa Fe, 1997, pp. 47-54.113 .Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986, 382 p.

96. Hutchins W.J. Recent Developments in Machine Translation. A Review of the Last Five Years. New Directions in Machine Translation/ Conference Proceedings. Budapest. - 1988, pp. 7-62.

97. Hutchins W.J. Out of the Shadows. A Retrospect of Machine Translation in the Eighties// ЭВМ и перевод. M.: ВЦП. - 1991.

98. Jordan P.W., Dorr B.J., Benoit J.W. A first-pass approach for evaluating machine translation systems. Machine Translation 8(1), Special Issue on Evaluation, 1993, pp. 49-58.

99. Kasper W., Bos J., Schiehlen M., Thielen C. Definition of Abstract Semantic Classes. Verbmobil Technical Report 61, DFKI GmbH, Saarbrucken, Germany and Universitat des Saarlandes, Saarbrucken, Germany and IMS, Universitat Stuttgart, Germany, 1997.

100. Kay M., Gawron M., Norvig P. Verbmobil: A Translation System for Face-to-Face Dialog. Number 33 in Lecture Notes, Standford, CA: CSLI, 1994.

101. King M., Falkedal К. Using test suites in evaluation of machine translation systems. In Proceedings of the 13th COLING'90, Helsinki, Finland, 1990, pp. 211-216.

102. King M. Evaluation of MT systems Panel discussion. In Proceedings of MT Summit III, Washington, DC, 1991, pp. 141-146.

103. King M., Evaluating natural language processing systems. Communications of the ACM 39(1), 1996, pp. 73-79.

104. King M. Evaluating translation. In Machine Translation and translation theory / ed. By Christa Hauenschild, Susanne Heizmann -Berlin; New York; Mounton de Gruyter, 1997, pp. 251-263.

105. Klostermeier J. Preparations for 'Internet Strike' in Germany running full steam ahead. ZDNet Germany, ZDNN, 29.09.1998.

106. Knowles A. Compaq readies fingerprint ID security for PCs. PC Week Online, 07.07.1998.

107. Kogure K., Kume M., Iida H. Illocutionary Act Based Translation of Dialogue. In Proceedings of the TMI-90, Austin, 1990.

108. Kroner H.J., Schwinn J. Fallbasierte Ubersetzung. DFKI GmbH, Kaiserslautern, Germany, Undocumented Software, 1997.

109. Kulagina O.S., Martynova A.I., Nikolaeva T.M. Mechanical translation at the Academy of Sciences of the USSR. 1961. In: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986, 382 p.

110. Kulagina O.S. History and present state of machine translation. Cybernetics 6, pp. 937-944., 1976. In: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986,382 р.

111. Laurie G., Yang J. SYSTRAN MT Dictionary Development. Machine Translation: Past, Present and Future: Proceedings of the Machine Translation Summit VI, 1997, pp. 211 -218.

112. Lawson V. A Translator's Map of Machine Translation// ЭВМ и перевод. M.: ВЦП. - 1991.

113. Leckebusch J. Sprachwandler Ubersetzungshilfen Englisch-Deutsch Priifstand, Maschinelle Ubersetzung, Tl, Systran, Personal Translator, PT, Web-Translator, Easy Translator, c't 8/97, S. 258.

114. Lehrberger J., Bourbeau L. Machine Translation linguistic characteristics of MT systems and general methodology of evaluation. Studies in French and general Linguistics. Amsterdam, John Benjamins, 1988, 240 p.

115. Levin В., Pinker S. Lexical and conceptual Semantics. Cognition Special Issues. Cambridge, MA, Blackwell, 1992.

116. Levitt J.R. KANT Mapper Specification. Carnegie Mellon University, Center for Machine Translation, 1993.

117. Loritz D. Voice Recognition Technology for Machine Translation// ЭВМ и перевод. M.: ВЦП. - 1991.

118. Luckhardt H.D. SUSY: capabilities and range of application. Multilingua 1(4), 1982, pp. 213-219.

119. Maas H.D. Das Saarbriicker Uebersetzungssystem SUSY. Sprache und Datenverarbeitung 2(1), 1978, pp. 43-61.

120. Maas H. D. SUSY I und SUSY II: verschiedene Analysestrategien in der Machinellen Uebersetzung. Sprache und Datenverarbeitung 5(1/2), 1981, pp. 915.

121. Madden J. Study: IT spending by small business reached $ 138B in '97 PC Week Online, 1997.

122. Maier E. et al. Dialogue Processing in Spoken Language Systems, Volume 1236 of Lecture Notes in Artificial Intelligence, Berlin: Springer-Verlag, 1996.

123. Maxwell D., Schubert K., Witkan T. New Directions in Machine Translation. Number 4 in Distributed Language Translation. Dordrecht, The Netherlands, Foris, 1988,318 р.

124. Mayfield L., Gavalda M., Seo Y.H., Suhm В., Ward W., Waibel A. Parsing Real Input in Janus: A Concept Based Approach. In Proceedings of TMI-95,1995.

125. McTait K., Trujillo A. A language neutral sparse-data algorithm for extracting translation patterns. In Proceedings of TMI-99, Chester, UK, 1999.

126. Meli S. Informationsmarkt der Maschinellen Ubersetzung: Linguistischer Hintergrund, Typologie, Systeme, Ubersetzungshilfen, Projekte und Ubersetzungsdienste// Terminologie et Traduction. 1989. - N3., pp. 63-107.

127. Minnis S. Constructive machine translation evaluation. Machine Translation, 8, 1993, pp. 67-75.

128. Morimoto Т., Suzuki M., Takeazawa Т., Kikui G., Nagata M., Tomokiyo M. A Spoken Language Translation System: SLTRANS2E. In Actes du quinzieme colloque international en linguistque informatique, COLING'92, Nantes, 1992, pp. 1048-1052.

129. MT Summit-87: Machine Translation Summit. Hakone - 1989, 215 p.

130. Nagao M. A Framework for a mechanical translation between Japanese and English by analog principle. In Elithorn A. and Manerji R. (eds): Artificial and Human Intelligence. B.V. NATO Elsevier Publishers, 1984.

131. Nagao M., Tsujii J., Nakamura J. The Japanese government project for machinetranslation, 1988, pp. 141-186.

132. Niccolai J. AltaVista Offers Slicker Translations. June 15, 2000, IDG News Service.

133. Nirenburg S., ed. Machine Translation: Theoretical and Methodological Issues. -Cambridge, Mass. 1987, 350 p.

134. Nirenburg S., Carbonell J., Tomita M., Goodman K. Machine Translation: A Knowledge based Approach. San Mateo, CA, Morgan Kaufmann, 1992.

135. Nyberg E.H., Mitamura T. The KANT System; Fast, Accurate, High-Quality Translation in Practical Domains. In Proceedings of COLING'92, Nantes, France, July 1992.

136. Nyberg E.H., Mitamura Т., Carbonell J.G. Evaluation Metrics for Knowledge-Based Machine Translation. In Proceedings of COLING'94, 1994.158.0nyshkevich В., Nirenburg S. A lexicon for knowledge-based MT. Machine Translation 10(1/2), 1995, pp. 5-57.

137. Piggot I.M, Systemes operationnels en traduction automatique//Terminologie et Traduction. 1989. - N3., - pp. 47-53.

138. Pulman S.G. A Computational Theory of Context Dependence. In Proceedings of the Tilburg Workshop on Computational Semantics, 1994.

139. Rayner M., Bouillon P. Hybrid Transfer in an English-French Spoken Language Translator. In Proceedings of IA'95, Montpellier, 1995.

140. Reithinger N., Klesen M. Dialogue Act Classification Using Language Models. In Proceedings of EuroSpeech-97, Rhodes, Greece, 1997, pp. 2235-2238.

141. Sato S., Nagao M. Towards memory based translation. In Proceedings of COLING'90, Helsinki, Finland, 1990.

142. Sato S. MBT2: a method for combining fragments of examples in example-based translation. Artificial Intelligence 75(1), 1995, pp. 31-49.

143. Seminerio M. Survey says 21 percent of U.S. adults are online. ZDNN, 1998.

144. Schauble P., Sheridan P. Cross-Language Information Retrieval (CLIR) Track Overview. In Proceedings of the Sixth Text Retrieval Conference (TREC6). 1998.

145. Schubert K. The architecture of DLT-Interlingual or double direct. In Maxwell D., Schubert K., Witkan T. New Directions in Machine Translation. Number 4 in Distributed Language Translation. Dordrecht, The Netherlands, Foris, 1988, pp. 131-144.

146. Schmitz B. Pragmatikbasiertes Maschinelles Dolmetschen. Heidelberg: Groos, 1998, 159 p.

147. Seewald U. Markttibersicht: Kommerzielle Systeme und Werkzeuge Antibabylonisch (Systran), iX 12/95, S. 88.

148. Sinaiko H.W., Klare G.R. Further experiments in language translation: readability of computer translations. ITL (Review of Institute of Applied Linguistics, Louvain) 15, 1972, pp. 1-29.

149. Slocum J. Machine Translation Systems. Studies in Natural Language Processing. Cambridge, UK: Cambridge University Press, 1988.

150. Smith P.D. An Introduction to Text Processing. Cambridge, MA: The MIT Press. - 1990. - 300 p.

151. Sparck J.K., Galliers J.R. Evaluating Natural Language Processing Systems: An Analysis and Review, Berlin, Springer, 1995.

152. Stone MX. Web embraces language translation. ZDNN, 21.07.1998

153. Sumita E., Iida H., Experiments and prospects of example-based machine translation. In Proceedings of the 29th Annual Conference of the ACL, Berkley, CA, 1991.

154. TEMAAD16 Final Report, October 1997.

155. Thompson H. Linguistic Corpora for the Language Industry: A European Community Public Utility// Terminologie et Traduction. 1989. - N3., - pp. 55-61.181 .Toma P. SYSTRAN as a Multilingual MT System// OLB. 1977. - Vol. 1 „ -pp.569-581.

156. Trujillo A. Translation engines: Techniques for Machine Translation, Springer, 1999, 303 p.

157. Tucker A.B., Nirenburg S. Machine Translation: a contemporary view. Annual Review of Information Science and Technology 19, 1984, pp. 129-160.

158. Vasconcellous M. Machine translation at the Pan American Health Organisation. British Computer Society, Natural Language Translation Specialist Group Newsletter 14, 1984, pp. 17-34.

159. Viegas E., Mahesh K., Nirenburg S. Semantics in Action. In P. Saint-Dizier (Ed.), Forms in Natural Language and in Lexical Knowledge Bases, Kluwer Academic Press, 1999.

160. Waibel A. Interactive Translation of Conversation Speech. Computer, 29(7), 1997, pp. 41-48.

161. Watanabe H. A method for distinguishing exceptional and general examples in example-based transfer systems. In Proceedings of the 15th International Conference on Computational Linguistics COLING'94, Kyoto, 1994, pp. 39-44.

162. Whitelock P., Kilby K. Linguistic and Computational Techniques in Machine Translation Systems. Design, London, UCL Press, 1995.