автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Лексическая амбивалентность естественного языка в среде систем машинного перевода
Полный текст автореферата диссертации по теме "Лексическая амбивалентность естественного языка в среде систем машинного перевода"
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ
ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «КЕМЕРОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
На правах рукописи
ИСЛАМОВ РОМАН СЕРГЕЕВИЧ
ЛЕКСИЧЕСКАЯ АМБИВАЛЕНТНОСТЬ ЕСТЕСТВЕННОГО ЯЗЫКА В СРЕДЕ СИСТЕМ МАШИННОГО ПЕРЕВОДА (на материале английской официально-деловой документации)
Специальность .10.02.19 - теория языка
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук
005568260
Кемерово 2015
005568260
Работа выполнена на кафедре теории и практики перевода Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Кемеровский государственный университет»
Научный руководитель: доктор филологических наук, профессор, Фомин Андрей Геннадьевич
Официальные оппоненты: доктор филологических наук, профессор, зав. кафедрой перевода и межкультурной коммуникации Федеральное государственное бюджетное образовательное учреждение высшего образования «Алтайский государственный педагогический университет» Пшенкина Татьяна Геннадьевна
кандидат филологических наук, доцент кафедры английской филологии Федерального государственного автономного образовательного учреждения высшего образования «Национальный исследовательский Томский государственный университет» Нагель Ольга Васильевна
Ведущая организация: Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Белгородский государственный национальный исследовательский университет»
Защита состоится 04 апреля 2015 г. в 10:00 часов па заседании диссертационного совета Д212.088.01 по защите диссертаций на соискание ученой степени кандидата филологических наук в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования «Кемеровский государственный университет» по адресу: 650043, г. Кемерово, ул. Красная, 6.
С диссертацией можно ознакомиться в научной библиотеке Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Кемеровский государственный университет» па сайте http://www.kemsu.ru.
Материалы по защите диссертации размещены на официальном сайте КемГУ:
http://kemsu.ru/Diss er/Index?pageid=3510&moduleid=4260&advertexam¡necand¡datedegreeid=
182&alias=http%ЗAo/o2F%2Fkemsu.ru%2Fpages%2Fd0 l_dis_new.
Ученый секретарь / ^
диссертационного совета ХВ. Артемова
Автореферат разослан «
»
2015 г.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Реферируемая работа посвящена анализу особенностей функционирования амбивалентной лексики в системах машинного перевода на материале официально-деловой документации и носит экспериментально-теоретический характер.
Очень часто информация, слово, изображение, данные и пр. могут иметь разное толкование. Такие ситуации принято считать неоднозначными, или неопределенными. Их смыслы не являются константами и могут меняться от контекста к контексту. Лингвистической наукой рассматривается особая категория лексики в рамках проблемы соотношения формы и содержания в естественном языке. Традиционно к этой категории относят явления омонимии и полисемии, а саму такую лексику называют неоднозначной.
Однако данный вопрос продолжает оставаться открытым, на что указывает, например, отсутствие единства терминологии в этой области. Лексическую неоднозначность (А. Н. Климов, А. А. Зализняк, Ю. Д. Апресян) называют амфиболией (H. Н. Романова, А. В. Филиппов, А. В. Флоря), амбивалентностью (Г. А. Хрестолюбова, M. Н. Черкасова, Э. Лендваи), амбпгуентностью (М. С. Бродская), многозначностью (А. А. Потебня, Л. В. Щерба, Н. Paul, Pierre Frath, Harry Rusche), равноименностью (А. А. Реформатский) и пр.
Кроме того, нет и четко сформулированных критериев выделения, разграничения и классификации источников лексической неоднозначности. Лингвисты также не едины во мнении, какие именно явления языка относить к неоднозначной лексике и как их дифференцировать. С одной стороны, традиционно рассматриваемые источники неоднозначности, такие как омонимия и полисемия, имеют множество пограничных случаев, часто пересекаются, что затрудняет проведение границы между ними. С другой стороны, субъективность взглядов ученых на определения этих явлений также создает проблему их дифференциации.
Актуальность настоящего исследования обосновывается необходимостью создания единой терминологической основы для категории лексической неоднозначности и ее теоретического осмысления. Всестороннее описание и определение данного явления в языке, а также индивидуальная характеристика и типологизация источников лексической неоднозначности позволят систематизировать и дополнить имеющиеся наработки в этой области исследования.
Это требует, с одной стороны, выбора конкретного термина для самой неоднозначной лексики, а с другой — вызывает необходимость четкого выделения, определения и классификации ее источников, индивидуальный характер которых ярко
выражен в закономерностях их функционирования в естественном языке сквозь призму систем машинного перевода. Такой взгляд на явление естественного языка дает возможность посмотреть на разработку критерия классификации источников неоднозначной лексики1 через пошаговый алгоритм ее снятия машиной.
Объект исследования — явление амбивалентности естественного языка.
Предмет исследования — особенности типологизацин лексической амбивалентности естественного языка, устанавливаемые на основе ее функционировании в среде систем машинного перевода.
Цель исследования — описать явление лексической амбивалентности и ее источники с учетом закономерностей и особенностей их функционирования в среде систем машинного перевода.
Поставленная цель предполагает решение ряда задач:
1) уточнить лингвистический статус амбивалентной лексики и ее основных признаков;
2) рассмотреть основные источники лексической амбивалентности, дать их характеристику, определение и дифференциацию;
3) определить области функционирования амбивалентной лексики в рамках естественного языка;
4) разработать критерий классификации источников лексической амбивалентности естественного языка, исходя из особенностей их функционирования в среде систем машинного перевода.
Гипотеза исследования может быть сформулирована следующим образом: источники лексической амбивалентности, будучи проблемой речевой коммуникации, имеют свои пределы разрешаемое™: от полного разрешения до полного или частичного сохранения амбивалентности.
Положения, выносимые на защиту: 1) в лингвистической науке применяются разные термины, обозначающие и характеризующие явление лексической неоднозначности и ее источники: многозначность, равноименность и пр. Однако при анализе функционирования этих источников в среде систем машинного перевода наиболее релевантным и оправданным является использование единого для них термина «лексическая амбивалентно сть»;
' Примечание. В настоящем исследовании будет применяться термин «лексическая амбивалентность», а источники определены как амбивалентная лексика.
2) амбивалентная лексика вносит двусмысленность и неопределенность в функциональные стили и подъязыки, априорно характеризуемые как стремящиеся к однозначности; ,
3) в отличие от искусственного интеллекта систем машинного перевода, естественный интеллект человека обладает способностью к визуализации коммуникативного акта, что является ключом к разрешению лексической амбивалентности;
4) системы машинного перевода демонстрируют наличие всех источников лексической амбивалентности в текстах официально-деловой документации, однако степень амбивалентности в них не является одинаковой.
Положения 3 и 4 доказываются экспериментальным путем. В связи с этим, в настоящем исследовании проводятся эксперименты с использованием в качестве инструмента систем по обработке естественного языка. В первую очередь это системы машинного перевода, а также системы, обрабатывающие поисковые интернет-запросы. Полученные с помощью них результаты позволяют создать модель функционирования естественного интеллекта при разрешении лексической амбивалентности.
В свою очередь, системы машинного перевода через пошаговый алгоритм своего функционирования дают возможность проследить и проанализировать особенности функционирования источников лексической амбивалентности в материале исследования.
Это определяет используемую в исследовании методику, которая является комплексной и включает в себя;
• метод компонентного анализа;
• метод автоматического анализа;
• инструментальный метод;
• метод эксперимента;
• метод наблюдения.
Материалом исследования послужили 759 текстов официально-деловой
документации на английском языке, включающих основные виды амбивалентной
лексики, которая насчитывает 1849 единиц, отобранных приемом сплошной выборки.
Источником материала исследования являются следующие интернет-ресурсы:
национальный корпус русского языка (www.ruscorpora.ru), открытый корпус
официальной документации ООН (http://termsearch.info) с опорой на англоязычные
лексикографические издания: Oxford Dictionary of English, 3rd Edition. — Oxford:
University Press, 2010; Collins Cobuild Advanced Learner's English Dictionary, New Digital
Edition, 2008; Advanced English & Thesaurus. — WordNet. Cognitive Science Laboratory.
Princeton University. Mobile Systems, 2014 и др.
5
Теоретической базой исследования послужили работы российских и зарубежных ученых в области:
• теории лексической и грамматической амбивалентности — И. В. Арнольд, В. В. Виноградов, А. А. Зализняк, JI. В. Малаховский, А. А. Реформатский, Н. Paul, Т. Winograd, G. К. Zipf и др.;
• теории языка и прикладных аспектов перевода — Л. А. Булаховский, В. С. Виноградов, Г. Д. Воскобойник, А. И. Смирницкий, John В. Carroll, John R. Pierce и др.;
• стилистики языка — А. И. Гальперин, Г. Я. Солганик, А. В. Флоря, P. Mamet, Н. Paul Grice и др.;
• машинного перевода — М. Г. Мамедова, Ю. Н. Марчук, W. John Hutchins, Harold S. Somers и др.
Научная новизна настоящего исследования заключается в том, что в нем анализируются закономерности функционирования амбивалентной лексики через призму систем машинного перевода как инструмента для разработки критерия ее классификации.
Теоретическая значимость исследования состоит в уточнении определения лексической амбивалентности и ее источников. Результаты, полученные в ходе исследования, расширяют теоретические представления о категории амбивалентности в языке. Проведенное исследование также дает возможность выявить закономерности в функционировании амбивалентной лексики в среде систем машинного перевода, что позволяет приблизиться к решению проблемы совершенствования лингвистических возможностей таких систем.
Практическая ценность исследования заключается в использовании его результатов в лекционных и практических занятиях и спецкурсах по теории языка, лексикологии, прикладной лингвистике, теории и практике перевода, а также в написании квалификационных работ в области лексической амбивалентности. Кроме того, эти результаты могут оказаться полезными для разработчиков систем машинного перевода в плане повышения качества автоматического перевода.
Апробация работы: основные положения диссертационного исследования изложены в опубликованных статьях и тезисах (трех научных статях в рецензируемых изданиях, рекомендованных ВАК, и трех в прочих изданиях), представлены в виде докладов на заседаниях кафедры теории и практики перевода в Кемеровском государственном университете (2011-2014 гг.), а также:
1) на VII Международной летней лингвистической школе «Теоретические и прикладные проблемы современной лингвистики», Кемеровский государственный университет, г. Кемерово (26.06.2012-6.07.2012);
2) на научной школе в рамках гранта ФЦП «Профессиональный иностранный язык в формировании универсальной компетентностной модели выпускника технического вуза», Национальный исследовательский Томский политехнический университет, г. Томск (03-07.12.2012);
3) на II Всероссийской научно-практической конференции с международным участием «Проблемы языка и культуры: поликультурализм и мультилингвальность», Кемеровский государственный университет, г. Кемерово (10-11.10.2013);
4) на IX(XLI) Международной научной конференции студентов и молодых ученых «Образование, наука, инновации — вклад молодых исследователей», Кемеровский государственный университет, г. Кемерово (21-25.04.2014).
Личный вклад соискателя заключается в постановке цели и задач исследования, в обосновании положений, выносимых на защиту, в разработке методики исследования и ее реализации на конкретном материале, в интерпретации полученных результатов.
Цель и задачи исследования предопределили следующую структуру работы: она состоит из введения, трех глав, заключения, списка литературы, двух приложений и содержит 3 рисунка, 4 схемы и 3 таблицы. Общий объем диссертации составляет 220 страниц. Основной текст исследования изложен на 186 страницах. Библиографический список состоит из 250 пунктов (150 пунктов включают источники на русском языке, 64 пункта — зарубежные источники, 36 пунктов — словари, энциклопедии и справочные издания).
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во Введении обосновываются актуальность и новизна темы исследования, определяются объект и предмет исследования, ставятся цели и задачи, характеризуются и аргументируются его теоретическая и практическая значимость и научная новизна, описываются используемые источники и материалы, формулируется гипотеза.
В первой главе «Проявление лексической амбивалентности естественного языка в официально-деловой документации» закладывается теоретическая основа для исследования. Определяется категория амбивалентности, предпосылки ее существования в языке и типологизации. Вводится термин «лексическая амбивалентность», который служит для снятия неоднозначности в терминосистеме настоящего исследования.
7
Рассматриваются отличительные черты подъязыка деловой документации вместе с включенным в него официально-деловым стилем как механизма порождения амбивалентности на уровне лексики. Анализируются особенности функционирования амбивалентной лексики при переводе текстов официально-делового стиля при участии человека. Разрабатывается наглядная модель способности интеллекта человека к визуализации как ключа к снятию лексической амбивалентности. Одновременно с этим формулируется критерий классификации амбивалентной лексики по формальной выраженности объектов материального мира, с которыми соотносятся амбивалентные лексические единицы, и актуализируется выбор систем машинного перевода как инструмента в настоящем исследовании.
Любой вид человеческой деятельности, в том числе и языковой, имеет тенденцию к сознательной или неосознанной неоднозначности. В языке эта склонность обусловлена:
1) Противоречивостью природы человеческого сознания. Тесная связь мозговых и лингвистических процессов наводит на мысль о том, что как бы мы не именовали это явление: неоднозначность, двусмысленность, многозначность и пр. — это все есть человеческая сущность — «аористия» — неопределенность, нерешительность; мучительное колебание мысли, которая живет прежде всего не в языке, а в человеческом индивиде.
2) Асимметричностью языковой системы: «одно и то же означающее может соответствовать разным означаемым, что имеет место при омонимии, полисемии, нейтрализации; одно и то же означаемое может выражаться разными означающими, что характерно для синонимии» [Касевич: 1977].
3) Изменчивой природой языкового знака: «каковы бы ни были факторы изменения, действуют ли они изолированно или в сочетании друг с другом, они всегда приводят к сдвигу отношения между означаемым и означающим» [де Соссюр: 1977].
4) Не свойственностью словам стремления к моносемии: «на деле, однако, случаи однозначности, или моносемии, слова не так уж типичны. В большинстве случаев у одного слова сосуществует несколько устойчивых значений, образующих семантические варианты этого слова» [Маслов: 1987].
«Многозначность» свойственна большинству обычных слов. Это вполне естественно. Слова как названия могут легко переходить с одной вещи на другую или на какой-либо признак этой вещи или на ее часть» [Реформатский: 1996, с. 44].
Все это делает неоднозначность «нормой и выгодным для человеческого индивида явлением, особенно в тех случаях, когда говорящий, избегая прямого ответа, но при этом
не желая лгать, прибегает к использованию выражения, которое может быть интерпретировано более чем одним способом» [\Vasow: 2005].
Короткие, часто используемые слова, которые являются многофункциональными в их семантическом плане, служат главным источником неоднозначности в коммуникации. Вместе с тем потенциал каждого нового контекста, в котором они употребляются, решает проблему в их понимании и снимает неоднозначность, позволяя нам использовать их снова и снова, тем самым экономя речевые усилия, донося желаемую информацию до адресата в общении без опаски быть непонятыми [МаЬол\а1с1, Реёогспко, Р1аШас1о51, СШ5оп:2013, р. 313-318].
Неоднозначность приводит к росту «сокращения» языка, в плане увеличения числа коротких слов с последующим обогащением их семантики в противовес длинным.
Состояние неоднозначности в любом языке есть борьба двух тенденций, выгодных адресатам и адресантам сообщений: 1) язык, лишенный неоднозначности, выгоден в плане считывания информации; 2) язык, наполненный неоднозначностью, выгоден в плане экономии речевых усилий.
Современная лингвистика не едина во мнении, какие явления в языке причисляются к неоднозначности и как они соотносятся друг с другом, как классифицируются и каким термином они могут бьпъ названы.
Отсюда возникает противоречивость во взглядах и путаница в терминологии. Синонимичность слов «многозначность» (полисемия) и «неоднозначность», под которой она понимается наряду с омонимией, требует введения иного термина — лексическая амбивалентность, что снимает двусмысленность в определении неоднозначности.
Выбор именно такого термина обусловлен морфемной и этимологической причинами: во-первых, много-ЗНАЧНЫЙ и не-одно-ЗНАЧНЫЙ структурно близки, а во-вторых, слово «неоднозначность» является синонимом слова «многозначность»2,3.
Следовательно, возникает разногласие в терминологии, поскольку под многозначностью в настоящем исследовании будет пониматься явление полисемии и использоваться взаимозаменяемо с ним. Кроме того, рассматриваемое в работе явление омонимии подразумевает «равноименность», а не «многозначность».
Стандартизация и стремление к однозначности не спасают тексты официально-делового стиля (ОДС) от возникающей амбивалентности, проявляющейся на лексическом уровне.
2 Тришин, В. Н. Словарь синонимов ASIS. 2013 [Электронный ресурс]. — Режим доступа: http://dic.academic.ru/dic.nsí7dic_synonims/92460.
3 Абрамов, Н. Отоварь русски еннонимов и сходных по смыслу выражений, 2002 [Электронное издание].
9
Стабильность изменений семантики слов и порождение новых значений — характерная черта всего естественного языка, и это не может не затронуть стиль официально-деловой документации.
Уход от канцелярита к общеупотребительной лексике, как и наличие канцелярского языка в ОДС, создают для него «ловушку» невозможности избежать лексической амбивалентности.
С одной стороны, лексика с обобщенным и широким значением является источником порождения амбивалентности, поскольку в данном случае видится непосредственное проявление эврисемии, или широкозначности. Например, зеленый массив (под которым может пониматься лес, парк, лесопарк, сквер и пр.), нарушение трудовой дисциплины (опоздание, прогул и пр.), продукция (молотки, книги, журналы и пр.), помещение (комната, квартира и пр.).
В английском языке building (1. здание, постройка, сооружение, строение; 2. надворные постройки, службы; 3. возведение, сооружение, строительство (процесс); facility (1. возможность, благоприятные условия; льготы; 2. легкость (как отсутствие помех, трудностей); 3. оборудование, приспособления, аппаратура; здания (заводов, фирм и т. п.); 4. средства обслуживания, удобства; услуги; 5. беспечность, невнимательность, халатность).
Хотя, как справедливо замечает И. А. Гальперин, «речевые стили в английском языке проявляют большую устойчивость, большую сопротивляемость нивелирующей тенденции общенародного литературного языка. Но тенденция к стиранию резких граней между стилями речи — явление бесспорно прогрессивное» [Гальперин; 1958].
Кроме того, необходимо принять во внимание стремление к расширению и обогащению семантики коротких слов как наиболее удобных и комфортных для носителей языка и, как следствие, их распространение и использование в разных стилях.
Главным фактором, порождающим лексическую амбивалентность в подъязыке деловой документации, является взаимоинтеграция лексических единиц между подъязыками и общелитературным языком. Это происходит вследствие открытости любого подъязыка, его постоянного контакта с другими подъязыками и жесткой привязки к общелитературному языку: «между литературным языком и подъязыками нет непроходимой стены. Специальная лексика иногда проникает в литературный язык. При этом их специальное значение редуцируется, и они фактически превращаются в омонимы специальных лексических единиц, употребляющихся в специальных сферах. Специальная лексика в текстах литературного языка может играть роль важного выразительного средства, передающего местные особенности обстановки, характеристики персонажей
10
и т. п. С другой стороны, подъязыки науки и техники многое берут из литературных языков, но реализуют по-своему, в частности, вырабатывают свои профессиональные нормы, свои словообразовательные модели» [Лравиков: 2007].
При работе с английскими деловыми текстами переводчик сталкивается с лексической амбивалентностью, которая функционирует на уровне употребления аббревиатур и акронимов, общеупотребительных слов, канцеляризмов и многозначности терминов в рамках общей тематики перевода, а также различных вариантов одного языка, когда разшща семантики слов играет существенную для конечного результата перевода роль.
Способность естественного интеллекта человека визуализировать информацию в речи есть ключ к снятию лексической амбивалентности. Классификация амбивалентной лексики может бьггь осуществлена по критерию источник и по критерию формальной выраженности объектов материального мира, с которыми такие лексические единицы соотносятся. Наличие явпо выраженных формальных признаков объектов или предметов материального мира позволяет сгруппировать соотнесенные с ними слова в отдельную группу амбивалентной лексики, которая легко поддается визуализации, например: коса, лук, mole, file и пр.
Кроме того, амбивалентны и такие единицы, которые соотносятся с явлениями реальности, но не имеют четко выраженной формализации в силу абстрактности самих явлений и, как следствие, могут рассматриваться только в ассоциативных цепочках: good, дорога, заря и пр.
Во второй главе «Источники лексической амбивалентности в естественном языке» рассматриваются общие вопросы, происхождение, классификации, определения, дифференциация трех рассматриваемых в настоящем исследовании источников лексической амбивалентности: омонимии, полисемии, эврисемии.
Сама природа языка как системы обуславливает появление в нем омонимов, которое носит случайный, но вместе с тем неизбежный характер. В естественном языке нет механизмов, препятствующих совпадению слов по написанию и/или произношению, отмиранию старых и возникновению новых значений, проникновению слов из других языков или образованию новых, которые по форме могут совпадать с уже существующими словами в языке и т. д. — «заимствованные слова видоизменятся, подчиняясь нормам произношения заимствующего языка и существующим в этом языке законам сочетания звуков» [Малаховский: 2009].
Омонимичная акрошшия — это, с одной стороны, случайное или специальное совпадение акронимов со звукобуквенными оболочками слов языка, с другой —
11
существующие непреднамеренный или преднамеренный пути появления омонимии среди акронимов вызывают проблему их расшифровки.
Социальная нужда — главная причина возникновения полисемии в языке: «для нового предмета или явления необходимо подходящее название, а люди предпочитают использовать существующие слова, расширяя их значение, скорее, чем создавать новые слова» [Murphy: 2002].
Человеческому индивиду свойственно экономить речевые усилия, используя одни и те же слова языка в новых контекстах с новыми значениями, что находит свое отражение в бесконечном множестве разнообразных употреблений той или иной лексической единицы.
От полисемии следует отличать особое явление, при возникновении которого наблюдается высокий показатель семантической неопределенности и обобщенности. Такое явление именуют широкозначностью, или эврисемией. «Все отчетливее вырисовывается понимание того, что единицы языка далеко не всегда могут соотноситься с заданными раз и навсегда концептуальными структурами» [Ирисханова: 2007, с. 69-77].
При возникновении этого явления смысл слова слабо раскрывается в его отдельных значениях, что создает высокую степень амбивалентности в коммуникативном акте — «в целом ряде случаев граница между значениями оказывается как будто размытой, смысл словосочетаний таков, что не требует выявления этой грашщы, более того, часто он не покрывается полностью ни одним из значений в отдельности» [Шмелев: 1973]. Зарубежные лингвисты используют в этом случае термин "general nouns" [Halliday et al., p. 274-277].
Классификация амбивалентной лексики может быть осуществлена по критерию источник. Омонимия, полисемия и эврисемия есть основные виды лексической амбивалентности.
В современном языкознании существование и различия этих явлений не оспариваются, так как многочисленные факторы обуславливают регулярность порождения новых значений, наличие тождественно равных внешних форм, не совпадающих по значению, а также неопределенность и широту семантики у отдельных слов.
Вопрос о разграничении омонимии и полисемии из-за слабой формализации этих явлений, их полевой структуры с пограничными случаями и субъективности взглядов ученых видится как не имеющий окончательного решения. Однако границу между ними можно установить на основе этимологического критерия дифференциации при условии наличия в отдельном речевом акте явной омонимии и явной полисемии.
12
Третья глава «Системы машинного перевода как среда функционирования амбивалентной лексики» посвящается непосредственному проведению практического исследование с целью проследить особенности и закономерности функционирования амбивалентной лексики на материале, помещенном в среду машинного перевода. В ней также рассматриваются и сравниваются виды систем машинного перевода и устанавливаются принципы их работы. На основе результатов исследования намечаются пути улучшения машинного перевода в области снятия амбивалентности, доказывается сформулированная во введении гипотеза и разрабатывается критерий классификации источников лексической амбивалентности через пошаговый алгоритм работы систем машинного перевода.
Процесс взаимодействия с иностранными языками через системы машинного перевода в настоящее время становится невероятно простым. Вместе с тем эта простота несет в себе несколько отрицательных моментов: 1) желание частично или полностью полагаться на результат деятельности машины, а не собственные достижения; 2) снижение уровня собственных знаний и возможностей; 3) возникновение колебаний между наймом профессиональных переводчиков и дешевым (зачастую бесплатным), быстрым и простым применением техники.
Разрешение амбивалентности при переводе на лексическом уровне языка подразумевает работу систем машинного перевода с полисемичной, омонимичной и эврисемичной лексикой.
Качество выполненного машиной перевода зависит от выбранной языковой пары: чем ближе языки по своему родству, тем качество выше и наоборот. Это также справедливо и при условии взаимного влияния этих языков друг на друга в определенный промежуток времени их исторического развития, например, в такой языковой паре как французский и английский.
Особенности функционировать амбивалентной лексики в среде машинного перевода анализировались в настоящем исследовании для двух типов систем: онлайновой (SMT — статистический машинный перевод) и оффлайновой (RBMT — перевод «по правилам») — с опорой на перевод-эталон, выполненный человеком (HAT).
Для полисемии особенности функционирования установлены через: I) верный перевод при: разрешении многозначности — выборе истинно верного тождественного варианта (см. Пример 1), выборе тождественно верного варианта с отклонениями в употреблении в том или ином контексте (см. Пример 2).
Пример 1
Оригинальный текст
but it is necessary to take into account other industries as they diversify the regional economy.
Машинный перевод (SMT)
но надо учитывать и другие отрасли, поскольку они диеерсифицировать региональную экономику.
Машинный перевод (RBMT)
но необходимо принять во внимание другие отрасли промышленности.
HAT
однако учет и других видов деятельности необходим, поскольку они диверсифицируют экономику региона.
Пример 2
Оригинальный текст
соре with situations that may arise and where to turn for help.
Машинный перевод (SMT)
справляться с ситуациями, которые могут возникнуть и куда обратиться за помощью.
Машинный перевод (RBMT)
справиться с ситуациями, которые могут возникнуть и где повернуться для помощи.
HAT
как обсуждать эти проблемы в вашей семье и куда обращаться за помощью.
2) неверный перевод при: а) неразрешении многозначности на языке-источнике (см. Пример 3), Ь) создании новой амбивалентности на переводящем языке (см. Пример 4).
Пример 3
Оригинальный текст
in an educational institution or social service facility or in their immediate vicinity.
Машинный перевод (SMT)
или в учебном заведении или социального обслуживания объекта или в непосредственной близости.
Машинный перевод (RBMT)
в учебном заведении или средстве социального обеспечения или в их непосредственной близости. HAT
в учебном заведении, или общественном учреждении, или в непосредственной близости от них.
Пример 4
Оригинальный текст
but only if we break with business as usual.
Машинный перевод (SMT)
но только если мы откажемся от обычного.
Машинный перевод (RBMT)
но только если мы порываем с обычным бизнесом.
HAT
но только если мы откажемся от рутинного подхода.
с) отсутствии перевода для полисемичной единицы на переводящем языке (см. Пример 5).
Пример 5
Оригинальный текст
Member States and the Secretariat will strike the rieht balance. Машинный перевод (SMT)
Государства-члены и Секретариат правильный баланс. Машинный перевод (RBMT)
Государства-члены и Секретариат найдут золотую середину. HAT
Государства-члены и Секретариат найдут золотую середину.
Особенности функционирования омонимичной лексики в среде машинного перевода прослеживаются через: а) верный перевод моносемичных омонимов (см. Пример 6); Ь) верный перевод полисемичных омонимов со снятием омонимии и выбором истинно верного тождественного варианта для полисемичной единицы (см. Пример 7).
Пример б
Оригинальный текст
Because agriculture accounts for the bulk of the labour force. Машинный перевод (SMT)
Поскольку сельское хозяйство приходится основная часть рабочей силы. Машинный перевод (RBMT)
Поскольку сельское хозяйство составляет большую часть рабочей силы. НАТ
Поскольку в развивающихся странах основная часть трудовых ресурсов. Пример 7
Оригинальный текст
Use receptacles with perfectly flat, thick bases. Машинный перевод (SMT)
Используйте сосуды с идеально ровной толстые баз. Машинный перевод (RBMT)
Используйте сосуды с совершенно плоскими, толстыми основаниями. НАТ
Используйте посуду с ровным толстым дном.
с) выбор относительно верного тождественного варианта для полисемичной единицы с отклонениями в употребления в том или ином контексте (см. Пример 8).
Пример 8
Оригинальный текст
and resources lo implement environmenlally soundpolicies. Машинный перевод (SMT)
и ресурсов для осуществления экологически рациональной политики. Машинный перевод (RBMT)
и ресурсах, чтобы проводить экологически чистую политику. НАТ
и ресурсов для осуществления экологически раииональной политики.
d) неверный перевод моносемичных (см. Пример 9) и полисемичных омонимов при не снятой омонимии (см. Пример 10), порождении новой амбивалентности при выборе варианта, являющегося омонимом на переводящем языке (см. Пример 11).
Пример 9
Оригинальный текст
there shall be safe means of access from the deck to the hold for their use. Машинный перевод (SMT)
должны быть предусмотрены безопасные средства доступа с палубы в провести для их использования.
Машинный перевод (RBMT)
должны быть безопасные средства доступа от палубы до захвата для их использования. HAT
им предоставляются безопасные средства доступа с палубы в трюм.
Пример 10
Оригинальный текст
to use its worldwide pool of personnel.
Машинный перевод (SMT)
использовать свою всемирную пул персонала.
Машинный перевод (RBMT)
использовать свой международный бассейн персонала. HAT
использовать свои имеющиеся во всем мире кадры.
Пример 11 Оригинальный текст
so far as practicable, live steam to arty crane or winch. Машинный перевод (SMT)
насколько это практически возможно, острого пара для любого крана или лебедки. Машинный перевод (RBMT)
насколько реальный, живой пар любому подъемному крану или лебедке. HAT
по мере возможности рабочий пар от любой лебедки или крана.
Закономерности функционирования эврисемичной лексики прослеживаются через: 1) верный перевод со снижением степени / полным разрешением широкозначности (см. Пример 12); 2) верный перевод без снижения степени широкозначности (см. Пример 13); 3) неверный перевод (см. Пример 14).
Пример 12
Оригинальный текст
for example, and they may fear that their state apparatus is too fragile to countenance dévolution.
Машинный перевод (SMT)
например, и они могут опасаться, что их государственный аппарат слишком хрупки, чтобы одобрить передачи полномочий.
Машинный перевод (RBMT)
например, и они могут бояться, что их государственный аппарат слишком хрупок, чтобы одобрить передачу.
НАТ
и они могут опасаться, что их слишком слабый государственный аппарат не устоит в случае делегирования полномочий на низовые уровни.
Пример 13
Оригинальный текст
The provided information was then examined in détail.
Машинный перевод (SMT)
Представленная информаиия была затем подробно рассмотрены.
Машинный перевод (RBMT)
Предоставленная информаиия была тогда исследована подробно.
НАТ
В дальнейшем было проведено детальное исследование представленных списков предприятий.
Пример 14
Оригинальный текст
Criminal organizations are not purely creatures of the underworld.
Машинный перевод (SMT)
Преступные организации не являются чисто существа преисподней.
Машинный перевод (RBMT)
Преступные организации не просто существа преступного мира.
HAT
Преступные организации являются порождением не только уголовного мира.
Итогом проведенного исследования является разработка третьего вида классификации по критерию степени амбивалентности, создаваемой объектом исследовашм, по шкале от минимальной до максимальной амбивалентности.
В ходе исследования было установлено, что закономерности функционирования полисемии относят ее в категорию минимальной степени амбивалентности в языке, поскольку перевод выполняется в 1 шаг с разрешением многозначности в том или ином контексте.
Омонимичная лексика относится к категории средней степени амбивалентности, что прослеживается на примере полисемичных омонимов, когда перевод осуществляется в 2 шага: 1) разрешение омонимии; 2) разрешение полисемии.
Закономерности в функционировании эврисемии соотносят ее с максимальной степенью амбивалентности, поскольку широкозначность способна функционировать на уровне как полисемга, так и омонимии. Иными словами, оба указанных выше источника могут быть широкозначными. Из этого следует, что даже в тех случаях, когда перевод выполняется верно, семантическая неопределенность слова продолжает сохраняться в тексте, пока не будет разрешена через дихотомию «гиперошшия - гипонимия», то есть использование в тексте синонима для широкозначного слова с более узкой семантикой, например: matter —» event —» affairs —»business —► financial dealings и т. д.
Это доказывает сформулированную в работе гипотезу и говорит о существовании предела разрешаемости лексической амбивалентности в зависимости от ее источника.
Кроме того, омонимичные единицы можно также разложить по шкале градации степени амбивалентности от минимальной (два моносемичных омонима) до максимальной (четыре и более полисемичных омонима). При этом омонимы являются полными (см. Табл.).
Таблица. Классификация источников объекта исследования по критерию степенн создаваемой ими амбивалентности
1-
я 1-■д
Амбивалентность снимается за 1 шаг
Амбивалентность снимается за 2 шага
Сохраняется широкозначность
=>
амбивалентность полностью не снимается
§
с» ^
§ I
§ §
« «и
>0 ъГ
0
1
I
0 §■
1
-е.
Русские эквиваленты демонстрируют высокую степень семантической обобщенности
<з
■е.
о -о
I:
я * 5 »
2 о
3 2
•л
5 В
Ч
г »г а % « « в $
|з
V 23 "Я 2 з з «я
« г 2 «
—; И Я у
о*— а о
Я и
г в с. С
и
а ь = =
— и
о I
я ч
* г » 2
* ь.
I §• А « -
8 ||| § I
а? 5 3 и «
О ^ 5 =
с
МИНИМАЛЬНАЯ
СРЕДНЯЯ
МАКСИМАЛЬНАЯ
С
□ □
Гиперонимия
Продемонстрируем закономерности функционирования источников лексической амбивалентности, построив для этой цели диаграмму взаимосвязи омонимии и полисемии с эврисемией (см. рис. 1).
Все лексические единицы естественного языка, включая амбивалентные, будут располагаться в диаграмме по горизонтальной оси X.
А дихотомия «гиперонимия — гиионимия», устанавливаемая для широко-значности, будет строиться по вертикальной оси У с увеличением семантической конкретизации слов сверху вниз.
ZÖ.
О
Рисунок 1.
Точку пересечения осей обозначим Ъ и будем понимать под ней отдельно взятое слово. От этой точки по оси X слева направо могут располагаться точки Ъ^ и т. д.,
которые являются значениями слова Ъ в разных контекстах.
Чем выше по оси У располагается слово {Ъ), тем шире его семантика и выше создавая словом амбивалентность и наоборот. Каждое значение слова (£) также может бьггь расположено на своей индивидуальной оси широкознач-ности У|, У2, Уз и т. д. (см. рис. 2). Как показал использованный в работе прием ЯТТ («круговой» перевод), достоинством систем машинного перевода видится возможность избегать многозначных и равноименных единиц при генерации текста, где хорошим показателем качества машинного перевода будет сведение к минимуму применения им амбивалентной лексики в своей среде генерации текста на том или ином естественном языке человека.
Y Yi device
organs
working
Apparatus together
complex instrument X
Y2
tongue
vehicle
Machine automobile
X!
Yi
Ьш
Рисунок 2.
В Заключении подводятся итоги исследования, и отмечается, тго феномен лексической амбивалентности является фактором, мотивирующим его всестороннее исследование и порождающим необходимость формирования новых взглядов и подходов к его изучению в лингвистической науке.
Амбивалентная лексика, как часть глобальной проблемы формы и содержания в языке, требует к себе внимание не только со стороны теории языка, но и со стороны его прикладного аспекта. Так как именно практическое использование языка как средства коммуникации дает возможность наблюдения за данной категорией лексики сквозь призму ее непосредственного функционирования в нем.
Перспектива настоящего исследования видится в применении среды систем машинного перевода с целью анализа закономерностей функционирования в ней русской амбивалентной лексики при переводе па английский язык, а также анализа функционирования амбивалентной лексики для пары языков, относящихся к одному языковому строю.
Научные статьи, опубликованные в рецензируемых изданиях, рекомендованных ВАК
1) Исламов, Р. С., Фомин А. Г. Анализ современных систем машинного перевода типа SMT и RBMT [Текст] / Р. С. Исламов, А. Г. Фомин // Филологические науки. Вопросы теории и практики. — Тамбов: Грамота, 2013. — № 3. — Часть I. — С. 69-73.
2) Исламов, Р. С., Фомин А. Г. Роль программ с элементами искусственного интеллекта в жизни человека в XXI веке (на примере программ машинного перевода) [Текст] / Р. С. Исламов, А. Г. Фомин // Вестник Кемеровского государственного университета. — Кемерово: Кемеровский государственный университет, 2013. — № 2 (54). — С. 61-63.
3) Исламов Р. С. Поисковые системы как модель функционирования естественного интеллекта при разрешении лексической амбивалентности [Электронный ресурс] / Р. С. Исламов // Современные проблемы пауки и образования. — 2014. — № 6; URL: http://www.science-education.ru/120-16830 (дата обращения: 14.01.2015).
Публикации в прочих изданиях
4) Исламов Р. С. Практическое применение визуально-адаптивного транскодирования классической художественной литературы в образовательных целях (на материале графических романов) [Текст] / Р. С. Исламов // Вопросы развития филологии и литературы в мире. Современная литература и культурные традиции. Всероссийская научная Интернет-конференция с международным участием: материалы конференции (Казань, 26 апреля 2013 г.) / сервис виртуальных конференций pax grid. — С. 24-30.
5) Исламов Р. С., Ресенчук А. А., Фомин А. Г. -Явление акронимии в речевом этикете смс-сообщений (на материале английского язьпеа) [Текст] / Р. С. Исламов, А. А. Ресенчук, А. Г. Фомин // Проблемы язьпеа и культуры: поликультурализм и мультилипгвалыюсть: сборник научных статей по материалам II Всероссийской научно-практической конференции с международным участием (Кемерово, 10-И октября 2013 г.). — Кемерово: Офсет, 2013. — С. 361-370.
6) Исламов Р. С., Фомин А. Г. Функционирование квазинтернациональной лексики в системах машинного перевода [Текст] / Р. С. Исламов, А. Г. Фомин // Научное обозрение: гуманитарные исследования. —2014. — № 8. — С. 87-94.
Подписано в печать 26.01.2015. Формат 60*84'/1б. Бумага офсетная № 1. Печать офсетная. Усл. печ. л. 1X Тираж 120 экз. Заказ № 22
Адрес издательства и типографии «АИ «Кузбассвузиздат»: 650099, г. Кемерово, пр. Советский, 60Б. Тел. 8 (3842) 58-29-34, т/факс 36-83-77. E-mail: 58293469@mail.ru, vuzizdat@gmail.com