автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему:
Проблемы разработки лингвистического обеспечения системы китайско-русского информационного машинного перевода (научно-экспериментальное исследование)

  • Год: 1991
  • Автор научной работы: Зелко, Виктор Михайлович
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Москва
  • Код cпециальности ВАК: 10.02.19
Автореферат по филологии на тему 'Проблемы разработки лингвистического обеспечения системы китайско-русского информационного машинного перевода (научно-экспериментальное исследование)'

Полный текст автореферата диссертации по теме "Проблемы разработки лингвистического обеспечения системы китайско-русского информационного машинного перевода (научно-экспериментальное исследование)"

^ (5) i л i Гц ■ s

лкдаш шк ccc? Институт язнютяания

lía правах рукописи

ЭЕЛКО -■Виктор №кайяович

пташки РАЗРАБОТКИ ЛИНШ1(ЛИЧВСЖОГО ОБЕСПЕЧЕНИЯ скоин ктпасо-руосюго вдотщкошюго

' ШИННОГО НЕРЕЭЭДА. , (Научно-зкспершеьтадьиое исследование)

Специальность: ю. 02.19 - теория язико знамя.

диссертации на соискание ученой степени кщдвдгта Филологических наук

пгв тореферат

I / Носква - 1991

' Y

Работа ыяолнмга в отдглг прикладной лингвистам! института языкознания ли сот.

Научный руководитель - доктор техшмешсг наук профессор Р. Г. Котов

счнциалыша оппонен^и - доктор даологемегких наук профессор Ю.Н.Марчук, кандидат «толопиеских паук В.Д,Канатик

вглудве учреждение - всесоюзны« пеитр переводов паутао-

технкческой литературы и документации пая и лн соср. .

згвдта со'тсггтся * УЧ_ 1991 года на заседании

спешшнзирошгшого совета д <х>2.17,01 по защите диссертация на соискание ученой степени доктора наук при кнспггуте языкознания лн СССР по адресу: - йоскза, Ю3009, ул Семашко, 1/13.

С шссертавиеп ио«но ознакомиться, в сиОшотеке Ннспггута 1ЭЫКОС :аш£Я АН СССР.

I—

Автореферат разослан ■

&А X/ 1991 года.

Ученый секретарь специализированного совета кандидат филол.каув- ■

3.С.Исаева

' « СЕДАЯ ХАРАКТЕРИСТИКА РАНГИ

* ip- J

I-'-V.ih", î

** "Актуалыпсть исследования. Научно-технический прогресс гашгг больше задачи перед специалистами в области вычислительной эхтзш и m форматки. Всеобщая компьютеризация всех сфер мат i вятельносги человека рассматривается как одна из валзкпаис задач взвшпя ивуии и Tes им, иитиси^игации зкоизмики, ускорена соци- ' льшго развития обгрства, расширения культурных, эконэмических и орговых оппоешй не аду шродами разике стран. В этих условиях собую актуальность приобретают системы электрошюй обработки тек-то вол информации в условиях многоязычной ситуации, opi нгированныз и опаратевизе инфэрмационюе обслушетие сшциалистов. ШЧориаци-шньй МП, как- результат! электронной обработки различных документов, 'грубая" ш качеству, с иекоторьми отклонениями от традиционных юрм языка, ш гшптгей специалисту в дангой предметно^ области, с Еошчительньм пострел акп дао вшвкм или без такового станэшггся эф-^ективньм и наиболее ошратипньм видом переработки массового потока текстовой мфармад« (деловых документов).

С paciBiperSiert реэдушродтго сотрудничества весьма аггуаль-ньм сташиится вопрос о разработке теории КП с китайского язька и тем более построение системы.юпвйско-русского МП. Развитие добрососедских отшшэний между СССР и КНР, увеличиваквцйся год от года шток китайской специальной литературы и документации, годлеявдзй обработке в сжатые сроки, делает весьма вктуалыпй проблему создали автоматизированных средств отбора и переработки информации на нетайском

язьке. Слояиость этой проблемы обусловлена отсутствием фундамеоталь-

v

ных исследований в данной области как в СССР, так и в других страих, в том числе - в самом йггэе. Более тога; проблема обостряется специ-^чностью китайской гаюъменшети, до шдавнзго времеии-трудюсопмеп-

I

тимой с компьютером, и эначигелъньми различиями в структурах лингви-

стического наполнения китайского и русского яаьков. В связи с этт представляется аггуальньм проведете комгиекстго <й/шцттльт-кои-муникагивного и лшгвостатистического исследования на примере отдельной язмгавой подсистем.,i с целью выработки обадя подходов к вопросам построения ингенерго-лингвистической модели китайского донумен-тообмеиа в условиях сгецко:-.1уш::ацш и создание на этой основа методики алгоритмизации процессов электрошюй переработки китайских оригинальных материалов, кошчньм этапом которой является переюд их на русск. . язьк. Для достижения этой цели предлагается идея перевода га сегме1ггам ¡рагм^гам) китайского текста как один из вариантов МП в рамках эмпирического подхода к пашни юл атрибуции текстовой информации. Суть идеи заклкнается в следующем.

Известно, что в теории и практике МП существует два основных иа Ш: пэсловный и грамматический. Грамматический МП, как более трудоемкий в лингвистическом и программном исполнении, со слом il. морфологическим и синтаксическим анализом входного язмо и синтезом различной полшты выходного язька, выдает более-мете связный, но плп-о согласовать^ текст геревода, требукиий постре-. датирования в разной степени в зависимости от дшшнейшего жгальзовашя выходного продукта. Реализация грамматического МП связана с болышми фшансовьми и временньми затратами, что ив •егда оправдано в кг:.лом кошретном случав.

ПословньИ МП, как самъй простоп вид перевода, обесгечиьает а рап-шную выдачу подстрочника и может иметь два варианта реати-вации. Ile, ito ta шх характеризуется переводом только тер.чяюв (п'югда с указанием отюшэний мевду ниш) и монет бьггь назван "ин-(¡шрмациошьм индексированием". Более сложит вид геревода, опирающийся на содержательный анализ текста, известен как "рефератив-1

№й «.»ревел". Второй вариант пословного >Ш цвет бить реаноован для узкого класса докумеетов, характериэукщяся ограниченна) 1к:ш.1ь.юьанисм языювьк средств (лексика, морфология, сшлзксис)

и ограниченным мш-леством ситуаций, а значит - наличием тиговьк

- - —

1 1'м. А.И.Г зшов, Н.Н.Нестерова. Реферативный перевод. Н.,1991.

синтаксических М!Стр>кииЛ (ваблонов) и даш типовых фрагментов текста (словосочетания различного типа и слсдаюсги: синтагмы имешьв, лрсдпкативньп и т.п.). Исходя ю этого выдвигается сле-д>маая гипотеза: если моягю вьишггь готовы: фрагменты текста на основе аналгаа корпуса доку; китов, то мотаю, очевидно, ос;,■щеголять перевод т го словам (это делается и при гословтм н при грамматическом МПJ, oro TtüTODbH йрагиептам текста. Для этого необходимо: троить эти <|рагис!ггк; выбрать рацтиалыста структуру словаря для ии (с воаюиьи включетгам отдельных слов наряду с типовыми Йюпинтвми); разработать (если это юзноазр) аторггмичешя процедура сепкотнровшап, т.е. вычленения фрагментов текста при перепада! создать оесь комплекс программ Taicoro МП (включая »обу-'¡ение* система, т.е. нараатаание ело паря новьми фрагментами и словами); выбрать рациональны! и простоП способ кодирования иероглифов при воодв i« о ЭЗЯ со стаядэргпюп клавиатурой. В случае реализации Tatort МП но:жт быть нэзиш сегменгарно-ююнтеск.м информационна! машшьм переводом. В принципе, этот вид МП долиен представлять собой систему,которая "обучается" пентоду по "обра-оцам текста". Ftí мояФэ тчинать использовать ("обучать") с лустьм словарем. Ш пере перевода с гюмоиью человека Словари будут заполняться, и после достижения определенного объема (достаточного для покрытия вьбрашого класса документов) система будет готова к ав-томатгапрованшму реиму работы.

Практическая реализация предлоактюй идеи перевода по Фрагиеотам текста топтала полоангелънье результаты в mane удовлетворения прагматических информационных потреб! юстел участников документообмеш. ГЬзтому особещ&то шпуалыость представляет предпринятая в данном исследовании попытка построения действуодеп сис-

\

темы китайско-русского мадагаюго перевода текстов заданного класса

i

m базе минимального лшгвистического обеспечения," необходимого для оперативного получетя ин^ерчэцмшяпга грреведа спноталыых документов.

Цель исследования. Цгльга исследования издается разработка лингвистического обесшчения и »»годики алгоритмизации шгапсга-русского информационного машоюго перевода примемггелыю к текстам заданного кла- :а на базе цредлоаеншй автором сеп-кнгарго иконической концепции МП в рамках обнвй концепции воспроизводили инненерю-лингвистических эделея и создание ш этой осшве простой в программной реализации действуиврй штоматизироиашюй системы в виде мрс0!ЕЯьт-пр0фесс1101ШЬ1юго аотоютизирошпвго рабочего места к' "Ч) гереводчша с ооамоязюстыо вклкнения ее в технологический процесс г-'тома,. дароваиюп обработай юфзрмации в условиях двуязычнзй коммуникации.

Поставлен), е в работе цели реализованы в процессе решена следую»tx основных задач-.

- Следование сгкци^иси лингвистического обеспечены Ш с китг "-ского языка фоне обвщ проблем Ml как ешнвйшзй форда обработки текстовой ин5срмации; выбор рационального метода ввода иероглифических текстов в ЗОН га стандартной клавиатуре; разработка cicre мы кодирования мггайских иероглифов.

- Создание ф> лцио1вльно-коимупикативтй и лшгвостатнсти-ческой моделей исследдаюй saarateil подсистемы, с анализом роли и »¡¿ста текстов oatainioi о класса о системе ктапского язька, проведете г~р^ктурда-1шемнш>ршго, лексико-грамматического и стати-L'ni4ei;iioro анализа лингвистического наполнения репрезентативного корпуса Tt-iiCTos оригшаиэных документов.

■ Разработка г^.лцилав гостроения и создание лингвистиче-i кии (:а.ш мод^ш-гфототипа системы >Ш, исходя из общей модели пере-а>да и лингвостатнстической модели заданного пакета текстов на основе ропраеотанюп методики огоора семантически згачимых статистически устойчивых сегментов текста оригинала.

- Разработка лиипю-адгортгмическоЛ струшуры системы МП, алгоритмического обеспечения процедур предредактировамя, перепода, шегредачтиропшш, процедур управлетст сисгтемоП; программная реализация разработанных атгоря-моя в виде простой я эргономичной 1ЯГЕнерт-Л1агвггпмсс!:оп нэдели делствугарл системы Ш и проверка ш ней паитеа, выдвинутых о ходе опьгпю-энспериненгалыюго иссле-довачия.

Штериалн следования. Работа, базируется нг анализе китайских оригинальных документов ш лиши сжагаш согетскочситагских коммерческих МД15.К перевозок за период 1986-1939 г.г. Всего исследу-емьй массив составил 7530 док>менгов объемом более 200.ООО иероглифов.

?!етодика исследовашя определялась шобходимсстъю решэния целого комплекса шгвистическт и (мшнерго-нзтематических оадач, связанных с алгоритмической и программной реализацией главной ' цели дигсертациошюя работа. 3 связи с этим в качестве оснозшл нетодши исследования были использованы методы систекгюго аналита и лингвистического моделирования с проьеркой да ЭВМ.

-v

Наручная новизна.

В теоретическ;-;' плане настодае исследование является первол юпылюй создана методики лингвостатистического исследования отдельной относительно закрытой тдсиетемы штгаг5ского «зша, фуикии-ониругацзй в условиях спецкоммуникации. Поличестветмз характеристики люгвисшческого наполнен« текстов заданного класса, полученные в ходе исследояагм да продлояйшюг» методже, отармюнл «яшик1 возможности для далыейшего теоретического осмьсленте логико-инфпр-мацшндаго построения специальных шдъяпшов, степени их форма- ча-ции в зэоиа мости от котфетного стггуэтивтго влиягсуя, особенностей ф'шципшроватя лексико-ситвнсических образований,' клшлрованнък конструкшв! и других доькопых единиц.

На основе сочетания фушсцто1шьт-к0имулик£шшщг0 и лингво-статиегического принципов анализа текстов выработан иэучиэ-обосга-шшшй подход к вопросам сгецифики иаучеми перопифиеского и лек-сшо-<!разеологаческого , лошшния штатских специальных тексгоп. На основании изучения особешистей фуищионировання исследуеюй форманяоюшюп яаыювой .юдгистемы (мннроподъязша) в условии спецкоимумкгции разработала иетодша алгоритм! иацш обработки китайских материалов заданного класса.

К элементам твиаш данного исследования опюаггся теоретическое обоснование возможности автоматической сегментации штайогого текста ю информационно знэчиммз, семантически оформлении: цеп ки иероглифов и ишрод.ж вкраплений (сегментов), выступами к в качестве единица перевода. Програмгаю-алгорипмческая реализация предло-нещюго метода штоматичеагай сегментации годностью дадтверадает правомерность указаго обоснования. При отсутствии видимых границ слова в китайском язше ренине данной проблемы представляется определении вкладом в теорию и практику Ш.

Практическая ценность. Алгоритмическая и программная реализация методики, воплоарнная в виде овдтш-знсгкр! ментальной системы кктайско-русского информационного нашшшго перевода (КРИШ), как * теме кг автомагшзирогоншй система сбора и переработки специальтй 'информации, ориентировав ю огюративную обработку китайских ори-п'ншшнмс докуиекгов с швамалыьм привлечевкм пзстредактора-ге-реводчике ч/м без такового. С потлшнием машиюго словаря, приме пш, до 50.000 лексических единиц система >южет использоваться в деаурдам ренамз спгциьаиетом, не владекадм китайским язмюм, для тлучешя и»5ормац|ю!йюго перевода документов аадшпюго класса.

Реализация. Программы реалипааш га язьке ассемблера и макроассемблера для ЭВМ СМ-1420 а такие ш язь ; Турбо-Паскаль з.о и 5.5

для ПЭВМ тага 1еи PC XT/AT в виде комплекса программного обесш-<teira системы КРЙМП. Фрагменты программ даются в приложении.

Апробация. Осиовиьв результаты работы докладывались ш: ii0iijepenyt0t молодая ученых ¡Встггута язькознашя All СССР (Мо ,ва, 1986); конференциях Приамурского отделения Всесоквшй ассоциации китаеведов (Хабарсзск, 1984-1988); иэучт-практичсских конференциях в/ч 2457 (1987-1988) .11 о/ч 2456 (1989-1991); ЗЭСедаШ! кафедры китайского язша В)Ю СССР {'¡осквЗ, 1987); заседавши сектора прикладная лингвистики Института языкознания АН СССР (!{осква,' 1986-1991). а тагае 1вшли отражниэ в з публикациях.

Структура работы. Диссертация состоят из введения, трех глёв, орклютетя и. прилош вы.

, СОДЕРЖАЛ Е РАБОТЫ

Во введет) обоаиоъгаается актуалыюстъ вьеранюй темы, фрмулирудагся цели и задачи работы, определены материалы и методика исследования, показана нзучмя новизна и практическая цешюсть полученных peajvthTafoB.

3 первой r.-эве диссертации - "Современное состояние исследований в области лигвистнческого обеспечения мадатого перевода" -рассматривается современное состояние теории и грантам МП как важнейшей формы обработки текстовой информации; анализируется специфика лингвистического обесгвченга Ш с »майского язька; определяются научш-обосдавашье и практически доказанное положения по разработке систем МП, которые могут бьггъ натките лыю полезны для диссертационной работы в качестве отправных точек огалпо-зкепэрименталь. .>го исследования. -ч

Развитие научно-техннческого прогресса спЬсобствует превращайте вычислите лыюй лингвистки в самостоятельна область науки о я ке, осшвной сферой пршюяения которой является электрошкз

обработка ифзрмации на естественней языках. Цлггратьшп проблемой становится область млшозюго перевода - шазвГшая «горма пгреработки текста в условшх двуязычии ситуации.

Совремошюе сосга. не теории Ш характергауется существенным нюгсобразием >етодов и подходов к решгвта осизшкх ¡задач шревода. В литературе яиеляшгся два I .,1шух направления развития теории НП.

Теоретическое (абстрактюе) направленна представлено концепциям) "идеалъгопо ЙП", воамсазпсть доспяения которого предпола-••эется за ют макзмальшго использования семантического уроии язька с раарасоткоГ раз.и.-вмх лшгвмлических и лэгасочцформашои-1ых моделей, а также с составлешем толково-коюниторных словарей большого объема, содержащих зщшлопедическую шфзрмашю.

Практическое напраалеюе рассматривает проблему МП как комплексна гаеиенерно-лингвистическуи задачу. Это налраалеше, согласно определенно Ю.Н.Марчука, базируется на таком представлении о проме-лугочжм эы;е, которое илизко подходит к идее пареволш соответст-В)й ш чисто языковом уровне. В рамках практического (вправления создана десятки этспер1*«1патьных и промьшеннах систем МП, рбаор которых граюдится в шрвоп главе диссертации. Главной особен-и- тыь практических систем КП является отказ от идеи далучешя годностью автоматического выхжшачествеиного семантического перейода, и '„^'«¡гшроааие на КП еднего качества на базе реатью вьтдн&ых анпритнш и вполне обозримого лингвистического обеспечены с 5Чг* '«--ч ¡¡¡¡ел-, «пер- и/или пзстредактора на различных этапах пе-реьода ш<сг ■.

Особо отмечается проблема И1 с китайского на русскш, ха-р^пиццушэяся наличием у,*вдлы»я осойешестеп, связанньк с ие-|к« Л1»5»1чес1М1 кигелчаий письменностью, аначителымш различи»«! в лексню^ранматической структуре о&уа языков и отсутствием серьезных фндаиентатьшх исследоаашя по днлшл проблеме. В работе го;циш> анатизирушся способы ввода иероглифического гнсьма в >р •чижтер - ^штичесшл, графический и условного кодирования.

Предпочтение йтдаегся одной из разновншюстей графического способа, остюваншй ia идее отрихо-тследовагельшго кода, ms наиболее »Кекпшшм методе для пользователя, не владеющего китайским языком.

IIa осшвании анализа литературы го проблемам совремешюго состояния теории и практики МП, а та*шэ особешгхггей построения лин-шкттеамго обеспзчения действуй!« систем Ш (в том числе - с котапского язьна) делается вывод о -проведении наушю-эксперимета-ль'ного исследоваши в рамках практического направления, (обеги научше концепции МП наиболее голга разработай d трудах Р.Г.Котова, Ю.Н.Иэрчука, Л.Л.Нелтна, Р.Г.Шотровского, Loh s.c. и др.), связанного с проверкой' еозиоязюсги перевода документов то фраг- • надави (сегдапвм) текста.

Вторая глава - "Оствиыэ характернешеи исследуемого класса текстов га китайском языке" - шеютга описанию результатов исследования основных характеристик документов заданного класса. Здесь показало место рассматриваемых материалов п язшовод системе китайского яздаа (2.1.); построены йттдатлыю-коммукикатишш

Л -V

(2.2.) и лингвостаттетическая (2.3.) модели ммкроподъязшэ в условиях спецкоммуникатш.

Китайский язмс с обпвлмгостичэскоО точки зреиия, как любой другой естественный язык человеческого обиэния, представляет собой из монолитную систему, а вьегугает как суперсистема язьковых годсис-тем, функционирующие в теспзм диалектическом едиштое друг с другом и по роздан«« в результате сюего функционирования бесчислешое множество разшобразных конкретных микросистем, служат* для отрачиш

человеком мира действителыюсти. Tb аналогии с прюнтьм в языюзнаиа!

ч

принципом деления национального язьта среди его носителей, в работе

I

предлагается рассматривать китайский язык в виде структурного образования комплексных элементов, взаимосвязанных друг с другом и газ-

волявдк при их огасанш следовать идее индуктивных обобщений. Таной годход к исследованию, ш мнению автора, позволит отделить место исследуемьк материалов в шиповой структуре и дифференцировано подойти к описанию отдельны» элементов яаька как системы, которая, го определевпо В.М.Солнцеоа, представляет собой целостна объект, состояний из атемекгов, находвдася во взаимных отношениях. Предлагается следукиея иерархическая структура: £Ьы( - подгяаьк - никрогодъязьк - иакроидиолект - идиолект.

дается определение каждому элементу применительно к материалам исследования. Вводится понятие «макроидшлекта*, как микросистемы иднзлектов, или как набор язшовмс элементов и их отнэшйжя в текстах с однородной 'ематикой, т.е. как совокупность лшгвистичес-ких един определенной направленности, исгользуеньк в рамках отде-' льной )ргашаации для обеспечения вкта коммуникации при выполшнии характерных для данной организации производственных и друтш задач.

В главе выдвигается рабочая гипотеза'о принадлежности анализируемых текстов заданного класса к отдельному микроподьязииу водных коммерческих теревозок. , В целях создан« имвешрю-лиггвистической тлели исследу-

£ т языковой подсистрчы цядлагается в соответствии с выводами лингвистической теории, опыта предшствяоди исследования и особен-I: тей представлении материала, изучить характериспШ текстов заданного класса в двух аспектах - в виде фмадиивлью-коммуика-тиьгюй и лингвсктатистической моделей микрогодъязша.

В процессе комплексного анализа материалов исследования установлено, что с точки арения ноиенклатуршй организации 1а моа-ш разбить на три группы го" натравлен») док>«енгообмена ("сверху-вниз", "снизу-вверх" и 'го горизонтали") и на гать групп по характеру сообщаемой ииформацдо <"указания", "уведомления", "планы", "отчеты", "запросы"), цричен удатьнш пес каждого вда документа неодинаков и определяется прежде рсего хозяйстванньми, произюдст-"чшьии и шы41 задачами, характертш дла конкретной организации,

осудагпшвдзП служебные докунектообмен. Та?, "отчеты" занимают 62 X от общего объема докушптга, "уведомлам-н" - 16 X, "планы" -14 X, "запросы" - 5 », "указания* - з

На основа»« анализа делается вывод, что структура мфзрма-циоНшго докуменгообиега зоранзе предопределена и строго регламекш-роваш социальной и техшлогичесгай сферой обврсгва, чье воздействие га языюшв средства деловой документации определяет количествен«« и гачественньй состав лингвистичш?сго наголне1мя конкретшго подъязыка. Применительно'!! материалам исследования, это проявляется через дифференциацию и формализацию языка, обусловленных спецж!ич1юстш язммаой ситуация а хозяЯственгю-производствемюй сфере меяаународ-гого сотрудничества.

Из лексическом уров® исследуемьй микрогшьязьк характеризуется с одной стороны болшзй насмфннэстыо сшциалыюй термшшо-гии, с другой, реализуя принцип экошмм язькошя средств, - стремлением к пнрскязму пстльзовашм различного рода лексических аббревиаций. Термиюлогия, отюсягеяся иггосредствент к хозяйственной и производственюй деятелыпсти рассматриваеиого ведомства, в семантическом плат отвечает осговньн требованиям, предиявляемьм к термину - одюзначюстъ и краткость. В рамках дашюго жкрогодъязька годавляхвре больимство термишв относится к разряду непосредственно коийзонтируемых лексических единиц, что исклкнает двоякое их толкование и способствует адеквапюй трансформации китайских терминов в русские эквивалента, Это обусловлено одинаковой прагматической направленностью интересов участников докумекгообмега и детерминировано статусом самого слуявбного документа.

В отличие от специальной терминологии, об»« лексические единицы исследуемого микроидаязька не связаны жесткими ограничениями го одгозначшста и мэгуг принимать различи»® значешя в зависи-мосгш от ситуацш, ЭТО касается главнам образом глаголов, а текяе лексики, предрасголоизнной к омонюш. Глаголы занимают- солидньй

пласт мшгоздачной и беззшшалшгпюп лексики, адекватный перевод которой представляет определенную трудность, а троп становится ш-вознкккт без эксгтралингвисгпрйсюд вшз&й. Предлагается, для изучения и правильного толкс^лния сььсла глаголов с широким семантическим значением осуврствлягь ж перевод совместно с дотлшниями, образующий в ранках ь-онкрет^го ишрогадьязьш строго огршаменное количество устопчиЕш словосочетаний или язмювых штампов, Например:

•¿К $ (апра!) - "распределять', "располагать",' *иала-:кивать*, ;страиваться". В дантм микроголгжм® отмечается в составе устойчивы? сочетали (акра! вЬШап) - "расл- ; ределить вреда"; % (аира! геп) - "вщелить человека*;

(апги 8ЬеЬе1) - "установить оборудовшае".

Аббревиация, как упрощение слозвад единиц в результате вшад^шя отдельных компонентов, одна 1я вамвйшк аакошнертстеп исследуемого мкроподъязька. В работе рассматривается в ¡а[роком смысле, а имент с учетом сфзры употребления аббревиировакшя единиц в условиях конкретной области. Наряду с ос дар питой аббревиаций вводятся по 'тшя контекстно-зависимой и ситувтивю-обуслоатен-. ной. Конгекстш-зависимая аббревиация - это такой вид сокращений . жсических едишщ, кот-тьй воамояэн только в условиях определешю-го контекста. При атом однэзгачюе понимание этих единиц язьа;а воа-( но только с учето», удержания текста или наличия в 'нем других логистических компонентов, раскрьваигщ значеме аббревиировандах ед..ащ. под ситуатшю-обусловленной аббревиацией понимается вьешая степень со. .-агента лексических единиц в результате общей комщяссии текста Д01>-уне1Гта под воздействием ранее созданной итфзрмзциошюй ситуации. В этом случае устойчивые сочетания иероглифе (слова, ва-расния), состояние из трех-гнти иероглифов заменяются на один-два. При этрм, как правиж», аббревшро ванная единица тесно связана с другой настолько хв урезанная едишцей, образуя вместе с шй как бы новое лексическое сочетаие. Приводится . щимер: Л-*" - 1меет полное значение "В советов« водах ничего необьнного не замечена*.

- 13 -

Данньй факт мои» правомерно смотать примером того, как внешние условия коммуникации заставляют человека приспосабливать (видоизменять) письменную Форму стандартного язька, создавая тем самьм вариант язька для специальных целей. В более широком смысле -это пример воздействия. обссства га язьк. Оггуатшт-обусловлеште аббревиатуры, как результат этого воздействия и как закономерный способ компрессии язшового продукта, занимает особое место в обе-сгачзнии аста коммуникации, поскольку херактервдются одшй важной особенностью: их аяеквапюе понимание аоамоянз только при условии знания коккрепгой обстановки, Энсперименталью доказав, что уровень понимания документов, • насмценпмх ап>впшт-обуслонленньии аббревиатурами зависит от степени владения китайским язьком, знания конкретной области и реальной ситуации, опыта работы, интуиции и других пасторов, В средшм, подготовлешьй переводчик в состояли правильно поють и максималыю адекватш перевести тексты, содержала до 30 X упааатт сокраврнй.

Опыт показывает, что исследуемый иинроподъязын, «звляясь подсистемой язша аналитического строя, обладает крайне бедно представленной морфологией. Основными средствами вырачазния синтаксических отшиеге'П между лексическими единицами во фразе служат фиксированный горядок слов и слуавбньв слова. Классическая формула синтаксической структуры китайского предлоявния П - С - Д (подле-йаире - сказуемое - догшшние) практически не гарутается, за исключением некоторых откложний, носядк строго обусловленные характер,

В целом на синтаксическом уровна тексты задшпюго класса характеризуются небольшм количеством сложных грамматических ст, к-тур, погуби вызвать проблематичность авгоматизировангой обработки. Наоборот, в анализируемой язьковой подсистеме в тейдтах преобладают наполдасоставнье предложения клишрованнэго тиш как общепринятая

'-14-

норма для дангого годъязька. Их имрокое применение вызвана прищи-гюн экономии языковых средств и обдагшвньш условиями передачи информации, В исследуемом микроподаязыке вьотленз пять основных типов синтаксических конструкций: слсвише предлоакния, услоиш-ныв предложения, простое лредлэаетя, ютамш, условные страдания. Их удельньй вес по типам ди.^меетов пригодится в сводной таблице результатов синтаксического анализа.

Анализ представленных материалов с точш зрения их ситуа-циошюго интаксиса позволяет определить 12 основных иакросигуаций, описываемых средс -вами данного микротодъязыка. Камная иакроситувция • включает от з до ю микрошгуаций, для описания которых используется строго определенный набор устойчивых словосочетания, фраз, отдельны« слов (фрагментов текста), в среднэм около 500 единиц на ка' адую мросигуацию. Причем, до 99 * лексических единиц из указанной суммы слулит для описания других микроситуаций в рамках одной макро-сигуад I.

1— — -,-,-,-,--,---—, Тип синтг-гси- | | Уведом- | | | ческой кают- (Указания) ления | Планы | Отчета | Запросы) рукции | | | | 11

...............—I ......— Сложное | предложение | 2,85 .............."11 ........1"........"I 1 1 I I 1 1 5,12 | - | - | - I

• 2. Усложненное | предложение 5,32 8,25 1 I I - ! - - 1

1 з. Простое | ■ тедложеюв | 21,08 24,86 1 ' " " \ I 1 1 1 10,02 | 3,48 | 16,84 |

| 4. П а М П Ы | 69,47 £0,19 1 1 1 80,34 | 82,62 | 78,56 |

1 < Условные сокращения * -28 ' 1.58 1 1 1 1 1 9,64 | 13,90 | 4,60 |

Э с е г о 1001 100* 1 11 1 1 1 100« 100Х | 100Х |

Сводная таблица результатов смет, сического анализа,

, /

/

Для проведения лигоосгатястического анализа предварительно отобрана, отредактировав и введено в ЭВМ 7530 документов объемом около 200 тыс. иероглифов. По опьпу лингвистических 1сследований, тасой объем счотается достаточш представителыьм для проведения статистического анализа в целях списания геперальтп совокупности исследуемого никроподъязмга, т.к. согласится с условия! критерия "хи-квадрат" и удовлетворяет требованиям закона Цяфз.

Весь пакет документов введен в маяшу с помощью шгрихо-шследователыюго кода, суть которого сводится к следуюивму. Все китайасие иероглифы могут быть представлены гатыо элементами: . точкаж (очень короткими штрихами и кркнками), горизонгальньми чертами, вертикальньш чертами, отшщюй чертой влево и откнйюя чертой вправо. Все эти элементы представлены цифрами 1.2,3,4,5 соответственно. Все элементы иероглифа читаются в том порядке, в котором они традиционно пшутся, и в компьютере каждьй из них представлен соответствуют ему цифрой. Например:

1 2 з 4 5

— | у v.

"* "Л. 24212 32 Л 24151 41

В дальнейгаэм пгтрихо-госледовательньй под с помощью сшци-аЛьшх программных средств преобразован в стандартов телеграфный код Китая, где каждый иероглиф (число, знак препинания, буквы ла-тмгкого и русского алфавитов) однозначна обозначаются четырехзшч-mft цифровой группой.

Основные результаты статистического анализа иеропвфтес-кого наполнения микроподъязыка:

1. Частотный словарь иероглифов при объеме «ьборки 192272 групп составил 5289 единиц. Остовная масса (болей ,82X) наиболее употребительных иероглифов выявляется из первья 10 тьсячах групп атт-зируемой выборки. В далыейявм с увеличением объема вьеорни

количество новых егмящ словаря растет геэначигелъю, с каждой говой порцией все более стремясь к нулю.

2, Наибольшая частота в исследуемом микрошдъязьке падает га знаки грегмнания (запятую и точку), имекице соответствен!» ранг 1 и 2, которые вместе с именами собственньии и наименованиями орга-шв управления (ранги з-б) составляют 15,762 анализируемого пакета текстов. Первые 58 иероглифов покрывают 50Х корпуса текстов, 100 иероглифов - 62,24*. Критический уровень понимания текста (754)' достигается 205 иероглифами. .795 иероглифов покрывают 95* текстов всех документов. 21словарных величин (40* словаря) покрывают 97* всего цредставлеиюго массива. Редкие иероглифы (с частотой от 1 до 4) составляет 60,09* от объема словаря и покрывает 3,04* корпуса текста.

Анализ лексического наполнения микрошдъяздаа проводился с учетом выводов теоретической и инжешрной лингвистики о том, что дабой ■. .!ст имеет зернистое квантовое строение. Цри этом большое количество понятийных единиц в условиях спецкоммуакаций гередает-ся не отдельны" словами, ас помощью словосочетаний, превращая. „ их таким образом в самостоятельные лексические единицы, ьаходяпцж ' :раже же в лингвистической памяти человека.

Применительно к анализируемому микрогюдъязьку, язьшвьв с ш, охЕатьш№»е „о 80* всего корпуса текстов, явЛякггся теми йамостоятельньми лексическими едю&щами, которые выполняют основною заичу го передаче тформации. В связи с этим задача статистического анализа лс :ического наголнения кжрогодъязька видится я выявлении в первую очередь указанных язьковыс штампов и шаблонов, образую»« основу лексико-синтаксичесной структуры агалиаируемых текстов. Анализ проводолся методом маркировки устойчивых сочетали груш. Цри этрм исшльзовалась так называемая иконическая процедура, предусматривающая вьбор из текста сочетаний групп ф«сировангой длины ~ путем последовательного продвинешя по тексту со сдвигом на одну ' Прупгу вправо. Выявление в ходе машиной маркировки,и-• паедщтарй

ручшЯ обработки цегочки групп разной д."чпы, обл? -а'ад-ю определений частотностью употребления получили название статисти-iani устойчивых сегментов. Тот факт, что дашмз сегменты не являются случайными образованиями, так как 1-й влечены статистическим путем ¡а доста-точ?1з представительной вьбо^кп, "лаглд .я утл .»чивьм статистическим харавггеристшам, даег осгооаше считать их полноправными ежшицам!», являксямися, в сукности, инфор^ионньми элементами текста.

Анализ сегментного состава гоказал, что из общего количества сегметт® (80713 единиц) около половины (48,3£) приходится lia двусложные, покривавдие 34,5S массив текстов. Сегменты длиной от 1 до б групп имеют сумма^чьй npoqeirr покрытия равный 99, т. е. га доли всех остальных образований (длиной <г 7 до 16 групп) прихо-(тгся около 1* текста. Средняя длина cerneirra равняется 2,8 групп, причем этот параметр колеблется от 2,4 до 3,О*, в зависимости от степени формализации текста. С'.зпень сжатия сегментов диктуется принципами экошмии языковых средств в целях оптимизации ссо&щгний и ограничивается лишь требованиями " 1ь.^едачи иЭДормацип. Ашлг" структуры и частот! юсти употребления статистически устойчивых сегментов позволяет судить о количестве.«« составе лексического га-полнешя исследуемого жкроподъязька. Так, согласно годсчетам, критический (75*) уровень понимания -екстоэ достигаемся примерю :ооо единиц, 90Х - 5000, а для 951-ого покрьгшя требуется не менее г ООО сег-'-игов.

Основные выводы по второй главе.

1. Анализ характеристик исследуемогс гласса текстов подт-верздавт гипотезу о выделении данной язмювой годсистчы в качестве ■ отде тънэго микроподъязька коммерческих водных перевозок.

2. Исследуемый микрогюдьязь»; представля< - собой от. хите-лыю конечную и относительно зе .wyio подсистему, характеризующуюся высокой степенью формализации, o6tnipia>M применен км i чимрог ладе конструкций, докуменгалюмом, минимальном наличием слож.-t счнтак-сичеопк структур.

- 18 - . •:'

з. Лингвдстатическне характеристики' раекрййДО йвйб&Шетя данного mi з;ро подъязка: оггашчешое . иероглиф гёййШv jtóM,№iir« ; домитарущая роль двуглоашьк лексических едНкга^- ffiKtííiasf чйСтЪтгйсть употребления статистически устойчивых- cerrtdilftjfl' itáfieíb'.

- В /ре.£>ей главе - "18хледовадае riyrefl' ЛССТрйегЬЧй'И' {Заработка опьп-да-эксгкриме^гальной системы ютгейсш-русского' информационного машинного перевода (ШИП)" - обосговьвается'вымр'Сбп-йкгарт-исо-нической концепции Ш (3.1.); определяется-структура• vi'содержание малинного словаря (3.2.); разрабатывается' алгоритм1 >Й1 и описываются -езультаты его экспериментального опробования'(З.з,); изучается вогзмоняость совершенс завания системы-перевода с использованием более мощш технических и -прогрзтшк средств, рассматриваются -проблемы включения-система-ШШ' в'>аьтомалйi¡роваяную систему сбора и переработки специальной'ийфзрмацЛт'(3";4:);

Нынешний этап развипк-теорш'-П'Практики 'МП характеризуется как^зтап синтаксического перевода;-глгвтйй лингвистической оссбен-шетью'которого ятяется принятие слова'в качестве осывной единицы смьСла; - Про этом- синтаксические сго-зи >юзду словами входного текста выступай- в качестве вакнейшего критерия для определения грамматических форм и порядка следования слов в выходном языке. Данная закономерность требует достаточно полных словарей слов и целого комплекса сложных алгоритмов грамматического анализа и синтеза.

В анализируемых текстах роль семантических единиц высокого уровня значительно вьшэ, чем слова или морфемы. Так, статистически устойчивьв сеплоты занимают от 60 до 80% всего корпуса текстов и содержат 80-908 всей семгнгико-сикгаксической информации. Следовательно, при выборе концепции машшного перевода необходимо сделать угор на часто уготребичье семантически оформлешыэ фрагменты текста как основные стандартный средства выраяения элементов типовых ситуа-

'¡рр 40срй> дануедад Щ, ориентированного на конкретный м: роподъ-¡КВДК. дада0,ода?!3№1аде|р обучеш1я .го образцам (фрагме!ггам текста) да .даздодда ,с уедооена естественному языку вообще. лая

«седеддо <Сдаь реадазодава |В даае дексико-фразеологаческого йоерй!1те!рдаго) Ш, да т ЗДр- дрие1 змоч с данной ситуации.

Выбор декдао-фрааеолог^есного КП объясняется тем фактом, ЧТО представлен!пл црироподмтадк не отвечает идеальным тортам литературного языка в виду значительной компрессии лингвистических эле->}£)ПЫ), а том числе частичного .или полного отсу.ствия пунктуации, я так«» давдяп .ояреде.темюго тела пропусков и нскачвний, доттзгн-)ЯХ в процессе даода .иэрогли^еского письма о ЭВМ, особенности . делают певозможда грамматический и семантический анализ текста. Для реализации копцепцод машспиго перевода избран тонический вариант построения алгоритма перевода, то есть основанный на прямой однозначной замене сегментов одного (входного) "зыка сегментами другого (выходного) язмга. По опыту лингвистических исследований (Р.Г.Пиотровского, Л.Л.Нелкбида, К.Б.Бектаева), способ прямой конфронтации считается особенно пригодньи для оттсигельт закры.'лх и строго фиксированных подсистем. Таким образом, избранная кон^пция иашнного перевода с китайского языка получила название сегментгарю-дапнического перевода. Для устранения определенной синтаксжо-мореологической слабости избранная концепции мл используются возможности инIеллектуального интерфейса ЭВМ. Четкое распределение функций меэду человеком и ком." .¡югером, введение при необходк эоти режимов пре,* , интер- и постредактирования различной г убшы в значительной степени' снимают указанную проблем и обеспечивает приемлема качество скорость обработки.

Важнейшей составной- частью автоматизированной системы >"1 является машины словарь (Ж), как отноа.гельнз кошчньй массив основной лингвистическог информации, обеспе1' вхвдэй 1ршсформаци» смысла документа из одного язька на др, гой. п, .1 составлении .•£ пер-

воочередной проблемой виггушет задача выбора словарная единицы, которая зависит от словобразования в конкретшм язьке и офзрмлеии в тексте сшгловых единиц. В лшгаистике считается, что главньм критерием для вмавленля границ нммматьвдп еди. цы текста при обработке его на ЭВМ монет быть только пробел. Применительно к языкач с 'иероглифической письменностью, указ-чный критерий оправдывает себя только при анализе иероглифического состав», когда за минимальную едтыцу текста действительно приншается слогоморфема, вы-раюэ)-ая одним иероглифам. Однако такой подход к КС сегментарш-иконического МП с. китайского язька не вполне приемлем, так как иероглиф не всегда выполняет функцию слова, состоящего в большинстве случаев из двух, реяв грех и более иероглифов. При выборе иероглифа основной едигщей ис потребуется в качестве-русского эквивалента давать, значение кавдого иероглифа в отдельности, что противоречит общай теории перевода китайского языга.

Учитывая результаты лексико-грамматического и лингвостати-стическрго анализа, отделившего исследуемый мшрогодъчзык как язи-г^вую подсистему, состоящую в основном из устойчивых штампов с элементами ограниченной грамматики, предлагается избрать в качестве ■ единицы ЫС устойчивьй сегмент, выраиенный сочетанием статистически оформленных груш текста. Такой подход отвечает требованиям икони-ческого перевода, так кач гос мяет избежать многозначности и многовариантности переводных эквивалентов, порождаемых переводом на уровне отдельных иероглифов.

При определенен структуры КС необходимо исходить из требований достато>, *.го процента покрытия текста оригинала, что диктует необходимость количественного и качествендаго наполнения НС. В связи с этим структура ИС должна включать в себя служебные и лексико-Фрззеологические сегменты. Под слуккбльт сегментами понимаются еди-1шцы словаря, обозначайте знаки пунктуации, цифры, буквы, даты, номера навигациоглых знаков, географические названия, условньв наиме-|«1киа1Я оргь. .¡в управления, доджтоптии фамилии осизвньк лиц.

О>еор ■ -тнсималыюй длины лекг -ческой ~ птицы осюоан та результах ашлиза структуры сегментов, которьй показал что сомов 99Х пэ и« имеют длину от .1 до 6 групп Поэтому приз нага целесообразна! в целях оптимального использования ресурсов памяти машины ш первом этапе опылю-эксперп1 нгатъыго I (следования принять максимальную длину сегмента равную б группам.

Объем маиданого словаря зависит прежде всего от.количества статистически устойчивых сегментов текста, лрименяемък для описания мокро- и микроапувциЯ конкретного микропэдьязы! . и о учетом обеспечения лексического варьирования меяну .¡ззньми лексика-семантическими структурами схошшк и г тобных по смыслу ¿фагменгов, по предварительные расчетам будет составлять 50000 ед'чзщ.

Процедура составления маажнвюго словаря строилась ы принципу разработки конкорданса с использованием маЕьлныхи ручных с:.;То-дов иэатечеюи предго^аеиых сл. зрньк единиц. Каждому устойчивому сегменту приписывалось значение в русском языке, которое согласовывалось с особенюстями употребления данного сегмента в тексте дог -мента. При атом предпочтете отдавалось контекстуальному знячетоо лексической единицы.

Оптимальной првнана структура словарной статьи длиной до 80 символов, где в гкроой части •лходится се гиен г п цифровом ь.де, а во второй - его значение на русском языке. Например:

с - ,

6014 1390 0393 1907*нэблюдатъ за ледовой обстановкой 5114 0678 1201 I./65 2585=смешншя комиссия

Осе го для проверки концепции МП отобрана бс"°е зооо единиц с мзксимальшй частотностью угт"реблйш, которье составили основу лингвистического обеспечен« разрабэ-ываемой еж змы к;ггаЛ...о-рус-ского иадштго перевода.

0 ходе научло--1!сшр1г!енгалыюго исследовами" ¡ля ре иза-ции избршпой концепции сегметарно-икогемескоп) мл бшк. раз-^аботак" несколько атгоритмов перевода, отличадаясг др>т от друга ст.- чту-

роп, скоростью работы, формой реализации и другими характеристиками. Первь»! а.горитм был реализоаан на ЭВМ типа СИ-4 и СМ-1420 с ограниченными воомоииостями ш памяти, быстродействию и эргоюмиси работы. №-:эзал практические результаты, свидетельствую;, .е о правомерности выбора подходов к осуществления машинной атрибуции текстов задашюго класса. Второй алгоритм перевода р .аиЕГ-таи па ЭВМ СИ-1420.10 С использованием базы датьи аоаваб-я, вьбор которой обусловлен сироки-т ее возможностями в сочетании с высокой скоростью переработки инфзрмации. Наибольший интерес с точки зрения ¡вукп и практики представляет третей а-., оритм Ш на ПЭВМ, как закономерный результат развит избранной концепции МП в процессе опытю-эксгериментальгого исследования. - -

Алгоритм работает еледующим образом. После ввода текста ' производится считывание текущзй группы текста Ш, которая проверяется г" машинном;- словарю сегментов (МСС) ш предмет ее наличия и, в случае отрицательного ответа, поиск данной группы осуществляется по машнному словарю фонетиков (МСФ). Если текущая груша К; (год потопай в данном алгоритме подразумевается возможное начало сегмеш-а) шйдею э ЖС, то автоматически происходит выделение рабочего массива М в составе ЯСС. Эта Процедура слушг для сулею« поиска искомого сегмента в словаре, поскольку массив М содераит только те сегменты, которые начинаются с те-ущей группы К1. После.выделения массива И запоминается значение группа Их, которое записывается го времешьй буфер и мояет быть иомешю на значение сегмента болыаэй длины при положите льном результате идентификации. На следаврм эташ из текста орип ¡ла считывается очередная группа, которая добавляется к предвдугей, образуя таким образом сегмент га двух груш, [фи 1шо»иении в >ГС словарной величины, эквивалентов выделенному сег-мшггу, аагомтается его перевод вместо предыдущего значения. Затем ц;в;л повторяется (наращивается сегмепг и ищется его перевод в МСС) \ до первой неудачи, то есть до тех гор, гока либо закончится массив , М, в не> .улет отсутствовать эквивотснт искомого сегмента. Нак

только получен о-рнцательшй результат и'ентифшрчя), переио„ преды-дупрго сегмента передается годпрограмяе ^срмировшш пвр^тода (ШФП), которая iBuanmitiasT результата работы алгоритма, анализирует .к, Формирует по стропам и выводет га дисплеи и/или заносит с результи-pyicnjia файл. После этого сс.ч'лс ляетсь сдвиг да число пепеведешьк груш и процесс гйреоода продолжается до ганца текста. Если в ?!СГ отсутствует текуизя группа Hi ей приписывается фонетическое значение соотпетствугазэго иероглифа, кодированного данной груотой. В случае, если группа Ki не является кодообозначетчем иеро' чфа, и ее значение !в найдено im в КСС, ни'в МС4>, то от не переводится и выдается в строке перевода в исходном В' 'С.

Дааиьй алгоритм реализовал га ГОВМ - та m рс. Программы Написаны на Турбо-Паскале з.О и 5.5. Результаты апробации п,ограчм с доголпенньм НС в целом более высокие по сравнении с предьцую..-и версиями перевода. Главньм äoctoi'-.jtbom является увеличение процента покрытия текста и,.как следствие, возрастание количества документов переведенных вше критического уровня пь.-машя, и сокрэдиме в с"1-зи с этим объема работ га этапе постредактирования. Так, из юо введенных в ПЭВМ документов контрольного пакета 82 переведены с покрытием не ниав 90%, остальныэ в пределах уровня понимания. Скорость перевода до юо Иероглифов в мигту является наиболее приемлемой, шскольку позволяет вести оперативный просмотр содержания юф тма- -

с ■ >

циг одновременно с работой программы перевода. При большей скорости перевода пользователь вьяуаден тормозить работу программы, поскольку не успевает прочесть вьшодимьо га зк н монитора результат перевода. Вамзюй особенностью Пнограчмы "Перевод* ПЭВМ считается простота ее кожтруктшис"-о реаиния и воэмоаяоеть реализации на любой ПЭВМ для язьков с любой письменностью, '

Требовал завершаю^ . п цигз авточатимфованной обработ-т информации с переводом оришйладък документов «жил язьк диктуют условия разработки шктруктивных особенностей . сте^м КР!«п в виде автоматизированного рабочего -места "чреводчика, ¡менадг^ вы-

Блок-схема алгоритма программы "Переьод" на ПЭВМ

ход ¡а IВС и способного работать в автотипом ре»*!мэ для оге.. -¡пятой сценки ¡заданного масса документов. Технологически! прочее перевода, хранения, поиска и распределения информационных докумет'оп пре> гап-.? зтся п виз ряда последовательных взаиосвяаашмс этаяоп, каэдый нз которых является логическим продс изние.». предыдущих операция. Осшвньв этапы такого технологического процесса следуйте: ввод г ЭВМ, автоматическое корректирований, предредакнфоваые, собственно перевод, шл-ер- и/или шстредактировзше, <{орматирооадаз выходного документа и доведемте его до зеинтересо.-авмс с ^ •човремешшм вводом в 11Ш. ДаниьП вариазгг техшлогического п. тесса переработки информации п условиях спецноммулгэвв! с использованием разработайы> систем ШИП представляется наиболее приемлем") и легки реализуемым т ГШМ любого типа, что свидетельствует о его ойекпяэпостг и доступности. Опылю-эксгкрч'сталыш проверка помп, лью подтвержу ,эт дашьп фэкт, особеюк, а вопрос.', высокой оперативности обрас_ггни гагголских документов заданного класса.

В заключена! излагаются основа..,-- результаты дксс^/тэдиош^Д

работы.

1. Проблему ввтоматазировашиЛ обработки специальной иифэр-иации в условиях двуяэычшй аггуацин необходимо рассматривать каг комплексную (адгакрда-лингвистичйскую задачу, в .„ггересах операпт-н-. о обеспаче!»1я специалистов треводшй (сигнальной) ииформаи- "й го вог^осач их професаюиолмс . деятельности, '•

2. Результаты анализа исследуемых материалов определяют мигрогюдьязад китайского слулебного докуменг ^борота как относительно закрытую и в значительней степеда формализованную яэыкоауу подпкггему, харакп^иэумил-мся ограничении наличием слан на синтаксических КОНСПРУКЦ11Й И ДОМИНИруКЩ« "О.'ЮЖШКМ Г ЧТИСТИ1»»« устойчивых лекс«;о-<йра^еологичесю« егмектш в тае семантически офорь-леюмг штампов.

3. Ипшинная реализация предягарнне! кощепции 1с китайского <-пы;а 1« ¡)>сс1яй полностью подтверди/"» иьюод о юзt^o;^зюc^, со-

ода га цростой го структуре интерактивной системы МП китайских деловых ;Локу>е!ггов. Результаты эксплуатг'ии опытно-экспериментальной системы КР1&Ж убевдаюг в правильности теоретических выводов о путях ре пня проблемы автоматизированного перевода указанных материалов в условиях спецкоммупнаций.

4. Алгорщ-мы сегментарш-пкоил ского МП доказывают правомерность иыбора о качества единицы КС устойчивого (типового для заданного класса документов) сегмента, вырэденного сочеташем стати- ' стически оформленных гр\тп теиста. Такой подход позволяет решить одну из главных п^блем МП с китайского языка - автоматическую сегментацию текста ш отдельные единицы перевода при отсутствии видимых грани) семантически оформлешш лексических сочетаний.

5. Ли1Гвисг,'1ческое обеспечение системы 1ИШ, представлгшпе ' словарем статистически устойчшых сегментов, в сочетании с элементами

интеллретуального интерфейса ЭВМ, позьолявдго осуществлять друлвст-вешюе человеко-машинное' взаимодействие га разных уровнях обработки информации, гарантирует адекозгное понимание 95% информационных доку-мегтов пользователями, не владениями китайским языком.

6. Совершенствование с.етеиы КРПМЛ целесообразно га базе пэвм типа 1вы рс хт/лт и совмести>ак с ними'машинами, характеризую-вдмюя высоким быстродействием и достаточньми ресурсами памяти, компактности и автономностью рэбо.... Включение системы кримп, построенной в зиде персашыю-профвсаюналыюго АРМ перевод чина, в общ>эд сеть 1ШС создает целостную систему автоматизированной обработки специальных информационных документов.

7. Пр1..а411пы разработки опьггю-эксперименгатыюй системы КП с китайского языка на русский могут быть нсгользованы при гост роем ¡и автоматшпровзтьк систем обработки информации на других язшах (в первую очередь - на языках Югс-Восточдап Азии).

Разработанная система китапско-р>сского иифоряациондаго \ . машшиого перевода прошло апробацию и внедрена в в/ч 2456 (акт о ыадроюш н ги^ллуатацию в в/ч 2456 х :б п- 20.09,1491 г.).

- 27 -

Осшшюр содеряашв диссертации отрзтш в следугащ:. работах автора:

1. Особенности структуры китайского текста в деловых докумиггах авдашюго класса // Ведомственный сборник научных трудов. - Войсковая часть 2456, 1985, {0,8 п.т.).

2. Лн^ормашоннш китайско-русский иаяпашй перевод документов // Деятелмюстнье аспекты языса и типологические приемы описитя. - Москва, 1936, с.зз.

3. Система информационного китр'пю-русского перевода на персональном 1,ч»тысггере '/ Ведомственна сборник нэучньк трудов. - Взйсковая часть 2456, 1990. (1 п.л.).

Пример машинного перевода:

Ш1

& Ъ & А ЬкЖ % » !$ & » # /к •

# ^ Ш & %> & & : ^ (205-; # +

& %% но М. Жъ ? # + ~ & I' Зя ^ ш № л м . Ц (¿оз). ® Г щ % тМИЛ* •

¿Й £ £ & ^ Ш % гг&М Я< • # М lsA.il л. Л ' ^ # ^ & п гбоз; т ¿р & щ з~ м. •

• я А ш ш а & •

$ # & . /ш £ * Я + * •

Текст документа заданного класса на китайском языке.

(Входной текст)

ВХОДНОЙ файл: r.dok Дата: 19. 9.19:ч « ш; "НИШ ПЕРЕВид * Выходной файл: г.prv Время:, 13.50,22 * ГЕГ.ШМЕР *

******»»«:»** V******

NK01

Стр.1

/// 5685 2455 0794 2814 5300 66п 1444 9976

- советская сторона управдше ..ommhjvriciff ¡жрпюзок

6153 6567 0707 5685 2057 0696 0681 1807 9976 2113 просим передать товарищ сухов , ;оп!н

5300 2871 4430 9975 "

отдел службы судоходного фарватера .

2174 1444 6148 6639 4249 ГО СООБЩЕНИЮ ДШПЕРЕРСКОЯ УПРАБЛЕ1Ш

2053 1032 5300 0143 9980 2151 ( 205 )

информируем о иавигащшюп он 'aiвесе : буксир n ?"5

2506 9810 6931 3124 110/

вчера 10 часов стал на ш!орь у 110 створа

7212 0255 9812 7212 3194 0683

остановка из-за тумана 12 часов госле того как туман рассеялся

2151 ( 205 ) 0006 5300 997, 6303 ( 603 )

БУКСИР S 205 ВВЕРХ ПО ТЕЧЕНИЮ . ГРУЗОВОЕ С. ДО N 603

0936 0917 6850 4275 0975 2364 3239 2? ' 997г "

ввиду серьезного повреждения сел на иелъ у 228 створа .

6153 5685 2455 3175 2293 2405 5307

просим советскую сторону послать судпг-сплсатель

0451 228/ 0588 0504 5192 3239 9975

ПРИШГЬ JÍ 228 СТЮРУ ОКАЗАТЬ поющь СЛТШСЯ С ,

6153 0588 0504 5307 0086 0765 409„ 5685 1489

прос"Ч помочь экипая судна вьсаднться на совнггсиш берег

9975 5192 3239 0683 0122 5307 2576 ;

осле снэтш с мш вашему судну взэть iu буксир

6303 ( 603 ) 0007 5300 0613 6604 ^761

грузовое судш n 603 ВШЕЗ ш течению срочю веиоться в харбин

0208 3810 0031 2623 9975 " 3676 ¿ПЬ 6639 4249

РЕМОНТ ГЛАВНОГО ДВ1ГАТЕЛЯ . О ЧЕМ ОСОЮ УВЕДО1" НМ

9975 1172 0681 1942 615" 1032 2с53 4430 9975 "

шли согласны utotím сообщггь в haue огдепгние , • "

0794 0523 4430 9975 ( 1991 ^ 1628 { 7 ) 2588 ( 10 ) 2480 ОТДЕЛаИЕ Т0РШШ31 1991 П)„ ' 10 Ш 1

9975

Результат работы программы "Перевод"

V:30

Вход П фаГм: r.prv Дата: 19. 9.-991 * НАШШНЫП ПЕРЕВОД *

ВЫХОДНОЙ фвЙЛ: r.redBjV.H: 14. 1.36 * РЕГ.ШМЕР *

********************

Ш>1

СОВЕТСКАЯ СТОРОНА, УПРАВЛЕНИЕ ШИМЕРЧЕСЮК ».JPEB030K, ПР11С1И ПЕРША"! ь ТОВАРИЩУ' СУХОВУ, КОПИЯ 0 ОТДЕЛ СЛУЖИ СУДОХОДГОГО ФАРВАТЕРА

'Ш СООБЩЕН!СО ДШПЕТЧЕРСГОЯ ЛВ ЛЗЯЕП ШЮОВШРУЕМ О ИШГАЦКОННОП ОБС~А}ПБ!Е: БУКСИР N 205 ВЧЕРА В 10 ЧАСОВ СТАЛ ИА ЯКОРЬ У 110 СТЮРА, ОСТАШВЯА II3-3A ТУША. В 12 ЧАСОВ, ПОСЛЕ TL. О КАК ТУМАН РАССЕЯЛСЯ, БУ1С11Р Н 205 ПОШЕЛ ШЕРХ ГО ТЕЧЕНИЮ. ГРУЗОВОЕ СУДЮ N 603 ВВИДУ СЕРЬЕЗНОГО ПОВРЕВДЕШН СИ) НА ЦЕЛЬ У 228 СТВОРА.

ПРС И СОВЕТСКИ СТОРОНУ ПОСЛАТЬ СУДИО-СПАСАТЕЛЬ К 228 СТВОРУ ДЛЯ 0KA3AHL; ПОМОИ! Ю СНЕГЛИ С ИЕЛИ. ПРОСИМ ГОШЧЬ ЭКИШУ суда ВЬСАДГГЬСГ НА СОВЕЛШЮ БЕРЕГ. ПОСЛЕ С1ШШ С МЕЛ» I \ЙЕМУ СУДЮ' ВЗЯТЬ IIA БУКСИР ГРУЗОВОЕ СУДНО N 603 И СЛЕДОВАТЬ ВНШ ПО ТЕЧЕНИЮ, ГРОЧШ ВЕРНУТЬСЯ В ХАРИ81 ДЛЯ РВОТА ГЛАВНОГО ДВИГАТЕЛЯ.

О ЧЕМ ОСОБО УВПОХЛЯЕИ. ЕСЛИ СОГЛАСНЫ - ПРОСИМ СООБЩИТЬ В ПАВЕ ОТДЕЛЕНИЕ.

ОТДЕЛЕНИЕ ТОРГОВЛИ. 1991 ГОД 10 ИЮЛЯ.

Текст документа на русском языка после р ^актирования.

(Выходкой геког).