автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Моделирование морфологического компонента промышленных систем машинного перевода
Полный текст автореферата диссертации по теме "Моделирование морфологического компонента промышленных систем машинного перевода"
1 о 9 Й '
АКАДЕМИЯ НАУК СССР Институт языкознания
На правах рукописи
ШНТУСОВА Ольга Васильевна
МОДЕЛИРОВАНИЕ МОРФОЛОГИЧЕСКОГО КОМПОНЕНТА ПРОМШШЕННЫХ СИСТЕМ МАШИННОГО ПЕРЕВОДА
Специальность 10.02.19 - Теория языкознания
Автореферат диссертации на соискание ученой степени кандидата филологических наук
Москва - 1990
Работа выполнена в отделе прикладной лингвистики Института языкознания АН СССР.
Научный руководитель - доктор технических наук
профессор Р.Г.Котов
Официальные оппоненты - доктор филологических наук
профессор Б.Ю.Городецкий, кандидат филологических наук А. И.Ионов
Ведущее учреждение - Ленинградский государственный
университет.
Защита состоится " CtfO-tfJ IS90 года на заседании специализированного совета Д 002.17.01 по защите диссертаций на соискание ученой степени доктора наук при Институте языкознания All СССР по адресу: Москва, 103009, ул. Семашко, I/I2.
С диссертацией можно ознакомиться в библиотеке Института языкознания АН СССР.
Автореферат разослан " ¡¿¿" (7LL/?/-f/J 1990 года.
Ученый секретарь
специализированного совета З.Г.Исаева
©институт языкознания ан ссср, 1990
^ тд«;! 1мссэрт?ц^:"|
Актуальность темы. Прогресс в области науки и техники во многом зависит от своевременного сбора, обработки и распространения научно-технической информации. Важным элементом этой большой работы является обслуживание потребителей переводами. Увеличение объема переводов заставляет информационных работников искать пути ускорения и удешевления переводов» Одним из них является автоматизация процесса.перевода и, в частности, создание систем машинного перевода (МП), облегчающих труд переводчика и обеспечивающих оперативное' удовлетворение практических потребностей специалистов.
Современный этап развития прикладной лингвистики характери--зуется растущим интересом к созданию эффективных систем машинного перевода (СМИ), работающих в промышленном режиме. Одной из важнейших характеристик промышленных СМИ является технологичность, которая наряду с другими аспектами включает удобство эксплуатации, с одной стороны, и удобство пополнения и корректирования - с другой. Несовершенство технологии пополнения и. корректирования системы становится серьезным тормозом развития и может привести к ухудшению других параметров системы Ш и, в первую очередь, качества перевода.
Вопросы технологичности особенно остро встают в тех случаях, когда СШ передаются в пользовательские организации для самостоятельной эксплуатации. В этой ситуации усовершенствование организации словарей а упрощение работы с ниш приобретает первостепенное значение, т.к. словари более других компонентов системы нуждаются в изменениях.
Цеди и задачи исследования. Цель настоящей работы состоит -в построении модели морфологического синтеза словоформ русского языка» ориентированной на ее машинную реализацию в качестве компонента промышленной СМП и обеспечивающей технологическую
гибкость программной реализации, высокое быстродействие» эффективное взаимодействие с другими компонентами системы, легкость внесения исправлений и изменений.
Задачи исследования:
1. Сформулировать требования к морфологическому компоненту промышленных систем МП и выработать принципы его построения.
2. Разработать принципы соотнесения морфологической модели и словаря.
3. Разработать систему классов словоизменения для русского языка.и таблицы окончаний.
4. Дать мнемонические обозначения каждому словоизменивель-ному классу, такие, чтобы пополнение и коррекция словаря ье тре бовали от его составителя специальных знаний в области автомати ческой переработки текстовой информации.
5« Построить морфологический словарь с использованием разработанной классификации и мнемоники.
Материалом исследования послужил "Грамматический словарь" А.А.Зализняка.
Предмет исследования - русская морфология в аспекте построения системы словоизменения* учитывающей парадигматику всех час тей речи и ориентированной на машинную реализацию.русского морфологического синтеза. В качестве методики исследования был использован метод лингвистического моделирования с проверкой на ЭВМ,
Научная новизна исследования заключается в том, что в немг I) выявлены и изучены различия между промышленными я эксперимен тальными СМИ в морфологическом аспекте и сформулированы требова • ния к морфологическому компоненту промышленных СМП| 2) разработаны принципы кодирования словоизменительных классов, позволяющие пользователю, не имеющему специальной подготовки, заносить в словарные статьи непротиворечивые сведения о морфологических особенностях любого слова; 3) на основании этих принципов разработана система мнемонических обозначений для словоизменительных классов русского языка; 4) делается попытка осмыслить и . обобщить все лучшее, что накопила теория и практика машинного перевода, что в целом должно обеспечить высокую гффективность морфологического компонента.
Практическое значение исследования. Разработанная в диссертации система классов словоизменения с их мнемоническими обозна
нениями» таблицы окончаний, русский морфологический словарь объемом около тридцати тысяч словарных статей и система автоматического синтеза статей словосочетаний составляют морфологический компонент СМИ ЛИНГРАН» разрабатываемой в ВЦП а внедрены в СЩ АНРАП, работающую в промышленном рениме.
Апробация работы. Основные положения диссертации и результаты исследования излагались в докладах на Международной конференции "Теория и практика научно-технического перевода" (1985 г») и на ТУ Международном.семинаре по машинному переводу "ЭВМ и перевод -.89" (1989 г.)о
Структура работы. Диссертация состоит из введения, трех глав, заключения, а такае четырех приложений и библиографии.
СОДЕРЖАНИЕ РАБОТЫ Во введении обосновывается выбор гены работы, излагается общая постановка проблемы морфологического моделирования, ставятся задачи диссертации» формулируются цели и методы исследования, показана научная новизна и актуальность работы.
В первой главе диссертации анализируются проблемы построения моделей морфологического анализа и синтеза в советском и зарубежном языкознании; дается обзор работ по этой теме.
Во второй главе рассматриваются теоретические основы прикладной морфологии, обосновываются различия мезду промышленными и экспериментальными системами машинного перевода, формулируются требования к морфологическому компоненту промышленных систем Ш, вырабатываются принципы его построения.
В прикладной лингвистике вообще а в машинном переводе в частности морфология обычно моделируется упрощенно» применительно к. тем практическим задачам, которые приходится решать при построении конкретных систем автоматической обработки текста. Терминология традиционного языкознания наполняется.в прикладной линг-. вистике новым содержанием. Так» морфологический анализ в машинном переводе понимается как обработка словоформ с целью получения информации» отобрааающей в явном и удобном виде те их свойства, которые необходимы для последующего синтаксического, анализа. Морфологический синтез рассматривается как построение словоформы по заданной совокупности признаков. Под "словом1* понимается цепочка символов ыеаду пробелами.
Машинный перевод возник как область прикладной лингвистики
в связи с появлением электронных вычислительных машин. Первоначально он мыслился исключительно как-средство автоматизации трз да переводчиков, т.е. как некая практическая деятельность, направленная на удовлетворение информационных потребностей лиц, имеющих дело с иноязычными текстами. Однако, первые действующие системы МП по сути своей были экспериментальными и имели целью продемонстрировать принципиальную возможность перевода с помоац ЭВМ. Более того, большинство систем машинного перевода, созданные в последующие годы и доведенные до работающего состояния, были также экспериментальными и разрабатывались душ иллюстрации какого-либо теоретического положения. Иными словами, машинный перевод может относиться как к прикладному языкознанию, так и г теоретическому, в зависимости от того, какие цели преследуют разработчики системы. Системы Ш, относящиеся к теоретическому языкознанию, принято называть экспериментальными или модельныш системы, относящиеся к прикладному языкознанию, называют промни ленными, коммерческими или практическими. Очевидно, что для оценки той или иной системы машинного перевода это различие является фундаментальным, поскольку к промышленным и экспериментальным системам МП предъявляются различные, подчас противоположные требования. Можно выявить следующие свойства промышленнь систем машинного перевода и предъявляемые к ним требования.
I» Промышленные системы МП предназначены для автоматического или полуавтоматического перевода текстов с однороязыка на другой для удовлетворения информационных потребностей специалис тов, не владеющих иностранным языком.
2. Информационная функция промышленных систем МП предполага ет значительные объемы переводов и широкий круг пользователей.
3. Промышленные системы Ш должны обеспечивать достаточно, высокую скорость перевода, чтобы их использование обеспечивало заметный выигрыш во времени по сравнению с традиционным переводом« Достичь этого удается лишь при условии использования языков программирования низкого уровня (типа Ассемблер) и отказа от времяёмких системных процедур.
4. Стоимость переводов, получаемых с помощью ЭВМ, должна. быть сравнима с ценой традиционного перевода. Стоимость перевода тем ниже, чем выше быстродействие системы.
5» Промышленные системы МП должны обеспечивать достаточно высоко^ качество перевода, чтобы специалист мог разобраться в
нём без обращения к теисту оригинала* Погрешности перевода не должны приводить..к. нарушению смысла источника.
6. Обязательным условием перевода хоть сколько-нибудь приемлемого качества является машинный словарь большого объема, обеспечивающий хорошее покрытие обрабатываемых текстов» и достаточно полная грамматика, охватывающая все грамматические явления, встречающиеся в текстах данного жанра и данной тематики.
7. Промышленные системы МП должны переводить оригинальные непрепарированные тексты с минимальным предварительным редактированием.
8. Промышленная система МП должна быть технологична и максимально проста в эксплуатации. Выполнение переводов с ее помощью не должно требовать от пользователя специальной подготовки.
90 Последнее требование связано с тем, что промышленная система МП оказывается максимально эффективной тогда, когда она установлена непосредственно в пользовательской организации и эксплуатируется силами пользователей. Это в свою очередь означает, что промышленная система № должна быть выполнена на стандартной и распространенной электронно-вычислительной технике и легко тиражироваться.
10« Поскольку информационные потребности пользовательских организаций различны, и переводимые ими материалы могут сильно различаться по жанрам, тематике, лексическому составу и т.п., пользователи должны иметь возможность развивать систему в нужном им направлении, пополнять требуемой лексикой и т.д. Такая возможность обеспечивается за счет достаточно простой технолог, гии совершенствования системы и включения в нее соответствующего программного сервиса.
11. Удобство работы с промышленной системой МП - кардинальное дая ее эффективной эксплуатации - должно быть обеспечено на всех уровнях, начиная от организации приема заказов на перевод и кончая их вручением заказчику.
12. Внедрение промышленных систем МП требует большой организационной работы, решения финансовых, кадровых и административ-, ных вопросов, тщательной проработки технологии эксплуатации системы и прохождения переводов, организации хранения и поиска выполненных переводов на случай.повторных запросов и т.д.
В отличие от промышленных, модельные системы МП характеризуются другой совокупностью свойств и задач, определяющихся их
экспериментальным характером,
1. Экспериментальные системы Ш предназначены для моделирования тех или иных аспектов переводческой деятельности или проверки каких-либо лингвистических гипотез.
2. Экспериментальные системы МП разрабатываются на базе языков программирования высокого уровня с максимальным использованием аистемных средств. Это позволяет довести система до рабочего состояния в короткие сроки при минимуме трудовых.затрат.
3. Необходимо стремиться к минимальной стоимости разработки экспериментальных систем МП при том, что высокие эксплуатационные расходы (за счет низкого быстродействия и несовершенной технологии) считаются допустимыми. Низкая скорость работы системы, являющаяся неизбежным следствием такого подхода, не рассматривается как её недостаток.
4. Лингвистические эксперименты с использованием модельных систем Ш производятся, как правило, на специально препарированном материале небольшого объема.
5. Словарь и грамматика экспериментальной системы Ш всегда имеют малый объем, необходимый и достаточный для проведения исследований.
6. Экспериментальные системы МП, как правило, создаются в единственном экземпляре, не тиражируются и не передаются для установки в другом месте. Следовательно, для их реализации можно использовать нестандартное оборудование, уникальные ЭВМ, специальные операционные системы и т.д.
7. Если при разработке промышленных систем Щ целесообразно пользоваться проверенными и апробированными методами и приемами, то экспериментальные системы МП зачастую разрабатываются для того, чтобы опробовать какую-то лингвистическую идею или оригинальное техническое решение.
8. Проблема качества, столь существенная для промышленных, систем МП, в экспериментальных системах предстает в совершенно ином свете. Качество перевода в данном случае выражает степень адекватности той лингвистической модели, которая положена в.основание системы и проходит в ней проверку.. Более, того, в экспериментальных системах получение неправильных, "дефектных" переводов может служить самостоятельной целью дня выявления определенных лингвистических закономерностей.
д. Если промышленные системы МП имеют, как правило, обшяр-
ный программный сервис, объем которого может значительно превышать собственно программный компонент системы, то экспериментальные системы обычно имеют минимальное сервисное матобеспечение, необходимое и достаточное для постановки эксперимента и оценки его результатов.
10. В отличие от промышленных систем МП, принципиальной для экспериментальных систем является не технологичность, а легкость перестройки для изменения характера эксперимента и/или его содержания.
Рассмотрим свойства морфологической модели, предназначенной для использования в экспериментальной системе машинного перевода» Необходимо подчеркнуть, что требования к морфологическому компоненту экспериментальной системы МП зависят от того, что именно является предметом изучения и моделирования. Если исследователя интересуют языковые явления, находящиеся за рамками морфологии, используемая морфологическая модель может.быть любой» скажем, такой же, как в промышленных системах МП. В случае небольшого словаря можно вообще обойтись без морфологического анализа, поместив в словарь все требуемые словоформы. Однако если (збъидози изучения является собственно морфология, исследователь обязан отразить в соответствующей модели все особенности привлекаемого языка и все реальные языковые процессы: словоизменение, формообразование, словообразование; возможно использование универсальных моделей.
Морфологические модели для промышленных систем машинного перевода должны отвечать целому ряду требований, связанных с реальными условиями практической эксплуатации.
1о Морфологические модели для промышленных систем МП должны обеспечивать высокую скорость обработки текста/информации (т.е. этапы морфологического анализа и синтеза должны занимать лишь небольшой процент времени, затрачиваемого на полный цикл перевода) .
2Ш В условиях промышленной эксплуатации подсистема морфологического анализа должна "уметь" работать.с непредарированным текстом и быть устойчивой к ошибкам ввода.
3. Структура и организация морфологического компонента должны быть максимально просты, чтобы пополнение словаря системы .. требовало от лингвиста-разработчика минимума усилий, а от пользователя - минимума специальных знаний. Естественно, что это
столь важное дая промышленной системы Ш свойство обеспечивается всей совокупностью лингвиотических, программных и технических средств, составляющих систему.
4. Следующее требование - полноты - для анализа и для синтеза имеет разный смысл» Полнота морфологического анализа означает способность морфологического компонента анализировать все формы, встречающиеся в реальных текстах» Полнота морфологического синтеза означает способность морфологического компонента строить любую требуемую форму слова по заданной морфологическо! информации. Однако это не означает, что он должен уметь строит] вое реально встречающиеся в языке формы слов. При наличии морфологических вариантов синтез, как правило, дает один из них (доской - доскою, светлее - более светлый)0 В промышленных системах МП, ориентированных на перевод специфических по жанру те! стов (патенты, рефераты и т.д.) может не предусматриваться синтез калшх-то форм (I и 2 лицо ед. числа глаголов и т.п.). Впрочем, когда речь идёт об ограниченных предметных областях, неполнота системы морфологического анализа также допустима.
5. Повышению скорости морфологического анализа и синтеза способствует минимизация числа компонентов, на которое члените; слово. Наибольшее быстродействие достигается в том случае, когда словоформа делится не более, чем на две части: псевдооснову и псевдоокончание. Псевдооснова помимо корня может включать пр! ставку и/или суффиксы; в псевдоокончание также могут входить суффиксы.
Эффективная работа СМИ может быть достигнута лишь в том ел; чае, если морфологическая обработка и словарный поиск выполняются согласованно и дополняют друг друга,, Проблема согласованности и взаимодействия морфологии и словаря решается различно для анализа и синтеза.
Структура морфологического компонента и организация морфо-. логического анализа в значительной степени определяются устройством входного словаря системы МП. С точки зрения морфологического анализа важно, является ди доступ к элементам словаря по*-следовательныы или произвольным,.а также помещается ли словарь в оперативной памяти ЭВМ целиком.
Элементами входного словаря могут быть неизменяемые, слова, словоформы, основы, псевдоосновы и/или корни» Словоформы включаются во входной словарь тогда, когда они не "позываются"
морфологической моделью« Чем проще модель, тем больше исключений приходится заводить во входной словарь в виде словоформ» Стремление уменьшить число исключений требует существенного усложнения модели. Разработчик промышленной системы машинного, перевода должен найти оптимальное соотношение между сложностью морфологической модели и увеличением объема словаря за счет исключений.
Наиболее подходящими для промышленных систем машинного перевода представляются морфологические модели, предусматривающие членение словоформы на псевдооснову и.псевдоокончание. В этом случае входной словарь оказывается составленным из элементов трех названных типов: неизменяемых слов, словоформ и псевдооснов. Данное решение не является самым экономным: таблицы.окончаний получаются более объёмистыми, чем в случае более сложных морфологических моделей, а в словарь приходится помещать большее количество элементов,.однако всё это компенсируется высоким быстродействием и простотой системы, которая позволяет добиться высокой технологичности и удобства ее пополнения и совершенствования е условиях реальной эксплуатации.
Система морфологического синтеза при промышленном машинном переводе должна обеспечивать построение всех словоформ, уметь обрабатывать случаи противоречивой а неполной информации и обладать высоким быстродействием, чтобы этап синтеза занимал небольшую часть в общем балансе времени, затрачиваемого на переводе Кроме того, морфологическая модель должна быть достаточно проста, чтобы пополнение выходного словаря не вызывало затруднений у пользователя, не имеющего специальной лингвистической, подготовки. Как и в случае морфологического анализа, здесь до-^ пускается использование обоих типов словарей: как.с произвольной, так и с последовательной выборкой. Наиболее подходящими для промышленного перевода также представляются модели, выделяющие в словоформе два компонента; псевдооснову и псевдоокончание. Обладая несколько более повышенными требованиями .к.-объему необходимой машинной памяти, они хорошо отвечают более важным условиям скорости и простоты.
Лингвистическую информацию целесообразно хранить в-двух.видах: исходном, рассчитанном на лингвиста, и в машинном,- а составе системы. Все операции по пополнению и корректировке информации выполняются на исходных массивах с помощью стандартных редактирующих процедур. Откорректированная и выверенная информа-
ция. заводится в систему машинного перевода её сервисными программами. ^Данная технология не снимает проблему сохранения наборов данных, но переносит ее с машинных массивов на исходные. Испорченный машинный массив легко.восстановить, если имеется его прообраз. Введение предмашинного формата оказалось целесообразным еще в одном отношении. Оно позволяет отвлечься от представления данных в системе и пользоваться любой удобной мнемонИ' ческой нотацией. Мнемоническая запись резко повышает производительность труда лингвистов, облегчает поиск и исправления ошибок, упрощает обучение пользователей, желающих самостоятельно расширять словарные массивы, позволяет создавать эффективные технологические линии машинного перевода на базе самой современной электронно-вычислительной техники.
В третьей главе описывается устройство конкретных моделей морфологического синтеза, образующих морфологический компонент систем МП АМ1АР и ЛИШРАН« Демонстрируются преимущества морфологической модели, разработанной по принципам, изложенным во второй главе реферируемой диссертации.
Основные параметры морфологического компонента СШ АМПАР: структура словаря, система типов словоизменения, формат данных в словарных статьях, организация морфологических таблиц - сложились в период проектирования системы и просуществовали много лет без каких-либо изменений, что свидетельствует о жизнеспособности принятых в то время решений» Вместе с тем, многолетняя практика эксплуатации системы выявила определенные недостатки и погрешности морфологического компонента. Это относится к лингвистической информации, заключенной,в нем, и к технологии пополнения и корректирования словаря. Усовершенствованная модель русской морфологии, свободная от недостатков своего прототипа, и составляет практическую часть настоящей диссертации» Ниже излагается организация морфологического компонента системы МП ЛИН1РА
Русский морфологический синтез является заключительным этапом машинного перевода. К этому моменту структура и порядок слов исходного текста должны быть преобразованы в соответствии с нормами русского языка, а также английское слово должно получить переводной эквивалент, сопровождаемый грамматической информацией, достаточной для построения требуемой словоформы» Пере-, водной эквивалент представляет собой отсылку к статье, содержащейся в русском морфологическом словаре. Помимо русского слова- 10 -
ря в процессе построения словоформ участвует описание морфологии русского языка в форме таблицы окончаний.
Морфологическая классификация слов в системе ЖНТРАН предусматривает построение всех форм, кроме повелительного наклонения единственного числа для глаголов. Она содержит 256 классов (138 классов для существительных, 55 классов для прилагательных й причастий и 63 класса для глаголов). Личные местоимения и количественные числительные отнесены к классу существительных, указательные, притяжательные и некоторые другие местоимения - к классу прилагательных. Для обозначения классов разработана оригинальная мнемоника. Для существительных она включает обозначение рода (М, Ж» С), признак одушевленности-неодушевленности (О - Н) и' окончания некоторых форм (М.0.Ь„Я.Я - УЧИТЕЛЬ). Для личных местоимений наименования классов совпадают с их написанием» Обозначения классов числительных начинаются с буквы Ч и содержат номера основ и/или окончания некоторых форм (Ч.Ь.И.И -ПЯТЬ, ШЕСТЬ, СЕМЬ). Обозначения классов прилагательных и причастий включают окончание мужского рода единственного числа в именительном падеже, то же в родительном падеже или множественного числа в именительном падеже, наличие краткой формы (К), сравнительной (С) или превосходной (П) степеней сравнения. Иногда символы К, С и П сопровождаются номером используемой основы с указанием рода или без него: КМ2, КМ2Ж2, С2, П4 и т.п. (ЫЙ. 0Г0.К.С2.П - БОГАТЫЙ, ОЙ ДБ- ГОРОДСКОЙ, ИЙ.ЕГО.К.С. - ГОРЯЧИЙ). Классы местоимений-прилагательных кодируются номерами используемых основ и окончаниями некоторых.форм. Обозначения глагольных классов также складываются из окончаний и номеров основ, используемых для образования некоторых форм.
В целом, система мнемонических обозначений русских морфологических классов системы ЛИНТРАН позволяет легко кодировать слова при записи их в словарь практически без использования каких-либо вспомогательных таблиц и дает возможность построить .эффек-. тивную диалоговую оистему для пополнения русского словаря силами пользователей.
Описание русской морфологии сведено в три таблицы (для существительных, прилагательных и глаголов, соответственно), где для каждого класса указано, какую основу и какое окончание следует использовать для построения той или иной формы. Например:
М,0,А,И»ЕЙ ЮНОША. Ж,0,А,И.ЕЙ ГОСПОЖА Ж,Н,А,И,ЕЙ ВОНЖА
1+А 1+И 1+Е 1+У 1+ЕЙ
1+Е 1+И 1+ЕЙ 1+АМ 1+ЕИ 1+АМИ 1+АХ
Ж,Н,Я,Е82 ЗЕМЛЯ
1+Я 1+И 1+Е 1+Ю 1+ЕЙ
1+Е 1+И 2+ 1+ЯМ 1+И 1+ЯМИ 1Ш
М,0,1,0М,А,0Б ПРОФЕССОР М,Н,1,ОМ,А,ОВ ГОРОД
1+ 1+А 1+У 1+А 1+ОМ
1+Е 1+А 1+ОВ 1+АМ 1+ОВ 1+АМИ 1+АХ
М,Н,1,ОМ,ИД САПОГ
1+ 1+А 1+У 1+ 1+ОМ
1+Е 1+И 1+ 1+АМ 1+И 1+АМИ 1+АХ
С,Н,Е,А»2 СЕРДЦЕ
1+Е 1+А 1+У 1+Е 1+ЕМ
1+Е 1+А 2+ 1+АМ 1+А 1+АМИ 1+АХ
С,Н,0,А,1 ВЕЩЕСТВО
1+0 1+А 1+У 1+0 1+ОМ
1+Е 1+А 1+ 1+АМ 1+А 1+АМИ 1+АХ
Ч,Ь,И,И ПЯТЬ ШЕСТЬ СЕМЬ
1+Ь 1+И 1+И 1+Ь 1+Ы)
1+И 1+Ь 1+И 1+И Х+Ь 1+Ы) 1+И
ИЙ,ОГО,К,П2 ВЕЛИКИЙ ИЙ,0Г0(,К),С2(,П2) БИРМАНСКИЙ
БЛИЗОРУКИЙ ДАЛЕКИЙ СТРОГИЙ
1+ИЙ 1+АЯ 1+ОЕ 1+ИЕ 1+ОГС
1+ОЙ 1+ИХ 1+ОМУ 1+ИМ 1+УЮ
1+ИМ 1+ИМИ 1+ОМ 1+ИХ 1+
1+А 1+0 1+И 2+Е 2+АЙ1
0Й,ЫЕ,К,С2(.П) МОЛОДОЙ ПРОСТОЙ
1+ОЙ 1+АЯ 1+ОЕ 1+ЫЕ 1+ОГС
14-ой 1+Ш 1+ОМУ 1+Ш 1+УЮ
1+Ш 1+ЫШ 1+ОМ 1+ЫХ 1+
1+А 1+0 1+Ы 2+Е 1+ЕЙШ
Щ,ЕГ0,К КУЦЫЙ
1+Ш 1+АЯ 1+ОЕ ■1+ЫБ 1+ЕГО
1+ЕЙ 1+ЫХ 1+ЕМУ 1+Ш 1+УЮ
1+Ш 1+ЫШ 1+ЕМ 1+ЫХ 1+
1+А 1+Е 1+Ы 0+ о;
1,А,Ы ОТЦОВ
1+ 1+А 1+0 1+Ы 1+А
1+0Й 1+ЫХ 1+У 1+Ш 1+У
1+Ш 1+ШИ 1+ОМ 1+ЫХ 0+
0+ в+ 0+ о; о;
2,1,Ш лисий
2+ 1+Я 1+Е 1+И 1+ЕГО
1+ЕЙ 1+ИХ 1+ЕМУ 1+ИМ 1+Ю
1+Ш 1+ИШ 1+ЕМ 1+ИХ 0+
0+ о; 0+ 0+ о;
ЕТЬ»2У»1ИТЕ ХОТЕТЬ
1+ЕТЬ 2+У 2+ЕШЬ 2+ЕТ 1+ИМ
1+ИТЕ 1+ЯТ 1+ЕЛ 1+ЕЛА 1+ЕЛО
1+ЕЛИ 1+ИТЕ 1+ЯЩ 1+ЕВШ 0+
о; 0+ 1+ЕВ
ИТЬ,1Ю,1ИТЕ ДЕДИТЬ/СЯ
1+ИТЬ 1+Ю 1+ИШЬ 1+ИТ 1+ИМ
1+ИТЕ 1+ЯТ 1+ИЯ 1+Ш1А 1+ИЛО
1+ШШ 1+ИТЕ Х+ЯЩ 1+ИВШ 1+ИМ
1+ЕНН 1+Я 1+ИВ
0ТЬ,1Ю кодоть/ся
1+0ТЬ 1+Ю 1+ЕШЬ 1+ЕТ 1+ЕМ
1+ЕТЕ 1+ЮТ 1+ОЛ 1+ОЛА 1+ОЛО
1+ШШ 1+ИТЕ 1+ВД. 1+ОВШ 0+
1+ЮТ 1+Я 1+ОВ
СТЬ,2ИТЕ КРАСТЬ/СЯ
1+СТЬ 2+У 2+ЕШЬ 2+ЕТ 2+ЕМ
2+ЕТЕ 2+УТ 1+Л 1+ЛА 1+ЛО
1+ЛИ 2+ИТЕ 2+УЩ 1+В1И 0+
2+ЕНН 2+Я 1+В
ЧЬ,Ш1 2БЧЬ/СЯ
1+ЧЬ 2+У 3+ЕШЬ 3+ЕТ 3+БМ
3+ЕТЕ 2+УТ 1+Г 1+Ш 1+ГЛО
1+ГЛИ 2+ИТЕ 2+УЩ 1+ГШ 0+
3+ЕНН. 0+ 1+ГШИ
Запись 1+ЕИ означает, что следует взять первую основу и прибавить к. ней окончание "-ей-« Запись 2+ означает, что нужная форма совпадает со второй основой,, Парадигмы словоизменения доя некоторых морфологических классов совпадают. Для существительных в одну парадигму сведены классы, различающиеся одушевленностью-неодушевленностью (это различие носит регулярный характер и учитывается алгоритмом морфологического синтеза). Что касается прилагательных и причастий, в одну парадигму попали прилагательные, различающиеся только наличием или отсутствием краткой формы, сравнительной или превосходной степени или окончания "-ся" для причастий. Число парадигм для существительных составило 98, для прилагательных - 27 и 'для глаголов - 63.
Русский морфологический словарь системы ЛИШРАН содержит записанные в мнемоническом формате статьи одиночных слов, служащие исходным материалом для генерирования машинного словаря систем Ш.
В русском словаре системы ЛИШРАН приняты следующие обозначения грамматических классов:
ИТ - предлог
СЗ - союз
Н - наречие
Ш глагол переходный
ГН - глагол непереходный
П - прилагательное
М - местоимение
С - существительное (изменяемое)
СМ - неизменяемое сущ-ное мужского рода
(Ж - неизменяемое сущ-ное женского рода
СС - неизменяемое сущ-ное среднего рода СМН - существительное множественного числа /р1ига11а tantuп/
ОВД - существительное единственного числа
/е1п£и1аг1а ЪаШдвд/
- 14 -
Имеется семь типов русских морфологических статей:
Статья неизменяемого слова открывается самим этим словом, которое служат заголовком статьи; за ним следует код грамматического класса. Одушевленные существительные получают признак ОДУШ. Заканчивается статья точной о запятой. Например:
ДЛЯ ПГ; НЕЙТРИНО СС;
Статья изменяемого существительного открывается существительный в словарной форме, за который следует код грашлатиче с кого касса (С, СВД или СМН), код словоизменительного класса, основа (иди основы через косую черту без пробелов) и признак конца статьи - точка с запятой. Например:
КРЫШКА. С Ж.Н.А.И.0Й.2 КРЫШК/КРЫШЕК; ЧАСЫ СМН М.Н.ОМ.Ы.ОВ ЧАС;
Количественные числительные относятся к грамматическому классу существительных, но имеют собственный набор кодов морфологических влассов:
ПЯТЬ С Ч.Ь.И.И ПЯТ; Исключение составляют числительные "одни", "одна", "одно" и "одни", которые относятся к массу прилагательных.
Субстантивированные прилагательные и причастия при записи в словарь снабзаются признаком субстантивации: решетка и буква С, которые прпсоеднпяются в слову справа (без пробела). В статьях субстантивированных прилагательных я причастий одушевленность задается в явном виде:
ДШМ0Е#С С ЫЙ.010 ДЕЛИЛ; Т?УДЯП1ИЙСЯ#С С ОДУШ ИЙ.ЕГО ТРУДЯЩ; Коды словоизменительные классов субстантивированных прилагательных и причастий совпадают с соответствующими кодами обычных прилагательных п прачастий.
Статья изменяемого прилагательного ми прилетая открывается сооФвэтствуэдЕ! цр&еагатодьшй! (прлчастнеа) в словарной форме, за который следует еод грамматического класса (Ш, код сло-волзгзеннтельиого класса, основа (паи основн) л точка с запятой. Например:
ИМЕЮЩИЙСЯ П ИЙ.ЕГО ИЫШЦ;
ИНТЕРЕСНЫЙ П ЫЙ.ОГО.КМ2 ИНТЕРЕСН/ИНТЕРЕСЕН; Порядаовые числительные и многие виды атрибутивных местоимений рассматриваются как прилагательные:
ШЕСТОЙ П Ой.ОГО ШЕСТ» ЭТОТ П ОТ.И ЭТ;
Статьи одновидовых глаголов, а также глаголов о совпадающими формами совершенного и несовершенного вида, имеют в русском морфологическом словаре следующий формат: глагол (в инфинитиве), грамматический класс (Ш или ГН для переходных и непереходных глаголов соответственно), указатель вида (СОВ т совершенный, НЕСОВ - несовершенный, СОВ/НЕСОВ - для глаголов с неразличающими ся формами обоих видов), морфологические особенности данного гла гола (см. ниже), код словоизменительного класса, основа (или основы), точка с-запятой.
Морфологические особенности отражают дефектность парадигмы и способ образования страдательного залога. Что касается дефектности парадигмы, то речь идет о формах страдательного причастия настоящего времени несовершенного вида (обозначается СНН), страдательного причастия прошедшего времени несовершенного вида (обозначается СПН), страдательного причастия прошедшего времени совершенного вида (обозначается СПС) и деепричастия несовершенного вида (обозначается ДН)« Возможность образования любой из перечисленных форм обозначается соответствующим признаком со зна ком "плюо" или без знака, отсутствие формы - признаком со знаком "минус". При этом признаки СНН, СПС и ДН указываются только тогда, когда соответствующие формы отсутствуют (и поэтому всегда сопровождаются знаком "минус"). Признак СПН (со знаком "плюс" или без знака,) задается только при наличии соответствующей формы. Это же относится и к признаку ПАССЯ, который обозначает возможность образования страдательного залога путем добавления бкончания "-са" (чистить - чиститься, хлорировать - хлорироваться и т.д.). Вся последовательность признаков, соединенных знаками "плюс" и "минус", записывается без пробелов. Например: ГОРЕВАТЬ ГН НЕСОВ ТБ.2Ю.2ЙТЕ ГОРЕВА/ГОРЮ; ХЛЫНУТЬ ГН СОВ -ДН УТЬДЬТЕ ХЛЫН;
Статьи глаголов с различающимися основами совершенного и несовершенного вида начинаются глаголом в инфинитиве, кодом, грамматического класса и списком морфологических особенностей, однако коды.словоизменительных классов и соответствующие основы для совершенного и несовершенного видов приводятся раздельно и отделяются друг от друга запятой и.пробелом. В. заголовке статьи глагол приводится в форме несовершенного вида. Например:
КАСАТЬСЯ ГН ХЪ.ЦО КАСА, УТЬ.ШТЕ КОСН;
Формат статей глаголов, образующих совершенный вид приставочным способом, отличается от формата одновидовых глаголов тем, что между кодом словоизменительного класса и основой (основами) записывается приставка, служащая для образования совершенного вида. В заголовке глагол приводится без приставки. Например: ВИДЕТЬ Ш СПН ЕТЬ.2У.1ЬТЕ У ВИД/БИЖ;
К грамматическому классу местоимений в русском морфологическом словаре ЛИНТРАН относятся слова, имеющие основу нулевой длины (т.е. те, у которых словоформы полностью совпадают с заданными в таблице окончаниями. К их числу относятся личные местоимения "я, ты, он, она, оно, мы, вы, они", а также местоимения "кто, что" и "себя". Сюда же относятся местоимения с частицами "-то, -либо, -нибудь". Грамматический класс местоимений обозначается буквой М, а обозначения словоизменительных классов, совпадают с написанием соответствующих местоимений, например:
МЫ М МЫ* КТО М КТО;
Для местоимений с частицами после обозначения словоизменительного класса указывается частица (вместе с дефисом), например: ЧТО-НИБУДЬ М ЧТО -НИБУДЬ;
В заключении обобщаются выводы теоретической части диссертации, описываются преимущества разработанной морфологической модели и результаты её практического применения в СМП АНРАП, работающей в промышленном режиме и.в СМИ ЛИНТРАН, находящейся на этапе опытной эксплуатации во Всесоюзном центре переводов научно-технической литературы и документации ГКНТ и АН СССР.
В результате проведенного исследования делаются следующие выводы.
1. Необходимо различать экспериментальные системы МП с одной стороны, и промышленные - с другой, поскольку к ним предъявляются различные, подчас противоположные требования.
2. Технология эксплуатации и пополнения систем МП, передаваемых пользователе для самостоятельного использования, должна быть максимально упрощена.
3. Поскольку при составлении словарных статей наибольшую трудность составляет определение словоизменительных классов, они должны однозначно определяться грамматическими свойствами
кодируемых слов.
4. Обозначения словоизменительных классов должны быть компактными, наглядными и легкими для запоминания.
5. Система словоизменительных классов и их мнемонические обозначения должны разрабатываться во взаимосвязи с словарем.
6. Разработка морфологической модели для промышленной СМП должна вестись с учетом ее программной реализации.
Практическими результатами диссертации являются:
1. Система классов словоизменения русских слов для всех частей речи, разработанная на основе "Грамматического словаря" А.А.Зализняка и ориентированная на машинную реализацию системы русского морфологического синтеза.
2. Мнемонические обозначения для каждого словоизменительного класса.
3. Структура словарных статей русского морфологического слс варя, использующих мнемонические обозначения приписываемой морфологической информации.
4. Словарь (объемом около тридцати тысяч словарных статей), использующий вышеописанную систему классов словоизменения.
5. Система автоматического синтеза статей словосочетаний.
Основное содержание диссертации отражено в следующих работах автора:
I. Автоматический синтез статей словосочетаний для русског« словаря СМП АШАР// Теория и практика научно-технического перев< да, 1985: Тез.докл. Международной конференции.-М., 1985.-С.МОИХ»
2» Мнемонический формат для статей русского морфологического словаря СМП АМПАР// Теория и практика научно-технического перевода, 1985: Тез.докл. Международной конференции.-М.,1985.-С.К
3» Отчет о научно-исследовательской работе "Усовершенствовать и ввести в эксплуатацию СМП с английского языка на русский АМ1АР2".- депонировано во ВНТИЦ, 0.80.07,01,1986.-15С. (в соавторстве).
4. Отчет о предпроектных исследованиях по теме "Разработат] лингвистический транслятор для машинного перевода ЛИНТРАН".-депонировано во ВНТИЦ, 0287.0000145, 1986.-170. (в соавторстве),
5. Отчет о научно-исследовательской работе по созданию дистрибутивной системы машинного перевода на базе политематических
научных текстов (ШНТРАН), разд.304, 3,5, З.6.- депонировано во ВНТИЦ, 01.86в0039073,1989• -33с.
6. О мнемонической кодировке морфологических классов.русского словаря системы ЛИНТРАН // ЭВМ и перевод, 1989: Тез,докл. 1У Международного семинара по машинному переводу".-М. ,1989.-34210-211.