автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Разработка и реализация лингвистического обеспечения систем с морфологическим анализом/синтезом для русского языка
Полный текст автореферата диссертации по теме "Разработка и реализация лингвистического обеспечения систем с морфологическим анализом/синтезом для русского языка"
На правах рукописи
СИДОРОВ Григорий' Олегович
РАЗРАБОТКА И РЕАЛИЗАЦИИ ЛИНГВИСТИЧЕСКОГО ОБЕСПЕЧЕНИЯ СИСТЕМ С МОРФОЛОГИЧЕСКИМ АНАЛИЗОМ [ СИНТЕЗОМ ДЛЯ РУССКОГО ЯЗЫКА
Специальность 10.02.21 - структурная, прикладная и
математическая лингвистика
АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук
К
Москва 1995
Диссертация выполнена на кафедре теоретической и прикладной лингвистики филологического факультета Московского государственного университета им. М.В Ломоносова
кандидат филологических наук Т.С.Зевахина
04шшшы1ь1£-шщш£ш:и'.
доктор филологических наук В.М.Андрюгценко,
кандидат филологических наук О.В.Минтусова-
Аенущ&я организация: Институт русского языка им.
В.В.Внноградова РАН
Защита состоится " А. ? " года в /Г* часов на заседании
диссертационного совета Д-053.05.16 при МГУ им. М.В Ломоносова на филологическом (факультете Московского государственного университета им. М.В Ломоносова по адресу.
] 19К99, Москва, Воробьевы горы, МГУ, 1 корпус гуманитарных факультетов, филологический факультет. .
С диссертацией можно ознакомится в библиотеке Московского государственного университета им. М.В Ломоносова.
Автореферат разослан " ^ " \995 г.
Ученый секретарь диссертационного совет
.....
кандидат
фило.тп! нчсских паук О.ВДедпиа
0К1ЦЛЯ ХАРАКТЕРИСТИКА ГЛБОТЫ
Под "системами" и названии диссертации имеются в вицу созданные автором конкретные прикладные системы компьютерной обработки текстовых и языковых данных (системы индексации текстов с леммаппацией, построением конкордансов и исходных данных для словарей сочетаемости, расстановки ударений, обучения русской морфологии, фрагменты системы синтаксического анализа).
В настоящее крем я во всем мире бурно развивается компьютерная лингвистика, разрабатывается лингвистическое обеспечение систем различных классов и назначения для разных естественных языков, в том числе и для русского языка. ЛОДзишинсм данной темы связана с тем, что блок, осуществляющий морфолотческий анализ/синтез является неотъемлемой частью систем обработки текстов и вообще систем, работающих с языковым материалом; между гем, проблема автоматического морфологического анализа и синтеза на теоретическом уровне решена не полностью. Известно, что в последние полтора десятилетия произошел прорыв в этой области для русского языка благодаря активному использованию разработчиками прикладных систем фундаментального "Грамматического словаря русского языка" А.А.Зализияка. Созданы и реально работают системы, где рассматриваемая проблема разработана с различных позиций и в различной степени. Но, на наш взгляд, необходим нопый подход, позволяющий минимизировать затраты на разработку лингвистического обеспечения подобного рода систем и являющийся в некотором смысле универсальным для определенного Класса языков (схожих на морфологическом уровне), а также обеспечивающий максимальную лингвистическую "содержательность" используемых моделей. Актуальна также разработка методов построения специализированных прикладных систем, опирающихся на морфологический анализ/синтез. Среди них задача разработки элементов автоматизированного рабочего места лингвиста, а именно систем, позволяющих получать но тексту нормализованный словарь, легко вручную снимать омонимию, строить конкордансы и словари сочегамоети по различным условиям дня слов в нормализованном виде, автоматически рассташять ударения, определять дли слов их морфологические характеристики в соответствии с определенной моделью. По-прежнему актуальна для задач информационного поиска проблема построения нормализованных словарей. Для целей обучения русскому языку представляется актуальным создание потенциально "неисчерпаемой"
системы, обучающей русской морфологии, которая автоматически проверяет правильность отиетов и формирует задания. Кроме того, кажется важным попытаться построить формально-семантическую модель, объясняющую сочетаемость глаголов русского языка с наборами приставок (способов действия), при этом исходя не из способов действия, а из значения глаголов, объединенных в семантические поля (в диссертации эта задача решается па примере одного из полей). Это позволило бы упорядочить представление такого рода информации в словарях.
ОйШ£Ц_Ц£Л.Ш данной работы является разработка и реализация лингвистического обеспечения систем, использующих морфологический анализ/синтез для русского языка. При этом автор стремится выбрать такой метод для построения собственно анализа/синтеза, который был бы универсальным для языков, имеющих сходные с русским морфологические черты.
Достижение этой цели потребовало решения ряда задач:
— построение прикладной модели русской морфологии, в том числе ее процедурного компонента — моделей анализа и синтеза;
— разработка алгоритмов морфологического анализа и синтеза, алгоритмов функционирования созданных прикладных систем;
— создание прикладных словарей (прикладной -.словарь сочетаемости глагольных основ с наборами приставок, прагматически ориентированный тезаурус обучающей системы с наборами минимальных контекстов);
— построение формально-семантической модели сочетаемости глаголов со способами действия па примере семантического поля глаголов с компонентом "звук". • .
Научна« нпмитна дайной работы состоит в том, что предлагается подход к построению лингвистического обеспечения как к разработке моделей различною уровня (теоретической модели морфологии, прикладной модели; включающей процессуальный компонент — модели анализа и синтеза, "дополнительных" моделей), при этом модель анализа базируется на сочетании исчисления основ и "анализа через синтез" (с выдвижением и проверкой морфологических гипотез различными модулями); декларативная часть прикладной модели практически совпадает с теоретической. Данный подход, по мнению автора, является универсальным для определенного класса языков. "Дополнительная" модель для русского языка представляет сосбой прикладной словарь сочетаемости глагольных основ с наборами ирисганок. Использование
этой модели позволяв значительно уменьшить размер словаря систем. Построен фрагмент формально-семантической модели сочетаемости глаголов со способами действия, который демонстрирует возможность ее использования для упорядочении отображения слов в словарях русского языка и выявления семантических закономерностей при таком сочетании. Новым представляется подход к разработке лингвистического обеспечения обучающих систем на морфолошческом уровне, при котором используются анализ и синтез и строится прапшнческн ориентированный Тезаурус для предъявления слов в минимальных контекстах, чш, и отличии от существующих, делает такую систему легко иарашиьасмой.
1Ъ£ЛЖ01££ЛШ1Ва1ШЯ — русская морфология в аспекте словоизменения и приставочного глагольного словообразования; сочетаемость глаголов со способами действия; модели и алгоритмы морфологического анализа и синтеза; алюрлтмы работы систем с морфологическим анализом/синтезом.
М^ШДигЖСЛеМаШШЯ — компьютерное моделирование; компонентный анализ; дистрибутивный анализ.
Хздр£Гинвдик_11Ш£1Ш£ исследования состоит в том, что его выводы вносят определенный вклад в дальнейшее развитие компьютерной лингвистики, а именно в решение таких се проблем, как соотношение декларативного и процедурною описаний языка, степень универсальности моделей морфологического апапи за/синтеза, оптимизация модульного подхода к построению алгоритмов. Также представляет интерес постановка вопроса о сочетаемости глаголов с наборами приставок и построение соответствующих формально-семантических моделей.
работы. Предлагаемый подход к разработке моделей морфологического а'ишппа/синтсза является универсальным для некоторого класса языков, требует минимального времени для разработки моделей й алгоритмов и обеспечивает максимальное сходство теоретической и прикладной моделей, т.е. лишиисгическую осмысленность и гибкость прикладной модели и созданных на ее основе алгоритмов. Т.о. использование разработанного подхода позволяет лето и быстро создавать максимально лингвистически осмысленные модели и алгоритмы морфологического анализа и синтеза для некоторого класса языков.
Построенный прикладной словарь сочетаемости глаголов с наборами приставок позволяет существенно уменьшить объем используемою система«»
словаря. Его формально-семантическая модель для одного из семантических .полей демонстрирует способ упорядочения словаря (с точки зрения возможности указывать наборы приставок при глагольной основе или приводить глаголы со всеми приставками из набора) и выявления семантических закономерностей сочетаемости глаголов и способов действия.
Использование разработанного морфологического компонента в сочетании с построением прикладного тезауруса позволяет построить обучающую систему, которая легко пополняете« за счет автоматической проверки ответов и построения заданий.
Автором созданы также друтие прикладные системы (системы индексации текстов с лемматпзадией, построения конкордансов и исходных данных для словарей сочетаемости, расстановки ударений, фрагменты системы синтаксического анализа).
разработано лингвистическое обеспечение, которое реализовано в конкретных системах. Система индексации текстов с лемматизацией, которая используется в составе ИПС ЮСИС (юридической справочной информационной системы) агентства. "Интралеке". Она также может использоваться в качестве части АРМ лингвиста для построения нормализованных словарей по текстам, определения характеристик незнакомых слов в терминах модели А.А.Зализняка. Модификация данной системы позволяет также строить конкордансы и получать исходные данные для словарей сочетаемости. Дая этого предусмотрено средство для снятия омонимии вручную и способ задавать условия для сочетаемости. Система расстановки ударений используется на кафедре теоретической и прикладной лингвистики филологического факультета МГУ для подготовки текстов в системе синтеза речи. Система обучения русской морфологии, которая автоматически проверяет правильность ответов и формирует задания, используется в университете земли Саар (ФРГ). Хельсинкском университете (Финляндия) и в Русской школе при биологическом факультете МГУ для обучения русскому языку иностранцев. Также разработан фрагмент системы синтаксического анализа.
исследований излагались на 5-ой Всесоюзной школе молодых востоковедов (ИВАН, 1989 г.), 2-ой конференции но теоретической лингвистике (РГТУ, 1994 г.), конференции "Ленинские горы-95" (МГУ, 1995 г.). Joint International
;. На основе предлагаемого подхода
I. Основные положения диссертации и результаты
Conference ACH-ALLC'95 (Association for Computer and the Humanities/ Association for Literary anil Linguistic Computing) (Santa-Barbara, 1995 r.)> lia заседаниях кафедры теоретической и прикладной лингвистики филологического факультета МГУ им.М.В Ломоносова и кафедры лингвистической семантики Московского государственного лингвистического университета. На тему диссертации опубликовано 7 работ.
Струы}РЛ 1L.Cб 1Л\Ч_ р а Сош. Данная работа состоит из введения, четырех глав, заключения и 9 приложений. Общий объем работы 343 страницы, основной текст — 210 страниц. Список литературы содержит 179 наименований.
СОДЕРЖАНИЕ РАБОТЫ
Во ВВЕДЕНИИ обоснованы актуальность темы и научная новизна, показаны теоретическое и Практическое значение, кратко указаны цели и задачи работы, описана ее структура.
В HïpBûiixaasE, которая называется "Проблемы моделирования морфологии в прикладных системах", рассматриваются некоторые проблемы разработки прикладных моделей и алгоритмов анализа/синтеза для русского языка. Рассматривается ряд действующих систем и использованных в них прикладных моделей с разных точек зрения: трактовка чередований (обрабатывать алгоритмически — хранить основы в словаре), способ задания сочетаемости основ и наборов окончаний, представление информации в словаре (маски, словарные пометы) и в алгоритмах (таблицы, продукционные правила), сходство теоретической и прикладной моделей.
Предлагается перед построением алгоритмов морфологического анализа/синтеза в явном виде строить прикладную модель морфологии, содержащую как декларативную часть (собственно прикладную модель морфологии, созданную на основе какой-либо теоретической модели), так и процедурную часть (модели анализа и синтеза). Причем при построении моделей анализа и синтеза предлагается поспользогаться следующими идеями, в сущесгнутошнх системах и моделях вместе не встречающимися: 1) исчисление основ, при котором вес основы хранятся в словаре (используется, например, в системах Ю.Д.Апрссяна, А.Ф.Гсльбуха), 2) анализ через синтез, при котором сложная процедура анализа сводится к существенно более простой процедуре синтеза (используется, например, в системе С.А.Старостина), 3) заимствованная из "искусственного интеллекта" идея о разделении функций между модулями, нз-
весгпая как приишш "классной доски", па готорой одни модули оставляют информацию для других. Пря этом тралицноию считается, что анализ через синтез сложно эффективно реализовать. По мнению Э.В.Попона, он "требует существенных машинных затрат" (19В2 г.), а А.Ф.Гельбух считает, что "данный прием применяется н тех случаях, когда правила чередований и синтеза форм записываются в системе и г.ндс, не допускающем их преобразование в эффективно реализуемый алгоритм разложения словоформы при анализе" (1994 г.). Система С.А.Старостина также является неэффективной с вычислительной точки зрения. Тем не менее представляется, что подход, в котором вместе будут использованы данные идеи, будет обладать значительными преимуществами. Он является эффективно реализуемым за счет разделения функций между модулями, затраты времени на разработку систем минимальны, и получающиеся модели гибки за счет достигаемого максимального сходства теоретической и прикладной моделей, а также за счет того, что практически исключается построение сложных алгоритмов анализа (количество правил при которой можеГ, по оценкам М.Г.Мальховского, доходить до 10000). При этом также возможно ирсдеТашсшгс информации в словаре в виде традиционных словарных помет, что удобно для дальнейшей лингвистической работы. Данный подход является универсальным в том смисле, что он может использоваться для любого "хорошего" морфологического описания. При таком иод-ходе в лишннстичсском обеспечении должен быть следующий набор алгоритмов: общин ачгоритм функционирования; алгоритм установления соответствии между наборами грамматических значений и формальными элементами, действующий в обе стороньг; алгоритм построения основ друг ш друга; алгоритм выбора нужной осмогы из нескольких возможных; алгоритм обработки нерегулирностсй.
Во ТЛЗУиЙХ1Ш2. которая называется "Принципы и методы построения Моделей и алгоритмов для задач, сашиных с морфологическим анализом и синтезом", описаны: прикладная модель русской морфологии, модели анализа и синтеза, алгоритмы анализа и синтеза (в том ш.сле алгоритмы построения различных основ), алгоритмы обработки приставок и нерегулярных форм. Приводится также общее описание алгоритмов обработки "незнакомых" слои для пополнения словаря. Кроме тог о, предпринята попытка продемонстрировать уянпсрсалигость предлагаемого подхода к разработке линпигстического обеспечения на морфологическом уровне, для чего построен фрагмент при-
U
кладной подели для латинских существительных. Алгоритмы и модели анализа и синтеза в основных своих чертах остаются без изменений.
Рассмотрим эти вопросы подробнее. Прикладная модель морфологии (ее декларативная часть) практически полностью совпадает с теоретической моделью А.А.Зализняка, описанной в Предисловии к "Грамматическому словарю русского языка". Такая прикладная модель является наиболее лингвистически осмысленной, максимально гибкой (можно учесть какие-либо явления, изначально проигнорированные в прикладной модели, например, при разработке автором прикладных систем сначала но учитывались дополнительные схемы ударения, или добавить какую-либо лингвистически оправданную функцию, например, для задач информационного поиска было добавлено построение минимального инварианта основы за счет сравнения всех основ слова, алгоритм построения которых уже сушествозгл). Кроме того, это показывает универсальность подхода к построению моделей анализа/синтеза. Укажем некоторые отличия прикладной модели от теоретической: дополнительно в прикладную модель введены пометы для непервых основ (например, ОСУДИ-тъ, ОСУЖ-у, ОСУД-um, ОСУЖД-еиный : первая основа ОСУДИ- помет не имеет, вторая основа ОСУЖ- имеет помету "2 основа", третья — ОСУД- "3 основа", четвертая — ОСУЖД- "4 основа"); проигнорировано образование видовой пары; введены пометы, описывающие выбор согласной и гласной при построении первой основы из непервых для некоторых глаголов (например, из блещу / плещ-у построить блесте-ть / плеска-ть), В теоретической модели таких помет не было, т.к. задача синтеза первой основы не ставилась.
Поскольку в состав алгоритмов входит алгоритм выбора основ при синтезе, то для его построения необходима модель выбора основ как одна из частей прикладной модели морфологии. В общем, в этой модели отражаются достаточно очевидные факты (типа того, что для образования Р.п., мн.ч. существительных женского рода с чередованием основ должна использоваться вторая основа), но в соответствии с предлагаемым подходом все модели должны строиться в явном виде. Предлагается выделить классы, аналожчиые словоизменительным классам модели А.А.Зали ¡няха, к которым будут отнесены слова, использующие основы одинаковых номеров для образования слот-форм с одинаковыми наборам» грамматических значений (например, слова женскою н среднего рода с чередованием-в Р п., мн.ч. будут отнесены t одному классу — окно-окш, киры-ырои). На ос но не aiixima таблиц из "Грлмма-
с,
тичсского словаря" такая модель легко строится. Получается 5 классов для существительных, 3 класса для прилагательных, 13 классов для глаголов. Например, к классу 2, где противопоставлены:
формы настоящего времени, инфшшгнв,
формы повелительного наклонения, формы прошедшего времени, действительные причастия, страдательные причастия,
деепричастия наст.нр. деепричастия прош.вр.
относятся глаголи 2, 3, 6, 6Л, 10, 12 типов, типов 4 и 5 без стандартных чере-
допаннй, (например, рисовать, строить), а также глаголы 11 типа на -ыть
(выть). <
В соответствии с предлагаемым в первой главе подходом построена процедурная часть прикладной модели морфологии (модели анализа и синтеза). При этом в словаре для каждого слова хранятся все его основы с совпадающими наборами морфологической информации (в терминах модели А.А.Зализняка) с точностью до помет о номере основы.
На входе модели анализа имеется словоформа, на выходе должна быть морфологическая информация о данной словоформе (набор грамматических значений) и, возможно, если ставится задача лемматнзации, исходная словоформа, т.е. словоформа, имеющая традиционный "словарный" набор грамматических значений (например, существительное в нм.п., ед.ч., глагол — в инфинитиве и т.п.). На самом деле получение исходной словоформы сводится к задаче синтеза, поэтому мы будем рассматривать па выходе только морфологическую информацию.
В предлагаемой модели анализа используются следующие блоки:
1) Блок выделения основ и окончаний. В этом блоке "хвосты" слов проверяются на совпадение с набором возможных окончаний русского языка if, если такое совпадение обнаруживается, а основа присутствует и словаре основ, то в словоформе выделяются предположительные основа и окончание. Далее аналогичным образом анализируется основа для выявления возможных приставок и суффиксов причастий. При этом перебираются все возможные варианты основ, окончаний, суффиксов и приставок. Так как алгоритм этого перебора достаточно очевиден и относится скорее к реализации модели, он не описывается.
2) Блок высказывания гипотез. Этот блок помешает в рабочее пространство гипотез морфолошческую информацию, соответствующую данному окончанию, т.е. высказывает гипотезу. Так как в русском языке достаточно сильна омонимия окончании, то таких гипотез может быть несколько. Реаль-
но количество гипотез уменьшается за счет информации, полученной относительно выделенной основы в словаре, т.е. омонимия окончаний уменьшается за счет ограничения возможных классов рассматриваемой основы. Например, по окончанию -ем высказываются гипотезы только для глаголов или только для существительных и т.п.
3) Блок синтеза. В этом блоке производится синтез словоформы в соответствии с информацией. Полученной из словаря, и гипотезами из рабочею пространства, которые считаются истинными. Блок синтеза в составе модели анализа обобщает набор блоков, описанных ниже в модели синтеза. Это возможно, т.к. информация для каждой гипотезы из рабочего пространства п точности совпадает с информацией, необходимой для собственно синтеза.
4) Блок сравнения. В нем сопоставляются результат синтеза (в соответствии с каждой шпотезой) и исходная словоформа. При совпадении гипотеза считается истинной.
5) Блок обработки "-сл/-сь". В этом блоке происходит отделение в слове элемента -ся/-сь при анализе и добавление при синтезе. Данный блок необходим в силу особой позиции этой морфемы в слове (после окончания, а не перед).
6) Блок поиска в словаре основ. На вход этого блока поступает основа, полученная после отсечения возможного окончания, а на выходе присутствует вся информация, которая есть в словаре при данной основе (класс, тип, схема ударення, пометы). Естественно, в модели Должен присутствовать собственно словарь основ.
.7) Кроме того, в схеме есть "рабочее пространство гипотез". Имея в виду процедурную ориентированность блок-схемы, мы называем этим термином то место, куда помещаются гипотезы, полученные на выходе блока высказывания гипотез.
Общая схема модели анализа изображена на рисунке 1. Общий алгоритм функционирования модели имеет следующий вид:
Шаг 1: если словоформа заканчивается на -ся/-съ, то отбросить -ся/-сь. При завершении цикла анализа вернуться в эту точку, присоединить -схУ-сь и снова произвести анализ (для слов типа гусь, бабуся и т.п.).
Шаг 2: в циклах проверять "хвост" и начало словоформы на возможное совпадение с заранее заданными наборами элементов и выделять суффиксы причастий, окончания и приставки.
Шаг 3: отделить возможные окончание, суффикс (для причастий) или приставку и искать полученную основу в словаре основ. В случае успеха продолжать анализ. Считать из словаря морфолотческую информацию (класс, тип и т.п.).
Шаг 4: имея в виду словоизменительный класс, сформулировать шпо-тезы по данному окончанию о возможных наборах грамматических значений. Поместить их в рабочее пространство гипотез.
Шаг 5: синтезировать формы дчя гипотез из рабочего пространства, учитывал приставку, суффикс, основу, словоизменительный класс, тип и пометы, а также наличие -ся/-сь.
Шаг 6: сравнить полученные словоформы с данной. При совпадении выдать соответствующую гипотезу как истинную.
Рассмотрим несколько примеров работы в соответствии с предлагаемой моделью анализа.
Пусть надо проанализировать словоформу яблока. Проверяем "хвост" на предмет совпадения с возможными окончаниями — для окончания -а в словаре существует основа яблок, считываем соответствующую ей информацию (сущ., ср.р., неод., 3 типа, с пометой 1, схема ударения "а"). Дня возможного нулевого окончания в словаре основы нет. Для окончания -а, имея в виду, что это существительное среднего рода, можно сформулировать следующие гипотезы: им.п., мн.ч.; род.п., ед.ч.; вин.п., мн.ч., неод. Для этих гипотез синтезируются соответствующие формы от основы яблок и считанной для нее информации: яблоки, яблока, яблоки. Только одна из них совпадает с исходной, т.е. верна только гипотеза о род.п., ед.ч. Заметим, что собственно при анализе информация о пометах даже не привлекалась.
В случае "неразрешимой" на морфологическом уровне омонимии (например, стекло может быть сущ, им.п., ед.ч. или в.п., ед.ч., или глаг.,_ прош.вр., ед.ч., ср.р.) истинными будут считаться несколько морфолотческих гипотез. Уточнение анализа возможно уже только на этапе синтаксического разбора предложения.
Пусть надо проанализировать неправильную словоформу *окону вместо окну. Аналогично по окончанию -у выдвигается гипотеза о дат.п., ед.ч. При сшггсзс проверяется, что для образования этой формы должна использоваться первая основа, а основа окон имеет в словаре помету "еторая основа", поэтому будет использована пустая первая основа (естественно, здесь первая основа
строится нс будет, т.к. решается не задача лемматнзатш, а проверки гипотезы) и получится форма у, которая lie соннадаег с к сходной, т.е. гипотеза не верна. Даже если первая основа будет строиться, то все равно получится форма iw/y, не совпадающая с формой на входе. Будет выдано сообщение об ошибке.
Модель синтеза проще модели анализа и не требует каких-либо ухищрений. На входе модели синтеза должна быть морфологическая информация (набор грамматических значений); основа, от которой надо построить словоформу; и информация об этой основе (словоизменительный класс, тин, пометы, номер основы и т.д.). При этом, если ставиться задача по любой словоформе синтезировать любую, то перед синтезом должен проводиться морфологический анализ, в качестве одного из выходов которого получается основа и же ее словарные характеристики.
В модели синтеза выделяются следующие блоки;
1) Собственно блок синтеза. Функция этого блока — оргашнокать взаимодействие всех других блоков.
2) Блок выбора окончаний и суффиксов (дня причастии). Данный блок в зависимости от набора грамматических значений и словарной информации выбирает окончание (а также суффикс для причастий). Например, для слона глаз в им.п., мн. ч. окончание -и, .а не -ы, т.к. есть соответствующая помета. Именно за счет этою удается избежать введения дополнительною числа словоизменительных классов или типов.
3) Блок синтеза всех основ. В этом блоке строягсн все возможные основы для дайной (алгоритмы построения основ подробно описаны ниже), причем исходной мо*.ет быть и нс первая основа.
4) Блок выбора номера оспины. Здесь в соответствии с шхлр^'икой моделью выбора основ (см. выше) выбирается »хлюпа, которая должна использовать ся для построения словоформы при данном наборе грамматических значений.
5) Блок выбора варианта прибавки. ->.чгт блок проверяет допустимость данной приставки и при необходимости строит ее комбинаторный вариант ( например, смять — c<».wk_v).
6) Блок обработки нсрсгу.'шрнистей. В нем по специальному алгоритму (см. ниже) нррверхсгси, не япшетея ли данная форма поегр<<нной хоть и "по правилам", но все же неправильной. Например, or слова шйцы Гпок.-ча мац
— вторая) для 1ш.лед.ч. будет "по правилам" построена форма *тец, так что для учета подобных исключений необходимы специальные процедуры.
Результаты работы всех блоков подаются на блок собственно синтеза. Алгоритм работы такой модели достаточно очевиден (входная информация каждого блока совпадает со всей информацией модели):
построить все основы (если не производится проверка гипотезы, а собственно синтез); выбрать из них нужную; выбрать суффикс (для причастий) и окончание; проверить допустимость приставки и, если нужно, видоизменить ее; проверить, не является ли данная форма нерегулярной, если да, то обработать се специальным образом.
Рассмотрим пример. Пусть надо построить словоформу в им.п., ед.ч. от словоформы окон. Прежде всего по второй основе будет построена первая — оки- (алгоритм см. ниже). Затем для образования формы им.п., ед.ч. будет взята первая основа из двух возможных и окончание -о.
Алгоритмы работы блоков выбора номера основы, окончаний, суффиксов причастий и вариантов приставки получаются тривиальным образом на основе построенных моделей и таблиц "Грамматического словаря". Для блока синтеза всех основ необходимы алгоритмы построения непервых основ из первой и первой из непервых (второй, третьей, четвертой). Причем из второй строить третью не надо, т.к. можно их получить, построив первую. Алгоритм построения непервых основ ;ieixo получается на основании анализа таблиц Грамматического словаря. Правила имеют вид:
Для существительных мужского рода с пометой "*" Если
тип = 3,
то
МЛН
предпоследние букны это гласная + 'V,
то
заменить 'V' на "й" {перешеек-перешейк),
иначе
убрать последним гласный (нубм-кувк) и т.п.
При построении алгоритма синтеза первой основы таблиц недостаточно (т.к. словарь не рассчитан на такой синтез), но недостающие привила получены в результате анализа списков слои, имеющих неоднозначности. Например, при ностроевим (лагольных основ используются введенные словарные пометы (см. выше образец с блещ-у / мещ-у), или для слон среднею рода типа 1,3 или 5 правило имеет вид (случаи с гласной перед -е- рлюбрап):
нерп bic пшотезы
I.
Рисунок 1.
Блок-схема чоледи морфологического анализа.
Если
предпоследин» гласная основы ='>" й перед ней стоит "с", "м", или ("л" или
"р", но после не стоят "н" или "у"),
то
заменить "«" на "ь" (писем-письм(о), крылец-крыль^о)),
иначе
)-брать или "о" (згрен-зерн(о), мор*ц-мпрц(«), блюд*ц-блюдц(е), тягол-
тягл(о))
Для построения этого правила были рассмотрены все слова среднего рода типа 1, 3 или 5 с чередованиями.
Что касается обработки нерегулярных форм, то при анализе их очень просто обрабатывать — они заносятся в словарь системы в явном виде со всей морфологической информацией и исходной формой, но при синтезе стоит проблема отделения правильных форм от построенных по правилам, н тем не менее не существующих в языке (напр., *чело«еки). Для этого создан специальный словарь, в котором для каждой исходной формы хранятся все возможные исключения с наборами грамматических значений, и если набор для синтеза совпал с набором в данном словаре, то словоформа но общим правилам строиться не будет. Например, в словаре есть статья человек-люди, Им.п, мн.ч.; людям — Дат.п., мн.ч.... Т.е. при синтезе словоформ во множественном числе от человек, ашеритм обработки Нерегулярных форм сначала обратится к этому словарю, найдет там правильные словоформы и строить но общим правилам не будет, а Для единственного числа будет, т.к. в словаре таких наборов фамматических значений нет.
При пополнении словаря незнакомыми словами (а это эквивалентно описанию слова в терминах построенной прикладной модели) предлагается выдвигать лшотезы о возможных словоизменительных типах и пометах у мига, синтезировать соответствующие формы, а выбор предоставить тому, кто пополняет словарь. При этом, правда, требуется ввести слово в начальной форме и 01 клип, па вопрос о его принадлежности к одной из частей речи. Подобный алгоритм позволяет за нссхолько шагов определить все характеристики слова п используемой модели (модели, аналоптчной модели А.А.Залнз-шха). Друюй возможный путь предполагает по схожему шиоршму вводить прагильпую форму в явном (например, как в известной компьннерной системе "Орфо").
Рассмотрим пример для глаюла. Пусть надо определить информацию, погорая должна быть приписана в модели (лаголу пристыковать (бе! обращения к словарю). Данный шаюл огсунпнует в словаре Л.Л.Зализняка — для 1лагола стыкояать соь только имол с приставкой со-. С учетм построен-
ной ниже модели сочетаемости глаголов и приставок можно поменять номер набора приставок у глагола стыколоть, но возможен и прямой путь. На вход подастся инфинитив. Сначала будет задан вопрос о части речи, а затем о виде глагола (св, нее, св-нсв). После чего предпринимается попытка отбросить -ся/-сь. Затем, поскольку этот глагол не заканчивается на -чь, тип 8 (например, беречь) в рассмотрение не принимается. После этого будет проанализирована последняя буква корпя и предложено выбрать правильную форму 1 л., ед.ч. Например, если бы последняя буква была согласной -с-, то были бы рассмотрены рашые варианты основ 7 типа (мести, вести, грести и т.д. — мету, веду, гребу и т.д.). Поскольку последняя буква -а-, то будут построены формы для возможных типов, которые могут иметь такую финальную часть основы: 1, 2, 5, 13, 13, 6Л (образцы: делать, рисовать, держать, давать, достать, сосать). Т.о. будет предложено выбрать правильную форму т следующих, в которых образованы пшотетнчесхие основы возможных типов: пристыковок) (нет чередований)/ пристыкую (Правильная форма 2 типа) / пристыковлю (.1 появляется после в — стандартное чередование) / пристыкою ( -ва- отбрасывается) / пристыковану (добавляется -к-) / пристыкову (возможная тематическая гласная отбрасывается без стандартного чередования). После выбора правильной формы однозначно определен тип 2. Затем предъявляются формы, касающиеся возможных особенностей образования повелительного наклонения (попеты 2 и 3 у глаголов). Выбор из форм пристыкуй / пристыкуи (например, как выстрой) и пристыкуйте/ пристыкуйте даст возможность определить, что помет 2 и 3 нет.
Такой алгоритм построен и реализован для всех частей речи.
■Далее продемонстрирована универсальность предлагаемого подхода к построению лишвистического обеспечения дтя систем с морфологическим анализом/синтезом. Для этого в соответствии с рассматриваемым подходом построены подели и алгоритмы для латинских существительных. В качестве теоретической модели взята традиционная модель латинского словоизменения, описанная, например, в учебнике латинского языка В.И.Мирошенковой и Н.А.Фсдорова. Строится прикладная модель морфоложи, практически совпадающая с данной теоретической моделью. Дополнительно вводятся пометы, характер«(утопию наличие и особенности чередования основ (выбор согласной тИех/тИи'ч сихчп/синосЧ! и пр.); особенности, связанные с окончаниями (окончание -е п таге ап1ти1 с пулевым окончанием и др.). Модели эна-
лиза и синтеза концептуально совпадают с моделями для русского языка (единственное, не нужен блок обработки -сл/-сь) и функционируют аналогично. Модель выбора основ очевидна: могут быть противопоставлены Nom (Лее) Sg — все друше падежи (miles-miHtis и др.); Dat PI, АЫ PI — все другие падежи (cornu-corn+ibus; casu+s-cas+ibus). На основе данных моделей, таблиц из учебника и введенных помет элементарно строятся алгоритмы выдвижения га-потез, построения основ друг из друга, выбора основ и окончаний.
Например, правила могут иметь вид: "Если это тип .2 и дана вторая основа, то для получения первой основы надо вставить -е- перед последней согласной (egг ( ager)"; "Для образовании Nam Sg слов среднего рода типа 3 используется нулевое окончание, сели нет пометы 'Е', иначе Используется окончание -е" и ТА
Приведем также в качестве примера и возможную структуру словаря основ. Первое ноле словаря (Слово) приведено только для иллюстрации и не входит в словарь:
Слово Ociioaa fiii'i '(-Подтип) Род П1 П2 пз
tcria lerr J f
vicior victor 3-1 m
?4™г . aizcr 2-2 m *
aper aïr 2-2 m » • 2
animai animal 3-4 n
mare Щ4Г 3-4 n E
rex re\ 3-1 tu » К
Гех ffg , 3-1 ni « К 2
-niilcs miles 3-1 m * T
ntiks miln 3-1 m * T 2
Здесь помета "*" обозначает наличие чередования основ, "Ё" — наличие окончания -е в Nom Sg (а не нулевого), "К" и "Т" — способ построения основ, "2" — порядковый номер основы (первая или вторая, для первой основы ничего не пишется).
В цняьейишаю. которая называется "Создание прикладного словаря сочетаемости русских глаголов с наборами приставок для оптимизации представления информации при анализе/синтезе и его формально-семантическая модель для глаголов с компонентом "'тук", построена дополнительная прикладная модель, описывающая сочетаемость русских глаголов с наборами приставок (прикладной словарь сочетаемости). Эго позволяет существенно уменьшить размеры словаря, используемою в данном лингвистическом обеспечении.
В преимущественно автоматическом режиме при работе с "Грамматическим словарем" как баюй данных была получена таблица, содержащая все возможные наборы русских приставок. Всего в наборах могло быть 25 приставок. Специально написанная программа сравнивала в "Грамматическом словаре" глаголы без приставок и с приставками, для которых совпадают наборы морфологической информации. Совпадающие с точностью до приставки глаголы вычеркивались, бесприставочному глаголу приписывался номер соответствующего набора, а приставка при необходимости добавлялась в набор. Неправильные глаголы и последующие корректировки по результатам работы на текстах заносились вручную. Получилось 1504 набора приставок. Всего глаголов в словаре было около 28 тысяч, глаголов с приписанными наборами приставок получилось около 9,5 тысяч, т.е. почти в 3 раза меньше. Остальные глаголы были вычеркнуты, т.к. информация о возможности их построения содержится в наборе приставок. Учитывая, что у глаголов может быть несколько основ, которые должны находиться в словаре, экономия при хранении словаря на диске компьютера оказалась еще больше.
"Связанные" глаголы, которые без приставки не употребляются (напр., *ведыеить — изведывать, выведывать), рассматриваются как обычные глаголы. Для них вводится н инвентаре специальное значение в наборе приставок: "связанный глагол". Любопытно, что количество таких глаголов составляет одну десятую часть от общего числа глаголов — около тысячи, а количество наборов приставок имеющих в своем составе значение "связанный" составляет одну зреть наборов приставок — около пятисот. Это можно объяснить, видимо, меньшей взаимной продуктивностью "связанных" глаголов и наборов приставок.
Приведем количественные данные по самым частотным наборам (частотность — набор — образец):
о
пере та, но про На при
ча, по. про ч. про
по
(храбрсЫ
(кикпатЫ
Гстиковатъ)
Оирпгнясгь)
Гибучип.)
Цуегсп)
(скандировать)
(брхкнуп^ (ПИИ'рИП.)
Оаяиетонагъ)
(урчаГЬ?
Эти данные напрямую не соотносятся, например, со "Словарем морфем русского языка" А.И.Кузнецовой и Т.Ф.Ефремовой (1986 г.), потому что сочетаемость какого-либо глагола с каким-нибудь набором приставок (в том числе и с одной приставкой) значит, что с другими приставками этот глагол не сочетается (по словарю А.А.Зализняка).
Полученный словарь, тем не менее, является чисто формальным, в том смысле, что в нем полностью не принимается во внимание значение глаголов и приставок .
Была предпринята попытка содержательно проинтерпретировать фрагмент этого формального словаря — построить формально-семантическую модель, описывающую сочетаемость наборов приставок е глаголами, хотя бы для какого-нибудь одного семантического поля глаголов. Предполагается, что семантически сходные глаголы должны вести себя одинаково, а при разной сочетаемости должна существовать возможность указать причину ее запрета (разрешения), т.е. сочетаемость зависит от несовместимости значения глагола и значения способа действия, выражаемого приставкой, а также от статуса компонентов значения в сознании говорящего (семантического фокуса). Семантический фокус используется как рабочее понятие для объяснения различной сочетаемости при аналогичных толкованиях глаголов, хотя подобные идеи высказывались и в более содержательном варианте (Ю.Д.Апресян для значения глагольного пила, Р.И.Розина при сравнении процессов и состояний и др.). При этом в существующих словарях даже явно сходные глаголы могут иметь разные наборы приставок (например, курлыкать / мурлыкать в "Грамматическом словаре").
Такая семантическая модель постросла для глассшон, содержащих в значении компонент "звук". Были отобраны глаголы с их толкованиями из словаря С.Й.Ожегова, имеющие такой компонент. Глаголы брались только в одном из своих значений, прямо связанном со "звучанием". Причем компонент "звук" должен присутствовать в "основном" действии, а не в "сопровождающем" (напр., фыркать - с шумом выпускать воздух из ноздрей, где компонент "производить шум" сопутствует действию). Было отобрано около 100 бесприставочных гпатлов.
Для описания значений глаголов на основе анализа их толкований были выделены признаки и наборы их значений. Иногда признаки удобно обье-
динить и 1 рушил. Глагол может быть не маркирован по каким-нибудь признакам. Выделены следующие признаки и 1рупны признаков.
1. "основная характеристика действия": со значениями "издавать звук, крик (о животном)", "производить звук", "говорить", "негь", "трать на музыкальном инструменте".
2. Группа "ОшмшЛ^1гсп1ик-асй£И11аи. 2-1. "вдтус_денлшш_01тс1Ь тельно участника": "внешнее" / "внутреннее", "имманентное" (у звенеть — "имманентное", у звонить в предложении Человек звонит в колокол — "внешнее", а у звонить в предложении Колокол звонит — "имманентное", по Ю.Д.Апресяну, это регулярная многозначность типа действие / каузация действия). 2-2. "умас11шк^еЛ(Ж£''. 2-3. "количество": "мультиобгектность / муль-тисубъектноеть" (шушукаться / трезвонить). 2-4: "дополни гельиое качество" с открытым набором значений (булькать — участник = вода).
3. "дополнительные действия": "каузирующее" (у звонить = ударять); "сопровождающее"; "целерезультативное" (у цыкать — цель с угрозой).
4. Группа "Характеристика действия". 4-1. "скорость": "быстро" / "медленно" (бормотать/мямлить). 4-2. "интенсивность": "много" (бормотать). 43. "фазисность": "многофазисное" / "циклическое" (звякать/твердить). 4-4. "характеристика места" : "горло" / "иос" / "твердая поверхность" и др. (хрипеть, сопеть, топать).
5. Группа "Опенка". 5-1. "понятности": "невнятно" (лепетать). 5-2.
Сти": "неприятно" (гнусавить). 5-4. "несоответствия эталону" (картавить). 55. "регулярности" (галдеть / рокотать). 5-б."количестна": "слишком много" (орать).
6. Группа "Качество звука". 6-1. "ШЩГЗ": "высокий" / "низкий" (басить, пищать). 6-2. "сила": "тихо" / "громко" (кричать, шептать). 6-3. "тон": "звонкий" / "глухой" / "шум" и др. 6-4. "фазисность звука" (не "фазисность действия"): "повторяющийся" / "единичный" (трещать /свистеть). 6-5. "долгота фазы": "протяжный" / "мгновенный" / "короткий" (выть / трещать / шаркать). 6-6. "плавность (перехода в фазе)" (гудеть). 6-7. "резкость (прнсту-ца)" (свистеть). 6-8. "тембр": "лс1кий" / "металлический" / "в нос" и др. 6-9.
(гавкать / лаять). 6-10. "мракщщЦЕЕЬ ^jaJ№£MU.UDIQJUiactajKl№ilA_cyUl£Criî'' (мычать / рычать).
[": "неуместно", "неважно" (грубить, болтать). 5-3.
Глаголы разбиты на классы по признаку 1. Толкования глаголов были переписаны в терминах данных признаков. Например:
картавить = говорить картаво (картаво = с нечистым произнесением некоторых звуков) (
картавить - класс "говорить", (оценка [несоответствие эталону] : не соответствует]);
рокотать = издавать рокот (рокот — однообразный раскатистый звук; раскат = прерывистый и длительный гул; гул = не вполне ясный, сливающийся шум) (
рокотать = класс "производить звук", дополнительное действие "неопределенное" (качество звука [тон : шум/) + (качество звука [фазисность : повторяющийся /"прерывистый"]]) + (качество звука [долгота : протяжный ("длительный"]Л + (оценка [регулярность ¡регулярно]).
Толкования способов действия были пзяты по Н.С.Авиловой (1976 г.). Выделены условные базовые наборы приставок для каждого класса глаголов. Оценивалась возможная причина запрета/разрешения сочетаемости для всех способов действия и всех классов. В случае невозможности объяснить запрет сочетаемости по наличию компонентов, предполагается, что у них может быть разный статус в сознании говорящего (фокус). Приведем некоторые примеры. Рассмотрим терминатшмшй способ действия (приставка про- в значении "результат + законченность длившегося действия").
Можно выделить необходимые признаки у глагола: действие должно длится (признак "долгота фазы звука" пс может принимать значение "однократный, мгновенный" при одновременном отсутствии признака характеристики действия как циклического или миогрфазиеного), также не должно бьггь элемента в фокусе, 'Запрещающего" перемещение фокуса на элемеш-"результат".
Дня глаголов класса "говорить" считается запрещенной сочетаемость с глаголами, имеющими фокус на оценке, связанной со звуком, или на тембре (тембр звука тоже оценка в некотором смысле). Это глаголы: галдеть, гугнить, гнусить, гнусавить, картавить, шепелявить, сюсюкать, гомонить. Скорее всег о, это можно связать с тем, что данная характеристика воспринимается как постоянная, т.е. также отрицается длительность действия. В принципе, наверное, у этих глаголов возможна потеря фокуса па элементе "оценка", и появление фокуса на возможном результате. Это, в частности, коррели-
руст с изменением структуры валентностей (появляется валентность обьскта) — "прогнусить (что?)". Т.о. появляется результат, который переходит в фокус, и тогда сочетание с этим способом действия можно считать возможным. При этом глаголы, которые содержат оценку, относящуюся не к звуку, а к возможному результату (например, мямлить, бубнить, где оценивается понятность), могут очень естественно сочетаться с данным способом действия. Но глагол болтать тем не менее не сочетается. Это, наверное, связано с тем, что оценка результата у болтать — "о чем-то незначительном", автоматически выводит результат из фокуса.
Интересно сравнить глаголы вопить, орать и кричать. Первый из них не сочетается с данным способом действия, а другие — сочетаются. Орать имеет в толкошлн.'н оценку, снизанную с результатом ("слишком много"), а вопить -— нет; по оба имеют компонент "протяжно", в отличии от кричать. Наверное, мохно утверждать, что вопить имеет фокус на компоненте "протяжно", т.е. характеристике звука, а не результата, кричать фокуса не имеет, а орать имеет фокус на оценке, связанной с результатом.
В ?1'Л'а',[;Т0;!ЛЛ;<гх\ которая называется "Реализация лингвистического обеспечения систем с морфологическим анализом/синтезом", описаны дополнительные компоненты лингвистического обеспечения систем н сами конкретные разработанные системы. Прежде всего, это линпшетическое обеспечение системы, обучающей русской морфологии. Оно включает в ееб.ч помимо морфологических компонентов также экспериментальный прагматически ориентированный тезаурус и наборы минимальных контекстов, в которых предъявляется слово. Система предьявляет обучаемому слово в минимальном контексте, и просит поставить его в нужную грамматическую форму. При этом проверка ответов производится автоматически. Минимальные контексты для существительных (и, соответственно, для прилагательных, которые предъявляются вместе е существительным), выбираются в зависимости от класса существительного в созданном прагматически ориентированном тезаурусе. Тезаурус системы содержит 11 классов: лица (напр., министр), кшвотные (напр., собака), организации (напр., фирма), предметы (нзпр., телелиюр), качества (напр., ктаификиция), события (напр., нанодчение), группы (напр.. партия (политическая)}, данные (напр., документ), инструменты (напр., лопата), абстрактные понятия (напр.. мечта), места (напр., кухня (помещение)), плоды (напр.. яблоко), растенна (напр., яблоня). Словарь системы со-
держит 1200 слов, дополнительно разбитых и на тематические группы ("в офисе", "политика" и т.п.)- От существующих система отличаются легкостью пополнения — надо занести слово, указать его класс, а построение заданий п проверка ответов делаются автоматически. При этом, конечно, в дальнейшем можно добавлять классы и уточнять их состав, а также улучшать созданные наборы контекстов. Контексты строятся так, чтобы подходить ко всем словам в пределах данного класса.
Приведем пример контекстов для семантического класса "лица" в единственном числе: Нм.п. -'Около меня стоит <Х>', Р.п. — 'Я не магу понять характер <Х>', Д.п. — 'Я пишу письмо <Х>', В.п. — 'Собака укусила <Х>', Т.п. — 'Она беседует с(о) <Х>', Пр.п. — 'В <Х> — много положительного'.
Для глаголов предъявляется модель управления. Кроме созданных контекстов, в системе есть возможность переключения на максимально абстрактные контексты (типа 'Вижу (кого/что?)'), в которых классы созданного тезауруса не учитываются.
Другие действующие системы, для которых автором было разработано лингвистическое и программное обеспечение, это системы индексации текстов с лемматизацией, построения конкордансов и исходных данных для словарей сочетаемости, расстановки ударений, проверки орфографии, фрагмент системы синтаксического аналиаа.
Система нормализации и индексирования использована в юридической информационной справочной системе ЮСИС (информационного юридического агенства "Интралскс"). Но также она может применяться для поддержки ведения баз данных текстовых документов в любых областях и, кроме того, как лингвистическая инструментальная система, позволяющая строить нормализованный словарь по текстам. В зависимости от настройки может выделяться основа или ее минимальный инвариант (ок+но/окн+о). Тексты индексируются по имени, по номеру абзаца и номеру предложения.
Информационно-справочная система ЮСИС ориентирована на юридические документы — законы, кодексы, постаноатсния, указы и т.п. Автором разработана часть системы, касающаяся нормализации и индексирования текстов, а также разработаны сервисные программы пополнения словаря, обработки ошибок и работы со словарями. Нормализованный словарь и индексные файлы предоставляются пользователям системы ЮСИС. В настоящий мо-
мент в системе около 2)000 документов, занимающих около ПИ) МБ дисковой памяти. Система находится на стадии коммерческого использовапн;-, например, она установлена в Федеральной налоговой службе России, Министерстве труда, Внешторгбанке России н др.
Расширение этой системы является система построения конкордансов и получения исходных данных для словарей сочетаемости, когда по тексту строятся параллельные таблицы с адресами, содержащие коды слов in словаря и морфологические разборы. Слово ищется в словаре, определяется его код, а затем по коду находятся все случаи вхождения в текст. При этом сеть возможность задавать условия включения слов п отчет и условия наличия в контексте определенных слов. Например, для всех существительных в д.п., мн.ч. или для всех глаголов в повелительном наклонении, у которых в контексте 5 слов влепо и 7 слов вправо с учетом границ предложения есть существительные в р.п. или в в.п. пли местоимения во мн.ч. Поскольку здесь существенно наличие омонимов, то предусмотрена возможность снимать омонимию вручную. Для этого предъявляются все возможные омонимы в виде списка, из которого делается ¡л.тбор. В отчет включаются лемма, словоформы, морфологическая информация, частота, слова контекста, удовлетворяющие набору условий (т.е. исходные данные для словарей сочетаемости) и контексты. Поскольку некоторые слова контекста могут быть липшими, то необходимо постредактирование. Таким образом был обработай рзеска] Ф.М.Достоевского "Мужик Марен" и построены для него хоикордапс и словари сочетаемости (алфавитные и частотные), частично приводимые в приложениях. Рассматривалась сочетаемость: сущсстпнтельиых к полных прилагательных, наречий и прилагательных, наречий и глаголов, глаголов и существительных в именительном падеже, глаголов и сущесП'Ительных в косвенных падежах и их эквивалентов (в последнем случае Для глаголов рассматривалась не попарная сочетаемость, а сочетаемость со всеми существительными в одном контексте, т.е. модель управления; предлоги расставлялись вручную). Затем был построен сводный словарь с указанием типа сочетаемости. Приведем его фрагмент:
встреча (3) [4] сторон (1) |1]
}сщшснныП 2, f.'E: пршюмиить 1, дань 1,
случтьс* 1, выбежать (2.) р|
ргтрсчвться (3) [3) f!E: (т нес) I, (па мужика * иа поляну) 1,
*Ш: и1,-хдкч 1, логом 1, ÄE: (с mw) 1, ni.iro.rm. ()) М!
П'ячнй |3) 13] "U: (кпк>р*ны*, на работу) 1 К: совсем 1, злоба 1, ненависть 1,
Приведем также фрагмент конкорданса (построенного автоматически для слова березняк на 3 слова влево/вправо): березняк м (2) [2] березняк вин.п.,ед.ч. (1]
ММ:047-043 надо идти в бгрезаяк. и я собираюсь березняка род.п.,ед.ч. [1]
ММ:047-048 запах нашего деревенского вгремяка: впечатления эги остаются Еще приведем материалы к грамматическому анализу данного текста, автоматически получающиеся при использовании данной системы — частоты морфологических форм для измсиамш слов (в приложениях также приведены частоты морфологических классов как для лемм, так и для словоформ):
мтьяи., нрош. вр., ед. ч., муж. р. 84
вим. п., ед. ч. 55
род. п., ед. ч. 45
им. п., сд. ч. 44
инф 2/
гн. п., ел. ч. 26
род. п., мм. ч, 23
им. п., ми. ч. 22
ЛИП. П., МП. ч. г\
кратх., ея. ч., ср. р. 21
ПОЛИ., iiAf. П., СР. Ч., муж, J>. 21
пр. п., ед. ч. 20
дееор'Гч., пчет^з 1. BP. 11
ИТ1.3.1, н s?\, Зл, ел. 'I. 17
И1МН , 11 ¡<™. Pp., сд. Ч., Ct>. р. 17
ИТЬЧЯ., Iiprvll. Бр., МЛ. Ч. 17
ПЛ111., род. II., ел. ч.. муж. р. 13
ноли., тй. п., ед. ч., »си. р. 15
та. п., ми. ч. 13
лаг, п., ед. ч. 12
тт., наст/йуд. вр., Зл., ед. ч. 12
нтьмя., иаст/^уд. пр., Зл., 1йн. ч. 10
числит. 10
ПОЛИ., кн. п., сд. ч., ср. р. 9
пр. п., мм. ч. 9
una«., ирг,из, врг ед. ч., жен. р. 8
и*, п., ед. ч., м^ж. г- 8
lliViii., nt,n. 1!., СД. Ч., муж. р. к
полп., «пл. п., ел- ч., ср. р. К
да t. п., мм. ч. 7
им. п., сд. ч,, же», р. 7
вин. п., ед, ч., ср. р. &
дееприч., 1![югг|. вр: 6
ПОЛИ., вин. п., МП. ч. 6
поли., род. п., ед. ч., жен. р. 6
тли., род. п., ып. ч. 6
шт. п.. сд. ч., жен. р. 5
I1QJIH., вин. п., сд. ч., жен. р. 3
поли., им. п., ед. ч., жен. р. 5
ноли., мм. п.. мн- ч. 5
ПОЛ!!., ТО. П., СД. 4., Муж. р. 5
поли., та. п., ед. ч., ср. р. 5
поли., та. и., мн. ч. 4
up. п., ея. ч., жен. р. 4
крзтк., ед. ч., ».гуж. р. 3
иоли7 (О. п., ед. ч., жен. р. 3
поля., реп. п., ед. ч., ср. р. 3
rp»J., страх, ПрОШ. вр., ПОЛ!!., ИМ. г.. ед. ч., р. 3
род. п., ед. ч., муж. р. 3
роя. п., <л. ч., ср. р. 3
Eifii. п., ед. ч., иуж. р. 2
iai. г., ед. ч., жен. р. 2
км. «., t-д. ч., ср. р. 2
крат., ми. ч. 2
прич., дсйстз., преш. «р., поли., род. it., сд. ч., муж. р. 2
прич., действ., прош. ср., ноли., род. п., мн. ч. 2
прич., страд., прош. вр., кратк., ед. ч., муж. р. 2
Прич., страд., ирош. вр., поли., род. П., Mil. ч. 2
jar. п., сл. ч., ср. р. 1
кратк., сд. ч., жен. р. 1
покел., ед. ч. 1
попел | мн. ч. 1
поли., дат. п., сд. ч., муж. р. 1
полк., пр. п., ед. ч., ср. р. 1
поли., нр. п., мн. ч. 1
пр. п., ец. ч., муж. р. 1
пр. п., ед. ч., ср. р. 1
прич., действ., иает/буд. вр., ноли., пин. п., ед. ч., муж. р. 1
прич., действ., иаст/буд. вр., поли., дат. п., сл. v., муж. р. 1
прич., действ., иаст/буд. вр., поли., ии. п., сл. ч., муж. р. 1
прич., действ., иаст/буд. вр., ноли., тв. п., сд. ч., муж. р. 1
прич., действ., прош. вр., наш., внп. п., ед. ч., муж. р. 1
прнч., действ., прош. вр., пали., ВИИ. П., 1.111. ч. I прич., страд., прога. вр., крап;., ед. ч., ср. р. 1
прич., действ., прош. вр., поли., дат. п., ми. ч. 1 прич., страд., прош. вр., полн., вин. п., ед. ч., муж. р. 1
приЧ., Де||С7В., прош. вр., поли., ИМ. П., MB. ч. 1 прич., страд., прош. вр., полн., дзт. п., ед. ч., ср. р. 1
прнч., страд., наст/буд. вр., полн., тв. п., ед. ч„ муж. р., 1 роя- П., ед. ч„ жем. р. 1
тв. п., ед. ч., жен. р. 1
Продолжим рассмотрение созданных систем. Система расстановки уда-ренин позволяет на основе информации о схемах ударений и номере ударной гласной в теоретической модами А.Д.Зализняка определять ударную гласную и позицию буквы "е". Омонимия не разрешается, а предлагается пользователю в виде выбора из меню.
Построенный модуль анализа/синтеза допускает использование в качестве системы проверки орфографии. В таком качестве он используется в одной из версий офисной системы "Энидеск".
Все указанные системы написаиы на языке Borland Pascal с использованием библиотек Paradox Engine и Dbfile.
Кроме того, была создана одна из версий системы на Сн, которая предназначалась для работы в составе пакета "Русское слово" (редактор MS-Word 5.5) в качестве модуля проверки орфографии.
Также созданы фрагменты системы синтаксического анализа, использующей описанный морфологический анализ/синтез. Для этого были взяты алгоритмы синтаксического анализа, разработанные в Информэлсктро под руководством Г.АЛесскиса и Д.ГЛахути. Эти алгоритмы являются "эвристической системой детерминированного анализа со строго упорядоченным набором правил" (Карпова Г.Д., Пнрогова Ю.К., Кобзарем Т.Ю. и др., 1991 г.), что отличает их от других известных и распространенных в нашей стране алгоритмов. Автором был предложен оригинальный способ формальной записи подобных алгоритмов на языке программирования высокого уровня. Дтя этого выделяется элементарная лингвистическая операция, присутствующая в такою рода алгоритмах. Такой операцией я и щется поиск, для которого задаются условия проверки, окончания работы, межсегментных переходов, ipaitnnu работы. В этом поиске происходит перебор слов и/или их морфологических описаний. Для этою элементарного лингвистического действия создастся программный объект с набором переписываемых у его потомков виртуальных методов (используются идеи объектно-ориептированного программирования — наследование, полиморфизм). •
С использованием такого способа формального представления алгоритмов было реализовано на языке Pascal несколько блоков указанных выше синтаксических алгоритмов (определения атрибутивной связи, поиск слуги предлога, анализ сочинения, алгоритмы сегментации).
В данной главе также рассмотрены принципы работы со словарем в случае, когда лингвистическая информация представлена в виде базы данных — "Грамматический словарь русского языка" записан в компьютере как таблица БД "Парадокс".
В заклЮ5ШШ1Щиесертации перечисляются теоретические и практические результаты, приводятся выводи, касающиеся предлагаемого подхода к разработке лингвистического обеспечения для систем с морфологическим анализом/синтезом, его универсальности, лингвистической содержательности получаемых моделей, легкости разработки на его основе прикладных систем, необходимого набора моделей и алгоритмов, возможности уменьшить размеры словаря за счет дополнительных формальных моделей; а также алгоритмов функционирования систем с морфологическим анализом/синтезом и построением формально-семантических моделей, описывающих сочетаемость глаголов и способов действия. Также сказано о возможности использовать созданные системы в качестве лингвистического инструментария (при составлении конкордансов и словарей сочетаемости, определения характеристик слова в какой-либо модели и т.п.). Кроме того, в заключении намечают си перспективы дальнейших исследований в данной области, связанные с возможностью построения на основе предлагаемого подхода систем с морфологическим анализом/синтезом для русского или других языков, построением формально-семантических моделей для других семантических полей русского языка, оценки степени универсальности выделяемых семантических компонентов.
Идеи и результаты, описанные в диссертации, отражены в следующих работах автора:
1. Оценка эффективности инфомацношю-упраштяемых систем. — "Электронная промышленность", 7, 1989. — С.бЗ-64 (В соавторстве).
2. Методы оптимизации взаимодействия с базами знаний в режиме диалога. — "Электронная промышленность", 7, 1989. — С.62 (В соавторстве).
3. О статусе модификаторнмх комплексов в дунганском и русском языках. — V всесоюзная школа молодых востоковедов.Тезисы. т.2. — М.: Наука, 1989. — С.170-172 (13 соавторстве).
4. Задача N2 П. — Лингвистические задачи-93. — М.: Рема, 1993. — С. 10 (В соавторстве).
5. Задачи № 5, № 20, №21. — Лингвистические эадачи-94. — М.: Рема, 1994. —С. 8, 22, 23.
6. Описание сочетаемости русских глаголов с наборами приставок. — 2 конференция по теоретической лингвистике. Тезисы. — М.: изд-во РГГУ, 1994. [в печати]
7. Russian Grammar In Patterns: a Computer Teaching Program. — Proceedings of Joint International Conference ACH-ALLC'95. — Santa-Barbara, 1995 (B соавторстве), [в печати]