Лингвистическое обеспечение компьютерного морфолого-акцентологического словаря русского языка

Хасанова, Раиса Анасовна

автореферат диссертации по филологии, специальность ВАК РФ 10.02.01
диссертация на тему: Лингвистическое обеспечение компьютерного морфолого-акцентологического словаря русского языка

Год: 1991
Автор научной работы: Хасанова, Раиса Анасовна
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Казань
Код cпециальности ВАК: 10.02.01

Автореферат по филологии на тему 'Лингвистическое обеспечение компьютерного морфолого-акцентологического словаря русского языка'

Полный текст автореферата диссертации по теме "Лингвистическое обеспечение компьютерного морфолого-акцентологического словаря русского языка"

КАЗАНСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени В.И.УЛЬЯНОВА-ЛЕНИНА

На правах рукописи

X АСА НОВА Раиса Анасовна

ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ

КОМПЬЮТЕРНОГО МОРФОЛОГО-АКЦЕНТОЛОГИЧЕСКОГО СЛОВАРЯ РУССКОГО ЯЗЫКА

10. 02. 01 - русский Язык

Автореферат диссертации на соискание ученой степени кандидата филологических наук

КАЗАНЬ - 1991

Работа выполнена на кафедре истории русского языка языкознания филологического факультета Казанского орде) Ленина и ордена Трудового Красного Знамени государственно! университета им. 'В. И. Ульянова-Ленина.

Научные руководители:

Доктор филологических наук, профессор Р. А. ЮНАЛЕЕВА

Кандидат филологических наук, доцент К. Р. ГАЛИУЛЛИН

Официальные оппоненты: Доктор филологических наук, профессор Р. А. ЮСУПОВ Кандидат филологических наук, ведущий научный сотрудник Э. Г. АЗИМОВ

Ведущее учреждение: Воронежский ордена Ленина государственный университет им. Ленинского Комсомола

Защита состоится 28 ноября 1991 года в 14.00 ча< на заседании специализированного совета К 053.29.17 1 присуждению ученой степени кандидата филологических на; в Казанском ордена Ленина и ордена Трудового Красно] Знамени государственном университете им. В. И. Ульянова-Лени! по адресу: 420008, г.Казань, ул. Ленина, д. 35 (2-ой учебш корпус КГУ), ауд. 1112.

С диссертацией можно ознакомиться в Научной библиоте! имени Е И. Лобачевского Казанского государственного универс! тета.

Автореферат разослан »Я» октября 1991 г.

Ученый секретарь специализированного совета кандидат филологических наук, ^

доцент фрри^П """ Т. П. Трошки

В последнее время наблюдается рост интереса со стороны ученых-лингвистов к проблемам использования вычислительной техники в процессе преподавания русского языка как иностранного или как неродного. Во многом это объясняется тем, что в современных условиях возникают новые требования к содержанию, формам, методам и средствам обучения языку. И уже трудно говорить о совершенствовании учебного процесса без активного, но в то же время научно обоснованного применения компьютеров.

Острая потребность в машинных лингводидактических разработках, способствующих оптимизации процесса обучения русскому языку, во многом обусловила выбор темы реферируемого исследования, актуальность которой определяется следующими моментами.

Повышение интереса к использованию компьютерной техники в обучении требует создания методически обоснованных разработок, способных интенсифицировать процесс практического овладения языком. В этом процессе ведущая роль принадлежат грамматике, которая является "объективной языковой действительностью, управляющей нашей речью" [Щерба Л. В., 1974, с. 48].

Наряду с созданием автоматизированных обучающих систем, компьютеризованных учебных курсов, различных программ, в которых грамматическому аспекту уделяется большое внимание, не менее важной представляется задача построения на основе базовой лексики русского языка учебного морфолого-акцентологического словаря, реализованного на машинных носителях, разработке которого посвящена данная диссертация. О значимости сведений, связанных с морфологией и акцентуацией, свидетельствует тот факт, что эти данные являются обязательной частью практически всех словарей (как традиционных, так и автоматизированных). Однако в упомянутых источниках морфологическая и акцентологическая информация зачастую дается имплицитно. В компьютерном же словаре эти сведения имеют эксплицитное представление.

Компьютерный словарь по сравнению с традиционными лексикографическими изданиями грамматической ориентации имеет ряд преимуществ, обусловленных достоинствами вычислительной техники. Только тот факт, что в автоматизированном

- г -

морфолого-акцентологическом словаре по запросу пользователя в считанные секунды может быть восстановлена парадигма любой вошедшей в словарь лексической единицы с учетом акцентологических данных, а'также выдана и некоторая другая морфологическая информация о слове, свидетельствует в пользу компьютерного словаря. "Бумажный" словарь по грамматике требует на ту же процедуру гораздо больше времени, отсылая пользователя к справочному разделу, таблицам, схемам.

Создание учебных автоматизированных словарей сегодня является приоритетной областью лексикографии, а сами машинные словари названы новым средством обучения. Одна из основных функций, которую может выполнять компьютер в учебном процессе,- функция "электронного справочника, представляющего информацию о тех или иных аспектах языка или речевой деятельности, которые изучаются в данный момент" [Азимов Э. Г., 1989, с. 25].

Разработка морфолого-акцентологического словаря входит в круг исследований по компьютерной лингводидактике, проводимых в Казанском университете в рамках Координационного плана ГКНГ СССР и АН СССР по формированию Машинного фонда русского языка (задание 06.01. в части 3.3. 8.). Одно из направлений этих исследований - создание информационно-справочных систем по языку.

Особенности нашей страны и сложившаяся международная обстановка создают широкие возможности для эксплуатации учебного морфолого-акцентологического словаря, реализованно-• го на базе ЭВМ. Учитывая, что наша страна многонациональна, словарь может быть включен в процесс обучения русскому языку как неродному. А современная ситуация в мире, характеризующаяся развитием сотрудничества между государствами в области экономики, науки, культуры, способствует формированию условий для использования компьютерного словаря при изучении русского языка как иностранного.

Целью данного диссертационного исследования является обоснование и разработка лингвистического обеспечения учебного компьютерного морфолого-акцентологического словаря (КОМАС) русского языка. Поставленная цель определяет следующее конкретные задачи, которые решаются в данной работе:

- выявление специфики, особенностей компьютерного опи-

- 3 -

сания грамматики русского языка;

- выбор стратегии компьютерного описания русской грамматики;

- определение словарной базы компьютерного грамматического (морфологического) минимума-,

- разработка архитектуры КОМАС;

- выбор, описание, формализация материала по широкому кругу морфологических и акцентологических характеристик;

- определение совокупности запросов, реализуемых с помощью КОМАС;

- подготовка лингвистического материала для морфологического синтезатора, на основе которого возможно построение словоизменительной ветви КОМАС;

- выработка принципов формирования комментирующих текстов и определение их типологии;

- подготовка лингвистического материала, обеспечивающего работу той ветви словаря, которая предназначена для отбора лексических единиц по предложенным признакам;

- создание системы "меню" на основании выработанных принципов представления морфологических и акцентологических характеристик;

- формирование системы "помощи";

- составление частотного указателя морфологических и акцентологических признаков на основе данных словаря.

Научная новизна работы заключается в том, что созданный КОМАС представляет собой оригинальное словарное произведение, по своей архитектуре и характеру отраженной в нем информации не имеющее аналогов в современной лексикографии. В исследовании:

- дано методическое обоснование целесообразности построения компьютерного грамматического минимума на базе наиболее употребительной лексики русского языка;

- разработана своеобразная архитектурная модель КОМАС, состоящая из двух основных ветвей, связанных внутренне и относительно независимых в действии;

- предложена полная морфологическая характеристика каждого вошедшего в состав КОМАС слова наряду с предоставлением информации о его словоизменении и акцентуации;

- выделены на основании выработанных единых принципов

типы комментариев, указывающих на особенности изменения лексических единиц КОМАС;

- предусмотрена возможность отбора слов по любой совокупности морфологических и акцентологических характеристик, при этом учтены однозначно определяемые взаимоисключающие признаки;

- сформирована разветвленная система "меню" на основании предложенных принципов распределения морфологических и акцентологических характеристик;

- составлена "помощь" к каждому "меню" ("подменю"), содержащему перечень признаков для отбора;

- сформирован частотный указатель морфологических и акцентологических признаков на материале КОМАС.

Теоретическая и практическая значимость диссертации состоит в том, что в процессе исследования выдвинута концепция и разработана архитектура автоматизированного словаря нового типа, который может использоваться в преподавании русского языка как иностранного и как неродного на начальном этапе, поддерживая- учебный процесс в качестве информационно-справочной системы по морфологии и акцентуации. Причем его потребителями могут быть и обучаемые, и обучающие. Возможно также применение КОМАС при изучении русского языка его носителями, так как в практике устной и письменной речи нередко возникают различные затруднения, связанные с постановкой ударения, грамматической характеристикой слова и словоизменением. Пэмощь в преодолении таких трудностей сможет оказать компьютерный словарь. Кроме того, КОМАС может использоваться при сборе материала для лингвистических исследований и линг-водидактических разработок, что позволит в значительной степени облегчить труд ученых и методистов по накоплению необходимых языковых данных.

Материалы диссертации могут быть использованы в работах по компьютерной лингвистике .и по компьютерной технологии обучения, а также при составлении учебных, справочных и методических пособий, словарей различного типа.

Для решения поставленных задач в процессе работы использовались следующие методы: метод лингвистического описания, сравнительно-сопоставительный метод, статистический метод.

Основные положения диссертации отражены в пяти публикациях и получили апробацию на пяти научных конференциях: .

- международных (Казань, 1990; Москва, 1990);

- всесоюзной (Казань, 1989);

- итоговых университетских (Казань, 1990, 1991).

Фрагменты КОМАС демонстрировались на Международной выставке компьютерной продукции (Ганновер, ФРГ, 1991) и на Международном симпозиуме по обучению языкам с помощью компьютера (Атланта, США, 1991).

Кроме того, словарь прошел апробацию в практике вузовского и школьного преподавания русского языка.

Структура работы во многом определяется ее задачами. Диссертация состоит из введения, основной части, содержащей четыре главы (1 глава - "Грамматика и акцентуация в компьютерной лингвистике и лингводидактике", 2 глава - "Морфолого-акцентологическая характеристика имени существительного", 3 глава - "Морфолого-акцентологическая характеристика имени прилагательного, имени числительного, местоимения", 4 глава - "Морфолого-акцентологическая характеристика глагола"), заключения, библиографии и приложения.

Во введении формулируется цель и определяются задачи исследования, обосновываются актуальность и новизна работы, определяется ее практическая значимость.

В первой главе на основе обзора литературы по теме исследования дано обоснование целесообразности построения компьютерного грамматического минимума русского языка, а также раскрывается архитектура КОМАС и содержится анализ привлекаемых источников.

Вторая, третья и четвертая главы посвящены морфолого-акцентологической характеристике соответствующих частей речи.

В заключении излагаются основные результаты исследования, рассматриваются перспективы дальнейшей работы.

Библиография содержит перечень источников и список использованной литературы.

В приложении представлены: частотный указатель морфологических и акцентологических признаков лексических единиц базового словаря; фрагменты компьютерного словаря в распечатанном виде; список условных обозначений и сокращений, при-

нятых в КОМАС для формализации морфологического и акцентологического материала.

Анализ литературы по компьютерной лингвистике и лингво-дидактике подтверждает своевременность и актуальность работы по созданию учебного компьютерного морфолого-акцентологиче-ского словаря.

Так как КОМАС задумывался как справочник, предназначенный прежде всего для использования в процессе обучения русскому языку на начальном этапе, то в числе первых встала проблема минимизации включенного в компьютерный словарь лексического и соответственно морфологического материала.

По данным современной методики, примерно 3 тысячи специально отобранных слов позволяют пользоваться языком как практическим средством общения и понимать 80-95 % текста (процентные сведения о покрытии текста в разных методических пособиях колеблются от 80% до 95% [Методика, 1988, с. 91; Методика, 1989, с. 77; Методика, 1990, с. 180]). На основании этого факта в КОМАС включено около 3 тысяч лексических единиц. Это- количество слов является достаточным в рамках начального периода обучения для формирования у человека "коммуникативной компетенции, означающей способность правильно пользоваться языком в различных ситуациях общения" [Щукин А. Н. и др., 1990, с. 225].

Отобранный лексический материал определяет и морфологический- минимум компьютерного словаря, под которым в данном случае понимается совокупность морфологических характеристик наиболее употребительных слов русского языка, вошедших в КОМАС.

КОМАС представляет собой автоматизированную информационно-справочную систему по словоизменению и акцентуации базовой лексики русского языка, в состав которой входит около 3 тысяч (2985) общеупотребительных слов, отобранных на основании 12 лексикографических источников (частотных словарей, словарей-минимумов и т.п.).

Формирование КОМАС в первую очередь связано с построением синтезатора, являющегося программно-лингвистической реализацией алгоритма синтеза словоформ. Морфологический синтезатор позволяет получить совокупность всех форм изменяемых слов. Однако возможности словаря этим не ограничивают-

ся. При необходимости пользователь может получить сведения о частеречной принадлежности слов;' о роде, одушевленности / неодушевленности существительных; о виде, переходности / непереходности, спряжении глаголов; об образовании сравнительной и превосходной степени прилагательных и некоторые другие данные.

В КОМАС использован способ формализации морфологического и акцентологического материала, представленный в "Грамматическом словаре русского языка" А. А. Зализняка, машиночитаемая версия которого легла в основу компьютерного продукта. В процессе создания КОМАС привлекались также материалы других лексикографических источников и грамматик русского языка. Объясняется это прежде всего тем," что в словаре А. А. Зализняка при описании русского словоизменения зачастую отражены потенциальные формы слов, то есть формы, которые практически не встречаются в языке, но в случае необходимости могут быть образованы по правилам русского словоизменения. В учебном компьютерном словаре представлены только употребительные формы парадигмы, а потенциальные формы слов из него исключены (это относится, например, к существительным этди-1аг1а ЬапЬиш и к относительным прилагательным).

В словаре представлена акцентологическая характеристика лексических единиц, включающая практически все типы постоянного и подвижного ударения, рассматриваемые в специальной литературе. Ударение проставлено как в исходных формах, так и во всех развернутых по желанию пользователя словоформах.

Следует отметить, что в компьютерном словаре используются понятия "графической основы" и "графического окончания", удобные для машинного описания морфологии.

Значения слов в рассматриваемом словаре, как правило, не указываются, кроме случаев, когда эти сведения необходимы для правильного восстановления парадигмы. Приводятся эти материалы обычно тогда, когда нужно различить омонимы или разграничить значения слов, которым соответствуют разные типы словоизменения.

Пользователь, приступающий к работе с КОМАС, прежде всего должен выбрать язык, на котором будут выдаваться необходимые инструкции, комментарии и "помощь". Это может быть, кроме русского, английский, французский или немецкий язык.

После выбора языка поступает сообщение машины о возможностях словаря и имеющихся входах в него. Пользователю предлагается "меню", в котором перечислены предназначенные для выбора входы в компьютерный словарь:

- через заглавные слова,

- через основные характеристики слов,

- через компоненты слов,

- через количество букв в слове,

- через количество слогов в слове,

- через место ударения в слове,

- через ритмическую структуру слов,

- через слова-образцы.

Основными являются два первых входа (далее они условно названы входом "через слово" и входом "через характеристики слова"), позволяющие получить морфологическую и акцентологическую информацию о лексических единицах компьютерного словаря. Войти в КОМАС можно также "через компоненты слов" и, указав любую букву или буквосочетание в определенной части слова, получить список лексических единиц с необходимым компонентом. Ознакомиться со словами, имеющими указанное число букв или слогов в исходных формах, можно, воспользовавшись входом "через количество букв" или "через количество слогов в слове". Для получения перечня словарных единиц с ударением в исходной форме на выбранном слоге или с отмеченной ритмической структурой необходимо войти в КОМАС "через место ударения в слове" или "через ритмическую структуру слов". Еще один вход позволяет, указав слово-образец, получить список лексических единиц, изменяющихся, как слово, которое выступает в качестве образца Пользователь также может ознакомиться с морфологической и акцентологической характеристикой любого слова, вошедшего в тот или иной список. Многочисленность предлагаемых входов в словарь по сравнению с "бумажными" лексикографическими изданиями делает КОМАС более удобным в пользовании и более информативным.

Особенность архитектуры компьютерного словаря заключается' в том, что он состоит из двух основных ветвей, каждая из которых предоставляет свой блок морфологической и акцентологической информации. Причем, имея общую базу данных, эти ветви относительно независимы друг от друга в работе. Войти

в них можно с помощью двух основных входов: "через слово" и "через характеристики слова".

Вход "через слово" предполагает либо ввод интересующего пользователя слова, либо выбор слова по словарю. Вводить можно не только целое слово, но и его начальные буквы. Если введенное слово входит в состав словаря, то на экране появляется та часть КОМАС, в которой оно находится. Если же пользователь вводит только начальные буквы, то на экране он получает тот фрагмент словаря, в котором представлены слова (или слово) с указанными начальными элементами. Возможность такого входа в КОМАС позволяет не пролистывать весь словарь, а сконцентрировать свое внимание только на той его части, которая в данный момент необходима пользователю. Выбор слова по словарю предполагает листание КОМАС в поисках необходимой информации.

После этой- процедуры нажатием соответствующей клавиши можно • получить морфологические и акцентологические сведения, о конкретном слове. Работа по восстановлению словоформ осуществляется ЭВМ путем анализа буквенного символа, всех элементов индекса, а также дополнительных помет и указаний, расположенных в определенном порядке в словарных статьях лексических единиц КОМАС.

Вход в КОМАС "через слово" наряду с предоставлением информации о словоизменении и акцентуации вошедших в словарь лексических единиц снабжает пользователя и текстами комментирующего характера. Целью комментариев является пояснение некоторых явлений, наблюдающихся в основах слов при их склонении или спряжении, а также приведение некоторых дополнительных сведений о единицах КОМАС (например, приведение вариантных форм с указанием степени их употребительности; выдача словосочетаний, в которых форма заглавного словз отличается от своего обычного вида, и др.). Все комментарии, сформированные на основании единых принципов (емкости содержания, лаконичности формы и стандартности), распределены по типам в зависимости от характера содержащейся в них информации. Количество типов в пределах разных изменяемых -частей речи неодинаково. Их число зависит от количества епецифиче- ' ских явлений, которые проявляются при изменении слов.,

Вход в словарь "через характеристики слова" преяие\.все'7

« * '/>У> ,'<■

го предоставляет пользователю возможность выбрать интересующую его часть речи. В предложенный перечень внесены как традиционные части речи (изменяемые: существительное, прилагательное, глагол," местоимение, числительное; неизменяемые: наречие, союз, предлог, частица, междометие), так и те группы слов, что обычно выделяются в современных толковых словарях, а именно: сравнительная степень, предикатив, вводное слово.

Если выбрана изменяемая часть речи, работающий со словарем может с помощью системы "меню" выбрать признак или любую совокупность признаков, на основании которых будет получен список лексических единиц, обладающих заданными ха-•рактеристиками.

У каждой изменяемой части речи выделены с учетом широкого круга возможных запросов самые разные морфологические и акцентологические признаки, которые распределены по разветвленной системе "меню" и "подменю". Формирование системы "меню" осуществлялось на основании принципа группирования материала от общего к чартному. В результате признаки, содержащиеся в каждом последующем "подменю", являются более конкретизированными, чем в предыдущем. Это позволяет отбирать характеристики с разной степенью детализации. Пользователь может выбирать признаки в любом сочетании и практически в любом количестве. При этом учтены противоречащие друг другу признаки (например, "совершенный вид" и "настоящее время" у глаголов, "обпщй род" и "неодушевленность" у существительных и др.) и предусмотрены промежуточные сообщения об их несовместимости.

В кавдом перечне характеристик рядом с указанием морфологического или акцентологического признака стоит специальный знак, свидетельствующий о наличии или отсутствии у рассматриваемого признака дальнейших "подменю" детализирующего характера.

Все отбираемые пользователем характеристики фиксируются в специально отведенном для этого "окне" и находятся в поле зрения работающего с КОМАС до вывода списка слов.

Отбор слов по характеристикам в КОМАС сопровождается выдачей на экран статистических сведений. Статистика может быть получена как по отдельным признакам, так и по любому их

набору. Эта возможность компьютерного словаря использована при составлении на базе словарных данных частотного указателя морфологических и акцентологических признаков. Способность словаря регистрировать статистику позволяет судить о типичности, распространенности одних явлений языка и, наоборот, о меньшей распространенности других. Например, известно, что "в русском языке большая часть слов (около 96 %) имеет неподвижное ударение" [Касаткин JL Л. и др., 1991, с. 783, однако несмотря на то, что слов с подвижным ударением немного (около 4 %), "они относятся к наиболее употребительным, входят в основной словарный фонд русского языка" [там же]. Акцентологические сведения, включенные в компьютерный словарь, подтверждают последнее. Из 2985 слов, содержащихся в КОМАС, подвижным ударением обладают 580, что составляет около 19 % объема базового словаря.

В компьютерном словаре каждое "меню" и ."подменю" снабжено "помощью". Составлена она таким образом, чтобы суть рассматриваемых явлений прежде всего раскрывалась через примеры, хотя в некоторых случаях (там, где это было необходимо) давались пояснения самим языковым фактам. Вызывается "помощь" только в том случае, если поступает запрос со стороны пользователя.

В диссертационной работе выделены и подробно описаны морфологические и акцентологические характеристики лексических единиц КОМАС, относящихся к разным частям речи.

Распределение слов по частям речи и выделение совокупности описываемых признаков базируется на подходах, которые представлены в учебной и методической литературе по русскому языку. Это дает возможность расширить объем предлагаемых пользователю сведений по сравнению с рядом современных лингвистических изданий. Например, в отличие от Грамматического словаря и грамматик русского языка в КОМАС включены сведения об образовании превосходной степени у прилагательных; к числительным отнесены не только слова, обозначающие количество, но и слова, обозначающие порядок при счете; к местоимениям относится более широкий круг слов, чем выделяемые в современных лингвистических изданиях местоимения-существительные.

Значительное место в КОМАС занимают имена существительные (1237 слов), у которых реализованы в склонении и включе-

ны в списки для отбора следующие характеристики: род, одушевленность/неодушевленность, тип склонения, тип ударения, сведения об употреблении форм, нерегулярное образование форм, чередование беглой гласной, чередование Ё/Е, особые чередования в основе (типа -ОНОК/-АТК-). Подавляющее большинство характеристик как у существительного, так и у описываемых ниже частей речи детализируется в последующих "подменю". При этом количество конкретизированных признаков значительно превышает число первичных характеристик (например, у существительных их около 60).

У имен прилагательных (409 слов) в компьютерном словаре представлены сведения о типе склонения, типе ударения, не-' Стандартном образовании форм, чередовании беглой гласной, чередовании Ё/Е, и даны эти сведения с учетом форм прилага-, тельных.

У числительных (57 слов) в данной версии не выделяются лексико-грамматические разряды, а распределены слова этой части речи по группам на основании проявляющихся в их склонении морфологических категорий (например, одну из групп составляют числительные, имеющие родовые формы и формы числа). В словаре учтены такие характеристики числительных, как тип склонения, тип ударения, одушевленность/неодушевленность, при этом принимаются во внимание родовые формы.

В отношении местоимений (52 слова) в КОМАС соблюден тот же подход, что и при рассмотрении числительных: деление местоимений на группы производится на основе общности их ' словоизменительных значений. У местоимений выделены те же признаки, что и у числительных.

Если среди имен по обилию проявляющихся.в словоизменении морфологических и акцентологических характеристик лидирует существительное, по количеству представленных в пределах части речи форм - прилагательное, то глагол по всем па. раметрам превосходит именные части речи. В компьютерный словарь включено 893 глагола, у которых учтена обширная система морфологических категорий. Следует особо остановиться на представленности в словаре двух из них (категорий вида и залога) , так как в научной литературе отношение к названным категориям неоднозначно. В КОМАС члены видовой пары считаются разными словами, каждое из которых имеет свою систему

словоизменения. Что касается категории залога, то в компьютерном словаре выдержана позиция, согласно которой глаголы с постфиксом -ся, имеющие страдательное значение, являются самостоятельными словами. В КОМАС выделены глагольные признаки, касающиеся вида, переходности/непереходности, типа спряжения, типа ударения, сведений об употреблении форм, нестандартного образования форм, чередования согласных, чередования Ё/Е, чередования беглой гласной; при этом учитываются все формы глагола.

Включенная в состав КОМАС информация, методически и дидактически обоснованная, отличается многоаспектностыо и информативной содержательностью. Следует особо отметить, что вторая ветвь КОМАС, предоставляющая возможность отбора слов по характеристикам, является оригинальной по поставляемым сведениям. Благодаря этому разделу словаря можно почерпнуть такие данные, которые трудно, а иногда и невозможно извлечь из традиционных лексикографических источников, так как крайне затруднительно получить список слов, характеризующихся различными комбинациями морфологических и акцентологических характеристик, пользуясь "бумажными" словарями. А КОМАС с этой работой справляется быстро и качественно.

Возможности современной вычислительной техники в немалой степени определяют достоинства созданного компьютерного словаря, наиболее существенными и выразительными из которых являются:

- большое количество входов, предоставляющее пользователю возможность войти в словарь "через слово" или "через любую из зафиксированных в КОМАС характеристик";

- высокая скорость обработки запрашиваемой информации и выдачи ее на экран или печатающее устройство;

- точность и надежность выдаваемых данных, исключение ошибок, возможных при работе с традиционными лексикографическими источниками;

- автономность в работе отдельных информационных блоков при строгой системности в организации всего материала, что позволяет обращаться только к необходимым сведениям и освобождает от необходимости при поиске информации просматривать большие массивы данных;

- возможность многократного обращения к тем или иным

сведениям;

- кумулятивность, то есть способность пополняться новым лексическим материалом без разрушения структуры КОМАС.

Естественно, что большую ценность словарь приобретет для пользователей различного профиля в случае расширения массива его лексических единиц, что является задачей ближайшей перспективы. Решить эту задачу позволяют открытость компьютерного словаря, его способность к пополнению и достаточно большой объем памяти ЭВМ. В настоящее время ведется работа по расширению словаря до 15 тысяч единиц.

Представленное в КОМАС лексическое ядро русского языка включает в свой состав значительное количество слов с морфологически нерегулярным образованием форм, а именно эти слова требуют существенных затрат времени на обработку и описание. С выходом за пределы базового словаря число таких лексических единиц уменьшается. Подтверждает этот факт проведенное статистическое мини-исследование. Методом случайной выборки в Грамматическом-словаре отобран массив слов в 1218 единиц (расположенный на 10 разных страницах) с целью выявления соотношения между словами, характеризующимися стандартным образованием форм, и словами, отличающимися нерегулярностью в образовании некоторых форм. В результате произведенных расчетов из названного количества лексических единиц только 40 слов требуют ручной обработки, что составляет 3,3 % -от общего числа отобранных словарных единиц. У остальных же слов уже сейчас могут автоматически восстанавливаться ' парадигмы. Сказанное дает основания утверждать, что работа по . расширению компьютерного словаря будет продвигаться значительно быстрее.

Наряду с увеличением объема КОМАС предполагается реализация возможности входа в него через супплетивные формы слов Или словоформы, существенно отличающиеся по своему внешнему . виду от исходных форм.

На основе компьютерного словаря планируется также создание различных игровых и учебных программ по морфологии и акцентуации, ориентированных на начальный этап обучения.

Решение подобных задач возможно потому, что КОМАС, кроме своего прямого назначения - служить в качестве автономной справочной системы, может использоваться как информа-

ционный модуль в разработках, призванных решать самые разные лингвистические и лингвометодические задачи.

КОМАС реализован на языке С для персональных ЭВМ (совместимых с IBM PC), имеющих накопитель на магнитном диске типа "винчестер" и адаптер видеомонитора типа EGA или VGA. С программной точки зрения словарь представляет собой совокупность трех компонентов: базы данных, морфологического синтезатора, диалогового интерпретатора запросов к базе данных. В базе данных хранятся заглавные слова и морфологические и акцентологические характеристики в формализованном виде. В морфологическом синтезаторе реализованы алгоритмы восстановления парадигм лексических единиц по их формализованным характеристикам. Интерпретатор запросов обеспечивает на основе диалога с пользователем формирование запроса к базе данных и его исполнение.

Работа выполнена сотрудниками сектора разработки инструментальных систем Центра информатики и вычислительной' техники Казанского государственного университета. За большой труд по программному обеспечению учебного компьютерного морфолого-акцентологического словаря русского языка автор выражает глубокую благодарность руководителю сектора Обносо-вой Н. А. и программистам Виноградовой В. К, Зинькиной Н. Л. , Наумовой С. Л. , Центовской Н. Г. , Чишковской Н. А.

Основные положения диссертации отражены в следующих публикациях:

1. Об использовании компьютера в педагогической русистике // Проблемы педагогической лингвистики. - Казань: Изд-во Казан, ун-та, 1989. - С. 170-176 (в соавторстве).

2. Компьютерная текстотека в системе баз данных "Русская лингводидактика" // Закономерности развития и взаимодействия национальных языков и литератур (Текст. Коммуникация. Перевод.): Тез. науч.-практ. конф. (Казань, 27-30 сентября 1989). - Казань, 1989. - Ч. 2. - С. 78-80 (в соавторстве).

3. Лингво-методические аспекты построения компьютерного морфологического словаря // Международная конференция' CALL -Computer-Assisted Language Learning: Тез. докл. (СССР,Казань, 25-30 июня 1990). - Казань, 1990.- С. 46-47.

4. Пути компьютеризации русской лингводидактики // Русский язык и литература в общении народов мира: проблемы функционирования и преподавания /VII Международный Конгресс преподавателей русского языка и литературы: Тез. докл. и сообщ. - М.: Рус. яз. , 1990.- Т. 2. - С. 300-301 (в соавторстве).

5. Субстантивное склонение в компьютерном морфологическом словаре // Словообразование и стилистика современного русского языка.- Казань: Изд-во Казан, ун-та, 1991.- С. 133140.

Сдано в набор 21.10. 91 г. Подписано в печать 16.10.91 г. Форм.бум. 60 х 84 1/16. Печ.л.1. Тираж 100. Заказ 587. Бесплатно.

Лаборатория оперативной полиграфии КГУ 420008 Казань, Ленина, 4/5

Полный текст автореферата диссертации по теме "Лингвистическое обеспечение компьютерного морфолого-акцентологического словаря русского языка"

Похожие темы диссертаций