Лингвистическое обеспечение системы автоматизированной коррекции русского текста

Жарков, Игорь Вениаминович

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Лингвистическое обеспечение системы автоматизированной коррекции русского текста

Год: 1995
Автор научной работы: Жарков, Игорь Вениаминович
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Санкт-Петербург
Код cпециальности ВАК: 10.02.21

Автореферат по филологии на тему 'Лингвистическое обеспечение системы автоматизированной коррекции русского текста'

Полный текст автореферата диссертации по теме "Лингвистическое обеспечение системы автоматизированной коррекции русского текста"

Санкт-Петербургский государственный университет

Р Г Б ОД

~ 9 ОПТ 1835

на правах рукописи

Жарков Игорь Вениаминович

ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ СИСТЕМЫ АВТОМАТИЗИРОВАННОЙ КОРРЕКЦИИ РУССКОГО ТЕКСТА

Специальность 10.02.21 — Структурная, прикладная и математическая лингеистика

Автореферат

диссертации на соискание ученой степени кандидата филологических наук

Санкт-Петербург 1995

Диссертация выполнена ири кафедре структурной, прикладной и математической лингвистики Санкт-Петербургского университета

Официальные оппоненты: доктор филологических наук, профессор М. И. Откупщикова кандидат филологических наук, доцент А. В. Данилов

Ведущая организация — Институт лингвистических исследований Российской академии наук

на соискание ученой степени кандидата филологических наук при Санкт-Петербургском государственном университете по адресу: Университетская наб., д. 7/9.

Защита состоится 1995 г. в 16

на заседании ^^^игшрЙмшорУсовета К 063.57.52 по защите диссе

в I о часов диссертаций

Автореферат разослан са+ЛаЗ^о-А- 1995 г.

Ученый секретарь специализированного совета

О. И. Бродович

Реферируемое исследование служит прикладным задачам и базируется на основных идеях и понятиях функциональных концепций языка, предложенных в трудах лингвистов пражской школы, в первую очередь, А.Мартине, В.Магезиуса, а также таких исследователей, как Г.А.Золотова, А.В.Бондарко, В.Г.Гак, Ю.Д.Апресян, А.А.Зализняк, Л.Г.Яцкешч, В.Б.Евтюхин, АЛ.Шаран-дин, В.П.Казаков и др.

Актуальность темы. Среди приложений компьютерной лингвистики выделяются немногочисленные собственно лингвистические приложения, такие как машинный перевод, автоматизированное обучение языку, автоматизация лингвистических исследований. Немаловажное место среди таких пробами занимают системы автокоррекции текста на естественном языке.

Разработка систем автоматизированной коррекции текста, являющихся исторически одним из первых видов компьютерных про1рамм, связанных с обработкой естественных текстов, несмотря на то. что первые программы автокоррекции появились еще в 50-х гг. нашего века, сохраняет актуальность до настоящего времени, особенно для языков с развитой морфологической системой и нефиксированным порядком слов. Такая актуальность обуславливается, в первую очередь, нерешенностью проблемы в требуемом объеме.

С другой стороны, лингвистическое обеспечение- такой программы требует формализованного описания значительного по объему подмножества языка, причем такое описание может оказаться применимым и полезным также и для решения других задач компьютерной лингвистики. Кроме того, во многих компьютерных системах существует предварительная коррекция вводимых данных как начальный этан их обработки. Таким образом, актуальность исследования не ограничивается сферой автохоррекции.

Наконец, некоторые выводы и решения, предлагаемые нами в реферируемой диссертации, могут, на наш взшяд, оказаться полезными и в общелипгвистическом плане. Это относится, например, к анализу соотношения понятий нормативного и грамматичного (глава 1>, к предложенному в главе второй критерию выводимости функциональных характеристик единиц речи, к функциональной интерпретации регулярной неполноты парадигм.

Цель работы состоит в разработке методов приведения содержащего отклонения от нормы русского письменною текста в соответствие с языковой нормой на орфографическом уровне на основе собственно языковых характеристик единиц текста без обращения к прагматической стороне текста и его составляющих как лежащей вне языка, что предполагает построение модели [рамматический правильности русского языка, допускающей машинную реализацию.

Задачи исследования:

1) определить коррекцию как объект и предмет автоматизации;

2) на основе современных представлений о языковой норме провести классификацию ее нарушений;

3) определить способы их выявления и исправления в тексте;

4) разработать структуру данных для представления словаря номинативных единиц (лексем, словоформ, частей фразеологических единиц), ин-

• формационно достаточную для применения в системах автокоррекции;

5) формально определить и классифицировать синтагматические способы орфографическою уровня организации текста (словоизменительные, трансформообразоватсльные), то есть морфологию, а также разработать их формализованное представление, информационно достаточное для применения в системах автокоррекши.

Объектом исследования послужили процесс коррекции, соотношение системы языка, речи и нормы, а также некоторые закономерности грамматического строя русского языка.

Эмпирическую базу исследования составили тексты газетных статей (газеты "Невское время", "Санкт-Петербургские ведомости") объемом си. 4 млн. словоупотреблений, тексты нормативных и типовых документов общим объемом сп. 2 млн. словоупотреблений, а также данные "Синтаксического словаря русского языка" Г.А.Золотовой, "Русской грамматики", "Словаря современного русского литературного языка", "Грамматического словаря" А.А.Зализняка, "Частотного словаря русского языка" под ред. Л.Н.Засориной, а также программы для ЭВМ: ОРФО, КОРРЕКТОР, ДИАКОР, РУССИКОН, Проверка русской орфографии, Grammatik V и иск. др.

Научная новизна диссертации.

В теоретическом плане:

1) предложен критерий выводимости, позволяющий в ряде сложных случаев различать между собой явления языковой и речевой систем. На основе этого критерия уточняются некоторые соотношения единиц языка и речи;

2) уточнены соотношения понятий 1рамматичноети и нормативности

текста;

3) предложена функциональная интерпретация регулярной неполноты морфологических парадигм как синтаксически обусловленного явления, определяющегося семантической невозможностью употребления регулярно отсутствующих морфологических форм;

4) уточнено соотношение понятий контекстного и синтаксического

анализа.

В практическом ачане:

1) предложен новый способ машинного представления русской мор-фолоши, включая словоизменение и трансформообразование;

2) проведена классификация отклонений от языковой нормы;

3) построена морфологическая словарная база данных, представляющая св. 120 тыс. лексем.

Апробация работы. Диссертация обсуждалась па заседаниях кафедры математической лингвистики Санкт-Петербургского государственного университета.

На основе описанного п настоящей диссертации лингвистического обеспечения созданы две системы автоматизированной коррекции русского текста: RuSpell— в соавторстве с Л.М.Прокофьевым (]992 г.) и AutoSpet— в соавторстве с С.Л.Слобоцянкжом и К.А.Мурзиным2. В настоящее время эти программы функционируют во многих крупных редакциях и издательствах: газеты "Санкт-Петербургские ведомости", "Невское время", "Сегодня", ГИПК "Лениздат" и др.

Кроме того, на основе описываемой в диссертации морфологической базы данных нами в соавторстве с СЛ.Слободянюком и проф. Н.Д.Светозаро-•вой разработана и функционирует система автоматической акцентно-иптона-ционной траискрииции русского текста Udar, предназначенная для использования в качестве компонента системы синтеза речи, создаваемой на кафедре фонетики и методики преподавания иностранных языков СПбГУ.

Структура работы. Диссертация состоит из Введения, трех глав, Заключения и двух Приложений.

Во Введении дается обшая характеристика работы, содержится обоснование выбора темы исследования, указывается объект анализа, формулируются цель и задачи работы, определяются принципы и методы исследования.

В главе I — "Проблема автоматизированной коррекции русского текста и методы ее решения" — анализируется задача автокоррекции посредством соотнесения искажений текста с языковой нормой, а также рассматриваются и оцениваются основные способы ее решения в лингвистическом аспекте, дается общая характеристика методов, разработанных в данной области.

В соответствии с принятыми в редакционно-издательскОй области и в полиграфии определениями, коррекцией называется процесс приведения набранного текста в соответствие с оригинаном, а редактированием — процесс приведения собст венно оригинала в соответствие с лингвистической, эстетической, логической и т.п. нормами. Однако в настоящее время в литературе по автоматизированным системам переработки текстовой информации (АСП-ТИ), затрагивающей автоматизацию этих процессов, сложилась иная традиция

1 Названия программ в тексте диссертации изменены в целях соблюдения условий конфиденциальности, предусмотренных договором с правообладателем указанных программ.

2 Автор не может не упомянуть также принимавших участие в работе над словарной базой данных к.ф.н. Е.Ю.Ваулину (написание словарных статей и ввод в ЭВМ части прилагательных) и С.Г.Горшснину (написание словарных статей и ввод в ЭВМ части глаголов).

е употреблении этих терминов, когда к области коррекции относятся преимущественно действия, имеющие своей целью приведение набранного текста в соответствие с языковой нормой, традиционно относящиеся к содержанию понятия редактирование.

Такое перераспределение понятийной нагрузки между терминами редактирование и корректура нам представляется оправданным. Во-первых, в связи с широким использованием персональных компьютеров для набора и форматирования текста, а также в силу появления обширного класса программ, обеспечивающих такое использование ЭВМ (текстовых редакторов и редакционно-издательских систем), во многих случаях понятие оригинала как авторской рукописи, отделенной от набранного и записанного на машинном носителе текста, утрачивает свою актуальность. Во-вторых, за редкими исключениями, приведение текста в соотвегствие норме в социальном плане, несомненно, более важно, чем строгое следование оригиналу. В-третьих, если речь идет о корректуре и редактировании как составных частях редакционно-издательской деятельности, оригинал обычно бывает написан профессионалом, обязанным владеть нормами литературного языка, и задачи корректуры и редактирования почти полностью перекрывают друг друга, сводясь к устранению ошибок набора. Наконец, в-четвертых, если говорить об обычных пользователях персональных компьютеров, степень грамотности которых существенно различна, вряд ли они станут настаивать на сохранении в набранном тексте ошибок, допущенных ими в оригинале.

Таким образом, в рамках реферируемого исследования коррекция в качестве объекта автоматизации рассматривается как приведение текста в соответствие с языковой нормой.

Содержание понятия коррекции в качестве предмета автоматизации ухе, нежели его объектное содержание. Процесс коррекции распадается на две относительно самостоятельных части: выявление отклонения от нормы (контроль правильности) и реконструкция текста (восстановление нормативности). Если автоматический контроль, реализуя некий алгоритм анализа, используемый при восприятии текста человеком, принципиально осуществим при условии точного воспроизведения этого алгоритма, то реконструкция представляет собой сложный творческий процесс синтеза искаженного фрагмента текста. Целью синтеза, осуществляемого человеком в процессе речи, является выражение языковыми средствами некоторого смысла; такой синтез является результатом волевого акта. С точки зрения соответствия "восстановленного" сегмента текста языковой норме возможно, например, заменить содержащее опечатку словоупотребление на любое слово, относящееся к тому же грамматическому классу и стоящее в той же форме, что и искаженное. Видимо, приходится признать принципиальную невозможность полностью автоматической реконструкции текста даже при условии возможности автоматического восстановления нормативности. Однако с использованием определенных критериев схожести правильных с точки зрения системы автоматизи-

рованиой коррекции единиц, порождаемых этой системой, возможна частичная автоматизация процесса реконструкции, когда пользователь получает список единиц, удовлетворяющих названным критериям, в качестве возможных "кандидатов на замену" искаженного ссгмшта.

Таким образом, в качестве предмета автоматизации коррекция рассматривается нами как процесс контроля правильности текста и определения списка удовлетворяющих критериям схожести с нарушенным сегментом текста правильных русских единиц речи.

Нетрудно видеть, что постановка задачи контроля правильности текста в плане его соответствия языковой норме, строго говоря, совпадает с одной из основных проблем современной прикладной лингвистики — с задачей построения такой модели языка, которая имитировала бы умение отличать правильное от неправильною в языке — модели грамматической правильности. Контроль текста в системах автохоррекции — наиболее естественное практическое приложение таких моделей. В большинстве своем разработки моделей грамматической правильности носят теоретический характер, и попытки их реализации в виде программ, подобные предпринятым Н.Хомским, остаются скорее исключением.

Вместе с тем, в практике машинной коррекции сложился вполне определенный класс программ, называемых спеллинг-корректорами, спелл-чекс-рами или (в разговорной речи) спеллерами. Такая программа проверяет исключительно орфографию текста. На основе словаря, имеющегося в системе, она устанавливает для каждой словоформы текста, может ли такая словоформа быть порождена этим словарем, и при отрицательном результате проверки реагирует на нее как на потенциально ошибочную. Контекст словоупотребления не учитывается. Очевидно, что такая нрог-рамма лишь в небольшой степени решает проблему автоматизации коррекции текста, как она была определена выше.

Для таких флективных языков, как русский, информационно-лингвистическое обеспечение задачи автокоррекции текста даже только на орфо1ра-фическом уровне требует серьезного формализованного описания морфологической системы языка.

Ключевым для адекватной постановки задачи автокоррекции является понятие единичного отклонения от нормы. Актуальным нам представляется вопрос о такой классификации отклонений, которая позволила бы поставить в соответствие каждому выделенному классу отклонений свой метод или методы коррекции. В диссертации проводится анализ существующих классификаций отклонений от языковой нормы и предлагается оригинальная авторская классификация по четырем основаниям:

1) по уровню языка, или по элементу текста, в котором допущено отклонение. Можно говорить об отклонениях на следующих основных уровнях текстовой организации: графема, морф, словоупотребление, словосочетание или сочетание слов, предложение, свсрхфразовос сдинсгво, дискурс. Необхо-

димо отметить две особенности такой классификации: во-первых, отклонение в некотором элементе текста неизбежно влечет за собой отклонение во всех высших по отношению к нему сегментах текста, включающих данный элемент; во-вторых, если нам удастся найти критерий, позволяющий контролировать нормативную правильность сегментной единицы некоторого уровня, это позволяет локализовать (с точностью до границ указанного сегмента) любое отклонение в любом из элементов, с помощью которых построен заведомо не соответствующий норме сегмент.

2) по произвольности/непроизвольности. Отклонения от нормы могут быть вызваны различными эхстралингвистичсскими факторами: опечатки, недостатки программ распознавания текста, введенного в ЭВМ с помощью сканера, neipaMOTHocTb пользователя, невнимательность и т.п. Можно говорить о двух типах отклонений: отклонения непроизвольные, случайные с точки зрения функционирования языка, вероятность повторения которых пренебрежимо мала (опечатки, сбои в системах передачи информации, западеиие клавиш при наборе текста и т.н.), с одной стороны, и отклонения регулярные, произвольные, подчиняющиеся своего рода "правилам нарушения правил языка", с другой стороны (школьно-орфографические, пунктуационные, синтаксические ошибки). Первые мы предлагаем называть искажениями, вторые— ошибками.

3) по соотнесенности лингвистической либо прагматической. На наш взгляд, с точки зрения языковой правильности значимой единицы, в графем-ном составе которой произошло изменение, мы можем встретиться с двумя существенно различными ситуациями: в случае уграты смысла нарушение материального воплощения некоторой единицы может быть обнаружено без обращения к се контексту, к единицам более высоких уровней организации текста; в случае же, когда изменение графического облика некоторой единицы речи влечет за собой се превращение в другую правильную единицу того же уровня, допущенное нарушение не может быть выявлено, если мы не обратимся к контексту, то есть к функционированию соответствующего знака языка, проявляющемуся в синтагматических связях рассматриваемой единицы. Так, например, замена € на и в корне слова известие приводит к появлению бессмысленного корня *вистъ, а та же замена, осуществленная в префиксе слова превосходный, дает нам распространенную приставку при-, и бессмысленность в этом случае проявляется уже не на морфемном уровне, а на уровне слова. В случае, если мы встречаем в тексте словосочетание *о хорошим столбике, замена буквы проявляется бессмысленностью уже только на уровне словосочетания, а во фразе *Поезд пробыл на второй путь лишь при синтаксическом анализе всего предложения мы обнаруживаем, что имелся в виду глагол прибыть. Приведенный ряд примеров можно было бы продолжить, но в конце подобного ряда, несомненно, окажутся искаженные фразы, полностью правильные в языковом отношении. Пример *На голову царл была водружена корова с точки зрения чисто лингвистического анализа описывает вполне он-

реяслснную ситуацию. Искажение графемы, по механизму возникновения совершенно аналогичное описанным выше, не может быть выявлено без обращения к информации, по всей видимости, отсутствующей в системе языка: царь носит корону, при вступлении на престол он проходит через процедуру коронации и т.д., — то есть к прагматике речевой деятельности. Можно констатировать факт существования в тексте отклонений, которые по характеру образования, безусловно, должны быть отнесены к классу отклонений лингвистических, но не мо1ут быть выявлены на основе чисто языковых данных, в том числе посредством анализа языковых значений искаженных единиц. Их .выявление требует обращения к жизненному опыту, к внеязмковому понятийному содержанию единиц языка. Такие отклонения от нормы мы будем называть прагматически соотнесенными.

4) по частоте.

Далее в диссертации обсуждается проблема критерия нормативности, способа нормативной оценки единиц речи. В качестве таких критериев различными исследователями используются понятия правильности, уместности, эстетичности и др. Разнообразие способов оценки отражает реальное множество аспектов нормы: не существует "нормативности вообще", но есть нормативность социальная, функциональная, системно-языковая, эстетическая, стилистическая и т.п.

Несколько особняком в перечисленном ряду стоит предложенный Н. Хомским термин grammaticalness (грамматичность). Разработка формальной модели грамматической правильности поставила новые вопросы, близкие понятию нормы. Рассматривая знаменитый пример Хомского *3еленые бесцветные идеи яростно спят, мы приходим к выводу о полной неприменимости в данном случае большинства перечисленных критериев оценки высказываний. У говорящего есть определенная коммуникативная потребность. Такая потребность отсутствует у программы, реализующей модель Хомского. Человеку никогда не понадобится ни соединять в своем сознании понятия, обозначенные словами, входящими в пример, ни выражать такое соединение в речи. До пояснения моделей грамматической правильности лингвисты не встречали в речи ничего подобного.

Проведенный в диссертации анализ показывает, что пример с Зелеными идеями отнюдь не является правильным именно с лингвистической точки зрения в силу бессмысленности сочетания в нем языковых значений. Таким образом, грамматичность высказывания толкуется нами как его языковая осмысленность, предполагающая соблюдение не только законов формальной сочетаемости номинативных единиц, но и правил их смыслового согласования в тех случаях, когда оно происходит на основе заведомо языковых, внутренних дня системы языка элементов значения. Использование понятия грамматичности лишено смысла в отношении актов речи, осуществляемых человеком, но оно может оказаться полезным в качестве одного из критериев

нормативности высказываний, порождаемых моделями грамматической правильности.

Далее в тексте диссертации проводится оценка описанных в литературе методов, применяемых для решения задач контроля и реконструкции текста на различных уровнях, и формулируется ряд принципов оценки применимости тех или иных методов автокоррекции.

В главе II — "Специфика задачи автокоррекции на орфохрафнческом уровне" — рассматривается словоупотребление как обьект автокоррехции, обсуждаются различные виды словарей, применяемых в системах автокоррекции, дастся общая характеристика количественному и качественному составу словаря системы AutoSpel, формулируйся критерий выводимости функциональных характеристик единиц речи, обосновывается требование открытости морфологического описания и отказ от принятого в компьютерной лингвистике hocus-pocus approach. Приводится принципиальный алгоритм коррекции орфографии в системе AutoSpel.

Подзадача коррекции орфографии как часть проблемы автокоррекции обладает определенной независимостью от задач контроля и реконструкции единиц других уровней текстовой организации. Процесс контроля орфографии в системах автокоррекции распадается на две относительно самостоятельных части: выделение единицы орфографическою уровня — словоупотребления — и осуществление поиска соответствующей словоформы в словаре системы.

Предлагается различать термины форма слова, словоформа и словоупотребление следующим образом. Форма слова представляет собой морфологически оформленную единицу письменной речи, порождаемую "говорящим" для реализации определенной комбинации лексического и грамматического значений. В отличие от формы слова, словоформой мы будем называть цепочку алфавитных символов, способных представлять хотя бы одну форму некоторого слова. Словоупотреблением мы считаем конкретную реализацию формы слова (с точки зрения "говорящего") или словоформы (с точки зрения "слушающего") в коммуникативно значимых элементах текста.

Проиллюстрируем на примере различие между этими понятиями. Словоформа гною может соответствовать следующим формам слов: дательному падежу единственного числа существительного гной, родительному партитивному единственного числа того же существительного, предложному местному единственного числа того же слова и I лицу единственного числа настояще-будущего времени глагола гноить. Словоупотребление гною, в зависимости от контекста, может выражать любую из данных форм, причем может быть написано с заглавной буквы в начале предложения и снабжено некоторой дополнительной информацией (например, символами "мягкого переноса" внутри словоупотребления мохуг быть указаны места, в которых возможно сделать перенос при строходслении).

Словоупотребление, таким образом, можно операционально определить как цепочку алфавитных знаков, окруженную в тексте знаками внеалфа-витными. К числу алфавитных знаков мы относим заглавные и строчные буквы, дефис, апостроф (например, в Кот-д'Мвуар), слэш (например, в и/или), точку и символ мягкого переноса.

Для осуществления контроля правильности словоупотребления последнее следует преобразовал ь в одну или несколько словоформ, каждая из которых должна подвергнуться операции поиска в словаре. Данное преобразование осуществляется в системе автокоррекции АшоЗре1 как неоднозначное с учетом следующих факторов: в словоупотреблении могут оказаться символы мягкого переноса; может оказаться необходимой замена заглавных букв на соответствующие строчные; после словоупотребления может оказаться точка, не входящая в соответствующую слог,о форму; словоупотребление может являть собой цепочку словоформ, разделенных дефисами и/или слэшами.

Информационное обеспечение контроля орфографии состоит, прежде всей», в создании такой структуры данных, которая позволила бы дать для каждой слопофермы ответ, принадлежит ли данная словоформа к множеству правильных для русского языка, то есть может ли она быть употреблена в каком-либо, хотя бы одном, контексте. Таким образом, система контроля орфографии неизбежно включает в себя словарь, содержащий правильные словоформы русского языка либо информационно достаточный для их порождения. В последнем случае такой словарь носит морфологический характер.

За последние годы прикладной лингвистикой накоплен большой опыт компьютерной обработки русского текста именно на морфологическом уровне. Это не случайно, так как именно описание морфолоши как п различных структурных моделях языка, так и в традиционной лингвистике носит достаточно строгий и формализованный или формализуемый характер. Примерами такого описания могут служить работы А.А.Зализцяка, А.В.Бондарко, В.Б.Ев-тюхина, академические грамматики.

Специфика задачи автокоррекции предполагает реализацию как морфологическою анализа на этапе контроля орфографии текста, так и синтеза на этапе реконструкции словоупотреблений. В диссертации рассматриваются и оцениваются с точки зрения применимости для автокоррекции основные виды контрольных словарей: словари словоформ (их основным недостатком являются неоправданно завышенные требования к ресурсам ЭВМ); графовые (основные недостатки: высокий уровень информационного шума, неприменимость для реконструкции); словари основ, которые оказываются оптимальным решением.

Каждой основе в словарях последнего типа ставится в соответствие один или несколько классов словоизменения, представляющих собой возможно упорядоченные множества (квази)фяексий; конкатенация основы и флексии представляет собой правильную словоформу. В некоторых словарях используются также суффиксы и/или префиксы. В большинстве словарей из-за

ориентации их исключительно на нужды орфографии классы словоизменения представляют собой довольно условные с точки зрения реальных морфологических категорий объединения формообразующих элементов на основе частой совсгречаемости в парадигмах различной морфологической природы. В результате формы одного слова оказываются разнесенными по разным классам, а один и тот же класс может оказаться приписанным в словаре основам разных частей речи. Это исключает возможность использования таких словарей для решения иных по сравнению с коррекцией орфографии задач.

Минимальный объем словаря в системах обработки текста определяется функциями системы. В оптических читающих устройствах для контроля русского текста использовались словари объемом 5 тыс. словоформ. Однако в настоящее время в профессиональных спеллинг-корректорах используются словари объемом не менее 60 тыс. словоформ, а некоторые системы (ОРФО, ДИАКОР и др.) включают словарь, содержащий до 200 тыс. основ и порождающий до 4 млн. словоформ.

Словарь системы Аию8ре1 включает в себя в данное время около 70 тысяч словарных статей, соответствующих с учетом трансформ (включая соотносительные по наличию/отсутствию постфикса -ся глаголы) приблизительно 130 тысячам лексем, или 3,45 млн. словоформ. Такой словарь должен покрывать в среднем 99,98% текста (исключая фамилии, названия предприятий и другие искусственные номинации, окказиональные сокращения и т.п.). На наш взгляд, указанные цифры являются вполне приемлемыми для систем автоматизированной коррекции.

Способы формирования словника и его качественный состав также имеют большое значение для эффективности автокоррекции. При разработке профессиональных систем обработки текста, как правило, авторы используют словник одного или нескольких опубликованных словарей: частотных, терминологических и т.п. Можно сказать, что сложилось определенное понятие лексикографической базы машинного словаря как одного или нескольких традиционных словарей, используемых для формирования машинного словника.

До недавнего времени основным источником формирования словарей в системах автокоррекции служили частотные словари. В специализированных программах, встроенных в информационно-поисковые системы, в контрольный словарь вносилась также терминологическая лексика соответствующей предметной области [Бирман, Королев, Электронная...]. В последнее время проявилась тенденция к использованию в качестве лексикографической основы больших универсальных словарей русского языка, таких, как "Грамматический словарь" А.А.Зализняка.

^Созданный нами словарь состоит из трех относительно самостоятельных частей. Его ядро составил верхний срез (около 27 тысяч лексем) частотного словаря русского языка под ред. Л.Н.Засориной. В дальнейшем словарь был расширен за счет автоматизированной обработки большого корпуса рс-

альных текстов различных функциональных стилей: нублицистическош, художественного, официшгаго-дслового и научного. Добавленная в процессе такой обработки лексика составила вторую часть словаря. Общий объем обработанных текстов составляет св. 7 млн. словоупотреблений. Из них 4 млн. словоупотреблений — объем обработанных текстов газетных статей; 2 млн. словоупотреблений — тексты официальной и деловой документации; 1 млн. словоупотреблений — художественные тексты. В дальнейшем на базе ряда терминологических словарей, указанных во введении к настоящей диссертации, нами была создана третья часть словаря — словарь юридической терминологии. ■Три эти части словаря при необходимости могут быть использованы как совместно, так и независимо друг- от друга.

Определение лексикографической базы машинного словаря не снимает вопроса о теоретических критериях отбора описываемой лексики. Довольно часто лингвистическое обеспечение той или иной прикладной задачи разрабатывается без учета того факта, что такое обеспечение представляет собой один из возможных способов описания некоторого подмножества языка. Такой подход в прикладной лингвистике получил название hocus-pocus approach. Отличительной чертой этих описаний служит то, что при моделировании некоторого уровня языковой организации игнорируются данные других сс уровней. В диссертации обосновывается необходимость последовательного отказа от такого подхода. Описание морфологического уровня, будучи достаточным для обеспечения контроля орфографии, не должно противоречить установленным в науке фактам других уровней (принцип открытости системы).

На практике не всегда сразу удается определить, является ли та или иная единица (лексема, словоформа, трансформа, фразеологическое или устойчивое сочетание) знаком языка или единицей речи В реферируемом исследовании определяется критерий выводимости, который позволяет ответить на поставленный вопрос.

Знаки языка противопоставлены единицам речи по признаку воспроизводимости: знак языка существует в готовом виде, со всем набором своих функциональных характеристик, в то время как единица речи порождается по определенным правилам для конкретного употребления.

По всей вероятности, однозначный ответ на вопрос о воспроизводимости той или иной единицы можно дать лишь в том случае, если нельзя задать правило ее построения, дающее возможность вывести все ее функциональные характеристики: внешний облик (означающее), значение, валентность, сочетаемость и т.п. — из характеристик составных частей: морфем, словоформ, словосочетаний и т.п. Мы называем это критерием выводимости.

Далее в диссертации рассматривается отношение единиц различных уровней языка и речи к сформулированному критерию. Очевидно, что в том случае, если словоформа может быть получена по определенному правилу,

она производится для того, чтобы быть употрсблешгой, а воспроизводимой единицей выступает лексема. Но не во всех случаях дело обстоит именно так. Примером воспроизводимых словоформ могут послужить неправильные формы, то есть такие формы слов, которые "образуются" изолированно с точки зрения морфологической подсистемы языка, нарушая правила образования аналогичных форм других слов, и формы слов, которые сами по себе изолированы в языке (например, русские личные местоимения). Другим признаком того, что знаком является не лексема, а словоформа, может служить нерегулярная дефектность парадигмы слова.

Автор проводит аналогичные рассуждения для некоторых способов словообразования. Например, можно сформулировать следующее правило образования единиц речи: суффикс -ни]- присоединяется к основе прошедшего времени глаголов, относящихся к таким-то словоизменительным классам (примеры: ввязывание, проползание, связывание и т.п.); конструкт имеег одно или два. значения: первое совпадает со значением мотивирующего глагола, а второе представляет собой значение единичного акта того же действия; второе значение образуется при трапсформообразованик от глаголов таких-то лексико-семантических классов; во втором значении от результирующего существительного возможно образование форм множественного числа но соответствующему правилу; валентность прямого объекта переходных глаголов, выражавшаяся при глаголе винительным падежом имени существительного, реализуется у конструкта в виде родительного падежа имени существительного и т.д. (перечисление всех функциональных характеристик). Видно, что под это правило не подпадают, с одной стороны, такие существительные, как затмение (нет значения глагола затмить), а с другой стороны, такие, как творение (появляется невыводимое значение результата действия), создание3 (ср. Божье создание) и им подобные. Эти существительные представляют собой языковые знаки, в то время как однозначного ответа о языковой или речевой природе слов типа ввязывание ничего определенного сказать нельзя.

Критерий выводимости может быть применен также при необходимости отличить знаки языка и единицы речи других уровней языковой организации, например, фразеологического — для различения собственно фразеологических единиц и просго устойчивых сочетаний.

Словник, а во многом и описание морфологии в системе АМо8ре1 строились нами с учетом критерия выводимости. Интересно заметить, что, если не отвергать принципиальную возможность описания письменной формы языка безотносительно к устной, такие решения, как разделение слов с гра-

3 Впрочем, можно говорить о сосуществовании двух единиц: трансформы создание, обладающей соответствующей системой значений, и языкового знака создание, принимающего значения, избыточные с точки зрения трансформообразователыюго типа.

фичсски изолированной парадигмой (например, существительное посол, глагол вшить, комнаратив выше) на словоформы, представляют собой вполне допустимый и даже предпочтительный с точки зрения критерия выводимости и принципа экономии языковых средств способ описания языка.

В главе Ш — "Морфологическое обеспечение системы автокоррекции А1Ио8ре1" — содержится описание логической структуры морфологического словаря, разработанной автором диссертации. Рассматривается система классов словоизменения с обоснованием состава частичных парадшм всех частей речи, описывается структура словарной статьи для слов разных частей речи.

Ядром лингвистическою обеспечения орфографического компонента разработанной нами системы автокоррекции АШоБреЛ является система классов словоизменения. Класс словоизменения мы определяем как упорядоченное множество квазифлексий, соответствующее относительно самостоятельной частичной парадигме словоизменения той или «мой части речи.

Упорядоченность флексий внутри класса обуславливает необходимость многократного вхождения одной и той же флексии в класс при наличии омонимичных форм.

Система классов словоизменения информационно достаточна для осуществления полного морфологического анализа русских словоформ. Такая информационная достаточность обусловлена следующими особенностями системы.

Классы словоизменения строю разнесены по частям речи. Относительно самостоятельным частичным парадигмам внутри одной части речи (например, единственного и множественного числа существительных) ставятся в соответствие различные классы. В зависимости от части речи основе морфологического словаря ставится в соответствие различное количество классов, однако для основ одной части речи количество приписанных классов является постоянным. При. наличии регулярной вариативности флексий какой-либо формы (например, им.и. мн.ч. тракторы—трактора) вводятся дополнительные классы, отражающие эту вариативность.

Разумеется, между частичными парадигмами слова существует довольно сильная зависимость, однако она не носит однозначного характера. В результате попытки слияния классов частичных парадигм в единые словоизменительные классы для всех форм каждой части речи мы получили бы общее число классов значительно меньшее, чем произведение количеств частичных классов этой части речи, но оно было бы в несколько раз больше их суммы. Так, для существительных нами зафиксировано в созданном нами словарс около 900 комбинаций классов единственного и множественного числа.

Регулярная неполнота парадигм (например, отсутствие личных форм у безличных глаголов) никак не учитывается в системе классов словоизменения, за исключением случаев, когда не существует относящихся к данному классу слов, имеющих соответствующие формы (например, причастий настоящего

времени от глаголов того же класса, что и вынуть). Информация о наличии/отсутствии соответствующей формы у той или иной лексемы хранится в словаре при основе этой лексемы.

Изолированные в системе языка слова с дефектными парадигмами (например, обязуюсь, щец) хранятся в словаре в виде отдельных статей — реально существующих словоформ. Если дефектный характер носит лишь какая-то одна частичная парадигма какого-либо слова, то указанное правило применяется к формам, входящим в эту частичную парадигму, в то время как классы словоизменения, соответствующие прочим частичным парадигмам, приписываются и словаре основе соответствующего слова по общим правилам. Например, лексема мечта отличается отсутствием формы родительного падежа множественного числа, что не препятствует ее принадлежности к одному из классов словоизменения единственного числа.

Та же операция с разделением слов на словоформы применяется к словам с полными, но изолированными хотя бы графически парадигмами (например, стекло, овца, полтора).

При множественности традиционно выделяемых частичных парадигм, характеризующей глагольную систему словоизменения в русском языке, группировка форм различных частичных парадигм глагола (например, причастных форм и деепричастий на -в(шись)) в классы осуществлялась из соображений функционального удобства с возможным сохранением естественности разбиения.

дывается из следующих видов классов, сгруппированных по характеру отражаемых парадигм: числительные — 2 класса; единственное число существительных - 92 класса; множественное число существительных — 93 класса; полные формы прилагательных — 29 классов; краткие формы прилагательных — 22 класса; компаратив прилагательных — 11 классов; личные формы глагола, инфинитив, деепричастия на -а(-я) — 88 классов; причастные формы глаголов, деепричастия на -в(шись) — 60 классов; наречия — 11 классов.

од., В од., Т, П. Формы неодушевленного и одушевленного винительных падежей в классе количественных числительных (класс 1) рассматриваются как омонимичные.

В словаре системы АшоЗре! частичные парадигмы единственного и

сами словоизменения. Каждой основе существительного приписывается, таким образом, два класса.

Классы единственного числа существительных включают в себя восемь форм: И, Р, Р партитивный, Д, В, Т, П объектный, П местный. Два дополнительных, избыточных с точки зрения проверки орфографии падежа нации свое место в словоизменительных классах единственного числа, несмотря на то, что они ю всех случаях омонимичны другим формам и их присутствие

словоизменения — 408. Это число скла-

состоят из семи падежных форм: И, Р, Д, В не-

не имеет значения с точхи зрения проверки лишь орфографической правильности текста. Основанием для включения дополнительных падежей, помимо стремления создать модель языка, минимально отличающуюся от традиционных, "человскоориентированных" его описаний, послужило требование морфологического обеспечения контроля единиц надорфографических уровней, в первую очередь — синтаксической), то есть принцип открытости системы.

Классы множественного числа существительных состоят из шести традиционных падежных форм. В случае, если существительное не имеет форм единственного или множественного числа, в словаре ему приписывается особый, пустой класс словоизменения соответствующего числа, представленный в словарной статье номером 0.

Вопрос о количестве падежных форм существительного является одним из наиболее дискуссионных в русской морфологии. Автор формулирует свое отношение к падежам, выделение которых способно вызвать сомнение. К их числу можно отнести звательный, второй родительный, второй предложный, два счетных, превратительный, ждательный.

Такие формы так называемого звательного падежа, ■ как Боже, человече, крайне немногочисленны. Кроме того, наблюдаемые в этих словах чередования (г/ж, к/ч) для морфонологии имени существительного носят уникальный характер; это — чередования не живые, а исторические. Данный факт не получил в литературе должной интерпретации, заключающейся в том, что образование этих словоформ, безусловно, носит диахронический характер. Они воспроизводимы и присутствуют в системе языка в готовом виде. Представление таких образований в качестве элемента нарадигаы соответствующих лексем, на наш взгляд, противоречит пониманию формообразования как порождения производимых единиц речи из знаков языка. Наконец, с чисто практической точки зрения, присутствие в образовании этих единиц исторических чередований при попытке учесть звательную форму в системе классов словоизменения - привело бы к необходимости завести отдельный класс для каждого из указанных слов. По указанным причинам мы сочли возможным не включать звательный падеж в число форм существительного.

Существование родительного партитивного выводится из наличия в языке обширной группы существительных мужского склонения, способных образовывать наряду с формой родительного надежа при помощи флексии -а родительный падеж на -у (сахару, гною, страху и т.п.) Существует ряд синтаксических функций родительного падежа, которые не могут быть реализованы формой с флексией -у. Лексическое ядро указанного явления составляют конкретные существительные, обозначающие вещества. Существительные, называющие собственно предметы, не способны к образованию родительного партитивного на -у. Вместе с тем, целый ряд существительных со значением вещества (существительные, не принадлежащие к мужскому склонению, а также такие слова, как алебастр, растворитель, песок) не образуют морфологически обособленной формы родительного партитивного, однако это не

препятствует их употреблению в форме единственного числа в качестве компонента количественных и партитивных конструкций: принести алебастра, ■много растворителя, литр воды, ящик песка. Следовательно, отрицать существование родительного партитивного падежа у таких существительных — то же самое, что на основании омонимии форм родитсяыюго, дательного и предложного падежей у вссх существительных II женского склонеши (молодости и т.н.) говорить о том, что в данном случае мы имеем дело с одним падежом, а не с тремя.

Мы предполагаем, что морфологически родительный партитивный, омонимичный родительному, образуется дли всех без исключения русских существительных, а неправильность *много гвоздя и т.п. словосочетаний являет собой не что иное, как синтаксическую неграмматичность, обусловленную нарушением законов семантическою согласования элементов, вступающих в синтаксическую связь, а именно, невыполнением требования синсемичности ках одного из условий реализации соответствующей синтаксической конструкции.

Указанные основания мы сочли достаточными для признания родительного партитивного одной из регулярных форм русского существительного, а отсутствие такой формы у существительных очерченных мы полагаем ис фактом морфологии, а фактом синтаксическим, связанным с условиями синсемичности, поскольку отсутствие родительного партитивного является следствием отсутствия контекста для его реализации. Можно сказать, что морфологически любое существительное способно к производству родительного партитивного, который в частности может оказаться омонимичен родительному, но не все существительные способны употребляться в этой форме синтаксически.

Вопрос о признании двух предложных падежей: объектного и местного — в известном смысле проще рассмотренного. Действительно, любое конкретное существительное способно к употреблению как в обьекгном, так и в местном значении, и омонимия форм двух этих падежей у мношх существительных, не образующих локатива на -у и не различающих указанные формы акцентпо, не смущает в настоящее время большинство исследователей. Своего рода различение объектного и местного значений просматривается и во вторичной по отношению к существительным конкретным фамматической системе абстрактных существительных (ср. на бегу и о беге).

Прсвратительный падеж выделяется некоторыми исследователями в конструкциях типа пойти в солдаты. Соответствующая предложно-падежная форма трактуется нами как форма именительного падежа множественного числа с предлогом в.

Иногда выделяется также ждагельный падеж. Основанием для его выделения служит то, что ограниченный ряд переходных глаголов (ждать, ожидать, требовать и пек. др.) при употреблении в инфинитиве, императиве, личных формах и формах прошедшего времени, не осложненных отрицанием,

допускает употребление некоторых существительных в родительном падеже для реализации объектной валентности глагола наряду с формой винительного падежа. Указанное явление охватывает далеко не все существительные. "Родительный ждательный" образуется, прежде всего, от существительных событийной семантики, что позволяет нам отнести данную форму на счет вариативности заполнения объектной валентности указанных глаголов, причем такая вариативность в рассматриваемом случае связана с различием грамматических свойств существительных разных лексико-семантических классов. Нам не кажется, что морфологическое выделение особого ждателыюго падежа более удачно объяснило бы указанное явление.

Об особой счетной форме говорят применительно к формам существительных, проявляющимся в сочетаниях с числительными два, полтора, оба, три, четыре. 01раниче1июе число существительных {шаг, час, шар и нек.др.) образует при употреблении в данной позиции особую форму, отличающуюся от формы родительного падежа единственного числа смещением ударения на флексию. В письменной форме отмеченное явление нивелируется. Кроме того, количественная незначительность класса существительных, способных к образованию формально выраженной счетной формы, в соответствии с уже упоминавшимся нами критерием выводимости, подсказывает интерпретацию таких словоформ как самостоятельных, воспроизводимых знаков языка. Другим основанием для выделения счетной формы служит употребление в той же позиции форм множественного числа существительных адъективного склонения (ср. два шага, оба стола, три столовые, три столовых). Однако содержащаяся в предыдущем предложении формулировка соответствующего правила является достаточной для описания указанного явления без введения специального морфологического надежа, указывая на одну из закономерностей в синтаксическом использовании форм • существительных, принадлежащих к разным морфологическим классам. Правильность вывода о чисго синтаксическом, не морфологическом характере счетной формы косвенно подтверждается также отсутствием у данной формы категории числа, характерной для всей морфологической системы имени существительного.

Наряду со счетной формой иногда выделяется счетный падеж. Речь идет о специализации вариантных форм родительного падежа множественного числа (помидоров/помидор, ваттов/ватт и т.п.). На наш взгляд, достаточных оснований для утверждения о ненормативности таких словосочетаний, как пять помидор, семнадцать ваттов, нет. По этой причине счетный падеж не отражен в нашей системе классов словоизменения.

К числу морфонологичсских и словообразовательных явлений, оказывающих влияние на построение системы словоизменительных классов существительного и требующих отражения через отдельные классы, относятся: характер последней согласной буквы основы мужского склонения (противоположение по твердости/мягкости, ряд, противопоставление шипящих и нешипящих согласных и т.п.); акцентологические причины, влияющие на употребле-

ние о или е после ц, а также на вариативность формы именительного падежа множественного числа; наличие беглой гласной в суффиксах (-ок-/ -ек-, -ец-, -к(а) и т.п.) и в корнях существительных.

В словоизменительной системе имени прилагательного выделяется две частичных парадигмы: полных и кратких форм — и форма компаратива. Указанное разделение отражается и в нашей системе классов словоизменения. Основе прилагательного в словаре системы автокоррекции AutoSpel ставится в соответствие три класса словоизменения. В реферируемом исследовании, насколько нам известно, впервые реализована идея A.A. Зализняка о наиболее экономном описании системы полных форм прилагательного классами, состоящими из 13 флексий.

Однако разработанные нами словоизменительные классы включают еще одну форму. Мы называем ее дефиспой. Основанием для ее выделения послужили сочетания типа красно-белый, индустриально-территориальный. Данные образования мы рассматриваем как сочетание двух прилагательных, соединенных особой сочинительной связью. Невозможность (неграмматич-иость) таких сочетаний, как *идейно-синий мы относим на счет нарушения жестких требований синссмичиости, совместимости лексико-грамматических значений прилагательных, участвующих в данной синтаксической связи.

У нас нет оснований считать первый компонент таких сочетаний слов ни наречием, ни краткой формой среднего рода (ср. буро-, не встречающееся вне таких сочетаний; зелено-коричневый и дерево зелено, когда дсфиспая форма отличается от краткой. Вместе с тем, нет причин рассматривать все сочетание в целом в качестве одной словоформы. В известной степени отношения лексем, вступающих в данную синтаксическую связь, подобны от ношениям двух существительных, участвующих в синтаксической конструкции с приложением (врач-дантист, барышня-крестьянка, отец-основатель и т.п.).

По указанным причинам мы включаем дефисную форму в классы полных форм имен прилагательных, которые, таким образом, состоят из флексий 14 форм.

Впрочем, возможность образования дефисной формы характерна пс для всех прилагательных. Основе прилагательного в словаре приписывается наравне с классами словоизменения бит, указывающий на возможность образования данным прилагательным дефисной формы.

Классы кратких форм прилагательных состоят из четырех флексий: м.р., ж.р., ср.р., мн.ч.

Классы компаратива прилагательных включают в себя одну форму. Образование вариативной формы с префиксом по- (например, красивее—покрасивее) разрешается для всех компаративов.

При описании морфологической системы прилагательных были приняты во внимание следующие морфонологические явления, влияющие на выделение формально неизменяемой части: тип конечной согласной основы; ак-

цептшле характеристики прилагательного; появление беглых гласных при образовании кратких форм.

Из соображений практическою удобства мы сочли возможным ввести для представления морфолошческой системы глагола классы словоизменения двух типов: 1) классы личных форм, форм прошедшего времени, императива, инфинитива и деепричастий на -й; 2) классы причастий и деепричастий на -в(ишсъ). В дальнейшем изложении для краткости мы будем называть первые классами личных форм, а вторые — классами причастий.

Классы личных форм глагола состоят из 28 флексий: инфинитива, шести собственно личных форм, четырех форм прошедшего времени, форм единственного и множественного числа императива и деепричастия па -а(-я), — а также соотносительных с ними флексий с постфиксом -сл.

Классы причастных форм включают 88 форм, что складывается из 78 полных форм (шесть изоморфных классам полных прилагательных подгрупп по 13 флексий, различающихся залогом, временем и паличием/отсутствисм -с я), восьми кратких форм страдательных причастий и двух форм деепричастий на -в(шись). Следует заметить, что, в отличие от прилагательных, причастия не способны образовывать дефисную форму.

Для глагольной системы словоизменения характерно наличие больших групп глаголов, не способных к образованию тех или иных морфо-логаческих форм. Таковы, например, неличные глаголы, не образующие форм I и II липа; безличные глаголы, не мо1ушис выступать также в формах мужского и женского рода; непереходные глаголы, не имеющие страдательных причастий, и т.п. Сказанное требует принципиальной оговорки. Фактически такие ограничения в словоизменении являют собой не что иное, как невозможность для указанных глаголов быть употребленными в соответствующих синтаксических позициях.

Еще одним фактором, препятствующим глагольному словоизменению и обуслашшвающим уже не неполноту, а дефектность парадигмы, являются эстетические нормы (ср., например, ненормативность *пылесосю и пылесошу, *поев, *поедя и *поевши).

Мы не сочли необходимым каким-либо образом различать между собой названные типы запретов в словаре системы /\utoSpel. Каждая глагольная основа сопровождается в разработанной нами словарной базе данных комбинацией из двух классов словоизменения: личных форм и причастий, —■ а также двоичной информацией (цепочкой битов), определяющей возможность образования той или иной формы.

Приписывание битовой строки, также как и всей остальной словарной информации, осуществлялось нами вручную, с опорой на интуицию при учете информации, предоставляемой орфоэпическими словарями.

Еще одно морфологическое поле словарной статьи описывает возможность употребления соотносительных глаголов, различающихся между со-

бой наличием/отсутствием постфикса -сл. Оно может принимать три значения: 0 — для глаголов, не употребляющихся с постфиксом -ся; ] — для гла-• голов, не употребляющихся без него; 2 — для глаголов, образующих соотносительные по наличию/отсутствию -ся нары.

При построении системы словоизменительных классов глагола нами были приняты во внимание следующие морфонологические особенности глагольного словоизменения: тип конечной согласной основы; тематическая гласная; возможность образования вариантов форм; чередования конечной согласной основы (ск/щ, к/ч, х/ш и т.п.); интерфиксация; наличие беглых гласных в основах; акцентные характеристики глаголов.

Классы словоизменения наречий состоят из двух форм: положительной и сравнительной степени.

Слова прочих частей речи: предлога, союзы, вводные слова, междометия, местоимения и др. — присутствуют в словаре системы АшоЗреI в виде словоформ.

Также в виде отдельных словоформ хранятся несамостоятельные знаки языка лексического уровня — части фразеологизмов, не употребляющиеся вне соответствующей фразеологической единицы (например, сломя, баклуши, спеху).

Многие исследователи (например, И.Г.Милославский, Л.Г.Яцкевич, АЛ.Шарандин), рассматривая проблему соотношения понятий словоизменения, формообразования и словообразования, включают в описание морфологии ряд словообразовательных типов, отличающихся большой степенью регулярности и предсказуемости как грамматических, так и лексико-семантичес-ких свойств образуемых по данным типам единиц. Такие типы, вслед за АЛ.Шарандипым, мы будем называть трансформообразовательными, а образующиеся по ним слова - трапсформами.

По нашему мнению, существует четыре вида трансформообразования. Во-первых, можно говорить о целом классе трансформообразовательных типов, которые осуществляют субстантивацию, адъективацию, адвербиализацию и т.н. слов иных частей речи, то есть ведут к изменению частеречното при практически неизменном лексическом значении. К таким типам относится, например, образование отглагольных существительных при помощи суффиксов -км/Ч -енщ-, -аци]-\ субстантивация прилагательных при помощи суффиксов -ость, -теть; образование наречий образа действия от относительных прилагательных при помощи приставки по- и суффикса -ски.

Во-вторых, можно указать ряд типов трансформообразования, семантическое содержание которых состоит в изменении некоторого частного грамматического значения мотивирующей основы. Примерами таких типов могут служить образование глаголов несовершенного вида от глаголов совершенного вида при помощи суффикса -ыва-/-ива-\ изменение залога глагола при помощи постфикса -ся\ образование превосходной степени прилагательных посредством суффиксов -айш-, -ейш-.

В-третьих, существуют трансформообразовательные типы, производные трансформы в которых, можно скачать, метонимически представляют неопределенные предметы или явления, реализующие семантические валентности понятия, выраженного производящей основой. Таковы, например, отношения, выражаемые трансформообразоваиием типа сеять— сеятель (лицо, которое сеет).

Наконец, можно отмет ить трансформообразование, приводящее к точно предсказуемым изменениям в лексическом значении трансформы но отношению к значению производящей основы. К таким отношениям следует отнести осложнение значения уменьшительно-ласкательным оттенком при использовании суффиксов -ик-, -чик-, -ок-, -ек- для существительных, -еньк-, -онък-— для прилагательных; изменение или уточнение значения слова при использовании префиксоидов анти-, архи-, квачи-, лесо- и т.н.

Впрочем, из регулярности указанных трансформообразовательных типов далеко не всегда слсдуст их обязательность. В лингвистическое обеспечение орфографического компонента системы Ашо5ре1 не входит информация о категориально-семантических свойствах лекссмы, в то время как- именно эти свойства определяют возможность ее участия в большинстве типов трансформообразования. Так, уменьшительно-ласкательные суффиксы существительного соединяются в рамках определенного траисформообразовательного типа, прежде всего, с конкретными существительными; возможность образования существительного с суффиксом -тель со значением лица, выполняющего определенное действие, характеризует только акциональные глаголы; префиксоид лесо- соединяется лишь с существительными, обозначающими действие, могущее быть направленным па соответствующий предмет.

Существуют и другие факторы, осложняющие представление определенных типов трансформообразования. Например, носящее регулярный характер образование глаголов несовершенного вида с помощью суффикса -ыва-/-ива- во многих случаях ведет к изменению акцентных характеристик глагола и появлению чередований, не проявляющихся при морфологическом словоизменении: выстроить — выстраивать.

Словарь системы Аиго5ре1 в настоящее время информационно достаточен для порождения транеформ следующих типов:

1) Превосходная степень прилагательных. Данная трансформа образуется от всех прилагательных, имеющих сравнительную степень (то есть таких, к основе которых приписан отличный от нуля класс хомпаратива). Классам компаратива поставлено в соответствие множество формальных суффиксов, представляющих собой сращение суффикса -айш- или -ейш- с предшествующей суффиксу частью всех основ, которым приписан данный класс компаратива, не входящей в квазиоснову прилагательного.

2) Отрицательная трансформа прилагательных. Речь идет об употреблении частицы не, которая во многих случаях пишется слитно с находящимся в постпозиции прилагательным. При слитном написании прилагательного с не

данная цепочка символов представляет собой словоформу, и система автокоррекции должна осуществлять поиск этой словоформы по словарю. В таких программах, как ОРФО и ДИАКОР, судя по результатам проведенного нами эксперимента, считается нормативным слитное написание не с любым прилагательным.

Такое допущение мы считаем неприемлемым. В связи с этим мы кнели понятие отрицательной трансформы, которая представляет собой слитное написание не с прилагательным. В словарной статье прилагательного имеется двоичное поле (бит), обозначающий возможность/невозможность для прилагательного в каком-либо контексте быть употребленным в отрицательной трансформе. Оценка данной возможности проводилась нами интуитивно.

Употребление таких форм, как неметаллический, некоммунистический, нецелънооформленный расценивается системой АиюБре! как потенциально ошибочное, хотя вполне может соответствовать коммуникативным потребностям говорящего и быть оправданным с точки зрения более высоких уровней текстовой организации.

3) субстантивная трансформа глаголов. Данная трапсформа представляет собой существительное, образуемое от глаголов определенных классов личных форм посредством суффиксов -ни/- или -енщ-. Такая субстантивация приводит к образованию существительного со значением, повторяющим лексическое значение глагола; во многих случаях трансформа приобретает также дополнительное значение единичного акта названного действия. В словарную статью глагола входит бит, указывающий на возможность/невозможность образования соответствующей трансформы. Еще одним битом кодируется возможность образования форм множественного числа результирующего существительного. Вместе с тем, существует целый ряд образованных таким образом слов, которые имеют также дополнительные значения, а иногда не имеют указанного основного. В соответствии со сформулированным нами в главе II критерием выводимости, такие лексемы являются не трансформами, а самостоятельными знаками языка и должны описываться в словаре отдельными статьями.

Точно так же, как в случае с превосходной степенью прилагательных, данный трансформообразовательный тип представляется сопоставлением классам личных форм глагола определенного формального суффикса.

4) субстантивная трансформа прилагательного. Она образуется от большинства качественных и относительных прилагательных при помощи суффикса -ость (-ность). Порождение данной трансформы кодируется в словарной статье прилагательного двумя битами, первый из которых обозначает возможность образования се как таковой, а второй — наличие у результирующего существительного форм множественного числа. При отрицательном значении второго бита номер класса множественного числа заменяется на нулевой.

В Заключении говорится, что основное содержание диссертации сводится к обсуждению следующих положений:

1. Процесс коррекции как обьект автоматизации рассматривается нами как процесс приведения текста на русском языке в соответствие с языковой нормой. Как предмет автоматизации коррекция являет собой процесс контроля правильности текста и определения списка удовлетворяющим критериям схожести с нарушенным сегментом текста правильных русских единиц речи.

2. Задача автоматического контроля текста предполагает разработку модели грамматической правильности.

3. Предлагается классификация отклонений от языковой нормы по нескольким основаниям.

4. Грамматичность, или грамматическая правильность высказывания рассматривается нами не как один из аспектов сто нормативности, но как его языковая осмысленность, предполагающая соблюдение не только законов формальной сочетаемости номинативных единиц, но и законов их смыслового согласования.

5. Описываются и сопоставляются известные методы автокоррекции для единиц текста различных уровней.

6. Описываются и сопоставляются известные способы организации словарей в системах автокоррекции, предназначенных для коррекции орфографии.

7. Предлагается оригинальная структура морфологического словаря, реализованная в виде словарной базы данных в рамках программы AutoSpel. Основой эт ой структуры является система классов словоизменения общим количеством 408. Классы отражают частичные парадигмы различных частей речи. Основе слова в словаре приписывается один или более классов словоизменения.

8. Обсуждаются вопросы о количестве форм у слов той или иной части речи. Делается вывод о семантико-синтаксически обусловленном характере большинства случаев регулярной неполноты парадигм. Излагается способ представления неполных парадигм, реализованный в системе AutoSpel.

9. Обсуждаются вопросы трапсформообразования и предлагается способ формализованного представления трансформообразовательных типов.

10. Описывается количественный и качественный состав словаря системы автокоррекции AutoSpel.

11. Предлагается критерий выводимости, позволяющий по ряду признаков отличать знаки языка от единиц речи как "не-знаков".

12. Декларируется непривычный в компьютерной лингвистике отказ от hocus-pocus approach. Вводится требование системности описания языка в компьютерной лингвистике как учета данных других но отношению к описываемому уровней языковой организации.

13. Описывается принципиальный алгоритм коррекции орфографии, использованный в системе AutoSpel.

14. Определяется различие между контекстным и синтаксическим анализом в АСПТИ по цели и результату анализа: контекстный анализ направлен на установление некоторой информации о словоупотреблении, в то время как синтаксический преследует целью выявление синтаксических элементов текстовой организации.

Приложение 1 содержит примеры классов словоизменения для всех частей речи.

Приложение 2 содержит начальные списки словарных статей для слов всех частей речи.

Библиография реферируемой диссертации состоит из 235 пунктов.

По теме диссертации автором опубликованы следующие работы:

1. И.В. Жарков, О.Н. Гринбаум, Г.Я. Мартыненко. Алгоритм восстановления цельности словоформы в системах автоматической обработки текста // НТИ. — сер. 2. — 1989. — № 5. — с. 23 — 29.

2. И.В. Жарков. Восстановление линейной цельности слова при автоматической обработке текста // Тезисы докладов областной конференции преподавателей кафедр иностранных языков "Лексикографические методы в обучении и научных исследованиях". — Иваново: ИХТИ, 1988. — с. 59 — 60.

3. О.Н. Гринбаум, Г.Я. Мартыненко, И.В. Жарков, Л.Л. Николаева. Лингво-полиграфическое членение текста в компьютерной системе "ЛИНДА" // Автоматический анализ, перевод, обучение пониманию текста: Тезисы выступлений на научном совещании. — Москва, 1989. — с. 38 — 40.

4. Жарков И.В., Слободяшок С.Л., Свстозарова Н.Д. Автоматический акцентно-интонационный транскриптор произвольного русского текста // Бюллетень фонетического фонда русского языка. — № 5. — 1994. — Bochum — Санкт-Петербург. — С. 58 — 71.

Полный текст автореферата диссертации по теме "Лингвистическое обеспечение системы автоматизированной коррекции русского текста"

Похожие темы диссертаций