Автоматизированная лексикографическая система "ГОВОР"

Лесников, Сергей Владимирович

автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Автоматизированная лексикографическая система "ГОВОР"

Год: 1994
Автор научной работы: Лесников, Сергей Владимирович
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Санкт-Петербург
Код cпециальности ВАК: 10.02.19

Автореферат по филологии на тему 'Автоматизированная лексикографическая система "ГОВОР"'

Полный текст автореферата диссертации по теме "Автоматизированная лексикографическая система "ГОВОР""

Санкт-Петербургский государственный университет

—оа--

т 199На правах рукописи

ЛЕСНИКОВ Сергей Владимирович

иди 808.2:1800.87+801.3] ::681.3.066

АВТОМАТИЗИРОВАННАЯ ЛЕКСИКОГРАФИЧЕСКАЯ СИСТЕМА " ГОВОР"

Специальность - 10.02.19 - Теория языкознания

АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата филологических наук

Санкт-Петербург 1994

Работа выполнена в отделе Маминого фонда русского языка Института русского языка Российской Академии наук

Научный руководитель: доктор филологических наук В.М. ЙНДРВЩЕНКО

Официальные оппоненты: доктор филологических наук И.А. ПОПОВ кандидат филологических наук И.П. ПАНКОВ

Ведучуи учреждение: отраслевая научно-исследовательская лаборатория Российского государственного педагогического университета имени А.И. Герцена.

Защита диссертации состоится ____ 1994 г.

в часов на заседании специализированного совета

К 0S3.57.52 по прнсуаденип учёной степени кандидата филологических наук в Санкт-Петербургской государственном университете по адресу: 199164, Санкт-Петербург, Яниверситетская наб., д.11, филологический Факультет.

С диссертацией ыонно ознакомиться в Научной библиотеке шгенн И.Горького Санкт-Петербургского государственного университета.

Автореферат разослан ____ 1994 г.

Учёный секретарь специализированного совета доктор филологических наук

О.Н. Бродович

В настоящей работе осуществляется интеграционный подход к изучении диалектной лексики в рамках реализации задания 06.01 "Создать Машинный фонд русского языка /МФ РЯ/" научно-технической программа "Создать государственнув автоматизиро-ваннув систему научно-технической информации". МФ РЯ, являясь интегрированной системой комплексной автоматизации лингвистических исследований и разработок, состоит из накопленных лингвистических данных, объективированных текстами, картотеками, словарями, грамматиками и другими лингвистическими источниками [D.H. Андрвщенко, D.H. Караулов]. В МФ РЯ наряду с другими в качестве одного из подфондов входит Диалектологический /ДФ/. который в своп очередь содержит Словарный /СпФ/ и Текстовой /ТпФ/ подфонды.

АКТУАЛЬНОСТЬ настоящей работы заклвчается в опыте практической реализации некоторых основных фрагментов Словарного и Текстового подфондов Диалектологического фонда МФ РЯ и обусловлена необходимостьв автоматизации лексикографических исследований по русской диалектологии, целе-сообразностьп оперативного вклвчения диалектных материалов в научный оборот через ИФ РЯ.

Основная ЦЕЛЬ работы - реализация Лингвистического Програнлно-Источникового Пакета /ЛПЙП/ в виде Автоматизированной Лексикографической Система /АЛС / "ГОВОР" для конструирования, формирования н сопровождения СпФ и ТпФ ДО ЙФ РЯ. Для достижения поставленной цели ревавтся следувщие ЗАДАЧИ:

- произвести источниковедческий анализ диалектных словарей разных типов с точки зрения возможности их интеграции в виде ЛПИП (АЛС);

- создание формальной модели суцествущих лексических диалектных материалов (как опубликованных, так и рукописных);

- формулирование и апробирование алгоритмов и комплексных йетоднк коипьвтерной переработки диалектологических источников для построения варианта автоматизированного словаря русских народных говоров и накопления в мавинной форме диалектных текстовых материалов;

- разработка программных средств в виде монитора ЙАС "ГОВОР" с лингвистическими специальными процессорами для представления диалектных материалов в коипьвтерной форме.

Основными ШЕРШШШИ и ИСТОЧНИКАМИ является, во-пер-внх, опубликованные диалектные словари (как завершённые, так и продолжавшиеся - не доведённые до последней буквы алфавита); во-вторых, материалы рукописных словарей и словарных картотек говоров русского языка, записи диалектной речи ка магнитных и бумажных носителях, хранящиеся на кафедре русского языка Сыктывкарского государственного университета /СыкГИ/; в-третьих, программное и математическое обеспечения как самостоятельно разработанные, так и адаптированные диссертантом. Кроме того, использовались исследования,выполненные на материалах разных говоров, в которых рассматривается проблемы и вопросы построения диалектных словарей. Составление автоматизированных диалектных словарей и статистический анализ диалектных текстовых материалов проводились ка персональном кокпьвтепе по специальны!!? програыкам, г.азработаккк« р Отделе К© Р9 Рнстктцта русского нзнка РЙН и е Региональной центре новых информационных технологий СнкГЯ.

- 5 -

Научная НОВИЗНА:

1) проанализированы около 200 опубликованных диалектных словарей и словоуказателей с точки зрения возможности их интеграции в виде автоматизированного диалектного словаря;

2) предложена обчад модель формализации источников диалектной лексикографии;

3) разработана методика представления диалектных материалов в коипьвтерной форие;

4) созданы и апробированы алгоритин и программы для автоматизации лексикографических исследований по русской диалектологии.

Настоящая работа представляет собой заверейнное исследование, специально посвяабнное проблеме автоыатнзацни лексикографических исследований по русской диалектологии.

Теоретическое и практическое ЗНАЧЕНИЕ работы состоит в том, что АЛС "ГОВОР" позволяет в перспективе:

а.) объединить имевшиеся в различных регионах России данные диалектной лексикографии, обеспечить их надйзное хранение и оперативная ввод в научный оборот, что особенно впгно в плана сохранения богатств народной речи, исчезавших под влияние:! литературного изыка и мемя-^кхся условий социальной !5чзн-,1 носителей территориальных д:;-?.лектсо;

б) активизировать использование материалов народных говоров в практике научных исследований;

п) расширить представление о русской дчалектнок языке н русской национально« языке в целом.

Посредством ЯПС "ГОВОР" представляется возаозныч —пглгсо лексическом сзстазг территориальных сприаптсз русского языка в Диалектологический фонд и.

соответственно, в общуи структуру данных МФ РЯ.

АПРОБАЦИЯ работы: основные положения и результаты работы докладывались и обсуждались на 13 всесоизных и региональных конференциях, совещаниях и «колах-семинарах в период с 198? по 1ЭЭ4 гг., в частности, на:

- Второй и Третьей Всесоизных конференциях по создании МФ РЯ (Москва, 19-23 мая 1987, 22-27 мая 1989);

- научных конференциях: "Текст. Термин. Словарь" (Киев, 12-14 сентября 1989), "Восточнославянская диалектология: вопросы теории" (Звенигород, 20-23 октября 1989), "Зстные и письменные традиции в духовной культуре народа" (Сыктывкар, 16-19 мая 1990), "Актуальные проблемы компьвтерной лингвистики" (Тарту, 29-31 мая 1990), "Духовная культура: история и тенденции развития" (Сыктывкар, 1-5 нвня 1992);

- XI совещании составителей Атласа русских народных говоров Среднего и Нигнего Поволжья (Саратов, 2-3 февраля 1989), Координационном диалектологическом совещании "Лексический атлас русских народных говоров - 92" (Санкт-Петербург. 21-23 января 1992) и совместной совещании Экспертного Совета, Координационных советов научных направлений и руководителей творческих коллективов программы "Эниверситеты России" (Москва, 2-3 апреля 1993).

Результаты исследования в течение ряда лет нспользувтся автором на филологической и гуманитарном факультетах при чтении курсов: "Информатика, вычислительная техника и ТСО для филологов" и "Основы ЭВМ и информатика для гуманитариев" и спецкурсов: "Автоматизация лингвистических исследований", "Персональный компьютер для гуманитариев", "Основы цатемати-ческой лингвистики". Предложенные методики подготовки лекси-

кографнческих данных на ЭВМ и собственно АЛС "ГОВОР" исполь-зувтся на кафедре русского языка СыкГЭ в работе по разработке и создании автоматизированных вариантов словарей: русского говора с.Пойма Прилузского района Республики Коми, русских говоров Республики Коми и русских народных говоров, на базе которых организуется исследовательская деятельность студентов-филологов с использованием современных средств вычислительной техники в лингвистике и ориентацией на применение 3BÜ при выполнении курсовых и дипломных работ.

СТРУКТУРА и ОБЪЕВ работы: диссертация содержит введение, три главы, закличение, список использованной литературы и приложения, в которые помечены фрагменты автоматизированных диалектных словарей (словников) и диалектологических текстовых материалов, созданных и/или обработанных автором.

В работе страниц, из которых-?^/ занимает основной текст. Библиография вклвчает научных работ. Отдельно

приведён список проанализированных словарей, справочников и энциклопедий в количестве 5J3.

ПЕРВАЯ ГЛАВА "Предпосылки и основание для создания Автоматизированной лексикографической системы /АЛС/ "ГОВОР" посвячена предыстории и собственно процессу автоматизации лексикографических исследований по русской диалектологии, которне и послужили теоретическим и практическим основанием для разработки и создания АЛС "ГОВОР" в рамках формирования Диалектологического подфонда Машинного фонда русского языка.

До недавнего времени в диалектологии использовались преимущественно количественный и статистический методы(И.Б.Кузьмина и Е.В.Немченко, О.Пженичиова, В.Й.Сенкевич, Л.И.Баранникова), а также таксономический анализ (H.H. Пженичнова).

В конце 60-х гг. B.ft. Сенкевич на счетно-аналитических и электронно-цифровых вычислительных машинах получал частотные и инверсионные ("обратные") словари отдельного говора и производил сортировку диалектных лексикографических материалов с ремением частных статистических задач, поломив начало использованию компьютеров в диалектной лексикографии.

В 70-80-х гг. H.H. Пменичнова обстоятельно рассмотрела и развила некоторые способы группирования объектов частных диалектных систем языка и использовала методы статистического и таксономического анализа в классификации говоров.

В конце 80-х гг. активизировались исследования по русской диалектологии с применением ЭВМ в рамках проекта по созданию МФ РЯ. В п.1.2 "Диалектологический подфонд Машинного фонда русского языка" процесс развития диалектологических исследований в рамках МФ РЯ рассмотрен и проиллюстрирован на материалах трёх всесоюзных конференций по созданию МФ РЯ.

Диалектологический фонд представлен в виде . четырёх самостоятельных подфондов:

1) Словарный подфонд /СпФ/. который формируется на базе опубликованных диалектных словарей, а также ещё не изданных, в том числе существующих в виде приложений к диссертациям и/или известных лижь ограниченному кругу специалистов.

Настоящее диссертационное исследование в основном осуществлялось именно для разработки и создания СпФ ДФ.

2) Текстовой подфонд (проект В.Е. Гольдина) , в который должны быть включены тексты, по крайней мере, трех типов:

а) диалектные тексты в традиционном понимании, то есть собранные в ходе диалектологических экспедиций в соответствии с определённым планом, программами и принципами, есте-

- 9 -

ственными для диалектной лексикографии;

б) лингвогеографические материалы диалектологических экспедиций, подобных тем, какие собирались для Диалектологического атласа русского языка /ДАРЯ/;

в) автоматизированные картотеки цитат Словаря русских народных говоров /СРНГ/ и других региональных словарей.

3) Справочно-грамматический подфонд - в виде автоматизированной базы данных.

4) Лингвогеографический подфонд, конструируемый на основе созданной под руководством H.H. Пиеничновой в Институте русского языка РАН системы "Автоматизированного Варианта ДАРЯ".

В п. 1.3 "Основные проблемы автоматизации лексикографических исследований в диалектологии" подробно рассмотрены проблемы организационного, лингвистического, программного, математического, алгоритмического и технического характера.

Проблемы ЛИНГВИСТИЧЕСКОГО. ПРОГРАММНО-МАТЕМАТИЧЕСКОГО. АЛГОРИТМИЧЕСКОГО и МЕТОДИЧЕСКОГО характера связаны с конструированием, адаптацией, апробированием, презентацией, репрезентацией и внедрением специальных ЛПИП.а также подготовкой научно-методической литературы.

Для лексикографии как науки о способах классификации лексического материала и способах его представления в словарях, главное - это исчерпывающее и всеобъемлвщее описание всего словарного состава языка.

В настоящее время русская диалектология располагает значительным количеством областных словарей, богатыми картотечными собраниями диалектных слов, на основе которых можно составить истинное представление о состоянии

современной диалектной лексики, наметить основные черты, характерные для развития и функционирования народного языка.

Активизация лексикографических разработок словарного состава русских народных говоров позволяет расширить и углубить проблематику диалектно-лексикографических исследований: исследование общих закономерностей словарного состава русских народных говоров, его соотновение с лексикой общенародного литературного языка как в современном состоянии, так и в историческом аспекте, со словарным составом родственных языков: исследование семантической структуры диалектных слов, диалектного словообразования и вариантности и т.п. Ревение указанных вопросов зависит от того,насколько иироким по охвату и репрезентативным является привлекаемый к исследовании материал.

Традиционная лексикография в качестве теоретических рассматривает проблему "дифференцированного* или "полного" диалектного словаря (Б.А. Ларин, Л.В. |ерба, И.А.Оссовецкий, Н.И.Толстой. А.С.Герд) и проблему полноты лексикографической информации в диалектном словаре(Л.И.Баранникова,О.И.Блинова, Т.О. Коготкова, Ф.П. Филин), в том числе отражения в словаре семантики диалектного слова. При этом утверждается, что адекватное описание словарного состава языка невозможно осуществить в одном словаре, а только в серии словарей. Предлагалось создать систему словарей, характеризувщих лексику диалекта в полном объеме и с разных сторон (В.А. Сенкевич, Ф.П. Сороколетов и С.Д. Кузнецова). На нав взгляд, представление диалектных материалов в компьютерной форме и внедрение современных методов научного анализа, основанных на применении ЭВМ и современных информационных технологий в диалектной

лексикографии, позволяет взглянуть на эти проблемы по-новому и, в частности, создавать не только серив словарей, а один общий автоматизированный диалектный словарь (ср. fl.fi. 1ахма-тов - словарь-тезаурус), именно поэтому настоящее диссертационное исследование посвящено проблеме интеграции словарных и текстовых диалектных материалов в рамках Диалектологического фонда русского языка на базе ЙЛС "ГОВОР".

Сложность названных проблем определяется разнородностью используемых лингвистических источников, неодинаковостьв типов и видов диалектных словарей, созданных и создаваемых в разное время и в различных регионах страны, разнообразием форм записи и хранения диалектных текстов и словарных картотек, отсутствием унификации в лексикографическом отражении диалектного материала на местах, а также разницей в технических возможностях ЙИИ, вузов и их подразделений, в их обеспеченности современными компьютерами и специально подготовленными кадрами.

Наибольвие трудности на начальных этапах автоматизации лексикографических исследований по диалектологии вызвали вопросы, связанные с организацией и практическим осуществлением самого ввода диалектной информации на мавинные носители, и, в частности: формализация диалектных материалов, разработка структур словарной статьи и формальных грамматик автоматизированных вариантов диалектных словарей, параметризация диалектных текстов в коипьвтероориентированноа виде, а такте недостаточная разработанность коммуникативного формата хранения и обмена диалектной лексикой и текстами.

ВТОРАЯ ГЛАВА "Структура и состав автоматизированной лексикографической системы "ГОВОР" посвящена рассмотрению

диалектных лингвистических источников и методике их Формализации, ориентируясь на специфику которых и была осуществлена формализация лингвистических и создание программных средств в виде монитора АЛС 'ГОВОР" с лингвистическими спецпроцессорами для представления диалектных материалов в компьвтерной форме и внедрения современных методов научного анализа, основанных на применении ЭВМ и новых информационных технологий в диалектной лексикографии.

В качестве лингвистических источников для ЙЛС "ГОВОР" были проанализированы свыае 200 диалектных словарей и словоуказателей более 300 томов, выпусков и отдельных частей), на основе чего и предлагается формальное описание структур словарных статей для автоматизированных словарей русского говора с.Лойма Прилдзского района Республики КомиСп.2.2.1), русских говоров Республики Коми (п.2.2.2). В виде объемлоцей. интегрирущей практически все опубликованные и указанные рукописные словари создана комплексная лексикографическая система "ГОВОР" для ведения и пополнения автоматизированного варианта словаря русских народных говоров /АСРНГ/ (п.2.2.3). При этой предполагается, учитывая открытость, расширяемость и в определенной степени универсальность разработанной формальной грамматики словарной статьи для АСРНГ,что именно эта методика компьютерного представления диалектных материалов позволит эффективно интегрировать уме имещиеся словарные и текстовые данные для создания в режиме диалога на ЭВМ новых региональных словарей,а также продолжить издание незавериён-ных словарей русских говоров и осуществлять лексикографические исследования с использованием новых информационных технологий.

- 13 -

Па этапе ввода диалектных материалов на магнитные носители ЭВМ текстовые и словарные данные подвергается первичной обработке в соответствии с принципами и методами, сформулированными и реализованными на практике В.К. Андрвценко, Л.И. Колодяжной и 1.Г.Аножкиной при разработке АЛС ДОШЕХ.

В п. 2.3 "Параметризация диалектных текстов" показаны некоторые способы обработки диалектных текстовых материалов, а также потенциальная возможность автоматизированного пополнения словарного банка данных на основе текстового банка данных. В алгоритме параметризации на этапе ввода диалектных материалов основное внимание уделено специфике и проблемам собственно диалектной лексикографии, а также учтены возможности и ограничения ЗВК для представления информации. При этом необходимые преобразования исходного диалектного материала проводятся при помочи специально для этого созданных программ. При разметке диалектных текстов в круглых скобках указываются грамматические пометы к каждому слову.

Дальнейвая разметка, комментирование и необходимая параметризация текстов осуществляются в соответствии с требованиями по организации архива источников КФ РЯ [В.К. Андрв-ченко], а также в зависимости от используемой АЛС. Так, например, тексты Текстового банка данных говора с.Лоймы были обработаны при помочи ИНИЕХ-Т С2.Г. Йношккна].

В ТРЕТЬЕЙ ГЛАВЕ "Создание фрагментов конструкции Диалектологического фонда КФ РЯ" приводятся конкретные практические результаты работы по создании ДФ КО РЯ на базе АЛС "ГОВОР",

- 14 -

П. 3.1: Рассмотрены основные режимы и возможности ЙЛС "ГОВОР". П.п. 3.2 и 3.3: Механизм разработки и создания Словарного и Текстового подфондов ДФ МФ РЯ.

Имея ввиду, что в рамках проекта МФ РЯ разрабатываются 9 фондов - составлявших (Генеральный Словник. Словарный. Текстовой. Грамматический. Терминологический. Диалектологический /ДФ/, Исторический. Фонетический и Лингвистический программно- источниковнй фонды русского языка) 1В.М. йндрв-ценко]. учитывая макро- и микроструктуры МФ РЯ. и, следуя предложениям 11.Н. Гиеничновой по структуре ДФ МФ РЯ, можно представить графически систему взаимосвязей и взаимозависимостей основных составляющих ДФ МФ РЯ следующим образом:

где - ЛПИФ - Лингвистический Программно- Источниковый Фонд.

- ДСпФ - Диалектный Словарный подФонд.

- ДТпФ - Диалектный Текстовой подФонд.

- ДСГпФ - Диалектный Справочно-Грамматический подФонд,

- ЛГпФ - ЛингвоГеографический подФонд.

- ДГС - Диалектный Генеральный Словник.

- ДФК - Диалектная Формализованная Картотека.

- ЛИТЫ - Диалектный Иллюстрационно-Текстовой Материал.

Следуя этой структуре, был подготовлен и в целом реализован проект Словарного подфонда ДФ РЯ. основными задачами которого являются:

1) перевод существующих источников диалектных материалов (как опубликованных, так и рукописных) в компьютеризированную форму, что в перспективе позволит объединить значительную часть имеющихся в различных регионах страны диалектных данных, обеспечить их надёжное хранение и оперативный ввод в научный оборот (вместе с тем. создание СпФ. естественно, не предполагает перевод абсолютно всех диалектных словарей и картотек на каминные носители, что практически невозможно и. вероятно, нецелесообразно);

2) разработка и создание компьютерных диалектных (автоматизирование пополняемых) словоуказателей, конкордансов и словарей различных типов: одного говора и сводных, дифференцированных. полудифференцированных и полных, многоаспектных и специализированных (частотных, инверсионных, синонимов и антонимов, морфемных, словообразовательных, фразеологических. топонимических и др.), в том числе машинных версий книжных диалектных словарей и диалектных словарей, не имеющих первичной книжной Формы, с целью включения их в общую системд Д9 М9 РЯ;

- 16 -

3) внедрение в диалектную лексикографии современных истодов научного анализа, основанных на использовании вычислительной техники и новых информационных технологий:

4) издание диалектных материалов в виде отдельных и сводных словарей русских народных говоров, а также фрагментов и образцов диалектных текстов в хрестоматиях, учебных и методических пособиях и разработках.

Решение перечисленных задач расмирит представление о диалектном языке в целом и его отдельных составляющих, приведёт к уточнении некоторых лексикографических данных о русском литературном языке и позволит сопоставить диалектный язык с литературным.

В настоящее время Словарный подфонд Диалектологического фонда фактически представлен тремя диалектными Автоматизированными Словарями /АС/:

1. АС русского говора с. Пойма Прилузского района Республики Коми /АСРГЛ/ - более 4 тысяч словарных статей (от А до 3). Лоемский АС - часть АС русских говоров Республики Коми, который, в свои очередь, входит в Автоматизированный Словарь русских народных говоров /АСРНГ/.

2. ас русских говоров Коми Республики /АСРГК/ - свыие 5 тысяч словарных статей (буквы А и Б).

3. Автоматизированный СРЧГ - 25 тысяч словарных статей (пять выпусков плвс АСРГК).

Структура указанных диалектных АС создавалась с учйтом требований ДЛС 1ШШ\Х-С (П.И. Колодящная).

Процесс пополнения АС непрерывен, в частности, за счёт ввода в коипьвтернуп форму новых выпусков СРНГ, продолгения

- 17 -

создания словарных с!агей ЙСРГ Республики Коли Сот В до Я) и корректировки АСРГ с.Лойыы, а такие включения о базу данных ЙСРНГ материалов других опубликованных региональных словарей, иллюстраций к црииеров из Текстового подфонда Диалектологического фонда, например, в виде контекстов, конкордансов, словников, словоуказателей и т.п.

Диалектологический Текстовой подфонд (п.3.3) базируется на корпусе диалектных текстов, которые перед вводом на компьютер преобразована и размечены з соответствии с принципами и методикой параметризации диалектных текстов, изложенными в п.2.3,с дчётом требований АЛС 1Ш1.ЕХ-Т(1.Г,Ано«кина).

Всего введено на машинные носители уже около трёх тысяч диалектных текстов, которые представляют, главным образом, Текстовую базу данных русского говора с.Лойма Прилузского района Республики Коми. В целом корпус лоемских текстов вместе с примерами и иллюстрациями АСРГ с.Лойиы, АСРГ Республики Коми и ЙСРНГ, введённый и частично обработанный первоначально на ЭВМ типа ЕС, теперь перенесён (перекодирован) на магнитные носители информации для персонального компьютера. В настоящее время ввод, корректировка и пополнение Диалектологического ТпФ производится в интерактивном режиме на персональных компьютерах.

Подготовка и первоначальное накопление диалектной информации, будь это - материалы ПСРГ с.Лоймы или Республики Коми, Автоматизированного варианта СРНГ и для Лексического атласа русских народных говоров, проходят следующим образом: - диалектолог определяет объём информации и проводит необходимую параметризацию текстов или разметку словарных материалов для АС;

- научные сотрудники, аспиранты, ставёры-исследователи и под их руководством студенты филологического и гуманитарного Факультетов в классе учебной вычислительной техники /КУВТ/ одновременно на 11 персональных ЗЗН. объединённых в локальнув сеть, вводят диалектный материал;

- с ыакинных носителей КУВТ информация переносится (с необходимой перекодировкой) на гибкие магнитные диски для персонального компьитера;

- дальнсйваа обработка проводится уле на персональной ЭВМ посредством общесистемных программных средств, с использованием специализированных АЛС, ЛПИП, пакетов прикладных программ и отдельных программ типа ЧИПЕХ, С0КС(Ш~32, "ГОВОР" н т.п.

В ходе практической работы по создании Фрагментов Словарного и Текстового подфондов Диалектологического фонда русского языка на материалах русского говора с. Лойна При-лузского района Республики Коми были проведены некоторые статистические расчёты корпуса исходных диалектных текстов. На лавинные носители в компьптерной форме к настоящему времени введено свине двух тысяч отдельных текстов - записей «ивой диалектной речи говора с. Лойна. После необходимой комньвтероориентированной формализации и параметризации всех этих текстов, которая, в частности, заклиналась в маркировании каждой словоформы специальным символом - в соответствии с частеречной принадлежность!), в режиме диалога на персональном компьютере бала произведена лемматизация. При зтом одновременно осуществлялось не просто отнесение той или иной словоформы к конкретному лексическому гнезду, а уточнялась семантика с выявлением омонимах и нумерацией каждого

значения слова и его оттенков. Всего было обработано 2332 текста лосмского корпуса, которые составили 103307 словоформ (30584 лемм) и по частям речи распределились следувзим образом: существительные - 2?.272, глаголы - 23.752, местоимения - 9.73%, предлоги - 3.632, наречия - 3.132. частицы -7.652, соизы - 6.102, прилагательные - 4.962,числительные -1.3?2, междометия - 0.352.

В ЗАКЛЮЧЕНИИ диссертации сформулированы основные выводы и перспективы развития и возлогнисти использования предложенных аетодов и АЛС "ГОВОР" для автоматизации лексикографических исследований по русской диалектологии.

Опыт практической реализации и акеплуатации ЛЛС "ГОВОР" показывает, что автоматизация диалектологических исследований не только существенно облегчает труд диалектолога, сокращает вреня обработки диалектного материала и сроки создания самого диалектного лвксикографкчьского произведения, но и исключает ынсгие традиционные недостатка лексикографической работы: рутинность н субъективность ручного труда, неполнота и иесистемность словарных картотек, разнобой в структурах словарных статей (даже в райках одного словаря), лексикографических пометах и способах предстаьления значений вокабул, использование ограниченного числа заранее избранных способов подачи материалов.

Подготовка диалектных текстовых материалов в компьвтер-ной форме и создание диалектных Автоматизированных словарей, практически не имевших ограничений ни в количестве зон и параметров словарной статьи, ни в количестве входов в словари н числе разнообразных проекций и выборок, ни в объеме обрабатываемых диалектных аатсриалов, открывают зирокие возмож-

ности для всестороннего комплексного ревения широкого круга задач и проблем диалектной лексикографии(в частности: задачу сопряжения словарей и текстов в интерактивном режиме). Как показывают исследования, автоматизация диалектологических исследований не только существенно облегчает труд диалектолога, но и позволяет активизировать обработку диалектных материалов, обеспечить надёжное хранение и оперативный ввод в научных оборот материалов русского диалектного языка, что является одной из актуальных задач отечественной филологии.

ПУБЛИКАЦИИ: материалы работы отражены в 22 публикациях, в 12 отчетах о НИР и 0 работ находятся в печати. Основные положения диссертационного исследования получили отражение в следувдих работах:

Лесников C.B., Загоровская О.В. Формальная грамматика словарной статьи автоматизированного словаря русских говоров Коми АССР // Вторая Всесосзная конф. по создании Лавинного Фонда Русского Языка /ЫФ РЯ/: Мат. конф. М.: ИРЯз АН СССР, 1988. С.107-119.

Загоровская О.В., Лесников C.B. Виды лексикографической информации в автоматическом словаре русских говоров Коки АССР к сопредельных областей // МФ PSÎ: Предпроектные исследования. И. : ИРЯз АН СССР. 1988. С.64-70.

Лесников C.B. Архитектоника автоматизированной лексикографической системы "ГОВОР" // Третья Всесоюзн. конф. по создании МФ РЯ: Тез. докл. 4.2. Ï.: ИРЯз АН СССР, 1389. С.7-8.

Лесников C.B. Лабораторный практикуй по курсу "Информатика. ВТ и ТСО" ( задачи по программировании для филологов ). Сыктывкар: СккГУ, 1Э83. 30с.

- 21 -

Сергиева H.С., Лесников C.B. Фонетические диалектные исследования на основе автоматизированного словаря русских говоров Коми АССР // Третья Всесоюзная конференция по создании ИФ РЯ: Тез.докл. 4.2. И.: ИРЯз АН СССР. 1989.С.14-15.

Лесников C.B. Формирование автоматизированного фразеологического словаря русских народных говоров // Фразеологическая параметризация в МО РЯ. НС по лексикологиии лексикографии ЙН СССР. М.: ИРЯз АН СССР, 1990. C.S2-95.

Лесников C.B. Автоматизированный фразеологический словарь русских говоров территории Коми АССР (ЙФСРГКЙ) // Фразеографические словари и компьвтерная фразеография. Орел, 1330. С.98-93.

Лесников C.B.. Загоровская О.В. Модульное и структурное проектирование аьтомзтизирсваннай лексикографической системы "ГОВОР" // Актуальные проблема компьютерной лингвистики. Тарту, 1300. С.101-102.

Загоровская О.В., Лесников C.B. Проблемы создания автоматизированного словаря русских народных говоров // Третья Всесоюзн. конф. по созданию МФ РЯ: Доклады. М.: ИРЯз ЙН СССР, 1990. С.104-113.

Лесников C.B. Элементы автоматизации лексикографических исследований по диалектологии // Третья региональная научно-ыетод. конф. по вопросам социально-гуманитарного образования. Сыктывкар: СыкГН. 1991. С.40.

Загоровская О.В., Лесников C.B. Эскизный проект Словарного подфонда Диалектологического фонда русского языка Сыктывкар, 1991. 72с. Деп. в ИНИ0Н 29.10.91 N 45494.

Лесников C.B. Компьитеризация диалектологических исследований в плане изучении Духовной культуры Русского Севера // Духсвиая культура: история и тенденции развития. Сыктывкар: СыкГН. 1932. С.85-87.

ИПОСГУ. Заказ №120. Тираж №0 экз.

автореферат диссертации по филологии, специальность ВАК РФ 10.02.19 диссертация на тему: Автоматизированная лексикографическая система "ГОВОР"

Полный текст автореферата диссертации по теме "Автоматизированная лексикографическая система "ГОВОР""

Похожие темы диссертаций

автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Автоматизированная лексикографическая система "ГОВОР"