автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Компьютерная база данных "Языки мира" и ее возможные применения

  • Год: 2005
  • Автор научной работы: Ярославцева, Елена Игоревна
  • Ученая cтепень: доктора филологических наук
  • Место защиты диссертации: Москва
  • Код cпециальности ВАК: 10.02.21
450 руб.
Диссертация по филологии на тему 'Компьютерная база данных "Языки мира" и ее возможные применения'

Полный текст автореферата диссертации по теме "Компьютерная база данных "Языки мира" и ее возможные применения"

Направахрукописи

ЯРОСЛАВЦЕВА Елена Игоревна

КОМПЬЮТЕРНАЯ БАЗА ДАННЫХ

«ЯЗЫКИ МИРА» И ЕЕ ВОЗМОЖНЫЕ ПРИМЕНЕНИЯ

Специальность: 10.02.21—прикладнаялингвистика

А втореферат Диссертации на соискание ученой степени доктора филологических наук

Москва-2005

Работа выполнена в Институте языкознания РАН

Официальные оппоненты - доктор филологических наук,

профессор Марчук Юрий Николаевич

- доктор технических наук, профессор Леонтьева Нина Николаевна

- доктор филологических наук Тестелец Яков Георгиевич

Ведущая организация - Пермский политехнический институт

Защита состоится « » (ЯОС/^Ц^С^Л_2005 г.

в / 3> часов на заседании специализированного совета Д.002.17.01 по защите диссертаций на соискание ученой степени доктора филологических наук при Институте языкознания РАН по адресу 125009, Москва, Большой Кисловский пер., 1/12.

С диссертацией можно ознакомиться в библиотеке Института языкознания РАН.

Автореферат разослан

¿к.

2005 г.

Ученый секретарь диссертационного совета кандидат филологических наук

А.В.Сидельцев

Общая характеристика работы

В Институте языкознания с начала 80-х гг. ведется разработка базы данных (БД), которая включает в себя свернутые, формализованные и определенным образом структурированные описания языков мира. В настоящее время БД «Языки мира», несмотря на свою незавершенность, находится в такой стадии разработки, когда она вполне может уже использоваться как инструмент лингвистического исследования, в чем и состоит ее основное назначение. В связи с этим главной целью данной диссертации является краткое описание устройства этой БД и полезных для лингвистики функций, которые она способна выполнять на данном этапе ее создания.

В период широкого распространения компьютеров, электронной почты, надежных электронных носителей информации и т.п. появляется реальная альтернатива для получения, хранения и распространения научных знаний. С этой целью необходимо решить ряд проблем, связанных с обеспечением эффективного и использования электроники в повседневной практике научной деятельности ученого. В русле этих проблем мной и моими коллегами предлагается комплекс компьютерных программ, способствующих как облегчению кропотливых и трудоемких процессов изучения особенностей различных языков, так и расширению круга пользователей энциклопедии «Языки мира» - компьютерная база данных «Языки мира».

В 2000 году к данному проекту присоединился Московский государственный лингвистический университет, где была создана Лаборатория типологических исследований (зав. лабораторией - А.И.Новиков). В соответствии с договором данная тема в настоящее время разрабатывается как совместная. (Виноградов В.А., Новиков А.И., Ярославцева Е.И. База данных «Языки мира» как инструмент лингвистического исследования. // Вопросы языкознания, 2003, № 3, с. 3-14).

Хочется надеяться, что по своему научному уровню и практическому значению эта работа займет свое место в ряду современных концепций баз данных по языкам мира - Ethnologue, созданный в Summer Institute of linguistics (www. sil. org/ethnologue/maps), базой данных лейпцигских исследователей в Max Planck Institute for Evolutionary Anthropology (www.emeld.org/workshop /2004/bibiko/bibiko-original.html), базой данных M. Драйера (wings.buffalo.edu/ linguistics/dryer/database), см. также проект Autotyp Дж. Николз и Б. Бикеля (www.unileipzig.de/~autotyp), представляющий собой попытку объединения нескольких наиболее автори-

тетных баз. Создаваемая в нашем институте база данных «Языки России: социолингвистический портрет» является более частной по сравнению с базой данных «Языки мира» (www.iling.narod.ru) и имеет ряд сходных с ней областей применения.

Целью данной диссертации является разработка и описание устройства компьютерной базы данных «Языки мира», включающей в себя свернутые, формализованные и определенным образом структурированные описания языков мира и перечень ее возможных применений в лингвистике и других областях знания.

Объектом исследования являются языки мира, а именно языки народов, населяющих сейчас (и населявших ранее) земной шар. Общее число от 2500 до 5000 (точную цифру установить невозможно, потому что различие между отдельными языками и диалектами одного языка условно) (Иванов Вяч. Вс. Языки мира. В кн.: Лингвистический Энциклопедический Словарь. М., 1990).

В качестве предмета исследования выступает компьютерная база данных «Языки мира». Исследуемым материалом служат статьи энциклопедии «Языки мира», работы языковедов - специалистов по отдельным языковым семьям, статьи Лингвистического энциклопедического словаря.

На защиту выносятся следующие положения:

1) Компьютерная база данных «Языки мира» является электронным аналогом создаваемой в Институте языкознания РАН энциклопедии.

2) Компьютерная база данных «Языки мира» может предоставить широкие возможности для лингвистических исследований (составление различных указателей, автоматизированный перевод базы данных, автоматизированный поиск информации в базе данных, получение формальной типологии языков).

3) Итеративно пополняемая модель реферата является одновременно и моделью всех языков, содержащихся в базе данных, а значит, после введения в базу всех известных науке языков, представляет собой структурную модель грамматики человеческого языка.

4) Система составления поисковых предписаний по поисковым запросам потребителей, дает возможность организовать многоаспектный поиск в базе данных.

5) Разработанный тезаурус грамматических категорий и явлений, составленный по оригинальной схеме словарной статьи, является словарем нового типа.

6) Географический и генетический указатели к базе данных позволяют без обращения к энциклопедическому изданию определять перечни языков, распространенных в пределах некой географической единицы, и находить генетические единицы, подчиняющие данную.

7) Созданная система автоматизированного перевода базы данных на английский (в принципе на любой другой) язык обеспечивает возможность широкого использования базы данных.

8) С помощью базы данных можно выявлять лакуны в описаниях языков и определять импликации языковых категорий и явлений.

9) Составленные программы сопоставления языков, основанные на разных критериях соответствия, позволяют создать так называемую формальную типологию языков - материал для верификации традиционной типологии.

10) Структура банка данных позволяет создать диалоговую вопросно-ответную систему по материалам базы данных.

Научная новизна работы состоит в том, что разработаны принципы и методы компьютерного представления информации о языке - компьютерный вариант энциклопедии «Языки мира».

Впервые создана компьютерная база данных, в которой представлены сведения о 330 языках Евразии.

По предложенной методике в будущем возможно введение в базу данных языков других семей, групп и подгрупп. Составление первичной формы описания какого-либо языка значительно упростится и станет более эффективным при использовании модели реферата, сформированной в базе данных.

Разработаны схемы словарных статей тезауруса грамматических категорий и явлений, географического и генетического указателей по имеющейся базе данных. По этим схемам составлены тезаурус и указатели.

Реализация проекта по созданию многоаспектной информационной системы стала возможной в результате интеграции опыта различных школ и направлений в лингвистике. Была проделана широкомасштабная работа по сбору и анализу конкретных материалов по языкам мира, найдены единые принципы описания языков различного типа - ключ к решению проблемы их сопоставимости. Для программной реализации разработанных алгоритмов был создан универсальный терминологический аппарат описания различных языковых явлений.

Начата и продолжается работа по созданию формальной типологии языков на основе формальных критериев.

Теоретическая значимость работы состоит и том, что разработан новый, нестандартный способ представления множества языковых фактов, относящихся к некоторому конкретному языку, которым является формализованный реферат описания данного языка. Он может быть вычленен из общей структуры базы данных.

Реферат является результатом включения в него из модели реферата тех языковых фактов (строк), которые присущи данному конкретному языку. Поэтому реферат не может состоять из чего-то другого, отличного от того, что содержится в модели. Однако предусмотрено так называемое итеративное пополнение модели, т.е. включение в нее после ряда проверок и консультаций со специалистами тех строк, которых до этого в модели не было. Можно считать, что если реферат является основной единицей ввода, хранения и обработки в базе данных, то модель реферата - это инструмент формирования реферата, обеспечения его стандартности, унифицированности и тем самым формализованности. Поэтому она может рассматриваться как язык внутреннего представления информации в базе данных.

В диссертации вводятся и объясняются этапы работы: написание статьи по типовой схеме в энциклопедию, составление по ней реферата, введение его в компьютер, составление программы по обработке данных и т.п.

Практическая ценность работы состоит в том, что компьютерная

база данных «Языки мира» может использоваться в разных областях знания, но в первую очередь в лингвистике. На ее основе уже созданы различные виды указателей к энциклопедии «Языки мира»: географический, генетический, предметный алфавитный и предметный систематический.

Разрабатываются теоретические и методологические основы создания диалоговой вопросно-ответной системы. Указатели дают отсылки от каждой строки модели к статье энциклопедии «Языки мира», где читатель сможет найти более подробную информацию об интересующем его аспекте. Это сокращает затрачиваемое читателем время, и, кроме того, дает каждое явление в контексте (в иерархической структуре), указывает его синонимы и англоязычный эквивалент. В этом плане особый интерес представляет тезаурус грамматических категорий и явлений, составлен-

ный по базе данных и грамматикой - перечень всех встретившихся в базе данных грамматических категорий и явлений.

В работе используются следующие методы исследования: различные языки программирования; первоначально комплекс программ для данной базы данных был разработан мной и Ю.П.Скоканом.

Они были написаны на языке Clipper и позволяли осуществлять ввод, хранение, инспекцию, редактирование и преобразование рефератов, а также ввод новых строк в модель реферата. Кроме того, этот программный продукт позволяет осуществлять автоматизированный перевод рефератов на английский язык. Программная реализация этих функций позволяет рассматривать процесс формирования базы данных как процесс ее постоянного расширения как по горизонтали (ввод новых языков), так и по вертикали (ввод новых строк в модель реферата).

В настоящее время первоначальное программное обеспечение было при моем участии перепрограммировано на языке Delphi и адаптировано под Windows. В этой второй версии программного обеспечения была полностью сохранена идеология первой версии. Дополнительно были реализованы функции БД, связанные с информационным поиском.

Также применялись методы и формулы математической статистики, логики и языка исчисления предикатов, лингвистические методы денотативного анализа текста, сравнительно-исторического языкознания, социолингвистики и психолингвистики, метод опроса и анализа потенциальных пользователей базы данных.

Перспективность исследования в части применения базы данных заключается в том, что, кроме введения в нее всех известных на настоящее время языков мира, формируемая и итеративно пополняемая модель языка даст представление о формальной структуре ЯЗЫКА вообще, точнее, о структуре его грамматической составляющей. Представляется также возможность исследования с ее помощью психолингвистических, лингво-палеонтологических и лингво-антропологических закономерностей, структурных особенностей разных грамматических категорий, и многое другое.

Разработаны требования к реферату, к его структуре и единицам, составлены и опробованы программы автоматического реферирования статей энциклопедии (его общей и индивидуальной части). Получены положительные отзывы на рефераты статей от их авторов.

Одним из наиболее перспективных путей представляется изучение грамматики различных языков, сопоставление таких грамматик, созда-

ние исчерпывающего (по возможности) перечня грамматических категорий и явлений, выработанных человечеством в ходе его "лингвистического" развития.

Создаваемая в Институте языкознания компьютерная база данных "Языки мира" основывается на т.н. "Модели реферата" (см. Журинская и др., 1986).

Апробация и внедрение: результаты работы по созданию и ведению базы данных были опубликованы в монографии, ряде статей в отечественных и зарубежных журналах, докладывались на конференциях и семинарах. (Институт языкознания РАН, МГЛУ, Пермский политехнический институт, Уфимский университет).

Используемая терминология:

Реферат - сокращенный вариант статьи энциклопедии «Языки мира», содержащий все основные сведения об описываемом языке и представленный в виде специальной формализованной записи, другими словами, это последовательность наименований языковых явлений, записанных в отдельных строках и связанных между собой определенными отношениями (в основном отношениями подчинения и соподчинения). Каждая позиция (раздел) типовой схемы статьи о языке содержательно соответствует в модели классу языковых явлений.

Модель - эффективное средство стандартизации процесса реферирования. Рефераты статей о языках представляют собой свернутые, формализованные и определенным образом структурированные описания языков, отличающиеся стадартизованностью и унифицированностью. Поэтому референту предоставляется право дополнять список характеристик, задаваемый моделью. В этом случае предусмотрен режим добавления строки в модель. Она сначала создавалась априорно, на основе знаний и опыта лингвистов в разных областях языкознания и при опоре на имеющиеся в энциклопедии описания языков. Эта модель стала эффективным средством стандартизации процесса реферирования.

Итеративное пополнение модели - добавление в модель тех строк, которых не было в ней на момент составления реферата о некотором языке, но которые необходимы для его описания.

Класс, аспект, подаспект, характеристика - структурные единицы реферата разных уровней, соответствующие темам, подтемам, субподтемам и микротемам денотатной структуры (см. А. И. Новиков. Семантика текста и ее формализация. М., 1983).

Тема, это предмет описания (некоторый язык), подтема - позиция (раздел) типовой схемы описания языка, субподтема - подаспект того аспекта рассмотрения языка, который задан позицией типовой схемы. Микротема соответствует конкретному языковому явлению.

Лакуна ~ отсутствие языкового явления или его описания, отмечается в рефератах языков специальными графическими знаками - 0 - явление отсутствует, О - явление не описано.

Ведущие точки - способ отражения иерархии элементов, составляющих модель, специальная формализованная запись. Каждый следующий уровень иерархии имеет на одну "ведущую точку" больше, чем предшествующий.

Вес — или весовая категория - цифровое обозначение значимости некоторого элемента для решения конкретной задачи; чем больше вес, тем значимее элемент.

Грамматикон - универсальный, конкретно-языковой и частные -наборы грамматических категорий и явлений в модели языка, в рефератах конкретных языков и в отдельных классах модели;

Фонематикон, ономастикон, вербатикон, просодикой, нумерикон, птотикон, дейктикон, фонотактикон, фонотипикон, морфотипи-кон, партикон, парадигматикой, слово-форматикон, дериватикон, сентенсикон, комплексикон, графикон и т.п. - названия частных таксонов грамматикона.

Кластер - «пучок» характеристик языка, группы языков, класса, аспекта модели.

Классифицирующие элементы реферата - элементы, подчиняющие себе другие классы, аспекты, подаспекты.

Фактографические элементы реферата - элементы, стоящие на самых нижних уровнях иерархии, характеристики, редко подаспекты.

Поисковый запрос - интересующий пользователя базы данных вопрос, касающийся ее содержимого.

Поисковое предписание - формальная запись запроса специальными символами.

Дисплей, панель экрана, реперные точки, мемо-поле — термины информатики и программирования.

Банк данных - система программных, языковых, организационных и технических средств, предназначенных для централизованного накопления и коллективного использования данных.

Содержание работы

Работа состоит из предисловия, введения, двух глав, заключения, выводов, списка литературы и трех приложений.

В предисловии излагается история создания и становления прикладной лингвистики как относительно нового направления в языкознании, которая со второй половины 20 века стала иногда называться «вычислительной лингвистикой», «инженерной лингвистикой», или «автоматической лингвистикой». Она рассматривала методы решения лингвистических задач с помощью вычислительной техники.

Во введении освещается история создания компьютерной базы данных «Языки мира» - электронного аналога энциклопедии «Языки мира».

У истоков создания энциклопедии и БД «Языки мира» стояла член-корреспондент РАН В.Н.Ярцева - автор и руководитель проекта «Энциклопедия «Языки мира»».

Первоначально в разработке проекта по созданию базы данных принимал участие Борис Владимирович Якушин, но к сожалению, недолго, так как он преждевременно скончался.

В работе по составлению рефератов статей энциклопедии «Языки мира» и введению их в базу данных, а также в составлении модели реферата принимали участие О.И.Романова, Я.Г.Тестелец, А.К.Валентей, М.Е.Алексеев, Н.Б.Бахтин, В.А.Виноградов, А.В.Дыбо, В.П.Калыгин, И.Ш.Козинский, М.С.Полинская, Н.В.Рогова, Н.К.Рябцева, Д.И.Эдельман.

Ю.П.Скоканом при моем участии в качестве консультанта по лингвистическим вопросам был разработан комплекс программ, позволяющий осуществлять ввод, редактирование и корректировку информации. На основе данного программного продукта было введено и отредактировано около 200 описаний языков Евразии как на русском, так и на английском языках усилиями автора.

Были намечены задачи и этапы создания компьютерной базы данных «Языки мира».

Основной единицей энциклопедии «Языки мира» служит статья. Объем статей колеблется и может составлять нескольких печатных листов. Алфавитный принцип организации энциклопедии был выбран как наиболее универсальный. Но он не достаточен, поскольку назначение энциклопедии «Языки мира» не может быть сведено только к задаче обеспечения поиска статей по алфавиту. Энциклопедия должна обеспечить решение самых различных исследовательских задач, что связано с обращением не только к самим статьям, но и к тем сведениям, которые

содержатся в различных местах одной статьи и в разных статьях, находящихся в разных алфавитных зонах энциклопедии. Таким образом, для решения исследовательских задач на базе энциклопедии «Языки мира» нужен многоаспектный поиск, который не обеспечивается алфавитным расположением статей, вследствие чего такой поиск потребитель должен осуществлять сам. Учитывая значительный объем энциклопедии (она состоит из многих томов), следует предположить, что такой поиск будет связан со значительными трудностями, а в некоторых случаях будет и невозможен.

Все это сделало необходимым создание нами специального справочного аппарата, дополняющего основное издание. Традиционной формой такого справочного аппарата служат различного рода указатели, отражающие тот или иной дополнительный аспект поиска и тем самым компенсирующие в некоторой степени недостатки алфавитного принципа организации словаря или энциклопедии. Справочный аппарат может отразить только какие-то отдельные аспекты, а не всё необходимое, тем более что в момент его создания невозможно предугадать все потребности науки, которые могут возникнуть в будущем.

Компьютерная база данных обеспечит:

1) Эффективное обобщение знаний специалистов в области различных языков;

2) Создание электронного варианта энциклопедии «Языки мира»;

3) Удобное и экономное распространение энциклопедических знаний о языках в нашей стране и за границей.

В первой главе «Компьютерная база данных «Языки мира» описывается типовая схема статьи о языках, по которой пишутся статьи энциклопедии, ставятся задачи создания справочного аппарата к ней, выдвигается гипотеза о представлении статьи о языке в виде свернутых, формализованных и определенным образом структурированных описаний -рефератов.

Издание «Языки мира» представляет собой совокупность статей, посвященных описанию языков. Особенностью статей данного издания является то, что все они написаны по заранее созданной типовой схеме, обеспечивающей их единообразие при многоаспектном характере излагаемого в них материала. Это позволяет считать такое описание энциклопедическим, а само издание - энциклопедией.

Энциклопедия «Языки мира» является изданием уникальным не только по полноте охвата языков, но и по глубине теоретического рассмотрения их различных аспектов. Она рассчитана не только на специалистов по сравнительно-историческому и типологическому языкознанию, но и на исследователей в смежных дисциплинах, а также на использование при решении широкого круга исследовательских задач.

Нами была поставлена задача создания новой технологии, для которой необходимо иметь один массив формализованной информации, ориентированной на решение не одной, а нескольких задач. В связи с этим возникает проблема построения массива данных многоцелевого назначения, который можно считать базой лингвистических данных. При одноразовой содержательной обработке и вводе исходной информации база данных должна обеспечивать не только проведение различных видов информационного поиска, но также автоматическое построение различных указателей и решение других более частных задач. Для этого массив, создаваемый в виде базы данных, должен отвечать следующим требованиям:

В него должны входить данные, необходимые и достаточные для обеспечения всех задач, на которые ориентирована информационно-поисковая система. Данные должны быть представлены в виде системы разнопорядковых дискретных единиц, формально выделимых и содержательно значимых для решения поставленных задач.

Структура базы данных должна обеспечивать обращение к ней по многим «входам», для чего она не должна быть слишком жесткой. В процессе эксплуатации база данных должна допускать возможность локального переструктурирования и дополнения без нарушения ее общей схемы и потерь информации.

Центральным из этих требований является вопрос об основных единицах информации.

В рамках данной системы в общем виде под единицей информации следует понимать такие конструкции, которые могут быть вычленены как целостные образования на основе определенных формальных критериев. При этом такое вычленение должно производиться с учетом всех возможных задач, решаемых с помощью автоматизированной системы, т.е. эти единицы должны соответствовать поставленным задачам, быть необходимыми и достаточными для их решения.

Основной дискретной единицей энциклопедии «Языки мира» является отдельная статья, в которой описывается некоторый конкретный язык.

Каждая статья пишется по предварительно заданной типовой схеме, представляющей собой перечень наименований основных разделов или аспектов, которые должны быть обязательно раскрыты автором. В тексте статьи сохраняются цифровые индексы, соответствующие разделам (позициям) типовой схемы.

Языкознание, как и любая другая область науки, характеризуется тем, что, преследуя цель полного и адекватного описания своего объекта - языка, неизбежно распадается на ряд дисциплин, каждая из которых разрабатывает способы описания либо одной из сторон объекта, либо одного из аспектов его функционирования. Но в самом объекте все эти стороны и аспекты находятся в отношении взаимосвязи, взаимопересечения, взаимовлияния. Поэтому история и структура науки о языке демонстрируют постоянное стремление к интеграции достижений ее отдельных областей. Самое значительное проявление этого стремления -оформление в середине XIX века общего языкознания в отдельную дисциплину, определяющую и обосновывающую самые существенные свойства языка. Одной из реальных предпосылок создания общего языкознания была возникшая к тому времени лингвистическая типология как учение о языковых сходствах и различиях, независимых от родства языков. С тех пор общее языкознание и типология развиваются не столько параллельно, сколько в отношении интердепендентности.

Материалом для этих дисциплин должны служить описания языков, причем по возможности единообразные, и параметры этого единообразия должны задаваться лингвистической типологией на основании данных общего языкознания.

Энциклопедическое описание характеризуется следующими требованиями: 1) полнота охвата материала; 2) единообразие описания; 3) Отсутствие полемического аспекта в изложении, т.е. максимально возможная его объективированность.

Соблюдение этих требований позволяет фиксировать состояние языкознания в определенный момент; при этом энциклопедическое описание отнюдь не требует окончательного ответа на все вопросы, встающие перед языковедами; напротив, в нем ценен не только положительный материал, т.е. сведения о языках, но и материал отрицательный, т.е. отсутствие сведений. Энциклопедическое описание представляет необходимый для науки момент определения терминов и понятий, способствующий конкретизации последующих направлений исследования.

Требование единообразия описания повлекло за собой создание типовой схемы статьи, в которой в виде нумерованных позиций представлены те параметры, которые можно считать, во-первых, наличествующими во всех языках или в абсолютном большинстве их, во-вторых, характерными для конкретной языковой специфики, в-третьих, более или менее описанными для значительного числа языков. Наличие этих параметров во всех языках мира и достаточность их для описания «нетривиальных» по строю языков анализировались в процессе обсуждения типовой схемы.

Требование единообразия описания вводит нас в отдельную теоретическую проблему - сопоставимости языков, сравнения имеющихся в них категорий и явлений. Эту задачу можно сформулировать следующим образом: существуют ли реальные основания для единообразного описания всех языков мира независимо от их генетической принадлежности и типологической специфики, для описания, позволяющего сопоставить любой фрагмент системы конкретного языка с фрагментами систем других языков? Если на этот вопрос дается принципиально положительный ответ, то возникает тем не менее еще один: достигло ли языкознание второй половины XX века того уровня, при котором подобное описание осуществимо?

Философия общего языкознания и психолингвистика обосновывают и развивают тезис о единой ментальной основе человеческого языка, об отсутствии непреодолимых преград в общении различных представителей рода homo sapiens, о принципиальном единстве процессов вербализации мыслительной деятельности. Что касается типологии, то само ее существование показывает, что неисчерпаемое, на первый взгляд, разнообразие языков мира подчиняется некоторым законам, позволяющим классифицировать как формальные, так и содержательные аспекты языковых систем. Типологизация языковых свойств, начавшись с морфологической классификации языков, в наше время распространяется и на закономерности строения и развития фонологических систем, и на синтаксические и семантические явления, охватывает общие закономерности развития языков и социально-коммуникативные аспекты их функционирования. Эти общие положения вполне закономерно предопределяют соизмеримость языков и тем самым сопоставимость их описаний.

Сопоставимость описаний обеспечивает нам возможность систематизации исходного материала, что способствует извлечению из корпуса статей информации о межъязыковых сходствах и различиях и - в неяв-

ном виде - о наличии внутриязыковых структурных импликаций. Последний аспект требует дальнейших изысканий; здесь энциклопедическое описание может лишь навести специалиста на идею поиска. Впрочем, при достаточно корректной формулировке запроса специалист, оперируя грамматическим указателем, может получить ценный материал для самостоятельного исследования. Информативная ценность единичного описания (= статьи), построенного по принципу соизмеримости, возрастает, так как при этом наглядно выступает сопоставимость этих статей; принцип сопоставимости позволяет осуществить систематизацию материала на разных уровнях (работа с текстами - указатели - база данных). При этом, чем выше уровень единообразия, тем большие обобщения оно допускает.

Анализ, проведенный с целью определения основной единицы ввода и хранения энциклопедических знаний о языках в памяти компьютера, показал, что такой единицей должен быть сокращенный вариант статьи (ее реферат), содержащий все основные сведения об описываемом языке и представленный в виде специальной формализованной записи. Было установлено, что с формальной точки зрения условной структурной единицей реферата должна быть отдельная строка, соответствующая элементарной записи. В каждой строке записывается конкретный языковой факт, то есть явление, содержащееся в описании данного языка. Этот факт может быть описан одним или несколькими словами. Каждая элементарная запись связана с другими элементарными записями определенными отношениями, для чего применяются также специальные формальные средства.

Совокупность таких элементарных записей, связанных между собой определенными отношениями, и составляет реферат. Таким образом, если реферат можно считать как бы максимальной единицей информации, (он соответствует описанию отдельного языка и является аналогом статьи), то языковой факт - минимальной единицей. Оба типа этих единиц соответствуют критерию формальной выделимости и содержательной значимости.

Очень важной была проблема стандартизации процесса реферирования. Как известно, реферирование представляет собой процесс свертывания, цель которого - минимальным количеством языковых знаков передать максимум информации, содержащейся в первичном документе. Поэтому может существовать несколько семантически адекватных рефератов для одного и того же первичного текста (в нашем случае - статьи энциклопедии «Языки мира»).

По аналогии с типовой схемой статьи в энциклопедии «Языки мира», являющейся некоторым шаблоном при описании языка, было принято решение создать сходный шаблон и для реферата в базе данных. В таком качестве стала выступать т.н. модель реферата. Она сначала создавалась априорно, на основе знаний и опыта лингвистов в разных областях языкознания и при опоре на имеющиеся в энциклопедии описания языков. Эта модель стала эффективным средством стандартизации процесса реферирования. Рефераты статей о языках представляют собой свернутые, формализованные и определенным образом структурированные описания языков, отличающиеся стандартизованностью и унифицированностью. Кроме того, референту предоставляется право дополнять список характеристик, задаваемый моделью. В этом случае предусмотрен режим добавления строки в модель. Новые строки добавляются и в модель реферата. Модель, таким образом, итеративно пополняется, что, на наш взгляд, является наиболее ценным ее качеством.

Реферирование статей энциклопедии "Языки мира" осуществляется специально проинструктированными референтами-лингвистами. Оно осуществляется по тем позициям и в той последовательности, в которой они даны в статье (и, соответственно, в модели), и для каждой позиции состоит в просмотре части модели, соответствующей данной позиции, и в пометке специально предусмотренным образом тех характеристик (а также аспектов и подаспектов), которые содержатся в статье, описывающей данный язык.

Реферирование отличается преобладанием номинативных конструкций, терминологической насыщенностью, привнесением слов обобщающего характера и клишированных оборотов, отсутствующих в тексте первоисточника, укрупнением содержательных единиц, использованием сжатых конструкций. Рефераты строятся с учетом принципов проблемной ориентации, алгоритмизации, простоты и универсальности, разработанными специалистами в области прикладной лингвистики.

Критерием семантической адекватности первичного и вторичного текстов мы будем считать, вслед за Н.М.Нестеровой (Нестерова Н.М. Реферативный перевод как смысловое преобразование текста. Дисс. ...канд. филол. наук. М., 1984), факт тождественности их денотатных структур, структуры же эти эксплицируются с помощью денотатного графа, «иерархического построения, в котором можно выделить «главный предмет описания» (тему), «подтемы», «субподтемы» и «микротемы». (Новиков А.И. Семантика текста и способы ее формализации. М., 1983, с.83).

В диссертации приводится список языков, введенных в базу данных (это сейчас 330 языков Евразии) и полностью модель реферата, которая является также универсальным грамматиконом или обобщенной моделью грамматики языка.

Была составлена, отлажена и описана программа автоматического реферирования. В компьютерном варианте энциклопедии "Языки мира" каждый язык представлен наименованием языка и упорядоченной последовательностью параметров, присущих ему. Параметры делятся на лингвистические и индивидуальные.

С формальной точки зрения условной структурной единицей реферата является отдельная строка, соответствующая элементарной записи. В каждой строке записывается отдельный языковой факт, т.е. языковое явление, содержащееся в описании данного языка. Внутри строки эта запись может занимать различные позиции: крайнюю левую, с различным количеством сдвигов вправо, крайнюю правую. Сдвиг содержимого строки является средством выражения отношений между единицами информации внутри реферата. Для большей наглядности вместо сдвига употребляется соответствующее ему количество «ведущих точек», т.е. точек, предшествующих текстовой информации.

Каждая позиция (раздел) типовой схемы статьи о языке содержательно соответствует в модели классу языковых явлений.

В классах выделяются возможные аспекты их рассмотрения. Совокупность аспектов - это дальнейшая градация содержания, осуществляемая на уровне каждого раздела.

Классы и аспекты - это универсалии, априорно задаваемые в модели как наименования явлений, общих для большинства описываемых языков, либо для некоторой группы языков. Они соответствуют подтемам и субподтемам описания некоторого языка. Элементы, находящиеся на более низких уровнях иерархии, - подаспекты и характеристики - соответствуют более конкретным языковым явлениям, специфичным для одного или нескольких описываемых языков, т.е. микротемам статей энциклопедии.

Характеристика - это запись такого языкового факта, который не дробится на более мелкие факты и не имеет в модели подчиненных себе элементов. Группа однородных характеристик, подчиненных одному подаспекту, называется массивом характеристик. В записи цифровой индекс класса и его наименование всегда занимают крайнюю левую позицию. Название аспекта, подчиненного классу, записывается в следую-

щей строке со сдвигом вправо (с одной "ведущей точкой"). Если аспект содержит хотя бы одну характеристику (или подаспект), то их следует записывать с еще большим сдвигом вправо (с двумя и более "ведущими точками").

По своей роли в модели рассмотренные выше структурные элементы делятся на два основных типа: класифицирующие и фактографические. К первому типу относятся наименования классов, аспектов и подаспек-тов, то есть все такие, которые являются подчиняющими. Среди классифицирующих элементов можно выделить постоянные, а именно, такие, которые задаются в модели обязательно и с необходимой полнотой. Наибольшей степенью заданности, а следовательно, и устойчивости, обладают не только классы, но и аспекты. Поэтому возникает возможность присвоить каждому аспекту определенный код. Для нас кодом аспекта будет его порядковый номер внутри вышестоящего класса, присоединяемый с помощью точки к цифровому индексу этого класса.

Характеристики, в отличие от классифицирующих элементов, не могут быть заданы с исчерпывающей полнотой и точностью.

Процесс реферирования статей энциклопедии оттачивался сначала в ходе ручного реферирования, затем машинного с помощью программ, выполненных на ДВК-2, потом на отечественных компьютерах и в настоящий момент - на более совершенных импортных компьютерах

Реферирование должно производиться с учетом определенных принципов:

1. Принцип проблемной ориентации означает, что компоненты

системы должны строиться с учетом тех информационных задач, которые стоят перед системой. В нашем случае такими задачами будут документальный и фактографический поиск информации, автоматический перевод рефератов, автоматическое формирование справочного аппарата энциклопедии «Языки мира», получение типологических обобщений, определение степени близости языков, выявление лакун (=пробелов) в описании языков, создание тезауруса лингвистических терминов.

2. Принцип алгоритмизации определяет не только возможность создания достаточно простых и надежных алгоритмов обработки информации, но и предусматривает требование функционирования системы при минимальном участии человека после ее создания и отладки.

3. Принцип простоты средств лингвистического обеспечения предполагает наличие в языке и логике системы только тех средств, которые являются обязательными и эффективными.

4. Принцип универсальности означает возможность использования одного информационного массива для решения различных исследовательских и практических задач.

Реферат, естественно, должен также удовлетворять всем требованиям, предъявляемым к машинным документам: он должен быть по возможности кратким, иметь четкую и единообразную структуру; унификация формы в свою очередь предполагает введение ограничений на использование средств естественного языка и введение дополнительных графических элементов в язык записи информации.

Прежде всего, мы стремились обеспечить семантическую адекватность реферата тексту статьи энциклопедии, т.е. сохранить все основные положения статьи, отразить концепцию ее автора и не «потерять» имеющуюся терминологию (в частности, путем создания словаря синонимов), старались исключить субъективные моменты, влияющие на процесс реферирования. Мы учитывали, что реферат, как и статья энциклопедии, — это потенциальный источник новых, уникальных в типологическом плане сведений, поэтому свобода реферирования не ограничивалась запретами на включение в реферат элементов, отсутствующих в абстрактной схеме.

Проблема синонимии терминов, употребляющихся в статьях энциклопедии, - одна из очень сложных и важных.

Было решено пойти по следующему пути: явные (полные) синонимы задаются априорно, в скобках после "базового" (выбранного в качестве предпочтительного) термина и со знаком " = "; среди всех прочих синонимов отдается предпочтение тем, которые имеют греко-латинскую основу. Так, "увулярный" предпочтительнее, чем "язычковый", "фиксиро-ванность" предпочтительнее, чем "закрепленность" и т.д.).

Мы собирали отзывы на рефераты, сделанные авторами прореферированных статей, и они были в основном положительны. В них отмечалась информативность рефератов, их лингвистическая корректность и объективность, лаконичность, отражение существенных черт и специфики языков мира.

Мы вполне отдаем себе отчет, во-первых, в субъективности материалов, послуживших основным источником сведений о языках мира (это статьи энциклопедии "Языки мира", написанные хотя и по единой схеме, но разными авторами, находящимися под влиянием как своего родного языка, так и той группы языков, изучению которой посвящена их научная деятельность), во-вторых, в субъектиности референтов, преобра-

зующих данные сведения в рефераты, в-третьих, в субъективности выбранного метода присвоения строкам модели весовых коэффициентов. Именно поэтому проведенные исследования и были названы пилотажными - они призваны служить базой для уточнения проделанной работы и основой для проведения многих других возможных исследований, базирующихся на созданной базе данных.

Раздел 1.5 посвящен освещению проблемы грамматикона - (универсального, конкретно-языкового и частных), названных так по аналогии с лексиконом перечнями всех грамматических категорий и явлений. Термин был введен Ю.Н.Карауловым. Эти категории и явления представляют собой строки реферата, совокупность его элементарных записей.

На основании грамматических категорий и явлений, имеющихся в модели и в рефератах, был создан тезаурус грамматических категорий и явлений - он обогащает знания о грамматике, накопленные лингвистами разных школ и направлений к настоящему моменту, и является первой приблизительной моделью «грамматикона».

Наряду с универсальным набором грамматических явлений - универсальным грамматиконом - мы также можем получить для каждого конкретного языка проекцию на него универсального грамматикона, т.е. присущие именно этому языку грамматические категории. Такой грамматикой будем называть конкретно-языковым грамматиконом.

Внутри универсального и любого конкретно-языкового грамматико-на, в свою очередь, можно выделить его части, составляющие компоненты - частные грамматиконы (или таксоны). Таковыми будут следующие: для категории "имя" - ономастикон, для категории "число" - ну-мерикон, для категории "падеж" — птотикон, для "глагольных категорий" - вербатикон, для "дейктических категорий" - дейктикон.

(Все названия частных таксонов условны, за основу взяты греко-латинские корни как интернационализмы. Большую помощь в выборе этих названий оказала Н.В.Васильева). Итак, мы имеем грамматикон и его виды - универсальный, конкретно-языковой и частный.

Аналогично можно представить себе универсальное описание таких категорий, некоторые из которых можно считать грамматическими лишь условно, например, такие, как "просодические явления" (условно просо-дикон), "фонетически обусловленные процессы" (фонотактикон), "фонологическая структура" (фонотипикон), "слог" (силлабикон), "морфологический тип языка" (морфотипикон), "части речи" (партикон), "парадигмы" парадигматикон), "структура словоформы" (форматикон),

"словообразование" (дериватикон), "простое предложение" (сентенси-кон), "сложное предложение" (комплексикон). Можно даже по аналогии сформировать перечень всех встретившихся видов письменности (алфавитов, почерков в их границах и т.п.), и назвать его, скажем гра-фикон. Итак, мы имеем грамматикон и его виды - универсальный, конкретно-языковой и частный.

Универсальный графикон дает перечень всех разновидностей данного алфавита, типов направлений письма (по горизонтали, по вертикали, сверху вниз, снизу вверх и т.п.).

К сожалению, пока нет возможности сформировать универсальный фонематикон, поскольку в модели языка, действующей в рамках нашей компьютерной базы данных, не представилось возможным указать сведения о совместимости/сочетаемости отдельных артикуляционных признаков.

На основе универсального грамматикона был построен тезаурус грамматических категорий и явлений. Как и любой словарь, он будет источником информации (в данном случае, грамматической), а его нестандартная схема словарной статьи, разработанная автором, внесет определенный вклад в лингвистическую терминологию.

Тезаурус (от греч. thesaurus - сокровище, сокровищница) - 1) словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем примеров их употребления в текстах; 2) идеографический словарь, в котором показаны семантические отношения (родо-видовые, синонимические и др.) между лексическими единицами. Тезаурус в первом значении в полном объеме осуществим лишь для мертвых языков, ср. "Thesaurus linguae latinae" (с 1900). К этому типу приближается, например, "Словарь польского языка XVI в." (с 1966).

Для живых языков требование исчерпывающей цитации примеров неосуществимо (ср. попытку изменения типа академического "Словаря русского языка" А. А. Шахматова, т.2, 1907, т.4,1916, и Л.В.Щербы, продолживших работу Я.К.Грота).

Структурной основой тезауруса во втором значении обычно служит иерархическая система понятий, обеспечивающая поиск от смыслов к лексическим единицам (т.е. поиск слов, исходя из понятия). Для поиска в обратном направлении (т.е. от слова к понятию) используется алфавитный указатель. Так, например, построен тезаурус П. М. Роже "Roget's thesaurus of English words and phrases" (1852), от названия которого в лексикологическую практику вошло второе значение термина "Тезаурус".

Наш словарь-тезаурус, конечно, относится ко второму типу, он обогащает знания о грамматике, накопленные лингвистами разных школ и направлений к настоящему моменту, и является первой приблизительной моделью «грамматикона». Как написано в статье «Словарь» Лингвистического Энциклопедического Словаря (ЛЭС, с.462), «в них (словарях) отражаются знания, которыми обладает данное общество в определенную эпоху».

Тезаурус строился с использованием всех лингвистических классов модели.

Следует отметить некоторую условность включения всех вышеперечисленных классов модели в тезаурус грамматических категорий и явлений. Мы вполне осознаем такую условность, но считаем ее оправданной, потому что хотим отразить в нашем тезаурусе всю словарную статью (а точнее, ее реферат) полностью. Всё, что касается морфологии и синтаксиса, вполне можно считать грамматикой. Довольно спорно, конечно, отнесение к этому классу всевозможных фонологических и просодических явлений (но это продиктовано уже упоминавшимся стремлением к полноте и всеохватности, а также емкостью и большим деривационным потенциалом предложенного Ю.Н.Карауловым термина грамматикон).

Все элементы - входы в тезаурус - расположены в алфавитном порядке. Отметим, что в качестве элементов (входов в тезаурус) мы НЕ брали такие параметры, которые, на наш взгляд, являются малоинформативными для изучения общей структуры языка и для целей определения общности/различия языков.

Для описания каждого элемента (строки модели или ее части в случае неоднословного элемента) мы использовали определенные «зоны» или единицы метаязыка (их названия в тезаурусе даны жирным шрифтом). Все зоны условно делятся на три группы: статусные, конкретизаторы, уточняющие роль признака в структуре тезауруса, и имплицированные -такие уточняющие зоны, которые необходимо помимо конкретизаторов добавить в словарную статью. Как следует из названия, введение этих зон продиктовано характером имеющегося материала. Если указан некий конкретизатор, например, «синкретическое выражение», то логично и даже необходимо указать перечень признаков, выражаемых синхронно с заглавным.

В диссертации перечислены названия зон словарной статьи тезауруса, которые понимаются не совсем традиционно, в отличие от такихх традиционно употребляемых как оппозиция, оппозит, синоним, антоним, квазисиноним, квазиантоним.

В качестве входов (заголовков словарных статей) выступают обычно термины (а точнее говоря - строки), применяющиеся в модели языка (базе данных). Их словоизменительные варианты (слова, отличающиеся от заглавного по роду, числу и пр.) считаются априорно эквивалентными заглавному слову (это относилось и к некоторым изменениям плана выражения, морфологически обусловленным чередованиям, и словообразовательным, и словоизменительным; лишь только в том случае, если такой словоизменительный или словообразовательный вариант имел другую семантическую (в плане репрезентирующего понятия) окраску, он приводился как синоним (или квазисиноним) заглавного слова.

В разделе 1.6 описывается система указателей, составленная по базе данных с помощью специальных алгоритмов и программ.

В данном разделе описывается разработанная нами форма представления всех указателей: географического, генетического, систематического предметного и алфавитного предметного.

Цель географического указателя - дать читателю возможность узнать, какие языки распространены в интересующей его стране или регионе.

Входом в указатель может быть название некоторой географической единицы (страны, области), отсылкой - перечень языков, распространенных в пределах этой географической единицы.

Целесообразно включить в географический указатель информацию социолингвистического характера, содержащуюся в индивидуальной части реферата в классе «Статус языка», а также снабдить каждый мертвый язык пометой (м.), а языки позднейших миграций пометой (я.п.м.). Предполагается, что входы в указатель должны иметь следующий вид: наименование географической единицы и со сдвигом - перечень распространенных в ее пределах языков, а в скобках - наименование тех функций (статусов), в которых выступают описанные в энциклопедии языки в пределах этой географической единицы.

В указателе при таком способе организации информации появляются два иерархических построения: иерархия географических и политико-административных единиц и двухступенчатая иерархия, в которой вышестоящим уровнем является какая-либо географическая единица, а нижестоящим - названия и статусы языков в пределах этой единицы (государственный, разговорно-обиходный, религиозно-культовый и т.д.). Сразу же возник вопрос: каковы должны быть географические единицы, служащие входами указателя? Ведь часто недостаточно иметь информацию о распространении языков по таким крупных единицам, как страны.

Для России, например, перечень распространенных в ней языков очень велик, и весьма желательно иметь более точные сведения о том, какие именно языки распространены в тех или иных республиках, областях, автономных округах и т.п. Кроме того, существуют языки, для которых в статьях энциклопедии в качестве области распространения указаны не единицы современного политико-административного деления, а исторические области (Крым, Кавказ, Средняя Азия и т.п.); особенно часто такие указания встречаются в статьях, описывающих мертвые языки.

Мы пришли к выводу, что географический указатель должен быть построен по смешанному алфавитно-систематическому принципу. Все названия географических единиц, которые встречаются в статьях энциклопедии (кроме, может быть, самых мелких, таких как селения или аулы), должны быть включены в указатель в качестве входов в едином алфавитном порядке. Часть их получит отсылки к другим входам в указатель типа «см.Х». Обычно это отсылки к более крупным географическим единицам (чаще всего к названию страны), приведенному в указателе. Крупные географические единицы должны быть представлены с указанием входящих в них более мелких географических единиц и их иерархии, т.е. фрагментов систематического указателя. Отсылки в виде перечня названий языков могут соответствовать географической единице любого уровня иерархии.

Приведем в качестве примера фрагмент географического указателя:

айвилингмиут гов. < иглулик диал.иннуитов Канады яз.

иглулик диал. < инуитов Канады

инуитов Канады < инуитские

инуитские < эскимосско-алеутские

эскимосско-алеутские < палеоазиатские

Полностью географический указатель приводится в приложении к диссертации.

Генетический указатель должен отражать группировку языков мира, т.е. вхождение их в семьи, группы, подгруппы, а также вхождение говоров, наречий, диалектов и диалектных групп в те или иные языки.

В каждом реферате приводится цепочка последовательных включений языка в подгруппу, группу и семью языков.

Проанализировав многочисленные варианты генетического указателя, мы решили, что наиболее удачным является сохранение того же основного принципа фиксации генетической информации, который применяется в рефератах, т.е. от меньшей генетической единицы к большей.

Необходимо, чтобы читатель смог найти по генетическому указателю сведения, в какой статье энциклопедии следует искать интересующий его диалект или другую меньшую, чем язык, единицу. Это приводит к необходимости выделения в указателе тех единиц, которые являются заголовками статей энциклопедии, что легко осуществимо с помощью полужирного шрифта.

Генетический указатель отражает информацию о включенности более мелких генетических единиц в более крупные и указание соотношения между названиями различных генетических единиц (в том числе синонимическими и историческими названиями) и заглавиями статей энциклопедии.

Отсылкой для указанных входов служит либо название более крупной генетической единицы, либо синонимичное название, употребляющееся в статьях энциклопедии (для вариантов названий и исторических названий языков и диалектов). Для названия семьи языков, выступающего в качестве входа, отсылка не указывается, поскольку это наиболее крупная генетическая единица. Возможна также отсылка типа "язык-изолят". Вход и отсылка связываются знаком "<" при наличии отношения включения и знаком "=" при наличии синонимического отношения.

Приведем несколько примеров пар типа "вход - отсылка" из генетического указателя:

македонский < южнославянские южнославянские < славянские славянские < индоевропейские хевсурский диал. < грузинский

моркинско-сернурский гов.< луговой марийский диал. луговой марийский диал. < марийский

Во второй главе «Применение базы данных в лингвистических исследованиях» рассматривается: использование базы данных для совершенствования труда педагогов, переводчиков, студентов и лингвистов, автоматизированный перевод базы данных на английский (в принципе на любой другой) язык, а в соответствии с этим выпуск рефератов и указателей на английском (или других) языках, а также другие задачи, которые могут быть решены при помощи того способа представления информации, который применяется в разрабатываемой системе.

Это также автоматизированный поиск информации, создание формальной (основанной на сравнении имеющихся в языках категорий и яв-

лений) типологии, которую можно использовать для верификации традиционной типологии.

Автоматизация перевода базы данных (модели и рефератов) базируется на том, что можно предварительно перевести на другой язык модель (ее первоначальный, исходный) вариант, а впоследствии вручную переводить те элементы, которые были добавлены в этот исходный вариант модели при обработке статей конкретных языков. Как показывает практика, количество вновь вводимых элементов на каждый реферат незначительно (приблизительно 10% от количества уже имеющихся в исходном варианте модели элементов).

Релевантность при поиске означает не что иное, как «соответствие», свойство смысловой близости между текстами и/или их фрагментами (Жданова и др., 1971, с. 152).

Критерием поиска должен служить признак качества сопоставления, т.е. признак, по которому можно отделить релевантные фрагменты базы данных от нерелевантных.

Применительно к энциклопедии таким аппаратом является алфавитное расположение описаний языков (статей), такой поисковый аппарат как бы "встроен" в саму энциклопедию, а потому является ее внутренним справочным аппаратом. Он обеспечивает ответы на те запросы, где объектом поиска является конкретный язык. По такому "входу", как уже отмечалось, можно найти и языковые явления, характеризующие данный язык. Методом последовательного перебора языков можно найти и другие характеристики, некоторые из которых могут оказаться общими для данного множества языков. Но существуют запросы, где абонента интересует не конкретный язык, а некоторые языковые явления, и при этом неизвестно, в каких языках они встречаются. Ответ на такой запрос можно получить путем сплошного просмотра всех статей, что крайне трудоемко, а потому практически невыполнимо.

В разделе 2.5.3 «поисковые запросы и поисковые предписания» рассматривается поиск по информационным запросам потребителей с использованием специальных алгоритмов поиска.

База данных может служить и удобным инструментом для выявления лакун в описании языков, для получения сведений об импликациях различных характериртик.

В целях создания формальной типологии языков мы опирались на то, что принятая форма представления информации в БД позволяет осуществлять построчное сопоставление рефератов между собой и вычис-

лять количественные показатели, характеризующие степень близости языков на структурном (грамматическом) уровне. Специально разработанная для этой цели программа позволяет осуществлять сопоставление каждого языка с каждым и получить количественные результаты такого попарного сопоставления.

Для этого прежде всего предлагается провести сравнение (построчное) языков разных групп, подгрупп и семей на основе приписывания каждой строке модели некоторого веса, что должно отразить значимость данной строки, т.е. данной категории или явления для описываемого языка.

Составлены, отлажены и описаны программы автоматического определения степени формальной близости языков, использующие разные методы.

В качестве примера в диссертации приводятся результаты сравнения трех языков (айнского, арабского классического и бенгальского) со всеми остальными языками, входящими в базу данных. Полученные данные показывают, какие языки более близки друг к другу, а какие формально более далеки друг от друга.

В качестве одного из возможных методов присвоения весов предлагается следующий: приписывание весов в соответствии со степенью универсальности той или иной категории.

При этом мы считаем, что степень универсальности должна иметь различные градации. На наш взгляд, было бы разумно установить четыре уровня универсальности разной степени: универсалии, фреквенталии, раритарии и уникалии. Следует заметить, что термины универсалии и уникалии употребляются нами не совсем традиционно: универсалии не означают наличия категории абсолютно во всех единицах анализируемой группы, а лишь в достаточно большом их количестве, (эти универсалии можно назвать вслед за Дж.Гринбергом, Ч.Осгудом и Дж.Дженен-кинсом, статистическими), уникалии - не в одной такой единице, как это обычно принято считать, а в малом их количестве.

Мы решили проанализировать, в каком количестве языков рассматриваемой семьи, группы и подгруппы встречается та или иная категория, и в зависимости от этого присваивать ей определенный вес. Если категория встретилась в большинстве (от 75 до 100%) языков, то ей будет присвоен вес 1, если в количестве, превышающем половину (от 50 до 75%), то 2, если меньше, чем в половине (от 25 до 50%), то 3, и, наконец, если в малом количестве (от 0 до 25 %), то 4. Нам представляется, что чем

чаще встречается в анализируемой группе некоторая категория, тем меньше должен быть ее вес, т.к. она является «универсалией» для данной группы, а более редкие совпадающие категории свидетельствуют о ее «уникальности», и их совпадение в языках данной группы говорит об их близости.

Программа LangWorld (самый последний вариант программы, работающий с базой данных «Языки мира»), предусматривает поиск строк модели в рефератах, для чего нужно просто ввести искомые строки с логическими отношениями между ними («не», «и», «или») и нажать кнопку «поиск». Через некоторое время на экране появится список языков, в рефератах которых содержатся искомые строки, а также цифра, указывающая на общее количество таких языков. Это очень удобно для определения процента языков, имеющих данную категорию. При этом можно также устанавливать фильтр для поиска только в пределах заданной группы языков.

Категории, получившие вес 1, будем называть универсалиями, вес 2 -фреквенталиями, вес 3 - раритариями, а вес 4 - уникалиями.

Такое присвоение весов в зависимости от степени универсальности категории или явления позволит нам решить две задачи: 1) определение кластеров («пучков» характерных признаков) для крупных единиц языковой систематики (подгрупп, групп и семей) и 2) установление формальной близости языков для верификации традиционной типологии.

Определение кластеров в некотором роде аналогично элементам компаративистики на формальном уровне, так как они выявляют общие для подгрупп, групп и семей языков характеристики. Эти параметры наиболее общего плана - универсалии и фреквенталии - дают представление о квази-универсальном строении единицы, что аналогично описанию семьи или группы языков в каждом томе энциклопедии «Языки мира» и некоторым образом верифицирует такое описание, а менее общие характеристики - о ее специфичности по сравнению с другими аналогичными единицами.

Совпадение специфичных категорий для некоторых языков в рамках исследуемой группы дает возможность говорить об их типологическом сходстве.

Это позволяет решить вопрос о более точном отнесении некоторого языка к определенной семье или группе, если до сих пор такая отнесенность допускала разные (альтернативные) варианты, а также формальное отнесение языка к группе языков-изолятов.

Таким образом, мы построим так называемую формальную типологию, базирующуюся на системной организации языка.

В хорошо организованных (жестко структурированных) системах, каковой и является предложенная нами запись информации о языках в базе данных «Языки мира», изменение одного ее элемента влечет за собой изменения в других точках системы. Различные подсистемы языка развиваются с неодинаковой скоростью. Именно поэтому мы выбрали фонологию, грамматику и синтаксис как основу для описания структуры языка и отказались от описания лексики и грамматики как плохо формализуемых или с трудом поддающихся формализации, стандартизации и унификации систем языка.

Когда мы сравнивали рефераты языков с проставленными для каждой строки весами по уже имеющейся программе сравнения, то в результате получили искомую численную величину степени близости языков.

Наиболее важным из проделанного анализа является вывод о том, что во многих случаях автоматизированный поиск рационально проводить не по массиву рефератов, составляющих базу данных, а по одному из указателей, содержащихся в памяти компьютера, и которые можно рассматривать как самостоятельные поисковые массивы. Существуют такие запросы, ответы на которые требуют комбинированного поиска, т.е. поиска не только по рефератам или отдельному указателю, а по обоим видам поисковых массивов.

Как показывает проведенный статистический анализ, из общего количества собранных мной в 1985 г. многоаспектных запросов потребителей требуют поиска по одному из указателей 28, комбинированного поиска - 17, что в сумме составляет 43% или почти половину анализируемых запросов. Остальные запросы требуют отдельного рассмотрения.

Все это является веским основанием для того, чтобы считать, что, для осуществления эффективного автоматизированного поиска, база данных, представленная в виде множества рефератов, должна быть определенным образом адаптирована. Такая адаптация может быть осуществлена за счет включения в базу данных указателей, полученных на предшествующем этапе работы системы.

Систематический указатель становится в системе основным массивом, а все остальные выступают в качестве вспомогательных компонентов. Систематический указатель синтезирует в себе одновременно и модель реферата, и массив рефератов. Реальные рефераты находят в нем

именований языков, поставленных в соответствие языковым явлениям, содержащимся в его левой части.

Модель реферата в определенной степени дублирует в базе данных массив реальных рефератов, а поэтому в принципе может являться его заместителем. Если это так, то можно предположить, что наличие реальных рефератов в базе данных не является обязательным. Развивая это предположение, можно допустить, что в том случае, если для удовлетворения определенного вида запросов в качестве ответа на них потребуются не фактографические данные, а сам реферат или какие-либо его фрагменты, то такой реферат может быть выведен из информационной модели. Это может оказаться вполне возможным при наличии специального алгоритма и программ, являющихся «обратными» по отношению к программам составления указателя.

Реализация такой программы позволила бы исключить если не полностью, то хотя бы частично массив рефератов из базы данных, что способствовало бы значительной экономии машинной памяти и времени обработки информации.

Если же провести сравнение частных грамматиконов и их фрагментов, в которых, по нашему мнению, отражены особенности восприятия реальной действительности разными этносами, что определяется условиями его жизнедеятельности (к таким фрагментам частных граммати-конов можно, например, отнести конкретные наборы падежей (птоти-кон), набор местоименных форм и средств пространственной ориентации (дейктикон), такие глагольные категории, как набор различных форм наклонений, категорий модальности, способа действия (вербати-кон) и некоторые другие, то подобные исследования могут помочь в описании картины мира у разных этносов.

Раздел 2.6. посвящен банку данных. Термин "банк данных" появился в середине 60-х годов и первоначально применялся для обозначения совокупности взаимосвязанных массивов, находящихся под общим управлением.

В дальнейшем для обозначения такого рода массивов информации чаще стал применяться термин "база данных".

Одновременно изменились и требования к этим массивам. Основным из них, очевидно, можно считать требование, заключающееся в том, что в базе данных элементы должны быть связаны между собой, причем преимущественно не на основе каких-либо внешних формальных при-

знаков, а на основе отношений, отражающих закономерности функционирования моделируемых объектов.

В настоящее время под базой данных понимают "именованную совокупность данных, отображающую состояние объектов и их отношений в рассматриваемой предметной области." (Кокарева Л.В., Милошилин И.И. Проектирование банков данных. М, 1984, с.8). Понятие "банк данных", применяемое в настоящее время, является более широким, чем "база данных". Оно определяется как система "программных, языковых, организационных и технических средств, предназначенных для централизованного накопления и коллективного использования данных". (Там же).

Следует подчеркнуть, что банк данных представляет собой систему, включающую в себя все необходимые средства для решения стоящих перед ним задач. Основным компонентом является база данных, в которой сосредоточена вся фактографическая информация, ее свойством является централизованный принцип формирования. База данных может постоянно изменяться, дополняться, подвергаться декомпозиции без изменения общих принципов ее организации. Другим не менее важным свойством базы данных является то, что она рассчитана на коллективное использование содержащейся в ней информации. В этой связи база данных должна быть максимально приближена к потребителю, который должен иметь возможность непосредственного доступа к ней. Такая возможность наиболее полно реализуется в так называемом диалоговом режиме, что и определяет ее особенности как поискового массива.

Для реализации этого свойства в качестве одного из основных компонентов они должны содержать так называемую базу знаний, которая может быть включена в базу данных или выделяется в самостоятельный информационный массив. База знаний содержит в себе следующие основные компоненты:

1) Сведения, которые отражают закономерности, существующие в предметной области, и позволяют, как выводить новые факты, имеющие место в данном состоянии проблемной среды, но не зафиксированные в базе данных, так и прогнозировать потенциально возможные состояния;

2) Сведения о структуре и содержании базы данных;

3) Сведения, обеспечивающие понимание входного языка, т.е. перевод исходных вопросов и утверждений на внутренний язык.

Основной функцией базы знаний является обеспечение эффективного управления базой данных.

Важным компонентом базы данных является так называемое лингвистическое обеспечение, предназначенное для перевода запросов с входного естественного языка на язык внутреннего представления информации в банке данных. Лингвистическое обеспечение может как входить в состав базы знаний, так и быть самостоятельным массивом. Необходимым компонентом банка данных является комплекс программ, обеспечивающих внутримашинное формирование и ведение базы данных, а также обращение к ней. Совокупность указанных компонентов в их связи и взаимодействии составляет общую структуру банка данных.

Существует необходимость в проведении анализа запросов, требующих автоматизированного поиска с точки зрения определения того, какие требуются преобразования и дополнения базы данных для адаптации ее к задаче автоматизированного многоаспектного поиска информации.

С этой целью специалистам, представляющим различные разделы языкознания, после кратких пояснений о составе энциклопедии и форме представления в ней информации было предложено сформулировать запросы, являющиеся актуальными для них с точки зрения решаемых ими проблем. В результате мной было собрано 200 запросов, характеризующихся большим многообразием, в частности, с точки зрения поиска необходимой информации. В этом плане наиболее простыми являются запросы, в которых необходимо установить наличие или отсутствие какой-либо определенной характеристики в описании конкретного языка.

Все собранные запросы были проанализированы с целью их классификации, а также определения того, в какой степени они могут быть удовлетворены при обращении непосредственно к энциклопедии и какой дополнительный справочный аппарат для этого требуется. В основу методики анализа были положены следующие положения.

Априорно можно считать, что не существует никаких принципиальных причин, чтобы ответы на все анализируемые запросы нельзя было получить только на основе описания языков, содержащихся в энциклопедии. Но ответы на некоторые запросы могут быть получены только в результате аналитико-синтетической обработки информации, локализованной в разных фрагментах энциклопедии. Такая обработка связана с большими трудностями. Во многих случаях ее, очевидно, нельзя считать информационным/ поиском, поскольку она скорее представляет собой своего рода самостоятельное исследование.

Информационный поиск - это такой процесс, выполнение которого в определенной степени формализовано. Такая формализация может быть

осуществлена только в том случае, если имеется какой-либо специальный аппарат для этой цели.

Были выделены группы запросов. Для адекватного ответа на запросы будем моделировать процесс многоаспектного поиска, взяв за основу существующую базу данных, с одной стороны, и запросы рассматриваемого вида - с другой.

Всё многообразие видов информационного поиска может быть расклассифицировано по нескольким основаниям. Такими основаниями являются: тип запроса, тип поискового массива, являющийся наиболее оптимальным для удовлетворения конкретного запроса, критерий выдачи ответа, тип единиц, составляющих ответ, тип поисковых процедур, применяемых для получения ответа и т.д.

Каждый из данных видов поиска в свою очередь может быть разбит на подвиды по другим основаниям.

Такая классификация видов поиска позволяет осуществить дифференцированный подход к различным видам запросов, применяющих наиболее оптимальную стратегию поиска.

Наиболее важным является вывод о том, что во многих случаях автоматизированный поиск рационально проводить не по массиву рефератов, составляющих базу данных, а по одному из указателей, содержащихся в памяти компьютера, и которые можно рассматривать как самостоятельные поисковые массивы.

Существуют такие запросы, ответы на которые требуют комбинированного поиска, т.е. поиска не только по рефератам или отдельному указателю, а и по обоим видам поисковых массивов.

Таким образом, на этапе работы системы в режиме информационного обслуживания специалистов исходное состояние базы данных преобразуется в интегрированную совокупность нескольких определенным образом связанных между собой поисковых массивов, главным из которых является систематический указатель. При этом левая часть систематического указателя уже не является аналогом модели реферата как средства стандартизации процесса реферирования, а представляет собой полную модель энциклопедического описания. Такую модель можно назвать информационной.

Первым этапом содержательной обработки запроса является составление поискового предписания. Оно должно иметь структуру, которая позволяла бы автоматически распознавать тип запроса и осуществлять

выбор соответствующего алгоритма поиска информации, ее обработки и формирования ответов.

Критерии релевантности запроса и выдаваемых в ответ на него сведений в развитых информационно-поисковых системах зависят от способа эксплицитной фиксации смысла искомого документа.

Мы выделяем следующие виды запросов: простые, сложные и распространенные.

Простые запросы сформулированы в тех терминах, которые совпадают с терминами представления информации в базе данных; ответом на них обычно служит перечень языков, в которых содержится то или иное языковое явление.

Сложные и распространенные запросы записываются в виде булевой формулы.

Поисковые предписания составляются на специальном формализованном языке, единицами которого служат наименования данных, встречающихся в запросах в форме слов и словосочетаний. Такие единицы делятся на несколько семантических классов: 1 - языки (от language), k -языковое явление (от kind), g - генетические единицы (от genttic), p -географические названия (от place). Кроме того, выделяются виды данных, которые служат для уточнения запроса, определения его цели. Это различного рода качественные параметры (f- formants), количественные параметры (r - results), а также вид конкретных операций, необходимых для получения ответа (n - number). По своей функции обозначения вида данных 1, k, g, р являются указателями роли, a f, г, п - определителями.

Приведем примеры запросов и их символическое представление -поисковое предписание.

Простые запросы:

В каких языках имеется категория "род"? zl=k/l:n

В каких языках отсутствует залог? z2=k/l:n

Какие залоги есть в грузинском языке? z3=Vk:n

Какие языки входят в уральские? Z4=g/l:n

Какие языки распространены в Италии? z5=po/l:n

В каких языках число падежей меньше 5? z, =k/l:r<5

Распространенные запросы:

Какие признаки гласных есть в романских языках? г7=(1<ё)/к:п

Сколько существует кавказских языков? г8= 1(1<Б)/к:п)

Чем отличаются тюркские языки от монгольских?

Сложные запросы:

В каких языках есть изафет? гю — к/1:п

Где распространены языки с иероглифической письменностью? 2ц=к/1:п —»1/р:п

К каким семьям принадлежат языки Ближнего Востока; СССР?

Дальнейший сбор потенциально возможных запросов, составление соответствующих поисковых предписаний и разработка программы автоматического получения ответов на вопросы, набираемые на клавиатуре компьютера, сможет в будущем позволить создать такой диалог с компьютером, который будет незаменимым подспорьем для лингвистов и всех, кого интересует энциклопедия «Языки мира».

Информационный поиск в отличие от поиска по поисковым предписаниям является более простой процедурой, при которой происходит непосредственное обращение к имеющимся в базе данных массивам информации Поиск по запросам пользователей и составление по ним поисковых предписаний - более сложен и до конца не отлажен как в плане составления соответствующих алгоритмов, так и в плане написания и отладки программ. Сбор потенциальных запросов и составление по ним поисковых предписаний - дело будущего.

В выводах отмечается, что поставленные в диссертации цели достигнуты.

1) Доказано, что созданная в отделе прикладной лингвистики Института языкознания РАН компьютерная база данных «Языки мира» является электронным аналогом издания «Языки мира», его детализацией и конкретизацией типовой схемы статьи о языке, применяемой в этом издании.

2) В работе описано, как можно использовать базу данных для педагогов, переводчиков, студентов и лингвистов; предложен метод автоматизированного перевода базы данных на английский (уже осуществле-

но), а в принципе на любой другой иностранный язык; предложено несколько вариантов сопоставления языков по формальным критериям.

3) Созданная общая схема универсального реферата, называемая «моделью реферата», выступает в роли шаблона при составлении рефератов.

4) Имеющиеся программы сопоставления языков, основанные на разных критериях соответствия, позволяют создать так называемую формальную типологию языков - материал для верификации традиционной типологии.

5) Составлен тезаурус грамматических категорий и явлений по 330 языкам базы данных. Он написан по принципиально новой схеме словарной статьи, содержащей 3 группы элементов: статусные, конкретизирующие и имплицированные.

6) Составлены географический и генетический указатели к базе данных. Географический указатель позволяет без обращения к энциклопедии определять, какие языки распространены в какой-либо географической единице, и в каком статусе она там употребляется. Генетический указатель дает отсылки от любых генетических единиц к подчиняющим ее более крупным единицам.

7) Разработана система автоматизированного перевода базы данных на английский (в принципе на любой другой) язык.

8) Модель языка и составленные по ней рефераты дают возможность выявить лакуны в описании языков и определить существующие импликации языковых категорий и явлений.

9) Разработанная система составления поисковых предписаний по поисковым запросам потребителей позволяет организовать многоаспектный поиск в базе данных.

10) Описана структура банка данных, обеспечивающая возможность создания диалоговой вопросно-ответной системы по материалам базы данных.

В приложениях представлены следующие материалы: Приложение 1 - Генетический указатель. Приложение 2 - Географический указатель. Приложение 3 - Фрагмент тезауруса, касающаяся видо-временных категорий (часть вербатикона).

Содержание диссертации отражено в следующих публикациях:

Ярославцева Е.И. Методы определения семантической близости текстов // Семантика языковых единиц и текста (лингв. и психолингв. исследования). Сборник статей ИЯ АН СССР. М., 1979. 0,5 а.л. (в соавторстве с Б.В.Якушиным). Мой объем - 0,25 а.л.

Ярославцева Е.И. Критерий близости текстов по содержанию (ситуативный критерий) // Известия АНСССР, Сер. лит. и языка, т. 39, № 6, М., 1980. 0,2 а.л. (в соавторстве с Б.В.Якушиным). Мой объем - 0,1 а.л.

Ярославцева Е.И. Семантические сферы информационного анализа и поиска // Некоторые вопросы анализа поиска текста и терминосистем (деп.) // ИНИОН АН СССР, № 6252. М., 1980.0,5 ал.

Ярославцева Е.И. Критерий близости текстов по содержанию // Материалы семинара «Статистическая оптимизация преподавания языков и инж. лингвистика». Чимкент, 1980. 0,2 ал. (в соавторстве с Б.В.Якушиным). Мой объем - 0,1 ал.

Ярославцева Е.И. Исследование смысловой близости текстов // Дисс. ... канд. филол. наук. М., 1981.

Ярославцева Е.И. Реконструкция умственных ситуаций как условие установления релевантности текстов // Колл. монография «Лингвистические вопросы сообщений». М., Наука, 1983.0,5 ал.

Ярославцева Е.И. Проблемы семантического означивания при автоматическом установлении содержательной близости текстов // Вопросы семантики в процессах коммуникации. Ульяновск, 1981.0,5 ал.

Ярославцева Е.И. Экспликация смыслового содержания текста и установление релевантности текстов при АПТ // Всес. конф. «Переработка текста методами инженерной лингвистики». Минск, 1982.0,1 ал.

Ярославцева Е.И. Критерий адекватности перевода для текстов различных типов. 0,6 а. л. (в соавторстве с А.И.Новиковым). Мой объем -0,3 ал.

Ярославцева Е.И. Критерий близости текстов и его экспериментальная проверка // Конф. «Семантика и синтаксис в языках народов СССР, народов мира и прикладных информационных системах». М., 1985. 0,2 ал.

Ярославцева Е.И. Влияние лингвистических параметров текста на эффективность речевого воздействия // VIII Всес. симпозиум по психолингвистике и теории коммуникации. М., 1985. 0,2 ал. (в соавторстве с АВ.Михеевым). Мой объем - 0,1 ал.

Ярославцева Е.И. Речевое воздействие и лингвистическое оформление текстов // Респ. научн.-техн. конф. «Психолого-педагогические и лингвистические проблемы исследования текста». Пермь, 1984.0,2 ал.

Ярославцева Е.И. Лингвистическое оформление пропагандистского текста // Сборник «Семантика текста и проблемы перевода». М., Ин-т языкознания, 1984.0,5 ал.

Ярославцева Е.И. База лингвотипологических данных и принципы ее функционирования // Вестник АН СССР, 1985, М, №2 0,8 ал. (в соавторстве с А.И.Новиковым). Мой объем - 0,4 а.л.

Ярославцева Е.И. Энциклопедическое описание языков мира (Теоретические и прикладные аспекты). М., 1986. 10 ал. (в соавторстве с М.А.Журинской и А.И Новиковым). Мой объем - 5 ал.

Ярославцева Е.И. Принципы автоматической обработки информации о языках мира // Матер. III Всес. конф. по теор. вопросам языкознания. М., 1984. 0,8 ал. (в соавторстве с МАЖуринской и А.И.Новиковым). Мой объем - 0,3 ал.

Ярославцева Е.И. Формализованное представление системы знаний о языках мира // Конф. «Оптимизация преподавания языков и инженерная лингвистика». Ульяновск, 1985. 0,1 ал., (в соавторстве с А.И.Новиковым). Мой объем - 0,05 ал.

Ярославцева Е.И. Семантические расстояния в языке и тексте. М., 1990. 15 ал. (в соавторстве с А.И.Новиковым). Мой объем - 7,5 ал.

Ярославцева Е.И. Размышления о языкознании и языке. Эссе // RES Linguistika. Сборник статей к 60-летию В.П. Нерознака. М., Academia, 1999. 0,5 ал.

Ярославцева Е.И. Грамматикой, его виды и аналоги // Язык, сознание, коммуникация. Вып. 10. МГУ, М., 1999.1 ал.

Ярославцева Е.И. Грамматикой и база данных "Языки мира" // Проблемы прикладной лингвистики 2001. М., 2002,1ал.

Yaroslavtseva E.I. Linguotypological Data Bank // Social Sciences.USSR Academy of Sciences. Vol. XVII, No. 3, 1986, (Novikov). 1 ал. Мой объем - 0,5 ал.

Ярославцева Е.И. База данных «Языки мира» как инструмент лингвистического исследования // Вопросы языкознания. 2003, № 3. 0,8 ал. (в соавторстве с ВАВиноградовым, А.И.Новиковым). Мой объем - 0,3 ал.

Ярославцева Е.И. Географический и генетический указатели к базе данных «Языки мира» // Проблемы прикладной лингвистики. Выпуск 2. М., 2004.1 ал.

Ярославцева Е.И. Компьютерная база данных «Языки мира» и формальная типология // Сборник памяти А.И.Новикова. Уфа, 2004, (в печ.), 0,8 ал.

Сдано в печать 25 февраля 2005г. Объем печати 1 п.л. Заказ № 528. Тираж 000 экз. Отпечатано: ООО «Спринт-Принт» г. Москва, ул. Краснобогатырская, 92 тел.: 963-41-11,964-31-39

? * V f

( Y ' -

s I ^ ~ -2 2 MAP 2005 ** : y

К „^

 

Оглавление научной работы автор диссертации — доктора филологических наук Ярославцева, Елена Игоревна

Предисловие

• Введение

Часть I. Компьютерная база данных «Языки мира»

1.1 История вопроса

1.1.1 Задачи справочного аппарата энциклопедии «Языки мира»

1.1.2 Издание «Языки мира». Типовая схема статьи

1.1.3 Реферат как свернутое энциклопедическое описание

1.2 Компьютерный аналог энциклопедии «Языки мира»

1.2.1 Абстрактная схема реферата

1.2.2 Требования к реферату

1.3 Модель реферата 54 ^ 1.3.1 Детализация и конкретизация типовой схемы статьи о языке

1.3.2 Уровни иерархии элементов реферата

1.3.3 Классифицирующие и фактографические элементы

1.3.4 Способы задания характеристик

1.3.5 Языки, представленные в базе данных

1.3.6 Модель реферата в базе данных

1.4. Процесс реферирования

1.4.1 История создания программы

1.4.2 Инструкция к программе автоматического реферирования

1.4.3 Инспекция реферата 147 ® 1.4.4 Редактирование рефератов

1.4.5 Принципы адекватного реферирования

1.4.6 Примеры фрагментов статей и их рефератов

1.4.7 Отзывы на рефераты

1.4.8 Проблема синонимии в модели 170 ^ 1.5. Грамматикон (универсальный, конкретно-языковой и частные)

1.5.1 Тезаурус грамматических категорий и явлений

1.5.2 Определения тезауруса

1.5.3 Тезаурус как модель грамматикона

1.5.4 Схема словарной статьи тезауруса

1.5.5 Тезаурус как указатель

1.5.6 Фрагмент тезауруса, упорядоченного по алфавиту 194 Ф 1.6 Система указателей как справочный аппарат энциклопедии «Языки мира»

1.6.1 Географический указатель

1.6.2 Генетический указатель

1.6.3 Предметные указатели - систематический и алфавитный 231.

1.6.3.1 Алфавитный указатель

1.6.3.2 Систематический указатель 233 Часть II. Применение базы данных в лингвистических исследованиях 2.1 Применение базы данных для педагогов, переводчиков, студентов и лингвистов ф 2.2 Автоматизированный перевод базы данных

2.3 Автоматизированный поиск информации

Ь 2.4 Формальная типология языков

2.4.1 Возможные пути решения проблемы

2.4.2 Инструкция к программе сопоставления языков

2.4.3 Верификация традиционной типологии

2.4.4 Примеры проведенного сопоставления языков

2.4.5 Веса в зависимости от степени универсальности категории

2.4.6 Функционирование базы данных 258 2.5 Банк лингвотипологических данных

Ф 2.5.1 Определение основных понятий

2.5.2 Структура банка лингвотипологических данных

2.5.3 Поисковые запросы и поисковые предписания 273 Заключение 285 Выводы 292 Литература 294 ТОМ II. Приложения

 

Введение диссертации2005 год, автореферат по филологии, Ярославцева, Елена Игоревна

Прикладная лингвистика - довольно новое направление в языкознании, которое занимается разработкой методов решения практических задач, связанных с использованием языка.

Начиная со второй половины 20-го века, прикладной лингвистикой рассматриваются методы решения указанных задач не только человеком, но также и автоматами - электронными вычислительными машинами. В связи с этим стали употребляться также термины «вычислительная лингвистика», «инженерная лингвистика», «автоматическая лингвистика». Термин «прикладная лингвистика» появился в конце 20-х годов 20 века, когда была осознана необходимость строгого научного решения соответствующих задач с использованием методов формального лингвистического анализа письменных и акустико-лингвистического анализа устных сообщений. Общие методы решения задач прикладной лингвистики разрабатываются теоретическим языкознанием, прежде всего той его областью, которая изучает формальные алгоритмические процедуры анализа языка, а также «математической лингвистикой». Основные направления прикладной лингвистики: автоматическое распознавание и синтез речи, автоматические методы переработки текстовой информации, автоматизация информационных работ, создание автоматизированных систем информационного поиска, автоматических словарей, разработка методов автоматического аннотирования, реферирования и перевода, лингвистическое обеспечение автоматизированных систем управления (АСУ), стандартизация научно-технической терминологии. - Андрющенко В.М. «Прикладная # лингвистика» // Лингвистический Энциклопедический словарь. М., 1990.

ВВЕДЕНИЕ

В связи со сказанным, в Институте языкознания довольно давно (с начала 80-х гг.) ведется разработка базы данных (БД), которая включает в себя свернутые, формализованные и определенным образом структурированные описания языков мира. В настоящее время БД «Языки мира», несмотря на свою незавершенность, находится в такой стадии разработки, когда она вполне может уже использоваться и как инструмент лингвистического исследования, в чем и состоит ее основное назначение В связи с этим главной целью данной диссертации является краткое описание устройства этой БД и тех полезных для лингвистики функций, которые она способна выполнять на данном этапе ее создания.

У истоков создания энциклопедии и БД «Языки мира» стояла член-корреспондент РАН В.Н.Ярцева - автор и руководитель проекта «Энциклопедия «Языки мира». Ей принадлежала идея создания с помощью компьютера справочного аппарата к этой энциклопедии в виде системы указателей. Эта идея трансформировалась затем в проект по разработке базы данных, создаваемой на основе энциклопедии, но позволяющей в дальнейшем выдавать сведения лингвотипологического характера без непосредственного обращения к самому энциклопедическому изданию.

Первоначально в разработке проекта по созданию базы данных принимал участие Борис Владимирович Якушин, но к сожалению, недолго, так как он преждевременно скончался.

В работе по составлению рефератов статей энциклопедии «Языки мира» и введению их в базу данных, а также в составлении модели реферата принимали участие: О.И.Романова, Я.Г.Тестелец, А.К.Валентей, М.Е.Алексеев, Н.Б.Бахтин, В.А.Виноградов, А.В.Дыбо, В.П.Калыгин, И.Ш.Козинский, М.С.Полинская, Н.В.Рогова, Д.И.Эдельман, Н.К.Рябцева.

В начале 90-х годов работы по наполнению базы данных информацией из-за плохого финансирования велись недостаточными силами. Несмотря на это, в этот период старшим научным сотрудником отдела прикладного языкознания Ю.П.Скоканом был разработан комплекс программ, позволяющий осуществлять ввод, редактирование и корректировку информации. На основе данного программного продукта было введено и отредактировано около 200 описаний языков Евразии как на русском, так и на английском языках усилиями автора. В 2000 году к данному проекту присоединился Московский государственный лингвистический университет, где была создана Лаборатория типологических исследований (зав. лабораторией - А.И.Новиков). В соответствии с договором данная тема в настоящее время разрабатывается как совместная. (Виноградов В.А., Новиков А.И., Ярославцева Е.И. База данных «Языки мира» как инструмент лингвистического исследования. // Вопросы языкознания, 2003, №3, с.3-14).

Основной единицей энциклопедии «Языки мира» является статья. Объем статей колеблется от половины печатного листа до нескольких печатных листов. С одной стороны, в связи с большим объемом издания и разнородностью включаемого в него материала алфавитный принцип его организации является единственно приемлемым, поскольку он наиболее универсален. С другой стороны, он не является достаточным, поскольку назначение энциклопедии «Языки мира» не может быть сведено к одной задаче - обеспечить поиск отдельных статей по алфавиту. Энциклопедия должна обеспечить решение самых различных исследовательских задач, что связано с обращением не только к самим статьям, а и к тем сведениям, фактам, которые содержатся в различных местах одной статьи и в разных статьях, находящихся в разных алфавитных зонах энциклопедии. Другими словами, для решения исследовательских задач на базе энциклопедии «Языки мира» потребуется многоаспектный поиск, который не обеспечивается алфавитным расположением статей, вследствие чего этот поиск потребитель должен осуществлять сам. Учитывая значительный объем экциклопедии (она состоит из множества томов), следует предположить, что такой поиск будет связан со значительными трудностями, а в некоторых случаях будет и невозможен.

Все это делает необходимым создание специального справочного аппарата, дополняющего основное издание. Традиционной формой такого справочного аппарата являются различного рода указатели, отражающие тот или иной дополнительный аспект поиска и тем самым компенсирующие в некоторой степени недостатки алфавитного принципа организации словаря или энциклопедии. Но такой справочный аппарат имеет свои ограничения, связанные с тем, что он рассчитан на человека, а значит, не должен содержать в себе много указателей, указатели не должны быть большими по объему и т.д., поскольку в противном случае эффективность их использования значительно снижается. Не последнюю роль здесь играют и те соображения, что справочный аппарат не может приближаться к объему основного издания. Следовательно, справочный аппарат может отразить только какие-то отдельные аспекты, а не все необходимое, тем более, что в момент его создания невозможно предугадать все потребности науки, которые могут возникнуть в будущем.

В период широкого распространения компьютеров, электронной почты, надежных электронных носителей информации и т.п. появляется реальная альтернатива для получения, хранения и распространения научных знаний. С этой целью необходимо решить ряд проблем, связанных с обеспечением эффективного и комфортного использования электроники в повседневной практике научной деятельности ученого. В русле этих проблем и предлагается комплекс компьютерных программ, способствующих как облегчению кропотливых и трудоемких процессов изучения особенностей различных языков, так и расширению круга пользователей энциклопедии «Языки мира» - компьютерная база данных «Языки мира».

Такая база данных обеспечит:

1) эффективное обобщение знаний среди специалистов в области различных языков;

2) создание электронного варианта энциклопедии «Языки мира»;

3) удобное и экономное распространение энциклопедических знаний о языках как в нашей стране, так и за границей.

Хочется надеяться, что по своему научному уровню и практическому значению эта работа займет достойное место в ряду современных концепций баз данных по языкам мира, например таких, как Ethnologue, созданная в Summer Institute of linguistics (www, sil. org/ethnologue/maps), база данных лейпцигских исследователей в Мах

Planck Institute for Evolutionary Anthropology www.emeld.org/workshop/2004/bibiko/bibiko-original.html), база данных M. Драйера (wings, buffalo.edu/linguistics/dryer/database), см. также проект Autotyp Дж. Николз и Б. Бикеля (www.unileipzig.de/~autotyp), представляющий собой попытку объединения нескольких наиболее авторитетных баз. Большой интерес представляет недавно вышедшая монография О.С.Широкова «Языковедение: введение в науку о языке», М., «Добросвет», 2003. Создаваемая в нашем институте база данных «Языки России: социолингвистический портрет» является более частной по сравнению с базой данных «Языки мира» (www.iling.narod.ru) и имеет некоторые сходные с ней области применения.

Цель

Целью данной диссертации является создание компьютерной базы данных «Языки мира», включающей в себя свернутые, формализованные и определенным образом структурированные описания языков мира и описание ее возможных применений в лингвистике и других областях знания.

В связи с этим главной задачей данной работы является краткое описание устройства этой базы данных и тех функций, которые она способна выполнять на данном этапе ее создания и в будущем.

Объект исследования

Языки мира - языки народов, населяющих сейчас (и населявших ранее) земной шар. Общее число от 2500 до 5000 (точную цифру установить невозможно, потому что различие между разными языками и диалектами одного языка условно). (Иванов Вяч.Вс. «Языки мира». // Лингвистический Энциклопедический Словарь. М., 1990).

Предмет исследования

Компьютерная база данных «Языки мира», состоящая из свернутых, формализованных и определенным образом структурированных описаний языков мира.

Исследуемый материал

Статьи энциклопедии «Языки мира», работы языковедов-специалистов по отдельным языковым семьям, устные консультации упомянутых специалистов, статьи Лингвистического энциклопедического словаря.

Положения, вныносимые на защиту

1) Компьютерная база данных «Языки мира» является электронным аналогом создаваемой в Институте языкознания РАН энциклопедии.

2) Компьютерная база данных может предоставить широкие возможности для лингвистических исследований (составление различных указателей, автоматизированный перевод базы данных, автоматизированный поиск информации в базе данных, получение формальной типологии языков).

3) Итеративно пополняемая модель реферата является одновременно и моделью всех языков, содержащихся в базе данных, а значит, после введения в базу всех известных науке языков, может рассматриваться как структурная модель грамматики человеческого языка.

4) Составленные программы сопоставления языков, основанные на разных критериях соответствия, позволяют создать так называемый формальный аналог типологии языков - материал для верификации традиционной типологии.

5) Разработанный тезаурус грамматических категорий и явлений, составленный по оригинальной схеме словарной статьи, это словарь нового типа, т.к. он учитывает многие ранее не применявшиеся в словарных статьях зоны.

6) Географический и генетический указатели к базе данных позволяют без обращения к энциклопедическому изданию определять перечни языков, распространенных в пределах некой географической единицы, и находить генетические единицы, подчиняющие данную.

7) Созданная система автоматизированного перевода базы данных на английский (в принципе на любой другой) язык обеспечивает возможность широкого использования базы данных.

8) База данных даст возможность выявлять лакуны в описании языков и определять импликации языковых категорий и явлений.

9) Система составления поисковых предписаний по поисковым запросам потребителей даст возможность организовать многоаспектный поиск в базе данных.

10) Структура банка данных позволяет создать диалоговую вопросно-ответную систему по материалам базы данных.

Научная новизна

Разработаны принципы и методы компьютерного представления информации о языке - создан компьютерный вариант энциклопедии «Языки мира».

Впервые создана компьютерная база данных, в которой представлены сведения о 330 языках Евразии.

По предложенной методике в будущем возможно введение в базу данных языков других семей, групп и подгрупп. Составление первичной формы описания какого-либо языка значительно упростится и станет более эффективным при использовании модели реферата, которая формируется в базе данных (см. раздел 1.3).

Разработаны схемы словарных статей тезауруса грамматических категорий и явлений, географического и генетического указателей по имеющейся базе данных. По этим схемам составлены упомянутые тезаурус и указатели.

Начата и продолжается работа по созданию формальной типологии языков на основе формальных критериев.

Теоретическая значимость

Разработан нестандартный способ представления множества языковых фактов, относящихся к некоторому конкретному языку, которым является формализованный реферат описания данного языка. Он может быть вычленен из общей структуры базы данных. Содержимое всех строк реферата, как перечень языковых явлений и категорий, составляет так называемую модель реферата (МР). В отличие от рефератов, которые создаются в процессе функционирования базы данных, модель реферата, вернее, ее базовый компонент, создается предварительно на одном из первых этапов построения базы данных.

Реферат имеет идентичную модели структуру, поскольку является результатом включения в него из модели тех языковых фактов (строк), которые присущи данному конкретному языку. Поэтому реферат обычно не состоит из чего-то отличного от содержащегося в модели. Однако предусмотрено так называемое итеративное пополнение модели, т.е. включение в нее после ряда проверок и консультаций со специалистами тех строк, которых до этого в модели не было. Можно считать, что если реферат является основной единицей ввода, хранения и обработки в базе данных, то модель реферата - это инструмент формирования реферата, обеспечения его стандартности, унифицированности и тем самым формализованное™. Поэтому она может рассматриваться как язык внутреннего представления информации в базе данных.

Далее будут введены и объяснены этапы работы: написание статьи по типовой схеме в энциклопедию, составление по ней реферата, введение его в компьютер, составление программы по обработке данных и т.п.

Практическая ценность

Компьютерная база данных «Языки мира» может использоваться в разных областях знания, но в первую очередь в лингвистике. На ее основе уже созданы различные виды указателей к энциклопедии «Языки мира»: географический, генетический, предметный алфавитный и предметный систематический указатели.

Разрабатываются теоретические и методологические основы создания диалоговой вопросно-ответной системы. Указатели дают отсылки от каждой строки модели к статье энциклопедии «Языки мира», где читатель сможет найти более подробную информацию об интересующем его аспекте. Это сокращает затрачиваемое читателем время, и, кроме того, дает каждое явление в контексте (в иерархической структуре), указывает его синонимы и англоязычный эквивалент. В этом плане особый интерес представляет тезаурус грамматических категорий и явлений, составленный по базе данных.

Методы исследования

При создании базы данных применялись и опробовались различные языки программирования, первоначально комплекс программ для данной базы данных был разработан старшим научным сотрудником Ю.П.Скоканом. Они были написаны на языке Clipper и позволяли осуществлять ввод, хранение, инспекцию, редактирование и преобразование рефератов, а также ввод новых строк в модель реферата. Кроме того, этот программный продукт позволяет осуществлять автоматизированный перевод рефератов на английский язык. Программная реализация различных функций позволяет рассматривать процесс формирования базы данных как процесс ее постоянного расширения как по горизонтали (ввод новых языков), так и по вертикали (ввод новых строк в модель реферата).

В настоящее время первоначальное программное обеспечение было перепрограммировано на языке Delphi и адаптировано под Windows. В этой второй версии программного обеспечения была полностью сохранена идеология первой версии. Дополнительно были реализованы функции БД, связанные с информационным поиском.

Также применялись методы и формулы математической статистики, логики и языка исчисления предикатов, лингвистические методы денотативного анализа текста, сравнительно-исторического языкознания, социолингвистики и психолингвистики, метод опроса и анализа потенциальных пользователей базы данных.

Перспективность исследования

Возможности применения базы данных поистине безграничны. Кроме введения в нее всех известных на настоящее время языков мира, формируемая и итеративно пополняемая модель языка даст представление о формализованной структуре человеческого языка вообще. Представляется также возможность исследования с ее помощью психолингвистических, лингво-палеонтологических и лингво-антропологических закономерностей, структурных особенностей разных грамматических категорий, и многое другое.

Лингвистическая типология может с помощью базы данных верифицировать свои гипотезы и положения.

Студенты могут использовать базу данных при написании курсовых и дипломных работ, а также при подготовке к экзаменам. Ученым база данных дает возможность рассматривать исследуемые языковые явления или категории в широком контексте, а программа (пока еще не до конца разработанная), дает перечень языков, в которых присутствует задаваемый элемент модели. Это позволяет сэкономить усилия при обращении к печатному изданию энциклопедии "Языки мира" (не нужно будет просматривать всю энциклопедию с целью найти интересующее Вас явление, достаточно будет обратиться к тому языку из числа описанных в ней, в котором это явление имеется).

Преподавателям важно понять самим и довести до сведения своих учеников различия в структуре родного и изучаемого языка. Простое сопоставление конкретно-языковых грамматиконов родного и изучаемого языков - это первый шаг к осознанию данного различия.

А переводчику следует обратить внимание на адекватность передачи в языке - переводном эквиваленте всех упомянутых способов и видов словообразования. Кроме того, существенны и структурные различия построения единиц текста. Имеется в виду как структура простого, так и сложного предложения, а также порядок следования компонентов при построении дискурса.

Апробация и внедрение

Результаты работы по созданию и ведению базы данных были опубликованы в монографии, ряде статей в отечественных и зарубежных журналах, докладывались на конференциях и семинарах. (Институт языкознания РАН, МГЛУ, Пермский политехнический институт, Уфимский университет).

Используемая терминология

Реферат - сокращенный вариант статьи энциклопедии «Языки мира», содержащий все основные сведения об описываемом языке и представленный в виде специальной формализованной записи, другими словами, это последовательность наименований языковых явлений, записанных в отдельных строках и связанных между собой определенными отношениями (в основном отношениями подчинения .и соподчинения). Каждая позиция (раздел) типовой схемы статьи о языке содержательно соответствует в модели классу языковых явлений.

Модель - средство стандартизации процесса реферирования. Рефераты статей о языках представляют собой свернутые, формализованные и определенным образом структурированные описания языков, отличающиеся стадартизованностью и унифицированностью и составленные по определенному трафарету, в качестве которого выступает модель реферата. Поэтому референт должен составлять реферат путем включения в него строк модели реферата. Кроме того, референту предоставляется право дополнять список характеристик, задаваемый моделью. В этом случае предусмотрен режим добавления строки в модель. Модель сначала создавалась априорно, на основе знаний и опыта лингвистов в разных областях языкознания и при опоре на имеющиеся в энциклопедии описания языков.

Итеративное пополнение модели - добавление в модель тех строк, которых не было в ней на момент составления реферата о некотором языке, но которые необходимы для его описания.

Класс, аспект, подаспект и характеристика - это структурные единицы реферата разных уровней, соответствующие темам, подтемам, субподтемам и микротемам денотатной структуры, (см. А.И.Новиков. Семантика текста и ее формализация. М., 1983).

Тема, подтема, субподтема, микротема — единицы описания статьи о языке (тема - это конкретный язык), подтема, субподтема и микротема - дальнейшие градации описания этого языка.

Лакуна - отсутствие языкового явления или его описания, отмечается в рефератах языков специальными графическими знаками: - О - явление отсутствует, О - явление не описано.

Ведущие точки - способ отражения иерархии элементов, составляющих модель, специальная формализованная запись. Каждый следующий уровень иерархии имеет на одну "ведущую точку" больше, чем предшествующий.

Вес — или весовая категория - цифровое обозначение значимости некоторого элемента для решения конкретной задачи; чем больше вес, тем значимее элемент.

Грамматиком - универсальный, конкретно-языковой и частные — наборы грамматических категорий и явлений в модели языка, в рефератах конкретных языков и в отдельных классах модели.

Фонематикон, ономастикой, вербатикон, просодикой, нумерикон, птотикон, дейктикон, фонотактикон, фонотипикоп, морфотипикон, партикон, парадигматикой, слово-форматикон, дериватикон, сентенсикон, комплексикон, графикон и т.п. - названия частных таксонов грамматикона.

Кластер - «пучок» характеристик языка, группы языков, класса, аспекта модели.

Классифицирующие элементы реферата — элементы, подчиняющие себе другие, классы, аспекты, подаспекты.

Фактографические элементы реферата - элементы, стоящие на самых нижних уровнях иерархии, характеристики, редко подаспекты.

Поисковый запрос - интересующий пользователя базы данных вопрос, касающийся ее содержимого.

Поисковое предписание - формальная запись запроса специальными символами.

Дисплей, панель экрана, реперпые точки, мемо-поле, откатная копия - термины информатики и программирования.

Банк данных - система программных, языковых, организационных и технических средств, предназначенных для централизованного накопления и коллективного использования данных.

Лингво-дистантно-метрика и лингво-палео-генезис — предполагаемые условные названия возможных направлений исследований с применением базы данных «Языки мира».

 

Заключение научной работыдиссертация на тему "Компьютерная база данных "Языки мира" и ее возможные применения"

ВЫВОДЫ

Подводя итоги изложенному, можно сказать, что поставленные в диссертации цели достигнуты.

1) Доказано, что созданная в отделе прикладной лингвистики ф Института языкознания РАН компьютерная база данных «Языки мира» является электронным аналогом издания «Языки мира», его детализацией и конкретизацией типовой схемы статьи о языке, применяемой в этом издании.

Разработаны требования к реферату, к его структуре и единицам, составлены и опробованы программы автоматического реферирования статей энциклопедии (его общей и индивидуальной части). Получены отзывы на рефераты статей от их авторов, они в основном положительны.

2) В работе описано, как можно использовать базу данных для педагогов, переводчиков, студентов и лингвистов; предложен метод автоматизированного перевода базы данных на английский (уже осуществлено), а в принципе на любой другой иностранный язык; составлен вариант получения формальной типологии языков, с помощью которой можно верифицировать традиционную типологию. Предложено несколько вариантов сопоставления языков по формальным критериям.

3) Созданная общая схема универсального реферата, называемая «моделью реферата», выступает в роли шаблона при составлении рефератов. Такая модель была вначале составлена на основе консультаций со специалистами в разных языковедческих дисциплинах, но такая априорная модель не могла включать в себя то огромное количество параметров, которое может встретиться в разных конкретных языках. С этой целью было предусмотрено итеративное пополнение модели теми строками, которых не было в ее априорном варианте, что и было реализовано в программе автоматического реферирования. Это позволяет не потерять ни одной специфической характеристики описываемых языков и получить модель как отдельного языка, так и языковой подгруппы, группы и семьи языков, а в конечном счете, - при завершении (когда-нибудь) описания всех языков мира, - модель человеческого языка вообще.

4) Имеющиеся программы сопоставления языков, основанные на разных критериях соответствия, позволяют создать так называемую формальную типологию языков - материал для верификации традиционной типологии.

5) Составлен тезаурус грамматических категорий и явлений по 330 языкам базы данных. Он написан по принципиально новой схеме словарной статьи, содержащей 3 группы элементов: статусные, конкретизирующие и имплицированные.

6) Составлены географический и генетический указатели к базе данных. Географический указатель позволяет без обращения к энциклопедии определять, какие языки распространены в какой-либо географической единице, и в каком статусе она там употребляется. Генетический указатель дает отсылки от любых генетических единиц к подчиняющим ее более крупным единицам.

7) Разработана система автоматизированного перевода базы данных на английский (в принципе на любой другой) язык.

8) Намечены пути выявления лакун в описании языков и импликаций языковых категорий и явлений.

9) Разработанная система составления поисковых предписаний по поисковым запросам потребителей позволяет организовать многоаспектный поиск в базе данных.

10) Описан банк лингвотипологических данных - основные теоретические положения этой достаточно новой области компьютерной лингвистики, структура такого банка данных. Заложены некоторые теоретические основы создания диалоговой вопросно-ответной системы, позволяющей в автоматическом режиме получать ответы на вопросы специалистов, касающиеся содержания базы данных и характеристик (в том числе качественных и количественных) входящих в эту базу языков.

ЗАКЛЮЧЕНИЕ

Почему так важно изучать все существующие сейчас и существовавшие в прошлом естественные языки? Да потому, что они дают нам возможность понять быт, культуру и "менталитет" других народов. "Ботаники и зоологи, для того чтобы понять мир живых существ, вынуждены описывать разновидности, обитающие во всех частях света; даже вымершие виды подвергались изучению, без которого мы не овладели бы исторической перспективой в данной области. Ученые столкнулись также и с необходимостью сравнить и противопоставить друг другу эти разновидности, разделить их на семьи и классы, изучить различные стадии их развития, их морфологию и таксономию. В науке о языке происходит то же самое". (Б.Уорф. "Лингвистика и логика" // "Новое в лингвистике", вып.1, М., 1970, с. 191.).

Весьма интересным могут оказаться исследования, изучающие взаимообусловленность языковых категорий и способа мышления (условно можно сказать "менталикона"). Не случайно гипотеза лингвистической относительности Сепира-Уорфа до сих пор привлекает внимание лингвистов.

Деление системы языка на уровни помогает увидеть большую и меньшую консервативность его различных составляющих.

Лексикон, грамматикон, прагматикон, выделяемые Ю.Н.Карауловым и другими лингвистами, достаточно хорошо демонстрируют подвижность или ригидность тех или иных составляющих языка.

Самая подвижная и быстро изменяющаяся сфера - это прагматика, изучающая функционирование языковых знаков в речи, и связанная с говорящим субъектом, адресатом, их взаимодействием в коммуникации, с ситуацией общения.

Совершенно очевидно, что эта область никоим образом не может быть одинаковой не только для различных языков, но и для различных коммуникативных ситуаций.

В более жестко фиксированной лексике тоже, хотя и в меньшей степени, находят отражение открытость и динамизм языка. С одной стороны, старые слова отходят на второй план, а с другой, - идет пополнение словарного состава, стилистическая дифференциация слов и их значений, что обогащает выразительные средства языка. "Лексика прямо или косвенно отражает действительность, реагирует на изменения в общественной, материальной и культурной жизни народа, постоянно пополняется новыми словами для обозначения новых предметов, явлений, процессов, понятий» (ЛЭС, ст. "Лексика"). Вспомним широко известный пример о наличии более двадцати слов, обозначающих снег в различных его состояниях в чукотском языке. Для данного этноса подобное различие было актуально в связи с условиями жизни данного этноса. Вот как об этом пишет В.А.Звегинцев: "Сравните чрезвычайно подробную номенклатуру обозначений различных состояний льда, снега и мороза у северных народов или весьма дробное обозначение видов растительности и их стадий роста у южных народов, очень богатую синонимику, связанную у скандинавских народов с мореплаванием и рыболовством, а у арабских народов - с верблюдами, конями, водой и т.д. Эта категория языковых различий прямо и непосредственно обусловлена многообразием форм действительности и условий общественного опыта". (В.А.Звегинцев. Теоретико-лингвистические предпосылки гипотезы Сепира-Уорфа. // "Новое в лингвистике", вып.1, М., 1970, с.123-124.).

Язык отражает массовое мышление, он реагирует на все изменения и нововведения, но реагирует слабо и медленно, тогда как в сознании производящих изменения это происходит моментально" (Б.Уорф, "Отношение норм поведения к языку" // "Новое в лингвистике", вып.1, М., 1970, с.164.). Следовательно, изучая какой-либо язык, мы можем проникнуть в мир, в сознание и условия жизни того народа, который на нем говорит или говорил.

В кругу современных гуманитарных наук лингвистическая палеонтология обнаруживает особенно тесные связи с исследованиями в области архаичного сознания, социальной антропологии, этногенеза, истории первобытного общества, истории материальной и духовной культуры". (В.Н.Топоров. ЛЭС, ст. "Палеонтология лингвистическая", с. 361).

Изучение древних ("мертвых") языков важно со следующих точек зрения: дешифровка древних рукописей (вообще древних текстов в любой форме фиксации) позволяет локализовать и датировать памятники материальной культуры древних, проследить исторические периоды развития исследуемого языка, время выделения родственных языков-потомков и т.п.

Нет нужды говорить о необходимости изучения современных, функционирующих в настоящее время языков. Это связано с разработкой грамотной социальной политики в многоязычных регионах, с проблемами адекватного перевода, наконец, с попыткой понять психологию и культуру другого народа.

Неоднозначность лексических единиц и выражаемых ими понятий, наличие коннотативных значений и часто не осознаваемыми носителями языка внутренних форм слов ведет к трудностям при переводе текстов с одного языка на другой (этой проблеме посвящены многие отечественные и зарубежные публикации).

Грамматика более консервативна, т.к. возникает и функционирует в ходе длительного приспособления к коммуникативным потребностям членов общества. Это строевая основа языка, имеющая дело с абстракциями, обобщениями. Об этом, в частности, см.: Ярославцева. Грамматикон, его виды и аналоги. // Язык, сознание, коммуникация. Вып. 10. МГУ,М., 1999.

Поэтому одним из наиболее перспективных путей представляется изучение грамматики различных языков, сопоставление таких грамматик, создание исчерпывающего (по возможности) перечня грамматических категорий и явлений, выработанных человечеством в ходе его "лингвистического" развития.

Посмотрим, что же собственно изучает грамматика.

К грамматическому значению слова относятся: его значение как части речи, т.е. как единицы, принадлежащей к определенному лексико-грамматическому классу, его словообразовательное значение (в производном слове) и все его общие и частные грамматические значения (у имени - значения рода, числа, падежа, у глагола - значения вида, залога, времени, лица, числа, наклонения, в ряде форм также значение рода).

Кроме того, у многих знаменательных слов есть и более частные грамматические значения, принадлежащие отдельным их группам, а также так называемые лексико-грамматические значения".

Н.Ю.Шведова. ЛЭС, ст. "Грамматика", с.114).

Языки мира различаются: 1) по количеству и составу грамматических категорий (ср., например, специфическую для некоторых языков - славянских и др. - категорию глагольного вида; категорию грамматического класса - человека или вещи - в ряде иберийско-кавказских языков; категорию определенности/ неопределенности, присущую преимущественно языкам с артиклем; категорию вежливости, или респективности, характерную для ряда языков Азии, в частности японского и корейского, и связанную с грамматическим выражением отношения говорящего к собеседнику и лицам, о которых идет речь); 2) по количеству противопоставленных членов в рамках одной и той же категории (ср. шесть падежей в русском языке и до сорока - в некоторых дагестанских; 3) по тому, какие части речи содержат ту или иную категорию (так, в ненецком существительные обладают категориями лица и времени). Эти характеристики могут меняться в процессе исторического развития одного языка (ср., например, три формы числа в древнерусском, включая двойственное, и две - в современном русском языке). (В.В.Лопатин. ЛЭС, ст. "Грамматическая категория", с.115).

К сфере научной грамматики относятся сравнительно-исторические грамматики, изучающие строй родственных языков в их развитии или на отдельных прошлых ступенях этого развития, и грамматики сопоставительные (в том числе контрастивные), описывающие черты сходства и различия в строе родственных или неродственных языков в какой-либо определенный момент их существования.)". (Н.Ю.Шведова. ЛЭС, ст. "Грамматика", с. 115).

Создаваемая в Институте языкознания компьютерная база данных "Языки мира" основывается на т.н. "Модели реферата" (см. Журинская и др., 1986). Именно эта модель (итеративно пополняемая конкретными микротемами (значениями категорий), присущими каждому из добавляемых в базу данных языков), и представляет собой некий универсальный грамматикон, т.е. перечень всех наличествующих в языках мира грамматических значений, подчиненных той или иной грамматической категории.

Реализация проекта по созданию многоаспектной информационной системы стала возможной в результате интеграции опыта различных школ и направлений в лингвистике. Была проделана широкомасштабная работа по сбору и анализу конкретных материалов по языкам мира, найдены единые принципы описания языков различного типа - ключ к решению проблемы их сопоставимости. Для программной реализации разработанных алгоритмов был создан универсальный терминологический аппарат описания различных языковых явлений.

Подробнее об универсальном грамматиконе можно узнать из ст.: Ярославцева. Грамматикон, его виды и аналоги // Язык, сознание, коммуникация, МГУ, 1999, вып. 10.

И это только один пример возможных исследований в области языкознания, ставших возможными на современном этапе.

А сколько еще важного и полезного предстоит открыть в данной области! Поэтому особенно обидно то снисходительнопренебрежительное отношение к науке о языке, которое часто высказывают представители так называемых "технических" наук.

Полемизируя с ними, хочется подчеркнуть ту громадную роль, которую играет язык во всех сферах жизни и деятельности человека.

Вначале было слово", сказано в Библии, т.е. само появление человека как вида неразрывно связано с языком. А все существующие сейчас, прошлые и будущие аспекты деятельности людей возможны только потому, что существует язык, с помощью которого можно мыслить, а также фиксировать и передавать информацию. Даже, казалось бы, такая далекая от использования языка область, как балет, нуждается в либретто (т.е. в словесно-языковой фиксации сюжета), в словесных указаниях режиссера и балетмейстера, в соответствующих данному сюжетному замыслу исторических поисках (архивных и т.д.) костюмеров и гримеров и во многом другом.

Любая отрасль науки и искусства нуждается в передаче накопленного опыта, что возможно только в языковой форме. Без языка стало бы невозможно образование и обучение, т.е. передача опыта от поколения к поколению. Новая физическая теория или открытие становятся достоянием человечества только через посредство языка.

Что же говорить о тех сферах деятельности, в которых особую роль играет передача информации - в наш информационный век таких сфер становится все больше. Даже космическая индустрия нуждается, по меньшей мере (кроме фиксации своих достижений), в передаче команд с земли космонавтам, работающим в далеком космосе, и сведений от них в центр управления.

Передача же любой информации осуществляется через посредство языка.

Создаваемая в Институте языкознания компьютерная база данных "Языки мира" основывается на т.н. "Модели реферата" (см. Журинская и др., 1986). Именно эта модель (итеративно пополняемая конкретными микротемами (значениями категорий), присущими каждому из добавляемых в базу данных языков), и представляет собой некий ^ универсальный грамматикон, т.е. перечень всех наличествующих в языках £ мира грамматических значений, подчиненных той или иной грамматической категории.

Почему мы способны понять речь другого человека, говорящего на известном нам языке, и не можем понять речь на незнакомом языке? Каким образом осуществляется речевое воздействие (см. ЛЭС, ст. "Риторика"), суггестивное воздействие (заговоры, молитвы, формулы гипноза и аутотренинга) (см. И.Черепанова "Дом колдуньи", М.,1996), ^ вообще управление с помощью речи? На эти и другие вопросы поможет ответить компьютерный анализ языка и его отдельных аспектов. А в ^ языке таится столько еще непознанного, не до конца изученного!

 

Список научной литературыЯрославцева, Елена Игоревна, диссертация по теме "Прикладная и математическая лингвистика"

1. Большая Российская энциклопедия», 1997.

2. ЛЭС Лингвистический энциклопедический словарь. М., 1990.

3. Советская энциклопедия", 1990.

4. Словарь польского языка XVI в. (с 1966) ^Словарь русского языка» А.А.Шахматова, т.2, 1907, т.4, 1916.

5. Андреев Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языкознании. Л., 1067.

6. Андрющенко В.М. Лингвистический подход к изучению языков программирования и взаимодействия с ЭВМ. // Проблемы вычислительной лингвистики и автоматической обработки текста на естественном языке. М., Изд-во МГУ, 1980.

7. Апресян Ю.Д. Формальная модель языка и представление лексикографических знаний // Вопросы языкознания. 1990, №6.

8. Атаян Э.Р. Аспекты организации и функционирования языковой сферы. Ереван, 1976.

9. Баранов П.Н., Добровольскмй Д.О., Михайлов М.Н., Паршин П.Б., Романова О.И. Англо-Русский словарь по лингвистике и семиотике. М., 1996.

10. Баррон Д. Введение в языки программирования. М., 1980.

11. Белоногов Г.Г., Богатырев В.И. Автоматизированные информационные системы. М., 1973.

12. Белоногов Г.Г., Котов Р.Г. Автоматизированные информационно-поисковые системы. М., 1968.

13. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М., 1983.

14. Белоногов Г.Г., Новоселов А.П. Автоматизация процессов накопления, поиска и обобщения информации. М., 1979.

15. Беляева Л.Н. Применение ЭВМ в лингвистических исследованиях и лингводидактике. Л., 1986.

16. Бенвенист Э. Общая лингвистика. М., 1974.

17. Березин Ф.М., Головин Б.Н. Общее языкознание. М., 1979.

18. Бойко И.М., Мартынов В.В. Семантическая интеллектуальная система и ее компьютерная реализация // Теория коммуникации. Языковые значения. Мн., 2000.

19. Бондарко A.B. Грамматическое значение и смысл. М., 1978.

20. Варга Д. Методика подготовки информационных тезаурусов // Сборник переводов по вопросам информационной теории и практики. № 17, М., 1970.

21. Вежбицкая А. Семантические универсалии и описание языков. М., 1999.

22. Вельбицкий Н.В. Технология программирования. Киев, 1984.

23. Виноград Т. Программа, понимающая естественный язык. М., 1976.

24. Виноградов В.А., Новиков А.И., Ярославцева Е.И. База данных «Языки мира» как инструмент лингвистического исследования // Вопросы языкознания, 2003, №3.

25. Вудс В. Сетевые грамматики для анализа естественных языков // Кибернетический сборник. М., 1976.

26. Выготский JI.C. Мышление и речь. // Избр. Психологические исследования. М., 1956.

27. Гвишиани Н.Б. Язык научного общения. М.,"Высшая шнола", 1986.

28. Гак В.Г. К проблеме соотношения языка и действительности // ВЯ, 1972, №5.

29. Герд A.C. Язык науки и техники как объект лингвистического изучения, //НДВШ. Филол. науки. 1986. №2.

30. Герд A.C., Богданов В.В., Буторов А.Д. и др. Информационно-поисковый тезаурус как объект лексикографии // Структурная и прикладная лингвистика, вып. 1, JL, 1978.

31. Гиляревский P.C., Шрейдер Ю.А. Семиотика научно-информационных процессов. НТИ, сер. 2, №1, 1979.

32. Глушков В.М. Основы безбумажной информатики. М., 1982.

33. Глушков В.М., Каныгин Ю.М. Новая отрасль народного хозяйства -индустрия переработки информации, // Кибернетика: дела практические. М., 1984.

34. Гринберг Дж. Некоторые грамматические универсалии, преимущественно касающиеся порядка значимых элементов // Новое в лингвистике. М., 1970. Вып. 5.

35. Гринберг Дж., Осгуд Ч., Дженкинс Дж. Меморандум о языковых универсалиях // Новое в лингвистике. М., 1970. Вып. 5.

36. Гумбольдт Вильгельм фон. Язык и философия культуры. М., 1985.

37. Гумбольдт Вильгельм фон. «Опыт анализа мексиканского языка» и «Об изучении языков, или план систематической энциклопедии всех языков» // Гумбольдт Вильгельм фон. Язык и философия культуры. М., 1985.

38. Даниленко В.П., Скворцов Л.И. Лингвистические проблемы упорядочения научно-технической терминологии.// В.Я. 1981, № 1.

39. Дешериев Ю.Д. Социальная лингвистика. М., 1977.

40. Длин A.M. Математическая статистика в технике. М., 1958.

41. Жданова Г.С., Колобродова Е.С., Полушкин В.А., Черный А.И. Словарь терминов по информатике на русском и английском языке. М., 1971.

42. Жинкин Н.И. Грамматика и смысл // Язык и человек. МГУ, 1970.

43. Жинкин Н.И. Речь как проводник информации. М., 1982.

44. Журинская М.А., Новиков А.И., Ярославцева.Е.И. Энциклопедическое описание языков. М., "Наука", 1986.

45. Звегинцев. В.А. "Теоретико-лингвистические предпосылки гипотезы Сепира-Уорфа. // "Новое в лингвистике", вып.1, М., 1970, с.123-124.

46. Звегинцев К.А. Язык как фактор компьютерной революции. // НТИ. Сер. 2. 1985. №9.

47. Иванов Вяч.Вс. Языки мира. // Лингвистический Энциклопедический Словарь. М., 1990

48. Ионесян Е.Р. Понятие ориентира в пространственном дейксисе. // Коммуникативные аспекты исследования языка. АН СССР, Ин-т языкознания, М., 1986.

49. Информационно-поисковый тезаурус по информатике. М., ВИНИТИ, 1973.

50. Караулов Ю.Н. Общая и русская идеография. М., 1976.

51. Караулов Ю.Н. Лингвистическое конструирование и тезаурус русского литературного языка. М., 1981.

52. Караулов Ю.Н. На уровне языковой личности,- // Сб. Караулов Ю.Н. и др. Между семантикой и гносеологией. М., 1985. Вып. 164, с.4-29.

53. Караулов Ю.Н. Русский язык и языковая личность // Отв. ред. чл.-корр. Д.М.Шмелев; АН СССР. Отд-ние лит. и яз. М.: Наука, 1987.

54. Керимов С.К., Гасанов P.A. ИПЯ и логическая организация информационной базы в интегрированной ИПС по нефтеобработке и нефтехимии, // НТИ. Сер. 2, Информ. Процессы и системы. 1978. №11.

55. Кирова Л.Г. Модульный подход к проектированию критерия семантического соответствия ИПС, // НТИ. Сер. 2, Информ. Процессы и системы. 1978. №2.

56. Кокарева Л.В., Милошилин И.И. Проектирование банков данных. М., 1984.

57. Королев Э.И. О некоторых системных требованиях к лингвистическому обеспечению автоматизированных информационно-поисковых систем // Техника средств связи. М., 1980, вып. 1.

58. Котов Р.Г. Лингвистические аспекты автоматизированных систем управления. М., 1977.

59. Котов Р.Г. Информационно-языковые проблемы современного общества,. // Лингвистические вопросы алгоритмической обработки сообщений. М., 1983.

60. Котов Р.Г., Новиков А.И., Скокан Ю.П. Прикладная лингвистика и информационная технология. М., 1988.

61. Котов Р.Г., Якушин Б.В. Языки информационных систем. М., 1979.

62. Кузин JI.Т. Интеллектуальные банки данных/^/Вопросы кибернетики. М., 1979.

63. Лебедев В.Н. Введение в языки программирования. М., 1975. Леонтьева H.H. Семантика связного текста и единицы информационного анализа //НТИ, сер. 2, 1981, № 1.

64. Леонтьева H.H. Информационная модель автоматического перевода //НТИ, сер. 2, 1985, № 10.

65. Лингвистические вопросы алгоритмической обработки сообщений. М., 1983.

66. Лопатин В.В. ЛЭС, ст. "Грамматическая категория", с. 115. Мариманова М.С. Проблемы тезауруса в психологии. Автореф. Дис.канд. психол. наук. М., 1984.

67. Мартин Дж. Организация баз данных в вычислительных системах. М., 1978.

68. Мартынов В.В. Кибернетика. Семиотика. Лингвистика. Мн., 1974. Мартынов В.В. Семиологические основы информатики. Мн., 1974. Мартынов В.В. Семиологические основы искусственного интеллекта //Известия АН СССР. Сер. ОЛЯ. 1978, №1.

69. Мартынов В.В. Функциональная грамматика и функции языка // Проблемы функциональной грамматики. М., 1985.

70. Марчук Ю.Н. Некоторые проблемы развития государственной системы научно-технической информации/^НТИ, сер. 2, 1980, № 11.

71. Мельников Г.П. Системология и языковые аспекты кибернетики. М., 1978.

72. Михайлов А.И., Черный А.И., Гиляревский P.C. Проблемы информатики в современной науке//НТИ, сер. 2, 1976, №1.

73. Мруэ Зейнаб Э.-Ш. X. Комбинаторика ассоциативных портретов. Дис.канд. филол. наук. М., 1998.

74. Нестерова Н.М. Реферативный перевод как смысловое преобразование текста. Дисс. .канд. филол. наук. М., 1984.

75. Нестерова Н.М. Реферативный текст и особенности его порождения. Коммуникативные аспекты исследования языка. АН СССР, Ин-т языкознания, М., 1986.

76. Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. М., 1978.

77. Никитина С.Е. Семантический анализ языка науки. М., 1987.

78. Никитина С.Е. Тезаурус языка фольклора в машинном ракурсе // Фольклор. Проблемы тезауруса. М., 1994.

79. Новиков А.И. Алгоритмическая модель смыслового преобразования текста. Канд. исс. М., 1973.

80. Новиков А.И. О соотношении лингвистической и семантической информации в тексте // Новиков А.И. Семантика текста и способы ее формализации. М., 1983.

81. Новиков А.И., Чистякова Г.Д. Текст, тема, денотат// Изв. АН СССР, СЛЯ, 1981, № 1.

82. Новиков А.И., Якушин Б.В. Алгоритм индексирования текстов взвешенными ключевыми словами по методу семантической фильтрации^ /НТИ, сер. 2, 1972, №6.

83. Новиков А.И., Ярославцева Е.И. База лингвотипологических данных и принципы ее функционирования // Вести АН СССР. 1985, № 3.

84. Новиков А.И., Ярославцева Е.И. Семантические расстояния в языке и тексте. М., 1990.

85. Орфеев Ю.В., Тюхтин B.C. Мышление человека и искусственный интеллект. М., 1978.

86. Павилёнис Р.И. Проблема смысла. М., 1983.

87. Пиотровский Р.Г. Текст, машина, человек. Л., 1975.

88. Пиотровский Р.Г. Инженерная лингвистика и теория языка. М., 1978.

89. Принципы описания языков мира. М., 1976.

90. Полинская М.С. Синтаксические конструкции предложения и их коммуникативный статус (на материале эргативных языков) // Коммуникативные аспекты исследования языка. АН СССР, Ин-т языкознания, М., 1986.

91. Поспелов Д.А. Логико-лингвистические модели в системах управления. М., 1981.

92. Пумпянский В.Н. Принципы описания языков мира. М., Наука. 1985.

93. Рубинштейн Л.С. Основы психологии. М., 1935.

94. Рябцева Н.К. Моделирование информационных процессов в прикладных лингвистических целях, // Вопросы моделирования перевода. М., 1987 (Деп.).

95. Семантика языковых единиц и текста. М., 1979.

96. Серебренников Б.А. Роль человеческого фактора в языке. М., Наука, 1988.

97. Соколов A.B. Некоторые проблемы типового проектирования информационно-поисковых тезаурусов. В кн.: Структурная и прикладная лингвистика, вып. 1, Л., 1978.

98. Соссюр Ф. Де. Труды по языкознанию. М., 1977.

99. Стандартизация научно-технической терминологии. М., 1970.

100. Степанов Ю.С. Методы и принципы современной лингвистики. М., 1975.

101. Степанов Ю.С. Основы общего языкознания. М., 1977.

102. Теоретические основы классификации языков мира. М., 1981, ч. 1; 1982,ч. 2.

103. Тестелец Я.Г. Материалы к синтаксической типологии картвельских языков (конструкции с одноместными глаголами), // Коммуникативные аспекты исследования языка. АН СССР, Ин-т языкознания, М., 1986.

104. Тихомиров О. Философско-психологические проблемы искусственного интеллекта // Труды IV Международной объединенной конференции по искусственному интеллекту. II. 115. Психологические аспекты искусственного интеллекта. М., 1975.

105. Толстой Н.И. О предмете этнолингвистики и ее роли в изучении языка и этноса // Ареальные исследования в этнографии: Язык и этнос. Д., 1983.

106. Уемов А.И. Вещи, свойства, отношения. М., 1963.

107. Уорф Б. "Лингвистика и логика", // "Новое в лингвистике", вып.1, М., 1970, с.191.

108. Успенский Б.А. Проблема универсалий в языкознании // "Новое в лингвистике", вып.5, М., 1970.

109. Федоров Е.Б. Алгоритм построения базисных отношений в дескрипторных ИПС // НТИ. Сер. 2, Информ. Процессы и системы. 1973, № 11.

110. Фролов A.C. Сочетаемость и совместная встречаемость полнозначных словесных знаков // Структурные аспекты слова и словосочетания. Калинин, 1988.

111. Черепанова И. "Дом колдуньи", М., 1996»

112. Черри К. Человек и информация. М., 1972.

113. Черный А.И. Словарь терминов по информатике на русском и английском языке. М., 1971.

114. Черный А.И. Введение в теорию информационного поиска. М., 1975.

115. Чижаковский В.А., Беляева Л.Н. Тезаурус в системах автоматической переработки текста. Кишинев, 1983.

116. Чулкина Н.Л. Модель лексикона носителя русского языка как способ представления лексической системы. Дис.канд. филол. наук. М., 1987.

117. Шаумян С.К. Аппликативная грамматика как семантическая теория естественных языков. М., 1974.

118. Шведова Н.Ю. ЛЭС, ст. "Грамматика", с.115.

119. Швейцер А.Д., Никольский Л.Б. Введение в социолингвистику. М., 1978.

120. Широков О.С. Языковедение: введение в науку о языке. М., «Добросвет», 2003.

121. Шрейдер Ю.А. Тезаурус в грамматике и теоретической семантике // НТИ, сер. 1, 1971, №3.

122. Шрейдер Ю.А. Естественные языки как основа информационных. М., 1974.

123. Щерба Л.В. О частях речи в русском языке. // Языковая система и речевая деятельность. Л., 1974.

124. ЭВМ пятого поколения: концепции, проблемы, перспективы. М., 1984.

125. Якобсон Р. Лингвистика в ее отношении к другим наукам // Избранные работы. М., 1983.

126. Якушин Б.В. Слово, понятие, информация. М., 1975.

127. Якушин Б.В. Алгоритмическое индексирование в информационных системах. М., 1978.

128. Якушин Б.В., Ярославцева Е.И. Критерий близости текстов по содержанию (умственный критерий). // Изв. АН СССР, ОЛЯ, 1980, т.20, т.6.

129. Ярославцева Е.И. Исследование смысловой близости текстов. Дисс. . канд. филол. наук. М., 1981.

130. Ярославцева Е.И. Методы определения семантической близости текстов, // Семантика языковых единиц и текста. М., 1978.

131. Ярославцева Е.И. Регламентация языковых средств в социальной сфере. // Естественный язык, искусственные языки и информационные процессы в современном обществе. М., 1988.

132. Ярославцева Е.И. Грамматикон, его виды и аналоги // Язык, сознание, коммуникация. Вып. 10. МГУ, М., 1999.

133. Ярославцева Е.И. Грамматикон и база данных "Языки мира",- // Проблемы прикладной лингвистики 2001. М. 2002.

134. Ярцева В.Н. Научно-техническая революция и развитие языка // Научно-техническая революция и функционирование языков мира. М., 1977.

135. Bar-Hillel Y. Theoretical aspects of the mechanization of literature searching // Digitale Informationswandler/ Braunschweig, 1962.

136. Greenberg Joseph H. A Quantitative Approach to the Morphological Typology of Language (Method and Perspective in Anthropology), ed. by Robert E. Spencer, University of Minnesota Press, 1954, 99J.

137. Gross.M. Mathematical models in linguistics. Prentice-Hall Inc., Engl wood Cliffs, New Jersy, 1972.

138. Harris Z.S. Methods in Structural Linguistics, 1951.

139. Hockett F. Information in the language sciences. New York, 1968.

140. Jones K.S. A statistical interpretation of terms specificity and its application to retrieval // J. Documentation. 1972, Vol. 28, #1.

141. Jones K.S., Kay M. Linguistics and information science. New York, 1973.1.ncaster F. Information science // Natural language and information science. Stockholm, 1977.

142. Nikitina S.E. Humaniterian scientific terms in explanatory dictionary // NTF Journal, 1992, vol.3, #1

143. Novikov A., Yaroslavtseva E. Linguotypological Data Bank // Social Sciences. USSR Academy of Sciences. Vol. XVII, No. 3, 1986.

144. Osgood C.E., Susi S.E., Tabbenbaum P.H. The measurement of Meaning. Urbana, 1957.

145. Roget's thesaurus of English words and phrases^. (1852). Roget's international thesaurus, ed. 3. London, 1957. Sager N. Syntactic formatting of science information // Sublanguage. 1982.

146. Salton G., Lesk M.E. Information analysis and Dictionary Construction in the SMART Retrieval System, // Experiments in Automatic Document Processing. N.Y., 1969.11:06 40/84 21. ИНСТИТУТ ЯЗЫКОЗНАНИЯ РАН

147. ЯРОСЛАВЦЕВА Елена Игоревна

148. КОМПЬЮТЕРНАЯ БАЗА ДАННЫХ «ЯЗЫКИ МИРА» И ЕЕ ВОЗМОЖНЫЕ ПРИМЕНЕНИЯ

149. Специальность: 10.02.21 прикладная лингвистика

150. ДИССЕРТАЦИЯ НА СОИСКАНИЕ УЧЕНОЙ СТЕПЕНИ ДОКТОРА ФИЛОЛОГИЧЕСКИХ НАУКт