Исследование взаимозависимости внутренних характеристик текста и его "внешних" параметров (к проблеме эмпирической базы компьютерной лексикографии)

Пиель, Елена Шмерлевна

автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Исследование взаимозависимости внутренних характеристик текста и его "внешних" параметров (к проблеме эмпирической базы компьютерной лексикографии)

Год: 1992
Автор научной работы: Пиель, Елена Шмерлевна
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Москва
Код cпециальности ВАК: 10.02.19

Автореферат по филологии на тему 'Исследование взаимозависимости внутренних характеристик текста и его "внешних" параметров (к проблеме эмпирической базы компьютерной лексикографии)'

Полный текст автореферата диссертации по теме "Исследование взаимозависимости внутренних характеристик текста и его "внешних" параметров (к проблеме эмпирической базы компьютерной лексикографии)"

11 9Э

МОСКОВСКИЙ ОРДЕНА ДРУЖБЫ НАРОДОВ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ

ИССЛЕДОВАНИЕ ВЗАИМОЗАВИСИМОСТИ ВНУТРЕННИХ ХАРАКТЕРИСТИК ТЕКСТА И ЕГО "ВНЕШНИХ" ПАРАМЕТРОВ

(К ПРОБЛЕМЕ ЭМПИРИЧЕСКОЙ БАЗЫ КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ)

На правах рукописи

ПИ ЕЛЬ ЕЛЕНА ШМЕРЛЕВНА

10.02.19 - - теория языкознания

Автореферат

диссертации на соискание ученой степени кандидата филологических наук

Москва -- 1992

Работа выполнена на кафедре лингвистическое селинтикЕ Московского ордена друноы Народов государственного -мнгвнстгческого университета

Научный руководитель:

•официальные ошоаекгк:

Ведущая организация:

Запита состоится "

доктор филологических наук, профессор Б .Ю .Городецкий доктор филологических наук, Р,С, Гшреосш

кандидат филологических наук А. А.Поликарпов Институт языкознания Российской Академик Нал-:

з^'/ час.

на заседании Специализированного совета Д 053.17.01. по теории языкознания в Московском государственной лингвистическом университете по адресу:

г.Ыоскза, ул.Остогенке 38, МГЛУ С диссертацией нежно ознакомится, в библиотеке ЩШУ Автореферат разослан " ОоТЦ 8иД 1992 г.

Ученый секретарь Специализированного совета

кандиди^наук В.С.Страхова

РОССПЙОКДЯ

£И6ЛН0'<ЕКД [Я^ ; '

ОБЩ АН ХАРАКТЕРИСТИКА РАБОТЫ

80-ыо годы характеризуются так называемой новой .лексикографической ситуацией, при которой трудно провести четкие границы между академической, отраслевом, вычислительной и издательской лексикографией, поскольку происходит интеграция этих направлений. В то же время растет значение «лопарей в процессе развития науки и культуры на национальных языках. Применение современной вычислительной техники позволяет вырабатывать более современную технологию и методику автоматизированного составления словарей. В отличие от частотных словарей и конкордансов', составление которых стало полностью автоматизированным процессом, толковые словари создаются, в основном, вручную. Автоматизация затронула в этой области, по большей части, представление и первичную обработку эмпирического материала, который может быть оформлен трояким образом: либо это - картотека, лишь ожидающая ввода на машинный носитель; либо - машиночитаемый корпус текстов; либо - машиночитаемая версия обычного, ранее изданного словаря или словарей.

Объектом представленного исследования стали различные модели представления языковой информации в качестве эмпирической базы компьютерной лексикографии.

Предает исследования - оптимизация автоматизации лексикографической деятельности, то есть моделирование лексикографической базы данных и процесса составления словарей.

Актуальность такого исследования мотивирована как практически, так м теоретически. О практической точки зрения, словари современных языков цуасны все в больших количествах и модификациях, поэтому необходимо оптимизировать процесс составления;обновления а издания словарей с помощью вычислительно издательских комплексов. С теоретической точки зрения, - не сформулированы в достаточной степени критерии и способы отбора лексикографически значимой информации из исходник базы данных. Иеопределен вид и статус самой лексикографичес-

кой базы данных, а такие оптимальный' способ записи эмпирического материала. Не выработаны критерии и способы их определения необходимости и достаточности той или иной представляемой в словарях информации. •

Цель исследования - обоснование наличия гомоморфных отношений мевду определенными параметрами исходных текстов и параметрами моделируемого компьютерного словаря, установление корреляции между внутренними (квантитативными) и внешними (априорными) параметрами отдельных текстов.

Задачи, решаемые в ходе проведения исследования, особенно в экспериментальной его части, были весьма разнообразии и требовали комплексного подхода. Основные задачи формулируются 1 следующим образом: 1) инвентаризащя* текстовых составляющих на разных уровнях с использованием ЭШ; '¿) параметризация текста и установление корреяящи между внешними и внутренними параметрами текста; 3) определение характера отношений мезду метатекстовой информацией и метаязыком словаря.

Методы исследования - компьютерный эксперимент, матема-ческое моделирование, экспертная классификация.

Научная нопзна работы. В диссертации решаются вопросы как теоретического, так и практического плана. Основной теоретический аспект касается наличия и характера отношений

' ^ 0 понятии лингвистической инвентаризации см. работы . Городещшй Б.Ю. К проблеме семантической типологии. - М.: Изд-во МГ/, 1969; Городецкий Б.Ю., Раскин В.В. Методы семантического исследования ограниченного подъязыка. - М.: Изд-во МГУ, 1971; Городецкий Б.Ю. Основные понятия лингвистической типологии Ц Linguistics Oeneralia, It Studies ta Linguistic» Typology. - Prague, 1974. - P.II-I5. Городецкий Б.Ь. Лекси-ко-статистическая инвентаризация комплекса подъязыков // Проблемы теоретической и экспериментальной лингвистики. -М.: Изд-во МГУ, 1977. - С.21-42.

между выводимыми (квантитативными) и априорными параметрами отдельного текста. Данная работа является первые системно-квантитативным исследованием на материале латышских нехудожественных текстов, проведенным с применением ЭШ. В русской научной литературе существует традиция квантитативного исследования законченных художественных произведений или произведений одного автора. В латышской научно-исследовательском практике изучались, кроме художественных текстов, отдельные подъязыки как цельные объекты. В концептуальном плане новой является постановка проблемы эмпирической базы компьютерной лексикографии и проведение широкомасштабного компьютерного эксперимента по моделированию различных способов представления лингвистической информации. Впервые решается также рдц задач, связанных о автоматизированной обработкой текста и перенесением полученной информации в лексикографическую базу данных.

Научное значение исследования и его практическое применение. Результаты теоретической части проведенного исследования могут быть использованы и уже применяются при стилистической (тематической а прагматической) атрибуции текста и леки в процессе заполнения словарных статей лексикографической базы данных. Результаты решения прикладных задач используются достаточно широко, в том числе и в пакетах прикладных программ. Так, квантитативная обработка графемного состава латышских текстов Схудожественных 1 нехудожественных), а •такае анализ диграмм и трехбуквенных сочетаний проводились дед разработки клавиатуры компьютера, ориентированного на работу о латышским языком. Опыт автоматизированной обработки неразмеченного текста романа А.Упита "Земля зеленая" позволили выработать методику и критерии комплексного оиисания художественных текстов сравнительно-квантитативного характера. Компьютерная обработка различных баз данных латышского языка легла в основу разработки словарных статей лексикографической базы данных, позволив решить проблему алгоритмического заншшеиия части позиций (значений параметров) словарной

статьи.

Материал исследования. Исследование велось на основе нескольких баз данных, эмпирическим материалом.для которых стали латышские тексты общим объемом 575 тыс. словоупотреблении.

Иа защиту выносятся следующие положения диссертации:

1. Существует взаимозависимость между шешними'(тематика и прагматика) и внутренними (квантитатив"шли) параметрами текст,.«.

2. .Возможно, вследствие указанной взаимозависимости, формальное определение тематики и прагматики нехудожественного текста.

3. Параметры словаря и параметры текста образуют пересечение.

4. Оптимальной эмпирической базой компьютерной лексикографии является текстовая база данных с реализованными процессорами морфологического и квантитативного анализа.

Апробация работы. Основные положения диссертации были изложены в докладах и сообщениях на

- Второй Всесоюзной конференции ло созданию Машинного фонда русского языка (Москва, 1987),

- рабочем совещании по Машинным фондам языков народов СССР (Таллинн, 1988),

- Третьей Всесоюзной конференции по созданию Машинного фонда русского языка (Москва, 1989),

- Всесоюзной конференции "Актуальные проблемы компьютерной лингвистики" (Тарту, 1S3U)

- Всесоюзной конференции "Текст. Термин. Словарь" (Лиев, 1990), *

-Лексикографической школе-семинаре (Звенигород, 1990). •

Структура работы. Диссертация состоит из введения, трех глав, заключения, списка основной научной литературы и приложений, в которых приведены образцы форм записи языковой информации в базах данных и решения некоторых практических задач.

-5 -

СОДЕРЖА 11 И К РАБОТЫ, Во введении формулируются предмет, объект, цель и основ-нив задачи исследования и обосновывается их актуальность, теоретическая и практическая значимость.

Глава I. ПАРАМЕТРЫ ТЕША КАК КАТКГ0РШ ШЛ11ШГЕРШИ . , ЛЕКОМОГРАЙШ

В первой главе обосновываются задачи и методы исследования. В целях максимальной оптимизации получения лексикографически значимой информации для заполнения стандартизованной словарной статьи лексикографической базы данных словаря латышского языка универсального типа был применен системный подход с использованием некоторых частных методов, приемов и категорий различных отраслей -современной лингвистики.

В первом разделе главы охарактеризовано современное состояние и основные направления математической лингвистики -построение соботвеино математической модели на языковом материале и использование математического аппарата для описания языкового процесса или явления. К последнему направлению относился широко распространившееся в последнее время применение системно-квантагативного подхода к изучению национальных языков {К.Б.Бектаев, В.И.Перебейнос, Н.П.Дарчук, Н.Ф.Клименко, Ю.А.Тулдава, Я.А.Ыикк, А.Н.Скляревич, Т.А.йкубайтис и другие). Особо выделены параметры текста, моделируемые математической лингвистикой, в частности, такие неэлементарные параметры, как лексический и частотный спектры, а элементарные (точечные) - относительная частота самого частого слова (лексемы), частотные характеристики грамматических категорий, участвующих в Ьфорллении текста, и объем ЦипСа (объем идеальным образом организованного текста, частотная структура которого соответствует определяемой обощенным законом Цил^а-Ыандельброта'*). Во втором разделе исчислены основные параметры текста,

£ Определение и вывод объема Ципфа см. Орлов Ю.К, Статистическое моделирование речевых потоков // ^опроси кибернетики. -¿ып.41. ^ й.-Л., х57Ь. - 0.66-Ь9.

выделяемые лингвистикой текста, и основные понятия, которыми оперируют грамматика и теория текста (И.Р.Гальперин, Т.А. ван Дейк, Н.Э.Зншзист и другие), а также стилистика текста (О.И.Ыоскальская). Б семантическое поле центрального для данных направлений лингвистики текста понятия "когеэии" входят разнообразные характеристики содержания и структуры текста, среди которых в данной работе особое внимание уделяется тематике и прагматике текста, глагольной категории наклонения.

Обощащей дисциплиной для стилистических исследовании мошш считать контрастивную лингвистику» в задачи которой входит и определение соответствий и возможностей перехода между дауыя системами разных языков, и противопоставление жанров и стилей в нескольких языках, и анализ специфических черт языка, определяемых путем сопоставления с другими языками. При выделение в термине "язык" второго значения "язык определенного подъязыка или функционального стиля, или язык определенного текста" в сферу контрастивной лингвистики попадает типология "екста, изучение особенностей выражения категорий текста в произведениях различных жанров и функциональных стилей, тс есть инвентаризация категорий и их значений на уровне текста, выведение закономерностей их употребления для отдельных жанров (М.Н.Кожина, Ш1 УН, ИЗП /III и другие), подъязыков (Б.Ю.Городецкий) и функциональных стилей (Т. А.Якубайтис).

Исследование "язы^" на разных языковых уровнях называют также "внешней стилистикой" ( j.p.viaay, J.Darboinet) или контрастивным анализом (А.Д.Швейцер).

Б.1и.Городецкий оперирует понятием "внешней типологии текста", которая опирается на 8 основных грухш внешних признаков, влияющих на внутренние свойства текстов: сфера общения (виды практической деятельности, авторы текстов), хронологические ражи появления текста, коммуникативные и практические цели использования текста, тематика текста, характер информации, представленной в тексте; объем текста, внешняя структура или композиция. В процессе исследования учитывались только те параметры текста, которые имеют непосредственное отношение к

основной цели обработки текста - автоматиздроганному получению лексикографически значимой информации. Из них внешние -тематика и прагматика текста, внутренние - квантитативные характеристики отдельных текстов. Выведены некоторые новые квантитативные характер"стики нехудожественных текстов - степень отклонения частотного спектра от определяемого обошенннм законом Ципфа-Ыандельброта (ОЬШ) , модальность текста (на основе квантитативных характеристик категории наклонения).

Глава 2. СТРАТЕГИИ СОЗДАНИЯ ЛЕКШОГРАФ1:ЧЕСКОЙ БАЗЫ ДАННЫХ

Проблемы выбора эмпирической базы компьютерной лексикографии имеет решающее значение дая всей дальнейшей лексикографической деятельности в области создания и использования не только машинных, но и лингвистических баз данных (НЗЛ ПУ, НЗЛ ШУ) и баз знаний (П.Грибомон, А.Гей, ¿¿.Луи; Р.Г.Котов, Б.А.авегшщев, Г.С.Поспелов, Т.А.Грязнухина, НжИлименно).

Известно два варианта. Либо источником информации, заносимой в лексикографическую базу данных (ЛВД), становится обширная картотека (А.С.Герд, Р.П.Рогожникова), и в этом случае собственно текста картотека не содержит, а включает лишь небольшие отрывки или отдельные предложения в качестве иллюстративного материала, (Введение на машинный носитель опубликованных ранее словарей - лишь разновидность первого способа решения данной проблемы.) Либо в качестве эмпирической базы избирается достаточно представительным корпус текстов. Первый вариант построения ЛЩ является традиционным. Таким образом создавались, например, словари "Сокровищница французского языка" и "Новый Оксфордский словарь английского языка". Второй

^ Об обосновании ШцМ см. работы Ь.К.Орлова; о применении СЫдИ в лингвистических исследованиях - работы М.В.Арапова, Б.Н.Бычкоаа, Ь.К.Крылова, Б.Мандельброга, В.В.Нешитого, А.А.Поликарпова, Ю.А.Тулдавц а других.

вариант практикуется в лингвистике' со времени создания Брау-новского корпуса текстов.

Тексгоориецтировашше автоматизированные лексикографические системы отличаются, преаде всего, полифункциональностью. Б первую очередь, текстовые ЦЦ создавались как архивы текстов ("эталонных" или записанных в результате полевых исследований). Такие системы с 1983 года стали называться в СССР Машинными фондами национальных языков и стали использоваться как многоцелевые исследовательские лаборатории.

На первом этапе обработки машиночитаемых корпусов текстов выводятся частотный и алфавитный словари с. указанием для каждой словоформы абсолютной частоты употребления по всему корпусу, по разделам и текстам; строятся графики статистического анализа: распределение наиболее частых словоформ, распределение типа "слово-частота", распределение слов и предложений но дайне. На втором этапе, при подключении процедуры морфологического анализа, основной единицей становится лексема, подсчитываются также частотные характеристики отдельных частей речи. На основе квантитативного анализа выводятся основные характерротики лексики текстов.

Текстовые ВД используются и для изучения памятников . письменности, например, в целях автоматизации применения методов статистической лексикографии в исследовании древнерусских, текстов.

При автоматизации грамматических исследований экспериментальный массив представлен также в виде машинного корпуса текстов.

К пониманию преимущества текстовой Щ при создании машинной версии толковых словарей приходят и бывшие сторонники традиционной лексикографии (ЛЦИ, в Пизе, проект дал в Германии).

Созданы текстовые БД по отдельным отраслям науки и техники (системасАзсва в СМ).

Уникальный двуязычный корпус параллельных текстов разработан в Канаде дал установления лексических соответствии в английском и французском языках с определении.; частотных характеристик значении.

Однако главной целью словарноориентированных и теисто-ориентированных проектов ЛЦЬ. является составление одного или нескольких типов словарей. Поэтому различие в спектре возможностей применения компьютерной системы зависит от выбора эмпирической базы (способа представления языковой шцуормации).

При выборе текстоориентированной ЛДЦ возможен эксперимент по изучению внешних (назначение, информационная область и так далее) и внутренних (лексическая структура, квантитативные характеристики) параметров текста и соотвествующих параметров производного от исследуемых текстов словаря; по формальной инвентаризации отдельных текстов и подъязыков; по формированию словарной статьи на основе выводимой из обрабатываемой текстовой Щ информации.

Постановка наш компьютерного эксперимента по установлена и определений характера корреляции между параметрами текста и параметрами словаря (метаязыком словаря) является пробной моделью автоматизированной лексикографической деятельности, так как определяет, какая часть словарной статьи заполняется в результате анализа текста с применением ЭШ (процессоров морфологического и квантитативного анализа).

Глава 3. СПОСОБЫ ИОСТРОЕ1Ш, ПВШЕНШШ И 1МТЕРПРЕТЛЦШ1 ЛИНГШСТИтаКИХ БАЗ ДА1Ш11Х

В третьей глава приводятся основные характеристики исходных баз данных и методы их исследования и обработки (раздел 3.1.). Диссертационное исследование является частью и логическим продолжением научных разработок в области создания системы автоматизированной обработки латышских текстов в целях статистической лексикографии (раздел 3.1.1.) и грамматической статистики (раздал 3.1.2.). С учетом результатов научной деятельности коллектива лингвистов и программистов автором данной работы была поставлена проблема определения взаимозависимости внутренних характеристик текста и его внешних параметров (раздел 3.2.) и задача построения модели лексикографической базы данных словаря латышского языка универсального типа (раздел 3.3.).

Создание системы автоматизированной обработки и исследования латышских текстов велось в два этана. На нервом этапе

процедурная часть системы - подсистема обслуживания частотного словаря, подсистема обслуживания грамматического словаря и подсистема поиска контекстов - разрабатывались совместными усилиями ученых отдела математической лингвистики .Илститута языка и литературы и программистами Института ¡электроники и вычислительной техники АН Латвии. Одновременно шла работа над заполнением декларативной части системы, представляющей собой три разные базы данных - текстовую, словарную и смешанного тина (»дальнейшем называемую "грамматический текстовой словарь" -ГС).

На втором этапе постановкой задач обработки Щ, поиском оптимальных способов автоматизированного решения лингвистических задач и обработкой результатов занимались лингвисты. Автором данной работы были поставлена задачи поиска и определения характера корреляции между параметрами исходных текстов и выводимых словарей, в особенности - частотных; а такке установление корреляции между внутренними (квантитативными) и внешними (тематика и прагматика текста) параметрами отдельных текстов. Автоматизированная инвентаризация исходных текстов позволи :а перейти к построении производной лексикографической ЕД, с частично автоматизированным заполнением слотов фреймов словарных статей. '

Предметной областью описываемых БД является латышский связный текст. Предметная область текстовой Щ - полный текст (от начала до конца) романа А..Упита "Земля зеленая", представленный в двух версиях - издания 1947 и 1965 годов. Организационная единица ТкВД -сплошная выборка длиной ЮиО словоупо-^еблений. Во второй, рабочей версии романа 254 выборки.

Объект описания ТкВД - машшшое представление текстовой ьиборки, характеризуемое двумя атрибутами: адрес (значение -номер выборки) и текст (значение - машиночитаемая форма текста).

Машинная форма представления текста несколько отличается от книжной: 1) заменой показателя долготы гласного, палатализованного и шипящего согласного на "звездочку" (*). Например, в и-орме выглядит как 'ко^

рабль' - как ки^&^о и - каквсщ^гсз. , Такс;: спо-

соб записи удобен дая обратного перекодирования. ¿) введение!.!

дополнительного знака конца предложения {/£), ток как точка (.) может иметь два значения - конец предложения и аббревиатура.

Предметная область словарной базы данных (СЩд) - „експка романа "Ьемпя зеленая". Организационная единица - лексический состав текстовой выборки - таблица-файл дайной JLüUü строк. Один объект описания - одна лемма - занимает одну строку. Каждый столбец таблицы - атрибут: место в тексте (номер по порядку от начала выборки), словарное слово (форматив леммы), семантический комментарий (эксплицитная запись значения или маркер для разведения полных омонимов), часть речи (указание на определенную часть речи или имя собственное, выделяемое в отдельный класс слов), частота употребления, номер выборки.

Предметная область грамматического.текстового словаря -латышский нехудожественный текст. Организационная единица -выборка дайной IOOO словоупотреблений из учебного, научного или научно-популярного текста. Объект описания как сам текст, так и лексический состав текста, а также состав текста на уровне словоформ. Запись данных (файл) организована таким образом, что значения и элементы данных представляют информацию I) о самом тексте, 2) о составе и характеристиках словоупотреблений, 3)о составе и характеристиках словоформ, 4) о составе и характеристиках лексем. Несмотря на то, что ГС создавался несколько лет назад, он относится ко второму поколению ЕД, в которых можно выделить два компонента в представлении данных: интенсиональные и экстенсиональные. Интенсиональные представления, называемый иначе exet, ши баз данных., фиксируют закономерности и связи, которым дсмесны удовлетворять экстенсиональные представления, являшдоеся описаниями конкретных фактов и являний.

В случае ГС, экстенсиональные представления - значения грашатических категорий й дцугах атрибутов, интенсиональные - схемы вида q (А , Aw А.., ... А ), составляющие схему Щ,

———— о о п

где Q - отношение между атрибу1аыя А^, к^, А^, ... А^. Атри-. öyTuiai в ГС являются фо^агивы лемм (словарных слов), часть речи и другие грамматические категории, показатели частот.

. - 12 -

употребления, номера выборки и подъязыка.

Таким образом,в ходе эксперимента опробовано три способа представления информации при автоматизации лексикографических работ.

3.1. Принципы и опыт применения баз данных в лингвистических исследованиях.

В первом разделе главы рассматривается применение ДЦ в области статистической лексикографии и системно-квантитативного исследования отдельных текстов и подъязыков.

13 первой части раздела "статистическая лексикография" подчеркнуты преимущества подъязыкового подхода при выборе эмпирической базы компьютерной лексикографии при автоматизированном составлении частотных словарей. Наиболее широкие воз-, мощности предоставляет база данных смешанного типа (ГС), которая позволяет при единой форме записи выводить частотные словари как словоформ, так и лексем. Подъязыковой подход при составлении ЧС лексем - формальный способ выявления некоторых многозначных слов. При отборе исходного множества текстов для ГС они были распределены по трем подъязыкам. Первый подъязык составили 100 выборок из текстов по естественным наукам, второй подъязык - Юи выборок по точным наукам, третий подъязык - 100 выборок по общественным наукам. Внутри подъязыков тексты, в процессе исследования, были подразделены на тематические классы. Под тематическим классом подразумевается совокупность текстов, относящиеся к одной отрасли науки. Например, темат^з^_класс "астдоношя", •гзатически^щ^йс "теологщ^' и так далее (таблица 1).

Таблица I.

РДСПШЫШШЕ ТЕКСТОВ ПО ВИЖМ КЛАССАМ И ПСД'ШЗШШД,

Подъязык I Подъязык 2 Подъязык 3

тематический кол-во тематический кол-во тематический кол.

класс текстов класс гекстов ' класс тек.

химия Ж математика ■ <10 филология зи

биология ¡¿9 физика 40 экономика ¿0

геология 13 астрономия 20 логика 'г

медицина 23 история •¿г

сметные 9 психология 4

дисциплины (¿)ИЛОСО<£ИЯ и

искусствов. 10

13 - V

При составлении ЧС с учетом подъязыком и тематических классов удалось выделить слова, значения которых отличаются в зависимости от того, в текстах какой тематики они употреблены. Так, например, слово 1зса обнаружило три значения - в текстах , в текстах по гешюпш ^чече-

вщдд,', в текстах по (¡изик.

Во второй части раздела ''Исследование квантитативных характеристик исходных текстов и подъязыков" дана краткая характеристика основных работ сотрудников отдела матемтанческой лингвистики, и в том числе - автора, в области квантитативного анализа языковых единиц различного уровня.

Проблемам установления вероятности принадлежности некоторого текста с известным числом повторений определенных морфологических признаков предполагаемым подъязыкам посвящена серия работ Т.А.Якубайтис я Л.Н.Скляревича^, где устанавливается наличие обедающих показателей атрибуциошшх возможностей различных частей речи и развиваются основные положения теории квантитативной типологии и атрибуции текстов. К сожалению, иссле-. доваиия в области квантитативной типологии подъязыков остались незаконченней, Но богатство и разнообразие накопленного материала подтолкнули автора данного исследования к постановке и поиску методов решения проблемы квалификации лингвистических единиц различного уровня на материало не "подъязыков, как объектов исследования, а отдельных текстов.

В частности, до недавнего временя чисто умозрительно решался вопрос о статистической устойчивости распределения гра-,фем в латышском тексте. Для рашета статистических- характеристик графем были обработаны с применением ЗШ латышские худо-

4 Якубайтис Т.Д., Скляревич А.Н. Вероятностная атрибуция тина текста по морфологическому признаку. - Рига: ИЭВТ, 1961. -67о. Якубайтис Т.А., Скляревич А.Н. Вероятностная атрибуция текста по нескольким морфологическим признакам. Рига: ИЭВТ, 1982. - 53с.

- 14 -

жествешше и нехудожественные тексты (выборки из различных подъязыков: естественные, точные и гуманитарные науки), обхрм объемом 270 тыс. словоупотреблений®. Вновь полученные результаты били сопоставлены с данными более ранних исследовании, по определению распределения графем по всему тексту, в лози-дж начала и конца слова. По результатам сопоставительного .ашиза были сделаны выводи о проявлении стилевого (функционального) различия текстов и на уровне графем: наибольшая качественная и количественная унификация наблюдается в распределении графем на разных выборках в пределах одного произведения одного автора, зате.л - в пределах подъязыка. Наибольшее расхождение квантитативных характеристик обнаружено между прозаическими и поэтическими текстами. Наиболее стабильны параметры графем в позиции конца слова - все стили функционируют в единой общей языковой системе и имеют общее грамматическое оформление. Разброс данных в позиции начала слова обусловлен различием в лексических средствам, которые использует тог или иной подъязык или тип текста. ■

Для решения прикладных эргономических задач, в часгност", для разработки клавиатуры компьютера, ориентированного на работу с латышским языком, вычислено ранговое распределение диграмм и наиболее частых трехбуквенных сочетаний. Общий о'Чем обработанного .материала - около 300 гас, словоупотреблений. 3.Ü. Взаимозависимость внутренних характеристик текста и его внешних параметров.

Во втором разделе главы обосновывается наличие корреляции между определенными квантитативными параметрами текста (частотный спектр и степень соответствия частотного ряда обобранному закону Ципфа-Мавдельброта) и некоторыми внешшш (те-мэт>ыа и прагматика текста^ и воалсшгости прогноза по кванти-атшныы параметрам внешних и наоборот.

При решении некоторых лингвистических задач необходимо было получить ЧС но каздой отдельной выборке Щ. смешанного типа. 11о мере накопления ллтершиш стали вырисовываться определенные закономерности, по котирш кагло било сгруппировать 6 tluej.L ь. статистика гралем латышских научно-технических и худохеотьенных текстов// Известия iH JxütbCCP. - i960. -Ш. - С.73-Б3.

полученные, частотные спектры в некоторые классы. Сопоставление разбиения на классы частотных спектров с классификацией текстов ло тематическим классам обнаружило пересечение. Возникло предположение о нахождения некоторого внешнего параметра, который мог бы дать классификацию реальных текстов аналогичную разбиению частотных спектров лексики этих текстов. .

Так как текст является .одним из видов речевой деятельности, го на порождение текста влияет то же множество факторов, что и на единичный коммуникативный акг^ или речевой акт'': Если принять условное деление данных факторов на психологические и социальные®, то в случае исследования научно-технических текстов из психологических факторов необходимо учитывать интеллектуальный уровень и весь комплекс факторов социального порядка, и, прекде всег"!, цель общения.

Факторы, обуславливающие действие механизмов, регулирующие соотношение элементов текста, являются зкстралингвистичес-кш. И для того, чтобы связать результат и воздействие, конкретный текст и его квантитативные характеристики, необходимо обратиться к. прагматике текста.

Прагматический анализ значения слова, высказывания и .дискурса, занимающий в современной лингвистике значительное ^есто, не затрагивает, как правило, аспекты прагматики цельного текста как сложного речевого произведения. Наиболее интересным в данном, аспекте нам показалось определение прагматики текста, данное Г.Г.Матвеевой: прагматика текста есть "аспект функционирования Языковых единиц, выбор которых опре-деляет.ся интенсиональными воздействующими задачами'отправило .

® 0 понятии коммуникативного акта см, Городоцкий Б.к). Когнитивное моделирование естественно-языкового общения// Искусе-твешшй интеллект -90: Доклады IX Всес. конф. - Минск,1990. -С74-77. , ■ . .

О понятии речевого акта см..Моделирование речевой деятельности в интеллектуальных системах. - М.: Наука,1937. - 280с.

® Якубинский JI.II. Язык и ого функционирование. - М.: Наука, 1986..-С.16.

~ 15 -

теля текста, учитывающего ситуативные условия акта общения и принятие в данном функциональной стиле нормативные способы употребления языка"-1. Это определение можно принять с небольшим уточнением, заменив "функциональный стиль", на "тематический класс" и "прагматический тип". ■' .

прагматическом аспекте в диссертации выделены следую-(детипы текстов: учебные, научные, научно-популярные и тексты-"каталоги" (условное название). Приводится алгоритм и обоснование определения прагматического типа каждого отдельного текста. /

Для выявления связи между квантитативными характеристиками текста и его прагматическим типом и тематическим классом сопоставлялись параметры равных по объему выборок.

В качестве лингвостагистической модели построения частотной структуры текста была взята модель Ю.К.Орлова1''5, позволяющая сравнивать различные по объему тексты или выборки из связных текстов друг с другом, прогнозировать частотные характеристики полных текстов на основе подсчета на выборках из них и, наоборот, прогнозировать частотные параметры выборок на основе известных данных а полных текстах; проверять статисти- : ческие модели лексики текста выборок произвольного ^бъема.

Для чистоты эксперимента внешние параметры и внутренние характеристики (квантитативные) определялись изолированно друг от друга. Сначала анонимно исследовались выборки, то есть взят был только комплекс количественных данных, без указания на то, к какому классу относится выборка. Исходная совокупность паяных текстов-источников классифицировалась по. тематическое классу ц прагматическому типу.

Предлагаемая Ю.К.Орловым статистическая модель сводится к следующему. '■'■.,'

----;-:-Г-—---;-

•'Матвеева Г.Г. Актуализация прагматического аспекта научного

текста. - Ростов: Ростовский-ун-т, 1984. 10 ' Оряов Ь.К. Указ. соч.

- 17 -

Пусть есть выборка объемом % словоупотреблений, на которой полностью выполняется закон Циида-Мандельброта в виде +1)7' (I), где к, в, у- оопа1, р£- относительная частота 1-того слова частотного рода. Тогда, в случае частотный ряд принимает вид-Р1=~а+Г~ » ^¿р )" » г < (2), где рх - от-

' . носителышя частота самого частого словп; словарь выборки --В=»2к-В| (3)

частотный спектр | (4}, где щ - абсолютная

' частота слова и щ=1,2,3..,

По подсчетам Ю.К.Ордова теоретический частотный спектр (ранжированный список частот лексем текста) совпадает с фактическим с точность» +20$ только на полных текстах художественных произведений. В качестве следствия из основных формул предлагается использовать при квантитативной обработке текста следапд!/; теоретические значения точечных и неэлементарных параметров текста.

. . - • -. ■ <б)

Где выборка объемом N словоупотреблений предполагается взятой

из текста объемом г словоупотреблений, частотная структура

которого соответствует заколу ¿узн^а-Мандедьброта; т/Ч N/2) -

словарь на выборке объемом и, 1 - количество слов'с частотой

т■ и .вше, 7 - количество слов с абсолютной частотой т . и

2 рассматривается как подбираемый параметр, то ест;, предполагается, что для каздого текста теоретически возможен такой исходный текст объемом % (объем Ципфа), который удовлетворяет формулам (2)-(4).

К.Орлов исследует действие ОЩД толысо на материале художественных текстов, отрицая возможность применения модели для нехудожественных текстов. Тем более интересным предегаи-

лилось получить достаточное количество данных о статистической структуре нехудожественных текстов и сравнить с теоретическими величинами, отклонение от которых не считается в данной работе хорошим или плохим признаком, а соответствующей характеристикой.

Процедура получения и обработки данных велась поэтапно. На первом этапе для каждой выборки определялся "ее" объем Цинфа, который считался ириеьшемым, если теоретически определенный объем словаря отличался от фактического не более, чем на 20$. Затем исходная совокупность выборок была подразделена в зависимости от величины объема Цинфа.

На следующем этапе каждой выборке (квантитативным параметрам выборки) были сопоставлены содержательные хараит ерис-яш текста-источника. Выяснилось, что наблюдается определенная корреляция меаду величиной объема Ципфз, го есть величиной идеальным образом организованного текста,теоретически возможного в качестве текста-источника именно дня данной выборки, и внешними параметрами (таблица 2).

Таблица 2,

' РЛС11РВДШШ1К ТИПОВ И КЯАССОи ТЕКСТОВ ПО НШЧШЕ

ОКЖА IllffM.

объем^Дипфа содержательная характеристика текста

г ¿1080 филология: грамматика хниия: учебный, научный биология: -каталог" математика'.учебный физика: учебный, "каталог"

математика:научный

2 =2500 психология:учебный ' •

Т5Ш«=2 ¿2600 • химия: учебный

1800<Z 42600 биология: научный геология; научный, учебный

1080«" ¿3000 физика: учебный, научный астрономия:научный

lOUOc 2^3500 филология: учебный, научный (литературоведение, лексикология) философия: научный

Продолжение таблицы 2.

3000< 2 ¿7500

3500<г ¿9000

9000<2 ¿13000

9000<г ¿16000 13000<2 ¿25000

18000 с 2 ¿30000 25000<2 ¿38000

1 >38000

геология: учебный, научный

медицина: в основном учебный, нпучпш!

химия: научный

биология: гаучный, научно-популярный

смежные: научный, научно-понулярнш

филология: научный экономика: научный философия: научный, учебный история: в основном научный, учебны искусствоведение: учебный, научный психология: учебный-физика: научный астрономия: научный

медицина: наУЧЛ0~

история: учебный, научный

смежные: учебный, научный биология: научный, научно-популярный

экономика: научно-популярный философия: учебный, научной история: учебный, научный, .научно

популярный искусств оведение: научный психсяогия: научно-популярный

медицина: учебный, научно-популярны';

филология: научно-популярный философия: научный искусствоведение: научно-популярный•

искусствоведение: научно-популярный

(Примечание.. Текстц-"кзталоги" -условное название текстовых произведений, которые предстаатют собой списки некоторых сведений, характеристик и так далее. Например, систематика, указатели растений, справочники, каталоги ь гак-далее. )

Различие в величине объема Ципфа означает и расхождение частотных структур моделей лексики текстов. Определение величины объема Ципфа зависит от двух точечных параметров: относительной частоты самого частого <х?ова (лексемы) выборки и объема словаря. По, так как первая-из величин варьируется в меньшей степени, чем вторая, то различие в величине объема Цига^а указывает на различный объем словаря. Кроме того, значение объема Ципфа указывает и на соотношение "частога-объе.м

- 20 -

словаря", так как в случае получения значения, значительно отличающегося от среднего для данного типа и класса текста, возможна влитие двух факторов: значительного объема словаря -(что может бить связано с тем, что в выборку попали абсолютное начало или конец текста; или текст написан несколькими авторами, и выборка содержит части текстов различных авторов) и/или несопоставимого со средним значением р^ (относительной частоты самого частого слова). Необычная величина последнего параметра может объясняться как особенностями авторского стиля, например, приверженностью'автора к определенным вводным словам, так и тематическим классом текста, насыщенностью терминологией. В любом случае, теоретическое значение объеми словаря и частотной структуры лексики, вычисленное длй определенного текста, должно считаться для него оптимально. Расхождение ыезду теоретическими и фактическими параметрами текста может следовать из лексической и грамматической структуры текста, информационной насыщенности, поли- и монотематической организации. Наименьший среди исследованных текстов объем Динфа и, следовательно объем словаря, - а текстах по матема • тике - объясняется меньшей долей возможных синонимов и ыоли-СШ1Ч1ШХ слов, меньшим числом разных синтаксических структур и так далее.

На следующем этапе фактические частотные спектры выборой были сопоставлены о рассчитанным« по двум моделям - Хердана и Меньшие прогностические возмшшости модели частотной

структуры лексики Хердана, оставили выбор за теоретическими величинами, определенными по модели Ю.К.Орлова.

Определились три подмножества выборок: с совпадающими параметрами, с частично совпадающими" и с несовпадающими. При , совмещении вновь полученного разбиения с определенными ранее выяснилось, что с этим последним незлемеитарным параметром коррелируют тематика и прагматика текста.

При изучении признака "модальность текста", определяемого но грамматическим показателя!»: наклонения, выявлена его применимость в качестве описательного, а ие классифицирующего

признака.

При составлении частотных словарей но кшедон отдельно» выборке обнаружена еще" одна существенная закономерность. Среди первых десяти самых частых слов каждого частотного словари Надставлены две категории слов - служебные и ключевые слова (часто - термины). Не составляет труда определить тематику текста, если ед,ш1стащные зцачащио слова среда iio^mix jjei;imi ~ l^gSXM» ЩЙШЙЙ?. сщщеше; или - интещыо, человек,

Boiißoc; или - человек, пе^в, работа, темпе^амеи:?. ßo всех 3U0 повыборочных ЧС среди слов первых десяти рангов представлено от трех до восьми ключевых слов. При применении проце,дуры вычеркивания служебных слов возмозша автоматическая рубрикация анализируемых текстов. Такой способ определения тематики текста носит устойчивый характер - ключевые слова в различных выборках из одного текста, как правило, повторяются.

Йтак, основным источником квантитативных характеристик текста является частотный словарь лексем, составленный на основе выборки ограниченного объема. Приложение к введенному на машинный носитель тексту процессоров морд)алогического и квантитативного анализа позволяет выводить основные внутренние характеристики текста и прогнозировать значения внешних нарметров. Па основе определенных параметров выборки возможен прогноз -вначений параметров дая полного текста и вывод неко? торых лексикографически значимых характеристик отдельных лексем.

3.3. Построение словарной статьи лексикографической • базы данных.

Построение словарной статьи ЛЩ и способы' автоматизиро-*

ванного заполнения некоторых слотов файла словарной статьи

рассматриваются в третьем разделе главы. Со ссылкой на работы

В.М.Андрющенко, Л.Д.Апресяна и Ю.Н.Караулова приведены онре-

дщзние и список лексикографических параметров :_

11 См. Караулов К.Н. Лингвистическое конструирование и тезаурус литературного языка.- Ы.: Наука, I98X. - С.III.

"Словарь" лексикографических параметров см.в Караулов Ю.Н. Об одной тенденций в современной лексикографической практике // Русский язык: Проблемы художественной речи. Лекслколсн'ня и лексикографии. - Ы.: Наука, .iüül. - 0. хЬЗ.

- 22 -

Б самом общем виде параметр можно определись, как классификационный признак информации, выводимой при анализе текста или словаря, название некоторой информационной совокупности. Значения некоторых лексикографических щ^адетров автоматически определяются при компьютерной обработке текста на разных ее этапах. Комплексная обработка баз данных, построенных на основе художественных (ТкБД, и СВД) и нехудожественных (ГС) текстов, позволяет автоматизировать-построение сопряженной с ними лексикографической базы данных, определять параметры, по определению Ю.И.Караулова, всех трех уровней автоматизированной обработки источников - компилятивные, аналитические и конструктивные*^, и заполнять сразу определенную часть словарной статьи. ■

Существуют две возможности перенесения информация в ЛДЦ. Первая - переносить как значение первого атрибута собственно лемму, за'-ем'заполнять общую часть словарной статьи и, наконец, вносить в зависимости от части речи, дополнительные раз-' дели. Вторая возможность - переносить одновременно значения двух атрибутов - лемму и часть речи, и, следуя значении второго атрибута, использовать готовый, формат соответствующей чисти речи.

Таблица 3.

ОБЩАЯ ЧАСТЬ СЛОВАРНОЙ СТАТЬИ. '_

параметр источник получения значения параметра

лемма длина слова ударение слогоделение чисть речи словарная база данных (СВД.) грамматический текстовой словарь (ГС) СВД, ГС проставляется лексикографом (даш латышского языка только в словах, не имеющих первого ударного слога) лекэикограф (возможен алгоритм) СВД, ГС '

Уо 1 1 ■■ ...... ■ -"...........................................

Г.А^иулов L.H. Лингвистическое конструирование... С.114-

- 23 -

Продолжение таблицы 3.

I 2

рифма обратный словарь (по любой БД)

Л«» банк результатов

словообразовательный ТкДЦ

аббревиатура ТкВД, ОВД, ГС

многозначность/ лексикбграф, ГС

однозначность

дефиниция лексикограф'

хронологический лексикограф,

ареальный лексикограф

синтагматический ТкДД, лексикограф

фразеологический ТкЦЦ, лексикограф

лексическая соче- 1

таемость ТкЕД, ГС

иллюстративный ТкЦД

стилистический определяется тематика и прагматика нехудожественного текста в определенных предложенной в данной работе процедурой рамках и устанавливается сфера употребления данной лексемы

эмоционально- лексикограф

оценочный

статистический ТкЕД, сад, ГС

нормативный лексикограф

исторический лексикограф

лиягвострановед- лексикограф

ческии

параметр родства лексикограф

парцуэдц} заимство- лексикограф .

ОМОНИМЫ СЗД. ГС

синонимы СВД, ГС

антонимы, паронимы лексикограф

ассоциативный лексикограф

семантическое поло СВД-, ГС, лексикбграф

тематическая

' группа определяется аналогично стилистическому

параметру

библиографический лексикограф лексикогиаш

лексикографический

О таблице 3 приведена общая часть словарной статьи при пнрвом варианте заполнения ЛЦЦ па основе информации, представ-.геннии в ОВД, ТкЩ, ГС и банке результатов.

При лексикографической обработке вновь вводимых текстов алгоритм их обработки несколько изменится; основная нагрузка по текстовую БД и подсистемы обработки сшошного неразмеченного текста изменит функции СЕЩ и ГО на справочную.

13 заключении к диссертации формулируются важнейшие выводы и результаты провиденного иследования. Основной вывод диссертации заключается в том, что дат оптимизации лексикографической практики, а именно, для извлечения лексикографически ена-чимоп инфордации при автоматизированном заполнении разделов словарных статей ЛДЬ, необходимо выбирать в качестве эмпирической бшы машиночитаемые корпуса текстов, образованные по подъ-языковому принципу«

Результаты диссертационного исследования могут быть обобщены в следующих положениях.

1. Установлено наличие корреляции (и определен ее характер) между внутренними (квантитативными) и внешними (тематика и прагматика текста) параметрами текста. Взаимозависимость перечисленных выше параметров наблюдается на всей совокупности исследованного материала, что позволяет сделать вывод об устойчивости и прогностической силе наблцдаемой закономерности.

2. Возмшшо формальнее определение внешних параметров тиьота на основе автоматизированного квантитативного анализа репрезентативной выборки из данного текста.

3. Определенные параметры текста ¿ишштсл одновременно и значениями параметров, лексикографнруеыых в данном языке.

4. Оптимальность выбора текстовой базы данных с реализованными процессорами морфологического и квантитативного иишшза в качестве эмпирической базы компьютерной лексикогра-т Фип обосновывается и возможностью решения практических задач.

й ходо проведенного исследования били решены следующие" практические задачи. , • .

- 25 -

Определены статистические характеристики графил. Отработана методика автоматизированного составления ЧС z определения квантитативных характеристик для текстов люоо-го ооьема.

Проведено сопоставительно-квантитативное исследование художественных и нехудожественных текстов и определены вероятные границы значена основных параметров по типам текстов.

Спроектирована модель ЛЕЕ. для составления толкового словаря латышского языка универсального типа.

Основные положения диссертации отражены в следующих публикациях.

Г. Статистика графем латышских научно-технических и художественных текстов /7 Известия АН ЛагьССР. - I98S. -Jill. -С.73-83.

2. Системно-квантитативные исследования текста // Известия АН ДатвССР. - 1988. - JS. - С.133-134.

3. Основные направления создания Машинных фондов языков народов СССР // Известия АН ЛатвССР. - 1989. -JJ3. - C.I30-I3I.

4. Текстовая база данных как эмпирическая база компьютерной лексикографа и J) Актуальные проблемы компьютерной лингвистики: Тезисы докладов Всесоюзной конференции. - Тарту. Тартус. ' ун-г, 1990. - С.117.

5. (В. соавторстве с Валдмане й.) Систешо-квантитаивное исследование лексики романа ЗЛамса "Итог всей жизни" // Линг-восгатистические исследования. - Рига: Зинатне, I99I.-C.46-I0G.

СПИСОК СОКРАЩЕНИЙ

- база данных ГС - грамматический текстовой словарь ХБд - лексикографическая база данных НЛ - новое в лингвистике НоЛ. - новое в зарубежной лингвистике ОЗШ - обобщенный закон щшфа-МавдельоротБ СИ, - словарная база данных ТкЩ - текстовая оаза данных

ЧС - частотный словарь

Похожие темы диссертаций