автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Исследование устойчивости лексико-статистических характеристик текста

  • Год: 1998
  • Автор научной работы: Гребенников, Александр Олегович
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.21
Диссертация по филологии на тему 'Исследование устойчивости лексико-статистических характеристик текста'

Текст диссертации на тему "Исследование устойчивости лексико-статистических характеристик текста"

61- т-40/49*3

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

Диссертационный совет К 063.57.52

ГРЕБЕННИКОВ Александр Олегович

исследование устойчивости: ЛЕКСИКОСТАТИСТИЧЕСКИХ

ХАРАКТЕРИСТИК текста

Специальность 10.02.21 - структурная, прикладная и математическая лингвистика

Диссертация на соискание ученой степени кандидата филологических наук

Научный руководитель:

доктор филологических наук, профессор

Мартьшенко Григорий Яковлевич

Защита состоялась 10 декабря 1998 г.

Санкт-Петербург 1998

СОДЕРЖАНИЕ

ВВЕДЕНИЕ.....................................................................................3

ГЛАВА I. ОСНОВНЫЕ НАПРАВЛЕНИЯ ИЗУЧЕНИЯ

ЛЕКСИКО-СТАТИСТИЧЕСКОЙ СТРУКТУРЫ ТЕКСТА 6

1.1 Задачи и методы статистической лексикографии.............6

1.2 Поиск обобщающих параметров лингвистических распределений...........................................................10

13 Лсксико-сгагистичеекие методы стилеметрии ............... 20

1.4 Некоторые общие вопросы представления линг вистических распределений.................................................._________._________24

1.5 Роль автоматизации в решении лингвостатиетических задач ......................................................................25

ГЛАВА II. МАТЕРИАЛ ИССЛЕДОВАНИЯ

И ЕГО ПАРАМЕТРИЗАЦИЯ........................................28

2.1 Описание материала. Выборка ....................................28

2.2 Обработка материала. Лемматизация.......................... 31

2.3 Отбор параметров для исследования...........................35

2.4 Сводные графики изменения исследуемых статистических характеристик ...........................................................51

2.5 Выводы..................................................................65

ГЛАВА III. ИССЛЕДОВАНИЕ СОСТОЯТЕЛЬНОСТИ

СТАТИСТИЧЕСКИХ ПАРАМЕТРОВ ТЕКСТА ...............67

3.1 Аппроксимация и ее результата.................................67

3.2 Отличия теоретических кривых от кривых эмпирических распределений для словаря словоформ рассказов А.П.Чехова......................— ..................................... 79

3,3 Отличия теоретических кривых от кривых эмпирических распределений для словаря лексем рассказов А.П.Чехова 83

3.4 Экстраполяция и ее результаты.................................90

Выводы...................................................................95

ЗАКЛЮЧЕНИЕ .............................................................................. 99

СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ .................................. 103

ПРИЛОЖЕНИЕ 1 Произведения, использованные при составлении

словарей........................................................... 110

ПРИЛОЖЕНИЕ 2 Частотный словарь рассказов А.П.Чехова..............118

Предисловие ...................................................... 118

Слова, встретившиеся более двух раз............................ 128

Слова, встретившиеся два раза .............................. 180

Слова, встретившиеся один раз .......................... 186

Таблица распределения рангов и частот слов ................ 199

Имена, собственные, встретившиеся более двух раз.........202

Имена собственные, встретившиеся два раза ........... 205

Имена собственные, встретившиеся один раз ........ 205

Таблица распределения рангов и частот имен собственных 207 Перечень омонимов .....................................................208

ВВЕДЕНИЕ

В современной филологии все большее внимание уделяется поиску общих принципов, лежащих в основе различный языковых явлений и раскрывающих логику их внутрисистемных связей, в том числе - природу организации художественного текста и индивидуального авторского стиля.

Одним из основных методов такого рода исследований является моделирование с помощью статистических распределений, частным случаем которого является создание частотных словарей.

Развитие междисциплинарных контактов привело к появлению ряда систем автоматической обработки лингвистических данных, позволяющих быстро и эффективно составлять частотные словари различного объема.

Поиск характеристик, наглядно отражающих и обобщающих различные виды распределений с целью их дальнейшего анализа и сопоставления, является одной из наиболее актуальных задач в современной статистике вообще, и лингвостатистике в частности.

Это обстоятельство и определяет прежде всего актуальность данной диссертации, в которой рассматриваются проблемы устойчивости лексико-статистичееких характеристик текста.

В качестве материала исследования привлекался представительный корпус произведений признанных мастеров русского рассказа конца XIX -начала XX веков: А.П.Чехова, А.И.Куприна, В.В.Набокова, Л.Н.Андреева, общим объемом более 700 тысяч словоупотреблений.

Основные результаты диссертации, определяющие ее новизну и теоретическую значимость заключаются в следующем:

- впервые на обширном материале русской художественной прозы проведено многопараметрическое исследование с целью качественного и количественного анализа различных обобщающих характеристик словаря;

- ряд исследованных параметров никогда не применялся прежде для изучения лексико-статистической структуры текста (например, коэффициент равномерности и номинальный коэффициент вариации по Трофимову и др.);

- математически доказаны и экспериментально подтверждены факты состоятельности и несостоятельности (в вероятностно-статистическом смысле) более десятка различных статистических параметров, проведен анализ их стилеразличающей способности, показана возможность использования данных параметров в стилистическом анализе, выявлены некоторые универсальные закономерности в организации частотных словарей художественной прозы;

- накоплен обширный практический материал, представляющий собой результаты статистико-лексикографической обработки исследованных текстов; этот материал позволяет в дальнейшем проводить на его основе разнообразные исследования не только в области статистической лингвистики, но и в области стилистики, литературоведения и других гуманитарных дисциплин.

Практическая значимость диссертации определяется тем, что ее основные результаты и методологические приемы могут быть широко использованы в работах, рассматривающих вопросы авторской стилистики, статистической лексикографии, стилеметрии и квантитативной лингвистики, особенно когда речь идет об обработке больших корпусов текстов с использованием вычислительной техники. Важным является также и то, что одним из основных средств обработки материала стали существующие программы автоматической обработки текстов,

разработанные на кафедре математической лингвистики СПбГУ и в Институте русского языка РАН.

В диссертации используются следующие методы:

- методы теории вероятностей и математической статистики, включая теорию распределений и теорию оценивания;

- лексикометрические методы стилеметрии;

- некоторые разделы математического анализа (теория функций, дифференциальное исчисление);

- экстраполяционные методы прогнозирования /Гражданни-ков Е.Д., 1988, Haustein H.-D., 1970/.

Все трудоемкие расчеты и сложные алгоритмические процедуры реализованы с использованием ЭВМ.

По теме диссертации в опубликованы 2 работы: "Частотный словарь рассказов А.П.Чехова" и статья "О состоятельности статистик частотного словаря художественной прозы".

Диссертация состоит из Ведения, трех Глав, Заключения, Списка цитируемой литературы и Приложений.

ГЛАВА I

ОСНОВНЫЕ НАПРАВЛЕНИЯ ИЗУ ЧЕНИЯ ЛЕКСИКО СТАТИСТИЧЕСКОЙ СТРУКТУРЫ ТЕКСТА

1.1 Задачи и методы статистической лексикографии

Лингвостатистика постепенно избавляется от ограниченности своих интересов, к которой ее приводило исключительное внимание к технике обработки экспериментальных данных, и приходит к рассмотрению общих принципов, раскрывающих природу языка и речи. Выделились два взаимодополняющих направления, которые можно обозначить как путь "от лингвистике к математике" (статистическая интерпретация фундаментальных лингвистических понятий) и от "математики к лингвистике5' (лингвистическое осмысление основных вероятностно-статистических категорий) /Мартыненко Г.Я., 1982, Алексеев П.М., i988/.

Важной задачей квантитативной лингвистики является составление частотных словарей, эффективность использования которых при решении различных прикладных и исследовательских задач неуклонно возрастает. "Частотный словарь может рассматриваться как модель распределения частот употребления единиц в тексте /Тулдава Ю., 1987/".

Частотный словарь представляет собой упорядоченный список слов, сопровождающихся данными о частоте их употребления в тексте, причем, помимо абсолютной (числа встречаемости слова) может указываться и относительная (отношение абсолютной к объему, т.е. числу слов в словаре) частота. По способу размещения единиц различаются алфавитно-частотные словари (слова расположены по алфавиту) и ранговые частотные словари (слова расположены в порядке убывания частот с указанием ранга или без него).

Единицами частотного словаря могут являться, например, словоформы или лексемы. Материалом частотного словаря могут служить отдельные тексты или группы текстов, причем целиком или в виде фрагментов (выборок) (Частотный словарь английского подъязыка электроники /Алексеев П.М., 1965/, Учебные материалы по русской некодифицированной речи (лексика бытовых писем) /Алексеев П.М., 1981/, Частотный словарь современного американского варианта английского языка /Кисега Н., 1967/, Частотный словарь русского языка под редакцией Л.Н.Засориной /1977/ и др.). При составлении частотных словарей чисто лингвистические интересы могут тесно переплетаться с интересами литературоведения, текстологии и "авторской" стилистики. В таких случаях материалом для составления словаря является произведение или группа произведений одного автора. Последние десятилетия ознаменованы возрастающим интересом к писательской лексикографии, появлением фундаментальных экспериментальных словарей, многочисленными теоретическими исследованиями в этой области (Словарь комедии "Горе от ума" /Чистяков В.Ф., 1939/, Частотный словарь романа Д.Н.Мамина-Сибиряка "Приваловские миллионы" /Генкель М.А., 1977/, Частотный словарь романа Л.Н.Толстого "Война и мир" /1978/, Лермонтовская энциклопедия /Мануйлов В. А., 1981/, Частотный словарь автобиографической трилогии М.Горького /Алексеев П.М., 1996/, словарь романа Ф.М.Достоевского "Идиот" /Шайкевич А.Я., 1996/, Полный систематический конкорданс к произведениям Шекспира /йреуаск М., 1975/ и др.). Исследование авторского словаря позволяет выявить внутренние связи и закономерности, присущие отдельному произведению или всему творчеству писателя в целом. Словарь языка писателя представляет собой важный источник сведений о развитии и обогащении лексико-фразеологических средств литературного языка и материал для суждений о

роли художественной литературы в становлении норм словоупотребления /Поцепня Д.М., 1997/. При этом важную роль в подобного рода исследованиях могут и должны играть формальные и, в частности, статистические методы анализа /Жирмунский В.М., 1977/.

Обыкновенный частотный словарь представляет собой многообъектное распределение, т.е. множество объектов измеряются по одному общему признаку /Тулдава Ю., 1987, Мартыненко Г.Я., 1988/. Анализ распределений занимает центральное место в теории вероятностей, в математической и общей статистике, а в квантитативной лингвистике они используются, кроме того, в качестве методологической базы.

Моделирование с помощью распределений является одним из основных методов, используемых в лексикографии для исследования лексики как вероятностной системы. Начальные этапы анализа распределений позволяют представлять и рассматривать труднообозримые массы накопленных данных наблюдения. С помощью моделирования исследователи пытаются проникнуть в природу внутрисистемных связей и понять логику этих связей. Распределение является количественным отображением сложного системного лингвистического объекта. Рассматривая лингвистические распределения, сравнивая их между собой, исследователи получают представление о лингвистическом объекте - языке, функциональном стиле, подъязыке, тексте и др. В случае многообъектного распределения различают две его разновидности:

а) спектральное распределение, когда одинаковые результаты измерений объединяются в группы с указанием числа объектов с данным результатом (например, при исследовании зависимости между частотой слова в тексте и количеством слов с данной частотой);

б) ранговое распределение, при котором ранжированным (упорядоченным) значениям частот приписываются ранги и исследуется

зависимость между рангом и частотой (например, ранговое распределение частот слов).

И спектральное, и ранговое многообъектные распределения в лингвистике обычно относятся к так называемым "негауссовьш распределениям". Основной чертой распределений такого типа является то, что все они так или иначе приближенно описываются уравнением неравносторонней гиперболы. Другое важное свойство подобного рода распределений - бесконечность их обобщенных характеристик, т.е. моментов, другими словами, существенная зависимость моментов от объема выборки /Яблонский А.И., 1975, Шрейдер Ю.А., 1982, Мартыненко Г.Я., 1988/.

Постепенно лингвостатистка расширила круг своих интересов, и стала включать в область своего изучения не только технику обработки экспериментальных данных, но и общие принципы, характеризующие природу языка. Одной из текущих задач квантитативной лингвистики является формирование и коллективное изучение единых выборочных корпусов, каждый из которых представляет функциональный стиль, жанр или подъязык /Фрэнсис У., 1983, Герд A.C., 1986, Казакевич O.A., 1988, Tesitelovä М., 1985, Pala К., 1997/. Многие вопросы, еще неясные в силу разнородности материалов, имеющихся в распоряжений лингвистов, смогут быть решены путем системного изучения корпуса, который представлял бы собой целостную систему (пусть и не полную) того или иного языка и подъязыка. Задача состоит в том, чтобы углублять анализ, развивать его методику на однородном лингвистическом материале. Усредненная модель может включать в себя наиболее общие, вероятные и информационно насыщенные признаки индивидуального текста, а отклонения от усредняющей модели и создают типологию индивидуальности /Алексеев П.М., 1988/.

1.2 Поиск обобщающих параметров лингвистических распределений

В последние годы в квантитативной лингвистике, а также в биометрии, социометрии, наукометрии и других измеряющих дисциплинах настойчиво разрабатывается теория устойчивых статистик ранговых распределений. Одновременно ведутся и эмпирические исследования, направленные на выявление скорости сходимости некоторых величин по мере увеличения объема выборки.

Прежде всего исследователи ведут поиск функции, моделирующей процесс нарастания объема словаря в зависимости от увеличения объема выборки /Guiraud Р., 1954, Ворончак Е., 1972, Нешитой В.В., 1975, Тулдава Ю., 1980 и др./. На основе функции, выражающей зависимость объема словаря (V) от объема выборки (iV) можно, например, находить неизвестное значение V по данному N, а также определять степень насыщения или достаточности объема выборки. Практической стороной изучения этой зависимости является построение прогноза роста словаря и фиксация его предельного объема вне диапазона наблюдений. Установление формы связи между объемом словаря и объемом текста позволяет также исследовать стилистические особенности индивидуальных жанров и текстов и содействует решению некоторых других прикладных задач (например, установлению авторства).

Имеются многочисленные попытки построения эмпирических формул для выражения такой связи. Первые формулы такого рода появились в середине 20 века в работах П.Гиро, Й.Чотлоса, В.Курашкевича и других. Попытки их построения продолжаются до настоящего времени /Горькова В.И., 1972, Нешитой В.В., 1972., Тулдава Ю., 1987, Мартыненко Г.Я., 1988/. Разные исследователи исходили из предположения о существовании линейной связи между V и N, между logV и log/V, \og\ogV и

но, в действительности, формулы, построенные таким образом, оказались эффективны лишь для отдельных отрезков текста или выборок малого объема.

Наряду с применением чисто эмпирических формул были попытки смоделировать процесс нарастания объема словаря, исходя из определенных теоретических предпосылок, основываясь, например, на предположении о логонормальном распределении слов или о действии закона Ципфа. Опираясь на достигнутое, ряд исследователей осуществили выводы своих формул, моделирующих такой процесс /Тулдава Ю.А., 1980, Нешитой В.В., 1989 и др./. Материалы для подобных исследований были весьма разнообразны: частотный словарь английского языка Х.Кучеры, словари отдельных произведений художественной прозы, однородные выборки на материалах различных подъязыков и языков и т.п. В своем абсолютном большинстве все они представляют собой частотные словари, которые могут быть представлены в виде рангового распределения.

Одной из важнейших закономерностей, выявленных при квантитативном анализе текстов, является статистическая связь между частотой и рангом единицы словаря. Во всех случая, когда исследователь обращается к те