автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Исследование устойчивости лексико-статистических характеристик текста
Текст диссертации на тему "Исследование устойчивости лексико-статистических характеристик текста"
61- т-40/49*3
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи
Диссертационный совет К 063.57.52
ГРЕБЕННИКОВ Александр Олегович
исследование устойчивости: ЛЕКСИКОСТАТИСТИЧЕСКИХ
ХАРАКТЕРИСТИК текста
Специальность 10.02.21 - структурная, прикладная и математическая лингвистика
Диссертация на соискание ученой степени кандидата филологических наук
Научный руководитель:
доктор филологических наук, профессор
Мартьшенко Григорий Яковлевич
Защита состоялась 10 декабря 1998 г.
Санкт-Петербург 1998
СОДЕРЖАНИЕ
ВВЕДЕНИЕ.....................................................................................3
ГЛАВА I. ОСНОВНЫЕ НАПРАВЛЕНИЯ ИЗУЧЕНИЯ
ЛЕКСИКО-СТАТИСТИЧЕСКОЙ СТРУКТУРЫ ТЕКСТА 6
1.1 Задачи и методы статистической лексикографии.............6
1.2 Поиск обобщающих параметров лингвистических распределений...........................................................10
13 Лсксико-сгагистичеекие методы стилеметрии ............... 20
1.4 Некоторые общие вопросы представления линг вистических распределений.................................................._________._________24
1.5 Роль автоматизации в решении лингвостатиетических задач ......................................................................25
ГЛАВА II. МАТЕРИАЛ ИССЛЕДОВАНИЯ
И ЕГО ПАРАМЕТРИЗАЦИЯ........................................28
2.1 Описание материала. Выборка ....................................28
2.2 Обработка материала. Лемматизация.......................... 31
2.3 Отбор параметров для исследования...........................35
2.4 Сводные графики изменения исследуемых статистических характеристик ...........................................................51
2.5 Выводы..................................................................65
ГЛАВА III. ИССЛЕДОВАНИЕ СОСТОЯТЕЛЬНОСТИ
СТАТИСТИЧЕСКИХ ПАРАМЕТРОВ ТЕКСТА ...............67
3.1 Аппроксимация и ее результата.................................67
3.2 Отличия теоретических кривых от кривых эмпирических распределений для словаря словоформ рассказов А.П.Чехова......................— ..................................... 79
3,3 Отличия теоретических кривых от кривых эмпирических распределений для словаря лексем рассказов А.П.Чехова 83
3.4 Экстраполяция и ее результаты.................................90
Выводы...................................................................95
ЗАКЛЮЧЕНИЕ .............................................................................. 99
СПИСОК ЦИТИРОВАННОЙ ЛИТЕРАТУРЫ .................................. 103
ПРИЛОЖЕНИЕ 1 Произведения, использованные при составлении
словарей........................................................... 110
ПРИЛОЖЕНИЕ 2 Частотный словарь рассказов А.П.Чехова..............118
Предисловие ...................................................... 118
Слова, встретившиеся более двух раз............................ 128
Слова, встретившиеся два раза .............................. 180
Слова, встретившиеся один раз .......................... 186
Таблица распределения рангов и частот слов ................ 199
Имена, собственные, встретившиеся более двух раз.........202
Имена собственные, встретившиеся два раза ........... 205
Имена собственные, встретившиеся один раз ........ 205
Таблица распределения рангов и частот имен собственных 207 Перечень омонимов .....................................................208
ВВЕДЕНИЕ
В современной филологии все большее внимание уделяется поиску общих принципов, лежащих в основе различный языковых явлений и раскрывающих логику их внутрисистемных связей, в том числе - природу организации художественного текста и индивидуального авторского стиля.
Одним из основных методов такого рода исследований является моделирование с помощью статистических распределений, частным случаем которого является создание частотных словарей.
Развитие междисциплинарных контактов привело к появлению ряда систем автоматической обработки лингвистических данных, позволяющих быстро и эффективно составлять частотные словари различного объема.
Поиск характеристик, наглядно отражающих и обобщающих различные виды распределений с целью их дальнейшего анализа и сопоставления, является одной из наиболее актуальных задач в современной статистике вообще, и лингвостатистике в частности.
Это обстоятельство и определяет прежде всего актуальность данной диссертации, в которой рассматриваются проблемы устойчивости лексико-статистичееких характеристик текста.
В качестве материала исследования привлекался представительный корпус произведений признанных мастеров русского рассказа конца XIX -начала XX веков: А.П.Чехова, А.И.Куприна, В.В.Набокова, Л.Н.Андреева, общим объемом более 700 тысяч словоупотреблений.
Основные результаты диссертации, определяющие ее новизну и теоретическую значимость заключаются в следующем:
- впервые на обширном материале русской художественной прозы проведено многопараметрическое исследование с целью качественного и количественного анализа различных обобщающих характеристик словаря;
- ряд исследованных параметров никогда не применялся прежде для изучения лексико-статистической структуры текста (например, коэффициент равномерности и номинальный коэффициент вариации по Трофимову и др.);
- математически доказаны и экспериментально подтверждены факты состоятельности и несостоятельности (в вероятностно-статистическом смысле) более десятка различных статистических параметров, проведен анализ их стилеразличающей способности, показана возможность использования данных параметров в стилистическом анализе, выявлены некоторые универсальные закономерности в организации частотных словарей художественной прозы;
- накоплен обширный практический материал, представляющий собой результаты статистико-лексикографической обработки исследованных текстов; этот материал позволяет в дальнейшем проводить на его основе разнообразные исследования не только в области статистической лингвистики, но и в области стилистики, литературоведения и других гуманитарных дисциплин.
Практическая значимость диссертации определяется тем, что ее основные результаты и методологические приемы могут быть широко использованы в работах, рассматривающих вопросы авторской стилистики, статистической лексикографии, стилеметрии и квантитативной лингвистики, особенно когда речь идет об обработке больших корпусов текстов с использованием вычислительной техники. Важным является также и то, что одним из основных средств обработки материала стали существующие программы автоматической обработки текстов,
разработанные на кафедре математической лингвистики СПбГУ и в Институте русского языка РАН.
В диссертации используются следующие методы:
- методы теории вероятностей и математической статистики, включая теорию распределений и теорию оценивания;
- лексикометрические методы стилеметрии;
- некоторые разделы математического анализа (теория функций, дифференциальное исчисление);
- экстраполяционные методы прогнозирования /Гражданни-ков Е.Д., 1988, Haustein H.-D., 1970/.
Все трудоемкие расчеты и сложные алгоритмические процедуры реализованы с использованием ЭВМ.
По теме диссертации в опубликованы 2 работы: "Частотный словарь рассказов А.П.Чехова" и статья "О состоятельности статистик частотного словаря художественной прозы".
Диссертация состоит из Ведения, трех Глав, Заключения, Списка цитируемой литературы и Приложений.
ГЛАВА I
ОСНОВНЫЕ НАПРАВЛЕНИЯ ИЗУ ЧЕНИЯ ЛЕКСИКО СТАТИСТИЧЕСКОЙ СТРУКТУРЫ ТЕКСТА
1.1 Задачи и методы статистической лексикографии
Лингвостатистика постепенно избавляется от ограниченности своих интересов, к которой ее приводило исключительное внимание к технике обработки экспериментальных данных, и приходит к рассмотрению общих принципов, раскрывающих природу языка и речи. Выделились два взаимодополняющих направления, которые можно обозначить как путь "от лингвистике к математике" (статистическая интерпретация фундаментальных лингвистических понятий) и от "математики к лингвистике5' (лингвистическое осмысление основных вероятностно-статистических категорий) /Мартыненко Г.Я., 1982, Алексеев П.М., i988/.
Важной задачей квантитативной лингвистики является составление частотных словарей, эффективность использования которых при решении различных прикладных и исследовательских задач неуклонно возрастает. "Частотный словарь может рассматриваться как модель распределения частот употребления единиц в тексте /Тулдава Ю., 1987/".
Частотный словарь представляет собой упорядоченный список слов, сопровождающихся данными о частоте их употребления в тексте, причем, помимо абсолютной (числа встречаемости слова) может указываться и относительная (отношение абсолютной к объему, т.е. числу слов в словаре) частота. По способу размещения единиц различаются алфавитно-частотные словари (слова расположены по алфавиту) и ранговые частотные словари (слова расположены в порядке убывания частот с указанием ранга или без него).
Единицами частотного словаря могут являться, например, словоформы или лексемы. Материалом частотного словаря могут служить отдельные тексты или группы текстов, причем целиком или в виде фрагментов (выборок) (Частотный словарь английского подъязыка электроники /Алексеев П.М., 1965/, Учебные материалы по русской некодифицированной речи (лексика бытовых писем) /Алексеев П.М., 1981/, Частотный словарь современного американского варианта английского языка /Кисега Н., 1967/, Частотный словарь русского языка под редакцией Л.Н.Засориной /1977/ и др.). При составлении частотных словарей чисто лингвистические интересы могут тесно переплетаться с интересами литературоведения, текстологии и "авторской" стилистики. В таких случаях материалом для составления словаря является произведение или группа произведений одного автора. Последние десятилетия ознаменованы возрастающим интересом к писательской лексикографии, появлением фундаментальных экспериментальных словарей, многочисленными теоретическими исследованиями в этой области (Словарь комедии "Горе от ума" /Чистяков В.Ф., 1939/, Частотный словарь романа Д.Н.Мамина-Сибиряка "Приваловские миллионы" /Генкель М.А., 1977/, Частотный словарь романа Л.Н.Толстого "Война и мир" /1978/, Лермонтовская энциклопедия /Мануйлов В. А., 1981/, Частотный словарь автобиографической трилогии М.Горького /Алексеев П.М., 1996/, словарь романа Ф.М.Достоевского "Идиот" /Шайкевич А.Я., 1996/, Полный систематический конкорданс к произведениям Шекспира /йреуаск М., 1975/ и др.). Исследование авторского словаря позволяет выявить внутренние связи и закономерности, присущие отдельному произведению или всему творчеству писателя в целом. Словарь языка писателя представляет собой важный источник сведений о развитии и обогащении лексико-фразеологических средств литературного языка и материал для суждений о
роли художественной литературы в становлении норм словоупотребления /Поцепня Д.М., 1997/. При этом важную роль в подобного рода исследованиях могут и должны играть формальные и, в частности, статистические методы анализа /Жирмунский В.М., 1977/.
Обыкновенный частотный словарь представляет собой многообъектное распределение, т.е. множество объектов измеряются по одному общему признаку /Тулдава Ю., 1987, Мартыненко Г.Я., 1988/. Анализ распределений занимает центральное место в теории вероятностей, в математической и общей статистике, а в квантитативной лингвистике они используются, кроме того, в качестве методологической базы.
Моделирование с помощью распределений является одним из основных методов, используемых в лексикографии для исследования лексики как вероятностной системы. Начальные этапы анализа распределений позволяют представлять и рассматривать труднообозримые массы накопленных данных наблюдения. С помощью моделирования исследователи пытаются проникнуть в природу внутрисистемных связей и понять логику этих связей. Распределение является количественным отображением сложного системного лингвистического объекта. Рассматривая лингвистические распределения, сравнивая их между собой, исследователи получают представление о лингвистическом объекте - языке, функциональном стиле, подъязыке, тексте и др. В случае многообъектного распределения различают две его разновидности:
а) спектральное распределение, когда одинаковые результаты измерений объединяются в группы с указанием числа объектов с данным результатом (например, при исследовании зависимости между частотой слова в тексте и количеством слов с данной частотой);
б) ранговое распределение, при котором ранжированным (упорядоченным) значениям частот приписываются ранги и исследуется
зависимость между рангом и частотой (например, ранговое распределение частот слов).
И спектральное, и ранговое многообъектные распределения в лингвистике обычно относятся к так называемым "негауссовьш распределениям". Основной чертой распределений такого типа является то, что все они так или иначе приближенно описываются уравнением неравносторонней гиперболы. Другое важное свойство подобного рода распределений - бесконечность их обобщенных характеристик, т.е. моментов, другими словами, существенная зависимость моментов от объема выборки /Яблонский А.И., 1975, Шрейдер Ю.А., 1982, Мартыненко Г.Я., 1988/.
Постепенно лингвостатистка расширила круг своих интересов, и стала включать в область своего изучения не только технику обработки экспериментальных данных, но и общие принципы, характеризующие природу языка. Одной из текущих задач квантитативной лингвистики является формирование и коллективное изучение единых выборочных корпусов, каждый из которых представляет функциональный стиль, жанр или подъязык /Фрэнсис У., 1983, Герд A.C., 1986, Казакевич O.A., 1988, Tesitelovä М., 1985, Pala К., 1997/. Многие вопросы, еще неясные в силу разнородности материалов, имеющихся в распоряжений лингвистов, смогут быть решены путем системного изучения корпуса, который представлял бы собой целостную систему (пусть и не полную) того или иного языка и подъязыка. Задача состоит в том, чтобы углублять анализ, развивать его методику на однородном лингвистическом материале. Усредненная модель может включать в себя наиболее общие, вероятные и информационно насыщенные признаки индивидуального текста, а отклонения от усредняющей модели и создают типологию индивидуальности /Алексеев П.М., 1988/.
1.2 Поиск обобщающих параметров лингвистических распределений
В последние годы в квантитативной лингвистике, а также в биометрии, социометрии, наукометрии и других измеряющих дисциплинах настойчиво разрабатывается теория устойчивых статистик ранговых распределений. Одновременно ведутся и эмпирические исследования, направленные на выявление скорости сходимости некоторых величин по мере увеличения объема выборки.
Прежде всего исследователи ведут поиск функции, моделирующей процесс нарастания объема словаря в зависимости от увеличения объема выборки /Guiraud Р., 1954, Ворончак Е., 1972, Нешитой В.В., 1975, Тулдава Ю., 1980 и др./. На основе функции, выражающей зависимость объема словаря (V) от объема выборки (iV) можно, например, находить неизвестное значение V по данному N, а также определять степень насыщения или достаточности объема выборки. Практической стороной изучения этой зависимости является построение прогноза роста словаря и фиксация его предельного объема вне диапазона наблюдений. Установление формы связи между объемом словаря и объемом текста позволяет также исследовать стилистические особенности индивидуальных жанров и текстов и содействует решению некоторых других прикладных задач (например, установлению авторства).
Имеются многочисленные попытки построения эмпирических формул для выражения такой связи. Первые формулы такого рода появились в середине 20 века в работах П.Гиро, Й.Чотлоса, В.Курашкевича и других. Попытки их построения продолжаются до настоящего времени /Горькова В.И., 1972, Нешитой В.В., 1972., Тулдава Ю., 1987, Мартыненко Г.Я., 1988/. Разные исследователи исходили из предположения о существовании линейной связи между V и N, между logV и log/V, \og\ogV и
но, в действительности, формулы, построенные таким образом, оказались эффективны лишь для отдельных отрезков текста или выборок малого объема.
Наряду с применением чисто эмпирических формул были попытки смоделировать процесс нарастания объема словаря, исходя из определенных теоретических предпосылок, основываясь, например, на предположении о логонормальном распределении слов или о действии закона Ципфа. Опираясь на достигнутое, ряд исследователей осуществили выводы своих формул, моделирующих такой процесс /Тулдава Ю.А., 1980, Нешитой В.В., 1989 и др./. Материалы для подобных исследований были весьма разнообразны: частотный словарь английского языка Х.Кучеры, словари отдельных произведений художественной прозы, однородные выборки на материалах различных подъязыков и языков и т.п. В своем абсолютном большинстве все они представляют собой частотные словари, которые могут быть представлены в виде рангового распределения.
Одной из важнейших закономерностей, выявленных при квантитативном анализе текстов, является статистическая связь между частотой и рангом единицы словаря. Во всех случая, когда исследователь обращается к те