автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему:
Распределение функциональной нагрузки между значениями многозначных слов

  • Год: 2012
  • Автор научной работы: Терентьева, Ирина Анатольевна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Воронеж
  • Код cпециальности ВАК: 10.02.19
Диссертация по филологии на тему 'Распределение функциональной нагрузки между значениями многозначных слов'

Полный текст автореферата диссертации по теме "Распределение функциональной нагрузки между значениями многозначных слов"

На правах рукописи

005048095

ТЕРЕНТЬЕВЛ ИРИНЛ АНАТОЛЬЕВНА

РАСПРЕДЕЛЕНИЕ ФУНКЦИОНАЛЬНОЙ НАГРУЗКИ МЕЖДУ ЗНАЧЕНИЯМИ МНОГОЗНАЧНЫХ СЛОВ

Специальность 10.02.19 - теория языка

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

1 7 пип ?г ' I /ню ¿и

Воронеж 2012

005048095

Работа выполнена па кафедре теоретической и прикладной лингвистики Воронежского государственного университета

Научный руководитель доктор филологических наук, профессор,

•заведующий кафедрой теоретической и прикладной лингвистики Воронежского государственного университета Кретов Алексей Александрович

Официальные оппоненты: доктор филологических наук, профессор,

заведующий кафедрой теории перевода и межкультурной коммуникации Воронежского государственного университета Кашкин Вячеслав Борисович

кандидат филологических паук, доцент, преподаватель кафедры русского и иностранных языков Федерального казенного образовательного учреждения высшего профессионального образования

«Воронежский институт Федеральной службы исполнения наказаний» Гамова Ольга Леонидовна

Ведущая организация Кафедра теоретической лингвистики, рекламы

и коммуникативных технологий Тверского государственного университета

Защита состоится «31» января 2013 г. в 13-30 на заседании диссертационного совета Д 212.038.07 в Воронежском государственном университете по адресу: 394006, Воронеж, пл. Ленина, 10, ауд. 85.

С диссертацией можно ознакомиться в научной библиотеке Воронежского государственного университета.

Автореферат разослан » ^Ыа^!^ 2012 г.

Ученый секретарь

диссертационного совета Голицына Т.Н.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Диссертация посвящена исследованию распределения функциональной нагрузки между значениями многозначных слов и выявлению закономерностей, управляющих функционированием значений таких слов, а также выявлению взаимосвязи между древностью и употребительностью значений многозначных слов.

Под функциональной нагрузкой (ФН) на значение многозначного слова понимается доля реализаций слова в данном значении от общего числа употреблений слова в выборке.

Многочисленны исследования, посвященные распределению слов по числу значений в словарях или текстах того или иного языка. Их можно назвать «внешним» исследованием полисемии. «Внутренние» же исследования полисемии, посвящённые распределению в тексте частот между различными значениями многозначного слова, практически отсутствуют в силу сложности получения необходимой информации. П.М. Алексеев назвал получение такой информации «оценкой толкового словаря по тексту» [Алексеев 1973]. Информацию такого рода даёт весьма редкий вид частотных словарей - частотно-семантический словарь. Самым полным в мировой лексикографии источником информации о распределении частот между значениями многозначных слов являются словари Э. Торндайка и И. Лорджа: Semantic Count of English Words [Lorge 1938] и The semantic count of 570 Commonest English Words [Lorge 1949]. По существу, это один словарь, изданный в двух книгах. Но именно -этот словарь в силу свой малодоступности до сих пор не являлся объектом научного исследования.

Актуальность нашей диссертации обусловлена не только крайне малым количеством работ по исследованию распределения функциональной нагрузки между значениями многозначных слов, но и чрезвычайной важностью проблемы многозначности как в теоретическом, так и в прикладном аспектах.

Текущий век можно назвать веком информации, а информация, накопленная человечеством, хранится в основном в виде текстов на естественных языках. Одним вд главных препятствий на пути доступа к этой информации является неоднозначность слов в текстах на естественных языках, снятие которой является непременным условием создания информационных систем нового поколения. В связи с этим исследование количественного аспекта многозначности по данным текстов на естественном языке, способствующее более глубокому познанию многозначности и приближающее тем самым к решению проблемы неоднозначности слов в тексте, представляется актуальным.

Объектом данного диссертационного исследования являются частотно-семантические словари Э. Торндайка и И. Лорджа: Semantic Count of English Words [Lorge 1938] объёмом 20350 слов и The semantic count of 570 Commonest English Words [Lorge 1949] (570 слов), представляющие собой публикацию результатов одного исследовательского проекта в двух книгах. В целях верификации выявленных в них закономерностей привлекаются данные «Словаря языка Пушкина». Сведения о первой фиксации значений берутся из электронной версии словаря Oxford English Dictionary on CD-ROM. Version 3.1. (2009). Oxford: Oxford University Press [OED 200!)].

Предмет исследования - распределение функциональной нагрузки между значениями многозначных слов в частотно-семантическом словаре Торндайка-Лорджа и его зависимость от временного фактора.

Цель исследования состоит в обнаружении закономерностей в функционировании значений многозначных слов в статике и динамике.

Достижение цели потребовало решения целого ряда задач:

1) введения в научный оборот частотно-семантических данных проекта Э. Торндайка и И. Лорджа;

2) создания электронной версии частотно-семантического словаря Э. Торндайка и И. Лорджа и дополнения к нему;

3) превращения электронной версии словаря в компьютерную базу данных;

4) разделения многозначных слов на группы по числу значений и анализа этих групп;

5) внесения в базу данных сведений о дате первой фиксации каждого значения каждого слова согласно Oxford English Dictionary [OED 2009];

6) аппроксимации полученных данных различными типами вероятностных распределений и выявления наиболее подходящего распределения;

7) получения численных значений параметров соответствующих распределений;

8) установления зависимостей между функциональными и хронологическими характеристиками значений.

Методика исследования обусловлена целями и задачами диссертации. В работе использовались новые информационные технологии, методы количественной обработки материала, а также описательный и сопоставительный методы.

Научная новизна диссертации состоит в том, что в ней, благодаря созданию компьютерной базы данных, впервые в полном объёме вводятся в научный оборот данные словарей Э. Торндайка и И. Лорджа, на большом (более 70.000 значений) и достоверном (5.000.000 словоупотреблений) материале выявлено и формально смоделировано распределение функциональной нагрузки между значениями многозначных слов, получены данные о зависимости ФН на каждое значение многозначного слова от его возраста, найден способ оценки относительной хронологии значений одного многозначного слова по их ФЫ.

Теоретическая значимость исследования заключается в том, что оно представляет собой первый опыт фронтального исследования внутрисловной эпидигматики с помощью квантитативных методов, позволивший выявить и формализовать статистические закономерности, управляющие

распределением ФН между значениями многозначных слов и численные значения параметров этих закономерностей. Полученные данные о зависимости между ФН и возрастом значений позволяют по расхождению в ФН судить о расхождении в возрасте значений многозначных слов, что открывает новые возможности перед относительной хронологией в лексической семантике.

Практическая значимость исследования состоит в получении сведений о закономерностях функционирования значений многозначных слов и их зависимости от времени, которые могут найти применение в курсах «Введение в языкознание», «Общее языкознание», «Теория языка», «Общая лексикология», «Английская лексикология», а также - оптимизировать практику анализа текстов на естественном языке и способствовать разработке информационно-поисковых систем нового поколения. Выявленные закономерности могут найти применение в практике ранжировки значений многозначных слов при создании толковых словарей.

Созданная автором база данных о частотах значений многозначных слов и датах их первой фиксации может найти самое широкое применение в практике преподавания английского языка, подготовке учебных пособий и методических материалов.

Положении, выносимые на защиту:

1) данные, представленные в словаре Торндайка-Лорджа, подчиняются общему закону неравномерности распределения функциональной нагрузки, действующему в природе и обществе; исключения представлены в статистически недостоверной лексике с малым количеством степеней свободы;

2) распределение функциональной нагрузки на значения многозначных слов лучше всего описывается экспоненциальным распределением: /V, = Лехр(-ш'), где /' - номер значения слова, а А, а -подбираемые коэффициенты, достоверность аппроксимации Я2 = 99,5%;

3) на основании проведенного исследования с уровнем надежности 93,4 % установлено, что динамика а описывается формулой а, = -0,4651п(/) +1,4243, где / - количество значений у слова;

4) на основании проведенного исследования с уровнем надежности 99 % установлено, что коэффициент Л описывается формулой: Л, ==3511,5/"°-™'>, где (' - количество значений у слова;

5) проанализированный материал свидетельствует, что чаще всего максимальная функциональная нагрузка приходится на наиболее древнее значение слова;

6) среди редких случаев встречаются все теоретически возможные комбинации;

7) чем больше расхождение в функциональной нагрузке, тем больше разница возрасте между значениями многозначных слов;

8) вероятность терминальных (самого старого и самого молодого) значений занимать по ФН 1-ый и последний ранг выше, чем вероятность для медиальных значений занимать ранги ФН «по возрасту»;

9) вероятность занять соседний ранг для значения слова выше, чем вероятность «прыгнуть» через ранг;

10) при прочих равных вероятность понижения ФН на значение больше, чем вероятность ее повышения.

Апробация результатов исследования. Результаты исследования опубликованы в 4 статьях, докладывались на 5 международных конференциях (Проблемы компьютерной лингвистики 2009, Информатика: проблемы, методология, технологии: материалы 2010, Проблемы лексико-семантической типологии 2010, Проблемы компьютерной лингвистики 2011, Перевод: язык и культура 2011).

Структура работы. Диссертационное исследование состоит из введения, 3 глав, заключения, списка использованной литературы и приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность изучения ФН многозначных слов, изложены объект и предмет исследования, цель и задачи исследования, принципы и методы исследования, сформулирована новизна, представлена теоретическая значимость и практическая ценность работы, сформулированы положения, выносимые на защиту, даны сведения об апробации и структуре работы.

В первой главе «Квантитативные аспекты многозначности» рассматриваются различные методы изучения и исследования многозначности, дается обзор основных существующих частотно-ссмангических словарей. Глава состоит из трех разделов и заканчивается выводами.

Во второй главе «Распределение функциональной нагрузки между значениями многозначных слов (по данным словаря Торндайка-Лорджа)» данные частотно-семантического словаря Э.Торндайка-И. Лорджа были аппроксимированы экспоненциальным распределением, имеющем следующий вид:

jV. = /4ехр(-а/), где /" - номер значения слова, а А, а - подбираемые

коэффициенты.

Качество аппроксимации экспериментальных данных выбранной функцией оценивается величиной достоверности аппроксимации R2, вычисляемой по формуле, принятой в Microsoft Excel:

где уI — экспериментальные данные, а/ — теоретические значения модели, п — количество значений слова.

Словарная статья словаря-источника выглядит следующим образом (см. •габ. 1):

R1 = 1 -

ZU-/)2

к

слово часть речи номер значения употребительность (%о) кол-во для каждого значения индекс в списке частота употребления слова общее кол-во источников

abandonment sb. sb. 1 949 14 Th. 15 39 29

abandonment sb. 4 51 2 Th. 15 39 29

abasement sb. sb. 1 333 1 Th. 17 3 29

abasement sb. 2 667 2 Th. 17 3 29

Так как в частотно-семантическом словаре Э. Торпдайка-И. Лорджа встречались неточное™ и опечатки, а нам важны только статистически достоверные сведения, то мы выбрали для нашего дальнейшего исследования следующие слова:

1. Слова, в которых сумма ФН на значения лежит в интервале 1000±10%о;

2. Слова, в которых ФН ни на одно из значений не равна 0;

3. Слова, в которых ФН последовательно убывает.

После того, как мы удалили весь недостоверный материал, данные из словаря Э. Торндайка-И. Лорджа стали выглядеть следующим образом (ем. таблицу 2).

Таблица 2.Распределение функциональной нагрузки после удаления статистически недостоверного материала

Число значений слова Количество слов Сумма %о Номер значения

1 |2|3|4[5|6|7|8|9

функциональная нагрузка в %о

1 8047 1000 1000

2 1418 1000 815 185

3 1035 1000 676 238 86

4 523 1000 608 242 109 41

5 225 1001 550 240 125 63 23

6 114 1000 504 235 130 74 42 15

7 64 999 492 221 130 76 47 23 10

8 29 999 412 245 147 86 52 35 15 7

9 15 1000 372 215 154 98 65 42 28 17 9

Все слова были поделены на группы согласно количеству имеющихся у них значений. Для каждой такой группы были получены коэффициенты А и а, а также посчитана достоверность аппроксимации экспериментальных данных теоретическими. Результаты показаны в таблице 3.

Таблица 3. Качество аппроксимации ФН экспоненциальным распределением

Кол-во значений Л а Л2

2 3590 1,483 1

3 1887 1,031 0,9999

4 1477 0,889 0,9986

5 1194 0,769 0,9940

6 972 0,666 0,9895

п 861 0,615 0,9927

8 792 0,563 0,9897

9 612 0,446 0,9960

Если рассмотреть изменение коэффициента а (см. рис. 1), то очевидно, что он меняется в соответствии с логарифмическим распределением, которое описывается следующей формулой: а, =-0,4о51п(/) +1,4243, где / - количество значений у слова. Достоверность аппроксимации составляет 98,4%. Это говорит о том, что коэффициентом я управляют определенные закономерности, а значит, мы можем предсказывать его значения для каждой группы многозначных слов.

Коэффициент А описывается следующей формулой: А, =35П,5Г°-79!', где г

- количество значений у слова. Достоверность аппроксимации составляет 99,1%. Смотрите рис. 2.

ю

| 1.2СС

I С!,800

^ Л ьпг

э*спр«д»л«иив • с}|ф1!ц>,вн-а а

- Лопрмфмкчаско* 'гворетичисю«) лспроделииин

3.-65п(х) + 1,424:1 =0.9843

Рис. /. Качество аппроксимации коэффициента а

«00

3500

< зсос

?

X з- 2500

А £ 2Е00

*

п

150С

1000

500

-Эксперимгчтальное распределение коэффициента А

(теоретическое

распределение)

■/ = 3511,5х"* 75 Я1 =0.9918

3 'I 5 б Количество значений

Рис. 2. Качество аппроксимации коэффициента Л

В работах Г.Д.Селсзнсва [Селезнев 2007, 2011] была предложена гипотеза о существовании в статистической лингвистике законов, аналогичных законам статистической физики: «Закона сохранения общего количества значений всех слов некоторой замкнутой языковой системы» - в данном случае - словаря и «Закона возрастания энтропии распределения значений по группам однозначных, двузначных, трехзначных и т.д. слов».

Экспоненциальное распределение может быть прямым следствием этих двух законов. Эта физическая аналогия позволила ввести в статистическую лингвистику новые параметры: величину обратную показателю экспоненты в формуле 7" = I/o., который был назван «семантической температурой», и величину И - «семантическую энтропию распределения слов по числу значений».

По аналогии с этими законами можно предположить:

1. Закон сохранения ФН всех слое! замкнутой языковой системы. Функциональная нагрузка всегда равна 1000%о. В нашем случае замкнутая система - это частотно-семантический словарь Торндайка-Лорджа. Т.е. закон сохранения употребительности каждого значения многозначного слова.

2. Закон возрастания энтропии распределения значений, содержащихся в языке но двузначным, трехзначным ,...,/- значным словам. В устойчивой, замкнутой в семантическом отношении системе, энтропия такого распределения, вычисляемая по формуле

п

принимает максимальное значение. Все значения многозначного слова имеют разную по величине ФН в зависимости от их употребления.

В таблице 3 представлены показатели «температуры» и энтропии, которые характеризую! многозначные слова частотно-семантического словаря.

Таблица 3. «Температура» и энтропия многозначных слов

Кол-во значений Т = 1/Альфа Энтропия распред.

2 0,674400 0,478891

3 0,970026 0,817334

4 1,125239 1,018433

5 1,301067 1,191990

6 1,501953 1,276695

7 1,624959 1,420609

8 1,775884 1,572139

9 2,242152 1,736663

Мы видим, что изменение «температуры» и энтропии в зависимости от количества значений слова подчиняется определенным закономерностям (см. рис. 3, 4).

2.500 п

2.000

2,1.500

£1.000 д.

£ 0.500

¡^о.ооо

'-0.500

у= 0.8951п(х)-0.027 Иг = 0.960

-Температура

-Логарифмически я (Температура)

1 23456789 10 11 Количество значений

Рис. "Температура" распределения слов по частоте встречаемости в зависимости от

числа значений слова

2.000 1.600

к X

|1.000 0.500 0.000

у = 0.7641п(х)- 0.031 = 0.994

Е 10

- Энтропия

-Логарифмическ ая(Энтропия)

Количества значении

Рис. 4. Энтропия распределения слов по частоте встречаемости в зависимости от числа

значений слона

Как видно на рисунках, «температура» и энтропия изменяются согласно логарифмическому распределению, которое описывается следующей формулой:

- Для «температуры» /V, =0,89551п(/)-0,0276,где /' - номер значения слова. Достоверность аппроксимации равна 96%.

- Для энтропии /V,. = 0,76491п(/)-0,0311 ,где / - номер значения слова. Достоверность аппроксимации составляет 99,4%.

Средний показатель «температуры» для английского языка, по данным словаря-источника, составляет 1,4; энтропии - 1,19.

Из приведенных выше результатов следует, что исследуемая в работе функциональная нагрузка на значения многозначных слов подчиняется определенным математическим законам, а именно, экспоненциальному распределению. Достигаемая точность аппроксимации не менее 99,5% позволяет считать, что найденные теоретические распределения адекватны практическим.

Не исключено, что полученные показатели «температуры» и энтропии связаны с определенными свойствами данного языка.

В третьей главе «Время и распределение функциональной нагрузки между значениями многозначных слов» рассматривается зависимость ФН от возраста значения многозначного слова.

Возраст знаковых единиц фундаментальная характеристика, значимость которой до сих пор недооценивается в лингвистике. Возраст любой знаковой единицы язык определяет тот этап жизненного цикла единицы, на котором она находится, определяет степень ее продвинутое™ по ряду системных характеристик [Поликарпов 1998].

Если рассмотреть теоретически процесс вытеснения одного значения другим, то вначале в языке было однозначное слово, и на него приходилось 100% функциональной нагрузки. Затем появляется новое (второе) значение, и его функциональная нагрузка поначалу невелика. Если употребительность

14

этого значения начинает расти, то автоматически уменьшается употребительность первого значения. В итоге этот процесс может окончиться полным вытеснением первого значения. (См. рис.5)

вре.мя

Рис. 5. Хронология изменения функциональной нагрузки назначения днузначпого слона

Значения слов на шкале времени распределены согласно данным Oxford English Dictionary [OED 2009] (на рис. 6 представлен скриншот из электронной версии словаря), а относительная частота употребительности значения слова взята из частотно-семантического словаря И. Лорджа и Э. Торндайка и указана в промилле.

Рис. 6. Скриншот >лск-фонной версии словаря Э. Торндайка и И. Лорджа 15

Для двузначных слов наиболее многочисленной является группа слов, в которой функциональная нагрузка более древнего значения больше, в эту группу входит 66% от общего количества слов. На втором месте находится группа с большей функциональной нагрузкой более «молодых» значений, и в эту группу входит 34% слов. Из этого можно сделать вывод, что распределение функциональной нагрузки связано с возрастом слова: вначале значение слова с большей функциональной нагрузкой является более древним, чем значение слова с меньшей функциональной нагрузкой. Позже употребительность значений многозначного слова изменяется, и функциональная нагрузка более древнего значения может сравняться с функциональной нагрузкой более «молодого» значения. В итоге, позднее значение может приобретать большую функциональную нагрузку, чем раннее значение.

Для трехзначных слов возможны все комбинации. На первом месте находится группа 123 (25 %), на втором группа 132 (21 %) и на третьем месте 213(19%).

Для четырехзначных слов в словаре-источнике оказались возможны все 24 комбинации значений. На первом месте находится группа 1234 (9 %), на втором группа 1324 (7 %) и на третьем месте 1243 (6,8 %).

Мы видим, что самой представительной группой является та, у которой дата первой фиксации совпадает с рангом значения слова. Остальные две группы имеют частичное совпадение по рангам и дате первой фиксации. Из этого можно сделать вывод, что распределение функциональной нагрузки связано с возрастом слова: вначале значение слова с большей функциональной нагрузкой является более древним, чем значение слова с меньшей функциональной нагрузкой. Позже употребительность значений многозначного слова изменяется, и функциональная нагрузка более древнего значения может сравняться с функциональной нагрузкой более «молодого» значения. В итоге, позднее значение может приобретать большую

16

функциональную нагрузку, чем раннее значение. К тем же выводам мы пришли, анализируя функциональную нагрузку двузначных слов и трехзначных слов.

Также был проведен анализ между хронологической и функциональной характеристиками значений.

При этом были приняты следующие допущения:

1) дата первой фиксации значения соотносима с его появлением в речи носителей данного языка и называется номером значения (номера даются в порядке убывания древности значения);

2) ранг данного значения указывает на его ФН: первый ранг имеет значение с максимальной ФН, последний - с минимальной;

3) расположение значений по рангам называется комбинацией значений;

4) количество слов с данной комбинацией значений является мерой вероятности (МВ) реализации данной комбинации;

5) порядок распределения ФН, при котором ФН на значения убывает с

убыванием их древности, назван хронологическим порядком', порядок

распределения ФН, не отвечающий этому принципу, назван анахроническим',

анахронический же порядок, зеркально симметричный хронологическому,

назовем инверсным', равномерное распределение ФН между значениями слов

назовем аномальным.

0,400 0,350 0,300 | 0,250 | 0,200 S- 0,150 0,100 0,050 0,000

Рис. 7. Вероятность получения того или иного ранга значениями четырехзначного слона

12 3 4

Ранги

Анализ показал, что для первого значения наиболее вероятно сохранить первый ранг, а вероятность занять последний ранг минимальна (см. рис. 7). Для второго значения вероятность перемещения на третий ранг выше, чем вероятность перемещения на первый, а вероятность перемещения на первый ранг выше, чем откат на четвертый ранг. Для; третьего значения также ниже вероятность выдвижения на второй и первый ранг, чем откатывание на четвертый. Для четвертого значения вероятность занять первый ранг является минимальной по сравнению с вероятностями занять второй и третий ранг.

Можно отметить три закономерности соотношения ФН и хронологии: (I) вероятность терминальных (самого старого и самого молодого) значений занимать по ФН 1-ый и последний ранг выше, чем аналогичная вероятность для медиальных значений занимать ранги ФН «по возрасту», (2) вероятность занять соседний ранг для значения слова всегда выше, чем вероятность «прыгнуть» через ранг, (3) вероятность понижения ФН на значение всегда больше, чем вероятность ее повышения. Таким образом, значения не столько «пробиваются» к более высокому рангу, сколько оказываются на нем вследствие уменьшения ФН на значения, занимавшие более высокий ранг.

Для исследованного нами массива слов установлена также следующая закономерность: чем больше различие в функциональной нагрузке, тек больше разница в возрасте между значениями многозначных слов. Если закономерность перевернуть, то разность в функциональной нагрузке между значениями многозначного слова можно использовать для определения относительной хронологи» значений.

В заключении излагаются результаты аппроксимации данных частотно-семантического словаря Э. Торндайка-И. Лорджа, подводится итог анализа корреляции между хронологической и функциональной характеристиками значений многозначных слов.

Основные положения диссертации отражены в следующих публикациях:

1. Терснтьева И.А. Распределение функциональной нагрузки между значениями многозначных слов / И.А. Терснтьева, A.A. Крстов // Проблемы компьютерной лингвистики.— Воронеж, 2010 .— С. 293-302.

2. Терентьева И.А. Закономерности распределения функциональной нагрузки между значениями многозначных слов / И.А. Терентьева // Информатика : проблемы, методология, технологии : материалы 10-й Мсждунар. науч.-метод, копф., 11-12 февр. 2010 г., г. Воронеж .— Воронеж, 2010,— Т. 2.-С. 256-259.

3. Терентьева И.А. Функциональные закономерности английской полисемии / И.А. Терснтьева // Вестник Воронежского государственного университета. Сер. Лингвистика и межкультурпая коммуникация .— Воронеж, 2010 .—№ 2. - С. 75-79.

4. Терснтьева И.А. Корреляция между древностью и употребительностью значений двузначных английских слов / И.А. Терентьева // Вестник Воронежского государственного университета. Сер. Лингвистика и межкультурпая коммуникация .— Воронеж, 2011 .— № 1.-С. 51-54.

5. Терентьева И.А. Частотность и хронология значений в трехзначных словах английского языка / И.А. Терентьева // Вестник Воронежского государственного университета. Сер. Лингвистика и межкультурная коммуникация .— Воронеж, 2011 .— № 2. - С. 49-55.

6. Терентьева И.А. Взаимосвязь возраста слова и его функциональной нагрузки / И.А. Терентьева // Синхрония и диахрония: современные парадигмы и современные концепции: материалы Международной молодежной научной школы. — Воронеж, 2012. - С. 172- 174.

7. Терентьева И.А. Особенности распределения функциональной нагрузки между значениями слов / И.А. Терентьева, Г.Д. Селезнев // Вестник

Воронежского государственного университета. Сер. Системный анализ и информационные технологии. — Воронеж, 2012. ■— № 1. - С. 205-209.

Работы 2, 3, 5, 7 опубликованы в изданиях, рекомендованных ВАК

РФ.

Подписано н печам. 09.11.12. Формат 60x84 х1и>. Усл. исч. л. 1,2. Тираж 100-жч. Закат 1035.

0| печатано с тхиового оригинал-макета н гипофафии Ичдаюльско-иолифафического центра Воронежского государственного университета. 394000, Воронеж, ул. Пушкинская, 3

 

Оглавление научной работы автор диссертации — кандидата филологических наук Терентьева, Ирина Анатольевна

ВВЕДЕНИЕ.

ГЛАВА 1. КВАНТИТАТИВНЫЕ АСПЕКТЫ МНОГОЗНАЧНОСТИ.

§1.1. Изучение многозначности.

§1.3. Частотные семантические словари.

§ 1.4. Частотно-семантический словарь Э. Торндайка и И.Лорджа.

§1.5. Выводы.

ГЛАВА 2. РАСПРЕДЕЛЕНИЕ ФУНКЦИОНАЛЬНОЙ НАГРУЗКИ МЕЖДУ ЗНАЧЕНИЯМИ МНОГОЗНАЧНЫХ СЛОВ (ПО ДАННЫМ СЛОВАРЯ ТОРНДАЙКА-Л ОРДЖА).

§2.1. Выбор метода для изучения функциональной нагрузки многозначных слов.

§ 2.2. Исследование распределения функциональной нагрузки многозначного слова.

§ 2.3. Распределение функциональной нагрузки между значениями двухзначных слов.

§ 2.4. Распределение функциональной нагрузки между значениями трехзначных слов.

§ 2.5. Распределение функциональной нагрузки между значениями четырехзначных слов.

§ 2.6. Распределение функциональной нагрузки между значениями пятизначных слов.

§ 2.7. Распределение функциональной нагрузки между значениями шестизначных слов.

§ 2.8. Распределение функциональной нагрузки между значениями семизначных слов.

§ 2.9. Распределение функциональной нагрузки между значениями восьмизначных слов.

§ 2.10. Распределение функциональной нагрузки между значениями девятизначных слов.

§ 2.11. Анализ результатов аппроксимации данных частотно-семантического словаря Э. Торндайка- И. Лорджа.

§ 2.12. Распределение функциональной нагрузки в сверхмногозначных словах.

§ 2.13. Верификация распределения данными «Словаря языка A.C. Пушкина»

§ 2.14. Выводы.

ГЛАВА 3. ВРЕМЯ И РАСПРЕДЕЛЕНИЕ ФУНКЦИОНАЛЬНОЙ НАГРУЗКИ МЕЖДУ ЗНАЧЕНИЯМИ МНОГОЗНАЧНЫХ СЛОВ.

§3.1. Фактор времени и распределение функциональной нагрузки между значениями двузначных слов.

§3.2. Фактор времени и распределение функциональной нагрузки между значениями трехзначных слов.

§ 3.3 Фактор времени и распределение функциональной нагрузки между значениями четырёхзначных слов.

§ 3.4. Анализ корреляции между хронологической и функциональной характеристиками значений.

§ 3.4. Выводы.

 

Введение диссертации2012 год, автореферат по филологии, Терентьева, Ирина Анатольевна

Настоящая диссертационная работа посвящена исследованию распределения функциональной нагрузки между значениями многозначных слов и выявлению закономерностей, управляющих функционированием значений таких слов, а также выявлению взаимосвязи между древностью и употребительностью значений многозначных слов.

Под функциональной нагрузкой (ФН) на значение многозначного слова понимается доля реализаций слова в данном значении от общего числа употреблений слова в выборке.

Многочисленны исследования, посвященные распределению слов по числу значений в словарях или текстах того или иного языка. Их можно назвать «внешним» исследованием полисемии. «Внутренние» же исследования полисемии, посвященные распределению в тексте частот между различными значениями многозначного слова, практически отсутствуют в силу сложности получения необходимой информации. П.М. Алексеев назвал получение такой информации «оценкой толкового словаря по тексту» [Алексеев 1973]. Информацию такого рода даёт весьма редкий вид частотных словарей - частотно-семантический словарь. Самым полным в мировой лексикографии источником информации о распределении частот между значениями многозначных слов являются словари Э. Торндайка и И. Лорджа: Semantic Count of English Words [Lorge 1938] и The semantic count of 570 Commonest English Words [Lorge 1949]. По существу, это один словарь, изданный в двух книгах. Но именно этот словарь в силу свой малодоступности до сих пор не являлся объектом научного исследования.

Актуальность нашей диссертации обусловлена не только крайне малым количеством работ по исследованию распределения функциональной нагрузки между значениями многозначных слов, но и чрезвычайной важностью проблемы многозначности как в теоретическом, так и в прикладном аспектах.

Текущий век можно назвать веком информации, а информация, накопленная человечеством, хранится в основном в виде текстов на естественных языках. Одним из главных препятствий на пути доступа к этой информации является неоднозначность слов в текстах на естественных языках, снятие которой является непременным условием создания информационных систем нового поколения. В связи с этим исследование количественного аспекта многозначности по данным текстов на естественном языке, способствующее более глубокому познанию многозначности и приближающее тем самым к решению проблемы неоднозначности слов в тексте, представляется актуальным.

Объектом данного диссертационного исследования являются частотно-семантические словари Э. Торндайка и И. Лорджа: Semantic Count of English Words [Lorge 1938] объёмом 20350 слов и The semantic count of 570 Commonest English Words [Lorge 1949] (570 слов), представляющие собой публикацию результатов одного исследовательского проекта в двух книгах. В целях верификации выявленных в них закономерностей привлекаются данные «Словаря языка Пушкина». Сведения о первой фиксации значений берутся из электронной версии словаря Oxford English Dictionary on CD-ROM. Version 3.1. (2009). Oxford: Oxford University Press [OED 2009].

Предмет исследования - распределение функциональной нагрузки между значениями многозначных слов в частотно-семантическом словаре Э. Торндайка- И. Лорджа и его зависимость от временного фактора.

Цель исследования состоит в обнаружении закономерностей в функционировании значений многозначных слов в статике и динамике.

Достижение цели потребовало решения целого ряда задач:

1) введения в научный оборот частотно-семантических данных проекта Э. Торндайка и И. Лорджа;

2) создания электронной версии частотно-семантического словаря Э. Торндайка и И. Лорджа и дополнения к нему;

3) превращения электронной версии словаря в компьютерную базу данных;

4) разделения многозначных слов на группы по числу значений и анализа этих групп;

5) внесения в базу данных сведений о дате первой фиксации каждого значения каждого слова согласно Oxford English Dictionary [OED 2009];

6) аппроксимации полученных данных различными типами вероятностных распределений и выявления наиболее подходящего распределения;

7) получения численных значений параметров соответствующих распределений;

8) установления зависимостей между функциональными и хронологическими характеристиками значений.

Методика исследования обусловлена целями и задачами диссертации. В работе использовались новые информационные технологии, методы количественной обработки материала, а также описательный и сопоставительный методы.

Научная новизна диссертации состоит в том, что в ней, благодаря созданию компьютерной базы данных, впервые в полном объёме вводятся в научный оборот данные словарей Э. Торндайка и И. Лорджа, на большом (более 70.000 значений) и достоверном материале выявлено и формально смоделировано распределение функциональной нагрузки между значениями многозначных слов, получены данные о зависимости ФН на каждое значение многозначного слова от его возраста, найден способ оценки относительной хронологии значений одного многозначного слова по их ФН.

Теоретическая значимость исследования заключается в том, что оно представляет собой первый опыт фронтального исследования внутрисловной эпидигматики с помощью квантитативных методов, позволивший выявить и формализовать статистические закономерности, управляющие распределением ФН между значениями многозначных слов и численные значения параметров этих закономерностей. Полученные данные о зависимости между ФН и возрастом значений позволяют по расхождению в ФН судить о расхождении в возрасте значений многозначных слов, что открывает новые возможности перед относительной хронологией в лексической семантике.

Практическая значимость исследования состоит в получении сведений о закономерностях функционирования значений многозначных слов и их зависимости от времени, которые могут найти применение в курсах «Введение в языкознание», «Общее языкознание», «Теория языка», «Общая лексикология», «Английская лексикология», а также -оптимизировать практику анализа текстов на естественном языке и способствовать разработке информационно-поисковых систем нового поколения. Выявленные закономерности могут найти применение в практике ранжировки значений многозначных слов при создании толковых словарей.

Созданная автором база данных о частотах значений многозначных слов и датах их первой фиксации может найти самое широкое применение в практике преподавания английского языка, подготовке учебных пособий и методических материалов.

Положения, выносимые на защиту:

1) данные, представленные в словаре Торндайка-Лорджа, подчиняются общему закону неравномерности распределения функциональной нагрузки, действующему в природе и обществе; исключения представлены в статистически недостоверной лексике с малым количеством степеней свободы;

2) распределение функциональной нагрузки на значения многозначных слов лучше всего описывается экспоненциальным распределением: А", = Лехр(-ш), где / - номер значения слова, а А, а — У подбираемые коэффициенты, достоверность аппроксимации 1Г = 99,5%;

3) на основании проведенного исследования с уровнем надежности 98,4 % установлено, что динамика а описывается формулой а, = -0,4651п(/) +1,4243, где / - количество значений у слова;

4) на основании проведенного исследования с уровнем надежности 99 % установлено, что коэффициент А описывается формулой: 4=3511,5Г0,799 , где / - количество значений у слова;

5) проанализированный материал свидетельствует, что чаще всего максимальная функциональная нагрузка приходится на наиболее древнее значение слова;

6) среди редких случаев встречаются все теоретически возможные комбинации;

7) чем больше расхождение в функциональной нагрузке, тем больше разница возрасте между значениями многозначных слов;

8) вероятность терминальных (самого старого и самого молодого) значений занимать по ФН 1-ый и последний ранг выше, чем вероятность для медиальных значений занимать ранги ФН «по возрасту»;

9) вероятность занять соседний ранг для значения слова всегда выше, чем вероятность «прыгнуть» через ранг;

10) вероятность понижения ФН на значение всегда больше, чем вероятность ее повышения.

Апробация результатов исследования. Результаты исследования опубликованы в 7 статьях, докладывались на 5 международных конференциях (Проблемы компьютерной лингвистики 2009, Информатика: проблемы, методология, технологии: материалы 2010, Проблемы лексикосемантической типологии 2010, Проблемы компьютерной лингвистики 2011, Перевод: язык и культура 2011).

Структура работы. Диссертационное исследование состоит из введения, 3 глав, заключения, списка использованной литературы и приложения.

 

Заключение научной работыдиссертация на тему "Распределение функциональной нагрузки между значениями многозначных слов"

§3.4. Выводы

Анализ материала двухзначных, трехзначных и четырехзначных слов показывает, что в норме «нагружаются» более древние значения слова. Эти группы оказались самыми многочисленными по сравнению с остальными, хотя среди периферийных групп нам встретились все возможные комбинации значений. Как правило, распределение функциональной нагрузки прямо пропорционально возрасту слова. Частота и древность значений - это два взаимосвязанных фактора. Выделяются две основные закономерности. Значение слова с большей функциональной нагрузкой является более древним, чем значение слова с меньшей функциональной нагрузкой. Употребительность значений многозначного слова изменяется, и функциональная нагрузка более древнего значения может сравняться с функциональной нагрузкой более «молодого» значения, а в итоге, позднее значение может приобрести большую функциональную нагрузку, чем раннее значение.

Еще одна закономерность, характерная для исследованного массива слов, состоит в следующем: чем больше разность функциональной нагрузки на значения многозначных слов, тем больше разница в возрасте меэ/сду этими значениями.

Для первого значения наиболее вероятно сохранить первый ранг, а вероятность занять последний ранг минимальна. Для второго значения вероятность перемещения на третий ранг выше, чем вероятность перемещения на первый, а вероятность перемещения на первый ранг выше, чем откат на четвертый ранг. Для третьего значения вероятность перемещения с третьего на соседний четвертый ранг выше, чем его перемещение на ранг вперёд. Для четвертого значения вероятность занять первый ранг является минимальной по сравнению с вероятностями занять третий и второй ранг.

Можно отметить три закономерности соотношения ФН и хронологии:

1) вероятность терминальных (самого старого и самого молодого) значений занимать по ФН 1-ый и последний ранг выше, чем аналогичная вероятность для медиальных значений занимать ранги ФН «по возрасту»,

2) вероятность занять соседний ранг для значения слова всегда выше, чем вероятность «прыгнуть» через ранг, (3) вероятность понижения ФН на значение всегда больше, чем вероятность ее повышения. Таким образом, значения не столько «пробиваются» к более высокому рангу, сколько оказываются на нем вследствие уменьшения ФН на значения, занимавшие более высокий ранг.

ЗАКЛЮЧЕНИЕ

Анализ функциональной нагрузки на значения многозначных слов был бы не возможен без предварительного создания электронной версии словаря Торндайка-Лорджа и на его основе - компьютерной базы данных, содержащей более 70.000 значений.

Анализ созданной нами базы данных позволил найти закономерности, управляющие распределением функциональной нагрузки на значения многозначных слов.

Мы исследовали эти закономерности, управляющие функциональной нагрузкой слова, в целях выявления закона, благодаря которому можно получить информацию о функциональной нагрузке на значения многозначного слова. Из приведенных выше результатов следует, что исследуемая в работе функциональная нагрузка на значения многозначных слов подчиняется определенным статистическим законам. Достигаемая точность аппроксимации не менее 99,5 % позволяет считать, что найденные теоретические распределения адекватны практическим. Таким образом, экспоненциальное распределение является наиболее подходящим для описания закономерностей функциональной нагрузки многозначных слов в частотно-семантическом словаре И. Лорджа и Э. Торндайка.

В итоге мы обнаружили, что коэффициент а описывается формулой: а,=-0,4651п(/) +1,4243, где / - количество значений у слова. На основании проведенного исследования с уровнем надежности 99 % установлено, что коэффициент А описывается формулой: А, =3511,5Г0'799 , где / - количество значений у слова.

Также мы получили формулы для показателей «температуры» и энтропии:

- Для «температуры» ЛГ =0,89551п(/')- 0,0276, где / - номер значения слова. Достоверность аппроксимации равна 96%.

- Для энтропии N. =0,76491п(/) -0,0311,где / - номер значения слова. Достоверность аппроксимации составляет 99,4%.

Проанализировав материал двузначных, трехзначных и четырехзначных слов, мы обнаружили, что нормой для языка является «нагружать» более древние значения слова. Эти группы оказались самыми многочисленными по сравнению с остальными. Хотя, как показывает наш материал, среди редких случаев встречаются все теоретически возможные комбинации. В большей же части случаев ранжирование значений многозначного слова по частоте является одновременно и районированием их по древности.

Для исследованного нами массива слов установлена также следующая закономерность: чем больше функциональная нагрузка, тем больше разница в возрасте между значениями многозначных слов. Если закономерность перевернуть, то разность в функциональной нагрузке меэ/сду значениями многозначного слова можно использовать для определения относительной хронологии значений.

 

Список научной литературыТерентьева, Ирина Анатольевна, диссертация по теме "Теория языка"

1. Адмони В.Г. Введение в синтаксис современного немецкого языка / В.Г. Адмони М., 1955. - 366 с.

2. Айвазян С. А. Прикладная статистика и основы эконометрики / С. А. Айвазян — М., 1998.— 1022 с.

3. Алексеев П. М. Частотные словари: Учебное пособие. / П. М. Алексеев— СПб.: Изд-во С.-Петерб. ун-та, 2001 — 156 с.

4. Алексеев П. М. Семантические частотные словари // Статистика речи и автоматический анализ текста. JL: Наука, 1973. С. 2036.

5. Амосова H.H. Основы английской фразеологии /H.H. Амосова -Л.-ЛГУ, 1963.-208 с.

6. Андреевская A.B. Квантитативное исследование полисемии корневых слов русского языка XI-XX веков / A.B. Андреевская // Учен, зап. Тартуского ун-та. 1990. - Вып. 912: Квантитативная лингвистика и автоматический анализ текстов. - С. 3-11.

7. Апресян Ю.Д. Исследования по семантике и лексикографии. Т. 1: Парадигматика / Ю.Д. Апресян М., 2009 - 586 с.

8. Арапов М.В. Квантитативная лингвистика / М.В. Арапов М.: Наука, 1988.- 185 с.

9. Арапов М.В. Математические методы в исторической лингвистике / М.В. Арапов, М.М. Херц. М., 1974. - 166 с.

10. Арапов М.В. О смысле ранговых распределений / М.В. Арапов, E.H. Ефимова, Ю.А. Шрейдер// НТИ, 1975, № 1.

11. Ю.Ахманова О.С. Очерки по общей и русской лексикологии / О.С. Ахманова М., 1957. - 295 с.

12. ЬБерков В.П. Двуязычная лексикография / В.П. Берков М., 2004. -236 с.

13. Болтянская Р.И. Разграничения полисемии и омонимии в системе английского глагола: канд. диссерт. / Р.И. Болтянская Киев, 1983. - 214 с.

14. Бондарко J1.B. Некоторые статистические характерестики русской речи / JI.B. Бондарко, JI.P. Зиндер, A.C. Штерн // Слух и речь в норме и патологии. JL, 1977. С. 3-16.

15. Борода М.Г. Частотные структуры музыкальных текстов / М.Г. Борода// Сб. трудов Тбилисской гос. Консерватории им. В. Сараджишивили. Мецнириеба, Тбилиси, 1977.

16. Борода М.Г. Принципы организации повторов на микроуровне музыкального текста / М.Г. Борода АКД, Тбилиси, 1979.

17. Виноградов В. В. Русский язык: (Грамматическое учение о слове) / В.В.Виноградов — 4-е изд. — М.: Рус. яз., 2001 .— 717 с.

18. Вишнякова С.М. Опыт статистического исследования многозначности слов в английском языке / С.М. Вишнякова // Вычислительная лингвистика. М.: Наука. - 1976. - С. 168-178.

19. Ворончак Е. Методы вычисления показателей лексического богатства текстов / Е. Ворончак // Семиотика и искусствометрия. М., 1972.-С. 232-249.

20. Гальперин И. О. Текст как объект лингвистического исследования / И. О. Гальперин. М.: Наука, 1981.

21. Гансвинд И.Н. Необратимость /И.Н. Гансвинд // http://www.chronos.msu.ru/TERMS/gansvindvremya.htm.

22. Гиндин С.И. Частота слова и его значимость в системе языка / С.И. Гиндин // Учёные записки Тартуского ун-та. Тарту: Изд-во Тартуского ун-та. - 1982. - Вып. 628. - С. 22-54.

23. Гловинская М.Я. Семантические типы видовых противопоставлений русского глагола / М.Я. Гловинская М., 1982.

24. Гловинская М.Я. Многозначность и синонимия в видо-временной системе русского глагола / М.Я. Гловинская М., 2001.

25. Гринбаум О.Н. Гармония строфического ритма в эстетико-формальном измерении. / О.Н. Гринбаум СПб, 2000.

26. Зализняк Анна А. Многозначность в языке и способы ее представления. / Анна А. Зализняк. М., 2006.672 с.26.3вегинцев В. А. Семасиология / В.А. Звегинцев — М : Изд. МГУ, 1957 .— 321 с.

27. Ингве В. Гипотеза глубины / В. Ингве // Новое в лингвистике. Вып. 4.-М., 1965. С. 126-138.

28. Иорданская J1.H. Смысл и сочетаемость в словаре / JI.H. Иорданская, И.А. Мельчук М., 2007.

29. Карцевский С.И. Об асимметрическом дуализме лингвистического знака //Звегинцев В.А. История языкознания XIX-XX веков в очерках и извлечениях. М., 1965, ч.2., с.85-90.

30. Кацнельсон С.Д. Содержание слова, значение и обозначение / С.Д. Кацнельсон -М., 2004. 108 с.

31. Кобрицов Б.П. Модели многозначности русской предметной лексики: глобальные и локальные правила разрешения омонимии. Автореф. канд. филол. наук. М.: РГГУ, 2004.

32. Кондратов A.M. Звуки и знаки / A.M. Кондратов — М.: Знание, 1966; 1978. —207 с.

33. Краткий понятийно-терминологический справочник по этимологии и исторической лексикологии // Ж. Ж. Варбот, А. Ф. Журавлев. М., 1998.

34. Кретов А.А. Различение грамматического и лексического в глагольной многозначности // Лексическая и грамматическая семантика: Межвуз. сб. научн. тр. /Новосиб. ун-т. Новосибирск, 1986, с. 32-42.

35. Кретов А.А. Принципы выделения ядра лексико-семантической системы // Семантика слова и синтаксической конструкции Межвуз. сб-к научн. трудов, Воронеж, 1987, с. 84-93.

36. Кретов А.А. Научный прогноз в лексической семантике // Функциональная семантика слова: Сб. научн. трудов Свердловский ГПИ. Свердловск, 1992, с. 99-110.

37. Кретов А.А. Measuring concrete-abstract semantics of verbs //Lingüistica Silesiana, Vol.17, 1996, p.59-64.

38. Кретов А.А. Проблемы соотношения внутренней и внешней хронологии. //Теоретическая и прикладная лингвистика: Межвуз. сб-к науч. трудов. Вып. 3: Аспекты метакоммуникативной деятельности. Воронеж: ВГТУ, 2002, С. 142-147.

39. Кретов А.А. Прогностические возможности матрицы открытий в лексико-семантической системе // Проблемы лингвистической прогностики: Сб-к научн. трудов / Под ред. А.А. Кретова. вып. 3. -Воронеж: ЦЧКИ, 2004, с. 108-129.

40. Кретов А.А. Основы лексико-семантической прогностики. Воронеж: Изд-во ВГУ, 2006. 390 с. - (Библиотека лингвистической прогностики. Том 1).

41. Кромер В. В. Беспараметрическая модель ранговых полисемических распределений / В. В. Кромер // Компьютерная лингвистика и обучение языкам. Минск: Изд-во МГЛУ, 2000. С. 53-62.

42. Кромер В. В. Ранговые полисемические распределения в синхронии и диахронии / В. В. Кромер // Квантитативная лингвистика исемантика: Сб. науч. трудов. Новосибирск: Изд-во НГПУ, 2001а. - Вып. З.-С. 25-33.

43. Кромер В.В. К вопросу диахронической полисемии / В. В. Кромер // I Международный конгресс исследователей русского языка "Русский язык: исторические судьбы и современность", Сборник тезисов, М., 20016.

44. Крылов Ю.К. Статистический анализ полисемии как языковой универсалии и проблема семантического тождества слова / Ю.К. Крылов, М.Д. Якубовская // Научно-техническая информация. 1977. - Сер. 2. - № З.-С. 3-6.

45. Курилович Е. Очерки по лингвистике / Е. Курилович М., 1962.

46. Кустова Г.И. Типы производных значений и механизмы языкового расширения / Г.И. Кустова М., 2004.

47. Кустова Г.И., Ляшевская О.Н., Падучева Е.В., Рахилина Е.В. Семантическая разметка лексики в национальном корпусе русского языка: принципы, проблемы, перспективы // Национальный корпус русского языка: 2003-2005. М., 2005.

48. Ландау Л.Д. Статистическая физика. /Л.Д. Ландау, М.Е. Лившиц -М., Наука, 1964,- 568 с.

49. Левицкий В.В. Статистическое изучение лексической семантики /

50. B.В. Левицкий Черновцы - ЧГУ, 1989.

51. Левицкий В.В. Методологические основы для изучения лексической полисемии / В.В Левицкий., А.Д. Огуй // Проблемы методологии исследования языка. Минск: Изд-во Минск, ун-та. - 1989.1. C. 79-81.

52. Лукашевич Н. В. Разрешение многозначности терминов в процессе автоматического индексирования / Н. В. Лукашевич. // Труды международного семинара Диалог'96. Москва, 1996. - С. 142-146.

53. Макарова Н.В. Статистика в Excel / Н.В. Макарова, В.Я. Трофимец — М., 2006.-368 с.

54. Малов A.B. Ранговые полисемические распределения лексики толковых словарей русского и английского языков / A.B. Малов //Уч. зап. Тартуского у-та. Тарту: Изд-во Тартуского ун-та. - 1988. - Вып. 827. -С. 111-118.

55. Мартыненко Г.Я. Типология лингвостатистических распределений / Г.Я. Мартыненко // Лингвостатистика и вычислительная лингвистика. № 628, Тарту, 1982. — С. 103-120.

56. Мартыненко Г.Я. Основы стилеметрии / Г.Я. Мартыненко Л.: ЛГУ, 1988.

57. Мартыненко Г.Я. Введение в теорию числовой гармонии текста / Г.Я. Мартыненко СПб, 2009. - 252 с.

58. Маулер Ф.И. Грамматическая омонимия в английском языке. / Ф.И. Маулер Орджоникидзе: Госкомиздат СО АССР, 1977. - Ч 1.-91 с.

59. Найда Е.А. Анализ значений и составление словарей /Найда Е.А. //Новое в лингвистике. -М.: Прогресс. 1962. - Вып. 2. - С. 45-71.

60. Ольшанский И.Г. Лексическая полисемия в системе языка и тексте / И.Г. Ольшанский, В.П. Скиба Кишинев: Штиинца, 1987. - 127 с.

61. Ольшанский И.Г. Двунаправленный анализ субстантивной полисемии в современном немецком языке / И.Г. Ольшанский// Сб. научных трудов. М.: МГПИИЯ. - 1990. - Вып. 360. - С. 5-14.

62. Ольшанский И.Г. О новых тенденциях в области семантических исследований /И.Г. Ольшанский // Лингвистика на исходе XX века: итоги и перспективы. Тезисы международной конференции. Т. II. М. 1995.

63. Орлов Ю.К. О статистической структуре сообщений, оптимальных для человеческого восприятия (к постановке вопроса) / Ю.К. Орлов// Научно-техническая информация. Сер.2. 1970а. №8. - С. 11 - 16.

64. Орлов Ю.К. Обобщение закона Ципфа-Мандельброта / Ю.К. Орлов// Сообщения АН ГССР, т. 57, № 1 19706.

65. Орлов Ю.К. Частотные структуры конечных сообщений в некоторых естественных информационных системах / Ю.К. Орлов АКД, Тбилиси, 1975.

66. Орлов Ю.К. Обобщенный закон Ципфа-Мандельброта и частотные структуры информационных единиц различных уровней/ Ю.К. Орлов -Вычислительная лингвистика. Наука, М., 1976.

67. Перебейнос В.И. Об использовании структурных методов для разграничения значений многозначного глагола / В.И. Перебейнос //Вопросы языкознания. 1962. - №3. - С. 56-61.

68. Пиотровский Р.Г. Некоторые вопросы статистического обследования лексических групп // Вопросы статистики речи (материалы совещания). Л.: Изд-во ЛГУ, 1958, С.85-92.

69. Поликарпов A.A. Факторы и закономерности аналитизации языкового строя / A.A. Поликарпов АКД, М., 1976.

70. Поликарпов A.A. Элементы теоретической социолингвистики /A.A. Поликарпов М., 1979.

71. Поликарпов A.A. Полисемия: системно-квантитативные аспекты /A.A. Поликарпов// Уч. зап. Тартуского у-та. Тарту: Изд-во Тартуского ун-та. - 1987. - Вып. 774. - С. 135-153.

72. Поликарпов A.A. К вопросу о статистическом анализе соотношения многозначности и контекстуальных признаков слов / A.A. Поликарпов, О.В. Бушуева// Уч. зап. Тартуского у-та. Тарту: Изд-во Тартуского ун-та. - 1988. - Вып. 827. - С. 137-145.

73. Поликарпов A.A. Стилистика, семантика, грамматика: опыт анализа системных взаимосвязей / Поликарпов A.A., Курлов Ъ.АЛ Вопросы языкознания. 1994. -№ 1. - С. 62-75.

74. Поликарпов А. А. Циклические процессы в становлении лексической системы языка: Моделирование и эксперимент: автореф. дис. д-ра филол. наук / A.A. Поликарпов — М., 1998. — 55 с.

75. Прикладное языкознание: Учебник / Л.В.Бондарко, Л.А.Вербицкая, Г.Я.Мартыненко и др.; Отв. редактор А.С.Герд. СПб.: Изд-во С.Петербург, ун-та. 1996.

76. Прохорова В.Н. Полисемия и лексико-семантический способ словообразования в современном русском языке/ В.Н. Прохорова М.: Изд-во МГУ, 1980.-88 с.

77. Ривелис Е. Как возможен двуязычный словарь / Е. Ривелис -Стокгольм, 2007.

78. Сафронова Ю.Б. Некоторые системно-количественные характеристики лексико-семантических парадигм разных видов / Ю.Б. Сафронова // Уч. зап. Тартуского у-та. Тарту: Изд-во Тартуского ун-та. - 1986. - Вып. 745. - С. 129-137.

79. Селезнев Г.Д. Природа экспоненциального распределения слов по числу значений / Г.Д. Селезнев // Проблемы компьютерной лингвистики: Сб-к. научн. трудов / Под ред. А.А.Кретова. Вып.2. - Воронеж: РИЦ ЕФ ВГУ, 2005. с. 169-173.

80. Селезнев Г.Д. Природа экспоненциального распределения слов по числу значений / Г.Д.Селезнев // Вестник Воронежского государственногоуниверситета. Сер. Лингвистика и межкультурная коммуникация. № 2. 2007. —Воронеж, С. 42-46.

81. Селезнев Г.Д. Как распределяются слова по числу значений / Г.Д.Селезнев // Проблемы компьютерной лингвистики : сб. науч. тр. — Воронеж, 2008 .— Вып. 3. С. 220-225.

82. Селезнев Г.Д. Природа распределения длин слов в словарях романских языков / Г.Д. Селезнев // Проблемы компьютерной лингвистики. Сб. научн. трудов. Вып. 5. - Воронеж, 2011. С. 329-334.

83. Селиверстова О.Н. Компонентный анализ многозначных слов / О.Н. Селиверстова М„ 1975. - 240 с.

84. Сильницкая Г.В. Степень многозначности как диагностический критерий // Тезисы докладов научной конференции Прикладная лингвистика и автоматизированный анализ текста/ Г.В. Сильницкая-Тарту: Изд-во Тартуского ун-та. 1988. - С. 78-79.

85. Скороходько Э.Ф. Семантические сети и автоматическая обработка текста / Э.Ф. Скороходько К.: Наукова думка, 1983. - 218 с.

86. Терентьева И. А. Распределение функциональной нагрузки между значениями многозначных слов / И.А. Терентьева, A.A. Кретов // Проблемы компьютерной лингвистики. — Воронеж, 2010. — Вып. 4. С. 293-301.

87. Тулдава Ю.А. О некоторых квантитативно-системных характеристиках полисемии / Ю.А. Тулдава // Уч. зап. Тартуского у-та. -Тарту: Изд-во Тартуского ун-та. 1979. - Вып. 502. - С. 107-141.

88. Тулдава Ю.А. К вопросу об аналитическом выражении связи между объемом словаря и объемом текста / Ю.А. Тулдава // Труды по лингвостатистике, вып. 6.-Тарту, 1980.

89. Тулдава Ю.А. Квантитативное исследование генетического состава лексики эстонского языка/ Ю.А. Тулдава// Учёные записки Тартуского унта. Тарту: Изд-во Тартуского ун-та. - 1982. - Вып. 628. - С. 136-166.

90. Тулдава Ю.А. Социальная дифференциация лексики эстонского языка с квантитативной точки зрения / Ю.А. Тулдава// Учёные записки Тартуского ун-та. Тарту: Изд-во Тартуского ун-та. -1983. - Вып. 658. -С. 149-176.

91. Тулдава Ю.А. Проблемы и методы квантитативно-системного исследования лексики / Ю.А. Тулдава Таллин: Валгус, 1987.

92. Ульман С. Семантические универсалии /С. Ульман// Новое в лингвистике. V. М., 1970.

93. Уфимцева A.A. Слово в лексико-семантической системе языка / A.A. Уфимцева М.: Наука, 1968. - 272 с.

94. ЮО.Щерба Л.В. Избранные работы по языкознанию и фонетике, / Л.В. Щерба — Л., 1958. Т. 1—182 с.

95. Шмелев Д.Н. Проблемы семантического анализа лексики / Д.Н. Шмелев М.: Наука, 1973. - 280 с.

96. Якобсон P.O. К общему учению о падеже / P.O. Якобсон // Избранные работы-М., 1985.-С. 133-175.

97. Якубовская М.Д. Внутренние причины расщепления семантического тождества слова / М.Д. Якубовская // Филологические науки. 1977. -№ 3. - С. 53-63.

98. Alexeev P.M. Frequency dictionaries / P.M. Alexeev// Quantitative linguistics Bd.27. Berlin, 2005. P. 312-324.

99. Altmann G. Status und Ziele der quantitaven Linguistik / G. Altmann// S. Jäger. Schriften zur Linguistik. Braunschweig: Vieweg.l972 - S. 1-9.

100. Altmann G. Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz / G. Altmann, E. Beöthy, K.-H. Best // Zeitschrift für

101. Phonetik, Sprachwissenschaft und Kommunikationsforschung.- 1982. Bd. 35. -S. 537-543.

102. Altmann G. (2002). Zipfian linguistics. / G. Altmann // Glottometrics 3 -2002 19-26.

103. Baldinger K. Die Semasiologie: Versuch eines Überblicks / K. Baldinger Berlin: Akademie-Verlag, 1957. - 40 S.

104. Cruse D. A. Lexical Semantics / Cruse D. A. Cambridge: Cambridge University Press, 1986.

105. Dahl G. Word Frequencies of Spoken American English. / G. Dahl -Essex, CT: Verbatim, 1979.

106. Drebet V. Morphologische Faktoren bei der Polysemie der deutschen Adjektive /, Lewizki V., Cherubim D. // HayKOBnfi bichhk HepmßeiibKoro ymBepcHTeTy. ^epmBLji: ^Y. - 1996. - Bun. 1. - C. 29-32.

107. Egghe L. The distribution of N-grams. / L. Egghe // 2000 Scientometrics 47. P. 237-252.

108. Eldridge R.C. Six thousand common English words / R.C. Eldridge -Niagara falls, 1911.1 lö.Geeraets D. Vagueness's puzzles, polysemy's vagaries / D. Geeraets // Cognitive linguistics, 4. 1993. - P. 223-272.

109. Geeraets D. Polysemy / D. Geeraets // Encyclopedia of language and linguistics. Oxford and New York: Pergamon, 1994.

110. Jakobson R. Semiotik (ausgewählte Texte 1919-1982) / R. Jakobson-1. Aufl. Frankfurt am Main: Suhrkamp, 1988. - 430 S.

111. Hoffmann Ch. Polylexie lexikalischer Einheiten in Texten / Ch. Hoffmann// Text as a linguistic paradigm: levels, constituents, constructs. Festschrift in honour of Ludék Hrebícek; Trier: WVT, 2001. - P.76-97.

112. Horn E. A basic writing vocabulary. 10000 words commonly used in writing / E. Horn Jowa City, 1926.

113. Hrebícek L. Zipf s law and text. / L. Hrebícek // Glottometrics 3, 2002 -P. 27-38.

114. Katz J.J. Semantic Theory / J.J. Katz New York: Harper & Row, 1972.

115. Katz J.J. The structure of a semantic theory / J.J. Katz, J.A. Fodor // Language 39.- 1963.-P. 170-210.

116. Kelih E. Diskretes Modell für die Polysemie: Neue empirische Evidenz / E. Kelih // Glottotheory 1. 2007. - P. 38-47

117. Kelih E. Modelling polysemy in different languages: A continuous approach / E. Kelih // Glottometrics 16. 2008. - P. 46-56.

118. Kijko J.J. Der Zusammenhang zwischen der Bedeutungszahl der Verben und ihrer stilistischen Markierung / J.J. Kijko, S.W. Kijko//HayKOBnñ bíchhk LIepHÍBenbKoro yhíbepchtety. HepmBiji: H^Y. - 1996. - Bhii.1. - C. 60-64.

119. Kijko J.J. Quantitative Untersuchungen zur Polysemie der deutschen Verben / J.J. Kijko, S.W. Spolnizka // 29th Annual Meeting of the SOCIETAS LINGÜISTICA EUROPAEA at the University of Klagenfurt. Klagenftirt. -1996.-S. 23.

120. Kromer V. Parameter-free model of rank polysemantic distribution // QUALICO 2000. Proceedings of the fourth conference of the International Quantitative Linguistics Association. Prague, August 24-26, 2000. P. 21-22.

121. Kucera, H. Computational Analysis of Present-Day American English. / H. Kucera, W.N. Francis Providence, RI: Brown University Press, 1967.

122. Lorge I. The semantic count of 570 Commonest English Words /1. Lorge. -New York, 1949.

123. Lorge I. A Semantic Count of English Words /1. Lorge, E.L. Thorndike. — Teachers College, Columbia University. 1938. — 1177 p.

124. Mandelbrot B. An information theory of the statistical structure of language. / B. Mandelbrot // Communication Theory. London, 1953. - P. 486502.

125. Mandelbrot B. A note on a class of skew distribution functions: Analysis and critique of a paper by H.A. Simon. / B. Mandelbrot // Information and Control 2. 1959. - P. 90- 99.

126. Mandelbrot B. Final note on a class of skew distribution functions: Analysis and critique of a model due to H.A. Simon. / B. Mandelbrot // Information and Control 4. 1961a-P. 198-216.

127. Mandelbrot B. Post scriptum to "Final Note". / B. Mandelbrot // Information and Control 4. 1961b - P. 300-304.

128. Montemurro, M.A. New perspectives on Zipf s law in linguistics: from single texts to large corpora. / M.A. Montemurro, D.H. Zanette // Glottometrics 4, 2002 P.87-99.

129. Rousseau R. Zipf s data on the frequency of Chinese words revisited. / R. Rousseau, Q. Zhang // Scientometrics 24(2), 1992 P. 201-220.

130. Rousseau, R. George Kingsley Zipf: life, ideas, his law and informetrics. / R. Rousseau // Glottometrics 3, 2002 P. 11-18.

131. Oxford English Dictionary on CD-ROM. Version 3.1. (2009). Oxford: Oxford University Press.

132. Pustejovsky J. Semantics and Lexicon / J. Pustejovsky Dordrect: Kluwer, 1993.

133. Ravin Y. Polysemy. Theoretical and Computational Approaches / Y. Ravin, C. Leacock Oxford University Press, 2000.

134. Roberts A. A statistical linguistical analysis of american English / A. Roberts The Hague, 1965.

135. Robins R.H. A Short History of Linguistics / R.H. Robins Oxford: Oxford University Press, 1990.

136. Thorndike E. The teacher's word book/E. Thorndike -N. Y., 1921.

137. Wichter S. (1980), Signifikantgleiche Zeichen. Tubingen: Gunter NarrVerlag, 1980.- 199 S.

138. Wiegand H.E. Onomasiologie und Semasiologie: kombinierte Methoden zur Strukturierung der Lexik / H.E. Wiegand // Germanische Linguistik, 3, 1970. S. 243-384.

139. Zipf G.K. The meaning-frequency relationship of Words // Jornak of General Psychology, 1945, № 33.

140. Zipf G.K. Prehistoric 'cultural strata' in evolution of German: the case of Gothic / G.K. Zipf // Modern language notes v. 62, 1947.

141. Zipf G.K. Human behaviour and the principle of least effort / G.K. Zipf Cambridge: Addison-Wesley, 1949. - 573 p.