автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Распределение лингвистических единиц в текстах (на материале грузинских и английских научно-технических текстов)
Полный текст автореферата диссертации по теме "Распределение лингвистических единиц в текстах (на материале грузинских и английских научно-технических текстов)"
ЛЕНИНГРАДСКИМ ОРДЕНА ТРУДОВОГО ¡КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
На правах рукописи УДК с01.3:Ь19.<!
КОКОЧАДВИЛИ Татьяна 1ригорьевна
РАСПРЕДЕЛЕНИЕ ЛИНГВИСТИЧЕСКИХ. ЕДИНИЦ В ТЕКСТАХ / и,-, цаторкг-ле грузинских к : пгли;.с1 .их и: учпо-технитес;.1:.. текстов/
опгл:кальность 10.02.19 - теория языкознания
АВТОРЕФЕРАТ
диссертации на соистги» ученой степени га;!дпд; та иилологичес! и • нг^ук
ЛЕНИНГРАД - 1990
Работа выполнена в секторе статистики речи проблемной лаборатории физической кибернетики Тбилисского государственного университета им.Иванэ Дяавахшвили.
Научные руководители - доктор филологических наук,
профессор Р.Г.Пиотровский
- кандидат физико-математических наук, ст.н.с. Т.П.Цилосани
Официальные оппоненты - доктор филологичесних наук,
доцент Г.Я. Мартыненко
- кандидат филологических наук, М.Т.Мачавариани
Ведущая организация - Институт языкознания АН ГССР ■ юл. Арн. С. Чикобава
Защита состоится " У " /-00 (Л на заседании Спе-
циализированного совета К 063.57.52 по присуждению ученой степени кандидата филологических наук в Ленинградском го- .. сударственном университета по адресу: 199164, Ленинград, Университетская набережная, II.
С диссертацией можно ознакомиться в Научной библиотеке Ленинградского госуниверситета.
Автореферат разослан Ц Ок1\Хд Ы I $$0 '
Ученый секретарь Специализированного совета К 063.57.52
О.И.ЕРОДОВИЧ
Т ; "1"
•'■ ( Актуальность
Ь опрос о распредетешш лексических единиц (ЛГО и грамматических Гор.; и категорий давно ут.с дпскутиро: алея в :латема-тическо:'. лингвистике, однако результаты от:::с дискуссий сводились, как правило, к анализу эмпирических законов распределений (ЗЗР) словоупотреблений (с/у) в реальных текстах (ср. исследования Г.Альтмана и В.Бурдинского, К.Б.Еектаева.Р.Гро-тьяна, М.Е.Кашириной, Р.Г.Пиотровского, Т.А.Якубайтис).
Менду тем, ключевым вопросом является установление соответствия эмпирических распределений (ЭР) теоретическим законам распределений (ТЗР). Такого решения пока нет. В то ке время, установление универсальных ТЗР ЛЕ в текстах различных языков является не только прикладной задачей АПТ, от решения которой зависит ^селективность автоматического анализа, в частности, снятия конверсионной омонимии, но и общетеоретической проблемой лингвостатистики и статистики в целом.
Дело в том, что выявление связей ЭР как отдельных с/у, в том числе терминологических, так и грамматических классов слов с конкретными теоретическими распределениями (ТР) позволит решить, с одной стороны, теоретико-лингвистические вопросы, связанные с выявлением терминологических единиц в тексте, а с другой будет соответствовать развитию математической теории распределений.
Сочетание указанных теоретических и прикладных задач определяет актуальность настоящей работы, ее цель и конкретные задачи.
Цель исследования состоит в установлении особенностей ряда ТЗР относительно текстов различных языков (английского, грузинского), их стилей и подъязыков, а такяе принципов использования конкретных теоретических моделей распределений для формального установления типологии лексических единиц.
Достижение этой обще;! цели требует решения следующих конкретных залач:
I. Установление набора тех ТЗР, которые представляют интерес для лингвистики и на основе которых целесообразно устанавливать соответствие ЭР.
2. Выявление ЭЗР грамматических классов слов, а также отдельных лексических единиц в грузинских и английских научно-технических текстах.
3. Создание статистических моделей, описывающих поведение с/у и грашатических классов слов (частей речи) в английских и грузинских научно-технических текстах.
4. Выявление общих вероятностно-статистических особенностей распределения классов слов и терминологических единиц в английских и грузинских текстах.
Прикладной задачей работы является получение частотных, словарей английских и грузинских научно-технических текстов.
Новизна работы состоит в том, что
1) применительно к текстовому материалу в комплексе рассмотрены пять ТЗР (нормальный, логнормалышй, законы Чебано-ва-Фукса, Пуассона и биномиальный закон) с целью выявления ЭР ЛЕ;
2) выявлены и описаны ЭР для отдельных с/у и грамматических классов слов в синтетическом грузинском и аналитическом английском языках;
3) установлен ряд закономерностей квантитативного функционирования лексических и грашатических единиц в грузинских и английских текстах; ,
4) установлено преимущество применения закона .Чебанова-Фукса для описания терминологических единиц в научно-технических текстах.
На защиту выносятся следующие основные теоретические по-лодендр:
1) не существует единого универсального 13Р, достаточно точно описываицего любые ЭР ЛЕ,
2) отдельные ТЗР могут достаточно хорошо описывать поведение словоформ (с/ф), принадлежащих конкретным грамматическим классам и различным зонам частотные словарей,
3) комплексное использование спектра 13Р служит диагно-сцирувдим приемом для вероятностного установления грамматического класса слов, степени их терминологичности, стилистической однородности текстов,
ь
4) применение непрерывных законов распределений для выявления ЭР с/у в текстах нецелесообразно.
Теоретическая ценность работа заключается в создании комплекса реализованных на ЭВМ вероятностно-статистических моделей, описывающих поведение ЛЕ, и методики использования , спектра 13Р для решения задач грамматической и терминологической атрибуции с/у.
Практическая ценность исследования определяется возможностью ¡^пользования результатов при АТП, в частности, в задачах автоматической индексации для выделения терминологических единиц, в задачах машинного перевода при определении грамматических характеристик неопознанных слов, устранения конверсионной омонимии при отборе лексики в базовые учебные языки.
Самостоятельное применение для нужд лингвостатистики, лингводидактики и АПТ могут найти полученные в ходе работы английский и грузинский частотные словари.
Материалом исследован^ являются:
1) грузинские тексты учебных пособий по квантовой меха-1шке и молекулярной физике общим объемом 160 тнс. с/у;
2) английские научно-технические статьи по радиоэлектронике, гражданской авиации, переработке нефти и газа общим объемом 160 тыс. с/у.
Объектом исследование являются ТЗР и ЭР ЛЕ в английских и грузинских текстах.
Методы исследования основываются на вероятностно-статистическом, квантитативно-семантическом и грамматическом моделировании с использованием приемов, предложенных К.Б.Бек-таевым и К.Ф.Лукьяненковкм.
Исследования проводились с использованием французской мини-ЭВМ Яeatfite и советской EC-I045, програшы реализованы на языках Basic к PL'1 .
Апробации работа. Результаты исследования докладывались на Всесоюзной конференции по оптимизации преподавания иностранных языков и инженерной лингвистике (Ленинград, 1983 г.), на Всесоюзных симпозиумах.по лингвистическим ас-
пектам искусственного интеллекта (Ленинград,1984-1990 гг.), на Всесоюзном семинаре "Квантитативные аспекты системной организации текста" (Тбилиси, 1966 г.), на семинаре кафедры математической лингвистики ЛГУ (Ленинград, 1987 г.), на семинаре "Системно-квантитативные проблемы исследования языка и текста" (Звенигород, 19Ь7 г.), на межвузовской конференции "Квантитативные проблемы исследования языка и текста" (Тбилиси, 1988 г.). •
Публикации. По теме диссертации опубликовано 10 работ.
Объем и структура работы. Диссертация содержит 201 страницу и состоит из введения, пяти глав, заключения и приложений I, П. Библиография включает 123 наименования, из них 6 на грузинском языке и-30 на иностранных языках. Приложение I содержит различные математические характеристики рассмотренных ТЗР и схему-разбиения текста. Приложение П выделено в отдельный том и содержит частотные и ранг-частотные словари по грузинским и английски:.; научно-техническим текстам,списки 400 грузинских и 300 английских с/ф, подвергшихся исследованию, машинные распечатки всех полученных результатов сравнения ЭР с/у в грузинских и английских научно-технических текстах с пятью ТЭ?.
Содержание работы.
Во введении обосновывается выбор темы, ее актуальность и новизна, определяются цели, задачи и метод исследования.
В первой главе излагаются теоретические предпосылки исследования. Вводятся ограничения, связанные с применением вероятностно-статистического метода исследования к изучению текстов. Приводится описание методики сравнения ЗР с/у в текстах с ТЗР.
Кратко обобщая опыт,лкнгвостатистических работ, посвященных выявлению ЭЗР с/у в текстах, можно констатировать,что с достаточной четкостью вырисовывается стремление некоторых авторов описать ЭР с/ф, взятых из разных зон ЧС, одним "универсальным" законом (Г.Альтман и В. Рурдинский; Р.Гротьян; Н.С.Манасян). В результате ЗР большинства с/у в текстах остаются невыясненными.
К такому же результату приводит выявление подчинения ЭР с/ф очень ограниченному количеству ТЗР (К.Б.Бектаев и К.Ф.Лу-кьяненков, М.Е.Каширина). При этом, используя только лишь один 10-процентный уровень значимости, при сравнении ЭР с/у с ТЗР с помощью критерия согласия , вряд ли можно ожидать получения надежных выводов.
Расширив круг применения ТЗР (нормальный, логнормальный, пуассоновский, биномиальный законы распределений, закон распределения Чебанова-Фукса) для сравнения с ними ЭР с/у в грузинских и английских научно-технических текстах, мы стремились к выявлению более полной картины реального распределения с/у, взятых из разных зон ЧС, составленных по обследуемым массивам. Одновременно используются разные уровни значимости.
Необходимо также рассмотреть различия дискретных законов и теоретических непрерывных законов распределения при моделировании эмпирических схем распределений с/у в текстах. Решив изучать текст на основе статистического моделирования,мы должны оговорить условия этого моделирования. Далее нужно создать статистическую модель поведения различных лексико-грамматических классов слов в исследуемых текстах, отделить в них терминологическую лексику от нетерминологической.
Однако для того, чтобы применить аппарат теории вероятностей и математической статистики к языковым явлениям, надо ввести некоторые ограничения и допущения.
В частности, учитывая, что языковый знак является двусторонней сущностью, мы, применяя вероятностные методы для исследования означающего, лишь позднее подходим к исследованию означаемого. При этом неизбежно вводится допущение, что $ормы (означающие) в тексте ведут себя так, как единицы неживой материи. Это допущение правоверно лишь при условии предположения, согласно которому появление каждого с/у в тексте можно рассматривать как последовательную реализацию отдельных независимых испытаний. Разумеется, предположение о независимости с/у в текстах очень условно. Оно основывается на том, что закон больших чисел можно применить и к зависимым случайным величинам с близкими номерами, а зависимость
меяду случайными величинами с далекими номерами практически равна нулю. Дело в том, что далеко действующие статистические связи между словами проявляются на расстоянии 2-3 шагов текста и практически затухают через 4-5 слов (Р.Г.Пиотровский).
Одним из обязательных условий при статистических исследованиях текстов является также выполнение условия статистической однородности данного текста относительно фиксированного элемента. Будем считать, что выборочная совокупность является статистически однородной относительно фиксированного элемента (под ним подразумевается с/у), если статистические характеристики, относящиеся к данному фиксированному элементу, остаются стабильными при добавлении к данной выборочной совокупности новых отрезков текста. Статистически однородную выборочную совокупность текста можно получить путем постепенного увеличения его объема до тех пор, пока статистические характеристики (например, последовательность частичных сумм энтропий) фиксированного элемента не станут стабильными при добавлении новых отрезков того же текста.
Сравнение ЭР с/у в Грузинских и английских научно-технических текстах с Перечисленными выше ТЗР проводилось с помощью методики автоматической обработки текстов, предложенной К.Б.Бектаевым. Данная методика, основанная на традиционных, классических методах построения вариационных рядов для задания функций распределения с/ф, является корректной с математической точки зрения, удобной для обработки текстов на ЭШ, надежной для получения реальной картины выявления ЭЗР ЛЕ в текстах.
Отбор исследуемых ЛЕ производился из полученных нами на ЭВМ частотных списков грузинских и английских научно-технических текстов по следующему принципу: исследованию подвергались все с/ф начального участка (активной зоны) частотного списка, с/ф которого покрывают более 50^ текста. На следующем участке ЧС используется выборочный метод, причем интервал между отбираемыми с/ф постепенно увеличивается. Наименьшая абсолютная частота последней группы грузинских с/ф - С, а английских с/ф - 8.
Таким образом, было отобрано 400 грузинских с/ф из науч-
но-технических текстов по физике и 300 английских из научно-технических текстов по радиоэлектронике, гражданской авиации, переработке нефти и газа (список с/ф дан в приложении П).
Во второй главе анализируются с лингвистической точки зрения нормальное, логнормалыгое, биномиальное, пуассоновс-кое распределения и распределение Чебанова-Фукса; приводятся машинные формы записи этих законов для сравнения с ними ОЗР ЛЕ, описывается методика сравнения с помощью критерия согласия ЭЗР с/у с ТЗР.
Указанные ТЗР выступают в качестве наиболее адекватных математических моделей порождения текста и составляющих его языковых единиц. Применение дискретных законов распределений (закон Пуассона, Чебанова-Фукса, биномиальный) для исследования текстов оправдано в том смысле, что при исследовании структуры (формы) плана содержания и плана выражения мы имеем дело с дискретными случайными величинами. Однако, обращаясь к исследованиям, касающимся субстанции плана выражения и субстанции плана содержания, мы уже имеем дело с непрерывны!™ случайными величинами. В таком случае для исследования , текстов следует применять непрерывные законы распределений. В этой связи были рассмотрены нормальный и логнормалыгай законы распределений.
Охарактеризуем теперь с точки зрения перспектив лингвистического анализа каждый из предлагаемых ЗР.
I. Распределение Пуассона
Применение этого закона для описания ЭЗР с/у опирается на предположение, что он описывает распределение редких единиц. Рассматриваемые нами с/ф, словосочетания как раз и являются обычно редкими ЛЕ.
Формула _
, где С=Пр
выражает закон распределения Пуассона, - вероятностей, с одной стороны, массовых ( - количество внутрисерийных выборок велико), а с другой стороны, редких ( р - вероят-
- Ь -
ность появления с/ф в отдельной внутрисерийной выборке мала) событий.
2. Распределение Чебанова-Фукса Распределение Чебанова-Фукса, имеющее вид
интересно для лингвистики с той стороны, что оно характерно для взаимодействия абсол1зтно случайных и абсолютно детерминированных процессов. Именно это взаимодействие характеризует составляющие каждого текста. 3. Биномиальное распределение
Биномиальный закон распределения вероятностей, имеющий
вид
позволяет языковеду прогноз,йровать появление в сегментах заданной длины определенного."числа элементов, принадлежащих к
относится к классу непрерывных распределений. Главной его особенностью является то, что это предельный закон, к которому приближаются другие ЯР при весьма часто встречающихся типичных условиях. Применение данного закона особенно целесообразно при наличии большого количества внутрисерийных выборок.
5. Логнормальное распределение
Наблюдения над текстами показывают, что выбор слова определенной длины на данном шаге текста зависит, как говорил Г.Хердан, от семантических "импульсов" окружающего контекста, а также от длины предшествующего слова. Такт/ обра-
зом, ми сталкиваемся с ситуацией, когда значение случайной величины х не всегда складывается из независимых величин, как это имеет место в случае нормального распределения. Чаще всего эти значения являются результатом действия ряда причин, производящих последовательные воздействия. Эффект этих воздействий зависит, с одной стороны, от "интенсивности" самих воздействий, а с другой стороны, от случайной величины х, созданной действием предыдущих воздействий. В подобном случае нормально распределена не сама случайная величина,, а ее логарифм. Исходя из этих соображений, выбран логнормаль-ный закон распределения вероятностей для сравнения с ним ЭЗР с/у в текстах. Дифференциальный закон логнормального распределения имеет вид
В третьей и четвертой главах подводится итог сравнения ЭР с/у в грузинских и английских научно-технических текстах с нормальным, логнормальннм, биномиальным законами, а также с законом Чебанова-Фукса и пуассоновским законом.
Результаты сравнения ЗР с/у в грузинских и английских научно-технических текстах сводятся в таблицу I.
Как видно из таблицы, выявить универсальный ТЗР, полностью описывающий характер распределения с/у в текстах, не удается.
Несмотря на то, что и пуассоновский, и биномиальный законы распределений хорошо описывают распределения с/ф в текстах, однако и они не являются универсальны!,т. Функционирование этих ЗР является более или менее стабильным для с/<| со
Для сравнения ЭЗР с/у в грузинских и английских научно-технических текстах используется критерий согласия Г/С , формула которого имеет вид:
Таблица I
Соотношение распределений английских и грузинских с/ф по пяти ТЗР
Законы Грузинский язык Английский язык
распределении Совпа- Несов- Невы- Совпа- Несов- Невы-
дение паде- явле- о дете паде- явле- о
по ние по ние Ен по ние по ние ^
всем всем сов- всем всем сов-
уров- уров- паде- Ф уров- уров- паде- ОЭ
ням ням ний О ням ням ний О
значи- значи- СЦ значи- значи- вд
мости мости мости мости
Нормальный 146 200 54 400 97 149 54 300
Логнор- 119 94 197 400 83 41 176 300
мальный
Чебанова- 157 165 58 400 122 140 36 300
Фукса
Пуассона 295 105 - 400 216 С4 - 300
Биноми- 268 132 400 206 94 _ 300
альный
средними и малыми, частотами. Действие этих законов обнаруживается и для с/ф, взятых из активной зоны ЧС, однако тут нельзя говорить о стабильности их функционирования.
Закон распределения Чебанова-Фукса также неплохо описывает распределения с/у в текстах. Однако, как для грузинских, так и для английских научно-технических текстов существует определенное количество с/у, для которых не удалось выявить подчинение ОР закону Чебанова-Фукса. Еще раз хочется подчеркнуть, что подобный факт очевидно связан с ограничением произвола выбора с/у автором при написании научно-технических текстов.
Нормальный и логнормальный законы распределений не моделируют ЭР достаточно большого числа с/у. Этот факт объясняется тем, что оба закона являются непрерывными распределениями. Реально же мы имеем дело с дискретными величинами. Поэтому, чтобы сравнить их ЭР с непрерывными законами распределений, мы прибегаем к преобразо анию дискретного вариаци-
онного ряда к непрерывному. Таким образом, мы сами создаем некоторую искусственную модель поведения с/у в текстах, а потом применяем к этой модели непрерывные законы распределений. Подобный подход к изучению распределений с/у в текстах не является коррективным, поэтому мы считаем нецелесообразным применять непрерывные законы распределений для задач подоб- -ного рода.
Сравнивая полученные результаты для грузинских и английских научно-технических текстов (табл.1), можно заметить почти полное их совпадение. И на грузинском и на английском языках выявляется плохое совпадение ЭР с/ф с нормальным,лог-нормальным законами и законом Чебанова-Фукса. Пуассновский и биномиальный законы распределений хорошо описывают распределение с/у в текстах, имеющих как большие, так и малые абсолютные частоты. По своей типологической характеристике английский язык это аналитический язык, а грузинский - это синтетический язык, и полученные нами одинаковые результаты для научно-технических текстов на этих языках скорее всего указывают на то, что были рассмотрены стилистически однородные тексты. Таким образом, вероятностно-статистический подход к изучению текстов дает возможность в какой-то степени сравнивать тексты на разных языках по принадлежности к одному стилю (научно-технические ли это тексты или художественные).
Общие характеристики распределений грузинских и английских с/(| по частят,? речи показаны в табл.2.
Ьдесь оказывается, что для служебных слов (частицы, союзы) выявить доминирующий 'ГЬР, которому подчиняются их ЭР не удается. Для них характерно подчинение одновременно всем пяти ТЗР (в подавлянцем большинстве случаев), зато не наблюдается служебных слов, ЭР которих одновременно не совпадали бы с пятью ТГ2Р.
Такое поведение служебных слов связано, вероятно, с их принципиальной нетерминологичностыэ и независимостью от семантической структуры текста. Подтверждением этой гипотезы может быть аналогичное поведение служебных слов в других языках.
Для п.-ен существительных и имен прилагательных выявлена
Таблица 2
Сравнение ЭР грузинских частей речи с ТЗР
Закон ' Все Г1+Б Не- Общее
2ас~ Н л-Н Ч-Ф П к Рас_ П°Д" кол-во
преде- л " -1 * и пре_ чине- слово-
ления деле- ние форм
Часть ния
речи
Существительные 30 22 40 106 90 6 66 63 170
Глаголы ' 39 24 36 68 66 20 68 - 69
Прилагательные 15 13 22 41 36 8 36 13 62
Наречия 19 13 19 28 27 13 28 3 32
Частицы 5 5 6 6 6 5 6 - 6
Союзы I? 16 I? 2?. 21 12 21 I 24
Числительные 5 5 4 4 5 3 4 6
Местоимения 13 II 12 17 17 10 17 - 17
Всего
400
более или менее сходная картина. Здесь предпочтение явно отдается пуассоновскому и биномиальному законам распределений. Выявлено неподчинение ЭР большого количества с/ф одновременно всем пяти ТЗР. С другой стороны, очень мало количество имен существительных и имен прилагателы.ах, ЭР которых одновременно подчиняются всем пяти ТЗР. Числительные ведут себя несколько иначе. Их ЭР в основном хорошо совпадают с каждым'из пяти законов как по отдельности, так и одновременно с пятью ЗР. Глаголы можно выделить в особую группу. Из 69 рассмотренных глаголов законы распределения 68 глаголов подчиняются одновременно пуассоновскому и биномиальному законам распределений. Неподчинение одновременно ни одному теоретическому закону не наблюдается ни у одного глагола.
Сравнивая результаты, полученные для английских грамматических классов, с результатами, полученными для частей
Таблица 3
Сравнение ЭР частей речи в английском языке с ТЗР
Части речи
Закон распределения
II Л-Н Ч-Ф II
Не- Ко-п.к под- ли->1+с чи- че-не- ство ние
[мя существительное 12 12 2Ь 73 65 3 65 61 144
Глаголы 20 1В 22 46 43 12 43 I 52
Наречия 10 7 10 14 14 7 14 - 14
Прилагательные 13 1 21 42 42 8 42 2 45
Частицы 3 2 3 3 3 2 3 - 3
Артикли 3 3 2 2 2 2 2 - 3
Союзы Ь 8 1: 9 9 8 9 - 9
Числительные 3 3 3 3 3 3 3 - 3
'"есто имения 6 6 7 Ь В 5 Ь 2 10
Дредлоги 17 14 17 Д 14. 18 - 1Ь
Ъсего
300
5
Б
речи грузинских научно-технических текстов, можно заметить почти полную идентичность в характере; подчинения их ЭР теоретическим законам.
3 пятой главе рассматривается возможность прикладного использования построенного нами математического аппарата. Действительно, если представить выбранные пять ТЗР в виде некоторого фильтра, на вход которого поступают с/д, можно судить о тог.:, какая часть речи получится на выходе. Ксли на выходе мы получаем с/ф, которые не подчиняются одновременно все "уР - то это в основном имена существительные. Имена прилагательные в основном полностью подчиняются одновременно пуассо-новскому и биномиальному закона:.: распределения. Глаголы, наречия, числительные и слукг-бные слова ведут себя иначе. Для них характерно то, что одновременное неподчинение всем ТЗР обнаружить не удается. При дальнейшем анализе выясняется, что служебные слова, наречия г. числительные можно легко отделить от глаголов по то:.7 признаку, что они в основном подчиняются
воем пяти ТЗР одновременно. Глаголы же в основном хорошо подчиняются в численном отношении одновременно пуассоновскому и биномиальному законам распределений. Лишь для местоимений не удается выявить ни одного явного преимущества функционирования ТЗР. Их ЭР хорошо описываются каждым из пяти ТЗР.
Вероятностный подход к выявлению ЭЗР с/у в текстах дает хорошие результаты и для выделения терминологических слов в текстах. Поэтому наша модель может выполнять роль терминологического фильтра. На вход этого "фильтра" поступают с/у грузинских и английских научно-технических текстов. На выходе получаем с/у, которые не подчиняются одновременно всем рассмотренным ТЗР. Эти с/у являются терминологическими единицами.
Для грузинских научно-технических текстов по физике было выявлено с помощью этой методики 70 терминов из рассмотренных 400 с/ф. Среди них - 56 существительных й 14 - прилагательных. Для английских научно-технических текстов по радиоэлектронике, переработке нефти и газа, гражданской авиации, из 300 рассмотренных с/ф было выявлено 58 терминов.
В результате исследования установлено, что почти все с/у, ЭР которых не совпали с законом распределения Чебанова-Фук-са, также являлись терминологическими. Для грузинского языка в исследуемом массиве выявлено 120 таких терминов, для английского - 90.
С количественной точки зрения несовпадение ЭР с законом распределения Чебанова-Фукса дает лучшую селекцию терминов по сравнению с методикой К.Б.Бектаева и К.Ф.Лукьяненкова.
В заключении диссертации подведены итоги исследования.
Вероятностно-статистическое моделирование является действенным методом исследования процессов текстообразования, при этом особую важность имеет моделирование с помощью распределений. Установлено, что не существует некоторого универсального ТЗР, полностью описывающего характер распределений с/у в текстах. Нецелесообразно применять непрерывные ЭР для описания ЭР с/у в текстах.
Сравнение полученных результатов для грузинских и английских научно-технических текстов показывает почти полное
их совпадение. Это дает возможность сравнения текстов разных языков по степени их принадлежности к различным жанрам (научно-техническому или художественному).
Представив себе пять ТЗР в виде некоторого фильтра, на вход которого поступают.контрольные с/ф по виду распределения конкретной с/ф можно с определенной вероятностью указать принадлежность данной с/ф к грамматическому классу.
Данная математическая модель может выполнять роль и лексикологического фильтра для отделения терминологических единиц от нетерминологических.
По теме диссертации опубликованы следующие работы:
1. Кокочашвили Т.Г., Цилосани Т.П. Некоторые обобщенные пуассоновские распределения и их применение вллингвистине.// Инженерная лингвистика и оптимизация преподавания иностранных языков в ВУЗе. Л.: ЛГШ, 1983. С.136-141.
2. Кокочашвили Т.Г., Цилосани Т.П. О применении законов распределений лингвистических единиц в инженерно-лингвистическом моделировании.// Сообщения АН СССР, т.Пб, 1984, Я 3. С.501-505.
3. Кокочашвили Т.Г. Ш симпозиум по лингвистическим проблемам искусственного интеллекта (Хроникальные заметки).// Радиотехника, 1985, М 9. С.95-96.
4. Кокочашвили Т.Г. Частотное описание текстов на примере английского научно-технического текста по вычислительной технике.// Труды ТГУ, серия киберн. й прикл. мат. Л 6. Тбилиси: ТГУ, 1985. С.169-174.
5. Кокочашвили Т.Г., Чхенкели А.И. О выявлении эмпирических законов распределений лексических единиц в текстах с помощью ЭВМ.// Тр.ТГУ, серия киберн. и прикл. мат., Я 6. Тбилиси: ТГУ, 1985. С.142-169.
6. Кокочашвили Т.Г., Цилосани Т.П., Беришвили Г.Ы. Исследование законов распределений лексических единиц в грузинском научно-техническок тексте по физике.// Тр.ТГУ, серия киберн. и прикл. глат., Л 7. Тбилиси: ТГУ, 1986.С. 135-145.
7. Кокочашвили Т.Г., Цилосани Т.П., Беришвили Г.1!1. О частотном словаре грузинской научно-технической лексики.// Тр. ТГУ, серия киберн. и прикл. мат., № 7. Тбилиси: ТТУ, 1986, С.145-157.
8. Кокочашвили Т.Г., Цилосани Т.П., Беришвили Г.П. Результаты сравнения эмпирических законов распределений частей речи в грузинских и английских научно-технических текстах с пятью теоретическими законами распределений. Тезисы доклада.// Квантитативные аспекты системной организации текста, Тбилиси: ТГУ, 1986. С.70-78.
9. Кокочашвили Т.Г. Распределение структурных единиц языка. К проблеме лингвистической интерпретации. Тезисы доклада.// Прикладная лингвистика и автоматический анализ текста. Тарту: Тартусский ГУ, 1988. С.44-46.
10. Кокочашвили Т.Г., Цилосани Т.П. О применении закона распределения Чебанова-Сукса в лингвистических исследованиях. Тезисы доклада.// Лингвистические проблемы искусственного интеллекта. Ленинград, 1090. С.14.
Кои
4, С-