автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему:
Статистическое моделирование языковой структуры средствами автоматизации

  • Год: 1992
  • Автор научной работы: Турыгина, Лидия Александровна
  • Ученая cтепень: доктора филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.19
Автореферат по филологии на тему 'Статистическое моделирование языковой структуры средствами автоматизации'

Полный текст автореферата диссертации по теме "Статистическое моделирование языковой структуры средствами автоматизации"

33

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

ТУРЫГИНА Лидия Александровна

СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ЯЗЫКОВОЙ СТРУКТУРЫ СРЕДСТВАМИ АВТОМАТИЗАЦИИ

Специальность 10.02.19 — теория языкознания

Автореферат

диссертации на соискание ученой степени доктора филологических наук

Санкт-Петербург

1992

Работа выполнена на кафедре автоматизированной системы управления Санкт-Петербургского высшего военного инженерного училища связи.

Официальные оппоненты: доктор филологических наук,

Ведущая организация — Московский педагогический университет.

Защита состоится « .... » февраля 1993 г. в .... часов на заседании специализированного совета Д063.57.08 по присуждению ученой степени доктора филологических наук в Санкт-Петербургском государственном университете.

Адрес: 199034, Санкт-Петербург, Университетская наб., 11, филологический факультет.

* •

С диссертацией можно ознакомиться в научной библиотеке имени М. Горького Санкт-Петербургского государственного университета. .

Автореферат разослан « (Р.»лйЛ&да 1992 г.

профессор Герд А. С.;

доктор филологических наук, профессор Зубов А. В.;

доктор филологических наук, профессор Марчук Ю. Н.

Ученый секретарь специализированного совета доктор филологических наук, профессор

Н. Д. Светозарова

. ' з _

Дктуалькрс'уь исследования»Современное языкознание характе-

• рлзуэтея возросшим интересом к функционированию лингвистических единиц И установлению причинно-следственных связей между ники и внстэмо-еотвсг^енноро языка (ЕЯ). Этот интерес сопровождается поиском новых путей объективного и точного исследования,поскольку одно лишь вербально-качественное описание лингвистических единиц нэ может удовлетворять исследователя наших дней. Этим и объясняется, необходимость системно-статистического подхода к анализу языка и текста. Такой подход не только повышает надежность и теоретическую глубину решения. Он диктуется также социальным заказом,-* речь вдет о необходимости оперативной переработки научнотехнической информаций, о запросах информационно-вычислительной индустрии и оптимизации преподавания языков.

/ Несмотря на..многочисленные работы по изучению статистических закономерностей функционирования лингвистических единиц в процессе .построения текста, квантитативные /характеристики этих элементов определены'недостаточно. Слабо также изучены закономерности, поз-.волпвщие постулировать вероятностно-системную организацию как языка й речи нецелом* так и тех подсистем, структурное единство которы* обеспечивают $ти закономерности. А без знания указанных закономерностей невозможно построить обпцлб теорию функционирования языка, ■

' Основным препятствие!'.! на пути развития систе'/но-квантитатив-ИОЙ ЖШРВИСТИКИ является кризис размерности, сущность которого заключалась в том, что для проверки тех или иных вероятностных гипотез требуется Исследование циклопических обьеиов текста, что при использовании ручной технологии бывало но под силу не только отдельным ученым, но и целым исследовательские коллективам. Введение п языковедческую практику компьютера в корне меняет не .только ?,'йтод!1Ку, но г. вс’гЭ перспективу систеыно-кзантитатипных ПС-сг-здопаниГьТопзрь № получаем возможность проверять на достаточно больят: массивах текстов разнго пероптнос*ннз гипотезы и построен-1гг,:з 1-.-; их осиозе спстэг/иые модели <:эика и речи. В свяли с этсм колич.;с?сенно-каодс?взнноз «зроитносттге характ-зрис-

лкиртзистим'ски:-: о,гп:н::ц л сэпо.чунностоЯ (маразм, слои, п; . лов:-:-: оЯрззоз-.- иЛ, спсбоип:.:’: дзул,- трз;:элзкзнг1Ш'С сочетай:!;;)р.; ;>со:: уровня-: -:з!'-э иетп, не^холн'т для раскрытия обцпх с>;з::

ств языковой структури'"1', становится МолШ актуальной ээдачзй.

Все это делает крайне современной задачу разработки процессора для пвтомапіаация проведения колплвкеннх рабої’ по вщелэнй» К струкїуризшуш лвнгвистичоскігс единиц и их Статистической обработке. Д5я1о;.;пт;:чоскоо формирование болыдлх и рэоь'ообраоч^х Массивов данных на оснопе един,ой ілп’одммі в’.щнйбНий й иосгядув^й статі-, ^тхчоохой обработки дкіи-висїг.чоских единиц позволь? подо”-V;; япло-гнул к проблеме создания промышленных. &вїокат{:зяровтшх снп'-'Г';,' по г.орврпботко токстон, глписпниых Ча еа^эетв'чч.-о^ кэы^е (ГЯ). Особое знаи-.'-чп-а ?та з,-уддм пр^обретае!1 се';т?ас, когда осу-*!Г’-гт'г*ті годхо-.д’ ;-г ^ор*-дрога;:”'-' ''"'‘.‘Дії;:1':, дднаЬ'.пее1"". дздед;д>-

щпхел ")нз данных (мадакимх ^епдоэ гз;лсоп-)хч*

У' : П’Ч'ДХ СОГ.-'-’.глЧНОт'О '^ПретНДД:;; -Ч'а Г Д.'--

лгід-’-'Г’!) 'Т!>-т'('лі,.г;иг о;неде;;;/:Т !'К'луа:,Ы!Оо"’г> -ї"О-'-’О;.-•"< р^сл:.-'::; е::

цель ;; копире7шю задача. '

Цель п ллдачм иссгс.яопэкяк« Основная цель работы состоя? в вшг-динни особошїосуеГі ііороягиос'.'ііо-с/аїїкгій^зского даделир0£лді;.д рглій'х іроьнои речйсоЛ деятельности ь рамках определенного фуіі:;~ _ цг.онального сїилн п подь>'ои::й на основе единой методики поеі!*.0и-н;:я программного комплекса по аіл-о;.таїической стаїисгичаскои обработке текстовых единиц. Предай Ч?М ПСОВЙ'і’И к перечнеленш коькрзт-ных задач, реализующих эту цель, оговорим два иаяііих для посуроо-ния нашЯ работы момента. ■

I. Поскольку моделирован:# как научный призм соскок:’ ■и упрощенном воспроизведении объекта* ’до одним из ваглНсйп;::;; требований, продъявляэжяс к модели йвлйсгся ьозмоянос'.’ь налболао полного отражения с ее помощью основных свойств оригинала. Если оригиналом явлгетея ЕЯ, го очевидно, ч^о наиболее сутц-зсусеннке ого особенности связаны с семиотическими своГштваУй языховгл: единиц. Учиїьшак двуплаковость языкового знака особое знаЧзиие приобрэтаэу его функциональный аспект. Напомним при этом, адо в состав знака,, содержащего денотат, копотат и десигнат вмзете с концептом, шсяючдуїся такдо значимость - ценность по 5.де .Соссюру, отраіаюцая внуїрппзи-

‘^Под лзыковой структурой понимается г,ось комплекс системных оїпоез — пий речевой деятельности, т.е. системы языка, системы речи н моха-ІШЗМ0Е1, позволрщ їх извлекать отдельные лингвнеткчзекш объоти из первой системы и встраивать их во вторую. .

•<хЛингвистлчос кая концепция Терминологпчс ского блика данных мамчиного фонда русского языка. Дод рг-д.А.С. Гсрдя-У., 1289.-103 с.

- 5 -

ковыо отношения и характеризующая положение? знака б языковой системе, а такяе вероятность его употребления в тексте данной тематики и жанрами валентность* т.е. прогноз па сочетаемость данного знака с другими знаками*'*. Эти свойства выявляются в процессе функционирование элементов языковой структуры и имеют сбои особенности на разгшх уровнях. Системно-статистическое исследование их аспектов как раз и входит в задачу настоящей работы.

2. Современная системная квантитативная лингвистика (КЛ), в рамках которой выполнена настоящая работа, характеризуется двумя тесно уврзашнл:!! друг с другое исследовательскими направлениями н реализующими ИХ технология.'.'.!!.

Во-первых, пользуясь методами математической статистики, ЮI описывает реальную продукцию танковой системы - тексты. В качестве текстов могут рассматриваться не только предложения и свеохфразо-выс единства вплоть до целостных сочинений, но также списки отдельных словосочетаний, словоформ и дате вокабул. Последний вид "текстов" используется для статистического описания поведения морфем, слогов, фонем, букв.

Во-вторых, опираясь на результаты, полученные при статистическом описании текста, а тагге путем статистической обработки результатов различных психолингоистических экспериментов, Ю1 строит вероятностные модели тех валентностних механизмов системы языка, которые обеспечивают генерирование реального текста. В этом случае КЛ пытается смоделировать количественный прогноз на употребление тех или иных объектов Ей и их связей, заложенных в лингвистической компетенции носителя языка.

Исходя из этих постулатов мочено следующим образом определить задачи, реализующие основную цель настоящей работы.

I. Необходимо сформулировать общие принципы статистического анализа и построения моделей реальных лингвистических объектов.

Эта задача предусматривает: а) рассмотрение теоретических предпосылок применения вероятностно-статистических методов в лингвистических исследованиях, б) выделение основных структурных элементов, спнза-"шх ассоциативными (парадигматическими) и синтагматическими отношениями, в.' построение квантитативных моделей подъязыков, при-

Значимость и -..алентность обнаруживаются так.иэ в означающем знака.

уу *

'“‘Ср. Пиотровски;/ Р.Г. Лингвистические уроки машинного перевода //ВЯ. - 19ь4. - !'А, С. 1о-И7,

- б -

надлежащих разным функциональным стилям. ■

2. Следует разработать методику автоматического (машинного) выделения текстовых единиц и их структуризации с учетом: а) особенностей материала, б) структурно-типологического анализа лингвистических элементов, в) классификации этих элементов по степени их значимости.

3. Нухно реализовать метод такого автоматического построе-

ния воспроизводящей щшгвостатисткческой модели языковой структуры, которое предусматривает: а) разработку алгоритмов программ структуризации текстовых единиц и объединение выделенных единиц в парадигматические и синтагматические ряды, б) построение квантитативных моделей разноуровневых элементов, в) разработку оценок адекватности выбранной модели,описывающей тот или иноГ; лингвистический объект. '

4. Необходимо осуществить проверку работоспособности диалоговой системы автоматической структуризации лингвистических единиц и их статистической обработки.

Существенно новыми являются следующие аспекты исследования:

- определение исходных теоретических положений для проведения системного вероятностно-статистического исследования языка и речи и в частности выявления некоторых валшых стохастических закономерностей, заложенных в языковых механизмах порождения текста;

- разработка основ технологии квантитативного анализа языка и речи средствами автоматизации;

- разработка моделей факторного анализа для исследования мно-гопараметричееккх лингвистических объектов в целях выявления их внутренней структуры на тексте, а не на словарном материале, как ото делалось до сих порх.

- применение статистического критерия " & " к лингвистическим единицам для оценки их вариативности;

- разработка комплекса программ обработки текстов для осуществления принципа автоматической структуризации лингвистических единиц (аффиксов, словоформ, однокорневых образований, свободных двух, -трехэлементных сочетаний) с .машинным построением их статис-

х Ср. Сильницкий 1.Г., Андреев С.Н., Кузьмин Л.Л., Кусков М.П. Соотношение глагольных признаков различных уровней в английском языке. - Минск: Наука н техника, 1^30 - 179 с.; Тулдава Ю.А. Опыт квантитативного анализ;», художественного стиля // Учен.зап.ТГУ Вып. 350. Тарту, 1976. - С. 122-141.

тических моделей*.

Теоретическая ценность работы заключается в тон, что разработка указанных теоретических посылок и технологического аппара- . та позволяет решать с единых позиций вопросы вероятностно-статистического моделирования словообразовательных элементов и лексических единиц (с/у, с/с) языковой системы и выявлять основные факторы, воздействующие на их формирование и функционирование.

Данные, получаеже в результате реализации комплекса лингио-статистических моделей дают основание подоііги вплотную к построению статистическоіі теории функционирования языка.

Практическая ценность работы заключается в том, чг;’о разработана и построена автоматизированная система по выявлению структуризации текстовых единиц и статистической их обработке. Эта система предусматривает ряд последовательных этапов выполнения операций по обработке аффиксальной системы, словарной систем:, гнездовых образований, свободных двух- и трехэлементных сочетаний, построение их статистических моделей. Система используется в обучающем лингвистическом автомате, созданном в Санкт-Петербургском высшем военном инженерном училище связи, и в системах искусственного интеллекта, разрабатываемых в научно-исследовательской лаборатории СПВІЗИУС.

Результаты исследования могут быть использованы в лингводи-аактических целях при составлении частотных словарей-минимумов,

ч, курсах по лингвистической статистике и статистической лексико-рафии, а также при разработке информационно-поисковых и экспертных систем.

Объектом исследования и материалом для вероятностно-статисти-■2ского построения языковой структуры являются английские тексты двух функциональных стилей: газетно-публицистического (подъязыки спорт и искусство) и научно-технического (подъязык вычислительной техники). Надежность результатов обеспечивается репрезентативность.) выборок, непосредственно связанных с механизмом случайного их извлечения из генеральной (гипотетической) совокупности. Обідув длину обследованных текстов составили четыре выборки по 100 тыс. слово- \ употреблений в каждой.

хВесь концепт: тьный аспект работы, а так'ке выбор лингвистического и лиигпо-мпто:.,„тниаского аппарата принадлежит автору. Разработка алгоритмов и програ'/м, реализугуцие эти идеи, осуществлялась готовом совместно с программистами.

Основным мотодом исследования языковых объектов является вероятностно-сггтиетическое иоделированае.Что же касается построение систг;/ы обработки единиц языковой структуры, то оно велось методом нисходящего проектирования и модульного программирован;;!:.

На за:.'глту выносятся следующие основные положения:

1. Вероятностно-статистическое моделирование речевой деятельности ( т.е. языка к речи ) - одно из основных условий построения общей теории функционирования язика в коммуникации. Это моделирование помогает раскрыть природу лингвистических объектов в процессе их функционирования, выявить вероятностные и качественные свети з языке и установить законы, управляющие статистические поведением лингвистических единиц г. текстах большой длины.

2. Лингвистические единицы в процессе порождения текста организуются в речевую последовательность по вероятностном законам в соответствии с их сочетательными возможностями.

3. Стохастическим механизмом порождения текста большой длины является схема Бернулли.

4. Распределение лингвистических единиц в тексте имеет тенденции реализоваться по биномиальному распределению.

5. Структурные отношения лингвистических элементов в плане

парадигматики и синтагматики, т.е. в двух аспектах существования речевой деятельности, оспоа:ига на таких статистических свойствах как регулярность, упорядоченность я устойчивость употребления, обнаруживающихся, разумеется, только в обширных массивах текста. .

Апробация работы. Основные результаты исследования были включени в доклады, сделанные на научных семинарах, всесоюзных, мечдуиарояшх и республиканских конференциях: " Переработка текста методами инженерной лингвистики " ( Минск, 1582 г.), Всесоюзной таколе-семинаре " Интерактивные системы " ( Тбилиси,К32г.). Международном семинаре по машинному переводу ( Москва, 1933 г.), Всероссийской третьей школе-семинаре " Обучающие лингвистические мамины и оптимизация обучения языкам " ( Махачкала, 198I г.), научном семинаре по проблемам искусственного интеллекта Академии связи ( Ленинград, 1984 г.), Научном семинаре по искусственному

. ' - 9 -

интеллекту ЛВВИУС ( Ленинград, 1985 г.), Всесоюзной конференции " Совершенствование перевода научно-технической литературы и документов " ( Москва, 1968г.).

Структура и объем диссертации. Диссертация включает два тома. Порви!', том состоят кз 324 страниц машинописного текста, включающего: I) введение; 2) четыре главы ( глава X - Методологические предпосылки применения статистических методов в лингвистических исследовании! глава П - Методика статистического моделирования и лп?о,''*гчн,ея!-ого ( машинного ) выделения текстовых единиц; гласи Ш - Статистическое моделирование словообразовательного процесса; глам 1У - Мочя’чгпсв'ыяг» лексической системы ; 3) заключение;

/[) рекомендации; 5) список использование;} литературы ( 243 наименований в то?.) число 54 иноязычных ); б) приложения на 17 страницам. РтороП том состоит пз 151 стрзшщ и вялзчоот материал, полу-’renirjS л результате проведенных исследования и представленный i гиде 21 приложения.

Подз^анчз_ разо™ь По введении обосновывается актуально г; L тз'а;, излагается цель я задачи исследовании.

Глаза I " Оедче причцшш статистического анализа ыодедзй лкн-генетически” объектов. " Требования к модельному исследованию лзпка и рзчн обуслойлецу следующими причина;.!!!: Т) потребностью " от'^дсния " от ЕЯ поситол/т з связи с созданием аптоттизиро-ванимх. систем различного назначения ( экспертных систем и т.д, ),

2) ростом автоматизировании:: процессов по содорнательной обработке информации, 3) прсшпгцогзиием математических методов г> иселсдс -пан*"? сго;!стз roiwonst ебтектов с целыэ создания компактного"1 программного продукте. ", сс~;:з:':а'':;зго знании о языкс-ч

Основанием для ичтематического анализа языка и речи г.:з:*ет бить та к 7.е предположение о на;;;н:;гн таких свойств у языковых единиц как: I) дискретность, 2) вариативность, 3) способность зле-г-витаргг: единиц вводить п соста!} более сложных образований,

4} упорядоченность и гэг.уллриосгь употребления в больз!Г< масси--г.'; текстов, Вместе с тем анализ дихотомии " язык - речь " пока-

"Се. Лиотровскн"- Р.Г.. Рлхубо ii.il., Ха-.;кнскпя М.С. Системное не-следогзииз лог --на; научного текста. - Филинов: Ьтиинч, 1Ь81. -166 с.; Якуба?. п:с Т.А. Части сечи и типы тзкетоз. - Рига: Зина?-пз. 1Уо1. - 247 с.; Драпов М.Ь. Квантитативная лингвистик*. - П.: Наука, Ь-'сЗ, - Ш4 с.

зыяаст, tiro одним из центральных вопросов лингаиитичзекого шда-лпроваїиш, осугчзст8лда.цегося на основе дъойио!5 струкчурпзацх:

( парадлг;.;;и’йка >: синтагматика ) является олрздел-за;и характер- ’ г.гз::ь:ссітік лшн'анстинзскпх олемонтоа ( либо дз'.'2рл:й.-;;.с:'!:;;;; .’iS-Sw г.сроп?нзстно-ста:-пст»4ческ;;й ), который золотей ь :.:злсл>и.-а; £yha-ц:ток;;рован;ш ЕЯ, Догсрышшм тацо всего.присущ срх^іліац--- <~*>-такзика,гдо продет:.ї»яоні; обычно

Г[_.■? V».^0IIC.; j;;",'A 1 i"GplvIriili^Oi.-iU.IiiL.';.' О ТгіОшСЛІііft.Hi ^.. w іu -

С a‘j ТПчс. Л.Г.Э ( O'n/t X<3p3.iw йрИСУ^І’j 0 U'Jp4jjrrj uii'jpu^L,

Л0Г'С:..гЦ0'іЛ:Л" І'СІІГ/Га ) , «‘С. 0Oi 10 u uKw v-'^^iT*4s/iii .jC**

^c.C. .p - ,-.,o ЛС і!■. 0w і X otU. jviOL» ii--..■..1.0 ..v'„ 1 -'-C « ^ -

Ji..... і ,-■ і P V. ’* ■_. Д •. ... і 'i ■> L'vj^y ». w 0.. -f U Ч-.Ї і - —0 iOI’L* i'.;"... і *’j i’.w t j*... • v-. 4

'•. . C .■ і iG C.t Ї 3 .’. Li ДО j:" ' ./ *. С Г»i.i. j; d .ii.1. о :■ .i^.... і i. ^

ОД.-Гу jДі'У'к C<Ji!<-ш. :!л t - ъЧ'Ч^^_ lі^AJ.jv-‘..

\ ‘‘q) '- . A'*' - : ■■'• ■' : ^ “C;1 •' 5 C-5 * .-jvit, riCCJ. j. ~'

:.o;;t:;uii:;orc:: ^оро^їі.с-слшцу oabWtf» Сог;;^с..с і ;

Л!?Т а образуемые' tar,: сметам*. ;п-.;ода другую природі’ ц г,.*слр.*/с'гргй>їіч* ;іа нн<с. сгаїіїсі’ичзскііа кс^доиакпн. .

Рйалш:-:.-.; OCHOCSH',: лі дю; П|іі.:..зн$к«й i^iC-r.-’suc.n;* ы>. .vrvtv.-'-ргл.:г ■:■ г-т о5гсі-г">,-ноф мат,'.j рс,:;;їн';'С.!;ь"оо'::: г:’,"!^'. ■.:-п-:< счету *\сч:-:иц и v*pau*?r.’js'":?r ( 'п cvyfi'y.'j ьрдщи» іізчкое ихгпо буки, фоныч, *ь-;*лои слогоз» пїрфа.і к типов кч '

тг-н!і } у. ^y^cvzoz-'jy-': 2::у;,2-:::,,:г: ііс.їусіі'узс^ї: ';?т:;;у ігс.*;-'^ г:'н:-г>у;-5 и колпчєстйоигц:'.!" іг*п;-.•.;r-'’p:-:c?;:rav;: j:;гсь,

- зависимостей, залоу.ешїігг і, сал^ітіс-стте. 0сног;ан:;з дк.~ прж.ізнзнкп этих мзтодов дс>от са;.;а струкіура канкосого оігака, гьЛ'очаючая -о ооно.часмзо ;і сзпг.’-етірг EopORTuoor5;iw прогг:оог: і::,

употребительность і: сокоїаомосгь ( сайонтность ) данного онгл;а с другими опаками н рос». Б ро'оуль.аге полуцао:.;. токст, представ.-гягций лшоі’ні’а цепочку дкекратгж екдгодап, ка\'.ди;і ио' коюрл:-: встрзчаотся с оарздолзшюй вороя^-носїьа u оиледеот способііостіла сочетаться с другими симеолож, Бі’и своПсгва їоі:ст& могут быть оплсаш в терминах теории пэроптеозтай « «атоматичзской сгагпе-

ТИКИ. ■ • " . ■ ' •

Кзлог»енмыэ вьта постулату да;от осносаипз для построопиц комплекса системных Бзроптносгно-с?атпстпчос!і;к модзлей, описывающих ЛИНГШ1СТИЧЄСКИО объекты разных уросизП. Такоз комплексной . моделирование,позволял обнаружить заісоио^зрності! есзй систеа]

. . - II -

речевой деятельности в целок, представляет возможность осуществить сквозное описание лингвистических единиц в направлении от дозпаковых фигур (букв, фонем, слогов) к элементарных семантически неделимых: знаков - морфем "зрез составной слоозсниЯ знак-слово- до расчлененных и сложных словесных знаков, манифестируемых в любом языке свободными словосочетаниями и предложениями, а далее и сверх-фразовыми единицами. ТакоП принцип описания позволяет рассматривать квантитативные сзойства лингвистических единиц на разных уровнях речевой деятельности и з то -ке время по обеим ОСЯМ её структурной организации,т.е, и в плане парадигматического исследования язггко-вух объектов и иг текетоебразовзтельных потенций в рамках у.че реализованных синтагматических характеристик.

Разумеется создание зеого комплекса систенно-статистических модвлай не мояе? бить реализовано в рамках одной работы, да«о при условии использования вычислительной техники. Поэтому мы ограничились построением статистического моделирования словообразования, а тат^о исследованием закономерностей распределения словоформ и словосочетаний в бояьзих массивах текста, ЕыЗор именно отих линг-пистнчески': единиц (ЛЕ) для снетонно-статпстического моделирования объясняется следующими соображениями:

1) указан!!!,:е ЛЕ достаточно днекретки и сравнительно легко ш-доляягся в письсзшгом тексте, а это икает первостепенное значение при нспельзовани:! компьютера,

2) ггарфеад,слоссфэр'л! и отчасти словосочетания являются знаков'".;!! единит:.::?, •|'зсу;г,и.*.!.ч обцчно квант сммслоаоП информации, поз-

7Г'.^.Г-0:Г:0 *::: *> тексте рожает вопрос о семантической зсьанги-Т"'г:ега :: ег:'р::га?т перепоит:::::! спстсцно-сгатпстичзского мо-долпрзггггпл огн-лг:::;:; текста,

3; ”а::да:1 ■>••• указ-.!.:гм:: ?,£, прннадлз:г.:.л>п:: и разным уровням ди, :ч'~от.~о-п?ргн::,зпо1:/:1ччх!г::::а, отличавшиеся друг от друга знаков!.: :;сс?гс~, а^осте;-:'!::; находится в спзцифич-зсках отношениях с Л" -г-гГтГ; урззГ'ЗЙ? вес а::о тр’оует п?:шспз}шя и каждой ::з уиаэашш.:

Г.З о-.б:л' статистических "эдзлз."! (ер. ,нзпрн.'.:ер5 различия в постро?-‘:ог.т::оГ. сге •' о гЗр1’ пог а т : >.н: и: гогнпц. с одной сторсни,» етатне-'И’^гонх иоде-.;'; слог гг', зз:; и о'огоеечогакиГ;, е другой),

"'■то однзг: :г.:'гат’ -пол г.ге^лг'ей системно-статистического последа-полноте-: :олгсх: о -::о:о.":о::а распределения вероятностной ст.; -'•ц"ноГ: лингвисти^сной величины (СЗ), яалло/цегосн сснопну! стати-: ~

_ 12 _

тическим законом функционирования СЛВх.Под СЛВ :.и' поиимаеы частоту F появления лингвистической единицы в совокупности хзксгов,значения которой подсер'яенц некоторому НЗКонтролируемому puU'jpOCy прії переходе от одного множества единиц к другому Б ОДНОЙ генеральної! совокупности. Решение отого вопроса дает надежный материал для исследования характера связей цззду лиигвистиадскш;й одшицаг»:.; (лпСіо вероятностный лк5о детерминированный). Наконец, ми получаем надежный технологический прием для выявления клачзшх слов и с/с, т.о. таких ЛЕ, на использовании которіг: строятся современные сисгеш автоматического аннотирования и рзфорировшшя rei;cvaxx.

При выявлении о5цого статистического сакона распрсдилолаи расс::о.гриваятсг. такие статпстпчэскш харакгзрасш»: капі I) лосі-j-янстяо вероятности употреблгния лшігіінсїпчасциіі единица up;; Пере-

ХОДО О? ОДНОЙ СОВОКУПНОСТИ ТОКСГОБ К ДРУГОЙ ОДНОГО £Уо стиля и подъязыка; 2) устойчивость распределения; 3) однородность распределения. У::аог.«кі:е характеристики огрг:;:ал> свойства ликгвксгпадскіг: единиц, как упорядсог:кооїі, і; употребления, значимості.., общность поведения.и «ело-у .

статистической opr;пчзацгп ^уккцпоикреда:::;;; J а..да готических объектов. ■

Глаза П- "’їстедика статксгнческого мод^;:.,роиаі:;і.: .. uu-.Ci.u;

'тс с кого в;’долепил текстог-г: единиц". Cvavncvuuacvee

ргзлоткз: структур рггсвой дептодвкост:: кіааьши,? ov тиге^епо- •

годится ли оно вручную или с пс:.;зц.тдо ко::иве:ора,прчД^--.;;--'ае~

и однозначное опроделсівю zv^cnncvv.: .13, - наасі-і едучае- ..;и*4ем, е/е;,

с/с г. т.д,> Статистический енгдио $у>п:ц»:ониросан;;я отцх опакова,; 1Z

.требует больших вычислений, котрр/ае, как у.;:а говорилось _огчюс;;тсль~

хВопрос о распределения'/: СЛВ в совокупности vckciob дискутируется в математической лингвистике, начиная с первых дней со формирования. Попытка установить соответствие эмпирических распределений теоретическим видам распределений привела к появления значительного количества паспоеделений в зависимости от применения того или иного математического аппарата.Укажем на следующие новые работы, в которых рассматриваются виде распределений,и которые основаны на исследовании эмпирических и теоретических распределений . с использованием различных методик://Л.гтппп 5,, Hammorl п. , DinhretG'.Y V/afiaolicinlioiilcoitcvorteiluncen I. Bochuns IT.Brockmejer,

1 9-'9.-24.1 s. Altnann G.Ziarnirig P, Mahretc ffahrochoiniichkeit- . nvertPilvmnon II„ Bochum: W.Broohr.syer, 1992.- 264 в, ;\ОКОчаіііВНЛИ . Т.Г.Распределение лингвистических единиц в тексте. АКД. Л.: ЛГУ, bJe'O. - 16 с. '

ххіІиотропский Р.Г. ,Нектаев К.5., Пиотровская А.А.^атематическач лингвистика. - М.: Высшая школа, 1970. - С. 351 - 357). ■

-13-ій) больших массивов текстов,без применения современной вычислительной техники практически нз выполнимы. Поэтому построение программного комплекса по автоматической статистической обработке текстовых единиц предусматривает ка первом этапе,во-первых, создание процедур автоматического анализа е/й и выделения' и них основ (.корней), а такте словообразовательных и словоизменительных а-фиксов; во-вторых, разработки прие'/ов автоматического выделения б тексте устойчивых и свободных с/с, с/у^ с/ф, будучи отделенными друг от друга пробелами, выделяются сравнительно просто'; в-третьих, установление частотны: характеристик перечислениях Л£; п-четвертых, конструирование гнездовых образований с их статистическими характеристиками дм словоизменительных а^к/нксоз, составленных алфавитно-частотных п частотных словарей с/ф и свободных двух, -трехэлементных сочетаний.

Реализация указанных процедур дает лингво-статистический пер-копроду!:? для построения математических моделей (они такте включа-0ТСЯ Э г.рогрш/^нкй комплекс) , ОПИСЫВСй'ЦИХ скрытые от прямого наб-лсдонип структуры языка и; речи. Со этих моделях мы скажем ниже.

' Тепзрь перейдем к описания технологического цикла вычислительного эксперимента, реализуемого в построенном нами комплексе. 05-цап схема и этапы этого цикла представлены на рис Л.

I, Подготовка ■ моделирования Л. Проведение Ш, Анализ результа-моделированип тов

ІЛ. Постановка задачи ИЛ* планирование Ш.І.Оценка эФ[.ектив-реализации ности (адекватности ыоделёМ иссле- ■ дуемому объекту)

1.2. Анализ структуры объекта (единицы анализа) ІІ.2. Выбор моде- ПІ.2.Содержательная лей 15 реали- интерпретации дан-зация их них

1.3 Выбор лингвистического .материала ГІ.З. Обработка результатов

РисЛ. Общая логическая схема и основные этапы систомно-статистичэскпго моделирования,

“.гдпм краткий комментарий гг-лдому :;з этапов.

■ .а. первом етапе определится стратегия решения зацапи.От .-того, нисколько :шу.: --пг.иропашю "ыл.о.::''Г;!! обтекти анализа и устаноплеіаз г;:г.ототи'^с!и:є еакономзрпости (гер^ятпсстішз детерминистские),которым подчиняется эти элементы спстз'-.я, во нного.ч записи? ка-

чество матокптиюских модулой, которые будут построены в дальнейшем.

На втором этапе проводится само моделирование. Основным по-просом здесь является обоснование и выбор таких статистических моделей, которые -обеспечивают получение непротиворечивого простого и широко -охватывающего моториал способа нахождения количест-венно-качсстгюшшх характеристик элементов речевой и язь'ковоП структур '(ср. Л. Еяьмслав). Эта цель реализуется только в том случае, '-когда додели достаточно адекватно отраааыт у*е известные свойства -ЛКНТВИСТИЧ5СКНХ объектов. На пути реализации отой цели выделяются следующие задачи:

- структуризация модели с целью представления ее, необходимой для проведении ;.’ашнноі'о эксперимента в математической форме;

- разработка статистических методов обработки лингвистического материала.

На третьем этапе определяется мера адекватности выбранной статистической модели и изучаемого языкового объекта. Как известно, н:-і одна модель не момет на практике идеально соответствовать • ее оригиналу. Поптому приходится анализировать исходные дппнмо многократно, проводя каждую новую статистическую обработку с привлечением разных критериев. Это помогает наилучшим образом использовать статистическую информацию для научных И практических выводов.

В соответствии с предложенной методикой наїли построена процедура, где объем выборки и характер задач в ходе выполнения исследовании долмны корректироваться. Так, например, в процессе анализа словообразовательной и лексической систем мскет возникнуть необходимость ввести дополнительные корректировки по объединении и выделению определенных характеристик ЛЕ. Поэтому, чтобы избежать ложного анализа Л2, человек долкен иметь возможность корректировать работу системы. '

3 связи с этим долина быть предусмотрена и возможность изменении всей программы эксперимента, а такм.е алгоритмов обработки данных. При это:.; сами технические и программные средства долченн быть построены таким образок, чтобы по ходу исследования мо’кно было бы легко осуществлять оперативную модификацию.

С учетом указанных требовании и условий нами совместно с научно-исследовательской лабораторией и кафедрой АСУ СЛВВЛУС был

построен caeTOMinrfi ко.лпл-лсс по сфшшстичоско?. обработке жакета (СЕЮСОТ), коюрей пшолшет следующие задачи:

- сбор и накопление экспериментальных дашшх и диалоговое (интерактивном) ре^лв-о;

- калпиную обработку сгагнс’ашюсуой ш^ор.ацки ( в рйто .ы'.гл-ческо.м рпчш'п);

- ьвтоптшос'лоа^ор'яцюванЬ’) и выдача экспертэнт.тгору результатов обработки I! ЗЗХОДНЬРГ Д 1ШЙ-ГС О ЛШСЧШСГИЧеСКИХ объектах

в виде, удобное для быстрого анализа и принятия рзазния о дальнейшем ходе окст-раманта.

CI'ОСОТ пклочао? еледуомха II ;.'Одулей ( £ )х (рас.,2):

- Р5Д5:ЛИИЗ РОР’С'СЗ TSKCPOB НО порц’ип (но Ь TUC. словоупо?-рзблзний в каждой с поелояу1>.;нм ire обьодшйлшг:.|) п екбзрха из ни.: словоформ длп ovaT.ic.’iifKo.vO'l irr обработка (% I) (в автоматической jje'KHf-э);

- построение алфавитно-пастозного словаря словоформ по объединенным выборкам ( 7; ;•) ( в авгоматичоског. рвгаш);

- построение гистограммы частоты появления ног» с: словоформ в Тексте ( % 2) (в автоматическом. руш.*и);

- объединение единим текста в порциях в группы на корковой основа (гнездовые образования) ГО ( Ъ 4) (в диалоговом реташе);

- построение ал]знатно-частотного словаря г руг а лексических единиц, объединенных обще!; основой (2,5) (ср.таблЛ) (в диалоговом рекимо);

- построение частотного словаря ГО ( Ъ 6) (в автоматическом речиме);

- построенсз гистограммы частоты появления скаых ГО ( £ 5)

(п автоматической ро-кпне);

- построение частотного словаря аффиксов и построение гистограммы частоты появления сфинксов ( л 7) (в диалоговом режиме);

- построение гистограмм чзстот появления аффиксов, распределенных по частям печи С Ъ 7) (в автоматическом режиме);

■ анализ текстовых единиц.по критерии хи-квадрат (словоформы, ГО, а‘риксы) ( Ъ 0) (в автоматическом режиме);

- анализ гково^орм, ГС, а,+е/;н:сов по критериям: три скгна{ Ъ Г), знаков ( * Ю) ч Уилкоксоиа (в аятс-птвчаском рекнме);

"символ т: - условное одурл, разумеется, не ш.-епт/зго отпз-

.изнип к отатхзтичеексму криторно " £ ’’ разработанному в теории вз~ ООНТНОСТОЙ И t.UT3Y..1TH43CK0h статистике. ’

•_ и •-

_ 17 _

. , Таблица I

Алфазитно-чаетоотый список слов с их квазиосновами . (машинный вариант)х

tfjb -nn словоформа *W *« pi ** ?i

g abend . = 24 I U 3 5= 19 7= 1 :8= I

■ - a ' • я I I 5- I

13 accep = 12 ; 1= 8 3= 2 7= 2

■ - t 2 1 3= I г 7= T

- ted = 6 * • 1= 4 3= I 7= 1

- ts - 4 • • i-. 4

14 acees = 24 z 2= 3 w— I 4= 6 so= I

6= 2 . 7= 8 ’ 8= 3

- 3 = 12 2= 2 3= I 4= 3 :6= 2

7з I 8= 3 ,

. - ned 3 7 * • 4a 2 5= I 7= 4

‘ - eea = 2 • 4= I 7= I

- Bible a I • • 2= X

- sing гз 2' • » 7= 2

гдо Р 0й ~ частота ( F} ЛЕ з обцай выборка1, - частота IS, пходгарй в гнзэдовое образование и распределенной по порциям; .

■ *} д. - комар видорка*

' - построзипа алфаплгга-'гзстотного и частотного словарей двух,

- ?рэхэ."екентн№? сочетаний С & 2*’^3){га'(5л.2 и 3)(в интерактивном рз-зпкз), ‘ '

‘ Таблица 2 .

. Алфапитно-частотный слопарь двухэлегантншс сочэтаний

............ « 1~1Ц1 'I KlMl'i'l» I* щ.ам»!*!.*».. ..Will МИ". ».|| I ИМ» II» I ■'•! ■ I I I I . и

№ ' ^ ]> w ап Л5 1 ПП ЛЕ н_________

15БЗ глу affect 2 1955 nay be 98

1954 nay appear 4 1955 ?шу define 2

Таблица З

Алфавитно-частотны'4 ело парь трехо ле:.интник сочетании

№ пп ЛЗ ?1 П." ШІ ЛЕ Рі

949 и ау Ъе аррііей 2 951 шау Ьо йес]агей 3

950 та у Ъе аЬап;Ч: а 2 952 на у Ъе <И ГГогепі ґС

ЧС словоформ являются базовиуп мододя ..а при исследовании статистических свойств лиигвцстичэ с кіп* оЗьикгзв. Эти кодзли и заїшсн-

і.-ос?п от задачи исследования '.'опраоо'разошв-.тьеи ь моде-более простак или елоши.-с структур. Тлк, ио :и:> пзлучпгь модели "а-ппг классов единиц как ЧС ;.:оруе;.;, гноздэьях образована?., ЧС дп}х,

-трех і: болзе элементных сочетании и т.д.

Поучение свойств о л с- \зптов разн;;:-; урзвнзх ).:о;;.зт помочь ь рас-крытш; закононэрнзетей, п.|. исуп,и>: всеП ялпговоі': структуро. Поп отом важно установить обдпз и судзсткенппу статпзтичзекпз закономерности ДЛЯ ЭЛе.’.еН’ГПБ г.сех уровней.

Гяаиа Сі. - "Сїчшістнчзсксз ;.;оде;;;:ров;ліло слооэоОр&зоиатзльного процесса". Качщак; лингвиекічоскаї: единица имеет с точки зрения системи пзыга определенную цсшюсть. Нарад с чисто структурной ценностью - значимостью ( у&1еиг по Соссяру), онрод8лв»а;ойся внутренним ее построенном (ср. сі.-ислопуо и пратчатп^зекуэ структуру слови) и структурно;; сосл'нзсонпэегьа с другшгл единица:.;;; инстомп языка, виде л гот разные види пн]: ор.национноіі ідзннзстп ЛП (синтаксическуи, ■ сеуыгепчоску», праг;іатичзскуа)х. В главе I «а\;л било введено понятие юронтностпои цзнностк, 5!.е. иіи’уііткібііо опродоляэмь'н' ка.дц,:.; носителем ганка прох'їіоа на упзтре-біігельность (г.е. частоту п равномерность) дьмнэН Іїїі в т-окстах опрздежзнных с?и;ізіі н подьязккои. Таки;.: образо;;, вероятностная цзннзеїь ЛИ, будучії, как уже гоьори-лось, заложенной '!; ее в.'лонтпость, оказшаотсп важнейшей характеристико;1,, используемо£: Б ХОае гон?рярошнШй текста, т\е. при перо— носа ЛЕ из системі! язика і; рзчь.

Одної! Из ос Ное н;.:х задач квантитативной лингвистики гвлштик о о г1 т п к гп; і ; я г, е р о г ■'т н о с т н о і і ценности ЛП с по^одью аппарата матенатп-’‘іі-ісі^овскнГі Р-»’• Тйкст, ,ма;лина, издовзк. - Л.: Нуука, 1975.

" Ґ С •

чзской статистики.

Рсц'п.ст эту з;-гт 1Чу, :»,! ПОСТРОИЛИ И ИССЛОДЭВЯЛИ с помощью описанной в главе 2 компьютерно;! системы ряд статистических модолеЯ употреблошт Л’? в тегстэ, Кпгдая из эти;-: водолей призвана г/утом применения Iютода ст.атистичзских гипотез опргзд<ш:ть взроптност-Ш'с законы расир^долзния различных ЛЗ. Проверка гипотез (нулевой - Н0 и пдьторнатиснои Нт) осуарствлязтоя с ПОГО ЦЬ'О двух типов критериев - порядковых (непяр&чзгричоских), работающих с номер пт ( ь ) ЛЕ в частотнпх списках, и статистических (параметрических)., опиравшихся на частоты ЛЕ.

Для решения указанной о сдай:! проверялась устойчивость распределения ЛЕ и постоянство их употребления ( .п = oo.net )• Анализу подверглись единицы словообразовательной систзмм: а/рГиксч и гнездовкз образования, а та::'<е слово^ормн и словосочетания.

В нас 1*огдеП главе рассматривается поведение словообразовательных единиц. При ото.м реализованы три процедуру.

' Первая предусматривает сравнение относительных частот Щ и для каждого а»|^икса в двух выборках. Нгблэдгс-хю расхождение "астот &*ог.ет быть объяснено либо закономерностями, связанными е, суг;ес?Е9нн1Г!И расхождениями в лннгзискггзскоП природе выборок (гипотеза. Н0), либо случайными, несущественными причинами Iгипотеза Н|) . Для проверки нулевой гипотезы прт'онен критерии 3НИКОИ, который используется следукдим образом. Сопоставляя разности относительных частот ЛЕ (аффиксов), вкбраднььт в двух совокупностях текстов, определяли число поло«1тельннх значений разностей П1 (число плюсов), которое п является численным значением критерии знаков (табл. 4). Опктное значение критерия знаков сопоставляется

Таблица <1

Зиачонйе критерия знаков по ауфшеам

Г’* ЯП а:К”ЛНС 111 ПП адЧЬшс пп ахМнкс 1п

I аЫ е о у ■зг 3 17 1у б

2 пзя 4 10 Ги1 4 18 П1-:И 4

3 а1 _ 6 II 1Ь1е 19 ог 4

4 011(^0 7 12 1С,П 7 20 оигз 5

5 га^ 5 13 ггг£ о 1—( 4

6 ■’П О 11 IV С: о . р.-. г ь , д

{ г-П'-.-О 0 15 ^ Г,? 4 23 +-.У . 3

I 11 и о 1и 1 |-аа '5 24 а :■ ■ р

_ 20- ■■ • с границами доверительного интервала

где Рр - уровень значимости (в нашем случае был выбран 5,а уровень значимости).

В результате анализа было выявлено, что согласно критерию знаков ни одна JII3 (аффикс).не вышли за-укаэаннне пределы. Т.0, принимается гипотеза Hj, согласно которой колебания относительных частот случайны, а это указывает на статистическую упорядоченность употребления аффиксов в обеих выборках, ' '

Для того, чтобы убедиться п надежности получанного результата к указанным выборкам была применена болзо чувствительная процедура - критерий значимости Й\^А х),-та:шз посгроеннкЯ ма «равнении разности частот одних и sax *ке словоооразова- .

тельных единиц в еопоставляег/ых выборках. При этом слу«гайнлши яз-лпюгся разности JJ-ЗСТ » а значишь.’? /с£& .. Эксперимент показал, что из 24 словообразовательных единиц у 8 (см, табл.5) разности частот оказались значимыми. Т.о., большинство словообразовательных единиц проявлязг устойчивость употребления С p = consi . ) в текста.

- ' Таблица 5

Словообразовательные $ф£иксы* дающие значимые •

• отклонения относительных- частот .

}ki/u аффикс Ъ S' !'?п/п аффикс &£Г ’"п/п в4<|икс 3 £Г

1 ^ьП б, 123725 7 ...........ense 8s844cS3 I5' lae тТтШЗу

3 el 22,783‘JOS И ЗЬ1е . 6,260990 24 иге 13,601873

4 ant 6,917201-12 6,957407 •

Наконец, для подтве£тгдония устойчивости употребления словообразовательных элементов была использована третья процедура - критерий Унлкочсоиа*, которой подтвердил гипотезу об устойчивости распределения и употребительности словообразовательных единиц в тексте._

л Пиотровский Р.Г. и Турыгииа Л.А. Аптиноуип "язнк-рзчь" и статистическая интерпретация нэр:;и «зкка // Статистика рэчи и азяоавха-tpcteuit анализ текста. I.: Наука, ЛО, 1971. С. 15-^6.

2сс ото здо раз указывает на объективное существование ве-рзптпостпсго закона, управляемого $уи;щйонир'> вашем словообра-оопаголыап: аффиксеп в рз*>ш п одновременно эксплицирует вероятно с?:-;у:э ценность (зероптиостнуэ валентность) отих элементов, оалот.онмі'о з языковой парядипз, , .

!!ссх“ДОЕан!:е а пс;,:од!ло крагзрия Уллкоксопа показало, что боль-ллнетло ГО далп значения, из выходгцвз за пределы /и41і V 1!а осдсзанип этого :.:о;шо сделать выезд, чг-о обследованные ГО, з осгезпем, ямс»? устойчивые распределения Р ( р ).

' Результати апалкза также подтвердили предположение, что ^ Ссдпсгиргз?1:9) ятлгпзте? проду.:тл'лдлд! г-'сдел::к'л и что зтнс-з-:;г- жт:.~гггхсях *'0р;.:, пр-піздло;; одідл:у "уроаі^ по.:л-(Г, Хсрда'О» осгегетея лосі оекнули для данного езыка. Эта гогуллрлзет.’' ллллзтегг од;-:і:м ;:з' сскоакш законов лннгяпстл'леокол гом:'умш(?цш!.

0'л,пру,:еллле етатпеткчэслле сзолстза единиц с-'изосбраз ;^л~

~зллпзла прг"ес.ся пэха ел,о г.і дг;о? полного осио^сійіл для .„те,

™; гр"~л7Т., >г,’0 употребление и -гэ;; ДЛ з релл лсд-:піг.:ел

~т"з?::ле“ ллс-:е. ”:л бледгл: д'л,еліи:тглілл.:;: лг.ллл^ . ...:л_.

:-*а болсо гмсої'ом уровне - урозпе словоформ и словосочетании. Б -----.... с, ^.........................................................

■ Т‘ ’ / *• . 1 ^ Г1!, С -С1. Ъ. .2 1 ^ ' и. ' '-J.-V.vw - - ■'—■ ■

■ле'л:-"е:-';і с:.??:: Гернуллл. Э-Д еллллг, -i.ro, стзлз:.і;/:- се еел-

^лть еле гтч пєслодсезеелклеесе д::зг:рз:’::г..?; случаи.л ■--■-■■л.:.’. (ел попллеллл-лл), предполагал, что лерзлтлееть { р ) лслзлел,.л !:г7"с": -тол Тл л кандел пепплеллн остается пзпзле;л:ои Ср--с:'--г)

С^глг.сгга алЪ7срн;,гг;:сно.'! глпотззе Нт рлзгоргл^ллле тег зга ко

ЛОДГЛЛІЛЗТСР СЛОГЄ ЕерИуЛЛИ (ї.й. р(_-т й-01)^Г. ) И МРЛ'ОГ.'ЛТИЧеСКПЛ

аппарат, лотогмЛ слэдузт иелользовать прл лселздозаллл: толста } до.т-.зн прищияпально отличаться от того агтарата, которч?. псіл.-е-ипйтег? здесь, если принять схему Бернулли.

Для принятия одной из этих гипотез исследуем с поуодь-з критерия Кг расхокдения частот (относительных частот) отдельных ЛЗ п двух выборках тэкстоа по' 50 тле. словоупотребления.

В пачестго образца оеулзетал\! гроззрлу {I отпэсктольно нескольких слорофорл (табл.б ). .

- 22 - : . , . .

Таблица б

Значения критерия хи-квадрат для словоформ из 1-й и 2-й выборок :

1 1 словоформа w CR) мат.оявд! 3* дисперсия 72 хк-кнадоат

»-*

17 access 1.500 1.425 G.657 0*>

46 additional 5.625 13.125 16.333 П. *о с* ■

* 50 affect 0.375 0.554 10.333

25 а с с г а в 6.375 149.982 134.635 и

44 additional 1.375 6.2Ш ' 31.000 1: с\. о р

60 » affect .1.125 . 1,260 7.60S

Прпнлв Pf- л =0,03 согласно габллцо зпачони:; ьарогпюс ЮЛ

дхп критерия J. j ми приходим к таким грашиша*.: аначсткг.^: -Г

к =31. Слздопьгелыю, если ЧЛСЛСг1:и!^ ЫОД^НКЯ крлторш; ZZ

1;2 ыгходят за прэдели 5'! доварктейыюго «игорссла, го ото сы;~ детельствуат о праьсг.'зрнссгп н0. Из сбсдздозагшц* слокофорп (2536 - I сборка п 2425 - Л ьиборкн) больная половина едиш;ц и: Bi’L’jiH за у1;азач:п.;з продолы. Это аначлт, что употраблеки:

JjE описыьазтся схе;.:оИ Корчуллл. Эмг :л-акQ1 оасгаслкаг нас продгю-ЛОт.ип., tjro cxavy Елрлуллл ноч:;о paccvi?p;:biv<. га:: основу с*л?;:с~ ■гпчзеког организации цес^довашигг гоютов, .............

Гласа 1У. "Моделирование лексической cna-\:;.:j ". В ого;! г:лг„ рпсс.чатрквазтсп вопрос о поведении JE (ь оенозно;, 'гир-лнологи-

'•псп^О. 'Г"Р1Т"Гор:'г;“1";;х опс-здолзиньы подъязык.

Н.-а сссботшостзй £ор;:иропаниг и £упнционироваиш|

г-сго ::.~аста .~з:сс:?'!;: построон рдд статистатестшх моделей. На *к»'Т'г«л ог.-’Г.’’ '*•••'7 ггъттю’.я ::о,поль, гдо с р.асработаг.^эго

г? ”Г‘ГС7?"!.кз’,Ут-т ■; г 7'т;'.:от-:з1 :■ го го : в т:а-;:з;л исслздолаш:и ;:рлго-Г,т" " 7: ” т*т*.1г;сг'оттг! группа сд::'п'п, !:зпуг,ап хара!п*с»р;гр длп "о!тзго ’поты”"* стягс-тогуя тгрусгу. Суть этогс метода с^од:;тс~

гг огг• °,0!т^0?а!?.т,г!я Г?ЛСТ07!,' УПСТСаСЗГаПИ;7 Г'Д О Л а ’Г‘~'-7 ОДК--

*:'•*» ’’опл;»*;"»<*>.»<■>г« пласта" лзчс?*:::? тз .ТчГ-' г';5ср:гах рйлиоз'.ууюс;••••:Г» ггод-г,г--м'^ (цг-уп** г» •♦«"уест.”?} г''петн,?-п;;5л"Ц!тст"':сс:;ого *;уп:';::с -

<Ф^ПГ,*ТЛПЛ >«"л «г-.-»/? ;*"> п^-дт^.'-т •• г

’ ' * ‘ ' ' -,-............._ „V. д.., л. -

** л *”* **-• о ^ *Тгч<-> Г» Л г> г»'л ет гг Л 1* . г-т*^ ■>» wt.-i.-n г» ^ п, ^ .4 ^

• ■ ’ « • / 1 ~* " ... ' , ~ . - . -•. .*1.^ 14 .' _. - .. , -•

ПГ Р'М’ОР Т*Ч»'Г Г\ГЧГ’Ц*~* « «*.» р ^ _ «П^ __

' ■ ‘ '.....' ' .... Г'.......... ^ ■ )'х :

г?,'» т+1+г- г*хт*у г*. ТТ Т, !*»* ? о Гп т» *4 * "{Л « г»*-гтЛ-'ч’'-■'V-'-' О-^О

‘ '•- '■ •■■-■ ' * ' ... ■— ........................ > П <-Л *

- ;-р;;гсрт,Л ,>; ,

1 оплс’-дллмо!! с:;д’з“ 2~-\-

риттт'ч* - СС$ ^ - ■ '

. *< Т1*** ___>7 *. . - _____________________’

^ , *, • ■ ■ ' ^ \ 1*0 Ои а,ч^* 1101—

^ - 41^. ^ ц ^ ^ “■ *™

--• ч> д 1 ^ «V ./,<.^"> 4 • 11 т 1к Ч I О {^ £> ^ -й л 11 «1 'VIО I

Д'^у.С • -4 п •12^. # uoiitS.ii ИЗ 0ДЛ01 О ^i

::.с сд::;тг.:;си, ::-:с'.;г/;-г:п ;л разкзс,;^ плана содср-;а-

г:.:~, Сг;::да с:;:дусг, тго долл -^р:'.;;:о.^о^;.;1 ^;;угр;; спрздалонного п?д_.;';г:;л сг\:.у:^г. !::с:з,.::;.э.м од::а:;о с::а сн прл

ворзход-; к другому псдьг.и^яу. ■ •

"о си:: г;ср ;; гсс?с.тр::з.1л:: -:ол;д:о ко.'гг.'.юс'.^знпиэ гарак^срк-схлгл тогсгг. ОдизлО гд^^Оолан;:^ "д.^рзеуд^ и ..изрпуэ ^г:эрздь га--;стггл;:3':-:: прпзичл!*. л;'нГБ::сг::ч;Зс;:ид согохсоз» Пуогопу сладакцим 1ГГ.ГС-1 л::: г г :г ^—со-т:: с гт ;а с :;0 го г.гслодссаа::я я^ппс.с.-: пааскп нолп-'•::-с?п-31Г!п:< даргк’гзрпс^лк» за исторг-.::! г.:ознэ С^.ло Си рсягдпдоть катасяЕЗНнь'з дарактзр:!с?;:к1! пэыковух я&ле1Пй.

Этл ззда(П1 роыазотся с помо^еа факторного анализа, который г.зу.гао? такга качзстгзнныа пзрзчэннкз, когорыз когут быть иред-

Тар:"ютхогпчзекап- лексика- отбиралась путам 'коллэкуирннх зкс-. ,юр;::г:с оцонок. ' , -.. ' •

- 24 _ .

ставлены в количественной форме.

Применительно к задачам изуцзнзд структуры текста рассмотрим использование факторного анализа на примере соотношения грамматической принадлежности ЛЕ (фактор А) и их семантической характеристики (фактор Б). Необходимо вначале проверить гипотезу о слиянии фактора А на структурную организацию текста,

Фактор А представлен тремя уровнями : Ат(принадлежность к классу сррствитзльныз:),принадлежность к классу глаголоа),

А^(принадлежность к классу прилагательных),

Дошшэ,пожучзнниз на материале публицистических текстов (родъ-ясик спорт и искусство) «уконыгзни на одну к ту ;це Бєличину в це- , лях сокращения сычнслзипй и представлены ь таблице ?.

Распределение фактора А по уровням

’ Таблица V-

Номер интерв. Уровни грамуатич. принадлежности Номер интерз. Уровня гра:.:>.;а*’ич. погмадлэтаюсгн '

А1 а2 Лз А1 • Ар ЛЯ

1 У. 81 2.35 0.00 и .0.65 0.26 0.00

2 4.35 0.86 0.54 10 0.44 0.28 О О

3 2.77 0.30 0.25 II 0.27 0.00 0.15

4 1.65 0.70 0.40 12 0.25 0.15 0.03

5. І.4У 0.40 0.25 13 0.15 0.10 0.03

6 1.26 0*55 0.21 14 0.16 0.04 0.04

7 О.Уб 0.35 0.18 15 0,04 0.04 0.00

8 0.60 0.Я0 - 0.10 16 0.05 0.04 0.03

НТО Г о.: 25.2 7 7.44 2.4

Чтоои ьвдзлнть п оценить фактор А производится разлеп&міи ді!спе{сна набл.сдонноіі совокупности ЛЕ на сост&ьлгагцкз. Кгад&и из эти к сосхапляк;ия дает оцзнку дисперсии а обцэй совокупности (5 д). В результате расчзтос по опредзланной схемех били сычнслз-иа лисгирскк $ д фактора А и 6‘ Сравнивай дисперсия £ £> свя-гсануа со случайностью с дисперсией £ ^ по критерия Фишера, га получили Г я ‘І.2.ІІ0 таблице- распрздел&ния £игзра находи:.! Рд ^ (2.45) = 3.2. Мы индия, что Р? 3.2, т.е. дисперсия з 311!1и’^0

оу.-іічасусп оі1 £ п*

V ' 4--- ——————

лр-члэр Р, Натсмаїйчоскис методи статистики- М.: Мир,і9?У.-653 с.

. _ 25 _

Зто означает,что подтверждается нулевая гипотеза о воздействии фактора А на структуру текста.

Теперь обратимся к рассмотрения связи уровней фактора А с фактором В.т.е. необходимо выяснить в како? степени оба фактора участвуют в организации структуры текста. С отой целью было проведено последование одновременно и по фактору <1 и по фактору В (табл.8).

О таблице й представлены даннче по обоим факторам- по вертикали по фактору В, по горизонтали - 'по фактору А. По соответствующей схеме производится обработка данных и оценивается дисперсия взаимодействия факторов & Для проверки взаимодействия и влияния факторов А и 3 на организацию текста сравнивают вновь 5’ ^ и $' по критерию іжгера и с табличными значениями г - распределения, В результате мы получили подтверждение ная'ой ггаю’гези: во-первых о существовании связи между отими факторами; во-вторых, о степени влияния эти: факторов (в частности, о равной возможности влияния фактора А на структуру текста наряду с другими факторами).

количественные данные п-о двум факторам Таблица 8

Л

В2

Сумма

3. ■5.0 16.2 21.2

/^2

3.4

5.2

8.6

з.У

0.8

3.9

Сумма

... . г-

22.2

оо.7

Эти выведи. безусловно, и показывая? возможность пере-

хода от количзстгепчы.-: оценок ДЕ к сирчтим, ненаблюдаемым, непосредственно качественным свойствам лингвистических обт-екгов.

Синтагматические отношения реализуют главную функцию пэыка-кеммуникативную функцію. Это сиачит, что отношения метгду элементом!! представляют собой конкретно отнесения конкретных элементов. Возникает вопрос, можно ли выявить статистические закономерности функционирования двух,-грехзле^ентных сочетаний,составляюгрк некую осмысленную линейную цепочку. Для отой цели были построены статистические модели двухэлементных компонентов (3344) и трехэлемзнтных (1846) на базе подъязыка электроники.Эти комплексы имеют статистические характеристики в общей выборке объемом 45 тыс.словоупотреблений и з порциях по 5 тыс. словоупотреблений в ітлдоП (табл. 9 )-.

Частотный словарь двух к сочетаний трехэлементных Таблица 9

Ранг сочетание Г Ранг сочетание Г

У сап Ъе 64 1У64 * сап ргосеав 2

72 main program Id 3804 will occur 2

43 lias been used 7 У 66 function parameters addition 2

144 error is detected 4 1827 vi±11 be stored 2

В результате исследования оказалось, что многоэлемзнгние (двух-трех) сочетания, выделенные на основе позиционного членения и статистически оформленные в виде частотных списков,представляют собой в большинстве случаев в той или иной степени семантически оформленные образования. Степень их лексико-грамматической оформ-ленности находится в зависимости от статистических параметров: например,чем выше их частоты, тем выше их семантическая целостность. Чтобы окончательно убедиться в правомерности наших предположений, следует провести дополнительные исследования и обратиться при построении статистической модели сочетаний к простым цепям Маркова.

В заключении диссертации подведены итоги исследования.

В настоящее время языковеды являются свидетелями эпистомоло-гического парадокса, существо которого состоит в том, что имеется достаточное количество практических работ, описывающих отдельные статистические свойства языковых объектов, при отсутствии представления о лингвостатистических закономерностях, порождающих эти свойства, и их логических основаниях.

Этот парадокс мы попытались разрешить, строго очертив границы квантитативной теории языка и рассмотрев такие центральные вопросы лингвостатистики как проблемы существования в языке определенной стохастической схемы, установления на основе выбора такой схемы универсального закона распределения ЛЕ, числовых характеристик ЛЕ, квантитативных и качественных закономерностей. Все эго позволило, с одной стороны преодолеть ограниченность используемых частных уетопов, а с другой - приступить к созданию автоматических комп-лек'оп многосторонней лингностатистичеикой обработки текстов.

Конкретные р-'.чулматн проделанной работы сводятся к слодую-

’'I:',' пункта1';

- построена >.таїистичзская модель исследования разноуровневых '■'ЗУУ.от'У. обьс!*тов и оп^дояены сгатисиигзские характеристики, раскрывающие пк квантитативную природа;

- выведены оснознко статистические закономерности, позволяющие постулировать вероятностную природу валентностей ЯЗЫКОВЫХ объектов;

- разработана единая методика проведения комплексного исследования языковых объектов средствами автоматизации;

- осуществлен принцип автоматической структуризации лингвистических единиц (аффиксов, словоформ, однокорневых образований, свободных двух, -ТрохЗЛОМеНТНЫК словосочетаний) И І.КШШШОГО построения их статистических ходелей;

- выполнена програіжная реализация опытной версии на ЭВМ.

Полученные в работе результаты могут бить использованы в

действующих автоматизированных системах по переработке естественно -языковой информации.

В процессе исследований определялись направления дальнейшей исследовательской работы, возглавляемого автором коллектива, основными из которых являются:

- дальнейшая разработка вероятностного моделирования двух-

трех и более сочетаний с применением вероятностной схемы - цепей Маркова; '

- реализация и совериенствование моделей автоматического выделения словосочетаний разного порядка и построение их статистических аналогов;

\

- перенос разработанных моделей на материале других функциональных стилей и подъязыков.

По теме диссертации опубликованы следующие работы:

1. Моделирование языковых структур средства’.'!! вычислительной техники. - М.: Выс:а.школа, 1238. - 174 с.

2. Частотный англо-русский словрь-.мннлмуы газетной лексики.

- М.: Военпздат, 1374. - £59 с. /в соавторстве с а.М. Алексеевым/.

3. Частотный англо-русский слозарь-мниим;,”.; газетно;; лексик:;

Второе, расхирониое издание. Военпздат, Г. С 1. - 311 е.

4. Распознавание лингвистического образа в .'СУ // Дпдло ’о**«»

системы и персональны? ОЬМ: ”е си'з.сб.’ручч.тр. - Л.: Гад--во Ленпнгр.ин-та авп?ц.прибор., - С. ІГГ-ІЗ?.

5. О рациональном объеме выборки при статистическом исследовании языка как знаковой системы // Приладная механика з приборостроении. Медвуз.сборн.научн.тр. - Л,: Изд-во Ленингр.ин-та авиаприбор., 1978. - С, 160-164.

0.' Системны!: подход к коделкрэв&нзд формальных свойств язы-ка//Структурная и приклэдная лингзисп’яі:?.;' ие*вуз. с5.иду«н, тр. -Л.: Изд-во Ленингр.гос.ун-та, 1587. С. 77-84.

7. Принцип частотности и компьютеризации обучения иностранным языкак: Межвузовский сб.научн.тр. - Киев, 1ъЭ£, - С. ’26-29.

6. К вопросу о сз>;5нтик0-синтакс:ичйск0п структуре глюгоэле-»

рентных комплексов// Проблемы сопоставительной иилологни родного _ (русского) и иностранных языков: Медвуз. еб. научи „тр. - Л., Изд-во Ленингр.гос.пед.ин-та, 1381, - С. 50-60. /в соавторство с И.В. Михайловой и Н.ІЇ. Новак/. ' -

5. О некоторых математических исследованиях речи// Всесоюз. і-ет.вуз.семинар - тезисы докл.: Изд-во Челябинского цолитихн.ин-та, Челябинск, 1372. - С. 25. .

10. Объективное сравнение качества мзтодак с помощью диспер-

сионного анализа // Авто этическая переработка текста методами прикладной лингвистики: Тезисы докл.Взесокз.науч.-прзд.т.кон$. Кишинев, 1377, - С. 61. '

11. К проблеме моделирования їгх*>ашологи«зскоЗ лексики // Со-мынтика естественных и искусственных языков в специальных системах: Т&зисн докл.Виесовзн.кон$. - Л.: Изд-во Ленингр.гос.ун-та,

1373. - С. 165-165. '

12. О статистической крк,терли выделения лэкс.икп данной тематической области // Семинар по оптпишаиии ир-зпидсдзашія инострап-них языков с помощью ТСО: Тезисы докл.Всееойзн.научн.-практ»семинара. - іїи.пшєб; Изд-во Кишиневского о /и ин-та, 1373. - С. 31.

13. Об одной из оценок лексико-грзжатичосклх единиц в обучг-э-цеы автомате // Обучнощие лингвистические ма^пнн и оптимизация обучения языка:-.:: Тезисы докл.Всесоюзн.кон*. - Махачкала; Дагуч-педгиз, Ї38І. - С. £2-23.

14. Лингвистическое обеспечение ИПО // Интерактивные системи Тезисы гзсвуз»н-дучн.-пр. кон|:. - Тбилиси, 1382. - С. 44-45.

15. Проектирование человеко-машинной диалоговой системой//

Сек..нар по диалоговым система'/:, - Л.: ІВУРЗ, І5ЄЗ. - С. 18-20,

16. Модель терминообразовательных процессов // Совершенство-