автореферат диссертации по филологии, специальность ВАК РФ 10.02.22
диссертация на тему:
Модели лингвистического анализа текстов таджикского языка

  • Год: 2013
  • Автор научной работы: Джаъфарова, Давлатхоним Файзалиевна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Душанбе
  • Код cпециальности ВАК: 10.02.22
450 руб.
Диссертация по филологии на тему 'Модели лингвистического анализа текстов таджикского языка'

Полный текст автореферата диссертации по теме "Модели лингвистического анализа текстов таджикского языка"

На правах рукописи

Джаъфарова Давлатхоним Файзалиевна

Модели лингвистического анализа текстов таджикского языка (на материале газелей Хафиза)

10.02.22 - языки народов зарубежных стран, Европы, Азии, Африки, аборигенов Америки и Австралии (таджикский язык)

АВТОРЕФЕРАТ

диссертации на соискание учёной степени кандидата филологических наук

г 8 НОЯ 2013

Душанбе-2013

005540358

005540358

Работа выполнена в Институте языка, литературы, востоковедения и письменного наследия имени Рудаки АН Республики Таджикистана.

Научные руководители: доктор филологических наук, профессор

Иекаидаропа Дилоро Мукаддасовна кандидат технических наук, доцент Умаров Махмуд Абубакрович

Официальные оппоненты: доктор филологических наук, декан факультета языков Европы и Азии Таджикского национального университета Назарзода Сайфиддин;

кандидат филологических наук, заведующий кафедрой таджикского языка Таджикского государственного педагогического университета им. С. Айни Хоркашев Сахидод Рахматуллоевич

Ведущая организация: Таджикский государственный институт

языков им. С.Улугзаде

Защита состоится: «5» декабря 2013 г. в часов на заседании диссертационного совета Д 734.004.03 по защите докторских и кандидатских диссертаций при Таджикском национальном университете (734025, Республика Таджикистан, г. Душанбе, пр. Рудаки, 17).

С диссертацией можно ознакомиться в научной библиотеке Таджикского национального университета (734025, Республика Таджикистан, г. Душанбе, пр. Рудаки, 17).

Автореферат разослан «_»_2013 г.

Учёный секретарь диссертационного совета, доктор филологических наук, профессор

М.Б.Нагзибекова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Развитие любой отрасли науки наряду с фундаментальными ее понятиями, структурой внутреннего динамизма и другими факторами находится в прямой зависимости от применения в ней средств и методов ряда смежных прикладных отраслей. В настоящее время использование в языкознании, литературоведении и других направлениях современной филологической науки аппарата математики, и в первую очередь статистических методов и средств, бурно развивающихся компьютерных и коммуникационных технологий, стало уже традиционным и обычным явлением.

Вместе с тем, с другой стороны, огромное наследие таджикско-персидской классической литературы до сих пор недостаточно изучено с позиции статистического анализа. Имеющиеся отдельные исследования явно не достаточны для охвата хотя бы определенной части всего объема этого огромного наследия, а использование статистических методов дает наилучшие результаты в стилистике, которая может избавиться от субъективных оценок при помощи подсчета и строгой систематизации материала. Значительную часть исследовательского процесса в этом направлении составляет работа по обработке текстового материала.

На современном этапе бурно развивается такая отрасль в прикладной лингвистике, как компьютерная лингвистика. Достижения в области компьютерной лингвистики находят все большее применение для анализа материалов поэтических текстов. Очевидно, что компьютерная программа ещё долго не будет способна делать полноценный анализ поэтического текста, и тем более, компьютер, в отличие от человека, никогда не сможет понять художественную ценность произведения. Однако в настоящее время сложился определённый минимум, из которого можно получить некоторые сведения о стихах.

Лексикография, будучи прикладной дисциплиной в области языкознания, изучает в основном методы создания (составления) словарей. Обычно под словарем понимается определенным образом организованное собрание слов, как правило, с приписанными им комментариями, в которых в стандартной для данного словаря форме описываются особенности их структуры и/или функционирования.

В связи с этим возникает естественная необходимость в создании прикладных лингвистических моделей и способов упрощения обработки текстового материала, для установления присутствующих в нем статистических закономерностей, а также для усовершенствования технологии составления словарей.

Для решения поставленной задачи нами разработан лингвистический алгоритм, обрабатывающий тексты на таджикском языке и лингвистические модели, реализованные в программном продукте, для составления частотных словарей с учетом следующих требований:

■ приложение должно быть интерактивным;

■ содержать функциональные точки, позволяющие выполнить процедуру редактирования (до, в процессе и после выполнения возложенных на приложение функций);

• базироваться на доступной для конечных пользователей платформе.

Разработанный лингвистический алгоритм позволил провести статистическое исследование произведения Хафиза Ширази и изучение закономерностей лингвистических элементов и стилистических особенностей на основе автоматизированного составления частотного словаря сборника его газелей.

Теоретическими основами для решения поставленных в работе задач явились работы в области формальной и контенсивной типологии, математической и компьютернрй лингвистики.

Степень разработанности проблемы.

В настоящее время имеется очень мало частотных словарей произведений классиков таджикско-персидской литературы. Имеющиеся единичные частотные словари, известные автору [8],[16], составлены традиционным способом и представлены, в основном, в виде конкорданса.

Диссертанту не известна ни одна работа по комплексному статистическому анализу произведений классиков таджикско-персидской литературы. Вместе с тем имеются некоторые работы по установлению статистических закономерностей отдельных параметров изучаемого материала, и выполненных, в основном традиционным способом (см., например, [5], [8]).

Вопросы классической поэтики, прежде всего касающиеся метрической системы аруз, изучены в работах: [2], [5], [6], [9], [10], [И],

СОавтором диссертации изучены отдельные работы, в которых поэтические материалы исследуются с помощью компьютерной технологии [1], [4], [7]. Однако по проблемам автоматизации анализа таджикской поэзии исследования не проводились.

Цель работы. Цель исследования - создать прикладные лингвистические модели и лингвистический алгоритм для составления частотных словарей и применения их в процессе решения конкретных лингвистических задач.

Достижение поставленной цели осуществляется путем решения следующих задач:

1.Анализ и систематизация существующих научных знаний в области формальной и контенсивной типологии, математической и компьютерной лингвистики.

2. Исследование стилистических закономерностей поэтических материалов, в частности, исследование закономерностей образования стихотворных размеров.

3. Разработка и обоснование моделей с использованием стандартных систем обозначений программного комплекса.

4. Разработка, обоснование и тестирование прикладных лингвистических моделей и алгоритмов для составления частотных словарей и их реализация в виде проблемно-ориентированного программного обеспечения.

5.Проведение прикладных лингвистических экспериментов с целью тестирования и верификации разработанных моделей и алгоритмов и разработка предложений по их практическому использованию и дальнейшему совершенствованию.

Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы формальной и контенсивной типологии, методы математической и компьютерной лингвистики, а также базовые знания в области языкознания, литературоведения и метрических закономерностей таджикско-персидского стиха.

Теоретические результаты получены методом дедуктивных рассуждений. Достоверность также подтверждается численным экспериментом.

Научная новизна работы обусловлена:

1. Применением методов квантитативной и компьютерной лингвистики в создании проектирования лингвистических моделей и алгоритмов при анализе текстов таджикского языка;

2. Разработкой технологии составления частотных словарей в таджикской лексикографии;

3. Применением нового подхода к лингвистическому исследованию для статистического анализа текстовой информации с целью определения стилистических закономерностей;

4. Проведением комплексного статистического анализа множества словоформ исследуемого поэтического материала, позволившего получить перечни и статистические распределения для различных мор-

фологических лингвистических элементов применительно к текстам на таджикском языке.

Практическая значимость работы состоит в возможности широкого внедрения созданных лингвистических моделей и алгоритмов для составления частотных словарей в лингвистических исследованиях, а также в качестве одного из элементов системы разработок в области компьютерной лингвистики.

Полученные результаты используются в учебном процессе Российско-Таджикского (славянского) университета и Таджикского технологического университета при разработке курсов лекций и программ по дисциплинам «Компьютерная лингвистика», «Технологии проектирования информационных систем», а также в научно-исследовательских процессах Института языка и литературы им. Ру-даки Академии наук Республики Таджикистан.

Теоретическая ценность работы состоит в том, что разработанный подход к моделированию лингвистических моделей и алгоритмов и их реализация в области лингвистических исследований может эффективно применяться при решении широкого круга задач по изучению таджикско-персидского литературного наследия.

Источники исследования. Объектом данного исследования послужили следующие работы: [5], [6], [И], [12], [14], [17].

Апробация работы. Диссертационное исследование обсуждено на совместном заседании отделов таджикской классической литературы и таджикского языка Института языка и литературы, востоковедения и письменного наследия им. Рудаки Академии наук Республики Таджикистана (24.01.2012, протокол № 94) и на расширенном заседании кафедры «История языка и типологии» Таджикского национального университета (01.07.2013, протокол № 27) и рекомендовано к защите.

Основное содержание работы отражено в научных статьях, опубликованных в различных научных сборниках. По материалам исследования диссертант выступала на научно-теоретических семинарах, международных конференциях, в том числе на Международной конференции «Таджикско-персидский язык и информационные технологии» (28-29-мая 2008г.).

Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и приложений. Библиография насчитывает 161 источник. Объем работы 151 страниц, в основной части текста имеются 24 рисунка и 18 таблиц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цели и задачи работы, научная новизна и практическая ценность полученных результатов, представлены основные положения, выносимые на защиту.

В первой главе «Применение методов математической лингвистики при составлении частотных словарей» описывается проблематика математической экспликации и использования аппарата математики для исследования лингвистических объектов и вообще методов математического моделирования в языкознании и литературоведении. Математическое описание языка основано на представлении о языке как механизме, функционирование которого проявляется в речевой деятельности его носителей. Изучение способов математического описания текстов (в первую очередь предложений) составляет содержание одного из разделов математической лингвистики - теории способов описания синтаксической структуры. Для описания строения предложения можно либо выделить в нём «составляющие» — группы слов, функционирующие как цельные синтаксические единицы, либо указать для каждого слова те слова, которые от него непосредственно зависят.

Лингвистические объекты обладают как количественными, так и качественными свойствами. Количественные свойства (например, длина словоформы в буквах или фонемах, слогах, морфемах либо количество словоупотреблений в предложении и т.п.) постоянно используются в качестве тех признаков, по которым лингвистические объекты выступают в качестве единиц статистической совокупности. Однако статистика текста оперирует не только количественными, но и качественными признаками. Например, в ходе статистико-морфологического исследования словоупотребления текста группируются по признаку их принадлежности к той или иной части речи.

Статистическое исследование классиков таджикской литературы проводилось очень мало (см., например, [8], [16]). Очевидно, при исследовании классической поэзии, кроме атрибуции, которая является одной из важнейших задач стилистики, требуется установить также и другие параметры поэтического наследия, такие как жанр, размер, тематика, рифма, арабизм и т.п. Интересно узнать, например, удовлетворяют ли тексты авторов таджикской классической поэзии зависимости между частотой словоформы и ее номером в частотном словаре, составленном на основе данных текстов. Эта зависимость выражается

формулой (называемой обычно законом Эсту-Ципфа-Мандельброта),

которая имеет следующий вид:

к ■ N

/г = ———= км-а + рг

■ о + Р)

в этой зависимости /Г, - частота словоформы и / - номер ее в частотном словаре выступают в качестве переменных величин, а величины N - длина исследованного текста, к, р и V - коэффициенты, связанные с различной частотой лексических элементов.

Хотя статистическое исследование поэтического материала во многом аналогично исследованию прозы, тем не менее, имеются отличительные особенности, которые определяются свойством поэзии. Этими особенностями, например, являются размерность, строчная разделяе-мость, рифма, стихотворный слог и т.д. Вообще говоря, стиховедение требует выполнения огромного объема рутинных операций. Вероятно, именно поэтому в литературоведческой среде оно считается трудной областью, хотя работа именно в этой сфере приносит очень весомые и, главное, хорошо обоснованные результаты. Эти операции хорошо формализуются, что, кажется,, должно было бы привести к созданию программного инструментария для их выполнения. Однако до сегодняшнего дня нет программ, которые могли бы использоваться как автоматизированное рабочее место стиховеда.

Лингвистический анализ лексической организации поэтических текстов позволяет не только создать частотный словарь произведения автора, выделить ключевые концепты его мировидения, но и определить специфику вербальной репрезентации в творчестве художника той или иной универсалии его мышления на основе моделирования меж текстового ассоциативно-смыслового поля концепта. Вместе с тем частотный словарь позволяет определить статистические закономерности поэтического материала, а включение размера стиха в качестве дополнительного параметра статистического анализа увеличит вероятность атрибуции материала.

Лингвистическое моделирование структуры сюжета - еще одно перспективное направление компьютерной лингвистики. Изучение структуры сюжета относится к проблематике структурного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся лингвистические модели представления сюжета основываются на трех базовых формализмах представления сюжета - морфологическом и синтаксическом направлениях представления сюжета, а также на когнитивном подходе. В системах автоматической обработки информации семантико-синтаксический анализ текстов проводится с це-

лью формализованного представления их структуры - выделения в них смысловых единиц и установления связей между ними.

Корпусная лингвистика в последнее десятилетие всё более активно включается в научный оборот, особенно в плане практического использования корпусов в лингвистических исследованиях, подготовке словарей и грамматик. В то же время осмысление теоретических оснований нового направления в определённой мере отстаёт от конкретных исследований с применением корпусов и имеется .ряд неразработанных проблем. К таким проблемам относится определение корпусной лингвистики и основных понятий, её места в структуре лингвистического знания, методов корпусной лингвистики и другие.

Основные задачи корпусной лингвистики могут быть сведены к следующим: разработка теоретических оснований данного направления; анализ опыта создания и применения корпусов различных видов; формулирование общих требований к корпусу; создание корпусов для различных исследовательских и учебных задач; формирование эффективных способов применения корпусов текстов в различных областях языкознания. Среди методов корпусной лингвистики обычно выделяются следующие группы: филологические методы; теоретико-лингвистические методы;, математические (статистические) методы; методы информационных технологий.

Поэтический (под) корпус - часть национального корпуса со специфической метаразметкой, в которой отражены основные жанровые и формальные параметры поэтического текста. Присутствие данной метаразметки позволяет программными средствами восстановить акцентную схему каждой входящей в рассматриваемый поэтический текст словоформы с определенной точностью. Интерфейс поиска, в целом, одинаков для поэтического и основного корпусов. Однако в поэтическом корпусе существует дополнительный набор метатексто-вых атрибутов, позволяющих осуществлять поиск по характерным параметрам поэтического текста. Основные параметры, которые принципиальны для формирования поэтического корпуса, - это стиль, жанр, рифма, размер и т.п.

Размер. Традиционно метрической основой стихотворной размерности персоязычной поэзии является аруз. Хотя аруз заимствован из арабской поэзии и его основоположником является Халил ибн Ахмад, классики таджикско-персидской литературы постепенно стали вносить свои коррективы с учетом требований и особенностей персидского языка. Вместе с тем, для письменности использовалась все та же арабская графика. Поэтому почти во всех руководствах и трактатах по ару-

зу придерживаются правил образования размерности, предложенных

Халилом ибн Ахмадом.

Только в последнее время (XX в.) к этому положению начали относиться критически. Такие ученые, как П.Н. Хонлари, Т.Зехни, Б. Сирус и др., стали утверждать, что размерность в таджикско-персидской поэзии достигается путем создания в соответствии с определенными правилами последовательностей коротких и длинных слогов. И в качестве основной единицы определения размера служит только слог.

В классических описаниях для образования стихотворных размеров используются базовые элементы - рукны1. Изначально путем различной комбинации единицы слогов, называемых «сабаб», «ватад», «фосила», и их разновидностей, определяются 7 базовых рукнов: «Ма-фом-лун» (V---), «Мус-таф-ъи-лун» (--V -), «Фо-и-ло-тун» (V--), «Ма-фо-1-лу» (V--- V), «Фа-и-лун» (V--), «Мус-таф-ъи-

лун>> (--у —), «Фои-ло-тун» (-V--). В системе аруз зихофом

называется порождение новых рукнов в результате внесения определенных изменений в рукны базового множества.

Классики таджикско-персидской литературы путем выбора размера поэтического материала, а также звучности букв умели создавать ассоциативный образ описываемой в стихотворении темы и его эмоциональный оттенок. Этот навык выбора доведен некоторыми авторами до абсолютного совершенства. Например, тема «Цветущие сады» ассоциируется с пением птиц. И в связи с этим Хафиз приводит:

Сарви чамони ман чаро майли чаман намекунад, Х;амдами гул намешавад, ёди суман намекунад.

Мелодичность размера данного двустишия настраивает на выражение восхищения красотой цветущего сада, а повторение буквы «ч» в словах «чамон», «чаро» и «чаман» создает ощущение чирикания птиц. Другой пример:

Эй хама шакли ту матбуъу х,ама чои ту хуш, Дилам аз ишваи шириии шакархои ту хуш.

Повторение буквы «ш» в словах «ишва», «ширин», «шакархо», «хуш» порождает особое эмоциональное состояние. Или же Лахути в некоторых своих стихотворениях для эмоционального выражения призыва к борьбе, вопреки правилам, принятым в канонах аруза, в пределах одного размера использует различные звуки, порожденные корот-

' Руки означает столп, основа, база

кими и длинными гласными [2,С.40]. При этом мелодичность стихотворения даже усиливается, что свидетельствует о высоком мастерстве поэта. Поэтому, имея в виду дальнейшие исследования, цель которых - устанавливать закономерности связи отдельных тем с мелодичностью размера на основе регрессионного и корреляционного анализа, мы отделили атрибут «Тема» как отдельное множество. Вместе с тем эта задача не входит в рамки данного исследования.

Во второй главе описывается разработанная «Технология составления частотных словарей». Основными этапами процесса составления частотного словаря и выполнения статистической обработки поэтического материала являются:

1. Подготовка материала. Материал можно подготовить через сканирование и распознавание с последующим редактированием или традиционным способом.

2.Считывание материала и формирование таблицы в базе данных. В базе данных определены необходимые таблицы: таблица размеров и таблица поэтических жанров.

3.Предварительная обработка материала и нормализация лексических элементов.

4.Составление конкорданса и предоставление возможности редактирования.

5.Редактирование конкорданса с целью определения дополнительных параметров: значение отдельных слов, морфологические параметры, этимологические параметры и, возможно, некоторые комментарии.

6. Статистический анализ в соответствии с заданными параметрами.

Описание элементов лингвистических моделей и алгоритмов комплекса осуществлено на основе современных методов моделирования и проектирования информационных систем.

На первом этапе проекта ограничиваясь функциональностью, необходимо составить набор требований, предъявляемый к конечному продукту т.е. к программному комплексу составления частотных словарей (ПКСЧС) следующим образом:

• ПКСЧС должен обеспечить обработку поэтических произведений различных авторов и различных жанров, а также хранение результатов обработки;

> ввод исходного материала осуществляется отдельно;

• обработка исходного материала осуществляется в несколько этапов:

1. Первичная обработка - нормализация лексических элементов, которая осуществляется путем удаления, добавления и изменения отдельных их частей. В материалах на таджикском языке это выражается в следующем: удаление символа притяжательного падежа (бандаки изофй), например, фраза «хонаи ман» заменяется на «хона ман»; изменение формы соединительного союза — «ману ту» заменяется на «ман ва ту»; сочетания, рожденные стяжением двух слов, согласно требованиям размера поэтического материала, заменяются на два элемента, например, «з-ин», «в-агар», «к-он» и т.п. заменяются на «зи ин», «ва агар», «ки он» и т.п., соответственно; связка «аст» может быть как частью именного сказуемого «будааст», «рафтааст», так и служить для образования сложных форм, при этом, если основное слово заканчивается согласным, то сложная форма пишется слитно и «аст» заменяется на «ст», например, «шумост», «накует», «борхост» и т.п. В первом случае сложное сказуемое заменяется инфинитивом, а вместо сложной формы записываются два слова: «шумо аст», «наку аст», «борхо аст». На (рис. I) показан алгоритм первичной обработки.

Рис.1. Блок-схема алгоритма первичной обработки 12

2. Составление списка лексических элементов с указанием их местонахождения в материале с точностью до строки;

3. Определение длины (количество букв) лексических элементов;

4. Определение частотности и встречаемости лексических элементов;

5. Сортировка лексических элементов в соответствии с указанным признаком (длина, алфавит, порядок встречаемости, частотность);

• результаты обработки на любом этапе должны храниться отдельно от исходного материала с целью его восстановления в случае программного или аппаратного сбоя;

• ПКСЧС должен обеспечить возможность редактирования в следующих режимах:

У предварительное - после первичной обработки для просмотра и, быть может, внесения изменений;

>промежуточное - с целью просмотра параметров, полученных в результате обработки и координации признаков сортировки;

>окончательное - для ознакомления с конечными результатами и подготовки к печати выходных документов.

• ПКСЧС должен обеспечить подготовку и печать следующих выходных документов:

У список лексических элементов в соответствии с выбранным признаком, полностью или частично, с указанием местоположения слова в материале или без него;

> список внесенных изменений лексических элементов в результате первичной обработки и исходная их форма;

результаты статистической обработки данных материала в виде таблиц, диаграмм, графиков и комментариев.

Далее на основе этих требований и ограничений можно выделить классы пользователей программного комплекса и построить его описание с точки зрения конечного пользователя. Для данного программного комплекса определены шесть прецедентов использования (Use Case):

1. Ввод исходного материала, который осуществляется традиционным способом или через сканирование и распознавание.

2. Редактирование. Процедура редактирования включается на всех этапах процесса составления частотного словаря. Даже если ввод исходного материала осуществляется через сканирование и распознавание, то требуется процедура редактирования для сравнения с оригинальным источником обрабатываемого материала.

3. Обработка материала. Обработка в соответствии с предъявляемыми функциональными требованиями осуществляется в несколько этапов.

4. Составление списка слов. Список составляется для определенного значения параметров и заданного объема слов.

5.Статистический анализ. Анализ полученных в результате обработки элементов частотного словаря.

6. Печать документов. Инициируется либо прецедентом «Составление списка слов», либо прецедентом «Статанализ»

Кроме того, выделены три класса пользователей, или три действующих лица (актеры), и определены их роли: Лингвист, Аналитик и Оператор. Их роли во взаимодействии с программой определены при помощи диаграммы прецедентов использования.

В процессе разработки программного кода, мы не стали пользоваться возможностью CASE - средств для автоматизации генерации кода исходя из следующих соображений:

1. Из-за невозможности автоматизировать весь процесс составления частотного словаря. Более того, это не рекомендуется, т.к. кроме формальной рутинной работы в данной процедуре имеется большое количество неформальных задач, решение которых полностью зависит от экспертных знаний. Это задачи смыслового и этимологического толкования слов, разделения омонимов, определения принадлежности к той или иной части речи и др. Исходя из этого, возникает естественная необходимость предоставления конечным пользователям широких возможностей манипулирования исходными, промежуточными и результирующими данными.

2. Приложение должно базироваться на доступной для конечных пользователей платформе. На данный момент такой платформой являются программы пакета Office, поскольку полностью или его отдельные компоненты используются практически всеми теми, кто выполняет ту или иную задачу на персональном компьютере.

3.Для реализации программного комплекса в диссертации использован подход, в основе которого лежит понятие алгоритма диалоговых операций (АДО) - совокупность логически связанных выполняемых человеком и компьютером операций, обозначаемых в виде граф-схемы, по обработке, вводу и выводу данных при решении конкретных прикладных задач, реализуемой в виде проблемно-ориентированного программного комплекса.

Третья глава диссертации «Реализация алгоритма для решения лингвистических задач на основе статистического анализа» посвящена описанию применения разработанного программно-

го комплекса для решения конкретной задачи, а именно для статистического анализа поэтических материалов на примере газелей Хафиза. Для этого использован ряд изданий стихов Хафиза, но основными источниками послужили издания стихов Хафиза 2001 года (Тегеран) и 1983 года (Душанбе).

Разработка должна вестись таким образом, чтобы алгоритмы легко могли быть улучшены. Поэтому работа программ разбивается на этапы, каждый из которых должен улучшать результаты, полученные на предыдущем этапе. Основной единицей анализа в текущей версии программ является строка. А статистический анализ осуществляется лишь после составления частотного словаря изучаемого текста.

Основное отношение базы данных для хранения, использования и дальнейшей переработки газелей Хафиза Ширази из 9 атрибутов определено следующим образом:

ОЬСага1={КодЗ, Ж'Пп., Газель, Размер, Рифма, КолСтр, КолСлов, Назв,

Тема}.

Предлагается два варианта анализа сборника газелей: выборочный и полный. В случае выборочного режима можно определить размер выбранной газели и производить отдельно статистический анализ. При этом вначале необходимо исследовать базу данных, на что программа тратит определенное время. Этот факт отражается в интерфейсе.

Определение размера осуществляется в соответствии с алгоритмом (рис 2).

С

Начало

Г)

Строка стиха

I

У.1ЛЛСИИС пробелов (К[4>ме нсьлю'огтсдишх случаев) и »мена нл^бходими*. букв

Анализ слог

Рис. 2.Блок<хема алгоритма определения размера

Выдаются наиболее вероятные размеры, определенные и упорядоченные по количеству совпадений, т.е. i il ,

S ш \ R, | max (г. =

l[ ' I)

указав номер размера в базе, его название, название рукнов и схему.

При выборе режима «Полностью» из базы последовательно счи-тываются все газели, и на первом этапе анализа, для удобства, открывается лист MS Excel, в котором записываются расщепленные и упорядоченные по длине лингвистические элементы (словоформы) от первой до последней газели. По завершении процедуры расщепления предлагается сохранить файл.

Частотный словарь составлен на основе 569 газелей Хафиза со следующими условиями:

■ исключение изафета (бандаки изофй) «и», например, «Равоки манзари чашми ман...» рассматривается как «Равок манзар чашм ман...»;

■ замена слитных соединительных союзов «ву», «ю» на «у» и его отделение от слова для дальнейшего рассмотрения в качестве одно-буквенного лингвистического элемента;

'' замена сочетаний, рожденных стяжением двух слов в соответствии с требованиями размера, на два слова, например: «з-ин» - «зи ин», «в-агар» - «ва агар»;

■ отделение связки «аст» от части именного сказуемого, а также в словах, заканчивающихся гласной буквой, в которых эта связка выражается в виде <сст», её замена на «аст», например: «туст» - «ту аст», «равост» - «раво аст»;

■ составление конкорданса. Этот процесс автоматизирован и выполняется в несколько этапов

1. Расщепление всего текста на отдельные слова, разделителем являются пробел, знаки препинаний, тире (дефис), знак перехода строки, знак абзаца;

2. Определение номера газели и номера строки в газели для каждого встречаемого слова2;

3.Группировка слов по длине;

4. Выдача первичного списка для предварительного знакомства, и может быть, внесение некоторых коррективов и изменений;

5.Подготовка конкорданса в следующем формате «слово — частотность, {№Г-№с; №Г- №с ;....;}». Причем порядок слов устанавливает-

2 Номер газели соответствует порядку, приведенному в основном используемом источнике

ся по мере встречаемости, ниже приводится пример фрагмента составленного конкорданса;

6.Упорядочивание конкорданса, обычно по алфавиту;

7.Составление комментариев и толкоЕ!аний слов конкорданса, а также их запись с помощью арабской графики. Этот процесс выполняется лингвистом в интерактивном режиме взаимодействия с системой на основе упорядоченного конкорданса. В итоге словарь обретает следующую форму:

{Слово-Вязь-Толкование-Частотность-Встречаелюсть}.

адл

адаб

буъд

авранг

паргор

1_ЦІ

тазарв

ба хамаи одамон бо як чашм нигох, кардан, инсоф. шарм, хдё; накутабиатй, по-кизагии табиат.

дури, дур будан; фосила.

1 .тахт, сарир; 2.номи шахсе, ки ошики Гулчехра ном духтаре бу-дааст.

І.афзор ва оло-тест барон каши-дани дойра ва паймоиши хатхо, сиркул; 2. чора, васила; тадбир. мурги дашти, кирковул, мурги титав, ки дар афсонахо ошики сарв будани он машхур аст.

7 207-3; 268-15; 270-4; 347-15; 409-4; 410-25; 438-14;

62-14; 73-13; 113-7; 12113 13; 142-8; 226-15; 229-9; 233-13; 233-14; 243-8; 315-7; 511-6; 555-7; 2 99-5; 539-14;

3 390-5; 491-17; 559-12;

86-10; 96-9; 123-11; 15512; 228-9; 256-9; 282-10;

398-3; 403-12;

8.Определение лингвистических признаков слов (части речи, языковые и этимологические аспекты) конкорданса для дальнейшего его использования с целью статистического анализа и установления сти-

листических закономерностей. Этот процесс также выполняется лингвистом на основе упорядоченного конкорданса.

Следующий этап работы - исследование газелей Хафиза с позиции статистического анализа с целью обнаружения некоторых стилистических закономерностей и лингвистических особенностей.

Длина словоформы. Полный объем словаря составляет 68955 слов. В сборнике газелей Хафиза встречаются отдельные строки и даже полностью газели на арабском языке. Мы их не стали включать в словарь, а рассматривали как отдельный параметр. Таких строк в тексте всего 97 с общим объемом 689 слов. С другой стороны, во всем тексте встречаются всего 4 однобуквенных слова, это: у (он, она) - 327, ё (обращение) - 102, о (повелительная форма глагола «омадан» - приходить) - 10 и соединительный союз у, который обычно пишется слитно и в зависимости от окончания имеет формы «ву» или «ю» встречается 2273 раза. При произведении статистического анализа такой соединительный союз не учитывался, т.к., во-первых, он входит в состав того или иного слова, во-вторых, его учет из-за большого количества может привести к искажению реальной картины исследуемого материала. Поэтому анализ произведен на основе словаря с объемом 66652 слова, в количестве 9685 различных слов со средней встречаемостью 7 раз, без учета строк на арабском языке и соединительного союза «у». Самая большая по длине словоформа - 17 букв, в тексте встречаются всего две словоформы (киштинишастагонем и муъдалатиссултонй). Самую большую частоту имеют слова из двух букв (14704). Такое количество создается в основном за счет предлогов и союзов, таких как «ба», «аз», «зи», «ки», «ва» и т.п. Поэтому, при такой большой частоте, в тексте встречаются всего 56 двухбуквенных слов. Самое большое количество словоформ из 6 букв - 1873 при частоте 6463. Таким образом, по длине словоформы получено следующее распределение (таблица 1).

Дл. сл. Часта % Кол-во Ср част. Дл. сл. Час -та % Кол-во Ср част

1 409 0,61 4 146,3 10 547 0,82 435 1,26

2 14704 22,06 56 262,6 11 190 0,29 168 1,13

3 14462 21,70 402 35,98 12 98 0,15 78 1,26

4 11053 16,58 988 11,19 13 34 0,05 31 1,10

5 11362 17,05 1795 6,33 14 5 0,0075 7 0,71

6 6463 9,70 1873 3,45 15 7 0,0105 5 1,40

7 4265 6,40 1773 2,41 16 0 0,0000 0 0,00

8 2023 3,04 1204 1,68 17 2 0,0030 2 1,00

9 1029 1,54 709 1,45

Слабой стороной табличного описания колебания признака является недостаточная наглядность этого описания. Гораздо большая наглядность достигается с помощью графического или геометрического изображения интересующего нас распределения (рис.3).

Распределение по длине

Количество букв

Рис.3. Распределение словоформ по количеству букв

Изучение частотного словаря по длине словоформы позволяет сделать вывод, что максимальные информационные нагрузки текстового и словарного слова в произведениях Хафиза не очень отклоняются от среднестатистических литературных данных для других языков. Это соответствует тому, что данная величина в индоевропейских языках примерно одинакова.

Распределение словоформ. Полный объем словаря из 68955 словоформ распределяется по отдельным единицам изучаемого материала, в нашем случае по газелям, следующим образом. Минимальное количество использованных словоформ - хт1„ = 43, которое встречается в трех газелях (479, 498, 543) и составляет всего 0,63% от общего количества газелей, а максимальное хтах = 239 словоформ только в одной газели (410). В 27 газелях количество словоформ не повторяется. В таблице 2 приведен список, в котором указаны все такие газели, при этом в - количество словоформ, № - номер газели в базе данных.

Таблица 2.

я № Я № я № Я № 8 № Б № Б № 5 № Б №

40 498 61 1 Я? 90 565 157 403 167 555 173 286 176 123 181 287 187 53

1М 86 ш 133 148 163 24 169 438 174 '56 178 449 182 567 190 271

57 281 89 501 154 157 166 285 171 220 175 415 179 339 185 80 196 51 /

Полученные результаты представлены графически в виде гистограмм (рис.4).

100 90

ЕЗ Колиме лвэ газ элей

\Jli_ 6

I г~г~

ЧМ9 50-58 «0-0« 7['79 8»-8Я

109.109 11С-Ш 123-ІЙ 13М59 1«И8 В0-15» ІОЗ-ЮЇ 1М.ІИІ 150-138 19>-т >200

Гр/ппы

Рис.4. Гистограмма распределения по количеству словоформ.

Далее изучаются вопросы распределения словоформ по принадлежности частям речи, языковым и другим признакам (рис 4).

8.-187 (С ,27%) 7.-17228(24.99%)

3,453(0,66%)-

5.-23Э0 ¡3,47%) 4.-4381(6,35%)- /

3.-5465(7,93%)^

Распределение по частям речи

9,717(1,04) _ю ы(р 32%) Ш Существительное

ш2 Гла"о/

□ 3 Место-ш=ние

□ 4 Прила-ательное

■ 5 Наречье

□ 6 Числиге/ьное

□ 7 Предлоги

□ 8 Измененное

■ 9 Обращение

□ 10 Восклицание

1.-26863(3826%)

2-11253(16,32%) Рис.4. Распределение по частям речи.

Язык Кол-во % ОТ группы % ОТ общего

Таджикское 53023 77,54 76,90

Арабское 15272 22,33 22,15

Тюркское 27 0,04 0,04

Греческое 61 0.09 0,09

68383 100,00 99,17

Таблица 4. Распределение по другим признакам

Параметр Кол-во %от группы % от общего

Религиозное 253 44,23 0,37

Географическое 93 16,26 0,13

Астрономическое 57 9,97 0,08

Имя человека 169 29,55 0,25

572 100,00 0.83

таджикское (53023) ■ Арабское (15272) а Тюркское (27) пГреческое (61)

Рис. 5. Распределение по языковому признаку

159 (29,55°

57 (9,97°/

253 (44,23%)

О Религиозное (253) О Географическое (93) □ Астрономическое (57)

93(16,26%)

Рис. 6. Распределение по другим признакам

Заключение подытоживает основные результаты проведённых исследований, экспериментов и практической реализации. В жизни современного обшества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее.

За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие.

Одной из важнейших задач компьютерной лингвистики на современном этапе ее развития является составление достаточно представительных словарей наименований понятий - выявление основного понятийного фонда естественных языков.

Опыт полувекового развития компьютерной лингвистики продемонстрировал широкие возможности конструктивного алгоритмического подхода к решению ее задач. Вместе с тем он выявил и ограниченность этого подхода. Оказалось, что в некоторых сложных ситуациях алгоритмический подход неэффективен и в таких случаях лучше применять метод аналогии. В этой связи у специалистов по компьютерной лингвистике и перспективным информационным технологиям сформировалась точка зрения, согласно которой часть задач может

решаться "по правилам" (rule based approach), а другая часть - "по аналогии с прецедентами" (example based approach). Возможны и гибридные технологии, в которых целесообразно использовать оба эти подхода.

Цитируемая литература:

1. Бабенко И.И. Коммуникативный потенциал слова и его отражение в лирике МИ. Цветаевой: АДК- Томск, 2001. - 25 с.

2. Бах,ром Сирус. Арузи точикн. - Душанбе: Таджикгосиздат, 1963.-286 с.

3. Давронов С. Вазни ашъори Абулкосим Дошути. - Душанбе: Дониш, 1974,- 163 с.

4. Козьмин А.В.Автоматический анализ стиха в системе STARLING/ тр. Международной конф. «Диалог-2006».-М,

2006.-www. dialog21 ,ru/digests/dialog2006/materials/html/ Kozmin.htm.

5. Мисбохиддини Нарзикул. Цойгохи сухан,- Душанбе: Адиб,

2007.-224 с.

6. Насириддинн Туей. Меъёр-ул-ашъор. - Душанбе: Ориёно, 1992. - 148 с.

7. Орлова О.В. Коммуникативные аспекты лексической репрезентации концепта язык в лирике И. Бродского: Автореф. дис. ... канд. филол. наук. - Томск, 2002. - 25 с.

8. Османов М.Н. Частотный словарь Унсури.- М.: Наука, 1970.326 с.

9. Парвиз Нотили Хонларй. Вазни шеъри форси. Тегеран, 1967. - 237 с.

Ю.Туракул Зехнй. Санъати сухан. - Душанбе: Адиб, 2007,- 376 с.

11. Фар*анги омори куллиёти Куръоки Карим / сост. и ред. доктор Мах,муди Рух,онй.- Тегеран, 1990. - 1030 с.

12. Хофизи Шерози. Куллиёт / ред. и автор предисл. Дж. Шам-безода. - Душанбе: Адиб, 1983.- 650 с.

13. Шамсиддин Мухаммад бинни Кайси Розй. Ал-муъчам фй маойри ашъор-лл-Ачам. - Тегеран, 1960. - 176 с.

14. Шамсиддин Мухаммад Хофизи Шерози. Куллиёт / под ред. М.Бори - Тегеран: Иктисодиёти чахон, 2001.-356 с.

16. ,.5 jlSL*» Ь (jl Д М . Г, -CLii^jj^. ;t.jjjjfji4lji .Jiila. ^Ы «jlj uSaiji > П1 . j'-JS-* ^¿jbAjlc jj^ і ill 1-і

17. > rvr (jij^j: JVjj ciijLiiji: tjJijp ¿ЇЬ. ijijjj

Основные положения исследования изложены в следующих публикациях: Книги:

1. Компьютерная лингвистика. - Душанбе: Ирфон, 2010.-163 с. (на тадж.яз.), (в соавторстве).

2. Частотный словарь газелей Хафиза. Ч.1.- Душанбе: Ирфон, 2012.-650 с. (на тадж.яз.), (в соавторстве).

Статьи, опубликованные в изданиях, вошедших в перечень ВАК РФ:

1. Исследование средств информационной технологии в литературоведении (на примере персидско-таджикской классической поэзии) // Вестник национального университета. Серия «Филология». Душанбе, 2010. - №5(61). - С.139-141.

2. Технология составления частотных словарей // Вестник университета (Республика Таджикистан). Душанбе: РТСУ, 2010. - №(30). -С.126-131.

3.Составление частотного словаря газелей Хафиза // Вестник национального университета. Серия «Филология». Душанбе, 2010.

- №7(63). - С.84-86.

4. Программный комплекс для составления частотных словарей // Материалы Международной молодежной научной конференции/Марийский государственный технический университет (16-17 апреля 2010г.). - Йошкар-Ола, 2010. - С. 260-263.

5.Об особенностях технологии составления частотных словарей // Материалы Международной научно-практической конференции студентов и молодых ученых. - Уфа, 2011. - С.93-98.

Статьи, опубликованные в других научных журналах и изданиях:

1. Вопросы использования ИКТ в изучении таджикской классической поэзии // Труды научно-практической конференции «Вопросы ресурсного обеспечения информационно - коммуникационных технологий в образовании». - Душанбе: РТСУ, 2007. - С. 110113.

2.Составление частотного словаря газелей Хафиза // Труды Технологического университета Таджикистана. Вып. XIV. - Душанбе, 2008. - С.57-60.

3. Применение методов продукционных систем в исследовании образования размерности таджикской поэзии // Вестник Технологического университета Таджикистана. - Душанбе, 2009. - №1(15). - С.59-62.

4. Об одном подходе проектирования программных комплексов // Материалы научно-практической республиканской конференции. - Душанбе: ТУТ, 2010. - С. 25-28.

5.0 статистическом анализе газелей Хафиза // Материалы Международной научно-практической конференции. - Душанбе: ТУТ,-2010.-С. 352-357.

6.0 разработке частотного словаря Хафиза Ширази "Перспективы развития фундаментальных и прикладных лингвистических исследований в Республике Таджикистан". Душанбе, РТСУ- 28.01.2011. -С.28-35 (на тадж.яз.).

Сдано в набор 01.11.2013 г. Подписано в печать 05.11.2013 г. Формат 60x84 '/,&ус.п.л.1,6. Заказ № 137. Тираж 100 экз. Отпечатано в типографии ТНУ, ул. Лахути 2.

 

Текст диссертации на тему "Модели лингвистического анализа текстов таджикского языка"

Институт языка, литературы, востоковедения и письменного наследия имени Рудаки АН Республики Таджикистана

На правах рукописи

04201452823

Модели лингвистического анализа текстов таджикского языка

(на материале газелей Хафиза)

10.02.22 - Языки народов зарубежных стран, Европы, Азии, Африки, аборигенов Америки и Австралии

(таджикский язык)

ДИССЕРТАЦИЯ

на соискание учёной степени кандидата филологических наук

Научные руководители:

доктор филологических наук, профессор Искандарова Дилоро Мукаддасовна кандидат технических наук, доцент Умаров Махмуд Абубакирович

Душанбе-2013

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ............................................................................................................................................3-9

ГЛАВА I. ПРИМЕНЕНИЕ МЕТОДОВ МАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКИ ПРИ СОСТАВЛЕНИИ ЧАСТОТНЫХ

СЛОВАРЕЙ................................................................................................................................................10-58

1.1 Особенности множества лингвистических элементов..................10-12

1.2. Математическая лингвистика..............................................................................12-17

1.3. Компьютерная лингвистика....................................................................................17-18

1.4. Направления компьютерной лингвистики................................................18-34

1.5. Корпусная лингвистика..............................................................................................34-46

1.6. Поэтический корпус......................................................................................................46-58

1.6.1. Понятие о поэтическом корпусе........................................................................46-52

1.6.2. Поэтический корпус русского языка............................................................52-53

1.6.3. Основные параметры поэтического корпуса таджикского

языка..............................................................................................................................................53-58

ГЛАВА II. ТЕХНОЛОГИЯ СОСТАВЛЕНИЯ ЧАСТОТНЫХ

СЛОВАРЕЙ............................................................................................................................................59-88

2.1. Постановка задачи..........................................................................................................59-60

2.2. Используемые технологии......................................................................................60-61

2.3. Описание программного комплекса..............................................................61-78

2.3.1. Модель элементов программного комплекса........................................62-73

2.3.2. Реализация программного комплекса............................................................73 -78

2.4. Дополнительные элементы программного комплекса..................78-88

2.4.1. Формализация метрических размеров..........................................................78-79

2.4.2. Закономерность образования стихотворных размеров..................79-85

2.4.3. Алгоритм определения размера........................................................................85-88

ГЛАВА III. РЕАЛИЗАЦИЯ АЛГОРИТМА ДЛЯ РЕШЕНИЯ ЛИНГВИСТИЧЕСКИХ ЗАДАЧ НА ОСНОВЕ

СТАТИСТИЧЕСКОГО АНАЛИЗА....................................................................89-133

3.1. Основные задачи и возможные способы их решения.... 89-90

3.2. Разработка и проектирование базы данных............................................90-93

3.3. Интерфейс программного комплекса............................................................93-95

3.4. Составление частотного словаря газелей Хафиза..............................96-116

3.5. Первичная статистическая обработка............................................................116-127

3.5.1. Длина словоформы........................................................................................................116-123

3.5.2. Распределение словоформ....................................................................................123-127

3.6. Исследование качественных признаков......................................................127-133

ЗАКЛЮЧЕНИЕ..................................................................................................................................134-139

БИБЛИОГРАФИЯ........................................................................................................................140-151

ВВЕДЕНИЕ

На современном этапе бурно развивается такая отрасль, как компьютерная лингвистика - направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов - программ, компьютерных технологий организации и обработки данных - для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также всю сферу применения компьютерных моделей языка в лингвистике и смежных дисциплинах. В то же время компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически всё, что связано с использованием компьютеров в языкознании.

Как научное направление, компьютерная лингвистика оформилась в 1960-е годы. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике - COLING. Соответствующая проблематика обычно бывает широко представлена на различных конференциях по искусственному интеллекту.

Компьютерная лингвистика как особая прикладная дисциплина выделяется, прежде всего, по инструменту — то есть по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые разные средства программирования, оболочки и платформы, поэтому описать компьютерное моделирование языка с единой позиции весьма затруднительно. Вместе с тем существуют общие принципы компьютерного моделирования мышления, которые, так или иначе, реализуются в любой компьютерной модели. В основе этих принципов лежит теория

3

знаний, разработанная в искусственном интеллекте и образующая важный раздел когнитивной науки. Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире, а также ценности и их иерархии.

В настоящее время достижения в области компьютерной лингвистики находят все большее применение для анализа поэтических материалов. Очевидно, что компьютерная программа ещё долго не будет способна делать полноценный анализ поэтического текста: ей не под силу определить жанр, тему, сюжет, образную часть и т.д. И, тем более, компьютер, в отличие от человека, никогда не сможет понять художественную ценность произведения. Тем не менее имеется определённый минимум возможностей, из которого можно получить начальные сведения о стихах, а именно:

• вычислить количественные характеристики стихотворения;

• определить размер стиха;

• выяснить тип рифмовки в стихотворении - начиная от простых и заканчивая сложными смешанными рифмовками;

• распознать форму стихотворения (как, например, рубай, газель, касыда, китъа, маснави и т.п.);

• определить распределение по различным параметрам (длина слова, размер стиха и т.д.);

• составить частотный словарь.

Актуальность темы. Развитие любой отрасли науки наряду с фундаментальными ее понятиями, структурой внутреннего динамизма и другими факторами находится в прямой зависимости от применения в ней средств и методов ряда смежных прикладных отраслей. В настоящее время использование в языкознании, литературоведении и других направлениях современной филологической науки аппарата математики, и в первую очередь стати-

стических методов и средств, бурно развивающихся компьютерных и коммуникационных технологий, стало уже традиционным и обычным явлением.

Вместе с тем, с другой стороны, огромное наследие таджикско-персидской классической литературы до сих пор недостаточно изучено с позиции статистического анализа. Имеющиеся отдельные исследования явно недостаточны для охвата хотя бы определенной части всего объема этого огромного наследия, а использование статистических методов дает наилучшие результаты в стилистике, которая может избавиться от субъективных оценок при помощи подсчета и строгой систематизации материала. Значительную часть исследовательского процесса в этом направлении составляет работа по обработке текстового материала.

На современном этапе бурно развивается такая отрасль в прикладной лингвистике, как компьютерная лингвистика. Достижения в области компьютерной лингвистики находят все большее применение для анализа материалов поэтических текстов. Очевидно, что компьютерная программа ещё долго не будет способна делать полноценный анализ поэтического текста, и тем более, компьютер, в отличие от человека, никогда не сможет понять художественную ценность произведения. Однако в настоящее время сложился определённый минимум, из которого можно получить некоторые сведения о стихах.

Лексикография, будучи прикладной дисциплиной в области языкознания, изучает в основном методы создания (составления) словарей. Обычно под словарем понимается определенным образом организованное собрание слов, как правило, с приписанными им комментариями, в которых в стандартной для данного словаря форме описываются особенности их структуры и/или функционирования.

В связи с этим возникает естественная необходимость в создании прикладных лингвистических моделей и способов упрощения обработки текстового материала, для установления присутствующих в нем статистических за-

5

кономерностей, а также для усовершенствования технологии составления словарей.

Для решения поставленной задачи нами разработан лингвистический алгоритм, обрабатывающий тексты на таджикском языке и лингвистические модели, реализованные в программном продукте, для составления частотных словарей с учетом следующих требований:

■ приложение должно быть интерактивным;

■ содержать функциональные точки, позволяющие выполнить процедуру редактирования (до, в процессе и после выполнения возложенных на приложение функций);

■ базироваться на доступной для конечных пользователей платформе.

Разработанный лингвистический алгоритм позволил провести статистическое исследование произведения Хафиза Ширази и изучение закономерностей лингвистических элементов и стилистических особенностей на основе автоматизированного составления частотного словаря сборника его газелей.

Теоретическими основами для решения поставленных в работе задач явились работы в области формальной и контенсивной типологии, математической и компьютерной лингвистики.

Степень разработанности проблемы.

В настоящее время имеется очень мало частотных словарей произведений классиков таджикско-персидской литературы. Имеющиеся единичные частотные словари, известные автору [98],[162], составлены традиционным способом и представлены, в основном, в виде конкорданса.

Диссертанту не известна ни одна работа по комплексному статистическому анализу произведений классиков таджикско-персидской литературы. Вместе с тем имеются некоторые работы по установлению статистических закономерностей отдельных параметров изучаемого материала, и выполненных, в основном традиционным способом (см., например, [86], [98]).

Вопросы классической поэтики, прежде всего касающиеся метрической системы аруз, изучены в работах: [119], [86], [87, [147], [65], [125], [15].

Автором диссертации изучены отдельные работы, в которых поэтические материалы исследуются с помощью компьютерной технологии [21], [77], [97]. Однако по проблемам автоматизации анализа таджикской поэзии исследования не проводились.

Цель работы. Цель исследования - создать прикладные лингвистические модели и лингвистический алгоритм для составления частотных словарей и применения их в процессе решения конкретных лингвистических задач.

Достижение поставленной цели осуществляется путем решения следующих задач:

1. Анализ и систематизация существующих научных знаний в области формальной и контенсивной типологии, математической и компьютерной лингвистики.

2. Исследование стилистических закономерностей поэтических материалов, в частности, исследование закономерностей образования стихотворных размеров.

3. Разработка и обоснование моделей с использованием стандартных систем обозначений программного комплекса.

4. Разработка, обоснование и тестирование прикладных лингвистических моделей и алгоритмов для составления частотных словарей и их реализация в виде проблемно-ориентированного программного обеспечения.

5. Проведение прикладных лингвистических экспериментов с целью тестирования и верификации разработанных моделей и алгоритмов и разработка предложений по их практическому использованию и дальнейшему совершенствованию.

Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы формальной и контенсивной типоло-

7

гии, методы математической и компьютерной лингвистики, а также базовые знания в области языкознания, литературоведения и метрических закономерностей таджикско-персидского стиха.

Теоретические результаты получены методом дедуктивных рассуждений. Достоверность также подтверждается численным экспериментом.

Научная новизна работы обусловлена:

1. Применением методов квантитативной и компьютерной лингвистики в создании проектирования лингвистических моделей и алгоритмов при анализе текстов таджикского языка;

2. Разработкой технологии составления частотных словарей в таджикской лексикографии;

3. Применением нового подхода к лингвистическому исследованию для статистического анализа текстовой информации с целью определения стилистических закономерностей;

4. Проведением комплексного статистического анализа множества словоформ исследуемого поэтического материала, позволившего получить перечни и статистические распределения для различных морфологических лингвистических элементов применительно к текстам на таджикском языке.

Практическая значимость работы состоит в возможности широкого внедрения созданных лингвистических моделей и алгоритмов для составления частотных словарей в лингвистических исследованиях, а также в качестве одного из элементов системы разработок в области компьютерной лингвистики.

Полученные результаты используются в учебном процессе Российско-Таджикского (славянского) университета и Технологического университета Таджикистана при разработке курсов лекций и программ по дисциплинам «Компьютерная лингвистика», «Технологии проектирования информационных систем», а также в научно-исследовательских процессах Института языка и литературы им. Рудаки Академии наук Республики Таджикистан.

Теоретическая ценность работы состоит в том, что разработанный подход к моделированию лингвистических моделей и алгоритмов и их реализация в области лингвистических исследований может эффективно применяться при решении широкого круга задач по изучению таджикско-персидского литературного наследия.

Источники исследования. Объектом данного исследования послужили следующие работы:

1. Мисбохиддин Нарзикул. Обитель слова - Душанбе: Адиб, 2007. - 224 с. (на таджикском языке).

2. Насир ад-Дин ат-Туси. Мера стихотворений - Душанбе: Ориёно, 1992. - 148 с. (на таджикском языке).

3. Статистический словарь Корана / сост. и ред. доктор Махмуд Руха-ни.- Тегеран, 1990. - 1030 с. (на персидском языке).

4. Шамс ад-Дин Мухаммад Хафиз Ширази. Сборник стихов / ред. и автор предисл. Дж. Шамбезода. - Душанбе: Адиб, 1983.- 650 с. (на таджикском языке).

5. Шамс ад-Дин Мухаммад Хафиз Ширази. Сборник стихов / под ред. М.Бори - Тегеран, 2001.-356 с. (на персидском языке).

6. > : сЗ^Ь ¿ЗлЬ -Ьаи

Апробация работы. Диссертационное исследование обсуждено на совместном заседании отделов таджикского языка и таджикской классической литературы Института языка и литературы, востоковедения и письменного наследия им. Рудаки Академии наук Республики Таджикистана (24.01.2012, протокол № 94) и на расширенном заседании кафедры «История языка и типологии» Таджикского национального университета (01.07.2013, протокол № 27) и рекомендовано к защите.

Основное содержание работы отражено в научных статьях, опубликованных в различных научных сборниках. По материалам исследования диссертант выступала на научно-теоретических семинарах, международных конференциях, в том числе на Международной конференции «Таджикско-персидский язык и информационные технологии» (28-29-мая 2008г.).

Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и списка использованной литературы. Библиография насчитывает 163 источник. Объем работы 151 страниц, в основной части текста имеются 24 рисунка и 17 таблиц.

ГЛАВА I. ПРИМЕНЕНИЕ МЕТОДОВ МАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКИ ПРИ СОСТАВЛЕНИИ ЧАСТОТНЫХ СЛОВАРЕЙ

Развитие любой отрасли науки наряду с фундаментальными ее понятиями, структурой внутреннего динамизма и другими факторами находится в прямой зависимости от применения в ней средств и методов ряда смежных прикладных отраслей. В настоящее время использовани