автореферат диссертации по филологии, специальность ВАК РФ 10.02.22
диссертация на тему: Автоматизация лингвистического анализа поэтического наследия таджикской литературы
Полный текст автореферата диссертации по теме "Автоматизация лингвистического анализа поэтического наследия таджикской литературы"
На правах рукописи
Джаъфарова Давлатхоним Файзалиевна
Автоматизация лиигвистического анализа поэтического наследия таджикской литературы (на примере газелей Хафиза)
Специальность: 10.02.22 - языки народов зарубежных стран, Европы, Азии, Африки, аборигенов Америки и Австралии (таджикский язык)
АВТОРЕФЕРАТ
диссертации на соискание учёной степени кандидата филологических наук
1 7 ИДЯ 2012
Душанбе - 2012
005044049
Работа выполнена на кафедрах таджикского языка и образовательной философии, программирования и информационных технологий Технологического университета Таджикистана
Научные руководители:
Официальные оппоненты:
кандидат технических наук, доцент Умаров Махмуд Абубакрович; кандидат филологических наук, доцент Одинаев Нурмахмад Сафарович
доктор филологических наук Султонов Мирзохасан;
доктор филологических наук Махмаджонов Олимджон
Ведущая организация:
Таджикский национальный университет
Защита состоится: « 10» мая 2012 г. в ^ часов на заседании Диссертационного совета Д. 047.004.01 по защите докторских и кандидатских диссертаций при Институте языка, литературы, востоковедения и письменного наследия им. Рудаки Академии наук Республики Таджикистан (734025, Душанбе, пр. Рудаки 21).
С диссертацией можно ознакомиться в Центральной научной библиотеке им. Индиры Ганди Академии наук Республики Таджикистан (734025, Душанбе, пр. Рудаки, 33).
Автореферат разослан « » ¿Р-^ГР/ОО^С^Р 2012
Учёный секретарь диссертационного совета кандидат филологических наук
Касимов О. X.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Развитие любой отрасли науки наряду с фундаментальными ее понятиями, структурой внутреннего динамизма и другими факторами находится в прямой зависимости от применения в ней средств и методов ряда смежных прикладных отраслей. В настоящее время использование в языкознании, литературоведении, лингвистике и других направлениях современной филологической науки аппарата математики, и в первую очередь статистических методов и средств бурно развивающихся компьютерных и коммуникационных технологий, стало уже традиционным и обычным явлением.
Вместе с тем, с другой стороны, огромное наследие таджикско-персидской классической литературы до сих пор недостаточно изучено с позиции статистического анализа. Имеющиеся отдельные исследования явно не достаточны для охвата хотя бы определенной части всего объема этого огромного наследия, а использование статистических методов дают наилучшие результаты в стилистике, которая может избавиться от субъективных оценок при помощи подсчета и строгой систематизации материала. Значительную часть исследовательского процесса в этом направлении составляет рутинная работа по обработке текстового материала.
На современном этапе бурно развивается такая отрасль в прикладной лингвистике, как компьютерная лингвистика. Достижения в области компьютерной лингвистики находят все большее применение для анализа поэтических материалов. Очевидно, что компьютерная программа ещё долго не будет способна делать полноценный анализ поэтического текста, и тем более, компьютер, в отличие от человека, никогда не сможет понять художественную ценность произведения. Однако в настоящее время сложился определённый минимум, из которого можно получить начальные сведения о стихах.
Лексикография, будучи прикладной дисциплиной в области языкознания, изучает в основном методы создания (составления) словарей. Обычно под словарем понимается определенным образом организованное собрание слов, как правило, с приписанными им комментариями, в которых в стандартной для данного словаря форме описываются особенности их структуры и/или функционирования.
В связи с этим возникает естественная необходимость в создании такого инструментария, который автоматизирует все основные рутинные работы как в процессе исследования лингвистических объектов для установления их статистических закономерностей, так и в технологии составления словарей.
Для решения поставленной задачи нами разработан программный комплекс для составления частотных словарей с учетом следующих требований:
■ приложение должно быть интерактивным;
■ содержать функциональные точки, позволяющие выполнить процедуру редактирования (до, в процессе и после выполнения возложенных на приложение функций);
■ базироваться на доступной для конечных пользователей платформе.
Разработанный программный комплекс использован для статистического исследования произведения Хафиза Ширази и изучения закономерностей лингвистических элементов и стилистических особенностей на основе автоматизированного составления частотного словаря сборника его газелей.
Теоретическими основами для решения поставленной в работе задачи явились работы в области проектирования информационных систем, методы визуального моделирования и технологии программирования, а также методы математической и компьютерной лингвистики.
Степень разработанности проблемы.
В настоящее время имеется очень мало частотных словарей произведений классиков таджикско-персидской литературы. Имеющиеся единичные частотные словари, известные автору [8],[16], составлены традиционным способом и представлены, в основном, в виде конкорданса.
Диссертанту не известна ни одна работа по комплексному статистическому анализу материалов того или иного автора. Вместе с тем имеются некоторые работы по установлению статистических закономерностей отдельных параметров изучаемого материала, и выполненных, в основном традиционным способом (см., например, [5], [8]).
Вопросы классической поэтики, прежде всего касающиеся метрической системы аруз, изучены в работах: [2], [5], [6], [9], [10], [11], [13].
Автором диссертации изучены отдельные работы, в которых поэтические материалы исследуются с помощью компьютерной технологии [1]/ И], [7], Однако по проблемам автоматизации анализа таджикской поэзии исследования не проводились.
Цель работы. Цель исследования - на основе использования современных технологий проектирования информационных систем и методов визуального моделирования разработать и реализовать программный комплекс для автоматизированного составления частотных словарей и применить его в процессе решения конкретных лингвистических задач,
Достижение поставленной цели осуществляется путем решения следующих задач:
1. Анализ и систематизация существующих научных знаний в области математической и компьютерной лингвистики.
2. Исследование стилистических закономерностей поэтических материалов, в частности, исследование закономерностей образования стихотворных размеров.
3.Разработка и обоснование моделей с использованием стандартных систем обозначений программного комплекса.
4. Разработка, обоснование и тестирование комплекса эффективных алгоритмов автоматизированного составления частотных словарей и их реализация в виде проблемно-ориентированного программного обеспечения.
5. Проведение вычислительных экспериментов с целью тестирования и верификации разработанных программных средств и разработка научно-технических предложений по их практическому использованию и дальнейшему совершенствованию.
Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы теории алгоритмов, математического моделирования, теории информации и проектирования информационных систем, методы математической и компьютерной лингвистики, а также базовые знания в области языкознания, литературоведения и метрических закономерностей таджикско-персидского стиха.
Теоретические результаты получены методом дедуктивных рассуждений. Достоверность также подтверждается численным экспериментом.
Научная новизна работы обусловлена:
1. Применением методов современной технологии проектирования информационных систем в рассматриваемой предметной области;
2. Разработкой технологии составления частотных словарей;
3. Применением нового подхода к лингвистическому исследованию для статистического анализа текстовой информации с целью определения стилистических закономерностей;
4. Проведением комплексного статистического анализа множества словоформ исследуемого поэтического материала, позволившего получить перечни и статистические распределения для различных морфологических лингвистических элементов.
Практическая значимость работы состоит в возможности широкого внедрения созданных средств составления частотных словарей в лингвистических исследованиях, а также в качестве одного из элементов системы разработок в области компьютерной лингвистики.
Полученные результаты используются в учебном процессе Российско-Таджикского (славянского) университета и Таджикского технологического университета при разработке курсов лекций и программ по дисциплинам «Компьютерная лингвистика», «Технологии проектирования информационных систем», а также в научно-исследовательских процессах Института языка и литературы им. Рудаки Академии наук Республики Таджикистан.
Теоретическая ценность работы состоит в том, что разработанный подход к моделированию проблемно - ориентированных программных комплексов и реализации вычислительных алгоритмов в области лингвистических исследований может эффективно применяться при решении широкого круга задач по изучению таджикско-персидского литературного наследия,
Источники исследования. Объектом данного исследования послужили следующие работы: [5], [6], [11], [12], [14], [17].
Апробация работы. Диссертационное исследование обсуждено на кафедрах таджикского языка и образовательной философии, информатика и защита информации, программирование и информационных технологий Технологического университета Таджикистана (17.10, 2011, протокол №4) и на совместном заседании отделов таджикской классической литературы и таджикского языка Института языка и литературы, востоковедения и письменного наследия им. Рудаки Академии наук Республики Таджикистана (24.01.2012, протокол №1) и рекомендовано к защите.
Основное содержание работы отражено в научных статьях, опубликованных в различных научных сборниках. По материалам исследования диссертант выступала на научно-теоретических семинарах, международных конференциях, в том числе на Международной конференции - Таджикско-персидский язык и информационные технологии (28-29-мая 2008г.).
Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и приложений. Библиография насчитывает 161 источник. Обьем работы 111 страниц, в основной части текста имеются 23 рисунка и 16 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цели и задачи работы, научная новизна и практическая ценность полученных результатов, представлены основные положения, выносимые на защиту.
В первой главе «Лингвистические исследования в аспекте использования аппарата математики и компьютерных технологии» описывается проблематика математической экспликации и использования аппарата математики для исследования лингвистических объектов и вообще методов математического моделирования в языкознании и литературоведении. Математическое описание языка основано на представлении о языке как механизме, функционирование которого проявляется в речевой деятельности его носителей. Изучение способов математического описания текстов (в первую очередь предложений) составляет содержание одного из разделов математической лингвистики - теории способов описания синтаксической структуры. Для описания строения предложения можно либо выделить в нём «составляющие» — группы слов, функционирующие как цельные синтаксические единицы, либо указать для каждого слова те слова, которые от него непосредственно зависят.
Лингвистические объекты обладают как количественными, так и качественными свойствами. Количественные свойства (например, длина словоформы в буквах или фонемах, слогах, морфемах либо количество словоупотреблений в предложении и т.п.) постоянно используются в качестве тех признаков, по которым лингвистические объекты выступают в качестве единиц статистической совокупности. Однако статистика текста оперирует не только количественными, но и качественными признаками. Например, в ходе статистико - морфологического исследования словоупотребления текста группируются по признаку их принадлежности к той или иной части речи.
Статистическое исследование классиков таджикской литературы проводилось очень мало (см., например, [8], [16]), Очевидно, при исследовании классической поэзии, кроме атрибуции, которая является одной из важнейших задач стилистики, требуется установить также и другие параметры поэтического наследия, такие как жанр, размер, тематика, рифма, арабизм и т.п. Интересно узнать, например, удовлетворяют ли тексты авторов таджикской классической поэзии зависимости между частотой словоформы и ее номером в частотном словаре, составленном на основе данных текстов. Эта зависимость выражается формулой (называемой обычно законом Эсту-Ципфа-Мандельброта), которая имеет следующий вид:
в этой зависимости ^ — частота словоформы и / - номер ее в частотном словаре выступают в качестве переменных величин, а величины N -длина исследованного текста, к , р и V - коэффициенты, связанные с различной частотой лексических элементов.
Хотя статистическое исследование поэтического материала во многом аналогично исследованию прозы, тем не менее, имеются отличительные особенности, которые определяются свойством поэзии. Этими особенностями, например, являются размерность, строчная разделяемость, рифма, стихотворный слог и т.д. Вообще говоря, стиховедение требует выполнения огромного объема рутинных операций. Вероятно, именно поэтому в литературоведческой среде оно считается трудной областью, хотя работа именно в этой сфере приносит очень весомые и, главное, хорошо обоснованные результаты. Эти операции хорошо формализуются, что, кажется, должно было бы привести к созданию программного инструментария для их выполнения. Однако до сегодняшнего дня нет программ, которые могли бы использоваться как рабочее место стиховеда.
Компьютерный анализ лексической организации поэтических текстов позволяет не только создать частотный словарь произведения автора, выделить ключевые концепты его мировидения, но и определить специфику вербальной репрезентации в творчестве художника той или иной универсалии его мышления на основе моделирования меж текстового ассоциативно-смыслового поля концепта. Вместе с тем частотный словарь позволяет определить статистические закономерности поэтического материала, а включение размера стиха в качестве дополнительного параметра статистического анализа увеличить вероятность атрибуции материала.
Компьютерное моделирование структуры сюжета - еще одно перспективное направление компьютерной лингвистики. Изучение структуры сюжета относится к проблематике структурного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся компьютерные программы моделирования сюжета основываются на трех базовых формализмах представления сюжета - морфологическом и синтаксическом направлениях представления сюжета, а также на когнитивном подходе. В системах автоматической обработки информации семантико-синтаксический анализ текстов проводится с целью формализованного представления их структуры - выделения в них смысловых единиц и установления связей между ними.
Корпусная лингвистика в последнее десятилетие всё более активно включается в научный оборот, особенно в плане практического использования корпусов в лингвистических исследованиях, подготовке слова-
рей и грамматик. В то же время осмысление теоретических оснований нового направления в определённой мере отстаёт от конкретных исследований с применением корпусов и имеется ряд неразработанных проблем. К таким проблемам относится определение корпусной лингвистики и основных понятий, её места в структуре лингвистического знания, методов корпусной лингвистики и другие.
Основные задачи корпусной лингвистики могут быть сведены к следующим: разработка теоретических оснований данного направления; анализ опыта создания и применения корпусов различных видов; формулирование общих требований к корпусу; создание корпусов для различных исследовательских и учебных задач; формирование эффективных способов применения корпусов текстов в различных областях языкознания. Среди методов корпусной лингвистики обычно выделяются следующие группы: филологические методы; теоретико-лингвистические методы; математические (статистические) методы; методы информационных технологий.
Поэтический (под) корпус - часть национального корпуса со специфической метаразметкой, в которой отражены основные жанровые и формальные параметры поэтического текста. Присутствие данной мета-разметки позволяет программными средствами восстановить акцентную схему каждой входящей в рассматриваемый поэтический текст словоформы с определенной точностью. Интерфейс поиска, в целом, одинаков для поэтического и основного корпусов. Однако в поэтическом корпусе существует дополнительный набор метатекстовых атрибутов, позволяющих осуществлять поиск по характерным параметрам поэтического текста. Основные параметры, которые принципиальны для формирования поэтического корпуса, - это стиль, жанр, рифма, размер и т.п.
Размер. Традиционно метрической основой стихотворной размерности персоязычной поэзии является аруз. Хотя аруз заимствован из арабской поэзии и его основоположником является Халил ибн Ахмад, классики таджикско-персидской литературы постепенно стали вносить свои коррективы с учетом требований и особенностей персидского языка. Вместе с тем, для письменности использовалась все та же арабская графика. Поэтому почти во всех руководствах VI трактатах по арузу придерживаются правил образования размерности, предложенных Халилом ибн Ахмадом.
Только в последнее время (XX в.) к этому положению начали относиться критически. Такие ученые, как П.Н. Хонлари, Т.Зехни, Б. Сирус и др., стали утверждать, что размерность в таджикско-персидской поэзии достигается путем создания в соответствии с определенными правилами
последовательностей коротких и длинных слогов. И в качестве основной единицы определения размера служит только слог.
В классических описаниях для образования стихотворных размеров используются базовые элементы - рукны1. Изначально путем различной комбинации единицы слогов, называемых «сабаб», «ватад», «фосила», и их разновидностей, определяются 7 базовых рукнов: «Ма-фо-1-лун» (V —
--), «Мус-таф-ьи-лун» (--V —), «Фо-и-ло-тун» (—V--), «Ма-фо-х-
лу» (V--V), «Фа-и-лун» (V--), «Мус-таф-ъи-лун» (--V —), «Фои-
ло-тун» (—V--). В системе аруз зихофом называется порождение новых рукнов в результате внесения определенных изменений в рукны базового множества.
Классики таджикско-персидской литературы путем выбора размера поэтического материала, а также звучности букв умели создавать ассоциативный образ описываемой в стихотворении темы и его эмоциональный оттенок. Этот навык выбора доведен некоторыми авторами до абсолютного совершенства. Например, тема «Цветущие сады» ассоциируется с пением птиц. А последнее связано с чириканием, или со звуком, который производится буквой «ч». И в связи с этим Хафиз приводит: Мурги чамони ман чаро майли чаман намекунад, Хамдами гул намешавад, ёди суман намекунад.
Мелодичность размера данного двустишия настраивает на выражение восхищения красотой цветущего сада, а повторение буквы «ч» в словах «чамон», «чаро» и «чаман» создает ощущение чирикания птиц. Другой пример:
Эй хама шакли ту матбуъу хама чои ту хуш, Дилам аз ишваи ширини шакархои ту хуш.
Повторение буквы «ш» в словах «ишва», «ширин», «шакархо», «хуш» порождает особое эмоциональное состояние. Или же Лахути в некоторых своих стихотворениях для эмоционального выражения призыва к борьбе, вопреки правилам, принятым в канонах аруза, в пределах одного размера использует различные звуки, порожденные короткими и длинными гласными [2,С.40]. При этом мелодичность стихотворения даже усиливается, что свидетельствует о высоком мастерстве поэта. Поэтому, имея в виду дальнейшие исследования, цель которых - устанавливать закономерности связи отдельных тем с мелодичностью размера на основе регрессионного и корреляционного анализа, мы отделили атрибут «Тема» как отдельное множество. Вместе с тем эта задача не входит в рамки данного исследования.
1 Рукн означает столп, основа, база
Во второй главе описывается разработанная «Технология составления частотных словарей». Основными этапами процесса составления частотного словаря и выполнения статистической обработки поэтического материала являются:
¡.Подготовка материала. Материал можно подготовить через сканирование и распознавание с последующим редактированием или традиционным способом.
2. Считывание материала и формирование таблицы в базе данных. В базе данных определены необходимые таблицы: таблица размеров и таблица поэтических жанров.
3. Предварительная обработка материала и нормализация лексических элементов.
4. Составление конкорданса и предоставление возможности редактирования.
5. Редактирование конкорданса с целью определения дополнительных параметров: значение отдельных слов, морфологические параметры, этимологические параметры и, возможно, некоторые комментарии.
6. Статистический анализ в соответствии с заданными параметрами.
Очевидно, что данный программный комплекс является человеко-
машинной системой и обеспечивает взаимодействие между различными программными средами (текстовый редактор, СУБД, электронная таблица).
Описание моделей элементов программного комплекса осуществлено на основе современных методов моделирования и проектирования информационных систем.
На первом этапе проекта ограничиваясь функциональностью, необходимо составить набор требований, предъявляемый к конечному продукту т.е. к программному комплексу составления частотных словарей (ПКСЧС) следующим образом:
• ПКСЧС должен обеспечить обработку поэтических произведений различных авторов и различных жанров, а также хранение результатов обработки;
> ввод исходного материала осуществляется отдельно;
• обработка исходного материала осуществляется в несколько этапов:
1. Первичная обработка ~ нормализация лексических элементов, которая осуществляется путем удаления, добавления и изменения отдельных их частей. В материалах на таджикском языке это выражается в следующем: удаление символа притяжательного падежа (бандаки изофй), например, фраза «хонаи ман» заменяется на «хона ман»; изменение формы соединительного союза ~ «ману ту» заменяется на «ман ва ту»; соче-
тания, рожденные стяжением двух слов, согласно треоованиям размера поэтического материала, заменяются на два элемента, например, «з-ин», «в-агар», «к-он» и т.п. заменяются на «зи ин», «ва агар», «ки он» и т.п., соответственно; связка «аст» может быть как частью именного сказуемого «будааст», «рафтааст», так и служить для образования сложных форм, при этом, если основное слово заканчивается согласным, то сложная форма пишется слитно и «аст» заменяется на «ст», например, «шумост», «накует», «борхост» и т.п. В первом случае сложное сказуемое заменяется инфинитивом, а вместо сложной формы записываются два слова: «шумо аст», «наку аст», «борхо аст». На рис. 1 показан алгоритм первичной обработки
БД
и=
ИзЦД считывается Б:...., 8„Д--
1=0
< '=1'П >
ЛаНжДжЗ I 5н = 1е1и^„.а1-П; 1=1+1: Ц« I? & я
Обновление ¡-ой строки Si= в " ^
Н Искшчеиие № т Ш1.гка Ц I
и={ц} Редактирование
Я
Запоминание поме-
Рис. 1. Блок-схема алгоритма первичной обработки
2. Составление списка лексических элементов с указанием их местонахождения в материале с точностью до строки;
3. Определение длины (количество букв) лексических элементов;
4. Определение частотности и встречаемости лексических элементов;
5. Сортировка лексических элементов в соответствии с указанным
признаком (длина, алфавит, порядок встречаемости, частотность);
• результаты обработки на любом этапе должны храниться отдельно от исходного материала с целью его восстановления в случае программного или аппаратного сбоя;
• ПКСЧС должен обеспечить возможность редактирования в следующих режимах:
предварительное - после первичной обработки для просмотра и, быть может, внесения изменений;
> промежуточное - с целью просмотра параметров, полученных в результате обработки и координации признаков сортировки;
> окончательное - для ознакомления с конечными результатами и подготовки к печати выходных документов.
• ПКСЧС должен обеспечить подготовку и печать следующих выходных документов:
>список лексических элементов в соответствии с выбранным признаком, полностью или частично, с указанием местоположения слова в материале или без него;
У список внесенных изменений лексических элементов в результате первичной обработки и исходная их форма;
результаты статистической обработки данных материала в виде таблиц, диаграмм, графиков и комментариев.
Далее на основе этих требований и ограничений молено выделить классы пользователей программного комплекса и построить его описание с точки зрения конечного пользователя. Для данного программного комплекса определены шесть прецедентов использования (Use Case):
1.Ввод исходного материала, который осуществляется традиционным способом или через сканирование и распознавание.
2. Редактирование. Процедура редактирования включается на всех этапах процесса составления частотного словаря. Даже если ввод исходного материала осуществляется через сканирование и распознавание, то требуется процедура редактирования для сравнения с оригинальным источником обрабатываемого материала.
3. Обработка материала, Обработка в соответствии с предъявляемыми функциональными требованиями осуществляется в несколько этапов,
4. Составление списка слов. Список составляется для определенного значения параметров и заданного объема слов,
5. Статистический анализ. Анализ полученных в результате обработки элементов частотного словаря.
6. Печать документов. Инициируется либо прецедентом «Составление списка слов», либо прецедентом «Статанализ»
Кроме того, выделены три класса пользователей, или три действующих лица (актеры), и определены их роли: Лингвист, Аналитик и Оператор. Их роли во взаимодействии с программой определены при помощи диаграммы прецедентов использования,
В процессе разработки программного кода, мы не стали пользоваться возможностью CASE - средств для автоматизации генерации кода исходя из следующих соображений:
1. Из-за невозможности автоматизировать весь процесс составления частотного словаря. Более того, это не рекомендуется, т.к. кроме формальной рутинной работы в данной процедуре имеется большое количество неформальных задач, решение которых полностью зависит от экспертных знаний. Это задачи смыслового и этимологического толкования слов, разделения омонимов, определения принадлежности к той или иной части речи и др. Исходя из этого, возникает естественная необходимость предоставления конечным пользователям широких возможностей манипулирования исходными, промежуточными и результирующими данными.
2. Приложение должно базироваться на доступной для конечных пользователей платформе. На данный момент такой платформой являются программы пакета Office, поскольку полностью или его отдельные компоненты используются практически всеми теми, кто выполняет ту или иную задачу на персональном компьютере.
3.Для реализации программного комплекса в диссертации использован подход, в основе которого лежит понятие алгоритма диалоговых операций (АДО) - совокупность логически связанных выполняемых человеком и компьютером операций, обозначаемых в виде граф-схемы, по обработке, вводу и выводу данных при решении конкретных прикладных задач, реализуемой в виде проблемно-ориентированного программного комплекса.
Третья глава диссертации «Использование программы для решения лингвистических задач на основе статистического анализа» посвящена применению разработанного программного комплекса для решения конкретной задачи, а именно для статистического анализа поэтических материалов на примере газелей Хафиза. Для этого использован ряд изданий стихов Хафиза, но основными источниками послужили издания стихов Хафиза 2001 года (Тегеран) и 1983 года (Душанбе).
Разработка должна вестись таким образом, чтобы алгоритмы легко могли быть улучшены, Поэтому работа программ разбивается на этапы, каждый из которых должен улучшать результаты, полученные на предыдущем этапе. Основной единицей анализа в текущей версии программ
является строка. А статистический анализ осуществляется лишь после составления частотного словаря изучаемого текста.
Основное отношение базы данных для хранения, использования и дальнейшей переработки газелей Хафиза Ширази из 9 атрибутов определено следующим образом:
ВЬСахд1={КодЗ, .УгГах, Газель, Размер, Рифма, КолСтр, КолСлов, Нале, Тема}.
Предлагается два варианта анализа сборника газелей: выборочный и полный. В случае выборочного режима можно определить размер выбранной газели и производить отдельно статистический анализ. При этом вначале необходимо исследовать базу данных, на что программа тратит определенное время. Этот факт отражается в интерфейсе.
Определение размера осуществляется в соответствии с алгоритмом (рис 2).
Рис. 2.Блок-схема алгоритма определения размера Выдаются наиболее вероятные размеры, определенные и упорядоченные по количеству совпадений, т.е.
V =» |
указав номер размера в оазе, его название, название рукнов и схему.
При выборе режима «Полностью» из базы последовательно считы-ваются все газели, и на первом этапе анализа, для удобства, открывается
лист MS Excel, в котором записываются расщепленные и упорядоченные по длине лингвистические элементы (словоформы) от первой до последней газели. По завершении процедуры расщепления предлагается сохранить файл.
Частотный словарь составлен на основе 569 газелей Хафиза со следующими условиями:
■ исключение изафета (бандаки изофй) «и», например, «Равоки ман-зари чашми ман...» рассматривается как «Равок, манзар чашм ман...»;
■ замена слитных соединительных союзов «ву», «ю» на «у» и его отделение от слова для дальнейшего рассмотрения в качестве однобуквен-ного лингвистического элемента;
" замена сочетаний, рожденных стяжением двух слов в соответствии с требованиями размера, на два слова, например: «з-ин» - «зи ин», «в-агар» - «ва агар»;
" отделение связки «аст» от части именного сказуемого, а также в словах, заканчивающихся гласной буквой, в которых эта связка выражается в виде «ст», её замена на «аст», например: «туст» - «ту аст», «ра-вост» - «раво аст»;
" составление конкорданса. Этот процесс автоматизирован и выполняется в несколько этапов
1. Расщепление всего текста на отдельные слова, разделителем являются пробел, знаки препинаний, тире (дефис), знак перехода строки, знак абзаца;
2.Определение номера газели и номера строки в газели для каждого встречаемого слова2;
3.Группировка слов по длине;
4.Выдача первичного списка для предварительного знакомства, и может быть, внесение некоторых коррективов и изменений;
5.Подготовка конкорданса в следующем формате «слово - частотность, {№Г-№с; №Г- №с ; ....;}». Причем порядок слов устанавливается по мере встречаемости, ниже приводится пример фрагмента составленного конкорданса;
6.Упорядочивание конкорданса, обычно по алфавиту;
7. Составление комментариев и толкований слов конкорданса, а также их запись с помощью арабской графики. Этот процесс выполняется лингвистом в интерактивном режиме взаимодействия с системой на основе упорядоченного конкорданса. В итоге словарь обретает следующую форму:
г Номер газели соответствует порядку, приведенному в основном используемом источнике
{Слово-Вязь-Толковапие-Частотность-Встречаемость}.
адл
адаб
буъд авранг
ЦД}1 Ли
паргор
Ба хдмаи одамон бо як чашм нигох, кардан, инсоф. Шарм, адё; накутабиатй, по-кизагии табиат.
Дури, дур будан; фосила.
1.Тахт, сарир;
2.Номи шахсе, ки ошики Гулчехра ном духтаре бу-дааст.
1.Афзор ва оло-тест барои каши-дани дойра ва паймоиши хатх,о, сиркул; 2. чора, васила; тадбир.
7 207-3; 268-15; 270-4; 347-15; 409-4; 410-25; 438-14;
62-14; 73-13; 113-7; 12113 13; 142-8; 226-15; 229-9; 233-13; 233-14; 243-8; 315-7; 511-6; 555-7; 99-5; 539-14;
2 3
390-5; 491-17:559-12;
86-10; 96-9; 123-11; 15512; 228-9; 256-9; 282-10;
8.Определение лингвистических признаков слов (части речи, языковые и этимологические аспекты) конкорданса для дальнейшего его использования с целью статистического анализа и установления стилистических закономерностей. Этот процесс также выполняется лингвистом на основе упорядоченного конкорданса.
Следующий этап работы - исследование газелей Хафиза с позиции статистического анализа с целью обнаружения некоторых стилистических закономерностей и лингвистических особенностей.
Длина словоформы. Полный объем словаря составляет 68955 слов. В сборнике газелей Хафиза встречаются отдельные строки и даже полностью газели на арабском языке. Мы их не стали включать в словарь, а рассматривали как отдельный параметр. Таких строк в тексте всего 97 с общим объемом 689 слов. С другой стороны, во всем тексте встречаются всего 4 однобуквенных слова, это: у (он, она) - 327, 6 (обращение) - 102, о (повелительная форма глагола «омадан» - приходить) - 10 и соединительный союз у, который обычно пишется слитно и в зависимости от окончания имеет формы «ву» или «ю» встречается 2273 раза. При произведении статистического анализа такой соединительный союз не учитывался, т.к., во-первых, он входит в состав того или иного слова, во-
вторых, его учет из-за большого количества может привести к искажению реальной картины исследуемого материала. Поэтому анализ произведен на основе словаря с объемом 66652 слова, в количестве 9685 различных слов со средней встречаемостью 7 раз, без учета строк на арабском языке и соединительного союза «у». Самая большая по длине словоформа - 17 букв, в тексте встречаются всего две словоформы (кишти-нишастагонем и муъдалатиссултонй). Самую большую частоту имеют слова из двух букв (14704). Такое количество создается в основном за счет предлогов и союзов, таких как «ба», «аз», «зи», «ки», «ва» и т.п. Поэтому, при такой большой частоте, в тексте встречаются всего 56 двух-буквенных слов. Самое большое количество словоформ из 6 букв - 1873 при частоте 6463. Таким образом, по длине словоформы получено следующее распределение (таблица 1).
Таблица 1. Распределение по длине словоформы
Дл. сл. Часта % Кол-во Ср част. Дл, сл. Час -та % Кол-во Ср част
1 409 0,61 4 146,3 10 547 0,82 435 1,26
2 14704 22,06 56 262,6 11 190 0,29 168 1,13
3 14462 21,70 402 35,98 12 98 0,15 78 1,26
4 11053 16,58 988 11,19 13 34 0,05 31 1,10
5 11362 17,05 1795 6,33 14 5 0,0075 7 0,71
6 6463 9,70 1873 3,45 15 7 0,0105 5 1,40
7 4265 6,40 1773 2,41 16 0 0,0000 0 0,00
8 2023 3,04 1204 1,68 17 2 0,0030 2 1,00
9 1029 1,54 709 1,45
Слабой стороной табличного описания колебания признака является недостаточная наглядность этого описания. Гораздо большая наглядность достигается с помощью графического или геометрического изображения интересующего нас распределения (рис.3).
Рас пределен не по длине
Количество букв
Рис.3. Распределение словоформ по количеству букв Изучение частотного словаря по длине словоформы позволяет сделать вывод, что максимальные информационные нагрузки текстового и словарного слова в произведениях Хафиза не очень отклоняются от среднестатистических литературных данных для других языков. Это соответствует тому, что данная величина в индоевропейских языках примерно одинакова.
Распределение словоформ. Полный объем словаря из 68955 словоформ распределяется по отдельным единицам изучаемого материала, в нашем случае по газелям, следующим образом. Минимальное количество использованных словоформ - х„,т = 43, которое встречается в трех газелях (479, 498, 543) и составляет всего 0,63% от общего количества газелей, а максимальное х„иа = 239 словоформ только в одной газели (410). В 27 газелях количество словоформ не повторяется. В таблице 2 приведен список, в котором указаны все такие газели, при этом 8 - количество словоформ, № - номер газели в базе данных.
Таблица 2.
в № Б № 8 № в № в № в № в № в № 8 №
49 498 61 182 90 565 157 403 167 555 173 286 176 123 181 287 187 53
55 163 86 125 133 148 163 24 169 438 174 56 178 449 182 567 190 271
57 281 89 501 154 157 166 285 171 220 175 415 179 339 185 80 196 517
Такой ряд, очевидно, является не очень удобным для дальнейшего исследования. Чтобы избежать этого неудобства, сгруппируем полученный вариационный ряд по количеству словоформ и определим интервалы, в которых находятся эти значения, Таким образом, пусть (х^х^), (х2,х3), , ,(*„./, Хц) будут этими интервалами с интервальными разностями к{= х2 - XI, к}= х3 - х2,... ,&„./= х„ - х„_1, которые характеризуют ширину интервалов.
Не умаляя общности, можно предположить, что интервалы имеют длину. Для определения ширины интервалов воспользуемся формулой Стерджесса
г -у 239-43
1г — пип _ ^ - 21 4
к- 1 + 1о8? 1+1оёГ" * Отсюда находим длину интервала
к
Таким образом, весь отрезок, определенный по количеству словоформ, будет разбит на интервалы [хтп, х1 ] Ы [■*,, ] и ... и [*„_1> ^^ ]>
длина каждого (кроме последнего) равняется 10, а длина последнего интервала из-за небольшого количества элементов, значительно увеличена. В этот интервал входят все газели, имеющие более 200 словоформ. С учетом этого посчитаем количество возможных интервалов по формуле
Л'..
• + 1 =
200 - 43
+ 1 = 16,7~17
1 10 Полученные результаты представлены графически в виде гистограмм (рис.4).
94 94 94
5С-» «0-М 70-79
«О М №0-109 110-119 120-12« 130-15« 1«-149 1«М59 «0-108 170-179 1»-1!9 1«-Ш >200
Группы
Рис.4. Гистограмма распределения по количеству словоформ.
Далее изучаются вопросы распределения словоформ по принадлежности частям речи, языковым и другим признакам.
8.-187(0,27%)-
7.-17228(24.99%)-
6.-453(0.66%)
5.-2390(3,47%)-4.-4381(6,35%)
3.-5465(7,93%)-
Распределение по частям речи
ю-14 (ода%)
9-717(1,04)
Ч
2.-11253(16,32%;
□ 1 Существительное Я 2 Глагол
□ 3 Местоимение
26883(38,96%) 04 Прилагательное
■ 5 Наречие
Шб Числительное ш7 Предлоги а8 Измененное
■ 9 Обращение а 10 Восклицание
2
Заключение подытоживает основные результаты проведённых исследований, экспериментов и практической реализации. В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее.
Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных
Распределение по другим признакам
3. - 0.37
-22.14
- 76 90
□ 1 Таджикское Н2 Арабское
□ 3 Религиозное а 4 Тюркское
■ 5 Греческое
□ 6 Географическое
■ 7 Астрономическое
□ 8 Имя человека
■ 9 Другое
языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие.
Одной из важнейших задач компьютерной лингвистики на современном этапе ее развития является составление достаточно представительных словарей наименований понятий - выявление основного понятийного фонда естественных языков.
Опыт полувекового развития компьютерной лингвистики продемонстрировал широкие возможности конструктивного алгоритмического подхода к решению ее задач. Вместе с тем он выявил и ограниченность этого подхода. Оказалось, что в некоторых сложных ситуациях алгоритмический подход неэффективен и в таких случаях лучше применять метод аналогии. В этой связи у специалистов по компьютерной лингвистике и перспективным информационным технологиям сформировалась точка зрения, согласно которой часть задач может решаться "по правилам" (rule based approach), а другая часть - "по аналогии с прецедентами" (example based approach). Возможны и гибридные технологии, в которых целесообразно использовать оба эти подхода.
Цитируемая литература:
1. Бабенко И.И. Коммуникативный потенциал слова и его отражение в лирике М.И. Цветаевой: АДК- Томск, 2001. - 25 с.
2.Бах,ром Сирус. Арузи точикй. - Душанбе: Таджикгосиздат, 1963. -286 с.
3.Давронов С. Вазни ашъори Абулкосим Лохутй. - Душанбе: До-ниш, 1974.- 163 с.
4.Козьмин А.В.Автоматический анализ стиха в системе STARLING/ тр. Международной конф. «Диалог-2006».-М,
2006.-www.dialog21.ru/digests/dialog2006/materials/html/ Kozmin.htm.
5.Мисбо*иддини Нарзикул. Ч,ойгохи сухан,- Душанбе: Адиб,
2007.-224 с.
6.Насириддини Туей. Меьёр-ул-ашъор. - Душанбе: Ориёно, 1992. -148 с.
7. Орлова О.В. Коммуникативные аспекты лексической репрезентации концепта язык в лирике И. Бродского: Автореф. дис. ... канд. филол. наук. - Томск, 2002. - 25 с.
8.Османов М.Н. Частотный словарь Унсури - М.: Наука, 1970,- 326 с,
9.Парвиз Нотили Хонларй. Вазни шеъри форей. Тегеран, 1967. -237 с.
10. Туракул Зехнй. Санъати сухан. - Душанбе: Адиб» 2007.- 376 с.
11. Фарханги омори куллиёти Куръони Карим / сост. и ред. доктор Махмуда Рухонй,- Тегеран, 1990. - 1030 с.
12. Хофизи Шерози. Куллиёт / ред. и автор предисл. Дж. Шамбезода. - Душанбе: Адиб, 1983,- 650 с.
13. Шамсиддин Мухаммад бинни Кдйси Розй. Ал-муьчам фй маойри ашъор-ил-Ачам. - Тегеран, 1960. - 176 с.
14. Шамсиддин Мухаммад Хофизи Шерози. Куллиёт / под ред. М.Бори - Тегеран: Иктисодиёти чахон, 2001 -356 с.
16. <jJSuA Ь ¿jLLLti OÁJijAfe ;sAjjjífAljj Jáili. jUjajlj iSjAjj
17. ) rvr ¿I; jlJJjj liLuSil; <j jlJiu JajU (jljJJ
Основные положения исследования изложены в следующих публикациях:
Статьи, опубликованные в изданиях, вошедших в перечень ВАК РФ:
1. Исследование средств информационной технологии в литературоведении (на примере персидско-таджикской классической поэзии) // Вестник национального университета. Серия «Филология». Душанбе, 2010,-№5(61).-С.139-141.
2. Технология составления частотных словарей // Вестник университета (Республика Таджикистан). Душанбе: РТСУ, 2010. - №(30). -С.126-131.
3. Составление частотного словаря газелей Хафиза II Вестник национального университета. Серия «Филология». Душанбе, 2010. -№7(63). - С.84-86.
4. Программный комплекс для составления частотных словарей // Материалы Международной молодежной научной конференции/Марийский государственный технический университет (16-17 апреля 201 Оп). - Йошкар-Ола, 2010. - С. 260-263.
5.06 особенностях технологии составления частотных словарей // Материалы Международной научно-практической конференции студентов и молодых ученых. - Уфа, 2011. — С.93-98.
Книги:
6. Компьютерная лингвистика. - Душанбе: Ирфон, 2010.-163 с. (на тадж.яз.), (в соавторстве).
7. Частотный словарь газелей Хафиза. Ч.1.- Душанбе: Ирфон, 2012.-650 с. (на тадж.яз.), (в соавторстве).
Статьи, опубликованные в других научных журналах и изданиях:
8. Вопросы использования ИКТ в изучении таджикской классической поэзии // Труды научно-практической конференции «Вопросы ресурсного обеспечения информационно - коммуникационных технологий в образовании». - Душанбе: РТСУ, 2007. - С. 110-113.
9.Язык и национальное самопознание // Озодагон. - 2008. - 7 авг., №32. - С.14 (на тадж.яз.)
10. Составление частотного словаря газелей Хафиза // Труды Технологического университета Таджикистана. Вып. XIV. - Душанбе, 2008. - С.57-60.
11. Применение методов продукционных систем в исследовании образования размерности таджикской поэзии // Вестник Технологического университета Таджикистана. - Душанбе, 2009. - №1(15). - С.59-62.
12. Об одном подходе проектирования программных комплексов II Материалы научно-практической республиканской конференции. - Душанбе: ТУТ, 2010. - С. 25-28.
13. О статистическом анализе газелей Хафиза II Материалы Международной научно-практической конференции. - Душанбе: ТУТ, - 2010. - С. 352-357.
14. О разработке частотного словаря Хафиза Ширази "Перспективы развития фундаментальных и прикладных лингвистических исследований в Республике Таджикистан". Душанбе, РТСУ -28.01.2011. -С.28-35 (на тадж.яз.)
«ПРОАРТ»
Республика Таджикистан, г. Душанбе» ул. М. Туреунзаде Тел.: (+992 37) 88 195 59 Выдано 05.04.2012 утверждено на печать 06.04.2012. Бумага Офсет, 80 гр. Тираж 100 шт.