Метод многофакторной идентификации морфологических признаков русского слова

Гашков, Александр Владимирович

автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Метод многофакторной идентификации морфологических признаков русского слова

Год: 2012
Автор научной работы: Гашков, Александр Владимирович
Ученая cтепень: кандидата филологических наук
Место защиты диссертации: Пермь
Код cпециальности ВАК: 10.02.21

450 руб.

Диссертация по филологии на тему 'Метод многофакторной идентификации морфологических признаков русского слова'

Полный текст автореферата диссертации по теме "Метод многофакторной идентификации морфологических признаков русского слова"

На правах рукописи

ГАШКОВ Александр Владимирович

МЕТОД МНОГОФАКТОРНОЙ ИДЕНТИФИКАЦИИ МОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ РУССКОГО СЛОВА (НА МАТЕРИАЛЕ ИМЕНИ СУЩЕСТВИТЕЛЬНОГО ПО КОРПУСУ ТЕКСТОВ)

Специальность 10.02.21 - прикладная и математическая лингвистика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

1 о';.""]

Тюмень-2012

005017198

Работа выполнена в государственном образовательном учреждении высшего профессионального образования «Пермский национальный исследовательский политехнический университет» на кафедре иностранных языков, лингвистики и межкультурной коммуникации.

Научный руководитель: доктор филологических наук, профессор

Мышкина Нэлли Леонидовна

Официальные оппоненты: доктор технических наук, профессор

Захаров Александр Анатольевич

Тюменский государственный университет, Институт математики, естественных наук и информационных технологий, кафедра информационной безопасности, зав. кафедрой.

доктор филологических наук, доцент Шустова Светлана Викторовна

НП ВПО «Прикамский социальный институт», кафедра иностранных языков, зав. кафедрой.

Ведущая организация: ФГАОУ ВПО «Белгородский

государственный национальный исследовательский университет»

Защита состоится 23 мая 2012 года в 09 часов на заседании диссертационного совета К 212.274.05 по защите диссертаций на соискание ученой степени кандидата филологических наук при Тюменском государственном университете по адресу: 625003, г. Тюмень, ул. Республики, 9, ауд. 211.

С диссертацией можно ознакомиться в читальном зале ИБЦ Тюменского государственного университета по адресу: 625000, г. Тюмень, ул. Семакова, 18.

Автореферат разослан 18 апреля 2012 года.

Ученый секретарь диссертационного совета

кандидат филологических наук, л

доцент М • ^^^ т.В. Сотникова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Реферируемое диссертационное исследование выполнено на стыке лингвистики, информатики и математики, в рамках прикладной и компьютерной лингвистики. Оно посвящено проблеме идентификации морфологических признаков русского существительного при автоматическом морфологическом анализе по корпусу текстов.

Проблема использования вычислительных машин в интеллектуальной деятельности человека является одной из важнейших научных и прикладных проблем в последние десятилетия. Вычислительная мощность и количество компьютеров непрерывно увеличивается, возрастает их роль при решении практически любых задач; в том числе таких сложных, ранее относимых исключительно к сфере компетенции человека, как обработка текстов на естественном языке. Такая обработка не представляется возможной без определения морфологических характеристик входящих в текст и составляющих его слов. Морфологический анализ входит в любой алгоритм обработки текста как основной или вспомогательный метод [Марчук, 2006; Мельчук, 1964; Сокирко, 2001; Beesley, Karttunen, 2003; Brinkmann, 1999; Helwig, 2002; Koskenniemi, 1983 и др.]. Одним из требований, выдвигаемых Ю.Н. Марчуком к современному алгоритму автоматического морфологического анализа, является то, что неизвестные слова (т.е. слова, отсутствующие в словаре автоматической системы) должны обрабатываться наряду с известными, а вероятность их правильного определения должна составлять не менее 90-95% [Марчук, 2007: 67-68]. Проблема автоматического анализа известных слов может считаться практически решённой [Марчук, 2007: 62], однако до сих пор нерешённой является проблема анализа неизвестных слов, поскольку существующие анализаторы не удовлетворяют вышеуказанному критерию. Поэтому актуальной является разработка алгоритма морфологического анализа неизвестных слов. Вместе с тем существует неустранимая проблема, порожденная непрерывным изменением языка, с одной стороны, и описательным характером морфологии, с другой. Поскольку

остановить появление неологизмов и окказионализмов в языке невозможно, то при автоматическом анализе текста появляется проблема вписывания новых слов в кодифицированную систему языка. Исходя из вышесказанного, актуальность настоящего исследования обусловлена, с одной стороны, непрерывным появлением новых слов в языке, которые необходимо отражать в системах автоматической обработки текстов, с другой стороны -несовершенством современных систем автоматического анализа неизвестных слов.

Объектом исследования является имя существительное русского языка, представленное в корпусе текстов в виде употреблений его словоформ, а частеречная принадлежность слова и категориальные морфологические признаки существительного являются предметом исследования.

Гипотеза исследования заключается в том, что если разработать системно-комплексный метод определения морфологических признаков слова, то можно создать многофакторный алгоритм определения частеречной принадлежности слова и категориальных морфологических признаков существительного, удовлетворяющий современным требованиям к системам автоматического анализа текста.

Основной целью исследования является разработка системно-комплексного метода определения частеречной принадлежности слова и категориальных морфологических признаков существительного, а также создание на основе метода многофакторного алгоритма определения морфологических признаков существительных.

Исходя из гипотезы и основной цели были поставлены следующие конкретные задачи.

• Рассмотреть принципы системно-комплексного подхода и разработать системно-комплексный метод определения частеречной принадлежности и категориальных морфологических признаков слова.

• Создать алгоритм многофакторного определения частеречной

принадлежности слова и категориальных морфологических признаков существительного.

• Исследовать факторы определения категориальных признаков имени существительного и выделить среди них значимые.

• Изучить случаи многозначности словоформ русского существительного и определить необходимый набор средств разрешения многозначности для каждого случая.

• Установить критерии для сравнения алгоритмов и разработать метод оценки качества работы автоматического морфологического анализатора на основании бинарной классификации.

• Исследовать существующие алгоритмы морфологического анализа слов и выбрать исходный подалгоритм для анализа неизвестных слов на основе сравнения современных публично доступных морфологических анализаторов русского языка.

• Для повышения качества определения частеречной принадлежности и определения морфологических признаков имени существительного создать подалгоритмы: 1) анализа графической формы, основанный на методе аналогий, 2) парадигматического анализа, 3) синтагматического анализа.

• Разработать способ согласования результатов работы разных подалгоритмов на основе вероятностного метода и нечётких множеств.

• На основе разработанного метода оценки точности морфологического анализа определить эффективность предложенного алгоритма. Научная новизна исследования заключается в том, что:

1) впервые применён системно-комплексный подход к алгоритмизации анализа морфологических признаков неизвестных существительных русского языка;

2) выделены факторы определения частеречной принадлежности слова и категориальных морфологических признаков существительного: фактор

графической формы, парадигматический, синтагматический и

семантический факторы;

3) разработан и теоретически обоснован новый многофакторный алгоритм, отличающийся повышенным быстродействием и вероятностью распознавания морфологических признаков русского существительного более 95%;

4) впервые в прикладной лингвистике использовано сочетание вероятностного метода и нечётких множеств для описания многозначности при определении морфологических признаков;

5) разработана и апробирована (на материале русского языка) методика определения точности автоматического морфологического анализа на основе бинарной классификации;

6) предложен универсальный способ оценки теоретической точности метода аналогий по обратному словарю словоформ, применимый для синтетических языков.

Материалом для проверки работы разрабатываемого алгоритма послужили 5 корпусов текстов делового, научного и художественного стилей общим объемом 4 499 269 словоупотреблений. Под корпусом текстов, вслед за H.H. Белозёровой, В.П.Захаровым, В.Я. Плунгяном, T.McEnery, W.Wilson и другими, в работе понимается собрание размеченных текстов в электронном виде, предназначенное для решения различных лингвистических задач.

Теоретическая значимость исследования обусловлена тем, что в нем получил дальнейшее развитие системно-комплексный подход; работа вносит определённый вклад, во-первых, в компьютерную лингвистику, предлагая путь решения вопроса, связанного с актуальной проблемой идентификации категориальных морфологических признаков неизвестных слов, во-вторых, в теорию алгоритмов благодаря методике определения точности морфологического анализа и универсальному способу оценки метода аналогий; успешный опыт применения теории нечётких множеств в сочетании с вероятностным методом может способствовать дальнейшему использованию

данного метода в лингвистике.

Практическая значимость работы состоит в возможности применения разработанного алгоритма в различных лингвистических исследованиях по общему языкознанию, общей морфологии, теоретической грамматике русского языка и др., а также в практических разработках, направленных на совершенствование автоматической обработки текстов: системах морфологического анализа, информационно-поисковых системах, базах данных, корпусной лингвистике, а также в морфологических анализаторах в качестве блока анализа в системах машинного перевода. Кроме того, результаты исследования могут быть использованы в университетских курсах по общему языкознанию и прикладной лингвистике.

Теоретической базой исследования послужили труды отечественных и зарубежных ученых по общему языкознанию (Ю.Д. Апресян, О.С. Ахманова, В.Г. Адмони, И.А. Бодуэн де Куртене, Ю.С. Маслов, A.A. Реформатский, Ю.С. Степанов, JI.B. Щерба и др.), морфологии русского языка (В.В. Виноградов, A.A. Зализняк, JI.B. Калинина, A.A. Камынина, И.Г. Милославский, В.М. Никитевич, В.А. Плунгян, Н.Ю. Шведова), компьютерной лингвистике (А.Н. Баранов, Г.Г. Белоногов, JI.A. Беляева, Ю.Н. Марчук, И.А. Мельчук, Р.Г. Пиотровский, К. Beesley, H. Brinlmann, P. Hei wig, L. Karttunen, K. Koskenniemi, S. Naumann, A. Woyna), лексикографии (Л.А. Жданова, Ю.Н. Караулов, X. Касарес, B.B. Морковкин, В.Д. Табанакова), корпусной лингвистике (A.C. Герд, В.П. Захаров, Т. МсЕпегу, А. Wilson), системно-комплексном подходу (A.M. Аматов, Л.И. Антропова, В.А. Карпов, Н.Л. Мышкина, C.B. Шустова), различным аспектам математики (С.А. Айвазян, Н.Д. Андреев, И.З. Батыршин, Н.К. Верещагин, А.И. Кибзун, А. Кофман, Д. Кук, Г.Э. Яхъяева, D. Powers, С.Т. Shannon, L.A. Zadeh и др.) и теории алгоритмов (Ф.Л. Бауэр, Г. Гооз, Д. Кнут, А.Н. Колмогоров, Т.Х. Кормен).

метод бинарной классификации, методы парадигматического и синтагматического анализа. Кроме того, применяются методы представления данных в виде нечётких множеств и вероятностный подход. Положения, выносимые на защиту.

• Неоднозначность естественного языка является основным препятствием в автоматическом анализе текстов, преодолению которого способствует системно-комплексный метод определения частеречной принадлежности слова и его категориальных морфологических признаков.

• Системно-комплексный метод базируется на принципах системно-комплексного подхода: целостности, иерархии, связности и неаддитивности, что обеспечивает высокую точность определения категориальных морфологических признаков слова.

• Для оценки работы алгоритмов анализа используется совокупность трёх параметров: схожесть, точность и полнота. Схожесть учитывает соотношение количества верно определённых словоформ, ложноположительных и ложноотрицательных результатов. Точность зависит от количества верно определённых словоформ и ложноположительных результатов, а полнота - от количества верно определённых словоформ и ложноотрицательных результатов.

• Математический подход обеспечивает формализацию лингвистических знаний, позволяя дать количественную оценку различных явлений. Теория нечётких множеств в сочетании с вероятностным методом предоставляет математический аппарат для согласования информации о неизвестном слове, полученной из разных источников.

• Многофакторный алгоритм определения частеречной принадлежности слова и категориальных морфологических признаков существительного, состоящий из трёх подалгоритмов, соответствует требованиям, предъявляемым к современным системам автоматического

морфологического анализа.

• Универсальный способ оценки теоретической точности метода аналогий по обратному словарю словоформ позволяет количественно определить применимость метода аналогий для любого синтетического языка.

• Применение нечётких множеств позволяет сгладить противоречие между размытой, континуальной системой языка и детерминированным автоматическим анализом.

Апробация работы. Основные положения и результаты работы обсуждались на конференциях различного уровня: Всероссийской научно-практической конференции «Региональные проблемы информатизации образования» (Пермь, 1999), научно-практической конференции «Лингвистические чтения - 2008. Цикл 4» (Пермь, 2008), международной научно-практической конференции «Синергетическая лингвистика уэ. лингвистическая синергетика» (Пермь, 2010), международной научной конференции «Корпусная лингвистика-2011» (Санкт-Петербург, 2011).

Структура и объём работы. Предлагаемая вниманию диссертационная работа состоит из введения, трех глав, заключения, списка литературы и приложений. Работа иллюстрирована 20 таблицами и 6 рисунками. Основной текст диссертации изложен на 132 страницах. Общий объем диссертации составляет 152 страницы.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во Введении обосновывается выбор темы, её актуальность, определяются объект и предмет исследования, формулируются цель, задачи, определяется методологическая и теоретическая база, выдвигается гипотеза, раскрывается новизна работы, её теоретическая и практическая значимость, излагаются основные положения, выносимые на защиту.

В первой главе «Проблемы автоматизации морфологического анализа существительного русского языка» рассматриваются принципы системно-

комплексного подхода, определяются теоретические основы системно-комплексного метода анализа русского слова, характеризуется значимость лингвистических автоматов и морфологических анализаторов в развитии компьютерной лингвистики.

Раздел 1.1. «Принципы системно-комплексного подхода» обосновывает разработку системно-комплексного метода анализа русских слов на основе принципов системно-комплексного подхода: целостности, иерархии, связности и неаддитивности, при этом проблема рассматривается с точек зрения лингвистики, информатики и математики. В основу системно-комплексного метода положены системный, структурный и математический методы. В рамках системно-комплексного метода проводится изучение категориальных морфологических признаков русского существительного, определяется закономерность реализации данных признаков в корпусе, а также выявляется системность в формировании парадигматических и синтагматических связей с позиций применяемой теории нечётких множеств. Применение данного метода позволило исследовать своеобразие свойств отдельных лексем имени существительного как класса и описать общие механизмы системности формирования парадигматических и синтагматических связей существительного в целом.

Раздел 1.2. «Принципы алгоритмизации автоматического анализа естественного языка» посвящён решению проблемы противоречия, связанного с особенностями естественных языков в их противопоставлении свойствам детерминированных вычислительных машин. Естественный язык - открытая знаковая система, характеризующаяся высоким уровнем многозначности и нечёткостью, а компьютер - это детерминированная вычислительная машина, предназначенная для работы с точными данньми, что и приводит к противоречию и определяет особенности алгоритмов для работы с естественными языками. Обосновывается, что из трёх возможных вариантов решения указанного противоречия: 1) снятие неопределённости на этапе морфологического анализа, 2) вероятностный подход, 3) подход, основанный на

нечётких множествах, следует выбрать комбинацию третьего и второго вариантов, которая позволяет построить наиболее адекватную модель естественного языка.

В разделе 1.3. «Нечёткие множества» аргументируется применимость теории нечётких множеств в лингвистике: примеры нечётких множеств и операций над ними даются на материале обозначений оттенков основных холодных цветов и психолингвистического эксперимента, проведённого Р.Г Пиотровским. Нечёткие множества позволяют моделировать широкий круг явлений: омонимию, размытость семантического поля и т.д. и, как следствие, построить более точную модель естественного языка.

Раздел 1.4. «Морфологические признаки существительного как нечёткие множества с позиций системно-комплексного подхода» посвящен рассмотрению грамматических категорий существительного русского языка, определению граммемного состава каждой категории.

В разработанной системе морфологического анализа выделены традиционные грамматические категории для имени существительного: род, число, падеж, одушевлённость/неодушевлённость. Род представлен тремя граммемами: мужской, женский и средний род; число - двумя: единственное и множественное число; падеж - шестью: именительный, родительный, дательный, винительный, творительный, предложный, а одушевлённость/неодушевлённость - двумя.

На основе теории нечётких множеств определён способ описания морфологических признаков словоформы, в том числе - омоформ, относящихся к одной или разным лексемам. Установлено, что ни одна из парадиш склонения имени существительного не состоит из максимально возможного количества разных словоформ. При установлении типа склонения определяющая роль принадлежит всей системе флексий, то есть парадигмам единственного и множественного числа в целом; дополнительным средством различения падежных форм могут служить чередования в основах существительных.

В разделе 1.5. «Лингвистический автомат» рассматриваются разные

точки зрения на природу лингвистического автомата (Н.В. Бабушкина, JI.H. Беляева, М.А. Короткова, A.A. Худяков, Л.Л. Нелюбин, Р.Г. Пиотровский, K.P. Пиотровская), способы взаимодействия лингвистических автоматов и приводятся примеры лингвистических автоматов.

В реферируемой работе под лингвистическим автоматом понимается прикладная программа (а также алгоритмы, положенные в её основу) выполняющая синтез и/или преобразование объектов естественного языка. К лингвистическому автомату также выдвигаются требования о нетривиальности и совместимости.

Раздел 1.6. «Проблемы автоматизации морфологического анализа»

освещает проблемы лексической омонимии и омонимии окончаний, точности определения морфологических признаков неизвестных слов, проблему ресурсоёмкости алгоритмов, а также использования словарей в автоматическом морфологическом анализе.

Среди множества видов омонимов в сферу изучения попадает достаточно узкое их подмножество, а именно: частичные омографы (омоформы как их разновидность), куда включаются все существительные, не совпадающие хотя бы в одной форме, независимо от других условий. Например, любовь (неод.) -Любовь (од.), кол (оценка) - кол (заострённая палка).

Для расчёта точности определения морфологических свойств неизвестных слов используется метод бинарной классификации. В качестве главного критерия выбран коэффициент схожести Жаккара, в качестве дополнительных - точность и полнота. Например, пусть существует два морфологических анализатора, определяющих характеристики графемы монитор. Первый даёт оба правильных сочетания - муж., ед., им., неод. и муж., ед., вин., неод., а второй - муж., ед., им., неод. и жен., мн., род., неод. В этом

случае схожесть для каждого из анализаторов вычисляется как: Jaccard' = = 1500

2+0+0 1 + 1 + 1

Jaccard2 — . , , . , = 0,33

В реферируемой работе обосновывается, что выбранный критерий адекватно отражает отношение качества работы двух анализаторов.

Важную роль в системах автоматического анализа текстов играет специальный машинный словарь (распознавание лексических единиц на уровне ввода, морфологический анализ, моделирования элементов понимания и мышления и т.д.). Для автоматического морфологического анализа в реферируемой работе обосновывается применение специального типа словарей - обратного словаря, активно использующегося в настоящее время для определения морфологических признаков неизвестных слов. В таких словарях объединяются слова, относящиеся к одному словообразовательному или словоизменительному типу, а также сложные слова с одинаковой последней составляющей. В реферируемой работе для порождения начальных гипотез морфологических признаков неизвестного слова разработан оригинальный обратный морфологический словарь на основе словаря A.A. Зализняка. Неизвестные ранее слова, морфологические признаки которых были определены с высокой вероятностью, т.е. можно считать их достоверными, заносятся в обратный морфологический словарь после одобрения человеком-экспертом.

Во второй главе «Современные методы идентификации морфологических признаков слов» рассматриваются существующие алгоритмы морфологического анализа, производится их анализ и сравнение между собой, предлагается оригинальный способ классификации таких алгоритмов, а также дается оценка существующих программ морфологического анализа.

В разделе 2.1. «Обзор современных методов определения морфологических признаков слов» изучаются и классифицируются современные методы определения морфологических признаков слов. В реферируемой диссертации существующие методы морфологического анализа подразделяются на 4 класса: а) анализ словоформ, б) морфемный анализ, в) анализ без словаря лексем и г) комбинированные методы анализа.

Раздел 2.2. «Алгоритмы морфологического анализа неизвестных

слов» представляет собой анализ возможных путей реализации автоматического морфологического анализа неизвестных слов. Большинство современных программ использует комбинированные методы анализа, в качестве основного выступают либо анализ со словарём основ, либо метод аналогий. Среди недостатков рассмотренных алгоритмов можно указать стремление свести все словоформы лексемы к единственной парадигме, что приводит к игнорированию омонимии и, в ряде случаев, отказу от правильного анализа в пользу ошибочного. Так, например, для словоформы биоэнергетика модулем АОТ был предложен только вариант лексемы неодушевлённого женского рода, а вариант одушевлённого мужского рода (ед. род. от биоэнергетик) был отброшен.

Раздел 2.3. «Решение задачи определения свойств неизвестных слов в существующих системах автоматического морфологического анализа»

посвящен описанию и экспериментальной оценке программ автоматического морфологического анализа (далее - парсер) русского языка.

Из существующих на сегодняшний день парсеров большинство работает на основе словаря A.A. Зализняка, но далеко не все программы работают с неизвестными словами. В эксперименте оценивались парсеры АОТ, Mystem и Polymorph/Полгшорф. В качестве экспериментального материала были отобраны 50 словоформ, не входящих в словарь A.A. Зализняка. Для определения точности анализа все словоформы анализировались всеми парсерами, а схожесть и полнота анализа оценивались человеком-экспертом. В ходе эксперимента было установлено, что для парсера Mystem AI словоформ оказались словоформами неизвестных слов, т.е. не присутствовали в его словаре, для парсера АОТ неизвестными оказались лишь 22 словоформы, а для парсера Полиморф - 29. Затем для каждого парсера вычислялись схожесть и полнота анализа неизвестных слов, отражённые в таблице 1.

Таблица 1

Схожесть и полнота автоматического морфологического анализа неизвестных слов тремя анализаторами

Парс ер Схожесть, % Полнота, %

АОТ 19,87 60,00

Mystem 26,69 69,23

Полиморф 18,87 66,37

Таблица 1 наглядно отражает тот факт, что проблему морфологического анализа неизвестных слов до сих пор нельзя считать решённой.

В разделе 2.4. «Выбор метода анализа отдельных слов» аргументируется выбор метода аналогий в качестве исходного метода анализа неизвестных слов с опорой на следующие критерии: качество анализа неизвестных слов, простота реализации, скорость работы анализатора при определении признаков известных слов. Поскольку ни один из доступных и проверенных методов анализа не дал результата, который бы отвечал современньм требованиям (раздел 2.3.), в реферируемой работе принято решение реализовать в минимальном объёме метод аналогий. Для построения обратного словаря словоформ использовался словарь A.A. Зализняка. По полученному словарю в полуавтоматическом режиме были проанализированы пятьдесят словоформ, те же, которые использовались для оценки качества других анализаторов. В результате (см. Таблицу 2) были получены следующие результаты для двух вариантов анализа - без определения одушевлённости/неодушевлённости и с её определением.

Таблгща 2

Схожесть и полнота морфологического анализа на основе метода аналогий

Вариант Схожесть, % Полнота, %

С одушевлённостью/неодушевлённостью Без одушевлённости/неодушевлённости 48,98 80,77

60,67 87,50

Таблица 2 демонстрирует, что качество анализа с помощью метода

аналогий выше, чем у всех проверенных ранее. Простота реализации не вызывает сомнений. Выше оказывается и скорость работы данного анализатора.

В разделе 2.5. «Алгоритм морфологического анализа методом аналогий и теоретическая оценка его точности» подробно освещается метод аналогий и дается теоретическая оценка его точности.

Метод аналогий базируется на следующем наблюдении: если в обратном словаре словоформ приписать каждой словоформе её грамматические признаки (например, признаки части речи, типа словоизменения, рода, числа, падежа, лица и др.), то обнаружится, что многие участки словаря (иногда довольно значительного размера) имеют совершенно одинаковые наборы признаков. Поэтому можно предположить, что если для неизвестного слова найти его место в обратном словаре, то его грамматические признаки будут с высокой вероятностью совпадать с признаками слов, находящихся рядом.

Метод аналогий дает наиболее высокие результаты при анализе неизвестных слов, однако, в случае определения всех морфологических признаков слова метод не может быть использован как самостоятельный. Поэтому для разработки алгоритма метод аналогий, выбранный в качестве исходного, дополняется другими методами.

В третьей главе «Многофакторный алгоритм морфологического анализа и его экспериментальная проверка» описывается разработанный алгоритм, оценивается его качество для текстов разных функциональных стилей с использованием определённых критериев оценки.

В разделе 3.1. «Общий ход анализа» даётся подробное описание шагов алгоритма - их последовательность, взаимосвязь и пример применения.

Анализ начинается с выполнения подалгоритма анализа отдельного слова. Если слово есть в словаре, то ему приписываются морфологические признаки из словаря и на этом анализ заканчивается. Если же слово отсутствует в словаре, то подалгоритм анализа отдельных слов выдаёт следующую информацию: предположительную каноническую форму (или несколько форм) и морфологическую информацию для каждой канонической формы,

сопровождающуюся оценкой вероятности. Сочетание варианта канонической формы со всеми морфологическими признаками, относящимися к одной словоформе, и оценкой вероятности названо вероятной словоформой. Приводится пример анализа для словоформы гештальта (сущ. муж. неод. ед. род. от гешталът). Результат анализа методом аналогий: гештальт, сущ. муж. неод. ед. род., 0,83 гештальта, сущ. жен. неод. ед. им., 0,48 гештальт, сущ. муж. од. ед. род., 0,23 гештальт, сущ. муж. од. ед. вин., 0,23 гештальтый, прил. кратк. полож. жен. ед., 0,17. В каждой строке записаны предположительные характеристики вероятной словоформы: автоматически порождённая начальная форма, частеречная принадлежность, категориальные морфологические признаки и оценка вероятности.

Парадигматический анализ ведётся следующим образом: все вероятные словоформы группируются по канонической форме и номинативным признакам, т.е. в одну группу попадают только те вероятные словоформы, у которых полностью совпадают и каноническая форма, и номинативные морфологические признаки. Пусть в корпусе текстов было найдено три формы: гештальт, гештальта, гештальтом. После группировки получен следующий список групп:

гештальт, сущ. муж. неод. - 5 словоформ гештальта, сущ. жен. неод. - 3 словоформы гештальт, сущ. муж. од. - 4 словоформы гештальт, прил. полож. - 4 словоформы. Наибольший прирост вероятности отмечен для форм неодушевлённого существительного мужского рода.

Синтагматический анализ заключается в определении контекста для каждой вероятной словоформы и поиск потенциальных согласований. В качестве контекста используется участок текста от любого знака препинания до

следующего, внутрь которого попала анализируемая словоформа. Если внутри выделенного отрезка есть слова, которые могут согласовываться с неизвестным существительным, то для вероятной словоформы, согласованной с этим словом, увеличивается вероятность. Если в контексте есть несколько согласованных слов, то учитывается ближайшее.

В результате выполнения всех трёх подалгоритмов получено следующее нечёткое множество для словоформы гегиталътсг. гештальт, сущ. муж. неод. ед. род., 0,99 гештальта, сущ. жен. неод. ед. им., 0,51 гештальт, сущ. муж. од. ед. род., 0,45 гештальт, сущ. муж. од. ед. вин., 0,45 гештальтый, прил. кратк. пол. жен. ед., 0,17.

Таким образом, алгоритм в качестве наиболее вероятного варианта выдаст первый (гештальт, сущ. муж. неод. ед. род., 0,99).

Раздел 3.2. «Формирование корпусов текстов, использованных в эксперименте» описывает критерии отбора текстов для проведения эксперимента, состав пяти разных корпусов и статистические данные для каждого из них - количество уникальных словоформ, в том числе - количество словоформ, входящих в словарь метода. Всего было отобрано пять корпусов.

В первый корпус вошла переводная художественная литература, а именно произведения Эмиля Золя. Всего в корпусе встретилось 149 284 разных словоформ, из которых 105 870 входят в словарь Зализняка (70,9%).

Во второй корпус вошли фантастические произведения А. и Б. Стругацких. Всего в корпусе 53 885 разных словоформ, из них 39 465 вошли в словарь A.A. Зализняка (73,2%).

Третий корпус составлен из произведений Л.Н. Толстого. Всего в корпусе 63 245 разных словоформ, из них 44 755 - содержатся в словаре A.A. Зализняка (70,8%).

Четвёртый корпус состоит из юридической литературы. В корпус входит 27 485 разных словоформ. Из них известных - 17 739 (64,5%).

В пятый корпус вошли работы по лингвистике - диссертации, статьи и монография1. Всего разных словоформ - 35 607, из них известных - 22 914 (64,4%).

В разделе 3.3. «Оптимизация метода аналогий» описаны изменения, внесённые в оригинальный метод аналогий, повышающие скорость работы алгоритма, который базируется на методе аналогий, и упрощающие добавление новых словоформ в словарь. Обратный словарь словоформ объединяется со словарём служебных и коротких слов, в него вносится дополнительная информация о служебности. Доступ к элементам словаря организуется в виде дерева. При анализе неизвестного слова учитываются 10 ближайших слов в обратном словаре. В реферируемой работе приводятся данные, что предложенные изменения упрощают добавление новой информации в словарь, снижают время поиска в шесть раз и повышают точность анализа.

Раздел 3.4. «Использующиеся структуры данных» даёт подробное описание структур данных, использующихся в основном алгоритме анализа. Главный недостаток структур данных, предлагаемых в известных методах -наличие нескольких (как минимум, двух) словарей, в которых производится поиск информации. В реферируемой работе аргументируется использование корневого ориентированного дерева, построенного по обратному словарю, т.е. структуры, требующей несколько больший объём памяти, но гарантирующей оптимальную производительность и аналогичную с оригинальным методом аналогий точность.

В разделе 3.5. «Подалгоритм определения морфологических признаков отдельного слова» описывается основной подалгоритм метода, доказывается, что оценка сложности не превышает О (п), где п - длина анализируемой словоформы. Неформальное описание работы подалгоритма следующее. По заданной графической форме алгоритм ищет в обратном словаре запись, ей соответствующую. Если запись найдена, подалгоритм выдаёт морфологические признаки, ассоциированные с ней, и завершает работу. Если

1 Все авторы дали личное разрешение на использование материалов в исследовании.

словоформа не найдена в словаре, то подалшритм находит место, в которое должна быть вставлена данная словоформа. Затем подалгоритм находит пять ближайших предыдущих и пять последующих записей, не имеющих отметки о том, что слово является служебным, и сводит информацию о морфологических признаках из найденных десяти записей в одно нечёткое множество. Чем дальше запись от предполагаемого места вставки новой словоформы, тем меньший вклад она вносит в результирующее множество.

В разделе 3.6. «Подалгоритм парадигматического анализа словоформ неизвестной лексемы» приводится описание подалгоритма парадигматического анализа. При анализе корпуса текстов появляется возможность использовать дополнительные факторы определения морфологических признаков. Для того, чтобы такой анализ был возможен, требуется для каждой словоформы определить не только её морфологические признаки, но и начальную форму. Для этого в обратный словарь словоформ добавлена информация об образовании канонической формы слова. Если словоформа соответствует более, чем одной канонической форме, то такая информация приведена для каждой из них. Каждая словоформа, встретившаяся в тексте, ограничивает множество возможных парадигм, к которым может относиться неизвестное слово, что повышает точность анализа.

Раздел 3.7. «Подалгоритм синтагматического анализа» описывает подалгоритм уточнения морфологических признаков словоформы по её ближайшему окружению. Подалгоритм основан на том факте, что существительное русского языка согласуется с прилагательным или вступает в координацию с глаголом в паре «подлежащее - сказуемое», или другими изменяемыми частями речи, выступающими в схожей синтаксической роли. При уточнении морфологических характеристик учитываются только ближайшие согласованные слова слева и справа при условии, что они не отделены знаками препинания. Предложенный метод позволяет с высокой степенью уверенности разрешить многие случаи омонимии имени

существительного в русском тексте.

В разделе 3.8. «Многофакторное определение морфологических свойств существительного по корпусу текстов» описываются факторы, влияющие на определение морфологических признаков неизвестного слова. Задача многофакторного анализа состоит, во-первых, в выборе одного алгоритма анализа для каждого фактора и, во-вторых, определении окончательного результата с учётом всех факторов.

Приведена принятая классификация алгоритмов анализа на основе уровней представления текстов.

1. Фактор графической формы - все алгоритмы, оперирующие одиночным словом.

2. Парадигматический фактор — алгоритмы, опирающиеся на поиск словоформ с одинаковыми каноническими формами в тексте или корпусе.

3. Синтагматический фактор - алгоритмы, анализирующие возможные связи неизвестного слова в предложении.

4. Семантический фактор - сюда отнесены все алгоритмы, опирающиеся на сведения о значении и смысле слов, выражений и более крупных элементов текста.

В реферируемой работе используются факторы с первого по третий.

Для проверки применён метод случайной выборки: среди всех неизвестных слов из корпуса произведений Л.Н. Толстого были выбраны 100 случайных словоформ, относящихся к разным словам. Для каждой из них были последовательно использованы три метода анализа. Точность определения всех морфологических признаков после применения каждого метода:

• Метод аналогий - 37%.

• Парадигматический анализ - 70%. » Синтагматический анализ - 96%.

Очевидно, что каждый шаг повышает точность определения морфологических свойств, превышая в конечном результате значение 95%, что

позволяет использовать алгоритм многофакторного определения морфологических свойств существительного по корпусу текстов в прикладных задачах.

В Заключении подводятся основные итоги исследования. В контексте автоматического морфологического анализа важно установить четкую иерархию классов и категорий. При установлении типа склонения определяющая роль принадлежит всей системе флексий. Определение одушевлённости основаны на знании, какие словоформы в таблице парадигмы занимают позиции множественного числа именительного, родительного и винительного падежей (в отдельных случаях это могут быть позиции единственного числа именительного, родительного и винительного падежей), Путем разработки метода согласования морфологической информации, извлекаемой из корпуса текстов на разных языковых уровнях, качество морфологического анализа неизвестных существительных значительно повышается. Предложенный метод имеет следующие преимущества: проведено разделение между факторами, влияющими на определение морфологических признаков; разработан метод согласования результатов работы подалгоритмов на основе нечётких множеств, позволяющий привести к общему виду информацию от произвольного количества источников; разработаны подалгоритмы для трёх факторов: анализ отдельных словоформ, парадигматический анализ и синтагматический анализ.

Реферируемая работа не исчерпывает всего содержания рассматриваемой проблемы. В качестве дальнейших направлений исследования можно отметить следующие: расширить описанный метод для определения морфологических признаков всех изменяемых слов русского языка, включить в метод алгоритм с таблицами аффиксов для разрешения омонимии в особо трудных случаях (недостаточное количество разных словоформ в корпусе), верифицировать алгоритм анализа на материале других синтетических языков.

По теме диссертационного исследования опубликованы следующие работы:

Публикации в изданиях, включённых в перечень ведущих рецензируемых научных журналов и изданий.

1. Гашков A.B. Оценка эффективности метода аналогий при автоматическом определении свойств неизвестных слов // Вестник Челябинского государственного университета. 2010. № 7. Филология. Искусствоведение. Вып. 41. С. 27 - 31

2. Гашков A.B. Математическое моделирование омонимии имени существительного в тексте и снятие омонимии приближенными методами (на материале русского языка) // Вестник СпбГУ. Сер. 9. Филология. Востоковедение. Журналистика. Вып. 1. 2012. С. 96 - 100.

Другие публикации.

3. Гашков A.B., Мухин О.И., Носков В.А., Шелемехов A.A. Образовательный процесс с применением технологии компьютерного проектирования и моделирования. Методика и реализация // Информатика в школе и вузе (из опыта работы учреждений образования Пермской области). - Пермь: ПРИЛИТ, 1999. С. 28-49

4. Гашков A.B. Автоматизированное рабочее место лингвиста // Лингвистические чтения - 2008. Цикл 4. Материалы научно-практической конференции. г. Пермь, 28 февраля 2008г- Пермь: ПСИ, 2008. С. 253 - 256

5. Гашков A.B. Моделирование многозначности как проблема автоматического анализа текстов // Синергетическая лингвистика vs. лингвистическая синергетика: Материалы I междунар. науч. конф., г. Пермь, 8-10 апр. 2010г. - Пермь: Издательство Перм. гос. тех. ун-та, 2010. С. 145-150

6. Гашков A.B., Ельцова М.Н. Метод уточнения морфологических признаков неизвестного существительного по корпусу текстов // Корпусная лингвистика - 2011. Труды междунар. науч. конф. г. Санкт-Петербург, 27-29 июня 2011г. СПб, 2011. С. 114-119.

Подписано в печать 16.04.2012. Формат 60x90/16. Усл. печ. л. 1,4. Тираж 100 экз. Заказ № 840/2012

Издательство Пермского национального исследовательского

политехнического университета 614990, г. Пермь, Комсомольский пр., 29, к.113 тел. (342)219-80-33

Текст диссертации на тему "Метод многофакторной идентификации морфологических признаков русского слова"

61 12-10/1048

ПЕРМСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

На правах рукописи

Специальность 10.02.21 - прикладная и математическая лингвистика

ДИССЕРТАЦИЯ на соискание ученой степени кандидата филологических наук

Научный руководитель: доктор филологических наук, профессор Н.Л. Мышкина

Пермь - 2012

Содержание

Введение..............................................................................................................................................4

ГЛАВА 1. Проблемы автоматизации морфологического анализа существительного русского языка..................................................................................................................................................12

1.1. Принципы системно-комплексного подхода......................................................................12

1.2. Принципы алгоритмизации автоматического анализа естественного языка..................18

1.2.1. Определение алгоритма................................................................................................18

1.2.2. Подходы к алгоритмизации при автоматическом анализе естественного языка....22

1.3. Нечёткие множества.............................................................................................................26

1.4. Морфологические признаки существительного как нечёткие множества с позиций системно-комплексного подхода................................................................................................28

1.4.1. Грамматические категории имени существительного в русском языке...................28

1.4.1.1. Категория рода.......................................... .............................................................32

1.4.1.2. Категория числа........................................... ...........................................................35

1.4.1.3. Категория падежа......................................... .........................................................39

1.4.1.4. Категория одушевленности.................................................................................42

1.4.2. Представление морфологических свойств неизвестных существительных с помощью нечётких множеств................................................................................................44

1.5. Лингвистический автомат....................................................................................................45

1.6. Проблемы автоматизации морфологического анализа......................................................50

1.6.1. Лексическая омонимия и омонимия окончаний.........................................................51

1.6.2. Точность определения морфологических признаков неизвестных слов.................53

1.6.3. Проблема ресурсоёмкости алгоритмов.......................................................................57

1.6.4. Использование словарей в автоматическом морфологическом анализе: их роль и требования к ним.....................................................................................................................58

Выводы..............................................................................................................................................63

ГЛАВА 2. Методы определения морфологических признаков слов................... .........................66

2.1. Обзор современных методов определения морфологических признаков слов..............66

2.2. Методы морфологического анализа неизвестных слов..................... ...............................74

2.3. Решение задачи определения свойств неизвестных слов в существующих системах автоматического морфологического анализа............................................................................77

2.4. Выбор метода анализа отдельных слов..............................................................................82

2.5. Алгоритм морфологического анализа методом аналогий и теоретическая оценка его точности........................................................................................................................................83

Выводы..............................................................................................................................................90

ГЛАВА 3. Многофакторный алгоритм морфологического анализа и его экспериментальная проверка.............................................................................................................................................92

3.1. Общий ход анализа...............................................................................................................92

3.2. Формирование корпусов текстов, использованных в эксперименте...............................95

3.3. Оптимизация метода аналогий............................................................................................99

3.4. Использующиеся структуры данных................................................................................101

3.5. Подалгоритм определения морфологических признаков отдельного слова.................104

3.6. Подалгоритм парадигматического анализа словоформ неизвестной лексемы.............110

3.7. Подалгоритм синтагматического анализа........................................................................123

3.8. Многофакторное определение морфологических свойств существительного по корпусу текстов..........................................................................................................................125

Выводы по главе 3..........................................................................................................................127

Заключение......................................................................................................................................129

Список литературы.........................................................................................................................133

Список иллюстративного материала............................................................................................150

Введение

Настоящее диссертационное исследование выполнено на стыке лингвистики, информатики и математики, в рамках прикладной и компьютерной лингвистики, посвящено проблеме идентификации морфологических признаков русского существительного при автоматическом морфологическом анализе по корпусу текстов.

Проблема использования вычислительных машин в интеллектуальной деятельности человека является одной из важнейших научных и прикладных проблем в последние десятилетия. Вычислительная мощность и количество компьютеров непрерывно увеличивается, возрастает их роль при решении практически любых задач; в том числе таких сложных, ранее относимых исключительно к сфере компетенции человека, как обработка текстов на естественном языке. Такая обработка не представляется возможной без определения морфологических характеристик входящих в текст и составляющих его слов. Морфологический анализ входит в любой алгоритм обработки текста как основной или вспомогательный метод [Марчук, 2007; Мельчук, 1964; Сокирко, 2001; Beesley, Karttunen, 2003; Brinkmann, 1999; Helwig, 2002; Koskenniemi, 1983 и др.]. Одним из требований, выдвигаемых Ю.Н. Марчуком к современному алгоритму автоматического морфологического анализа, является то, что неизвестные слова (т.е. слова, отсутствующие в словаре автоматической системы) должны обрабатываться наряду с известными, а вероятность их правильного определения должна составлять не менее 90-95% [Марчук, 2007: 67-68]. Проблема автоматического анализа известных слов может считаться практически решённой [Марчук, 2007: 62], однако до сих пор нерешённой является проблема анализа неизвестных слов, поскольку существующие анализаторы не удовлетворяют вышеназванному критерию. Поэтому актуальной является разработка алгоритма

морфологического анализа неизвестных слов. Вместе с тем существует неустранимая проблема, порожденная непрерывным изменением языка, с одной стороны, и описательным характером морфологии, с другой. Поскольку остановить появление неологизмов и окказионализмов в языке невозможно, то при автоматическом анализе текста появляется проблема вписывания новых слов в кодифицированную систему языка. Исходя из вышесказанного, актуальность настоящего исследования обусловлена, с одной стороны, непрерывным появлением новых слов в языке, которые необходимо отражать в системах автоматической обработки текстов, с другой стороны -несовершенством современных систем автоматического анализа неизвестных слов.

Исходя из гипотезы и основной цели были поставлены следующие конкретные задачи.

• Создать алгоритм многофакторного определения частеречной принадлежности слова и категориальных морфологических признаков существительного.

• На основе разработанного метода оценки точности морфологического анализа определить эффективность предложенного алгоритма. Научная новизна нашего исследования заключается в том, что:

2) выделены факторы определения частеречной принадлежности слова и категориальных морфологических признаков существительного: фактор графической формы, парадигматический, синтагматический и семантический факторы;

5) разработана и апробирована (на материале русского языка) методика определения качества анализа на основе бинарной классификации;

Материалом для проверки работы разрабатываемого алгоритма

_ о

послужили 5 корпусов текстов делового, научного и художественного стилеи общим объемом 4 499 269 словоупотреблений. Под корпусом текстов, вслед за H.H. Белозёровой, В.П. Захаровым, В.А. Плунгяном, Т. McEnery, W. Wilson и другими, мы понимаем собрание размеченных текстов в электронном виде, предназначенное для решения различных лингвистических задач.

решения вопроса, связанного с актуальной проблемой идентификации категориальных морфологических признаков неизвестных слов, во-вторых, в теорию алгоритмов благодаря методике определения качества морфологического анализа и универсальному способу оценки метода аналогий; успешный опыт применения теории нечётких множеств в сочетании с вероятностным методом может способствовать дальнейшему использованию данного метода в лингвистике.

A. Wilson), системно-комплексному подходу (A.M. Аматов, Л.И. Антропова,

B.А. Карпов, Н.Л. Мышкина, C.B. Шустова), различным аспектам математики (С.А. Айвазян, Н.Д. Андреев, И.З. Батыршин, Н.К. Верещагин, А.И. Кибзун, А. Кофман, Д. Кук, Г.Э. Яхъяева, D. Powers, С.Т. Shannon, L.A. Zadeh и др.) и теории алгоритмов (Ф.Л. Бауэр, Г. Гооз, Д. Кнут, А.Н. Колмогоров, Т.Х. Кормен).

В зависимости от поставленных задач используются следующие методы: метод анализа и наблюдения, экспериментальный метод, метод моделирования, метод алгоритмизации, метод дистрибутивного анализа, метод интерпретации, метод бинарной классификации, методы парадигматического и синтагматического анализа. Кроме того, применяются методы представления данных в виде нечётких множеств и вероятностный подход. Положения, выносимые на защиту.

Апробация работы. Основные положения и результаты работы обсуждались на конференциях различного уровня: Всероссийской научно-практической конференции «Региональные проблемы информатизации образования» (Пермь, 1999), научно-практической конференции «Лингвистические чтения - 2008. Цикл 4» (Пермь, 2008), международной научно-практической конференции «Синергетическая лингвистика уз. лингвистическая синергетика» (Пермь, 2010), международной научной конференции «Корпусная лингвистика-2011» (Санкт-Петербург, 2011).

Структура и объём работы. Диссертационная работа состоит из введения, трех глав, заключения, списка литературы и списка иллюстративного материала. �

Полный текст автореферата диссертации по теме "Метод многофакторной идентификации морфологических признаков русского слова"

Текст диссертации на тему "Метод многофакторной идентификации морфологических признаков русского слова"

Похожие темы диссертаций