автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах
Полный текст автореферата диссертации по теме "Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах"
¿а
На правах рукописи
НИКОЛАЕВА Ирина Викторовна
АВТОМАТИЗАЦИЯ АНАЛИЗА МАССИВОВ ТЕКСТОВЫХ ДОКУМЕНТОВ В ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ
СРЕДАХ
Специальность 10 02 21 - Прикладная и математическая лингвистика
Автореферат диссертации на соискание ученой степени кандидата филологических наук
□ОЗ1Б44Б4
Москва 2008
003164464
Работа выполнена на кафедре прикладной и экспериментальной лингвистики Государственного образовательного учреждения высшего профессионального образования «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ»
Научный руководитель: доктор филологических наук,
профессор, академик МАИ Родмонга Кондратьевна Потапова
Официальные оппоненты: доктор филологических наук, профессор
Максименко Ольга Ивановна
кандидат филологических наук, доцент Кедрова Галина Евгеньевна
Ведущая организация: Московский Технический
Университет Связи и Информатики
Защита диссертации состоится «jL<xjywia 2008 г в асов на
35 02 при ]
заседании диссертационного совета Д 212 135 02 при ГОУ ВПО «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ» по адресу 119034, Москва, ГСП-2, ул Остоженка, 38
С диссертацией можно ознакомиться в диссертационном читальном зале библиотеки ГОУ ВПО «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ»
Автореферат разослан «11»_ 2008 г
Ученый секретарь
диссертационного совета В С Страхова
В настоящее время исследование тематической структуры текста приобрело особое практическое значение, поскольку совершенствование механизмов автоматического определения основной темы и подтем документа могло бы существенно улучшить эффективность информационного поиска в информационных системах В течение нескольких последних десятилетий этой теме было посвящено большое число работ [Е Black, G Demetriou, М A Hearst, J J Hopfield, D Jurafsky, J S Justeson, S M Katz, A Kilgarriff, J Kupiec, С Manning, D Pearce, J Pedersen, H Schutze , P Tapanaraen, L Van Guilder, D Yarowsky, H Д Арутюнова, Б В Добров, А Е Ермаков, Р М Жаркой, А А Зализняк, А А Кибрик, Т Ю Кобзарева, Б П Кобрицов, Н В Крапухина, Д М Кузнецов, Н Н Леонтьева, Н В Лукашевич, О И Максименко, Дж Фон Нейман, Л В Орлова, Е В Падучева, Р Г Пиотровский, В В Плешко, Д А Поспелов, Р К Потапова, Э Хант, А А Харламов, Д В Чистов, Д Н Шмелев, Д Е Шуклин и др ]
Автоматизированный анализ естественно-языковых текстов является важной задачей, сориентированной на обработку больших объемов информации Значительная часть всей доступной на сегодняшний день информации существует в виде неструктурированных текстов Книги, журнальные статьи, научно-исследовательские работы, руководства по эксплуатации товаров, меморандумы, электронные письма и, конечно, всемирная сеть содержат естественно-языковую текстовую информацию Результаты анализа массивов текстов связаны с процессом информирования и принятия правильных практических решений
Процедура автоматизированной обработки текстовой информации обеспечит новый эффективный механизм как навигации, автоматического создания рефератов документов, группировки и классификации, сравнения текстов, так и поиска информации
Данное диссертационное исследование посвящено проблемам разработки лингвистического и алгоритмического обеспечения, служащего для создания современной системы извлечения ключевой содержательной информации посредством применения широкого класса математических и лингвистических
методов логико-аналитической обработки больших массивов естественноязыковых текстов
Актуальность данного исследования обусловлена необходимостью решения задачи разработки алгоритмов для проведения достоверного автоматического анализа постоянно увеличивающегося объема информации, порождаемого в рамках информационно-коммуникационных сред Наличие вышеуказанной необходимости объясняется тем, что в последние годы быстрый рост индустрии информационно-поисковых систем, стимулированный расширением сферы Интернета, сосуществует с фактором относительно слабой развитости автоматизированных средств анализа естественно языковой информации, что связано с недостаточной степенью разработки соответствующего лингвистического обеспечения
Научная новизна диссертации заключается в том, что
впервые разработана обобщенная схема обработки массива публицистических текстов на естественном языке для подъязыка СМИ,
- впервые выявлены тенденции с учетом соответствия результатов обработки естественно-языкового текста, выполненной компьютером и человеком,
- впервые предложена модель текста как композиция формальных моделей ее компонентов, в основе которой лежит интеграция статистических и формальных лингвистических методов,
- впервые разработан алгоритм извлечения элементов смысла из массива текстов ограниченной тематики, включающий блок первичной семантической обработки, блок индексации и ранжирования понятий, блок установления связей, блок выявления тематического узла, блок установления попарной встречаемости, блок построения семантической сети, блок синтеза информации из сети
Рабочей гипотезой исследования является предположение о том, что попытка автоматически проанализировать значительный объем информации, порождаемый в пределах информационно-коммуникационных сред, возможно сделает ненужными большинство классических операций обработки и подготовки текстовой информации
Основная цель диссертации заключалась в разработке механизма построения информационного портрета [по А Е Ермакову] массива документов на основе элементов смысла Данная цель обусловила необходимость решения следующих задач:
- проведение анализа существующих систем автоматической обработки текстовой информации,
- разработка поэтапного алгоритма автоматического анализа массива документов,
- создание модели извлечения смысла посредством автоматического анализа и синтеза информационного корпуса,
- нахождение характеристик механизма построения семантической сети,
- построение модели синтеза строк, представляющих в унифицированном виде все элементарные отношения между ключевыми словами и словосочетаниями в тексте
Основными методами исследования явились метод сплошной выборки, метод эксперимента, метод статистического анализа
В качестве экспериментального материала диссертационного исследования был использован корпус газетных текстов на русском и английском языках, функционирующих в рамках компьютерных сетей
Достоверность полученных результатов и обоснованность выводов обеспечивается репрезентативной выборкой использованного в ходе исследования материала и достаточным количеством испытуемых (3483 проанализированные лексические единицы, п = 37)
Объектом исследования является процесс автоматического анализа массивов документов
Предметом исследования является разработка алгоритма автоматического анализа информационного массива ограниченной предметной области (международные отношения Россия - США)
Положения, выносимые на защиту:
- Комбинация лингвистических, статистических и математических методов приводит к оптимизации автоматической обработки естественно-языкового текста
- Реальным является создание модулей анализа и представления текстовой информации на естественном языке, применяемых для автоматической генерации модели изучаемого текста, синтеза текстовой информации по полученной модели, различных видов реферирования текстов, автоматизации перевода текстов
Теоретическая значимость диссертации заключается в том, что полученные результаты являются вкладом в теорию автоматического анализа текстовой информации, в теорию алгоритмизации автоматического анализа текстовых документов, а также в теорию автоматизированных систем в целом
Практическая ценность диссертации заключается в следующем полученные экспериментальные данные о различиях между результатами обработки текста, выполненной компьютером и человеком, проведение формального описания естественного языка на каждом языковом уровне, разработанный оригинальный анализатор для автоматической обработки текстовой информации в прикладных системах, а также результаты работы над алгоритмом автоматической обработки естественного языка могут быть использованы при разработке различных приложений систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной и математической лингвистике
Основные результаты работы были апробированы на различных конференциях 10-й Международной конференции SPECOM'2005 ('Речь и компьютер') (Патры, Греция, 17-19 октября 2005 г), 11-й Международной конференции SPECOM'2006 ('Речь и компьютер') (Санкт-Петербург, 25-29 июня 2006 г), 9-й Международной конференции Cognitive modeling in linguistics ('Когнитивное моделирование в лингвистике') (София, Болгария, 28 июля - 3 августа 2007) 12-й Международной конференции SPECOM'2007 ('Речь и компьютер') (Москва, 15-19 октября 2007 г )
Цели и задачи исследования обусловили структуру диссертации, которая состоит из введения, трех глав, заключения и списка литературы
Основное содержание работы
Во введении обосновывается актуальность исследования, определяются объект, предмет, гипотеза, цель, задачи и материал исследования, перечисляются методы исследования, раскрывается его научная новизна, теоретическая и практическая значимость, предлагаются рекомендации об использовании его результатов, формулируются положения, выносимые на защиту
В первой главе «Существующие алгоритмы обработки естественного языка» рассматриваются задачи автоматической обработки текстов, на решение которых нацелены современные программные продукты, описываются особенности следующих алгоритмов обработки естественного языка с учетом прикладных задач
1 Анализ тональности текста Технология анализа тональности текста [С Л Киселев, А Е Ермаков, В В Плешко] позволяет распознать позитивное или негативное отношение автора текста к описываемому объекту или же выявить те составляющие образа объекта в тексте, которые призваны сформировать у читателя определенную окраску объекта по признаку "позитив/негатив" Следует отметить, что с высокой достоверностью удается выделить только негатив, тогда как подавляющая часть позитива оказывается скрытым негативом, иронией, или же перечеркивается рядом стоящим негативом
2 Референция обозначений персон и организаций Данная технология [Н Д Арутюнова, Е В Падучева, М В Лебедев, А 3 Черняк, А А Кибрик, Т Ю Кобзарева, А Е Ермаков, В В Плешко] включает в себя, во-первых, распознавание и разбор наименований объектов с выделением всех элементов наименования для последующего отождествления наименований и приведения их к заданному каноническому виду, и во-вторых, отождествление различных вариантов наименования одного и того же объекта в тексте, в том числе косвенных обозначений
3 Поиск и классификация фактов Технология фактографического поиска [В А Митюнин] предполагает настройку шаблонов для поиска и классификации фактов самых различных типов Такие шаблоны создаются либо при помощи специальной программы-настройщика, которая позволяет строить шаблоны на основе типовых примеров, либо через настройку уже существующих стандартных шаблонов путем подключения требуемых словарей
4 Эксплицирование элементов смысла Этот метод [Г В Липинский, В В Плешко, А Е Ермаков] основан на использовании синтаксического анализатора с последующим преобразованием семантической сети во множество строк, которые представляют в унифицированном виде все элементарные отношения между сущностями в тексте
Отдельное внимание уделяется использованию нейросетевой технологии, статистических методов, ассоциативных семантических сетей Дается сравнительная оценка эффективности существующих программных продуктов для автоматического реферирования
Основная цель нейросетевого подхода [D Landau, R Feldman, Y Aumann, M Fresko, Y Lindeil, О Lipshtat, О Zamir, J J Hopfield, А А Харламов, P M Жаркой, В И Волков, Г Н Мацаков, Д М Кузнецов] - сформировать словарь слов и выявить связи между ними, поэтому на первом шаге формируется словарь слов Но на втором шаге, вместо формирования последовательности аббревиатур путем фильтрации слов словаря, сформированного на первом уровне, анализируется попарная встречаемость слов в предложениях Таким образом, выявляются связи между словами Полученная информация представляет собой частотный портрет текста, который может быть визуализирован в виде сети слов словаря и их связей Семантическая сеть [И А Мельчук, А А Харламов, JIВ Орлова] представляет множество понятий текста - слов и словосочетаний, ассоциативно связанных между собой В качестве критерия связности используется частота совместной встречаемости ключевых слов и словосочетаний в предложениях текста
В результате анализа вышеперечисленных алгоритмов и технологий был сделан вывод, о том, что для достижения приемлемого качества решения практических задач не требуется полный грамматический анализ фразы Достаточно выделить наиболее информативные единицы текста - ключевые слова, словосочетания, предложения и фрагменты, причем в качестве критерия информативности выступает частота повторения этих единиц в тексте
Такой подход подтверждается также нейропсихологическими исследованиями, в которых установлено, что анализ текста человеком опирается преимущественно на зрительное пространственно-предметное восприятие и реализуется правым полушарием мозга, представляющим ассоциативную семантико-статистическую модель мира [Т Б Глезерман, Н Н Брагина, Т А Доброхотова] Глубинная семантика сообщения изначально определяется структурой правополушарной модели и отражается в коммуникативном строении текста как иерархии тем и рем с соответствующей им совокупностью сверхфразовых единств [Т В Ахутина]
На основе этой точки зрения появился подход, в основе которого лежит представление смысла текста в форме ассоциативной семантической сети [А А Харламов, А Е Ермаков, Д М Кузнецов], узлы которой представлены множеством часто встречавшихся понятий текста - слов и устойчивых словосочетаний, из числа которых исключены общеупотребимые слова Такая семантическая сеть может быть автоматически построена на базе множества текстов и использована впоследствии как модель предметной области для анализа неизвестных документов
Учитывая сверхфразовую связность сообщения в целом, считается, что наиболее вероятно обуславливание темы высказывания предшествующей темой или ремой, что отражает сохранение фокуса внимания или его переключение на связанный узел сети Результатами такого анализа являются набор ключевых тем документа, представленных ключевыми словами и словосочетаниями семантической сети и ранжированных по релевантности, тематические резюме по ключевым темам, представленные наиболее информативными сверхфразовыми
единствами, общий реферат, составленный из наиболее информативных сверхфразовых единств по ключевым темам
Во второй главе «Поуровневый анализ естественно-языкового текста в системах автоматической обработки» приводится механизм анализа отдельных слов, описываются различные методы снятия омонимии, дается оценка их эффективности, рассматриваются различные способы анализа отдельных предложений Предлагается развернутая классификация методов синтаксического анализ с учетом их использования в прикладных системах Детально исследуются многочисленные процедуры семантического анализа фразы в рамках алгоритма поверхностного семантического анализа
Существует три основных подхода к проведению морфологического анализа Первый подход часто называют «четкой» морфологией [А А Зализняк] Второй подход основывается на некоторой системе правил, по заданному слову определяющих его морфологические характеристики, в противоположность первому подходу его называют «нечеткой» морфологией [Гарант-Парк-Интернет] Третий, вероятностный подход, основан на сочетаемости слов с конкретными морфологическими характеристиками [SRILM], он широко применяется при обработке языков со строго фиксированным порядком слов в предложении
Методы снятия омонимии включают как традиционные системы, использующие правила, созданные вручную - общие контекстные правила и правила-шаблоны [S Weiss], системы на основе данных словарей [Y Wilks, L Gutne, G Demetriou, E Atwell, M Stevenson], вручную размеченных тренировочных корпусов [E Black, M A Hearst, D Yarowsky], переводных словарей и переводных корпусов [I Dagan, W A Gale], тезаурусов [M Masterman, А В Patrick, M Sussna], так и современные системы, использующие методы автоматического тезаурирования [A Kilgarriff] и устойчивых коллокаций [Д H Шмелев]
Что касается методик синтаксического анализа, то исторически первым способом описания синтаксиса языка были формальные грамматики [Э Хант], а затем трансформационные грамматики [Э Хант] Позже появились вероятностные грамматики [С D Manning, H Schutze], расширившие формальные грамматики
Каждому правилу построения предложения была указана некоторая вероятность применения этого правила
Синтаксический анализ на основе обучающихся систем заключается в разработке множества примеров, содержащих пару исходное предложение и результат его синтаксического анализа, который вводится человеком, занимающимся обучением системы, в ответ на каждое подаваемое на вход предложение Цель синтаксического анализа - построение синтаксических групп с помощью синтаксических правил
При построении естественно-языковых интерфейсов проблемы повышения эффективности, удобства, учета особенностей речи и ошибок ввода решаются с помощью "семантической грамматики" - грамматики, в которой категории обозначают как семантические, так и синтаксические понятия
Семантический анализ текста базируется на результатах синтаксического анализа, получая на входе набор деревьев, отражающих синтаксическую структуру каждого предложения Большинство методов семантического анализа сориентированы на такую единицу, как слово Поэтому существует тезаурус языка - общая для всех методов база На математическом уровне он представляет собой ориентированный граф, узлами которого являются слова в их основной словоформе Семантическая структура предложения состоит из семантических узлов и семантических отношений Семантический узел - это такой объект текстовой семантики, у которого заполнены все валентности, как эксплицитно выраженные в тексте, так и имплицитные — те, которые получаются из экстралингвистических источников Вход семантического анализа - это синтаксическое представление предложения Выход семантического анализа - это множество семантических структур, построенных на основе входного синтаксического представления
Лингвистический анализ содержания текста позволяет выявить связи между описанными в нем событиями и предметами Совокупность имен всех предметов (одушевленных и неодушевленных) и событий с их взаимосвязями образует семантическую сеть В зависимости от характера отношений сети могут быть
разного типа Единого мнения в вопросах классификации семантических сетей у специалистов по искусственному интеллекту нет Семантические сети часто рассматривают как наиболее общий формализм для представления знаний
Таким образом, проведенный анализ современных прикладных систем обработки естественного языка позволил выявить следующие тенденции большинство современных систем обработки естественного языка опирается на математику и статистику, что вызывает следующие трудности - во-первых, естественный язык является слабо формализуемой областью знаний, и во-вторых наблюдается огромная пропасть между возможностями аппаратных средств и методами решения задач обработки текста, то есть в дополнение к математическим и статистическим методам должны использоваться лингвистические методы, которые приводят к реальным результатам
Необходимо особо отметить тот факт, что лингвистика, инженерия знаний и искусственный интеллект непосредственно связаны между собой и не могут быть изолированы друг от друга в решении задач описания естественных языков
В настоящее время существуют сложные лингвистические алгоритмы, которые позволяют проводить полный синтактико-семантический анализ текста на естественном языке Но, тем не менее, большинство современных систем обработки естественного языка опирается на методы математической статистики и теории вероятностей
Наиболее освоенные на сегодня методы базируются на хорошо формализованных алгоритмах, полученных в результате построения математических моделей предметных областей Такой тип обработки данных далеко не всегда подходит для систем автоматической обработки текста на естественном языке, который принадлежит к числу плохо формализуемых систем, так как для него плохо изучены аналитические зависимости или цепочки действий, приводящие к результату без интеллектуального вмешательства человека
Основная трудность заключается в том, что нельзя с уверенностью сказать, что набор параметров, описывающий объекты данной предметной области,
наверняка полон и адекватен, а сами измеренные значения параметров в совокупности также полны и непротиворечивы Все это не позволяет применять для решения плохо формализуемых задач только лишь традиционные статистические методы
Именно поэтому в дополнение к «традиционным» математическим методам появляются детально проработанные, проверенные экспериментально лингвистические методы
В третьей главе «Модель алгоритма обработки естественно-языкового текста» описывается проведенный эксперимент, приводятся выводы, основанные на его результатах
Целью эксперимента по методике, предложенной Р К Потаповой, стало выявление различий между результатами обработки естественно-языкового текста, выполненной компьютером и человеком для оценки эффективности компьютерной обработки естественно-языкового текста Испытуемым было предложено провести ранжирование смысловых блоков, позволяющих передать содержание текста, определить предложения, несущие основную смысловую нагрузку, выписать ключевые слова и словосочетания и расставить их в порядке уменьшения смысловой нагрузки от максимальной до минимальной
Для выполнения машинной обработки была выбрана компьютерная программа Тех1Лпа1уэ1, реализованная российскими разработчиками компании "Микросистемы" Система реализована на основе однородной нейросетевой обработки информации
Проанализировав предложенный материал, Тех1Апа1уБ1 формирует сеть основных (наиболее значимых) понятий, содержащихся в представленных ему текстах Сеть понятий - это множество понятий из текстов - слов и словосочетаний, связанных между собой по смыслу В сеть включены не все понятия текста, а лишь наиболее значимые, несущие основную смысловую нагрузку Аналогичным образом представлены и смысловые связи между понятиями текстов Связь между парой понятий сети всегда двусторонняя
При проведении эксперимента была использована функция автоматического реферирования Формируемый реферат содержит список наиболее информативных предложений текстов (тезисов)
Материалом для экспериментального исследования послужила подборка публицистических текстов на тему «Международные отношения Россия - США» Все тексты были взяты с Интернет-сайтов различных информационных служб
В ходе эксперимента было установлено, что программа включает предложение текста в реферат, используя данные о наличии в нем ключевых слов (чем выше вес ключевых слов в предложении, тем больше вес самого предложения) Испытуемые выбирали те предложения, без которых, по их мнению, невозможно адекватное отражение содержания первичного текста вне зависимости от их количества и наличия в них ключевых слов В результате средний объем реферата у испытуемых составил 45,7% от исходного текста (максимальный 53%), по сравнению с 23,9% в программном варианте (максимальный 25%)
Среднее количество простых предложений в составе сложных по данным испытуемых составило 3,47, по данным программы - 2,07 Это связано с тем, что предложения, помеченные испытуемыми как ключевые, являлись наиболее длинными предложениями текста Программа выделяет ключевые предложения в зависимости от количества в них ключевых слов - соответственно, чем длиннее предложение, тем выше вероятность появления в нем ключевых слов, и, следовательно, тем выше вероятность, что оно само окажется ключевым Существенная разница между вышеперечисленными средними значениями объясняется тем, что количество ключевых слов, отмеченных программой, всегда было выше, чем соответствующий показатель у испытуемых Так как работа программы основана большей частью на статистических методах, то ключевые предложения были разной длины
Большинство ключевых слов, отмеченных как испытуемыми, так и программой, оказалось существительными (объекты), на втором месте -прилагательные (атрибуты), на третьем - глаголы (действия) Доля остальных
частей речи - незначительная, так как они встречаются не как самостоятельные ключевые слова, а исключительно в словосочетаниях (например, poisoned with thallium, one more example, murdered journalists, очень влиятельный, борьба за власть)
Если сопоставлять множества ключевых элементов, выбранные испытуемыми и программой, не учитывая веса, то следует отметить, что множество с учетом данных испытуемых полностью входит в множество данных программы (обратное неверно, так как в ходе эксперимента второе множество всегда превышало первое)
Проведенный эксперимент показал, что совокупные наборы ключевых слов и словосочетаний, выделенных испытуемыми и компьютерной программой, почти полностью совпадают, однако при ранжировании выделенных элементов по степени информативности выяснилось, что процент совпадений тем выше, чем выше смысловой вес выделенного ключевого слова или словосочетания Тот факт, что компьютер и испытуемые помечали одни и те слова и словосочетания как ключевые, но при этом каждый присваивал одному и тому же объекту разную степень информативности, свидетельствует об отсутствии фоновых знаний у компьютерной программы и о разном уровне фоновых знаний у испытуемых (чем шире познания в данной области, тем ниже информативность)
В третьей главе также предлагается модель текста как композиция формальных моделей ее компонентов, разрабатывается обобщенная схема обработки естественного языка, определяются алгоритмы первичной семантической обработки, индексирования понятий, установления семантических связей, выявления тематических узлов, построения семантической сети, синтеза информации из сети
Разработанный алгоритм обработки естественно-языкового текста позволил сделать вывод, что обсуждаемые в тексте ключевые слова связаны между собой разнообразными семантическими связями, многие из которых могут использоваться для организации тематической структуры того или иного текста Для того чтобы автоматически выявлять основные ключевые слова и
словосочетания текста на основе имеющегося лингвистического ресурса необходимо восстановить сеть понятий, используемых в данном тексте, разбить сеть на совокупность тематических узлов и выделить основные тематические узлы
На базе предложенных методов обработки могут быть созданы модули анализа и представления текстовой информации на естественном языке, применяемые для автоматической генерации модели изучаемого текста, синтеза текстовой информации по полученной модели, различных видов реферирования текстов, автоматизации перевода текстов, автоматического контроля усвоения материалов пользователем, который обучается языку
В результате исследования построена лингвистическая модель извлечения элементов смысла из массива текстов ограниченной тематики, в основе которой лежит интеграция статистических и формальных лингвистических методов
Модель включает
1 блок первичной семантической обработки,
2 блок индексации и ранжирования понятий,
3 блок установления связей,
4 блок выявления тематического узла,
5 блок установления попарной встречаемости,
6 блок построения семантической сети,
7 блок синтеза информации из сети (см Таблицу 1)
Таблица 1
Модель алгоритма извлечения элементов смысла из массивов ограниченной
тематики
Блок первичной семантической обработки > < Создание узла для каждой жесткой группы или одиночного слова
Дифференцирование синтаксических групп
Определение синтаксических вариантов
Выход
Блок индексации и ранжирования понятий Вход Определение лексических вариантов
> < Сравнение единиц текста с единицами тезауруса
Отображение текста в последовательность дескрипторов тезауруса
Фиксирование частоты встречаемости каждого дескриптора и множества дескрипторов тематически близких ему
Выход Набор бинарных отношений
Блок установления связей Вход
1 Определение концептуальных связей по заданным правилам
Суммирование текстовых связей дескрипторов каждого тематического узла
Выход Определение текстовых связей между тематическими узлами
Блок выявления тематических узлов Вход
> < Восстановление понятийной сети
Определение связей, которые можно использовать в тематических узлах
Анализ распределения связей в тексте
Выбор главного дескриптора тематического узла
Выбор основных тематических узлов
Выход Тематическое представление текста, его частотный портрет
Блок установления попарной встречаемости Вход
Выход Ренормализация числовых характеристик слов
Блок построения семантической Вход
Создание иерархии связанных тем и подтем
Выход
сети Выход Тематическая структура в виде дерева
Блок синтеза информации из сети Вход
> < Локализация объектов семантической сети
Определение фрейма генерируемого предложения
Фиксирование дополнительных объектов сети и их свойств
Выход Генерация текстовой информации
Блок первичной семантической обработки создает узел для каждой жесткой группы или одиночного слова В этот узел переносятся вся необходимая информация о слове, которая разбивается на конечное число отдельных элементов и преобразуется в синтаксические характеристики узла Синтаксические отношения дифференцируются на слабые и сильные Сильные отношения только интерпретируются, а слабые могут быть удалены, так как только сильные отношения обычно устанавливаются без ошибок
Для каждого фрагмента предложения блок выбирает синтаксический вариант, то есть набор морфологических вариантов с максимальным покрытием Семантический узел приравнивается к множеству словарных выходов, приписанных каждому узлу процедурой построения словарных интерпретаций Словарная интерпретация может относиться к одному узлу (интерпретация закрытого словосочетания), а также к некоторому множеству узлов (интерпретация открытого словосочетания) Каждому узлу открытого словосочетания блок приписывает ссылку на словарную статью и номер элемента, к которому приравнен данный узел
Лексическим вариантом в блоке считается фрагмент, в котором для каждого узла указана одна возможная словарная интерпретация Необходимо отметить что число узлов, которые необходимо рассматривать в лексических вариантах в случаях, когда в синтаксическом варианте фрагмента было найдено хотя бы одно
закрытое словосочетание, будет разным, так как одном варианте в узел словосочетания войдет несколько слов
Блок индексации и ранжирования понятий сначала сравнивает единицы текста с единицами тезауруса, в результате чего текст отображается в последовательность дескрипторов тезауруса Блок фиксирует частоту встречаемости каждого дескриптора и множество дескрипторов тематически близких ему Таким образом, на выходе блока получают набор бинарных отношений внутри заданного множества слов естественного языка
Блок установления связей отмечает концептуальные связи, которые должны отражать реальные лексические связи в тексте Набор, позволяющий определить саму связь и избежать поиск названия связи, является конечным Это связи «выше-ниже», «частное-общее», «ассоциация» Таким образом соединяется как можно более широкий набор понятий через связь в несколько отношений, так как каждая связь определяет конкретный путь в тезаурусе Данные связи используются для реконструкции семантических связей в тексте, анализа их структуры и структурной организации связного текста, которая построена на скрытых семантических связях между словами Затем в блоке суммируются текстовые связи дескрипторов каждого тематического узла и определяюсят текстовые связи между тематическими узлами
Блок выявления тематических узлов сначала должен восстановить понятийную сеть и определить связи, которые можно использовать в тематических узлах, а потом анализировать их распределение в тексте Очевидно, что определение тематического узла и, следовательно, определение понятия — довольно сложный процесс После выбора главного дескриптора тематического узла, блок собирает тематические узлы сначала вокруг дескрипторов заголовка и первого предложения, а затем вокруг остальных дескрипторов, начиная с самых частотных Основными тематическими узлами являются те, которые все связаны между собой и сумма частот связей между ними максимальна На выходе этого блока получают тематическое представление текста, в котором все понятия разбиты на тематические узлы, между которыми зафиксированы связи
На входе блока установления попарной встречаемости полученная ранее информация представляется в виде частотного «портрета», который можно визуализировать как сеть, состоящую из слов тезауруса и связей между ними И слова, и связи между ними имеют частотные характеристики Необходимо также провести операцию ренормализации числовых характеристик слов Слово должно увеличивать свой вес после каждой итерации в случае, если оно связано с множеством других весомых слов, а остальные слова соответственно должны терять вес
Можно предположить, что текст посвящен не понятийному обсуждению, а описанию связей между словами Поэтому не только основные понятия и элементы их тематических узлов наиболее частотны, но и пары различных основных понятий и элементы их тематических узлов, которые должны встречаться в тексте чаще, чем, например, элементы одного и того же тематического узла Это означает, что если два понятия, связанные в тезаурусе одним из пяти концептуальных путей, часто встречаются в одном предложении, то ни одно из этих понятий не входит в тематический узел другого
Блок построения семантической сети создает исчерпывающее наглядное представление о содержании текста Информация сети отражает все потенциально присутствующие смысловые связи Сеть представляет собой структурированные хранилища информации и набор правил вывода, позволяющий компьютеру производить рассуждения в автоматическом режиме
Обработка реализуется таким образом, чтобы представить семантическую сеть в виде тематической структуры, так как множественность связей сети неудобна для структурированного представления, в то время как тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем, которые соответствуют иерархии тематической сети Тематическая структура, таким образом, имеет вид древа, в корне которого стоят главные темы, в ветвях - подтемы, и каждая ветвь дерева конечна
Работа блока синтеза информации из сети включает два этапа Сначала он локализует объекты в семантической сети на основе анализа поступившей от
пользователя информации, а затем генерирует текстовую информацию Генерация текстовой информации происходит по следующему алгоритму На основе фрейма поступившего от пользователя предложения определяется фрейм генерируемого предложения Далее, исходя из структуры найденного фрейма и информации о локализованных (главных) объектах, фиксируются дополнительные объекты семантической сети и их свойства, необходимые для генерации предложения на базе заданного фрейма
Проведенный эксперимент и разработка модели алгоритма автоматической обработки текстовой информации позволили выделить основные трудности, возникающие при автоматическом анализе естественно-языкового текста, а именно
- большинство ключевых слов и словосочетаний в тексте одновременно связаны различными типами связи,
- ключевые слова и словосочетания основной темы связаны с помощью тех же концептуальных типов, которые были использованы для создания тематических узлов,
- связи и способы могут варьироваться в одном тексте определенная группа слов и словосочетаний образует один тематический узел, а в другом - разные тематические узлы
Все вышесказанное свидетельствует о том, что правильное определение узлов и ключевых слов и словосочетаний требует многоаспектного анализа Это означает, что автоматическая система сначала должна восстановить понятийную сеть и определить связи, которые можно использовать в тематических узлах, а потом анализировать их распределение в тексте
В процессе разработки алгоритма были сделаны следующие выводы
1 Для того чтобы автоматически выявить ключевые слова на основе имеющегося лингвистического ресурса необходимо
• восстановить сеть ключевых слов, используемых в данном тексте,
• разбить сеть на совокупность тематических узлов, используя знания о способах соединения ключевых слов внутри тематических узлов, учитывая информацию о взаимной встречаемости связанных по тезаурусу слов в одних и тех же предложениях данного текста,
• выделить основные тематические узлы среди всей совокупности тематических узлов
2 Обсуждаемые в тексте ключевые слова связаны между собой разнообразными семантическими связями, многие из которых могут использоваться для организации тематической структуры того или иного текста
3 Выявление семантических связей в тексте позволяет выбрать главные дескрипторы тематических узлов, определить сами тематических узлы, связи между узлами, и, таким образом, восстановить понятийную сеть документа
4 Благодаря установлению попарной встречаемости ключевых слов и словосочетаний, информация текста представляется в виде частотного портрета, состоящего из слов и словосочетаний тезауруса и связей между ними
5 Информация семантической сети содержит все ключевые слова и словосочетания текста, а также все установленные семантические связи и в полной мере отражает содержание текста
Разработанная модель алгоритма извлечения информации допускает дальнейшее развитие и может быть использована при разработке программных продуктов, нацеленных на автоматическую обработку текстовой информации
Основные положения диссертации отражены в следующих публикациях:
1 Nikolaeva I Automated Natural Language Text Analysis with Superphrasal Structure Detection (статья на английском языке) // Specom 2005 Proceedings (Patras, 17-19 October, 2005) M , МГЛУ, 2005 - 0,5 п л
2 Nikolaeva I Automated Detection of Semantic Connections in the Text Subject Organization (статья на английском языке) // Specom 2006
Proceedings (St Peterburg, 25-29 June 2006), Санкт-Петербург, СПИИРАС, 2006 - 0,5 п л
3 Николаева И В Объектный подход к механизму обработки естественно-языкового текста (статья) // Сборник «Исследования молодых ученых», Минск, МГЛУ, 2006 - 0,5 п л
4 Николаева И В Автоматизация установки связей между понятиями в естественно-языковом тексте (статья) // Международная Конференция Российской Научной Школы «Инноватика - 2006», Ч 3, Т 2 - М , Радио и связь, 2006 - 0,5 п л
5 Николаева И В Алгоритм выявления сверхфразовых структур в текстовом массиве в информационно-коммуникационных средах (статья) // Международная Конференция Российской Научной Школы «Инноватика - 2006», Ч 3, Т 2 - М , Радио и связь, 2006 — 0,5 п л
6 Николаева И В Выявление сверхфразовой структуры в задачах автоматического анализа естественно-языкового текста (статья) // Вестник МГЛУ Вып 556 - М , МГЛУ, 2007 -0,5 пл
7 Nikolaeva I The Experimental Approach to Developing the Automated Text Processing Algorythm (статья на английском языке) // Когнитивное моделирование в лингвистике, Труды IX международной конференции (София, 28 июня - 3 августа 2007), ред В Соловьев, Р Потапова, В Поляков - Казань, Казанский Государственный Университет, 2007 - 0,3 п л
8 Potapova R , Nikolaeva I The Experimental Analysis of the Differences between the Results of the Natural Language Text Processing Made by the Computer and the Human (статья на английском языке) // Specom 2007 Proceedings (Moscow, 15-17 October 2007), M , МГЛУ, 2007 - 0,5 п л , доля автора - 0,25 п л
Заказ № 30/02/08 Подписано в печать 06 02 2008 Тираж 100 экз Уел п л 1,5
, - ; ООО "Цифровичок", тел (495) 797-75-76, (495) 778-22-20 »: тт> с/г ги, е-тай т/о@с/г ги
Оглавление научной работы автор диссертации — кандидата филологических наук Николаева, Ирина Викторовна
Введение
Глава 1. Существующие алгоритмы обработки естественного языка
1.1 .Задачи обработки естественного языка
1.2. Особенности алгоритмов обработки естественного языка
1.3. Алгоритмы морфологического анализа в системах автоматического обработки естественно языковых (ЕЯ) текстов
1.3.1. Принципы построения компьютерной морфологии
1.3.1.1. Система кодирования словаря словоизменения
1.3.1.2. Точный морфологический анализ
1.3.1.3. Морфологический анализ на основе правил
1.3.1.4. Вероятностный морфологический анализ
1.3.2. Использование морфоанализа при разборе текста
1.3.2.1. Настройки морфоанализатора
1.3.2.2. Формальные факторы, определяющие варианты разбора слова
1.3.2.3. Учет контекста при разборе слова 33 1.4.Анализ тональности текста
1.4.1 Лингвистическая модель для компьютерного анализа тональности публикаций СМИ
1.4.2 Фильтрация и разбор пропозиций для оценки тональности
1.4.3 Прямая эмоционально-конноташвная характеристика
1.4.4 Ассоциированный эмоциональный коннотат
1.4.5 Методика принятия решения о тональности
1.5. Референция обозначений персон и организаций в публицистических текстах
1.5.1 Особенности референции обозначений в тексте
1.5.2 Обобщенный алгоритм анализа референции
1.5.3 Поиск референтов известных объектов
1.6. Поиск и классификация фактов
1.6.1 Технология фактографического поиска
1.6.2 RCO Pattern Extractor: компонент выделения особых объектов в тексте
1.6.2.1 Модуль предобработки текста
1.6.2.2 Выделение объектов
1.6.2.3 Словарный модуль 61 1.6.2.4. Модуль выделения объектов
1.7. Нейросетевая технология в обработке ЕЯ информации
1.7.1 Использование статистических методов
1.7.2 Ассоциативная семантическая сеть
1.7.3 Реализация прикладных функций тематического анализа текста
1.8. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза
1.8.1. Синтаксический анализ и эксплицирование отношений
1.8.2. Синтаксический синтез элементов смысла
1.8.3. Ранжирование элементов смысла и информационный портрет текста
1.9. Программные продукты для автоматического реферирования (Automatic Text Summarization) 81 1.10 Выводы по Главе
Глава 2. Поуровнсвый анализ ЕЯ текста в системах автоматической обработки
2.1. Знания о ЕЯ, необходимые для полного автоматического анализа
2.2. Общая схема автоматической обработки ЕЯ текста
2.3. Анализ отдельных слов
2.4. Проблема снятия омонимии 98 2.4.1 Традиционные методы снятия лексико-семантической омонимии
2.4.2 Современные тенденции в решении проблемы автоматического снятия омонимии
2.4.3 Преимущества использования частотных коллокаций
2.4.4 Понятие частотных устойчивых коллокаций
2.4.5 Характеристика поверхностных фильтров
2.4.6 Оценка эффективности работы фильтров
2.5. Пример морфологического словаря («Открытые системы»)
2.5.1 Структура морфологического словаря
2.5.2 Оболочка редактирования словаря
2.5.3 Бинарное представление словаря
2.5.4 Предсказание ненайденных слов
2.6. Анализ отдельных предложений
2.7. Анализ снизу вверх и сверху вниз
2.7.1. Парсинг
2.7.2. Системы со встроенными правилами
2.7.3. Сравнение эффективности
2.8. Классификация методов синтаксического анализа
2.9. Синтаксический анализ в системе
2.9.1 Синтаксическое правило
2.9.2 Алгоритм работы
2.10. Использование семантических грамматик
2.11. Семантический анализ
2.11.1 Первичный семантический анализ
2.11.2 Алгоритм поверхностного семантического анализа
2.12. Семантические сети и фреймы
2.13. Выявление сверхфразовой структуры
2.14. Выводы
Глава 3. Модель алгоритма обработки ЕЯ текста
3.1. Некоторые методы автоматического анализа ЕЯ, используемые в промышленных продуктах
3.1.1 Леке и ко- грам мати чес ки й анализ (Part-of-Speeeh-tagging)
3.1.2 Синтаксический анализ (Text Parsing)
3.1.3 Автоматическое реферирование(Automatic Text Summarization)
3.2. Эксперимент
3.2.1. Описание эксперимента
3.2.2. Результаты
3.2.3. Выводы
3.3.1 Модель текста
3.3.2 Схема обработки естественно-языкового текста
3.3.3 Первичная семантическая обработка
3.3.3.1 Инициализация семантических узлов и синтаксических вариантов фрагментов
3.3.3.2 Построение множества словарных интерпретации узлов
3.3.3.3 Построение групп времени
3.3.3.4 Построение узлов в кавычках
3.3.3.5 Построение узлов типа «друг друга»
3.3.3.6 Подключение операторов типа не, только
3.3.3.7 Построение устойчивых словосочетаний
3.3.3.8 Построение лексических функций-параметров
3.3.3.9 Установление отношений между локативными узлами
3.3.3.10 Интерпретация тезаурусных должностей и организаций
3.3.3.11 Процедура инициализации валентной структуры
3.3.3.12 Процедура построения графа гипотетических связей
3.3.3.13 Построение множественных актантов
3.3.3.14 Процедура удаления длинных связей
3.3.3.15 Процедура построения вариантов деревьев
3.3.3.16 Оценка деревьев
3.3.3.17 Проверка отношений по семантическим характеристикам
3.3.3.18 Проективность деревьев
3.3.3.19 Нарушение первой валентности и валентности из добавочных статей
3.3.3.20 Построение отношений по умолчанию
3.3.3.21 Межклаузные связи
3.3.3.22 Правило восстановления анафорических местоимений
3.3.4. Алгоритм обработки текста после первичного семантического анализа
3.3.5 Основные принципы связей
3.3.6Выявление тематического узда
3.3.7 Совместная встречаемость в предложениях
3.3.8 Семантическая сеть
3.3.9 Синтез информации из сети 230 3.4. Выводы по Главе
Введение диссертации2007 год, автореферат по филологии, Николаева, Ирина Викторовна
В настоящее время исследование тематической структуры текста приобрело особое практическое значение, поскольку совершенствование механизмов автоматического определения основной темы и подтем документа могло бы существенно улучшить эффективность информационного поиска в информационных системах. В течение нескольких последних десятилетий этой теме было посвящено большое число работ [Е. Black, G. Demetriou, М.А. Hearst, J.J. Hopfield, D.Jurafsky, J.S. Justeson, S.M. Katz, A.Kilgarriff, J.Kupiec, C.Manning, D. Pearce, J.Pedersen, H.Schutze., P. Tapanainen, L. Van Guilder, D. Yarowsky, Н.Д. Арутюнова, Б.В. Добров, A.E. Ермаков, P.M.Жаркой, A.A. Зализняк, A.A. Кибрик, Т. Ю. Кобзарева, Б.П.Кобрицов, Н.В.Крапухина, Д.М. Кузнецов, Н.Н. Леонтьева, II.В. Лукашевич, О.И.Максименко, Дж. Фон. Нейман, Л.В. Орлова, Е.В. Падучева, Р.Г.Пиотровский, В.В. Плешко, Д.А. Поспелов, Р.К.Потапова, Э. Хан г, А.А. Харламов, Д.В.Чистов, Д.Н. Шмелев, Д.Е. Шуклин и др.].
Автоматизированный анализ естественно-языковых (ЕЯ) текстов является важной задачей, сориентированной на обработку больших объемов информации. Значительная часть всей доступной на сегодняшний день информации существует в виде неструктурированных текстов. Книги, журнальные статьи, научно-исследовательские работы, руководства по эксплуатации товаров, меморандумы, электронные письма и, конечно, всемирная сеть содержат естественно-языковую текстовую информацию. Результаты анализа массивов текстов связаны с процессом информирования и принятия правильных практических решений.
Процедура автоматизированной обработки текстовой информации обеспечит новый эффективный механизм как навигации, автоматического создания рефератов документов, группировки и классификации, сравнения текстов, так и поиска информации.
Данное диссертационное исследование посвящено проблемам разработки лингвистического и алгоритмического обеспечения, служащего для создания современной системы извлечения ключевой содержательной информации посредством применения широкого класса математических и лингвистических методов логико-аналитической обработки больших массивов естественноязыковых текстов.
Актуальность данного исследования обусловлена необходимостью решения задачи разработки алгоритмов для проведения достоверного автоматического анализа постоянно увеличивающегося объема информации, порождаемого в рамках информационно-коммуникационных сред. Наличие вышеуказанной необходимости объясняется тем, что в последние годы быстрый рост индустрии информационно-поисковых систем, стимулированный расширением сферы Интернета, сосуществует с фактором относительно слабой развитости автоматизированных средств анализа естественно языковой информации, что связано с недостаточной степенью разработки соответствующего лингвистического обеспечения.
Научная новизна диссертации заключается в том, что: впервые разработана обобщенная схема обработки массива публицистических текстов на естественном языке для подъязыка СМИ;
- впервые выявлены тенденции с учетом соответствия результатов обработки естественно-языкового текста, выполненной компьютером и человеком;
- впервые предложена модель текста как композиция формальных моделей ее компонентов, в основе которой лежит интеграция статистических и формальных лингвистических методов;
- впервые разработан алгоритм извлечения элементов смысла из массива текстов ограниченной тематики, включающий блок первичной семантической обработки, блок индексации и ранжирования понятий, блок установления связей, блок выявления тематического узла, блок установления попарной встречаемости, блок построения семантической сети, блок синтеза информации из сети.
Рабочей гипотезой исследования является предположение о том, что попытка автоматически проанализировать значительный объем информации, порождаемый в пределах информационно-коммуникационных сред, возможно сделает ненужными большинство классических операций обработки и подготовки текстовой информации.
Основная цель диссертации заключалась в разработке механизма построения информационного портрета [по А.Е. Ермакову] массива документов на основе элементов смысла. Данная цель обусловила необходимость решения следующих задач:
- проведение анализа существующих систем автоматической обработки текстовой информации,
- разработка поэтапного алгоритма автоматического анализа массива документов,
- создание модели извлечения смысла посредством автоматического анализа и синтеза информационного корпуса,
- нахождение характеристик механизма построения семантической сети,
- построение модели синтеза строк, представляющих в унифицированном виде все элементарные отношения между ключевыми словами и словосочетаниями в тексте.
Основными методами исследования явились: метод сплошной выборки, метод эксперимента, метод статистического анализа.
Б качестве экспериментального материала диссертационного исследования был использован корпус газетных текстов на русском и английском языках, функционирующих в рамках компьютерных сетей.
Достоверность полученных результатов и обоснованность выводов обеспечивается репрезентативной выборкой использованного в ходе исследования материала и достаточным количеством испытуемых (3483 проанализированные лексические единицы, п = 37).
Объектом исследования является процесс автоматического анализа массивов документов.
Предметом исследования является разработка алгоритма автоматического анализа информационного массива ограниченной предметной области (международные отношения Россия - США).
Теоретическая значимость диссертации заключается в том, что полученные результаты являются вкладом в теорию автоматического анализа текстовой информации, в теорию алгоритмизации автоматического анализа текстовых документов, а также в теорию автоматизированных систем в целом.
Практическая ценность диссертации заключается в следующем: полученные экспериментальные данные о различиях между результатами обработки текста, выполненной компьютером и человеком, проведение формального описания естественного языка на каждом языковом уровне, разработанный оригинальный анализатор для автоматической обработки текстовой информации в прикладных системах, а также результаты работы над алгоритмом автоматической обработки естественного языка могут быть использованы при разработке различных приложений: систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной и математической лингвистике.
Основные результаты работы были апробированы на различных конференциях: 10-й Международной конференции SPECOM'2005 ('Речь и компьютер') (Патры, Греция, 17-19 октября 2005 г.), 11-й Международной конференции SPECOM'2006 ('Речь и компьютер') (Санкт-Петербург, 25-29 июня 2006 г.), 9-й Международной конференции Cognitive modeling in linguistics ('Когнитивное моделирование в лингвистике') (София, Болгария, 28 июля - 3 августа 2007) 12-й Международной конференции SPECOM'2007 ('Речь и компьютер') (Москва, 15-19 октября 2007 г.).
Цели и задачи исследования обусловили структуру диссертации, которая состоит из введения, трех глав, заключения и списка литературы.
Заключение научной работыдиссертация на тему "Автоматизация анализа массивов текстовых документов в информационно-коммуникационных средах"
Основные результаты работы заключаются в следующем.
Основная цель обработки текста в современных прикладных системах - это формирование словаря слов и выявление связей между словами, потому что только наличие развитого смыслового портрета позволяет эффективно решать задачи аналитической обработки документа.
В настоящее время существуют сложные лингвистические алгоритмы, которые позволяют производить полный синтактико-семантический анализ текста на естественном языке. Но, тем не менее, большинство современных систем обработки естественного языка опирается на методы математической статистики и теории вероятностей.
Наиболее освоенные на сегодня методы базируются на хорошо формализованных алгоритмах, полученных в результате построения математических моделей предметных областей.
Такой тип обработки данных далеко не всегда подходит для систем автоматической обработки текста на естественном языке, который принадлежит к числу плохо формализуемых систем, так как для него плохо изучены аналитические зависимости или цепочки действий, приводящие к результату без интеллектуального вмешательства человека.
Основная трудность заключается в том, что нельзя с уверенностью сказать, что набор параметров, описывающий объекты данной предметной области, наверняка полон и адекватен, а сами измеренные значения параметров также в совокупности полны и непротиворечивы. Все это не позволяет применять для решения плохо формализуемых задач только лишь традиционные статистические методы.
Именно поэтому в дополнение к «традиционным» математическим методам появляются детально проработанные, проверенные экспериментально лингвистические методы.
Лингвистика, инженерия знаний и искусственный интеллект не являются изолированными науками, а, напротив, все они направлены на достижение одной цели, а потому и усилия специалистов различной направленности должны объединяться в изучении естественного языка.
В ходе эксперимента было установлено, что программа включает предложение текста в реферат, используя данные о наличии в нем ключевых слов (чем выше вес ключевых слов в предложении, тем больше вес самого предложения). Испытуемые выбирали те предложения, без которых, по их мнению, невозможно адекватное отражение содержания первичного текста вне зависимости от их количества и наличия в них ключевых слов. В результате средний объем реферата у испытуемых составил 45,7% от исходного текста (максимальный 53%), по сравнению с 23,9% в программном варианте (максимальный 25%).
Среднее количество простых предложений в составе сложных по данным испытуемых составило 3,47, по данным программы - 2,07. Это связано с тем, что предложения, помеченные испытуемыми как ключевые, являлись наиболее длинными предложениями текста. Программа выделяет ключевые предложения в зависимости от количества в них ключевых слов - соответственно, чем длиннее предложение, тем выше вероятность появления в нем ключевых слов, и, следовательно, тем выше вероятность, что оно само окажется ключевым. Существенная разница между вышеперечисленными средними значениями объясняется тем, что количество ключевых слов, отмеченных программой, всегда было выше, чем соответствующий показатель у испытуемых. Так как работа программы основана большей частью на статистических методах, то ключевые предложения были разной длины.
Большинство ключевых слов, отмеченных как испытуемыми, так и программой, оказалось существительными (объекты), на втором месте -прилагательные (атрибуты), на третьем - глаголы (действия). Доля остальных частей речи - незначительная, так как они встречаются не как самостоятельные ключевые слова, а исключительно в словосочетаниях (например, poisoned with thallium, one more example, murdered journalists, очень влиятельный, борьба за власть).
Если сопоставлять множества ключевых элементов, выбранные испытуемыми и программой, не учитывая веса, то следует отметить, что множество с учетом данных испытуемых полностью входит в множество данных программы (обратное неверно, так как в ходе эксперимента второе множество всегда превышало первое).
Проведенный эксперимент показал, что совокупные наборы ключевых слов и словосочетаний, выделенных испытуемыми и компьютерной программой, почти полностью совпадают, однако при ранжировании выделенных элементов по степени информативности выяснилось, что процент совпадений тем выше, чем выше смысловой вес выделенного ключевого слова или словосочетания. Тот факт, что компьютер и испытуемые помечали одни и те слова и словосочетания как ключевые, но при этом каждый присваивал одному и тому же объекту разную степень информативности, свидетельствует об отсутствии фоновых знаний у компьютерной программы и о разном уровне фоновых знаний у испытуемых (чем шире познания в данной области, тем ниже информативность).
Разработанный нами алгоритм обработки ЕЯ текста позволил сделать вывод, что обсуждаемые в тексте понятия связаны между собой разнообразными семантическими связями, многие из которых могут использоваться для организации тематической структуры того или иного текста. Для того чтобы автоматически выявлять основные понятия текста на основе имеющегося лингвистического ресурса необходимо восстановить сеть понятий, используемых в данном тексте, разбить сеть на совокупность тематических узлов и выделить основные тематические узлы.
Таким образом, благодаря методам автоматического анализа сейчас удается упростить или сделать ненужными многие классические операции обработки и подготовки информации. При этом, сейчас количественные методы анализа текстов играют существенно подчиненную и подготовительную роль для последующей вдумчивой работы специалистов, оснащенных проверенными методиками качественного исследования.
На базе предложенных методов обработки могут быть созданы модули анализа, и представления текстовой информации на естественном языке, применяемые для автоматической генерации модели изучаемого текста, синтеза текстовой информации по полученной модели, различных видов реферирования текстов, автоматизации перевода текстов, автоматического контроля усвоения материалов пользователем, который обучается языку.
Проведенный эксперимент и разработка модели алгоритма автоматической обработки текстовой информации позволили выделить основные трудности, возникающие при автоматическом анализе естественно-языкового текста, а именно:
1) большинство понятий текста одновременно связаны различными типами связи.
2) понятия основной темы связаны путем тех же концептуальных типов, которые были использованы для создания тематических узлов;
3) связи и способы могут варьироваться: в одном тексте элементы образуют один тематический узел, а в другом - разные тематические узлы.
Таким образом мы делаем вывод, что правильное определение узлов и понятий требует многоаспектного анализа.
Это означает, что автоматическая система сначала должна восстановить понятийную сеть и определить связи, которые можно использовать в тематических узлах, а потом анализировать их распределение в тексте.
Экспериментальная проверка позволила выявить различия между результатами обработки ЕЯ текста, выполненной компьютером и человеком для оценки эффективности компьютерной обработки ЕЯ текста.
В результате исследования построена лингвистическая модель извлечения элементов смысла из массива текстов ограниченной тематики, в основе которой лежит интеграция статистических и формальных лингвистических методов.
Модель включает:
1) блок первичной семантической обработки;
2) блок индексации и ранжирования понятий;
3) блок установления связей;
4) блок выявления тематического узла;
5 ) блок установления попарной встречаемости;
6) блок построения семантической сети;
7) блок синтеза информации из сети (см. Таблицу 1).
Заключение
Проведенный анализ современных прикладных систем обработки естественного языка позволил выявить следующие тенденции: большинство современных систем обработки естественного языка опирается на математику и статистику, что вызывает следующие трудности - во-первых, естественный язык является слабо формализуемой областью знаний, а во-вторых, наблюдается огромная пропасть между возможностями аппаратных средств и методами решения задач обработки текста.
То есть, в дополнение к математическим и статистическим методам должны использоваться проработанные лингвистические методы, которые приводят к реальным результатам.
Необходимо особо отметить тот факт, что лингвистика, инженерия знаний и искусственный интеллект непосредственно связаны между собой и не могут быть изолированы друг от друга в решении задач описания естественных языков.
Данное исследование вносит определенный вклад в развитие теории языковых уровней. Теоретическую ценность имеют смоделированные в ходе исследования лингвистические механизмы извлечения информации из массива текстов, использующие семантико-синтаксические особенности функционирования подъязыка.
Список научной литературыНиколаева, Ирина Викторовна, диссертация по теме "Прикладная и математическая лингвистика"
1. Black Е. An experiment in computational discrimination of English word senses, in IBM Journal, 32(2), 1988. P. 185-194.
2. C. Manning, H. Schutze. Foundations of Statistical Language processing. The MIT Press, 1999
3. Climent S., Rodriguez H., Gonzalo J. Definitions of the links and subsets for nouns of the EuroWordNet project, Deliverable D005, WP3.1, EuruWordNet, LE2, 2003.
4. Computational and Language E-print Archive http://xxx.lanl.gov/fmd/cmp-lg
5. Conexor (Functional Dependency Grammar) http://www.conexor.fi/
6. D. Jurafsky, James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Prentice-Hall, 2000
7. Dagan I., Itai A., Schwall U. Two languages are more informative than one // Proceedings of the ACL, 1991 (29). P. 130-137.
8. Damir Cavar, Alexander Geyken, Gerald Neumann(2000) Digital Dictionary of the 20th Century German Language in Language Technologies Conference 1718 October 2000 Slovenia (см. сайт www.dwds.de)
9. Demetriou G.C. Lexical disambiguation using constraint handling in Prolog (CHIP) // Proceedings of the European Chapter of the ACL, 1993 (6). P. 431436,
10. ERGO Linguistic Technologies http;//www.ergo-ling.com/
11. Eric Brill Unsupervised learning of disambiguation rules for part of speech tagging, Proceedings of ACL-95, 1995.
12. Extractor http ://ai.iit.nrc.ca/II public/extractor .html
13. Francis W.N., Kucera H. Manual of Information to accompany A Standard Corpus of Present-Day Edited American English, for use with Digital Computers.- Brown University Providence, Rhode Island Department of Linguistics Brown University, 1979.
14. From Language Engineering to Human Language Technologies (European Commisson report) MIKADO SA, Luxemburg, 1998.
15. Gale W.A., Church K.W., Yarowsky D. A method for disambiguating word senses in a large corpus // Computers and the Humanities, 1992, 26. P. 415439.
16. Guthrie J.A., Guthrie L., Wilks Y., Aidinejad H. Subject-dependent cooccurrence and word sense disambiguation // Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, СЛ., 1991. P.146-152.
17. H. Cunningham and D. Maynard and V. Tablan. JAPE: a Java Annotation Patterns Engine (Second Edition). Technical report CS—00—10, University of Sheffield, Department of Computer Science, 2000
18. Hearst M.A. Noun homograph disambiguation using local context in large text corpora // Proceedings of the 7th conference, UW Centre for the New OED & Text Research Using Corpora, 1991.
19. Hop field J.J. Neural networks и physical systems with emergent collective computational abilities. Pxoc. Natl. Acad. Sci. 79, 1982. p. 2554-2558
20. Human Language Technology Sector of the Information Society Technologies (1ST) Programme 1998 2000 - http://wwwJinglink.lu/
21. Information Technology: The Sixth Text REtrieval Conference (TREC-6), NIST SP 500-240, National Institute of Standards and Technology, 1998 pp. 1-24.
22. Intelligent Text Summarization AAA! Symposium on Intelligent Text Summarization - 96-19 CS-TR-3615 AAAI Technical Report SS-98-06, 1998 -pp.77-84.
23. Inxight http-.//www.inxight.com/
24. Jan Daciuk, Treatment of Unknown Words, proceedings of Workshop on Implementing Automata WIA'99. Potsdam, Germany, 1999, (C) Springer Verlag LNCS Series Volume 2214, pp. 71-80, 2001
25. Jiangsheng Yu, Zhihui Jin, Zhenshan Wen. Automatic Detection of Collocation // The 4th Chinese lexical semantics workshop, Hong-Cong, 2003. http://icl.pku.edu.cn/vuis/papers/pdf/col.pdf.
26. Julian Kupiec, Jan Pedersen, Francine Chen A Trainable Document Summarizer Xerox Palo Alto Research Centre, Palo Alto, CA, 1995.
27. Justeson J.S., Katz S.M, Technical terminology: some linguistic properties and an algorithm for identification in text // Natural Language Engineering, 1995, 1(1). P. 9-27.
28. Kilgarriff A., Rychly P., Smrz P., Tug well D. The Sketch Engine // Proceedings of the 1 1th EURALEX International Congress. Lorient, France : Universite de Bretagne-Sud, 2004. P. 105-116.
29. Language Text and Speech Retrieval. AAAI Symposium on Cross-Language Text and Legislative Indexing Vocabulary. - Washington: Congressional Research Service. The Library
30. Linda Van Guilder Automated Part of Speech Tagging: A Brief Overview (Handout for LING361, Fall 1995 Georgetown University) Georgetown University, 1995.
31. Linda Van Guilder Handout for LING361, Fall 1995 Georgetown University http://www.georgetown.edu/cball/ling361/tagging overview.html
32. Lingsoft (ENGCG)- http://!www.ingsoft.fi/
33. Link Grammar Homepage http://bobо. 1 ink.cs.emu.edu/link
34. Loukachevitch N. Text Summarization Based on Thematic Representation of Texts . ■ Intelligent Text Summarization AAAI Symposium on Intelligent Text Summarization -AAAI Technical Report SS-98-06. 1998
35. Lucien Tesniere Elements de syntaxe structurale. Editions Klincksieck, 1959, Paris.
36. Manning C.D., Schiitze H. Foundations of Statistical Natural Language Processing // Cambridge, Massachusetts: The MIT Press, 1999. Ch. 5. Collocations. http://nIp.stanford.edii/fsnIp/promo/collQC.pdf.
37. Martin Volk, Gerold Schneider Comparing a statistical and a rule-based tagger for German Proceedings of KONVENS-98, Bonn, 1998.
38. Masterman M. The thesaurus in syntax and semantics // Mechanical Translation, 4, 1957. P. 71-72
39. Mikheev Andrei, Automatic Rule Induction for Unknown Word Guessing, In Computational Linguistics vol 23(3), ACL 1997. pp. 405-423
40. Pasi Tapanainen, Atro Voutilainen Tagging accurately Don't'guess if you know. - Computational and Language E-print Archive, 1994
41. Pasi Tapanainen, Timo Jarvinen A non-projective dependency parser -Proceedings of Fifth Conference on Applied Natural Language Processing, Washington, D.C., 1997
42. Patrick A. B. An exploration of abstract thesaurus instantiation. M. Sc. thesis, University of Kansas, Lawrence, Kansas, 1985.
43. Prosum Summarizer http://transend.labs.bt.com/cgi-bin/prosum/Drosum
44. SPARKLE (Shallow PARsing and Knowledge Extraction for Language Engeneering) http://www.ilc.m.cnr.it/sparkle/sparkle.html
45. SRILM The SRI Language Modeling Toolkit. http://www.speech.sri.com/projectsfsrilm, 2005.
46. Stevenson M., Wilks Y. Large vocabulary word-sense disambiguation // Ravin Y., Leacock С (eds.) Polysemy: Theoretical and Computational Approaches. Oxford, 2002. P. 161-177.
47. Studies in Anaphora / ed. Barbara Fox. Amsterdam: Benjamins, 1996
48. Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network // Proceedings of the International Conference on Information & Knowledge Management (CIKM), 2, 1993. P. 67-74.
49. Teragram Corporation (OEM POS tagger)-http.7/www.teragram.com/w3/liome.htm
50. TextAnalyst http://www.host.ru/-analvst/
51. TIPSTER Text Program archivehttp://www .nist. go v/itl/ di v894/8 94.02/related jproj ccts/tipstcr/
52. U. Nahm, R. Mooney. Mining soft-matching rules from textual data. WA, 2001
53. Virtual Reality and Multimedia Conference http://www.vsmm.vsl, gifu-u.ac.jp/vsmm98
54. Weiss S. Learning to disambiguate // Information Storage and Retrieval, v.9, 1973.
55. Wilks Y., Fass D., Guo C., Mcdonald J.E., Plate Т., Slator B.M. Providing Machine Tractable Dictionary Tools // Machine Translation, 5, 1990. P. 99154.
56. WordNet: a lexical database for the English language. htt&:f/www.cogsci.princeton.edu/~wn, 2005.
57. Yarowsky D. Unsupervised word sense disambiguation rivaling supervised methods U Proceedings of the ACL' 1995, 33.
58. Yarowsky D. Word sense disambiguation using statistical models of Roget's categories trained on large corpora // Proceedings of the 14th International Conference on Computational Linguistics, COLING'92, 23-28 August, Nantes, France, 1992. P. 454-460.
59. Ананян С., Харламов А. Автоматический анализ естественно-языковых текстов, http://www.megaputer.com/tech/wp/tm.php3 1997.
60. Арутюнова Н.Д. Предложение и его смысл. Москва, Наука, 1976,
61. Арутюнова, Н.Д. Язык и мир человека. М., 1998,
62. Ахутина Т.В. Порождение речи. 11 ейро-ли11гвистический анализ синтаксиса М.: МГУ, 1989. - 215с.
63. Большаков И.А., Галисия-Аро С.Н. Сколько страниц на данном языке содержит Интернет? // Труды международной конференции Диалог'2003. М., 2003.
64. Борисова Е.Г. Коллокации. Что это такое и как их изучать? М., 1995.
65. Брагина Н.Н., Доброхотова Т.А. (1981). Функциональные асимметрии человека. М: Медицина
66. Гарант-Парк-Интернет. Технологии анализа и поиска текстовой информации, http://research, metric.ru, 2005.
67. Гладкий A.B. Формальные грамматики и языки. М.: Наука, 1973. 368 с
68. Глезерман Т.Б. (1986). Психофизиологические основы нарушений мышления при афазии. М.: Наука.
69. Добров Б.В., Лукашевич Н.В. Построение структурной тематической аннотации текста, 1996. с.130-134.
70. Добровольский Д.О. Корпус параллельных текстов как инструмент анализа литературного перевода. Труды международной конференции Диалог'2003. М„ 2003.
71. Дударь З.В., Шуклин Д.Е. Семантическая нейронная сеть, как формальный язык описания и обработки смысла текстов на естественном языке. Радиоэлектроника и информатика, X.: Изд-во ХТУРЭ, 2000.- №. 3. С.72-76.
72. Ермаков А.Е. (2000). Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. N 11
73. Ермаков А.Е. Проблемы полнотекстового поиска и их решение. // Мир ПК.-2001,-N5.-С. 64-66,
74. Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003
75. Ермаков А.Е., Плешко В.В. (2000). Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. N 12
76. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. 2002. -N 7. - С. 30-34
77. Ермаков А.Е., Плешко В.В. Тематическая навигация в полнотекстовых базах данных. // Мир ПК. 2001. - N 8. - С. 52-55,
78. Зализняк А.А. Грамматический словарь русского языка. М., 1977, 4-е изд.: М., 2003.
79. Зализняк А.А. Грамматический словарь русского языка. Словоизменение. 3-е изд. М. Русский язык, 1987
80. Кобзарева Т. Ю. Проблема кореференции в рамках поверхностно-синтаксического анализа русского текста // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. Москва, Наука, 2003
81. Копотев М. «Несмотря на» «потому что», или Многокомпонентные единицы в аннотированном корпусе русских текстов. Диалог'2004. М., 2004.
82. Лебедев М.В., Черняк Л.З. Онтологические проблемы референции. М., "Праксис", 2001
83. Леонтьева Н.Н. О компонентах системы понимания текста // Уровни текста и методы его лингвистического анализа . М., 1982, С. 124-140
84. Лукашевич Н.В., Добров Б.В. Построение и использование тематического представления содержания документов // 5 Национальная конференция КИИ-96. Казань, 1996
85. Лукашевич Н.В., Салий А.Д. Представление знаний в системе автоматической обработки текстов // НТИ. Сер.2. 1997 - N3
86. Меркурьева Н. М. Словарь антонимов русского языка: Сложные слова. Около 1800 антонимических пар. М,, Издательство: "Газета "Правда"", 1999
87. Нейман Дж. Фон. Теория самовоспроизводящихся автоматов / закончено и отредактировано А. Бёрксом.- М.: "Мир", 1971. 384 с. 5.
88. Орлова Л.В. Структура сверхфразового единства в научных текстах. -Киев: Наукова Думка, 1988. 154с.
89. Падучева, Е.В. Высказывание и его соотнесенность с действительностью. М., 1985,
90. Пиотровский Р.Г., Билан В.Н., Боркун М.Н., Бобков А.К. Методы автоматического анализа и синтеза текста — Минск: Вышейная школа, 1985
91. Плешко В.В., Ермаков А.Е., Липинский Г.В. TopSOM: визуализация информационных массивов с применением самоорганизующихся тематических карт // Информационные технологии. 2001. - N 8. - С. 8-11
92. Поспелов Д.А. Искусственный интеллект. Кн. 2. М.: Радио и связь, 1990
93. Проект GATE (General Architecture for Text Engineering) http://www.gate.ac.uk/
94. Рогожникова P. П. Словарь эквивалентов слова. M., 2003.
95. Селезнев. P.I 1. Моделирование языковой деятельности винтеллектуальных системах. М., Наука - с. 64-77, 1997
96. Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская, Н.П. Маловица и др. Синтаксический анализ научного текста на ЭВМ, К.: Научная мысль, 1999
97. Тихонов А.Н. Морфемно-орфографический словарь: Русская морфемика. М. Школа-Пресс, 1996;
98. Хаит Э. Искусственный интеллект. Пер, с англ. -М.: Мир, 1978
99. Харламов А. Автоматический структурный анализ текстов // Открытые системы . 2002 . №10, С. 62-65
100. Харламов А. А. Ассоциативный процессор на основе нейроподобных элементов для структурной обработки информации. // Информационные технологии, 1997, № 8, с. 40-44
101. Харламов А.А. Динамические рекуррентные нейронные сети для представления речевой информации. // Информационные технологии, 1997, № 10,-с. 16-22
102. Харламов А.А., Жаркой P.M., Волков В.И., Мацаков Г.Н. Система распознавания изолированных рукописных символов на основе иерархической структуры из динамических ассоциативных запоминающих устройств. // Информационные технологии, 1998, № 5. с. 27-31
103. Чистов Д.В., Крапухина Н.В., Меньшиков Г.Г., Кулехин С,Ю. Моделирование естественно-языковых текстов с использованием объектного подхода
104. Шведова Н.Ю. Очерки по синтаксису русской разговорной речи. М., 1960. 2-е изд.: М., 2003.
105. Шмелев Д.И. О семантических изменениях в современном русском языке // Шмелев Д.Н. Избранные труды по русскому языку. М., 2002.
106. Шуклин Д.Е. Структура семантической нейронной сети извлекающей в реальном времени смысл из текста. Кибернетика и системный анализ. Киев. Изд-во Ин-та кибернетики, 2001.- № 2. С.43-48
107. Шуклин Д.Е. Структура семантической нейронной сети реализующая морфологический и синтаксический разбор текста. Кибернетика и системный анализ. Киев, Изд-во Ин-та кибернетики, 2001.- № 5. С.177-1