автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Модель времени в системах извлечения знаний из письменного дискурса
Полный текст автореферата диссертации по теме "Модель времени в системах извлечения знаний из письменного дискурса"
На правах рукописи
Ефименко Ирина Владимировна
МОДЕЛЬ ВРЕМЕНИ В СИСТЕМАХ ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ПИСЬМЕННОГО ДИСКУРСА
Специальность 10.02.21 — прикладная и математическая лингвистика
Автореферат диссертации на соискание учёной степени кандидата филологических наук
ООЗ16
Москва 2007
003161372
Работа выполнена на кафедре теоретической и прикладной лингвистики филологического факультета Московского государственного университета им, МВ. Ломоносова,
Научный руководитель: доктор филологических наук,
профессор
Златоустова Любовь Владимировна
Официальные оппоненты: доктор филологических наук,
профессор.
Надеина Татьяна Михайловна
кандидат филологических наук, Долотин Константин Иванович
Ведущая организация: Санкт-Петербургский государственный
университет
Защита состоится « » МаЗБРД 2007 г. в Х=Гчас 00 мин, на заседании диссертационного совета Д.501.001.24 при Московском государственном университете им, М. В, Ломоносова по адресу: Н9992, Москва, Ленинские горы, МГУ им. М. В. Ломоносова, 1-й корпус гуманитарных факультетов, филологический факультет.
С диссертацией можно ознакомиться в читальном зале 1-го корпуса гуманитарных факультетов МГУ им, М. В. Ломоносова.
Автореферат разослан «3 2007 г.
Ученый секретарь
диссертационного совета Д.501.001.24,
д.ф.н.
Дедова О.В.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы исследования. Автоматическая обработка естественноязыковых текстов относится в настоящее время к числу ключевых направлений в области информационных технологий В результате исследований в данной области было сформировано прикладное направление, получившее название «Извлечение знаний», Information Extraction (употребляются также термины Content и Knowledge Extraction), в рамках которого ведется разработка соответствующего класса систем Такого рода системы выполняют автоматический анализ естественноязыкового дискурса и представляют в той или иной форме семантику документов с точки зрения релевантных для пользователя аспектов экстралингвистической действительности, например, идентифицируют упомянутые в тексте факты, ситуации определенного рода При этом очевидно, что одной из задач, решение которых может представлять значительный практический интерес, является в этой связи анализ взаиморасположения идентифицированных ситуаций во времени
Исследованию различного рода явлений, так или иначе связанных с семантикой времени, посвящено в лингвистической науке множество работ В числе основополагающих в отечественной лингвистике можно отметить работы Ю С Маслова, Е В Падучевой, В А Плунгяна и многих других, в зарубежной науке - Б Комри, Э Даля, К Смит и др Однако в большинстве случаев это фундаментальные исследования теоретического (зачастую типологического) характера, результаты которых не ориентированы на непосредственное внедрение в прикладные системы Что касается работ прикладного характера, то в рассматриваемой сфере наиболее значимые из них представлены в рамках зарубежных исследований и проектов и основаны, главным образом, на англоязычном материале В числе такого рода проектов особый интерес представляет программа TimeML, целью которой является разработка языка разметки текстов с точки зрения
семантики времени и создание соответствующего корпуса, который должен стать «золотым стандартом» для систем автоматического анализа естественного языка. При этом даже среди наиболее развитых систем обработки англоязычного дискурса (считающегося одним из наименее сложных с точки зрения автоматического извлечения знаний) не представлено решений, обеспечивающих полномасштабный анализ внутреннего времени ситуаций и временных отношений между ними Что же касается машинных средств извлечения информации из русскоязычного дискурса, то число такого рода систем, имеющих какую-либо практическую значимость, крайне незначительно При этом автоматический анализ семантических типов ситуаций и их взаиморасположения во времени представляет существенный интерес для потенциальных пользователей, особенно в случае больших коллекцияй документов, чем и объясняется актуальность исследования
Таким образом, объектом исследования является лингвистическая модель времени в контексте автоматической обработки естественного языка Предметом исследования являются языковые выражения, позволяющие ввести в рассмотрение следующие типы лингвистических и экстралингвистических феноменов
(1) автономные языковые объекты с семантикой времени («временные сущности»), в том числе, выступающие в качестве актантов ситуаций,
(2) «внутреннее время», статус, тип ситуаций,
(3) взаиморасположение во времени двух и более ситуаций
Цели и задачи исследования Целью диссертационного исследования является разработка и реализация лингвистической модели времени в рамках практически значимой системы извлечения информации
Для достижения указанной цели были поставлены и решены следующие основные задачи
(1) определение круга лингвистических явлений, наиболее релевантных с соответствующей точки зрения, автоматический анализ которых представляется возможным и целесообразным,
(2) разработка классификации типов автономных временных сущностей и маркеров, а также типов временных отношений между ситуациями, оптимальных с точки зрения внедрения в прикладные системы,
(3) разработка формализма представления временных отношений между ситуациями, пригодного для внедрения в прикладные системы и позволяющего адекватно описывать языковой материал,
(4) разработка общего алгоритма автоматического временного анализа извлекаемых из дискурса ситуаций,
(5) апробация разработанных моделей и алгоритмов путем реализации подсистемы временного анализа в рамках практически значимой системы извлечения знаний
Материалы исследования. Исследование выполнялось на корпусе текстов делового характера (главным образом, интернет-документов) в предметной области «Бизнес и политика» В корпус вошли тексты на русском, английском, немецком и французском языкам Основной акцент был сделан на анализ русскоязычного дискурса
Методы исследования. Результаты исследования основаны на анализе корпуса текстов фиксированного набора жанров При анализе сложных, неоднозначных контекстов с существенным объемом имплицитной составляющей для выбора наиболее вероятных вариантов интерпретации привлекались информанты - носители языка
Теоретической основой исследования служат методы семантической разметки корпусов и представления лингвистических знаний на основе продукционно-фреймового формализма, статистические методы оценки релевантности лингвистических явлений, а также отдельные положения теории Discourse Representation Theory Ключевыми понятиями,
используемыми в настоящей работе, являются понятия актантной структуры и онтологий
Достоверность положений и обоснованность результатов исследования обеспечены внутренней согласованностью разработанного формализма и системы правил, а также использованием полученных результатов в практически значимых прикладных системах.
Научная новизна:
1 Предложен онтологический дискурсивный подход к временному анализу естественноязыковых текстов
2 Сформулирован и обоснован постулат о необходимости обращения к онтологическим знаниям в целях наиболее адекватной интерпретации естественноязыкового дискурса.
3 Разработаны лингвистические классификации временных сущностей и отношений, ориентированные на внедрение в прикладные системы
4 Разработана онтология времени и временных отношений, ориентированная на внедрение в прикладные системы.
5 Разработан алгоритм временного анализа дискурса в контексте извлечения знаний
Практическая значимость работы, область применения результатов. Разработанная в рамках исследования модель времени, а также подсистема идентификации временных сущностей и маркеров временных отношений (ориентированная на многоязычный дискурс) реализованы и внедрены в рамках семейства систем ОпйэзМтег, являющихся в настоящий момент одними из наиболее практически значимых систем извлечения информации из естественноязыковых текстов Подсистема идентификации временных отношений между извлекаемыми из дискурса ситуациями (фактами экстралингвистической действительности) находится на этапе внедрения. На разработанной модели временного анализа основан ряд
практически значимых приложений, в частности, подсистема кросс-языкового реферирования
Разработанный формализм и результаты временного анализа -временные когнитивные карты текстов - могут быть использованы как на практике в аналитической деятельности экспертов в различных предметных областях, так и в лингвистических исследованиях - в качестве вариантов репрезентации структуры дискурса, что говорит о теоретической значимости полученных результатов Предполагается, что при больших объемах данных описание корпуса текстов с помощью предложенного формализма позволит делать выводы об особенностях отражения в том или ином языке представлений носителей о физическом времени (область типологии), а также о специфике кодирования семантики времени в различных жанрах (область дискурсивного анализа) и о проявлении в конкретном дискурсе индивидуальных особенностей автора (область лингвистической криминалистики и психолингвистики)
Результаты, выносимые на защиту:
1 Метамодель временного анализа, основанная на совокупности онтологий
2 Формализм представления временных отношений между ситуациями
3 Подсистема автоматического временного анализа дискурса, реализованная в рамках сформулированного подхода.
Апробация работы. Основные результаты исследования были представлены и прошли обсуждение в ходе докладов на всероссийских и международных конферениях 9-ой международной конференции «Speech and Computer - 2004» (г С -Петербург, сентябрь 2004 г), 9-ой Всероссийской с международным участием конференции по искусственному интеллекту КИИ-2004 (г Тверь, октябрь 2004 г), 10-ой международной конференции «Speech and Computer - 2005» (Греция, г Патрас, сентябрь 2005 г), 10-ой Всероссийской с международным участием конференции по искусственному
интеллекту КИИ-2006 (г Обнинск, октябрь 2006 г ), 2-ого международного научного семинара «Autonomous Intelligent Systems. Agents and Data Mining» (г. С -Петербург, июнь 2007 г, приглашенный доклад), в рамках круглых столов на семинаре RANLP-2005 (Recent Advances m Natural Language Processing, Болгария, г Боровец, сентябрь 2005 г ) и конференциях ИАИ-2004 и ИАИ-2005 (Интеллектуальный анализ информации, Украина, г Киев, май 2004, 2005 гг ), а также на заседаниях Кафедры теоретической и прикладной лингвистики МГУ им M В Ломоносова
Публикации. Основные результаты, полученные при выполнении диссертационной работы, опубликованы в 8 печатных работах, включая публикацию в издании, рекомендованном ВАК Из них лично соискателем опубликовано 4 работы общим объемом 2 5 п л. В соавторстве опубликовано 4 работы общим объемом 2 8 п л
Личный вклад соснскателя Результаты, выносимые на защиту, получены автором самостоятельно Личный вклад соискателя в совместно опубликованных работах составляет 1 5 п л.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка использованной литературы (164 наименования) и одного приложения. Общий объем работы без приложений составляет 155 стр, 5 таблиц, 16 рисунков
СОДЕРЖАНИЕ РАБОТЫ Во введении обоснована актуальность темы диссертации, ее научная новизна и практическая значимость, сформулирована цель работы и приведено краткое содержание диссертации по главам
В первой главе представлен список ключевых терминов, рассмотрены направления работ и отдельные лингвистические исследования теоретического и прикладного характера, так или иначе взаимосвязанные с семантикой времени, на основании такого рассмотрения предложена общая классификация исследований в соответствующей сфере, позволившая выявить области, не достаточно проработанные в лингвистической науке
Проанализированы основные подходы и методы, используемые при проектировании систем извлечения знаний из естественноязыкового дискурса Поставлена задача создания лингвистической модели времени, сформулирован подход, в рамках которого представляется целесообразной реализация модели времени в контексте извлечения знаний Предлагаемый подход можно назвать онтологическим и дискурсивным
Одним из ключевых в работе является понятие предметной онтологии (или модели предметной области), которая понимается как семантическая сеть значимых для решения некоторой прикладной задачи концептов (типов объектов и семантических отношений) При этом под семантической сетью понимается ориентированный мультиграф, узлами которого являются объекты (именованные сущности), а дугами - именованные связи между объектами При идентификации в тексте объектов и отношений того или иного типа говорят об экземпляреос объектов и связей И объекты, и связи могут иметь подтипы и набор атрибутов
В основе онтологического подхода, предложенного в работе, лежит исчисление способов обозначения в языке того или иного типа концептов (формирование системы шаблонов)
Выявлены основные составляющие, вовлекаемые в рассмотрение в рамках временного анализа дискурса актанты времени ситуаций (при этом понятия актантов и актантных структур трактуются достаточно широко и используются для спецификации лингвистических явлений различного уровня), «внутреннее время» (временной статус) ситуаций и временные отношения между ситуациями
Сформулированы критерии, которым должно отвечать исследование, ориентированное на разработку практически значимой системы временного анализа
(1) Исследование носит прикладной характер
(2) Проектируемая в рамках исследования прикладная система предназначена для работы с письменным дискурсом фиксированного
набора жанров, например, документов делового характера аналитических материалов, биографий, новостных лент Соответствующие документы составляют основу анализируемого корпуса, а в дальнейшем служат для системы входными данными
(3) Исследование ориентировано на анализ наиболее частотных и релевантных в соответствующих типах дискурса явлений, связанных с семантикой времени и временных отношений
(4) Реализуемую в рамках исследования прикладную систему можно отнести к поли- и кросс-языковым, с основным акцентом на русскоязычный дискурс.
(5) Разрабатываемая прикладная система реализуется в контексте задач извлечения знаний В дальнейшем результаты работы системы могут служить основой для целого ряда других приложений моно- и кросс-языкового реферирования, вопросно-ответных систем и т д
Предложенный в диссертации подход к анализу естественного языка был разработан и реализован в рамках семейства мультиязычных систем извлечения знаний OntosMiner.
Во второй главе рассматриваются основные принципы, модели и алгоритмы временного анализа
Рассматривается понятие когнитивной карты документа (или коллекции документов) - сети, визуализирующей семантику обрабатываемых фрагментов дискурса под управлением фиксированной предметной онтологии
Обсуждаются проблемы внутреннего устройства и масштаба шкалы времени, а также варианты алгоритмов обработки в случае, если одним из актантов временного отношения является ситуация, не определенная в рамках предметной онтологии
Специфицирована схема алгоритма временного анализа Показано, что в силу сложности языковой структуры практически значимые алгоритмы автоматической обработки естественного языка всегда являются
и
многоуровневыми, ориентированными на «послойный» анализ, где входными данными для каждого последующего уровня являются выходные данные уровня предшествующего, и включают несколько этапов
Промежуточными этапами являются следующие идентификация в тексте автономных фрагментов с семантикой времени (временных сущностей), аннотирование такого рода фрагментов (присвоение типов и набора атрибутов), идентификация экземпляров ситуаций с актантами времени, при этом сопоставленный актанту фрагмент текста может быть проинтерпретирован в терминах модели времени на предшествующем этапе, отображение аннотаций актантов времени (и как следствие, ситуаций) на временные шкалы
Таким образом, формируется метамодель, подлежащая интеграции в систему извлечения знаний и включающая четыре ключевых элемента онтологию языковых средств, онтологию времени и временных отношений, онтологию ситуаций (предметную онтологию) и временную ось (шкалу времени)
Предложена схема алгоритма временного анализа экземпляров ситуаций, состоящая из нескольких блоков
Первым является блок последовательного сопоставления анализируемого дискурса и необходимых формальных моделей Конечная цель работы данного блока - извлечение из дискурса и интерпретация в терминах принятых моделей максимально возможного (доступного) объема данных
Вторым является блок применения системы правил на результатах работы предыдущего блока На данном этапе, по сути, происходит полное абстрагирование от исходного дискурса, все операции выполняются на формальных представлениях, полученных на предшествующих уровнях Конечной целью работы данного блока является формирование репрезентаций отдельных ситуаций В рассмотрение вовлекаются два основных типа данных информация о самой ситуации и ее отображении на
оси времени (связь «Ситуация - ось»), информация о временных отношениях ситуаций между собой (связь «Ситуация - ситуация») Таким образом, могут формироваться цепочки из нескольких ситуаций, а результатом работы алгоритма в целом, в конечном счете, является единый связный граф с участием всех ситуаций в документе
При необходимости отображения на календарную шкалу, как минимум, одна из ситуаций в цепочке изначально должна быть участником отношения «Ситуация - ось» Далее происходит рекурсивная обработка других звеньев цепи, с пошаговым смещением фокуса) Оптимальной интерпретацией такого рода отношений представляется анализ в терминах актантных структур
Пример.
[21012005 {Г}]
[Представитель ФАС заявил сегодня {X}], что виновниками [роста цен на бензин в прошлом году {¥}] (Гза последние шесть месяиев стоимость нефтепродуктов поднялась в среднем по стране приблизительно на 35% {2}]) стали во многом именно вертикально интегрированные нефтекомпании.
В приведенном примере ситуация X совпадает по времени с моментом речи Т (который фиксирован датой создания документа -параметром, обязательным для новостного текста) Ситуация У предшествует ситуации X и находится внутри отрезка времени, заданного годом, который непосредственно предшествует периоду, фигурирующему в значении атрибута «год» даты создания документа При этом из последующего контекста следует, что ситуацию У можно интерпретировать как точку начала ситуации X, в то время как точкой окончания ситуации Ъ является, согласно маркеру «за последние шесть месяцев», ситуация Т (те момент речи) Также известно, что длительность периода, являющегося актантом ситуации Ъ, равна шести месяцам, что позволяет получить более точные данные о положении ситуации У на календарной шкале
Третьим является блок сопоставления проинтерпретированных необходимым образом ситуаций и оси времени (кале ад арной шкалы). В результате оказывается выполненной конечная цель работы системы.
Предложенный подход представляется универсальным для различных предметных областей.
В области графического представления временных отношений между извлекаемыми из дискурса ситуациями возможны несколько типов репрезентаций. Рассматриваются линейное и древесное представление, а также представление временных отношений между ситуациями в виде семантической сети, когнитивной карты времени. Репрезентация в виде семантической сети представляется наиболее оптимальной, адекватно
отражающей нюансы семантики естественноязыкового дискурса:
ДЩЦДИЕГ' №И1 Т1ИЬ*К»и. Ш
а, С« ш ' ■ ■ ' ■
г_ ■ ^ Д - £1 В - Ч Л РР* > « е Ъ 2» Ь " т '
В этой же главе формулируются основные принципы обработки естественноязыковых текстов в рамках онтологического подхода, в частности, связанные с методами разграничения релевантных и нерелевантных данных.
Обсуждаются параметры корпуса и методы исследования.
Автоматическое извлечение знаний наиболее актуально при решении тех задач, где речь идет об анализе значительных объемов информации, т е больших коллекций документов Как показывает практика, к числу таких задач относятся мониторинг средств массовой информации, конкурентная разведка, аналитическая деятельность в сфере политики, бизнеса, в рамках силовых структур Все это определяет набор предметных областей, представляющих наибольший интерес для потенциальных пользователей соответствующих систем
С учетом вышесказанного был сформирован корпус, положенный в основу настоящего исследования В него вошли тексты - прежде всего, интернет-документы - нескольких типов (жанров) резюме и биографии лиц, интервью, материалы о коммерческих организациях, в том числе, зарубежных и международных, фрагменты новостных лент, аналитические документы в области политики и экономики
Основной акцент сделан на анализ русскоязычного дискурса В части кодирования временных сущностей при формировании структуры и набора порождаемых аннотаций привлекались также материалы из соответствующей предметной области на английском, французском и немецком языках Разработанная система правил позволяет извлекать временные сущности из естественноязыковых текстов на всех перечисленных языках
Общий объем обучающего (отладочного) корпуса составил 200 документов средним объемом 3 страницы, из них - 100 на русском, 40 - на английском и по 30 на французском и немецком языках Число аннотаций, соответствующих автономным временным сущностям и маркерам временных отношений, в среднем, составило от 10 до 40 элементов на одну страницу, при, этом в биографиях и аналитических документах количество такого рода концептов обычно выше, чем в других жанрах Таким образом, общее количество проанализированных временных сущностей - несколько тысяч единиц. В процессе исследования была выявлена следующая закономерность насыщение онтологии языковых средств (т.е существенное
снижение числа новых языковых явлений) происходит, в зависимости от класса явлений, на уровне 10, 30, 50 и 80 документов
Объем контрольного корпуса составил 100 документов средним объемом 3 страницы, из них - 50 на русском, 20 - на английском и по 15 - на французском и немецком языках
Фрагмент характерного русскоязычного текста приведен ниже Подчеркиванием маркированы временные сущности и маркеры временных отношений, вовлекаемые в процесс анализа под управлением онтологаи времени.
Пример 22102006
Потанин Владимир Олегович, 1961 года рождения
В 1983 году закончил Московский государственный институт международных отношений По специальности экономист-международник С 1983 по 1990 год работал в Министерстве внешней торговли СССР В 1991 году возглавил внешнеэкономическую ассоциацию "Интеррос" С1992 по 1993 год занимал пост вице-президента, а затем президента акционерного коммерческого банка "Международная финансовая компания"
С 1993 года по август 1996-го был президентом ОНЭКСИМбанка В настоящее время - первый заместитель Председателя правительства Российской Федерации
Указом президента Бориса Ельцина назначен в сентябре председателем правительственной комиссии по совершенствованию платежей и расчетов Женат, имеет сына и дочь
В бытность первым вице-премьером Анатолий Чубайс дважды приезжал в Вашингтон на сессию МВФ и Всемирного банка Спустя считанные часы после приземления на авиабазе "Эндрюс" его уже принимал в Белом доме вице-президент США Альберт Гор Сменившему Чубайса Владимиру Потанину подобных знаков внимания на нынешней сессии МВФ и ВБ не оказали Он для Америки пока темная лошадка Лавров либерала-реформатора за ним не числится, а банкирское прошлое - с учетом слухов о всепроникающей русской мафии - скорее повод для осторожности Мой давний знакомый, сотрудник вашингтонского Белого дома Евгений Румер при
встрече сказал "У нас полагают, что Потанин не самостоятельная фигура Что и в ОНЭКСИМбанке он лишь номинально был на первых ролях" Я хмыкнул
В заключительной части главы обсуждаются особенности
интерпретации действительности в контексте автоматических систем, а
также факторы, влияющие на выбор явлений, подлежащих автоматическому
анализу частотность, устойчивость и допустимость
В третьей главе описываются принципы обработки временных
сущностей и отношений между ситуациями
Выдвигается и обосновывается постулат о необходимости обращения к
онтологическим данным с целью максимально адекватной интерпретации
лингвистических явлений
Пример
Владимир Иванович Козлов был уволен из МВД в 2001 году по выслуге лет При анализе данного фрагмента в случае наличия в модели связи типа «являться сотрудником, работать» следует извлекать открытый период времени, несмотря на «точечный» характер поверхностного предиката Необходимость такого рода интерпретации задана тем, что временной актант онтологического предиката «являться сотрудником, работать» определен как период
Обсуждаются особенности реализации подсистемы идентификации временных сущностей.
Разработанная подсистема (несколько сотен правил в рамках нескольких десятков фаз анализа) позволяет извлекать временные сущности из дискурса на русском, английском, немецком и французском языках Достоверность обработки (сочетание параметров точности и полноты) для каждого из типов сущностей составляет не менее 95%
В качестве среды разработки и последующих экспериментов была выбрана многоплатформенная инструментальная среда GATE (General Architecture for Text Engineering), созданная в Шеффилдском университете Великобритании, а в качестве языка представления знаний (ЯГО) - язык
1АРЕ+ Выбор соответствующего инструментария обусловлен его удобством для реализации приложений лингвистического характера и достаточной для анализа языковых явлений изобразительной мощностью формализма
В общем виде классификация порождаемых системой типов аннотаций представлена в таблице, фрагмент которой дан ниже В ней приведены временные сущности «единичного» характера, различные сочетания которых могут формировать множественные концепты (англоязычная нотация здесь и далее обусловлена реализацией подсистемы в рамках многоязычной системы извлечения знаний, полужирным шрифтом выделены тексты примеров)
Основные классы временных сущностей
TimeNE Tune TimeNE Атрибут Примеры
major type NE minor type minor subtype ы
Points calendar concrete day, [13.]day 13 [O4.]mon&4
point month, year [2004]year 2004, [ler]day 1 jjanvier]montb. 1 (Fr)
abstract date class on [Easter]date class Easter day (En)
(общеизвестны
e события)
histonca concrete event в день [избрания
1 point1 B.B.nyTHHa]event "Putin election" (Ru)
abstract event class в день [Bbi6opos]event class elections (Ru)
1 Могут рассматриваться в качестве общеизвестных Аналогичные конструкции, содержащие ссылки на экземпляры ситуаций, могут использоваться как маркеры временных отношений
moment concrete distance [il у ajdirection past [quatre
-of- (number + années]distance number 4, unit year
speech unit), (Fr),
oriented direction, das [letzte]direction past, distance
point unit kind number last before now [Jahrjumt kind year (Ge), [yesterdayjdirection past, distance number last before now, unit kind day(En)
abstract direction, remoteness [недавно] direction past, remotness small (Ru)
В основе системы шаблонов лежит исчисление различных вариантов сочетаний языковых выражений, кодирующих семантику времени, и/или потенциальных фрагментов таких выражений (числительные и тп), что позволяет говорить о комбинаторном характере системы правил
При выявлении в процессе разработки допустимых сочетаний языковых выражений необходимо учитывать иерархичность сущностей, определяющую возможность вложений элементов Несоблюдение данного принципа может привести в процессе обработки реального дискурса к порождению ложных интерпретаций Примеры
1) В течение одного месят первого года следует предоставить всю необходимую документацию по проекту В данном случае временная сущность «один месяц» уточняет временную сущность «первый год», что, по сути, формирует единый объект, единый актант ситуации («один месяц первого года»)
2) В течение первого года одного месяиа на разработку всей необходимой документации может не хватить В данном случае объединение соответствующих объектов в единую временную сущность некорректно
1АРЕ-правила являются правилами продукционного типа, в левой части которых представлены лингвистические шаблоны, специфицирующие
г
языковые выражения, подлежащие идентификации (ЯПЗ JAPE+), а в правой (язык программирования JAVA) происходит генерация необходимой аннотации.
Ниже приведен пример JAPE-нравила (схема левой части), предназначенного для идентификации одного из типов календарных дат (экземпляр правила ориентирован на французский язык, структура правила является общей для всех языков, рассматриваемых в рамках настоящего исследования), и представлена иллюстрация результатов идентификации временных сущностей и ряда других объектов в произвольном тексте на французском языке с использованием системы правил, разработанных в рамках настоящего исследования (результаты представлены в среде GATE). Rule: Datei
JJ] janvier 29&4, le 1erjanvier ?0D4, 1er janvier, janvier 2004, ■ 'C" (
({Morph.POS--="art"})? ( (ONE TWO DIGIT)ibintlDay (ORDINAL)? )? { ({Lookup.minorTypc — month} ):bindMonth) ( (YEAR)? ):bmdY ear
):buid
--> (Генерация необходимой аннотации}
I В V-i Гг.
[
Рассматривается ряд классов лингвистических явлений с целью иллюстрации процесса обработки временных отношений между ситуациями (в том числе, представленными в тексте имплицитно) с помощью обращения к формализму онтологий. При этом речь идет о примерах использования онтологических знаний при интерпретации лингвистических явлений в контексте создания формальных (понимаемых системой автоматической обработки) правил вывода, ориентированных на идентификацию временного статуса ситуаций и временных отношений между ними При анализе корпуса текстов было сформировано несколько десятков классов такого рода явлений Детально рассматриваются следующие феномены и операции-
(1) употребление актантов «невременного характера» в значении актантов времени,
(2) второстепенные атрибуты ситуаций как актанты времени,
(3) ограничение пространства возможных вариантов интерпретации в случае неоднозначности («снятие НЕ-вариантов»),
(4) корреляции в порядке следования ситуаций в дискурсе и в экстралингвистической действительности обращение к онтологиям при интерпретации множественных актантов,
(5) взаимное определение параметров двух и более ситуаций,
(6) введение в рассмотрение одной или нескольких ситуаций посредством эксплицитного указания на момент речи,
(7) идентификация элементов сценария посредством обращения к онтологическим данным,
(8) обращение к онтологии при извлечении имплицитной информации восстановление эллипсисов и ситуаций, находящихся за рамками дискурса,
(9) явления анафорического характера различных типов,
(10) извлечение неидентифицируемых в рамках онтологии событий, концепты «опыта» и «заслуги»,
(11) имплицитные указания на временные отношения между ситуациями,
(12) разрешение омонимии языковых выражений, кодирующих временные сущности: точки уб. периоды;
(13) автономные ситуации в роли актантов времени.
В четвертой главе приводится итоговая классификация временных сущностей и временных отношений между ситуациями. Специфицируется онтология времени, разработанная на основе результатов исследования.
Результатом анализа дискурса под управлением представленной ниже онтологии являются временные когнитивные карты текстов.
С точки зрения лингвистической науки такого рода репрезентацию можно считать одним из вариантов спецификации дискурсивной структуры, позволяющим анализировать как особенности конкретного дискурса, так и отражение в языке представлений носителей о физическом времени (при больших объемах данных).
В области инженерии знаний и анализа информации соответствующее представление может служить мощным инструментом,
например, при прецедентном анализе в контексте поиска ситуации с идентичной или схожей внутренней структурой
Одной из практических задач, где представляется целесообразным внедрение описываемого подхода к анализу временных отношений между ситуациями, является автоматическое реферирование документов и их коллекций, в том числе, кросс-языковое реферирование Общая схема алгоритма реферирования представлена ниже
Система шаблонов
1Йсх 2 Content
текст Extraction (на
основе
шаблонов)
ЗСМар
5 Формальное
отдельных шаблоне (для
конечного текста узлов н дуг)
б Лингв (втч
стилист)
операции на
отдельных
фрагментах
формальных
представлений
11 Лингв (втч стилист)операции на формальном представлении конечного текста в целом (анафорические замены «переходные» фрагмент и т д.)
? Ибйошование мвфик ion:
3t
В заключении приведены основные выводы и результаты, полученные в диссертационной работе
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
1 Предложен онтологический дискурсивный подход к временному анализу
естественноязыковых текстов
2 Сформулирован и обоснован постулат о необходимости обращения к онтологическим знаниям в целях наиболее адекватной интерпретации естественноязыкового дискурса
3 Разработаны лингвистические классификации временных сущностей и отношений, ориентированные на внедрение в прикладные системы
4 Разработан формализм представления временных отношений между ситуациями
5 Разработана онтология времени и временных отношений, ориентированная на внедрение в прикладные системы
6 Сформирована мета-модель временного анализа, основанная на совокупности онтологий
7 Разработан алгоритм временного анализа дискурса в контексте извлечения знаний
8 Реализована подсистема автоматического временного анализа естественноязыкового дискурса.
9 Предложен метод онтологически-ориентированного синтеза дискурса
СПИСОК РАБОТ, ОПУБЛИКОВАННЫХ ПО ТЕМЕ ДИССЕРТАЦИИ
1 Ефименко И В Время в мультиязычных коллекциях документов
лингвистическая модель и ее реализация в среде GATE // Девятая Всероссийская конференция по искусственному интеллекту КИИ-2004 Тверь - М Физматгиз, 2004 - Т 2 - С 525—532
2 Ефименко И В, Леонтьева Н Н. Семантическое аннотирование под управлением предметных онтологий в проекте ONTOSMINER // Девятая Всероссийская конференция по искусственному интеллекту КИИ-2004 Тверь - М. Физматгиз, 2004. -Т 2 - С 516—524
3 Efimenko IV, Khoroshevsky VF, Klintsov VP OntosMiner Family Multilingual IE Systems // In the Proceedings of International Conference SPECOM-2004 St-Peterburg, Russia - SPIIRAS Ed, 2004 -P 716-720
4 Efimenko I V, Khoroshevsky V F Multilingual Content Extraction Systems Ontology-Driven Semantic Analysis // In the Proceedings of International Conference SPECOM-2005 Patras, Greece, 2005 - P 305-309
5 Ефименко И В Лингвистические аспекты кросс-языкового реферирования синтез текстов под управлением предметных онтологий // Десятая Всероссийская конференция по искусственному интеллекту КИИ-2006 Обнинск - М Физматгиз, 2006 - Т 2 - С. 525-535
6 Ефименко И В Обработка естественноязыковых текстов онтологичность в лингвистике и дискурсивность в извлечении знаний // Десятая
Всероссийская конференция по искусственному интеллекту КИИ-2006 Обнинск - М Физматгиз, 2006 -Т2.-С 536-545
7 Drobyazko G, Efimenko I., Kananykma P, Khoroshevsky V., Klmtsov V, Lisitsm D, Seledkin V., Staxostin A, Vorobyov V Ontos Solutions for Semantic Web. Text Mining, Navigation and Analytics // Autonomous Intelligent Systems Agents and Data Mining, St -Peterburg, Russia - Springer Ver, 2007 - P. 11-27
8 Ефименко И В Семантика времени модели, методы и алгоритмы идентификации в системах автоматической обработки естественного языка //Вестник Московского государственного областного университета Серия «Лингвистика». - № 2 - М Издательство Московского государственного областного университета, 2007 - С 179-185
Напечатано с готового оригинал-макета
Издательство ООО "МАКС Пресс" Лицензия ИД N00510 от 01 12 99г Подписано к печати 03 10 2007 г Формат 60x90 1/16 Уел печи 1,5 Тираж 100 экз Заказ 490 Тел 939-3890 Тел/Факс 939-3891 119992, ГСП-2, Москва, Ленинские горы, МГУ им МВ Ломоносова, 2-й учебный корпус, 627 к