автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Построение модели извлечения информации из технических текстов
Полный текст автореферата диссертации по теме "Построение модели извлечения информации из технических текстов"
На правах рукописи
БАБИНА Ольга Ивановна
ПОСТРОЕНИЕ МОДЕЛИ ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕХНИЧЕСКИХ ТЕКСТОВ
Специальность 10.02.21 — Прикладная и математическая лингвистика
Автореферат
диссертации на соискание ученой степени кандидата филологических наук
7/ гг <■ «.г *'Ь<(- с «с
Тюмень 2006
У "
Работа выполнена на кафедре лингвистики и межкультурной коммуникации Южно-Уральского государственного университета.
Научный руководитель
Официальные оппоненты
доктор филологических наук, профессор
Шереметьева Светлана Олеговна
доктор филологических наук, профессор
Мышки на Нэлли Леонидовна
кандидат технических наук, доцент
Поляков Владимир Николаевич
Ведущая организация ГОУ ВПО Российский государственный
педагогический университет им. А.И. Герцена
Защита состоится 28 октября 2006 года в 9.00 часов на заседании диссертационного совета К 212.274.05 по защите диссертаций на соискание ученой степени кандидата филологических наук при Тюменском государственном университете по адресу: 625000, г. Тюмень, ул. Семакова, 10, корпус 1, ауд. 211.
С диссертацией можно ознакомиться в читальном зале библиотеки Тюменского государственного университета по адресу: 625000, г. Тюмень, ул. Семакова, 10, корпус 1.
Автореферат разослан ¿^¿сентября 2006 года.
Ученый секретарь диссертационного совета
кандидат филологических наук, ^Ц_ С-о^и-и^г
доцент Т. В. Сотни ко ва
Развитие наук сегодня идет все увеличивающимися темпами, что ведет к стремительному росту научно-технической информации, представленной в текстовых документах. Это относится, в частности, к патентным документам, так как новые технические решения и изобретения регистрируются посредством патентования.
При получении заявки на патентование изобретения перед патентными ведомствами встает задача определить новизну предлагаемого заявителем технического решения. Для этого необходимо проанализировать весь объем существующей на текущий момент патентной документации, определив, не подпадает ли новое изобретение под один из действующих патентов. В современных условиях огромных объемов этой документации такая проверка вручную становится практически неподъемной задачей. В связи с этим появляется необходимость автоматизации процесса поиска патентов, порочащих новизну изобретений.
Однако современные средства автоматического отбора информации из массивов текстов большей частью ориентированы на использование некоторого искусственного языка, представляющего собой упрощение естественного языка (ЕЯ). Семантическая сила искусственных языков в значительной степени уступает естественным. Упрощения, как правило, включают в рассмотрение далеко не все уровни ЕЯ. Синтаксический и семантический уровни часто остаются за пределами таких моделей ЕЯ. Это негативно влияет на показатели точности и полноты поиска патентной информации в информационных массивах латентных текстов.
Таким образом, с одной стороны, огромные массивы существующей информации задают необходимость автоматизировать процессы отбора информации из естественно-языковых текстов. С другой стороны, на сегодняшний момент не существует моделей, которые бы в достаточной степени учитывали особенности ЕЯ при отборе необходимой информации,
В связи с этим, актуальность данного исследования обусловлена необходимостью совершенствования автоматизированных средств отбора релевантной информации из информационных массивов текстов на ЕЯ (в частности, патентных документов). Такая необходимость проистекает из того, что в существующих сегодня системах используются в недостаточной степени разработанные модели извлечения информации, слабо учитывающие особенности ЕЯ.
Недостаточная степень разработки систем извлечения информации, основанных на автоматической обработке естественно-языкового текста, объясняется трудностями, возникающими при описании сложной системы ЕЯ, что обусловлено его природой. Природа естественного языка, отличительной особенностью которого является нечеткость1, принципиально отлична от искусственных языков, которые могут быть представлены посредством исчисления. Сознание человека способно воспринимать нечеткие суждения и из контекста делать выводы о значениях, актуализованных в высказываниях на естественном языке. Машина может воспринимать только то, что эксплицитно задано в описании модели автоматиче-
1 Заде, Л. Понятие лингвистической переменной и его применение к принятию приближенных решений / Л. Зале;
пер с англ. - М.: Мир, 1976. - 165 е.; Налимов, В.В. Вероятностная модель языка / В.В. Налимов. - 2 изд. - М.: Паука, 1979.— 303 с.
ской обработки текста, используемой в системе. Причем многозначность языковых единиц значительно снижает качество работы систем автоматической обработки текстов, так как ставит проблему выбора из множества альтернатив, что не доступно «пониманию» машины.
В связи с этим повышение качества систем отбора информации возможно, с одной стороны, посредством ограничения обрабатываемой в системе информации до подъязыка конкретной предметной области" (ПО), что позволяет за счет сужения контекста максимально сократить число возможных актуализаций значений в конкретных высказываниях. С другой стороны, посредством максимально полного и эксплицитного представления знаний'' об особенностях выбранного подъязыка в модели извлечения информации из поискового массива текстов, что дает возможность в оставшихся случаях неоднозначности принимать по возможности верные решения.
В своем исследовании мы ограничиваем предметную область патентами на способ в фармакологии. Наиболее важной частью патентного документа является формула изобретения. Именно она имеет «решающее значение для оценки органов, осуществляющих государственную научно-техническую экспертизу изобретений, новизны и существенных отличий, а также положительного эффекта заявляемого объекта»4. Поэтому целесообразным представляется производить поиск релевантных для экспертизы патентных документов на основании анализа именно текста формулы изобретения. Руководствуясь вышеизложенными соображениями, мы определили объект и предмет исследования.
Объектом исследования является семантико-синтаксическая структура формулы изобретения на способ (ФИС) патентов по фармакологии.
Предметом исследования является разработка процедуры автоматизированного отбора релевантной информации из информационного массива ограниченной ПО, использующей предикатно-аргументную конструкцию в качестве единицы поиска.
Материалом для исследования послужил корпус текстов, включающий ФИС 295 патентов США по фармакологии объемом около 210 тыс. словоупотреблений.
Целью нашего исследования является построение модели отбора информации из патентных текстов в узкой ПО, использующей модуль автоматической обработки текста на естественном языке для максимально полного представления знаний.
Для достижения поставленной цели реализуется ряд задач теоретического и практического характера:
' Городецкий, Б.Ю. Методы семантического исследования ограниченного подъязыка / Б.Ю. Городецкий, В.В. Раскин. - М.: Изд-во Моск. ун-та, 1973. - 414 е.; Kittredge, К. Synthesizing Whether Forecasts from Formatted data I K. Kittredge, A. Polguere, E. Goldberg U Proceedings of the 11л International Conference on Computational Linguistics (COUNG-86). Bonn, Germany. 1986. Pp. 563-565.
Мельников, Г.П. Системология и языковые аспекты кибернетики / Г.П. Мельников: под ред. Ю.Г. Косарева. - М.: Сов. радио, 1978. - 368 с.
4 Изобретателям и рационализаторам: Сб. офиц. материалов / сост. 13 И Божинский. - М.: Профиздат, 1980. — 256 с. 4
1. Исследовать существующие подходы к построению информационно-поисковых систем (И1ТС) и границы использования модулей автоматической обработки текста в этих системах;
2. Определить лингвистические особенности организации ФИС;
3. Провести сравнительный анализ отличий лексики и грамматики в формулах изобретения патентов на устройство (ФИУ) и на способ;
4. Модифицировать процедуру анализа текста ФИУ, настроив на обработку текстов ФИС;
5. Расширить процедуру автоматического анализа текста для решения задач индексирования патентных документов посредством представления семантико-синтаксической структуры ФИС;
6. Определить возможности переиспользования интерфейса системы автоматического синтеза формулы изобретения для определения запроса к системе автоматического поиска патентных текстов;
7. Разработать критерии оценки сходства образа запроса и документа для текстов формул изобретения патентов на способ в фармакологии.
Основным методом исследования является метод моделирования5, посредством которого определяется структура подъязыка и на этой основе осуществляется построение процедуры отбора документов из информационного массива патентных текстов. Моделирование процесса извлечения релевантной информации строится на базе использования также следующих вспомогательных методов исследования:
■ метод сплошной выборки при отборе документов, составивших корпус текстов;
■ валентный анализ языкового материала;
■ классификационно-типологический подход при анализе языкового материала;
■ метод компонентного анализа лексики;
■ метод статистического анализа для определения особенностей функционирования лингвистических единиц в тексте ФИС;
■ метод дистрибутивно-статистического анализа при настройке процедуры автоматического анализа текста;
■ метод экспериментальной проверки модели, воспроизводящей процедуру отбора релевантных текстов документного массива;
■ аппарат теории множеств, математической логики, а также теории представления знаний и теории алгоритмов при описании основных положений модели отбора информации.
Диссертационное исследование опирается на работы по изучению семантики предикатов (A.A. Уфимцева, Е.В. Падучева, У. Чейф, Б. Левин), семантических и синтаксических отношений в предикатной структуре предложения (Ч. Филмор,
5 Лосев, А.Ф. Введение в общую теорию языковых моделей: Уч. пособие / А.Ф. Лосев; под ред. И.А. Василенко. -М.: Изд-во Моск. гос. яед. инст., 1968. - 296 е.; Степанов, Ю.С. Методы и принципы современной лингвистики / Ю.С. Степанов. - 2-е шд. - М.: Эдиториал УРСС, 2001. - 312 е.; Ревзин, И.И. Современная структурная лингвистика: Проблемы и методы / И.И. Ревзин; отв. ред. Вяч. Вс. Иванов. - М.: Изд-во «Наука», 1977. - 263 с.
Л. Теньер, М. Минский, И.М. Богуславский, И.М, Мельчук, H.H. Леонтьева и др.), семиотические исследования природы и структуры языка (Р.Г. Пиотровский, В.В. Налимов, Л. Заде), а также на работы отечественных и зарубежных ученых по созданию прикладных систем автоматической обработки текста (С.О. Шереметьева, Е.А. Шингарева, К. Киттридж, А. Джоши и др.).
Научная новизна работы определяется тем, что данный языковой материал впервые исследуется с применением указанной совокупности современных лингвистических методов, что определяет новизну полученных результатов. Существенной новизной отличается разработанный метод отбора информации, основанный на использовании предикатно-аргументной структуры текста формулы изобретения в качестве единицы поиска при сопоставлении образов документа и запроса. Впервые разработаны формальные правила сопоставления патентного документа я запроса, использующие лингвистические особенности структуры формулы изобретения.
Теоретическая значимость исследования заключается в формальном описании одной из обособленных языковых подсистем (подъязыка ФИС), а также в моделировании системы отбора информации на основе использования в качестве образа документов в информационном массиве результата применения к ФИС процедуры автоматического лингвистического анализа текста. Полученные результаты вносят определенный вклад в разработку общей таксономии подъязыков науки и техники. Предложенный способ отбора информации дает основания расширить теорию информационного поиска, включив в область ее рассмотрения модели, использующие в качестве единицы поиска не только номинативные элементы, но и ситуативные (предикативные) единицы.
Практическая значимость исследования заключается в возможности создания на базе разработанных правил системы автоматического отбора информации из массива патентных документов, с помощью которой решается задача автоматизации патентной экспертизы в ходе рассмотрения заявки на вновь патентуемые объекты. Тем самым облегчается труд и значительно уменьшаются затраты времени работников патентных ведомств. Результаты исследования подъязыка ФИС могут быть использованы также при разработке других приложений автоматической обработки текста: систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной лингвистике. Описанная модель в дальнейшем может быть модифицирована для автоматизации не только этапа поиска, но и всей процедуры патентной экспертизы.
Положения, выносимые на защит>':
1. Использование лингвистической базы знаний, определяемой предложенной методологией извлечения информации, обеспечивает более полное и глубокое представление поисковых образов документа и запроса, учитывающее семантические отношения между участниками описываемых в текстах ситуаций;
2. Использование унифицированной формы для представления поискового образа полнотекстового документа и запроса с помощью набора фреймоподобных предикатно-аргументных структур расширяет возможность сравнивать образы на семантическом уровне;
3. Разработанные правила и предложенные метрики для сличения образов запроса и документа позволяют проранжировать результаты в зависимости от степени релевантности запросу отобранных документов.
4. Переиспользование некоторых алгоритмов и правил автоматического анализа текста, настроенных для использования в другой предметной области, повышает эффективность разработки новых приложений на новом материале, уменьшая затраты труда и времени.
Апробация материалов исследовании. По теме диссертации были сделаны доклады на Международной научно-практической конференции «Теория и методика преподавания языков в вузе» (Челябинск, 15-17 декабря 2003 г) и на Второй международной конференции по модели «Смысл О Текст» (Москва, 23-25 июня 2005 г). Отдельные этапы исследования обсуждались на научных семинарах кафедры лингвистики и межкультурной коммуникации Южно-Уральского государственного университета. По теме диссертационной работы опубликовано 7 работ общим объемом 2 п.л.
Объем и струетура исследования. Структура работы соответствует целям и задачам исследования. Работа состоит из введения, трех глав, заключения, списка литературы, включающем наименования на русском, английском, французском и немецком языках, и 9 приложений. Общий объем диссертационной работы составляет 235 страниц печатного текста.
Во введении обосновывается актуальность темы исследования, научная новизна, теоретическая и практическая значимость работы, определяется объект и предмет исследования, его основная гипотеза, формулируется цель, задачи и выносимые на защиту положения, дается описание материала и методики исследования. Введение также содержит данные об апробации результатов, структуре и объеме диссертационной работы.
В первой главе «Модели и средства извлечения информации» рассматриваются информационно-поисковые системы и модели извлечения информации из массива текстов. Особое внимание уделяется лингвистическому компоненту, являющимся ключевым при отборе текстов на естественном языке. Рассматривается место поиска при проведении патентных исследований.
Во второй главе «Подъязык формул изобретения патентов на способ в фармакологии» представляется результат лингвистического анализа языкового материала подъязыка ограниченной предметной области. Акцент делается на син-тактико-семантической структуре исследуемых текстов, в частности на особенностях предикатно-аргументной структуры текстов формул изобретения патентов на способ. Детально исследуется семантика предикатов подъязыка ФИС.
В третьей главе «Модель извлечения информации из поискового массива формул изобретения патентов на способ» описывается модель извлечения информации из корпуса текстов формул изобретения. Описывается методика переиспользования и применения процедур автоматической обработки текста для представления поисковых образов патентных документов в информационном массивс. Показывается способ формирования образа запроса на основе использования интерфейса системы формального синтеза ФИС. Определяются принципы и правила
сопоставления образов запроса и патентных документов с целью отбора релевантных текстов. Приводится пример применения описанной модели для извлечения из патентной базы патентных документов.
В заключении подводятся общие итоги работы, намечаются направления для дальнейших исследований, обозначаются перспективы для применения и совершенствования описанных в работе правил и процедур.
Основное содержание работы
В первой главе дастся представление о средствах, используемых для отбора информации из массива текстов, рассматривается лингвистическая составляющая процедур извлечения информации из поисковых массивов, а также определяется роль средств автоматического извлечения информации при проведении патентного поиска.
В качестве современных средств отбора информации выступают информационно-поисковые системы, каждая из которых использует индивидуальную модель извлечения информации из поискового массива. Основными составляющими, определяющими существо модели извлечения информации, являются: 1) структура информационного массива; 2) лингвистический компонент, лежащий в основе процедуры отбора информации; 3) правила и процедуры, с помощью которых осуществляется отбор информации непосредственно.
По способу организации информационного массива среди поисковых систем выделяют: 1) документальные; 2) фактографические; 3) документально-фактографические (смешанные). В документальных массивах информация представляется в форме текстов, каждый из которых представляет собой единицу информации. В фактографических системах в качестве единицы информации выступает факт/событие/ситуация с описанием значений его основных признаков/участников. В смешанных системах описание каждого факта соотносится с документами, в которых имеется информация о нем. Для нашего исследования интерес представляют документальные ИПС.
В подавляющем большинстве случаев информационный массив в современных документальных поисковых системах представляет собой набор текстов на естественном языке. Это обусловлено тем, что: 1) естественный язык обладает наибольшей семантической силой, и поэтому является наиболее «эффективным» (с точки зрения человека) средством представления информации в терминах смыслоразличения и смыслоотождествления; 2) естественный язык является наиболее типичным средством экспликации смыслов и передачи информации, что является причиной того, что знания в современном мире, чаще всего, представляются в форме текстов на естественном языке, в частности, письменных текстов. Представление информации в каком-либо другом формате требует дополнительных усилий по преобразованию информационных сообщений на естественном языке в сообщения, представленные через знаковую систему иного рода. Видимо, подобные преобразования должны проводиться вручную, что является практиче-
ски неподъемной задачей для человека и даже для группы людей в условиях высокого роста информации, в частности, научно-технической информации.
Способ представления информации на естественном языке в поисковых массивах предопределяет ключевую роль лингвистического компонента в моделях извлечения информации. Лингвистический компонент системы поиска включает: 1) информационно-поисковый язык (ИПЯ), являющийся, как правило, ограничением естественного языка; степень и виды ограничения в ИПЯ определяются процедурами отбора информации, применяемыми в данной ИПС; 2) словарная база, включающая используемые в процедурах отбора информации лексиконы, тезаурусы, онтологии.
Среди ИПЯ выделяют предкоординируемые и носткоординируемые ИПЯ. Предкоординируемые ИПЯ строятся, как правило, в форме иерархии, а поиск с их использованием включает продвижение по ветвям иерархии с последовательным сужением области релевантных для поиска единиц информации. Язык, представляющий собой иерархию терминов, является закрытой системой с жесткой структурой. Посткоординируемые ИПЯ более свободны по своей структуре. Они обладают вокабуляром и грамматикой. Термины посткоординируемых языков связаны между собой парадигматическими и синтагматическими отношениями. Степень семантической силы таких языков тем выше, чем более полно вокабуляр и грамматика ИПЯ соответствует естественному языку.
Вокабуляр ИПЯ инвентаризуется в автоматических словарях (лексиконах). Лексиконы могут составляться автоматически или вручную. В последнем случае в лексиконе часто представляется информация о морфологических характеристиках каждого вхождения.
Для отражения парадигматических отношений между лексическими единицами ИПЯ используются информационно-поисковые тезаурусы. В тезаурусе показываются отношения меронимии, синонимии, антонимии и т.д. между терминами ИПЯ. Таким образом, в тезаурусе отражается не только языковая информация о лексической единице, но также ее место в структуре терминов предметной области, представленной в тезаурусе.
Структурно аналогичны тезаурусам онтологии, но в качестве вхождения в последних используются не термины ИПЯ, а понятия (концепты), которые связаны между собой парадигматическими отношениями. Каждому концепту может соответствовать список терминов ИПЯ.
Лингвистический компонент составляет основу моделей поиска релевантной информации в поисковом массиве. Исторически первыми и наиболее распространенными в настоящее время являются статистические модели поиска, среди которых выделяют: 1) теоретико-множественные; 2) векторные; 3) вероятностные модели. Фундамент статистических моделей составляет лексический состав ИПЯ. Поиск осуществляется по фразам, состоящим из ключевых слов (терминов ИПЯ), связанных набором допустимых в ИПЯ операторов: морфологических, логических, операторов фрагментирования поискового образа документа, дополнительных контекстных операторов, операторов поиска по числовым параметрам. Степень релевантности документа определяется по соответствию фразы запроса до-
кументу на основании: 1) наличия/отсутствия указанных в запросе ключевых слов в документе; 2) значений векторпых коэффициентов, определяющих степень сходства векторов, репрезентирующих запрос и документ; 3) значений вероятностных коэффициентов, учитывающих степень важности каждого ключевого слова, указанного в запросе, для характеристики данного документа.
Другой класс моделей поиска включает лингвистические модели, в которых предпринимается попытка учесть при отборе релевантной информации особенности вокабуляра, а также синтаксическую и семантическую сторону естественного языка. Соответственно можно выделить: 1) синтаксические; 2) семантические модели поиска.
В синтаксических моделях в качестве единиц поиска рассматриваются словосочетания (чаще именные группы) или клаузы. Посредством лингвистического процессора осуществляется полный или частичный синтаксический анализ текста запроса и документа. Отбор релевантной информации осуществляется в результате сопоставления деревьев/сетей, полученных в результате синтаксического разбора предложений/словосочетаний в запросе и документе. Это дает возможность увеличить точность поиска, так как сходство выявляется не только на уровне лексических единиц, но и на уровне синтагматических отношений между ними.
В семантических моделях предпринимается попытка учесть лексико-семантические варианты слов с целью улучшения показателей полноты поиска. Ключевую роль в таких моделях играют тезаурусы и онтологии. Учет лексико-семантических вариантов посредством словарных средств осуществляется двумя способами: I) расширение запроса терминами, связанными определенными семантическими отношениями с терминами запроса; 2) избыточное индексирование документов.
Поиск патентной документации является одним из основных этапов патентных исследований. Автоматизация процесса поиска посредством использования ИПС, осуществляющих поиск на патентных базах данных, является неизбежной необходимостью в свете неумолимого роста объемов научно-технической информации, в частности, патентной.
Основным разделом патента является формула изобретения, обладающая технической, экономической и юридической силой. Патентная формула представляет собой специфичный текст на естественном языке, в котором описывается изобретение с его существенными признаками6. Например, один из пунктов формулы изобретения патента US 6,485,910 имеет вид:
A method for using a cDNA to detect the differential expression of a nucleic acid in a sample comprising:
a) hybridizing the probe of claim 4 to the nucleic acids, thereby forming hybridization complexes; and
b) comparing hybridization complex formation with a standard, wherein the comparison indicates the differential expression of the cDNA in the sample.
6 Киселева, Т.С. Экспертиза объектов техники на патентную чистоту: Уч. пособие / Т.С. Киселева. - М.: ВНИИПИ, 1991. - 116 е.; Фейгельсон, В.М. Методика и практика экспертизы объектов техники на патентную чистоту / В.М. Фейгельсон. - М.: ИНИЦ Роспатента, 2001. - 343 с. 10
В нашем исследовании именно этой части натента уделяется внимание при моделировании извлечения информации из массива патентных текстов, так как она является основной для проведения патентной экспертизы. Причем при поиске представляется наиболее целесообразным использование лингвистических методов отбора информации с целью более «тонкого» учета семантики текста патентной формулы. В нашей работе это подразумевает использование лингвистического процессора для представления образов запроса и документа и разработку процедур сопоставления составленных таким путем образов и принятия решения о релевантности документов.
Для определения эффективных правил и процедур представления и извлечения информации из массива естественно-языковых текстов патентных формул необходимо рассмотреть структуру и функционирование подъязыка формул изобретения. В связи с этим во второй главе представляется описание подъязыка формул изобретения. В исследовании мы вводим следующие ограничения на материал: 1) рассматривается только ПО Фармакология; 2) в качестве объекта изобретения рассматриваются способы.
Описание подъязыка проводится на основе анализа корпуса текстов патентных формул на способ в фармакологии, включающего формулы 295 патентов общим объемом около 210 тыс. словоупотреблений.
Лексический состав подъязыка ФИС по фармакологии можно условно разделить на три группы: 1) предикаты; 2) знаменательная лексика аргументов предикатов; 3) служебные слова.
Под предикатом понимается элемент пропозиции, который обозначает ситуацию, имеющую некоторое число обязательных участников, выполняющих определенные роли7.
Предикаты в ФИС выражены: 1) глаголами; 2) существительными; 3) прилагательными. Наиболее представительна группа глаголов. В подъязыке патентных формул предикаты представлены ограниченной семантикой и морфологией по сравнению с общеупотребительным языком.
Морфология предикатов-существительных и предикатов-прилагательных представлена одной формой: единственное число существительных и положительная степень прилагательных соответственно. Эти формы мы рассматриваем как начальные для соответствующих предикатов. Предикаты-глаголы более разнообразны в морфологическом отношении, хотя их морфология значительно беднее, чем в общеупотребительном языке. В подавляющем большинстве случаев используются формы глаголов в изъявительном наклонении, причем 99,79% словоупотреблений предикатов приходится на следующие формы:
1) Present Simple Active (represent);
2) Present Participle Simple Active (suffering);
7 См. Теньер, Л. Основы структурного синтаксиса / Л. Теньер; пер. с франц. ИЛ!. Богуславского, Л.И. Лухт, Б.П. Нарумова, СЛ. Сахно. - М.: Прогресс, 1988. - 653 е.; Филмор, Ч. Дело о падеже / Ч. Филмор Н Зарубежная лингвистика. Ш / общ. ред. В.Ю. Розенцвейга, В_А. Звегинцева, Б.Ю. Городецкого. — М.: Изд. группа «Прогресс», 2002. - С. 127-258; Мельчук, ИА. Опыт теории лингвистических моделей «СмыслС5 Текст» / И.А. Мельчук. - М.: Школа «Языки русской культуры», 1999. —XXII, 345 е.; Богуславский, И.М. Исследования по сшгтаксической семантике: сферы действия логических слов. - М.: Наука, 1985. - 176 с.
3) Present Simple Passive (is selected)-,
4) Past Participle ('connected);
5) Gerund Simple Active (obtaining);
6) Infinitive Simple Active {to inhibit)-,
7) Present Participle Simple Passive (being created)-,
8) Infinitive Simple Passive (to be treated).
Начальной формой предикатов-глаголов мы считаем формы причастия (Present Participle Simple Active, Past Participle), рассматривая в дальнейшем один и тот же глагол в форме пассивного и активного причастий как два различных предиката. Производные от причастий формы образуют морфологическую парадигму соответствующего предиката.
В семантической структуре предикатов выделены семантические отношения (валентности), инвентарь которых для рассмотренного корпуса включает:
1. Субъект (S, subject)
2. Объект (О, dir-obj)
3. Косвенный объект (Ю, indir-obj)
4. Место (PI, place)
5. Время (Т, time)
6. Образ действия (М, manner)
7. Средство (Ms, means)
8. Цель (Pr, ригр)
9. Результат (R, result) Ю.Условие (Cond, cond)
11. Количество (Qu, quantity) 12.Эталон (Е, equal)
13.Источник (Sr, source)
14.Конечная точка (D, destination)
Каждый предикат содержит в своей логической структуре одну или более валентностей из представленного инвентаря. Для многих из них синтаксические способы заполнения одноименных валентностей у различных предикатов в большинстве случаев совпадают.
На основании анализа логической структуры предикатов, а также лексической семантики предикатных слов, предикаты были разбиты на семантические классы:
1. Меронимичсские отношения (having, including);
2. Соединение между объектами (adjacent, linked)-,
3. Структурные особенности (isolated[ covered);
4. Причинные отношения (associated.\ causing);
5. Целевые отношения (resulting, giving rise);
6. Перемещение (collecting, circulating);
7. Свойства (effective, sensitive);
8. Сравнение (relative to, comparing);
9. Изменение состояния (treating. reduced);
10. Динамическое взаимодействие (associating, combined);
11.Получение/появление нового объекта (obtaining, prepared)-,
12.Выявление объектов или явлений (detecting, identified)-
13.Воздействие одних объектов на другие {affecting, inhibited)-,
14.Другие (rendering, elicited).
Синонимичные предикатные слова в пределах одного семантического класса могут быть объединены в один класс условной эквивалентности.
Сравнив морфологические и семантические особенности функционирования предикатов в патентах на устройства (описанные ранее в работах С.О. Шереметьевой8) и на способы, мы отметили, что: 1) качественный состав преобладающих морфологических форм предикатов практически идентичен в патентах на различные объекты изобретения; 2) инвентарь валентностей и семантические классы предикатов в патентах на способы частично повторяет эти характеристики патентов на устройство.
Дальнейшее рассмотрение предикатной лексики ФИС сосредоточено на предикатах, характеризующихся отличными от предикатов ФИУ свойствами. К ним относятся предикаты семантических классов «Изменение состояния», «Динамическое взаимодействие», «Получение нового объекта», «Выявление», «Воздействие», которые были тщательно исследованы.
На основании детального изучения функционирования этих предикатов отмечены следующие особенности, отличающие формулы изобретения патентов на способы от других объектов изобретения:
1) Значительно более частотными в ФИС (по сравнению с формами предикатов в ФИУ) являются формы герундия глагола и функционального существительного, посредством которых обозначаются цель и компоненты способа.
2) Цель и компоненты способа в ФИС выражаются с помощью предикатных конструкций (а не предметных существительных, как в ФИУ), принадлежащих, в большинстве своем, тем семантическим классам, которые не встречаются в ФИУ;
3) Лексическая семантика некоторых предикатных слов в ФИС включает обозначение действий (что предполагает наличие исполнителя действия, не выраженного в патентной формуле), в то время как семантика предикатов в ФИУ ограничивается обозначением отношений;
4) На синтаксическом уровне для предикатов в ФИС, обозначающих цель и компоненты способа, валентность Субъект (логически соответствующая исполнителю действия) не заполняется.
Знаменательная лексика аргументов предикатов представлена, в основном, частями речи, входящими в состав именных групп, являющихся преобладающим синтаксическим способом заполнения валентностей предикатов. Большую ее часть составляют существительные. В предметной области патентов на способ в фармакологии последние подразделены на следующие семантические классы:
' Шереметьева, С.О. Межуровневая организация текста патентной формулы США / С.О. Шереметьева, Е.Л. Еород-кина // Межуровневая организация текста в естественном языке: Межвузовский сборник научных трудов. — Челябинск: ЧГПИ, 1987. - С. 116-121; Sheremetyeva, S. Л Flexible Approach to Multi-Lingual Knowledge Acquisition for NLG. In Proceedings of the 7th European Workshop on Natural Language Generation / P. St. Diyjer (ed.). Toulouse, France. May 13-15, 1999. Pp. 106-115.
1) Вещество (ligand, oxide);
2) Единица измерения (milligram, mole);
3) Заболевание (Alzheimer 's disease, disorder);
4) Клетка (cell, mammalian cell);
5) Орган (bone, gland);
6) Организм (mammal, tnouse);
7) Параметр (condition, pH);
8) Ткань (tissue, myocardium);
9) Физический объект (catheter, element);
10) Формула (alkyl, beriz, indol);
11) Другие (amount, fingerprint).
Семантически лексический состав аргументов предикатов в ФИС отличается от ФИУ и в значительной степени обусловлен предметной областью. Синтаксическая структура аргументов, представленных именными, предложными, наречными, герундиальными и инфинитивными группами, для формул изобретения на различные объекты изобретения практически идентична.
Служебные слова включают артикли, предлоги, союзы, относительные местоимения. Функции служебных слов в патентных формулах соответствуют их функциям в общеупотребительном языке.
Организация текста пункта формулы изобретения подобна для различных объектов изобретения. Текст пункта формулы представляет собой назывное предложение, состоящее из: 1) описания названия изобретения (цели способа); 2) описания составляющих компонентов изобретения (действий для достижения цели способа).
Довольно значительное сходство лексического состава и организации патентных формул на различные объекты изобретения дает основание переиспользовать модули автоматической обработки текста, настроенные на работу с ФИУ, для решения различных задач прикладной лингвистики на материале патентных формул на способ.
В третьей главе приводится описание разработанной автором модели извлечения информации из поискового массива ФИС по фармакологии, существенной составляющей которой является применение дополненной и настроенной на обработку ФИС процедуры лингвистического анализа текстов, использующейся первоначально для автоматической обработки текстов ФИУ.
Модель извлечения информации состоит из следующих модулей:
I. Информационный (поисковый) массив документов: содержит патентные документы и их поисковые образы. Индексирование патентных документов осуществляется в результате переиспользования процедуры автоматического анализа текстов ФИУ для обработки текстов ФИС;
II. Модуль формирования поискового предписания: формирует поисковый образ запроса в ходе интерактивного опроса пользователя; в ходе опроса пользователь поэтапно задает параметры интересующего его описания изобретения;
III. Модуль выявления релевантных запросу документов: на основании предложенных метрик осуществляет сопоставление поискового предписания с
поисковыми образами документов информационного массива и определяет коэффициент их сходства;
IV-Модуль выдачи отобранной информации: на основании значений коэффициентов сходства ранжирует документы по уменьшению степени релевантности запросу и выдаст список отсортированных таким образом патентных документов пользователю.
Лексикографический компонент модели извлечения информации включает: 1) лексикон, ориентированный на ограниченную предметную область; 2) тезаурус для сопоставления поисковых образов запроса (ПП) и документа (ПОД).
Лексикон, применяемый в нашей процедуре, аналогичен но структуре автоматическому словарю, используемому С.О. Шереметьевой для обработки текста ФИУ9. Одно вхождение соответствует лексеме. Информация о лсксемах представляется в словаре на следующих уровнях:
1) лексико-семантический уровень:
а) лемма (начальная форма);
б) словоизменительная парадигма лексемы;
2) семантико-синтаксический уровень:
а) семантический класс;
б) модель управления предиката (только для предикатов);
в) линейные формулы (только для предикатов),
В полях лексико-семантического уровня указывается морфологическая информация о лексеме. Словоформы лексемы задаются в пределах структуры парадигмы иконически. Каждой словоформе соответствует супертэг - метка, которая «сообщает о слове нечто большее, чем просто часть речи»' . Например, супертэг ~Pgcsg обозначает, что словоформа является активным предикатом (Pg), принадлежит семантическому классу «Изменение состояния» (es), имеет форму герундия (Й-
На семантико-синтаксическом уровне значение поля «Семантический класс» соответствует одному из выделенных при анализе корпуса классов предикатов и знаменательных лексем. В поле «Модель управления» указывается набор валентностей из общего инвентарного списка, характерных для данного предиката, с синтаксическими способами их заполнения. В поле «Линейные формулы» показывается, в какой последовательности валентности предиката реализуются в тексте. Линейная формула представляет собой линейную цепочку обозначений валентностей предиката из его модели управления и символа X, соответствующего положению предикатного слова в цепочке.
Так, словарная статья для предиката treating в лексиконе имеет вид:
Лемма: treating
Словоизменительная парадигма:
Полная форма, причастие (~Pgcs): treating
9 Sheremetyeva, S. Natural Language Analysis of Patent Claims. In Proceedings of the Workshop on Patent Corpus Processing. Sapporo, Japan. July 12, 2003. Pp. 66-73.
Joshi, Aravind K„ and B. Srinivas. Disambiguation of Super Parts of Speech (or SuperTags): Almost Parsing. In Proceedings of the 15л International Conference on Computational Linguistics {CO US О '94). Vol. 1. Kyoto, Japan. August 1994. Pp. 154-160.
Полная форма, инфинитив (—Pgcsi): treat Полная форма, герундий (~Pgcsg): treating Краткая форма, ед. ч. (~Pgcss): treats Краткая форма, мн. ч. (-Pgcsp): treat Абсолютная форма (~Pgcsa): treating Семантический класс: Изменение состояния Модель управления'. Линейные формулы;
Тезаурус предметной области представляет собой лес иерархических деревьев, характеризующих исследуемую ПО Фармакология. В узлах деревьев располагаются понятия (концепты) ПО Фармакология. Они связаны между собой дугами, репрезентирующими меронимические отношения между ними. Концепт тезауруса объединяет термины предметной области, входящие в один класс условной эквивалентности. Каждому понятию тезауруса ставится в соответствие ноль или более терминов лексикона. Каждое вхождение лексикона соответствует одному понятию в тезаурусной иерархии.
I. Информационный массив в разработанной модели извлечения информации состоит из двух частей: 1) текстовая часть: патентные документы; 2) «индексная» часть: наборы предикатно-аргументных структур, каждый из которых соответствует одному пункту патентной формулы документа (поисковые образы).
Формирование «индексной» части осуществляется в результате автоматического анализа текстовой части массива с помощью процедуры индексирования, основу которой составляет методика автоматического анализа, разработанная С.О. Шереметьевой". Лингвистическая база знаний анализа включает: 1) лексикон, содержащий информацию о лексических единицах исследуемой ПО, и 2) грамматический компонент, включающий продукционные правила анализа текста ФИС. Процедура индексирования состоит из следующих этапов:
1) Первичное разбиение текста: в тексте пункта патентной формулы выделяются содержательные блоки его структуры. Разбиение осуществляется по формальным признакам на основании сопоставления со следующим шаблоном (в угловых скобках - содержательные блоки; в круглых скобках - необязательные элементы):
A method for <Цель способа> (, said method) comprising (the step(s) (of))(:)
■«Компонент способа 1>;
«Компонент способа 2>;
«Компонент способа N-l>; and
«Компонент способа N> (,
wherein «Информация об участниках способа>).
О: (NP)
Ms: (("with" NP)) Pr: (InfP) T: ("over time")
X-O X-O-Ms X-O-Pr X-O-T-Ms
" Sherernetyeva, S. Natural Language Analysis of Patent Claims. In Proceedings of the Workshop on Patent Corpus Processing. Sapporo, Japan. July 12,2003. Pp. 66-73. 16
Кроме того, на основании знаков пунктуации и табуляции осуществляется разбивка на более дробные образования, используемые на дальнейших этапах для выделения текстовых границ аргументов и предикатных конструкций.
2) Лексико-грамматический анализ текста: включает следующие подэга-
пы:
а) Приписывание каждой словоформе в тексте списка всех возможных супертэгов: для каждой текстовой словоформы осуществляется поиск по лексикоиу совпадающих с ней иконически заданных форм слов. Супертэги, относящиеся к найденным словоформам, включаются в список потенциально соответствующих рассматриваемой текстовой словоформе мет ок.
б) Выбор для каждой словоформы одного соответствующего ей супертэга из списка: грамматический компонент этой стадии состоит из набора контекстуальных продукционных правил разрешения морфологической неоднозначности. На основании применения правил для каждой словоформы осуществляется выбор единственного супертэга.
3) Семантико-сгттаксический анализ текста: включает следующие подэ-
тапы:
а) Восходящий анализ синтаксических конструкций: грамматический компонент состоит из пяти наборов продукционных правил. Целью каждого из них является объединение текстовых элементов в блоки, соответствующие определенному типу синтаксических конструкций (именные, предложные, наречные группы, инфинитивные, герундиальные обороты). В каждом наборе правил описываются образцы - линейные последовательности супертэгов, репрезентирующие соответствующую синтаксическую конструкцию. Применение правил представляет собой распознавание по образцу: в случае, если в тексте встречается, например, описанная в одном из правил для именных групп последовательность супертэгов, то соответствующая часть текста объединяется в блок и помечается как именная группа (ИГ).
б) Восстановление кореференции именных групп; грамматический компонент включает два набора продукционных правил: 1. Выявление в ИГ головного существительного; 2. Определение антецедента для текущей ИГ. Первая группа правил применяется для всех именных групп с целью выделить в каждой главное смысловое слово. Вторая группа применяется для ИГ, потенциально имеющих антецедент в тексте. Формально это определяется по наличию в ИГ инициирующего определителя the или said.
в) Поиск семантических зависимостей: грамматический компонент этого этапа включает следующие наборы правил: 1. Выявление предикатов во входном тексте; 2. Определение для каждого предиката относящихся к нему синтаксических конструкций и соотнесение последних с соответствующим аргументом предиката. В результате применения правил все элементы текста организуются в фреймовые предикатно-аргументные конструкции.
4) Преобразование аргументов предиката: процедуры этого этапа осуществляют разложение сложных аргументов на более простые составляющие, исключение из состава аргументов служебных слов.
5) Определение состава компонентных зон-. Под компонентной зоной мы понимаем набор предикатно-аргументных конструкций, включающий: а) один предикат, обозначающий Цель или Компонент способа (формирующий предикатом зоны); б) предикаты, обозначающие Отношения между участниками способа, причем в обозначаемых ими ситуациях принимают участие объекты, упомянутые в слотах структуры, которая соответствует формирующему предикату зоны. Грамматический компонент этапа включает правила, в результате применения которых на основании расположения предиката в тексте и информации с преференции ИГ устанавливается принадлежность конструкции одной или более компонентным зонам.
Отмеченное лингвистическое сходство формул изобретения на различные объекты изобретения позволяет переиспользовать для анализа ФИС значительную часть грамматических правил, разработанных для автоматического анализа ФИУ, внеся в них некоторые изменения и дополнения.
В итоге выполнения процедуры индексирования текст патентной формулы представляется с помощью набора фреймовых предикатных конструкций, имеющих следующий вид:
(3 Р4 Pgw having Р2
1 "receptorsi"//<subj>
2 "different selectivity" //<dir-obj> [or] "specificity for ligancV' //<dir-obj>
),
где в заголовке фрейма по порядку: 3 - данный предикат обозначает Отношения между участниками способа; Р4 — уникальный номер данного предиката в ФИС; Pgw - супертэг данного предиката (активный предикат, семантический класс «Меронимия», форма причастия); having — форма данного предиката в тексте; Р2 - данный предикат принадлежит компонентной зоне с формирующим предикатом, имеющим уникальный номер Р2;
под строкой заголовка фрейма показан список слотов данного предиката, заполненных текстовыми выражениями (в кавычках), которые реализуют его аргументы (в угловых скобках указана валентность, которую заполняет соответствующий аргумент; нижним индексом помечены существительные, кореферентные другим существительным в пределах ФИС).
И. Модуль формирования поискового предписания представляет пользователю интерфейс, структура которого заимствована из системы автоматического синтеза патентной формулы AutoPat12. Следуя предлагаемым этапам, пользователь имеет возможность описать свою информационную потребность, определяя последовательно цель, компоненты и отношения между участниками интересующего его способа. Описание каждого информационного элемента осуществляется в терминах предикатных конструкций: пользователь задает действие (предикат), репрезентирующее цель или компонент способа, и заполняет конкретными языковыми выражениями предлагаемые интерфейсом слоты (соответствующие ва-
t2 Sheremetyeva, S., S. Nircnburg, and I. Nirenburg. Generating patent claims from interactive input. In Proceedings of the 8th International Workshop on Natural Language Generation (l-NI.G'96). Hcrstfiionceux, England. 1996. Pp. 61-70. 18
лентностям предиката). Для выбора конкретных выражений при заполнении слотов пользователь может обратиться к лексикону. На завершающем этапе формирования поискового предписания пользователь вручную восстанавливает корефс-рентные связи между обозначенными им участниками и определяет релевантность для поиска последовательности выполнения шагов-компонентов способа. Результатом определения информационной потребности является набор предикатно-аргументных структур, идентичный по своему строению конструкциям из «индексной» части информационного массива.
III. Модуль выявления релевантных запросу документов осуществляет сравнение составленного поискового предписания с «индексной» частью информационного массива. Лингвистическая база знаний данного модуля включает: 1) тезаурус предметной области; 2) набор коэффициентов, с помощью которых измеряется степень релевантности документов запросу.
Сравнение поисковых образов запроса и документа осуществляется на трех уровнях: 1) уровне запроса/документа в целом; 2) уровне компонентной зоны; 3) уровне предикатной конструкции.
Последовательно «спускаясь» по этим уровням (от более общего к более детальному представлению) осуществляется отбор из поисковых образов документов кандидатов для соответствующей уровневой единицы запроса:
1) Для отбора кандидатов на уровне запроса/документа составляется два множества семантических классов формирующих предикатов компонентных зона: для запроса и для документа. Если пересечение этих множеств не пусто, документ признается потенциально релевантным запросу;
2) Для отбора кандидатов на уровне компонентной зоны в пределах документа-кандидата используются правила двух уровней: компонентная зона документа является кандидатом на соответствие компонентной зоне запроса, если формирующие предикаты двух зон принадлежат 1. одному классу условной эквивалентности; 2. одному семантическому классу. Переход к поиску кандидатов по правилу второго уровня происходит только в случае, если нет кандидатов, удовлетворяющих правилу первого уровня.
3) Для отбора кандидатов на уровне предикатно-аргументной конструкции в пределах компонентной зоны-кандидата используются следующие правила: а) отбор осуществляется только в пределах предикатов одной группы (формирующие - сформирующие); б) предикатная конструкция документа является кандидатом на соответствие предикатной конструкции запроса, если предикаты двух конструкций принадлежат: 1. одному классу условной эквивалентности; 2. одному семантическому классу. Степень сходства двух предикатных слов характеризуется коэффициентом Ргеё.
Определение релевантности документа запросу осуществляется посредством обратного «прохода» по уровням сравнения, в ходе которого для каждой единицы запроса на соответствующем уровне осуществляется сопоставление данной уровневой единицы с каждым из отобранных для нее кандидатов, и «наилучший» из кандидатов для каждой единицы ставится ей в соответствие.
Сопоставление предикатно-аргументных конструкций запроса и документа осуществляется по признаку лексического сходства предикатного слова и аргументов. Лексическое сходство предикатных слов определяется при отборе кандидатов. При определении лексического сходства аргументов рассматривается множество, представляющее собой всевозможные комбинации пар «аргумент предиката запроса-аргумент предиката документа», таких, что аргументы принадлежат одному и тому же типу. Среди аргументов можно выделить следующие типы: I) адвербиальные группы; 2) предикатные конструкции; 3) именные группы. Схематично сопоставление аргументов двух предикатных конструкций можно представить как:
Предикат запроса: Предикат документа'.
(2 PI Pgi contacting (2 Р2 Pgi contacting
1 "recombinant cells" //<dir-obj> V Jt 1 "activated recombinant cells"
^C // <dir-obj>
2 "ligand" //<indir-obj> [with] 2 "first ligand"//<indir-obj> [with]
) 3 "generale" //<purp>
)
В примере первые и вторые аргументы конструкций запроса и документа принадлежат третьему типу аргументов и сопоставляются между собой. Третий аргумент документа ни с одним аргументом пе сравнивается, так как принадлежит второму типу аргументных выражений, не представленному в запросе.
Сопоставление осуществляется в результате подсчета коэффициентов лексического сходства аргументов Termj. Аргумент документа из списка тех, с которыми сопоставляется данный аргумент запроса и для которого получен максимальный коэффициент сходства с этим аргументом запроса, ставится в соответствие последнему. Коэффициент Termj определяется по следующим правилам:
1) для адвербиальных групп: Termj = 1 в случае полного лексического совпадения; Termj = 0 в противном случае;
2) для предикатных конструкций: Termj вычисляется рекурсивно по правилам определения сходства двух предикатных конструкций; Тешу приравнивается значению коэффициента сходства конструкций, заполняющих валентности;
3) для именных групп: при расчете используются три коэффициента, определяющие сходство 1. головных существительных ИГ; 2. остального лексического состава ИГ; 3. заполняемых валентностей в предикатных конструкциях запроса и документа.
1. Коэффициент сходства головных существительных Head определяется:
а) Для названий химических соединений (помечаются при анализе супертэгом -F): название разбивается на уровневые последовательности, каждая из которых состоит из элементарных корней (соответствующих названиям химических групп) и указателей на другие уровни (большие латинские буквы). Самый крайний справа из элементарных корней признается головным словом для уровневой последовательности. Например, название соединения
2-[2-[4-(4-niiorbenzyloxy)phenyl]ethyl]isothioureamethanesulfonate включает 4 уровневые последовательности (головное слово подчеркнуто):
А - 2-B-isothioureamethanesulfonate В = 2-C-ethvl С — 4-D-phenyl D = 4-nitorbenzyloxv
Каждая уровневая последовательность термина запроса сравнивается с каждой уровневой последовательностью термина документа. Далее по коэффициентам сходства определяется наилучшее соответствие уровиевых последовательностей запроса и документа друг другу. Коэффициент сходства для уровневых последовательностей определяется как отношение числа элементарных корней, совпадающих в двух последовательностях, к общему числу корней в них.
б) Для остальных существительных: используется тезаурус. Сходство определяется как отношение номера уровня в иерархии для понятия, являющегося ближайшим общим предком для двух понятий, репрезентируемых сравниваемыми терминами запроса и документа, к большему из двух номеров уровней сравниваемых понятий. Например, для понятий, представляемых терминами polypeptide (уровень 5) и complement (уровень 4), первым общим предком в тезаурусной иерархии является понятие combination (уровень 2). Тогда коэффициент сходства двух терминов равен 2/5.
2. Коэффициент сходства остальной лексики Lex: в ИГ выделяется три группы характеристик, представленных отдельными зонами: а) количественные (выражены числительными или диапазоном значений); б) функциональные (выражены пассивным причастием); в) атрибутивные (остальные характеристики). Сравнение количественных характеристик включает определение, насколько диапазон значений в ИГ запроса включается в диапазон значений ИГ документа. Функциональные характеристики не оцениваются. Сходство атрибутивных характеристик определяется как доля общих элементов для ИГ запроса и документа. Коэффициент сходства Lex вычисляется как взвешенная сумма оценок сходства ИГ по указанным параметрам.
3. Коэффициент сходства валентностей аргументных выражений SemR: список валентностей разбит на две группы main (Субъект, Объект, Косвенный объект) и aux (остальные валентности). В зависимости от принадлежности аргументов запроса и документа к одной/разным группам коэффициент SemR принимает одно из списка произвольно заданных значений.
Коэффициент Теггяу для аргументов-ИГ вычисляется как взвешенная сумма трех описанных коэффициентов. Аргумент документа, получивший при сравнении с текущим аргументом запроса максимальное значение коэффициента Termj, соотносится с последним, причем соответствующее значение Term, характеризует степень их сходства.
Коэффициент сходства аргументного состава Term двух предикатных конструкций в целом определяется как взвешенная сумма значений Termj для каждого аргумента рассматриваемой предикатной конструкции запроса.
Отбор одного из кандидатов для запроса на уровне предикатно-аргументной конструкции осуществляется на основании значения коэффициента PredQ, кото-
рый вычисляется как тах{Тегт*хРгес1*}, где к — количество всех кандидатов
(предикатно-аргументных конструкций документа) для данной предикатно-аргументной конструкции запроса. Если максимальное из произведений ниже заданного порогового значения, Ргес^ принимает значение 0.
Сопоставление компонентных зон запроса и документа осуществляется на основании значения коэффициента РгесКопе^ который определяется как взвешенная сумма значений коэффициентов РгесК^, найденных для всех предикатных конструкций рассматриваемой компонентной зоны запроса. Компонентная зона-кандидат документа с максимальным значением коэффициента Ргесйопез ставится в соответствие рассматриваемой компонентной зоне запроса, причем соответствующее значение РгесКопе^ характеризует степень сходства двух зон.
Сопоставление на уровне запроса/документа в целом может осуществляться следующими способами: 1) степень сходства документа и запроса 81гш1рцф равна значению Рге<12опе1, соответствующего цели способа; 2) степень сходства документа и запроса 81пн1тах равна максимальному из значений РгесКопе^ соответствующих компонентам способа; 3) степень сходства документа и запроса 8ши1,0(а| определяется как обобщенный коэффициент, учитывающий: а) значения коэффициентов сходства всех компонентных зон, и б) соответствие указанной последовательности выполнений действий-компонентов способа в запросе и документе.
IV. Модуль выдачи информации представляет собой интерфейс, который предлагает пользователю ранжированный список ссылок на патентные документы, отсортированный в соответствии с рангом на основании значений одного из коэффициентов сходства на уровне запроса/документа (81ггн1ршр, 51гпПт1И или БнпПюы).
Предложенные правила сопоставления структурированных представлений запроса и документа дают возможность создать автоматическое приложение, осуществляющее извлечение текстов формул изобретений из патентных БД на основашш глубокого лингвистического анализа и учета особенностей естественного языка. Такая система должна характеризоваться более тонким механизмом обработки реализации смыслов в языке и обладать, очевидно, большей семантической силой, чем любая система, использующая искусственный информационный язык.
Разработанная модель извлечения информации допускает дальнейшее развитие и может быть использована в направлении решения задач автоматизации патентных исследований, ключевым звеном которой является формальное выделение признаков изобретения. При доработке модели на основании процедуры сопоставления образов документа и запроса возможно автоматизировать анализ патентоспособности и патентной чистоты нового изобретения.
ОСНОВНЫЕ ПОЛОЖЕНИЯ ДИССЕРТАЦИОННОГО ИССЛЕДОВАНИЯ ОТРАЖЕНЫ В СЛЕДУЮЩИХ ПУБЛИКАЦИЯХ:
1. Бабина, О.И. Частотные характеристики семантических классов предикатов, встречающихся в формулах изобретения патентов на метод в фармакологии / О.И. Бабина // Международная научно-практическая конференция «Теория и методика преподавания языков в вузе»: Тезисы докладов / под ред. Е.Н. Ярославо-вой. (Челябинск, 15-17 декабря 2003 г). - Челябинск: Изд-во ЮУрГУ, 2003. -С. 141-142.
2. Бабина, О.И. Предикатная лексика формул изобретения патентов на метод / О.И. Бабина // Фундаментальные и прикладные исследования в системе образования: Материалы 2-й Международной научно-практической конференции / отв. ред. Н.Н. Болдырев. (Тамбов, 28 марта 2004 г). - Тамбов: Изд-во ТГУ им. Г.Р. Державина, 2004. - Ч. 4. - С. 62-65.
3. Бабина, О.И. Специфика процедуры автоматического анализа текстов патентов на метод / О.И. Бабина // Объединенный научный журнал. №33 (125). Декабрь 2004. - С. 62-66.
4. Бабина, О.И. Грамматические характеристики предикатов формулы изобретения патентов на метод / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. Челябинск: Изд-во ЮУрГУ, 2004. -№1. - С. 8-12.
5. Sheremetyeva, S. Meaning-Text theory for textual input analysis and proofing in a generation system / S. Sheremetyeva, O. Babina // Восток — Запад: Вторая международная конференция по модели «Смысл О Текст» / отв. ред. Ю.Д. Апресян, Л.Л. Иомдин. (Москва, 23-25 июня 2005 г). - М.: Языки славянской культуры, 2005.-С. 458-466.
6. Бабина, О.И. Семантическое сопоставление образов запроса и документа при автоматическом документальном поиске / О.И. Бабина // Наука и образование. IV международная научная конференция: Материалы конференции. (Белово, 2-3 марта 2006 г). - Кемерово: Изд-во КемГУ, 2006.
7. Бабина, О.И. Автоматический отбор релевантной информации из информационного массива патентных текстов / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2006. - №2. - С. 67-72.
Оглавление научной работы автор диссертации — кандидата филологических наук Бабина, Ольга Ивановна
Введение.
Глава 1. Модели и средства извлечения информации.
1.1. Основные понятия и определения теории информационного поиска.
1.2. Информационно-поисковые системы.
1.2.1. Типы ИПС.
1.2.2. Лингвистический компонент ИПС.
1.2.2.1. Информационно-поисковые языки.
1.2.2.2. Словарные средства ИПС.
1.2.3. Оценка эффективности ИПС.
1.3. Модели документального информационного поиска.
1.3.1. Статистические модели поиска.
1.3.1.1. Теоретико-множественные модели.
1.3.1.2. Векторные модели.
1.3.1.3. Вероятностные модели.
1.3.2. Лингвистические модели поиска.
1.3.2.1. Синтаксические модели.
1.3.2.2. Семантические модели.
1.4. Поиск и извлечение информации в патентных исследованиях.
1.5. Выводы по главе 1.
1 Глава 2. Подъязык формул изобретения патентов на способ в фармакологии
2.1. Корпус текстов формул изобретения патентов.
2.2. Общая характеристика лексики.
2.3. Знаменательная лексика аргументов предикатов.
2.4. Грамматическая и лексическая семантика предикатов.
2.4.1. Морфологические характеристики предикатов.
2.4.2. Валентности предикатов.
2.4.3. Семантическая классификация предикатов. ц 2.4.3.1. Состав семантических классов предикатов.
2.4.3.2. Семантический класс предикатов «Изменение состояния».
2.4.3.3. Семантический класс предикатов «Динамическое взаимодействие».
2.4.3.4. Семантический класс предикатов «Получение нового объекта».
2.4.3.5. Семантический класс предикатов «Выявление».
2.4.3.6. Семантический класс предикатов «Воздействие».
2.4.4. Функционирование предикатов в тексте патентной формулы.
2.5. Служебные слова. " 2.6. Выводы по главе 2.
Глава 3. Модель извлечения информации из поискового массива формул изобретения патентов на способ.
3.1. Общая схема модели извлечения информации.
3.2. Модуль формирования «индексной» части информационного массива
3.2.1. Разработка лексического компонента индексирования.
3.2.1.1. Структура лексикона для автоматического анализа текста.
3.2.1.2. Адаптация лексикона для патентных формул на способы в области фармакологии.
3.2.2. Процедура индексирования и ее грамматический компонент.
3.2.2.1. Общая схема индексирующей процедуры анализа.
3.2.2.2. Первичное разбиение текста.
3.2.2.3. Лексико-грамматический анализ текста.
3.2.2.4. Семантико-синтаксический анализ текста.
3.2.2.4.1. Восходящий анализ синтаксических конструкций.
3.2.2.4.2. Восстановление кореференции именных групп.
3.2.2.4.3. Поиск семантических зависимостей.
3.2.2.5. Преобразование аргументов предиката.
3.2.2.6. Определение состава компонентных зон.
3.2.2.7. Заключительные замечания.
3.3. Модуль формирования поискового предписания.
3.4. Модуль выявления релевантных запросу документов.
3.4.1. Тезаурус предметной области для процедуры сопоставления ПП и ПОД
3.4.2. Процедура сопоставления ПП и ПОД.
3.4.2.1. Общая схема процедуры сопоставления.
3.4.2.2. Поиск в ПОД кандидатов на соответствие единицам ПП.
3.4.2.3. Сопоставление ПП и ПОД на уровне предикатно-аргументной конструкции.
3.4.2.3.1. Сопоставление именных групп.
3.4.2.3.1.1. Сопоставление головных существительных именных групп
3.4.2.3.1.2. Сопоставление прочих элементов в лексическом составе именных групп.
3.4.2.3.1.3. Сопоставление валентностей аргументных выражений
3.4.2.3.1.4. Оценка сходства именных групп в целом.
3.4.2.3.2. Сопоставление аргументного состава конструкций ПП и ПОД
3.4.2.3.3. Сопоставление предикатно-аргументных конструкций.
3.4.2.4. Сопоставление ПП и ПОД на уровне компонентной зоны.
3.4.2.5. Сопоставление ПП и ПОД на уровне запроса/документа.
3.5. Выдача релевантных документов.
3.6. Эксперимент по отбору текстов.
3.7. Выводы по главе 3.
Введение диссертации2006 год, автореферат по филологии, Бабина, Ольга Ивановна
Как известно, научно-технический прогресс является движущей силой современного общества. Развитие наук сегодня идет все увеличивающимися темпами. И вслед за ним, как «снежный ком», увеличивается объем информации, посвященной научным исследованиям и открытиям. Официальным способом регистрации новых изобретений является их патентование. Таким образом, развитие наук обусловливает рост массива патентных документов. Так, за последние годы количество патентов, зарегистрированных в Американском офисе патентов и торговых марок только на метод в фармакологии, возросло почти на 13 тыс. патентов (для сравнения, с 1976 по 2002 гг. в этой предметной области было зафиксировано чуть более 17 тыс. документов1).
Наличие новых устройств и изделий, защищенных патентами, напрямую связано с экономической прибылью предприятия-патентообладателя, а также иногда сама торговля патентами приносит сверхприбыли. Таким образом, анализ всей ситуации, сопутствующей появлению и функционированию новшества, способствует созданию новых изобретений и правильному позиционированию уже имеющихся разработок. Количество запатентованных объектов практически напрямую связано с получаемой прибылью и, в конечном счете, с процветанием предприятия.
Таким образом, актуальность настоящего исследования обусловлена тем, что постоянно увеличивающийся поток информации требует совершенствования автоматизированных средств ее обработки.
Патентные исследования являются тем самым инструментом, с помощью которого менеджеры высшего звена предприятия могут оценивать текущую ситуацию и прогнозировать развитие ситуации вокруг научно-технических новшеств. Проведение патентных исследований, с одной стороны, позволяет реально оценивать патентоспособность разрабатываемых объектов техники, и с
1 Числовая информация приводится на основе данных о количестве документов, полученных в ходе двукратного (с промежутком в два года) проведения эксперимента по поиску патентов, удовлетворяющих запросу "pharmacology & method", на сайте Американского Ведомства Патентов и Торговых Марок (USPTO) по адресу http://www.uspto.com. другой стороны, предотвратить нарушение чужих прав, сохранив патентную чистоту объекта.
Таким образом, в ходе проведения патентных исследований предприятия и работники патентных ведомств сталкиваются с проблемой отбора информации из имеющегося массива патентных текстов. Это один из основных, наиболее трудоемких этапов экспертизы, так как он связан с необходимостью оценить степень сходства/различия с огромным множеством имеющихся текстов. Отбор необходим при решении задач получения обзорной информации о современном состоянии дел в науке, проверки вновь поступающих заявок на новизну изобретения, выявления новых прогрессивных способов, устройств и других объектов патентования, которые могут минимизировать затраты и увеличить прибыль при их внедрении в производство, и т.д. Однако неумолимый рост массива документов приводит к тому, что отбор релевантной информации вручную становится задачей, несоизмеримой с возможностями человека, и - поэтому - практически невыполнимой. Такое положение дел ставит человека перед необходимостью автоматизации извлечения релевантной информации из массива полнотекстовых документов.
Автоматический отбор информации осуществляется посредством поисковых систем. В большинстве случаев, отбор информации ограничивается выбором из всего массива документов тех, которые удовлетворяют запросу, и результат представляется в форме ранжированного списка документов. Существующие сегодня информационно-поисковые и аннотирующие системы, как правило, основаны на достаточно простых методиках с использованием ключевых слов и не обеспечивают требуемого качества отбора и представления информации.
Традиционно предметная область в системах поиска представляется посредством искусственного языка, представляющего собой некоторое упрощение естественного [напр., Шингарева 1981; Рубашкин 1989]. Однако огромные объемы имеющейся на сегодняшний день информации, представленной на естественном языке, делают неподъемной задачу преобразования вручную содержания документов в поисковый образ на искусственном языке. Кроме того, естественный язык представляет собой сложную, многогранную систему, которая имеет нечеткую природу [Заде 1976; Налимов 1979; Пиотровский 1999], отличную от искусственник языков. В связи с этим описание на упрощенном языке позволяет весьма приблизительно представить содержание документа, что влияет на показатели точности поисковых систем.
Поэтому сегодня все большую актуальность приобретают системы поиска, где в качестве поискового образа документа выступает сам документ, написанный на естественном языке (ЕЯ). При этом, учитывая асимметричность естественного языка и его слабую формализуемость в силу своей природы, остро встает проблема разработки адекватного лингвистического обеспечения поисковых систем, позволяющего максимально приблизиться (в идеале) к такой работе системы, которая была бы сравнима по получаемому результату с тем, как информацию на ЕЯ обрабатывает человек.
Система должна учитывать особенности ЕЯ на всех его уровнях. При использовании распространенного в большинстве поисковых систем метода координатного индексирования язык рассматривается лишь на лексическом и морфологическом уровнях. При этом практически не уделяется внимания синтаксическим и, особенно, семантическим аспектам языка.
Однако в рамках прикладной лингвистики уже около полувека ведется работа над созданием лингвистических процессоров (ЛП), позволяющих вести синтаксический разбор текстов на естественном языке и делаются попытки учитывать семантику при автоматической обработке текстов. Как правило, результаты этих исследований применяются в системах машинного перевода, реферирования и т.д. Однако системы поиска работают с теми же естественноязыковыми текстами. А для отбора релевантной информации необходимо не только формальное совпадение поискового предписания с ПОД на поверхностном уровне, но важно попытаться более тонко смоделировать содержание документов, учитывая лексику, морфологию, синтаксис и семантику текста. Поэтому использование этих методов в системах поиска документальных текстов представляется оправданным.
Следует отметить, что далеко не все системы, в основе которых лежит лингвистический процессор, успешны. Это объясняется тем, что при переходе от уровня к уровню языковые закономерности, действующие на каждом из них, становятся все сложнее, и их все труднее описать с помощью формальных средств. Так, возможность учета семантики осложняется тем фактом, что лексика естественного языка в значительной степени неоднозначна, и эту неоднозначность приходится разрешать в ходе автоматического анализа. Для машины, не обладающей сознанием, эта задача крайне сложная. Возможным решением этой проблемы является ограничение языка. Это позволяет сузить спектр лексических и грамматических явлений языка, которые необходимо учитывать при автоматическом анализе, и в значительной мере избавиться от полисемии. Поэтому во многих случаях для получения надежных результатов при автоматической обработке текста исследователи предпочитают ограничить анализируемый язык до размеров подъязыка отдельной предметной области.
Тогда для создания эффективных алгоритмов обработки текста необходимо вести изучение корпуса соответствующих текстов в каждой предметной области отдельно, так как процедура обработки в этом случае будет полностью зависеть от языкового материала. Такое ограничение поискового массива заданной предметной областью позволяет создавать ЛП с высокой степенью адекватности лингвистического разбора. А использование подобного ЛП при отборе информации даст возможность в большей степени, нежели чем это было до сих пор распространено в поисковых системах, учитывать природу и много-уровневость языка.
Формула изобретения - это та часть патента, которая имеет «решающее значение для оценки органов, осуществляющих государственную научно-техническую экспертизу изобретений, новизны и существенных отличий, а также положительного эффекта заявляемого объекта» [Изобретателям 1980]. Причем только эта часть патента имеет правовое значение: она является единственным критерием для определения объема изобретения и по ней устанавливается факт использования изобретения. Поэтому именно формула изобретения подвергается проверке при проведении экспертизы заявки по существу. Значит, целесообразно проводить поиск и формировать критерии отбора на основании текстов этой части описания изобретения.
Руководствуясь этими соображениями, мы определили объект и предмет исследования.
Объектом исследования является семантико-синтаксическая структура формулы изобретения на способ (ФИС) патентов по фармакологии.
Предметом исследования является разработка процедуры автоматизированного отбора релевантной информации из информационного массива ограниченной предметной области, использующей предикатно-аргументную конструкцию в качестве единицы поиска.
В качестве объекта изобретения могут выступать устройство, способ, вещество, штамм, программное обеспечение (не во всех странах), применение известных ранее устройства, способа, вещества, штамма по новому назначению. При этом формулы изобретения на каждый из объектов имеют ряд существенных отличий, и потому должны быть исследованы отдельно. В рамках одного исследования невозможно проанализировать все виды формул. При этом следует отметить, что изобретениям на устройство уделялось достаточно внимания в рамках научно-исследовательских разработок. Другие же объекты не получили столь пристального к себе внимания.
В данной работе рассмотрение патентных текстов ограничивается формулами изобретения на способ. Очевидно, что в дальнейшем необходимо также вести исследования по изучения особенностей формул изобретения патентов на вещества, штаммы и т.д. В качестве предметной области мы выбрали область фармакологии, так как она наиболее благодатна для проведения исследований на различных объектах изобретения. Кроме того, автоматизации лингвистической обработки фармакологических текстов становится все более актуальной в последнее время.
Гипотеза исследования заключается в том, что использование лингвистического анализа для организации информационного массива позволит усовершенствовать процедуру поиска в полнотекстовом массиве документов ограниченной предметной области и расширить область учета семантики текста при отборе релевантной информации.
Основной целью исследования является построение модели отбора информации из патентных текстов в узкой предметной области, использующей модуль автоматической обработки текста на естественном языке для максимально полного представления знаний.
В соответствии с целью и гипотезой исследования были поставлены следующие конкретные задачи:
1. Исследовать существующие подходы к построению систем автоматического поиска информации и границы использования лингвистических процессоров в этих системах;
2. Определить лингвистические особенности организации ФИС;
3. Провести сравнительный анализ отличий лексики и грамматики в формулах изобретения патентов на устройство (ФИУ) и на способ;
4. Модифицировать процедуру анализа текста ФИУ, настроив на обработку текстов ФИС;
5. Расширить процедуру автоматического анализа текста для решения задач индексирования патентных документов посредством представления се-мантико-синтаксической структуры ФИС;
6. Определить возможности переиспользования интерфейса системы автоматического синтеза формулы изобретения для определения запроса к системе автоматического поиска патентных текстов;
7. Разработать критерии оценки сходства образа запроса и документа для текстов формул изобретения патентов на способ в фармакологии.
Основным методом исследования является моделирование [Лосев 1968; Степанов 2001; Ревзин 1977], посредством которого определяется структура и особенности исследуемого подъязыка и осуществляется построение модели представления знаний и функционирования системы извлечения информации. Вспомогательными методами выступают: метод сплошной выборки при отборе документов, составивших корпус текстов; валентный анализ языкового материала; классификационно-типологический подход при анализе языкового материала; метод компонентного" анализа лексики; метод статистического анализа для определения особенностей функционирования лингвистических единиц в тексте ФИС; метод дистрибутивно-статистического анализа при настройке процедуры автоматического анализа текста; метод экспериментальной проверки модели, воспроизводящей процедуру отбора релевантных текстов документного массива; аппарат теории множеств, математической логики, а также теории представления знаний и теории алгоритмов при описании основных положений модели отбора информации.
Научная новизна работы обусловлена тем, что данный языковой материал впервые исследуется с применением указанной совокупности современных лингвистических методов, что определяет новизну полученных результатов. Существенной новизной отличается разработанный метод отбора информации, основанный на использовании предикатно-аргументной структуры текста формулы изобретения в качестве единицы поиска при сопоставлении образов документа и запроса. Впервые разработаны формальные правила сопоставления патентного документа и запроса, использующие лингвистические особенности структуры формулы изобретения.
Актуальность и новизна исследования предопределяют его теоретическую и практическую значимость.
Теоретическая значимость исследования заключается в формальном описании одной из обособленных языковых подсистем (подъязыка ФИС), а также в моделировании системы отбора информации на основе использования в качестве образа документов в информационном массиве результата применения к ФИС процедуры автоматического лингвистического анализа текста. Полученные результаты вносят определенный вклад в разработку общей таксономии подъязыков науки и техники. Предложенный способ отбора информации дает с основания расширить теорию информационного поиска, включив в область ее рассмотрения модели, использующие в качестве единицы поиска не только номинативные элементы, но и ситуативные (предикативные) единицы.
Практическая значимость исследования состоит в возможности создания на базе разработанных правил системы автоматического отбора информации из массива патентных документов, с помощью которой решается задача автоматизации патентной экспертизы в ходе рассмотрения заявки на вновь патентуемые объекты. Тем самым облегчается труд и значительно уменьшаются затраты времени работников патентных ведомств.
Результаты исследования подъязыка ФИС могут быть использованы также при разработке других приложений автоматической обработки текста: систем автоматического перевода, аннотирования и реферирования текстов, а также при чтении курсов по прикладной лингвистике. Описанная модель в дальнейшем может быть модифицирована для автоматизации не только этапа поиска, но и всей процедуры патентной экспертизы.
Материалом для исследования послужил корпус текстов, включающий ФИС 295 патентов США по фармакологии объемом ~210 тыс. словоупотреблений.
Положения, выносимые на защиту:
1. Использование лингвистической базы знаний, определяемой предложенной методологией извлечения информации, обеспечивает более полное и глубокое представление поисковых образов документа и запроса, учитывающее семантические отношения между участниками описываемых в текстах ситуаций;
2. Использование унифицированной формы для представления поискового образа полнотекстового документа и запроса с помощью набора фреймо-подобных предикатно-аргументных структур расширяет возможность сравнивать образы на семантическом уровне;
3. Разработанные правила и предложенные метрики для сличения образов запроса и документа позволяют проранжировать результаты в зависимости от степени релевантности запросу отобранных документов.
4. Переиспользование некоторых алгоритмов и правил автоматического анализа текста, настроенных для использования в другой предметной области, повышает эффективность разработки новых приложений на новом материале, уменьшая затраты труда и времени.
Апробация материалов исследования. По теме диссертации были сделаны доклады на международной научно-практической конференции «Теория и методика преподавания языков в вузе» (Челябинск, 15-17 декабря 2003 г) и на Второй международной конференции по модели «Смысл О Текст» (Москва, 23-25 июня 2005 г). Отдельные этапы исследования обсуждались на научных семинарах кафедры лингвистики и межкультурной коммуникации ЮжноУральского государственного университета.
По теме диссертационной работы имеются следующие публикации:
1. Бабина, О.И. Автоматический отбор релевантной информации из информационного массива патентных текстов / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2006. - №2. - С. 67-72.
2. Бабина, О.И. Семантическое сопоставление образов запроса и документа при автоматическом документальном поиске / О.И. Бабина // Наука и образование. IV международная научная конференция: Материалы конференции. (Белово, 2-3 марта 2006 г). - Кемерово: Изд-во КемГУ, 2006.
3. Sheremeiyeva, S. Meaning-Text theory for textual input analysis and proofing in a generation system / S. Sheremetyeva, O. Babina // Восток - Запад: Вторая международная конференция по модели «Смысл О Текст» / отв. ред. Ю.Д. Апресян, JI.JI. Иомдин. (Москва, 23-25 июня 2005 г). - М.: Языки славянской культуры, 2005. - С. 458-466.
4. Бабина, О.И. Специфика процедуры автоматического анализа текстов патентов на метод / О.И. Бабина // Объединенный научный журнал. №33 (125). Декабрь 2004. - С. 62-66.
5. Бабина, О.И. Грамматические характеристики предикатов формулы изобретения патентов на метод / О.И. Бабина // Вестник ЮУрГУ. Сер. Лингвистика. - Челябинск: Изд-во ЮУрГУ, 2004. - №1. - С. 8-12.
6. Бабина, О.И. Предикатная лексика формул изобретения патентов на метод / О.И. Бабина // Фундаментальные и прикладные исследования в системе образования: Материалы 2-й Международной научно-практической конференции / отв. ред. H.H. Болдырев. (Тамбов, 28 марта 2004 г). — Тамбов: Изд-во ТГУ им. Г.Р. Державина, 2004. - Ч. 4. - С. 62-65.
7. Бабина, О.И. Частотные характеристики семантических классов предикатов, встречающихся в формулах изобретения патентов на метод в фармакологии / О.И. Бабина // Международная научно-практическая конференция «Теория и методика преподавания языков в вузе»: Тезисы докладов / под ред. E.H. Ярославовой. (Челябинск, 15-17 декабря 2003 г). — Челябинск: Изд-во ЮУрГУ, 2003. —С. 141-142.
Структура и объем работы. Предлагаемая вниманию диссертационная работа состоит из введения, трех глав, заключения, списка литературы и 9 приложений.
Заключение научной работыдиссертация на тему "Построение модели извлечения информации из технических текстов"
Основные результаты работы заключаются в следующем. Подъязык текстов патентных, формул на способ представляет собой систему с ограниченным инвентарем языковых средств, что выражается в ограниченности его словаря и грамматики. Это создает предпосылки для разработки достаточно эффективных способов автоматической обработки текстов патентных формул, которые могут быть успешно использованы в решении таких задач прикладной лингвистики, как извлечение информации.
В лексике патентных формул можно выделить следующие категории единиц: 1) предикаты, несущие основную смысловую нагрузку и обозначающие действия/операции, составляющие способ, а также отношения между элементами, участвующими в операциях способа; 2) лексика аргументов, заполняющая валентности предикатов и служащая для обозначения участников соответствующих ситуаций; 3) служебные слова, осуществляющие, главным образом, логические связи между элементами в тексте формулы изобретения.
Сравнительный анализ лексики патентов на способ и патентов на другие объекты изобретения (в частности, устройства) позволяет выделить ряд общих и отличных черт в составе и функционировании лексических единиц в соответствующих предметных областях. Категориальный состав лексики, частично качественный состав и, в большинстве случаев, морфологические характеристики лексических единиц принципиально не отличаются для различных объектов изобретения. Отличия касаются синтаксических особенностей функционирования предикатов, а также семантических особенностей структуры их значения.
Глубокий анализ денотативного значения предикатов и особенностей их валентной структуры позволяет разбить предикатную лексику на 14 множеств (семантических классов). Внутри этих множеств лексика может подвергаться более дробному делению и разбиению на классы эквивалентности. Семантическое сходство и подобные способы реализации в тексте лексики аргументов позволяют в этом пласте лексики также выделить определенные семантические множества. Таким образом, лексические единицы с денотативным значением входят в систему лексики подъязыка и могут быть описаны единообразно с использованием понятия семантических классов. Служебные слова представляют собой особый пласт лексики, в котором обозначаются функциональные классы, выполняющие роль разграничителей семантически завершенных блоков текста.
Примененный аппарат исследования дает возможность представить семантическую структуру предметной области в лексикографических средствах автоматических систем. В результате анализа лексики и структуры подъязыка были построены:
1) Лексикон, включающий семантическую, морфологическую и семанти-ко-синтаксическую информацию о лексических единицах. Семантическая информация описывается единообразно для всех единиц с денотативным значением, посредством причисления единицы к одному из семантических классов. Морфологические формы, в силу ограниченности подъязыка, определяются йконически для всех единиц. Семантико-синтаксическая информация представлена только для предикатных единиц, вносящих более весомый вклад в семантику текста. Представление этой информации реализуется посредством эксплицитного задания набора валентностей единицы из инвентаря и способов линейного развертывания валентной структуры предиката в тексте. В целях экономии усилий, при построении лексикона частично переиспользована лингвистическая информация о лексических единицах, общих для различных объектов изобретения;
2) Тезаурус, в котором лексика подъязыка организована в иерархическую структуру. Тезаурус отражает строение предметной области. В нем приведена информация о классах эквивалентности лексических единиц и обозначены родо-видовые отношения между понятиями, реализуемыми в тексте посредством лексических единиц, инвентаризованных в лексиконе.
На базе данного лексикографического компонента построена лингвистическая модель извлечения информации из массива текстов патентных формул, в основе которой лежит интеграция методов автоматического обработки текстов на естественном языке и информационного поиска.
Модель включает: 1) блок автоматического лингвистического анализа для представления ПОД в форме фреймовых структур; 2) интерфейс для интерактивного ввода запроса в формате структур, подобных представленным в ПОД; 3) блок сопоставления, в котором осуществляется сравнение фреймоподобных структур запроса и документа; 4) правила выдачи, на основании которых принимается решение о релевантности патентной формулы запросу.
При представлении ПОД используются лингвистическая модель представления знаний посредством фреймов, для получения которых используется модифицированная процедура автоматического анализа текстов. Разработанная и примененная методика построения процедуры анализа и переиспользования знаний позволили создать эффективную модель разбора текстов, полезную для задач извлечения информации.
Интерактивный блок ввода запроса дает возможность представлять информацию в формате, удобном для обработки в рамках построенной модели.
Сопоставление фреймовых образов запросов и документов представляет собой ключевой блок модели извлечения информации. При сопоставлении документов и запроса степень сходства оценивается на нескольких уровнях:
1) Уровень предикатной конструкции. Коэффициенты сходства оценивают степень перекрытия отдельных фреймовых структур запроса и документа;
2) Уровень компонентной зоны. Коэффициенты сходства компонентных зон определяют для каждого компонента изобретения, заявленного в запросе (и выраженного посредством набора фреймовых предикатных конструкций), степень сходства с одним из компонентов изобретения, описанного в документе;
3) Уровень документа в целом. Коэффициент сходства запроса и документа на данном уровне является мотивом для выдачи последнего в качестве релевантного.
Процедура сопоставления включает отбор для элемента запроса на каждом из уровней кандидатов из числа элементов документа того же уровня. Для определения сходства элементов на каждом последующем уровне используются коэффициенты сходства, определенные на предыдущем. На основании коэффициентов сходства для элементов каждого уровня принимается решение о сходстве соответствующих уровневых единиц документа и запроса и, в конечном итоге, о релевантности документа запросу в целом. Каждый уровень, вообще говоря, может приниматься как достаточный для определения сходства в целом, и тем самым модель допускает многовариантную интерпретацию критерия выдачи.
Блок выдачи осуществляет представление ранжированного списка документов, признанных релевантными, в порядке уменьшения коэффициентов сходства.
Экспериментальная проверка показывает, что при выдаче документов на запрос патентные формулы, семантически и структурно более близкие заявленному в запросе описанию, оцениваются как в большей степени релевантные запросу.
Предложенные правила сопоставления структурированных представлений запроса и документа дают возможность создать автоматическое приложение, осуществляющее извлечение текстов формул изобретений из патентных БД на основании глубокого лингвистического анализа и учета особенностей естественного языка. Такая система должна характеризоваться более тонким механизмом обработки реализации смыслов в языке и обладать, очевидно, большей семантической силой, чем любая система, использующая искусственный информационный язык.
Планирование жизненного цикла такой системы должно учитывать особенности предметной области. Область патентных документов является достаточно подвижной: новые документы появляются постоянно. Поэтому представляется целесообразным при проектировании системы извлечения информации из массива патентных документов предусмотреть пошаговую процедуру пополнения информационного массива. Применение такой процедуры может сводиться к следующему: 1) проведение этапа начального сбора документов с использованием спайдера и их индексирования с применением разработанной процедуры лингвистического анализа; 2) запуск спайдера в Интернет с заданной периодичностью (например, один раз в неделю) с целью поиска новых, не включенных ранее в информационный массив, патентов, с последующим индексированием.
Результат модификации базы знаний для модели автоматической обработки текста может быть, с одной стороны, использован для настройки работы ранее разработанного лингвистического обеспечения (АЩоРа1 - генерация патентных формул, АЩоТгаш - анализ и перевод патентных формул) на новую предметную область и другой объект изобретения. С другой стороны, эта расширенная процедура автоматического анализа может являться основой для разработки других приложений по автоматической обработке патентных формул (реферирование, автоматизация патентных исследований и т.д.).
Разработанная модель извлечения информации допускает дальнейшее развитие и может быть использована в направлении решения задач автоматизации патентных исследований, ключевым звеном которой является формальное выделение признаков изобретения. При доработке модели на основании процедуры сопоставления образов документа и запроса возможно автоматизировать анализ патентоспособности и патентной чистоты нового изобретения.
При проведении экспертизы на выявление патентной чистоты проверяются способ и его составляющие. Если вновь патентуемое изобретение использует все признаки ранее запатентованного изобретения, то оно не обладает патентной чистотой. Поэтому анализ на выявление патентной чистоты сводится к выявлению патентов, которые включают все перечисленные признаки нового изобретения (доминирующих, по терминологии американского патентного ведомства). Для автоматизации анализа на патентную чистоту совпадающие элементы патента из информационного массива могут выделяться графически и описываться коэффициент сходства соответствующего уровня. Тогда решение о патентной чистоте должно приниматься на основании «перекрытия» элементами запроса элементов документа.
При экспертизе на патентоспособность (новизну) направление сравнения прямо противоположно по сравнению с предыдущей задачей. При проведении анализа на новизну необходимо определить степень отличия вновь патентуемого изобретения от прототипа. Поэтому анализ заключается в определении характеристик, по которым данное изобретение отличается от имеющегося в базе патента. Тогда в результате сканирования патентной БД в ответ на запрос пользователю может выдаваться отчет по каждому (предположительно релевантному с учетом задачи) документу о том, насколько схожи элементы изобретения, присутствующие в патенте, и каковы те признаки запроса, по которым данное изобретение отличается от имеющихся в информационном массиве. В отчет целесообразно включить: 1) коэффициент сходства для каждого учитываемого элемента патентной формулы; 2) предикатные конструкции, извлеченные из входного описания изобретения, для которых не было найдено соответствие в документе (предикатные конструкции, предположительно определяющие новизну вновь патентуемого изобретения).
В соответствии с задачами, ориентированными на автоматизацию этапа анализа патентной экспертизы, должны быть переопределены правила выдачи и ранжирования документов (документы, предположительно порочащие новизну или патентную чистоту, очевидно, должны иметь более высокий ранг).
Такая надстройка требует детального и глубокого анализа лингвистических и логических законов композиции текста патентной формулы, а также предполагает детальную проработку в направлении планирования и оптимизации интерфейса подобного АРМ патентного эксперта.
Обозначенные направления развития позволяют видеть перспективы использования данной модели при решении разнообразных задач прикладной лингвистики. Примененная методика переиспользования лингвистической базы знаний и построения лингвистического обеспечения систем автоматической обработки текста может быть применена для моделирования других языковых подсистем и использующих их процедур автоматического анализа и синтеза текстов.
Заключение
Внимание исследователей к разработке интеллектуальных поисковых систем продиктовано практическими задачами сегодняшнего дня. Объемы информации неизменно увеличиваются, и функция роста новых документов имеет экспоненциальный вид. Это относится и к патентной документации, увеличение объемов которой обусловлено темпами научно-технического прогресса. Задача проведения патентных исследователей остро ставит перед экспертами проблему эффективного извлечения из огромного массива патентных текстов таких, которые релевантны для задач экспертизы.
Поскольку основную роль в исследованиях играет формула изобретения патента, представляется интуитивно очевидным, что именно эта часть патента должна учитываться при отборе документов из патентной БД. Так как документы представляют собой тексты на естественном языке, использование в качестве средств поиска и извлечения информации искусственных конструктов в форме информационных языков становится явно недостаточно.
В настоящей работе проведено исследование особенностей подъязыка формул изобретения патентов США на способ в целях использования этой информации для построения лингвистико-ориентированной модели извлечения информации.
Такая модель призвана, при ее использовании в патентных исследованиях, помочь решению следующих задач:
1) облегчить труд и временные затраты работников патентных ведомств при анализе заявок на изобретения в процессе отбора из патентной БД прототипов и аналогов патентуемых изобретений;
2) повысить качество патентных поисковых систем посредством применения методик автоматической обработки текста в информационном поиске.
Данное исследование вносит определенный вклад в развитие теории подъязыков науки и техники. Теоретическую ценность имеют смоделированные в ходе исследования лингвистические механизмы извлечения информации из массива текстов, использующие семантико-синтаксические особенности функционирования подъязыка.
Список научной литературыБабина, Ольга Ивановна, диссертация по теме "Прикладная и математическая лингвистика"
1. Абрамов, Б А. Грамматика зависимостей и теория валентностей / Б А. Абрамов // Современные зарубежные грамматические теории. Сборник научно-аналитических обзоров. -М.: ИНИОН, 1985. С. 110-152.
2. Автоматизированные документальные ИПС: система «Скобки» / Д.Г. Лахути, В.Ф. Пархоменко, Г.А. Лесскис, И.С. Добронравов, Е.Б. Федоров. -М.: Информэлектро, 1985.-44 с.
3. Апресян, Ю.Д. Избранные труды / Ю.Д. Апресян. 2-е изд., испр. и доп. - М.: Школа «Языки русской культуры»: Изд-во «Восточная литература» РАН, 1995. - Т. 1. Лексическая семантика. - VIII, 472 с.
4. Белоногов, Г.Г. Языковые средства автоматизированных информационных систем / Г.Г. Белоногов, Б.А. Кузнецов М.: Наука. Главная редакция физ-мат. лит-ры, 1983.-288 с.
5. Беляева, Л.Н. Применение ЭВМ в лингвистических исследованиях и лингводидактике: Уч. пособие к спецкурсу / Л.Н. Беляева. Л.: Изд-во ЛГПИ им. А.И. Герцена, 1986. - 83 с.
6. Богуславский, И.М. Внешняя и внутренняя сфера действия некоторых темпоральных обстоятельств / И.М. Богуславский // Metody formalne w opisie jçzykôw slowiañskich (к 60-летию Ю.Д. Апресяна) / Saloni Z. (red.). Bialystok, 1990.-С. 137-148.
7. Богуславский, И.М. Исследования по синтаксической семантике: сферы действия логических слов / И.М. Богуславский. М.: Наука, 1985. - 176 с.
8. Ю.Богуславский, И.М. Сфера действия лексических единиц. М.: Школа "Языки русской культуры", 1996. - 464 с.
9. Бондарко, A.B. Грамматическое значение и смысл / A.B. Бондарко. -Л.: Наука, Ленинградское отделение, 1978. 175 с.
10. Браславский, П.И. Тезаурус как средство описания систем знаний / П.И. Браславский, С.Л. Гольдштейн, Т.Я. Ткаченко. // НТИ. Сер. 2. 1997. -№11.-С. 16-22.
11. Булыгина, Т.В. К построению типологии предикатов в русском языке / Т.В. Булыгина. // Семантические типы предикатов / под ред. О.Н. Селиверстовой. М.: Наука, 1982. - С. 7-85.
12. Бухвалева, Э.И. Моделирование смысла термина информационно-поискового языка / Э.И. Бухвалева. М.: «Машиностроение», 1978. - 48 с.
13. Виккери, Б. Словари для систем координатного индексирования / Б. Виккери. // Вопросы индексирования и информационного поиска: Сб. переводов / под ред. В.А. Полушкина, Г.С. Ждановой, Е.С, Колобродовой, В.М. Михайлова.-М., 1965. -№1. С. 5 - 12.
14. Воройский, Ф.С. Систематизированный толковый словарь по информатике. (Вводный курс по информатике и вычислительной технике в терминах) / Ф.С. Воройский. М.: Либерея, 1998. - 376 с.
15. Гаврилова, Т. А. Извлечение и структурирование знаний для экспертных систем / Т. А. Гаврилова, К. Р. Червинская М.: Радио и связь, 1992. -200 с.
16. Гаврилова, Т.А. ВИКОНТ: ВИзуальный Конструктор ОНТологий для структурирования семантической информации / Т.А. Гаврилова, И.А. Лещева. //
17. Электронные библиотека: Перспективные методы и технологии, электронные коллекции: Труды Первой Всероссийской научной конференции. (С.-^ Петербург, 19-22 октября 1999 г.) СПб.: Изд-во С.-Петербургского ун-та,1999.-С. 97-99.
18. Городецкий, Б.Ю. Методы семантического исследования ограниченного подъязыка / Б.Ю. Городецкий, В.В. Раскин. М.: Изд-во Моск. ун-та, 1971.-414 с.
19. ГОСТ 7.73-96. Поиск и распространение информации. Термины и определения.
20. ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения. Введ. 01.07.97. Минск, 1997. - 34 с.
21. ГОСТ Р 15.011-96. Патентные исследования. Содержание и порядок проведения.
22. Грязнухина, Т.А. Синтаксический анализ научного текста на ЭВМ / Т.А. Грязнухина, Н.П. Дарчук, В.И. Критская. Киев: Наукова думка, 1999. -272 с.
23. Щ 26.Двуязычное аннотирование и реферирование / Р.Г. Пиотровский,
24. JI.H. Беляева, А.Н. Попескул, Е.А. Шингарева // Итоги науки и техники. Сер. Информатика. Т. 7. М.: ВИНИТИ, 1983. - С. 165-244.
25. Дрейфус, X. Чего не могут вычислительные машины: Критика искусственного разума. / X. Дрейфус; пер. с англ. Н. Родман. М.: Изд-во «Прогресс», 1978.-334 с.
26. Дубинский, А. Г. Факторы, влияющие на качество информационного поиска / А.Г. Дубинский // Системный анал!з та шформацшш технологи: 36. тез доп. МЪкн. наук.-практ. конф. студ., астранив та молод, вчених. К.: НТУУ "КПГ, 2001. - 4.2. - С. 43-48.
27. Дубинский, А.Г. Некоторые аспекты задачи построения автоматизированной поисковой системы / А.Г. Дубинский // Научный сервис в сети Интернет: Тез. докл. Всерос. науч. конф. М.: Изд-во МГУ, 1999. - С. 283-288.
28. Заде, JI. Понятие лингвистической переменной и его применение к принятию приближенных решений / JT. Заде; пер с англ. М.: Мир, 1976. - 165 с.
29. Захаров, В.П. Естественно-языковой подход к созданию лингвистического обеспечения информационно-поисковых систем / В.П. Захаров, E.H. Пименов // НТИ. Сер. 2. 1997. - №12. - С. 24 - 27.
30. ЗЗ.Зубов, A.B. Информационные технологии в лингвистике / A.B. Зубов, И.И. Зубова. М.: Издательский центр «Академия», 2004. - 208 с.
31. Изобретателям и рационализаторам: Сб. офиц. материалов / сост. В.И. Божинский. М.: Профиздат, 1980. - 256 с.
32. Информационно-поисковые системы и традиционный патентный поиск: Уч. пособие / авт.-сост. В.М. Яшина, В.Д. Васильев, Т.Б. Омарова, М.В. Волкова, H.JI. Румянцева; под ред. Б.С. Розова. М.: ВНИИПИ, 1987. - 108 с.
33. Калиущенко, В.Д. Значение отглагольного имени и реализация его валентности / В.Д. Калиущенко // Грамматическая и лексическая семантика. М.: Наука, 1981.-С. 101-106.
34. Кацнельсон, С.Д. К понятию типов валентности / С.Д. Кацнельсон // Вопросы языкознания. 1987. - №3. - С. 20-32.
35. Качулин, Н. Поиск в Интернете / Н. Качулин // Мир Интернет. 1997. -№11.-С. 32-39.
36. Киселева, Т.С. Экспертиза объектов техники на патентную чистоту: Уч. пособие / Т.С. Киселева. -М.: ВНИИПИ, 1991. 116 с.
37. Кобозева, И.М. Лингвистическая семантика: Учебник / И.М. Кобозева. М.: Эдиториал УРСС, 2000. - 352 с.
38. Кравец, Л.Г. Современная патентно-информаци-онная технология за рубежом / Л.Г. Кравец, A.A. Молчанова, Ю.Д. Кузнецов. М.: ВНИИПИ, 1995. -75 с.
39. Кронгауз, М.А. Семантика: Учебник для вузов / М.А. Кронгауз. М.: Рос. гос. гуманит. ун-т, 2001. - 399 с.
40. Ланкастер, Ф.У. Информационно-поисковые системы. Характеристики, испытание и оценка / Ф.У. Ланкастер. М.: Изд-во «Мир», 1972. - 308 с.
41. Ледли, Р. Программирование и использование вычислительных машин / Р. Ледли. М.: Изд-во «Мир», 1966. - 644 с.
42. Леонтьева, H.H. О статусе валентностей в информационном анализе тексте / H.H. Леонтьева. // Семиотика и информатика. М.: Школа «Языки русской культуры», 1998. - Вып. 36. - С. 41-50.
43. Леонтьева, H.H. Строение семантического компонента в информационной модели автоматического понимания текста: дис. . д-ра техн. наук / H.H. Леонтьева. М., 1990. - 307 с.
44. Лесохин, М.М. Введение в математическую лингвистику: Лингвистическое приложение основ математики / М.М. Лесохин, К.Ф. Лукьяненков, Р.Г. Пиотровский. Минск: Наука и техника, 1982. - 263 с.
45. Лосев, А.Ф. Введение в общую теорию языковых моделей: Уч. пособие / А.Ф. Лосев; под ред. И.А. Василенко. М.: Изд-во Моск. гос. пед. инст., 1968.-296 с.
46. Мельников, Г.П. Системология и языковые аспекты кибернетики / Г.П. Мельников; под ред. Ю.Г. Косарева. М.: Сов. радио, 1978. - 368 с.
47. З.Мельчук, И.А. Опыт теории лингвистических моделей «СмыслО Текст» / И.А. Мельчук. М.: Школа «Языки русской культуры», 1999.-XXII, 345 с.
48. Мидоу, Ч. Анализ информационных систем: Сокр. пер. с англ. / Ч. Мидоу. 2-е изд., перераб. и доп. - М.: «Прогресс», 1977. - 400 с.
49. Минский, М. Фреймы для представления знаний / М. Минский; пер. с англ. М.: Энергия, 1979. - 152 с.
50. Налимов, В.В. Вероятностная модель языка / В.В. Налимов. 2 изд. -М.: Наука, 1979.-303 с.
51. Никитин, П.И. Информационно-поисковые системы. Автоматизированные ИПС. / П.И. Никитин; под ред. В.Г. Шорина. М.: Изд-во Моск. гос. ист.-арх. ин-та, 1971. - 140 с.
52. Никитин, П.И. Информационно-поисковые системы. Теоретические основы информационного поиска / П.И. Никитин. М.: Изд-во Моск. гос. ист.-арх. ин-та, 1972. - 232 с.
53. Обработка запросов на естественном языке новое качество поиска в БД ВИНИТИ / Б.А. Кузнецов, Е.К. Солнцева, М.В. Деревянкин, Д.В. Закамская //НТИ. Сер. 2.-2001.-№11.-С. 31-37.
54. Падучева, Е.В. Динамические модели в семантике лексики / Е.В. Падучева. — М.: Языки славянской культуры, 2004. — 608 с.
55. Падучева, Е.В. Коммуникативное выделение на уровне синтаксиса и семантики / Е.В. Падучева // Семиотика и информатика. М.: Школа «Языки русской культуры», 1998. - Вып. 36. - С. 82-107.
56. Патентно-информационное обеспечение: Сб. иллюстративных материалов / сост. К.Л. Кольцова. М.: ИПКИР, 1985. - 62 с.
57. Пименов, E.H. Предметно-аспектный подход к индексированию информации: актуальный и нулевой предмет индексирования / E.H. Пименов // НТИ. Сер. 2.-2001.-№7.-С. 18-25.
58. Пиотровский, Р.Г. Инженерная лингвистика и теория языка / Р.Г. Пиотровский. Л.: «Наука», 1979. - 112 с.
59. Пиотровский, Р.Г. Лингвистический автомат (в исследовании и непрерывном обучении): Учебное пособие / Р.Г. Пиотровский. СПб.: Изд-во РГПУ им. А.И. Герцена, 1999. - 256 с.
60. Пиотровский, Р.Г. Текст, машина, человек / Р.Г. Пиотровский. Л.: Наука, Ленинградское отделение, 1975. - 327 с.
61. Поляков, В.Н. Интеллектуальная поисковая машина. Концептуальный проект / В.Н. Поляков // Труды Казанской школы по компьютерной и когнитивной лингвистике. TEL-2000. (Казань, 17-20 октября 2000 г). Казань: Изд-во Сэлэт, 2000. - Вып. 5. - С. 87-119.
62. Приставко, Л.П. Методика составления тезауруса / Л.П. Приставко // Семантические модели поиска научной информации и методы проектирования лингвистического обеспечения документальных ИПС. Киев: Институт кибернетики, 1979.-С. 20-32.
63. Пшеничная, Л.Э. Тезаурус в документальной информационно-поисковой системе / Л.Э. Пшеничная. К.: Наукова думка, 1977. - 121 с.
64. Рахилина, Е.В. Семантика или синтаксис? (К анализу частных вопросов в русском языке) / Е.В. Рахилина. München: Sagner, 1990. - X, 206 с. Slavistische Beiträge.
65. Ревзин, И.И. Современная структурная лингвистика: Проблемы и методы / И.И. Ревзин; отв. ред. Вяч. Вс. Иванов. М.: Изд-во «Наука», 1977. -263 с.
66. Рубашкин, В.Ш. Представление и анализ смысла в интеллектуальных информационных системх / В.Ш. Рубашкин. М.: Наука: Гл. ред. физ.-мат. лит., 1989. - 192 с. - (Пробл. искусств, интеллекта).
67. Семенов, Ю.А. Современные поисковые системы / Ю.А. Семенов // http://book.itep.rU/4/45/retr4514.html. Дата просмотра: 27.05.2006.
68. Скорняков, Э.П. Методические рекомендации по проведению патентных исследований / Э.П. Скорняков, Т.Е. Омарова, О.В. Челышева. М.: ИНИЦ, 2001.- 196 с.
69. Степанов, Ю.С. Методы и принципы современной лингвистики / Ю.С. Степанов. 2-е изд. - М.: Эдиториал УРСС, 2001. - 312 с.
70. Степанова, М.Д. Части речи и проблемы валентности в современном немецком языке / М.Д. Степанова, Г. Хельбиг. М.: Высшая школа, 1978. -258 с.
71. Сэлтон, Г. Автоматическая обработка, хранение и поиск информации / Г. Сэлтон. М.: Сов. радио, 1973. - 560 с.
72. Теньер, JI. Основы структурного синтаксиса / JI. Теньер; пер. с франц. И.М. Богуславского, Л.И. Лухт, Б.П. Нарумова, С.Л. Сахно. М.: Прогресс, 1988.-653 с.
73. Теряев, A.A. Построение систем поиска информации, основанных на семантике языка: дис. канд. техн. наук / A.A. Теряев. СПб, 2002. - 119 с.
74. Тестелец, Я.Г. Введение в общий синтаксис / Я.Г. Тестелец. М.: РГГУ, 2001.-800 с.
75. Традиционные и новые средства патентного поиска / сост. Л.Г. Кравец. М.: ИНИЦ Роспатента, 2001. - 76 с.
76. Труб, В.М. К проблеме построения полной типологии стратегий поиска в ИПС / В.М. Труб //Лингвистические вопросы проектирования и информационный анализ автоматизированных информационных систем. Киев: ИК, 1976.-С. 85- 102.
77. Устинова, Е.А. Понятия и определения в области химии и критерии патентного права / Е.А. Устинова. М.: ВНИИПИ, 1998. - 28 с.
78. Устинова, Е.А. Функциональные признаки в формулах изобретения на химические объекты / Е.А. Устинова, О.В. Челышева. М.: ИНИЦ Роспатента, 1999.- 19 с.
79. Уфимцева, A.A. Лексическое значение: Принцип семиологического описания лексики / A.A. Уфимцева; под ред. Ю.С. Степанова. 2-е изд., стереотипное. - М.: Едиториал УРСС, 2002. - 240 с.
80. Фейгельсон, В.М. Методика и практика экспертизы объектов техники на патентную чистоту / В.М. Фейгельсон. М.: ИНИЦ Роспатента, 2001. -343 с.
81. Филмор, Ч. Дело о падеже / Ч. Филмор // Зарубежная лингвистика. III / общ. ред. В.Ю. Розенцвейга, В.А. Звегинцева, Б.Ю. Городецкого. М.: Изд. группа «Прогресс», 2002. - С. 127-258.
82. Филмор, Ч. Дело о падеже открывается вновь / Ч. Филмор // НЗЛ. Вып. X. Лингвистическая семантика / сост., общ. ред. и вступ. ст. В.А. Звегинцева. М.: Прогресс, 1981. - С. 496-530.
83. Фреге, Г. Логика и логическая семантика: Сборник трудов / Г. Фреге; пер. с нем. Б.В. Бирюкова; под ред. З.А. Кузичевой. М.: Аспект Пресс, 2000. -512 с.
84. Химия: Справ, материалы: Кн. для учащихся / Ю.Д. Третьяков, H.H. Олейников, Я.А. Кеслер и др.; под ред. Ю.Д. Третьякова. 3-е изд., пере-раб. - М.: Просвещение, 1994. - 287 с.
85. Хомский, Н. Аспекты теории синтаксиса / Н. Хомский. Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 1999. - 256 с.
86. Храковский, B.C. Понятие сирконстанта и его статус / B.C. Храков-ский // Семиотика и информатика. М.: «Языки русской культуры», 1998. -Вып. 36.-С. 141-153.
87. Чарская, Т.К. Статистическая структура текста патентного документа: дис. . канд. филол. наук / Т.К. Чарская. Л., 1983. - 148 с.
88. Чейф, У. Л. Значение и структура языка / У.Л. Чейф. Благовещенск: БГК им. И.А. Бодуэна де Куртенэ, 1999. - 428 с.
89. Черный, А.И. Введение в теорию информационного поиска / А.И. Черный. М.: Наука, 1975.-238 с.
90. Шереметьева, С.О. Межуровневая организация текста патентной формулы США / С.О. Шереметьева, Е.А. Бородкина // Межуровневая организация текста в естественном языке: Межвузовский сборник научных трудов. -Челябинск: ЧГПИ, 1987.-С. 116-121.
91. Шереметьева, С.О. Модель синтеза текста формулы изобретения: дис. . канд. филол. наук / С.О. Шереметьева. Л., 1985. - 174 с.
92. Шингарева, Е.А. Информационный язык в лингвистическом автомате / Е.А. Шингарева // Инженерная лингвистика и оптимизация преподавания иностранных языков: Межвуз. сб. науч. тр. / отв. ред. Р.Г. Пиотровский. Л.: ЛГПИ, 1980.-С. 31-71.
93. Шингарева, Е.А. Формальная математическая теория искусственного языка / Е.А. Шингарева // Инженерная лингвистика и преподавание иностранных языков с помощью ТСО. Л.: ЛГПИ, 1981. - С. 47-65.
94. Яглом, A.M. Вероятность и информация / A.M. Яглом, И.М. Яглом. -М.: «Наука», 1973.-511 с.
95. Andriamanankasina, Т., К. Araki, and Т. Tochinai. Example-Based Machine Translation of Part-Of-Speech Tagged Sentences by Recursive Division. In Proceedings of MTSUMMIT VII. Singapore. 1999. Pp. 509-517.
96. Aronson, Alan R., Thomas C. Rindflesch, and Allen C. Browne. Exploiting a Large Thesaurus for Information Retrieval. In Proceedings of RIAO'94. New York, NY, USA. 1994. Pp. 197-216.
97. Biber, D. Variation across speech and writing. Cambridge, England: Cambridge University Press, 1988. - 316 p.
98. Biber, D., S. Conrad, and R. Reppen. Corpus Linguistics. Investigating Language Structure and Use (Cambridge Approaches to Linguistics). Cambridge: Cambridge University Press, 1998. - 310 p.
99. Brill, Eric. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. In Computational Linguistics. 21(4), 1995. Pp. 543-565.
100. Brown, R. D. Automated Generalization of Translation Examples. In Proceedings of the Eighteenth International Conference on Computational Linguistics (COLING-2000). Saarbrücken, Germany. August 2000. Pp. 125-131.
101. Burnard, Lou (ed.) The British National Corpus Users Reference Guide. Technical Report. Oxford: Oxford University Computing Services, 2000. Доступен: http://www.natcorp.ox.ac.uk/docs/userManual/. Дата просмотра: 01.07.2006.
102. Cardie, С. Domain-Specific Knowledge Acquisition for Conceptual Sentence Analysis. Ph.D. Thesis. Amherst, MA: University of Massachusetts, 1994. -178 p. - (University of Massachusetts, CMPSCI Technical Report 94-74).
103. Carl, M. Inducing Translation Templates for Example-Based Machine Translation. In Proc. of MTSummit VII. Singapore. 1999. Pp. 250-258.
104. Chen, Liang, Naoyuki Tokuda, and Hisahiro Adachi. A Patent Document Retrieval System Addressing Both Semantic and Syntactic Properties. In Proceedings of ACL2003 Workshop on Patent Corpus Processing. Sapporo, Japan. July 12, 2003. Pp. 1-6.
105. Church, K. A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text. In Proceedings of 2nd Conference on Applied Natural Language Processing. Austin, Texas. 1988. Pp. 136-143.
106. Cutting, D., J. Kupiec, J. Pederson, and P. Sibun. A practical part-of-speech tagger. In Proceedings of 3rd Conference on Applied Natural Language Processing. Trento, Italy. 1992. Pp. 126-132.
107. Daelemans, W., J. Zavrel, P. Berck, and S. Gillis. МВТ: A Memory-Based Part of Speech Tagger Generator. In Proceedings of 4th Workshop on Very Large Corpora, ACLSIGDAT. 1996. Pp. 14-27.
108. Evans, David A., and Chengxiang Zhai. Noun-Phrase Analysis in Unrestricted Text for Information Retrieval. In Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics. 1996. Pp. 17-24.
109. Evans, David A., Kimberly Ginther-Webster, Mary Hart, Robert G. Lef-ferts, and Ira A. Monarch. Automatic indexing using selective NLP and first-order thesauri. In RLAO'91. Barcelona, Spain. April 2-5,1991. Pp. 624-644.
110. Fellbaum, C. (ed.). WordNet: An Electronic Lexical Database. MIT Press, Cambridge, MA. 1998. - 423 p.
111. Feuillet, J. Les functions sémantiques profondes // Bulletin de la Société de linguistique de Paris. T. 75. 1. 1980. Pp. 1-37.
112. Fujita, Sumio. Notes on phrasal indexing: JSCB evaluation experiments at NTCIR AD HOC. In Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. Tokyo, Japan. August 30 September 1, 1999. Pp. 101-108.
113. Garside, Roger. The CLAWS word-tagging system. In The Computational Analysis of English: A Corpus-based Approach. / R. Garside, G. Leech and G. Sampson (eds.). London and New York: Longman, 1987. - Pp. 30-41.
114. Helbig, G., and W. Schenkel. Wörterbuch zur Valenz und Distribution deutcher Verben. Leipzig, Bibliogr. Inst., 1973. - 458 s.
115. Hindle, D. Acquiring disambiguation rules from text. In Proceedings of 27th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada. April 1989. Pp. 118-125.
116. Jackendoff, Ray S. Semantic structures. Cambridge (Mass.): The MIT Press, 1992.-336 p.
117. Jacobs, Paul S., and Lisa F. Rau. SCISOR: Extracting information from on-line news. In Communications of the ACM. 33(11), 1990. Pp. 88-97.
118. Jones, D. Analogical Natural Language Processing. London: UCL Press, 1996.- 155 p.
119. Joshi, Aravind K., and B. Srinivas. Disambiguation of Super Parts of Speech (or SuperTags): Almost Parsing. In Proceedings of the 15th International
120. Conference on Computational Linguistics (COLING'94). Vol. 1. Kyoto, Japan. August 1994. Pp. 154-160.
121. Kato, Tsuneaki, Shigeo Shimada, Mutsumi Kumamoto, and Kazumitsu Matsuzawa. Idea-Deriving Information Retrieval System. In Proceedings of the First NTCIR Workshop. Tokyo, Japan. August 30 September 1,1999. Pp. 187-193.
122. Kishida, Kazuaki. Regression Model and Query Expansion for NTCIR-2 Ad Hoc Retrieval Task. In Proceedings of the Second NTCIR Workshop on Researchin Chinese & Japanese Text Retrieval and Text Summarization. Tokyo, Japan. 2001.1. Pp. 5-83-5-89.
123. Kitano, H. A Comprehensive and PracticalModel of Memory-Based Machine Translation. In Proceedings of IJCAI-93. Chambery, France. 1993. Pp. 12761282.
124. Kittredge, K., A. Polguere, and E. Goldberg. Synthesizing Whether • Forecasts from Formatted data. In Proceedings of the 11th International Conferenceon Computational Linguistics (COLING-86). Bonn, Germany. 1986. Pp. 563-565.
125. Kolodner, Janet. Case-Based Reasoning. San Mateo, CA: Morgan Kaufmann Publishers, 1993. - 612 p.
126. Korhonen, A., and J. Preiss. Improving Subcategorization Acquisition Using Word Sense Disambiguation. In Proceedings of the 41s Meeting of the Association for Computational Linguistics. Sapporo, Japan. July 7-12, 2003. Pp. 48-55.
127. Kwok, K.L. A Network Approach to Probabilistic Information Retrieval. In ACM Trans, on Information Systems. No. 12, 1996. Pp. 325-353.
128. Large, Andrew, Lucy A. Tedd, and R.J. Hartley. Information Seeking in the Online Age: Principles and Practice. London-Melbourne-Miinich-New Provdi-ence, NJ: Bowker-Saur, 1999. - 308 p.
129. Lazard, Gilbert. Actancy. Berlin; N.Y.: Mouton de Gruyter, 1998. -XV, 286 p.
130. Lazard, Gilbert. Définition des actants dens les langues européennes // Actance et valence dans les Langues de l'Europe. Empirical Approaches to Language Typology. EUROTYP 20-2 / Feuillet J. (ed.). Berlin; N.Y.: Mouton de Gruyter, 1997.-Pp. 11-146.
131. Lazard, Gilbert. L'actance. Paris: Press universitaires de France, 1994. -296 p.
132. Levin, Beth. English Verb Classes and Alternations: A Preliminary Investigation. Chicago: Chicago UP, 1993. - 348 p.
133. Lewis, David D., and W. Bruce Croft. Term clustering of syntactic phrases. In 13th International Conference on Research and Development in Informa* tion Retrieval / Jean-Luc Vicick (ed.). 1990. Pp. 385-404.
134. Lin, Xia. Information Retrieval Systems: Course at College of Information Science and Technology, Drexel University. Fall, 2002. // Доступен: http://research.cis.drexel.edu/classes/insys300. Дата просмотра: 25.05.2006.
135. Manning, Christopher D., and Hinrich Schütze. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press, 1999. - 620 p.
136. Marcus, Mitchell M., Beatrice Santorini, and Mary Ann Marcinkiewicz. Building a Large Annotated Corpus of English: The Penn Treebank. In Computational Linguistics. Vol. 19, No.2. June 1993. Pp. 313-330.
137. Mathew, P.H. Morphology, 2nd ed.- Cambridge: Cambridge University Press, 1998. 251 p. - (Cambridge Textbooks in Linguistics).
138. Mauldin, Michael L. Conceptual Information Retrieval: A Case Study in Adaptive Partial Parsing. Boston, MA: Kluwer Academic Publishers, 1991. -240 p.
139. Moore, C.N. Zatocoding applied to mechanical organization of knowledge. In American Documentation. No. 1, 1951. Pp. 20-23.
140. Nagao, M. A Framework of a Mechanical Translation between Japanese and English by Analogy Principle. In Artificial and Human Intelligence / A. Elithorn and R. Banerji (eds.). North-Holland, NATO Publications, 1984. - Pp. 173-180.
141. Nirenburg, S., and V. Raskin. Ten Choices for Lexical Semantics. Memoranda in Computer and Cognitive Science, MCCS-96-304. Las Cruces, NM: New Mexico State University, Computing Research Laboratory, 1996. 39 p.
142. Oltmans, Erik. A Two-Stage Model for Robust Parsing. In Proceedings of the International Conference on Natural Language Processing and Industrial Applications (NLP+IA '98). Moncton, New Brunswick, Canada. 1998. Pp. 233-239.
143. Onyshkevich, B., and S. A. Nirenburg. Lexicon for Knowledge-Based MT. In Machinbe Translation. 10:1 -2, 1995. Pp. 5-57.
144. Rayson, Paul Edward. Matrix: A Statistical Method and Software Tool for Linguistic Analysis through Corpus Comparison: Ph.D. Thesis. Computer Department, Lancaster University. - September 2002. - XIII, 182 p.
145. Rijsbergen, C.J. van. Information Retrieval. Second Edition. - London: Butterworths, 1979. - 204 p.
146. Robertson, S.E., and K. Sparck Jones. Relevance weighting of search terms. In Journal of the American Society for Information Science. May-June 1976. Pp. 129-146.
147. Robertson, S.E., and S. Walker. Okapi/Keenbow at TREC-8. In Proceedings of the Eigth Text Retrieval Conference (TREC-8) / E.M. Voorhees, D.K.
148. Harman (eds.). Gaithersburg, Maryland, USA. November 17-19, 1999. Pp. 151-162. (NIST Special Publication 500-246).
149. Sadler, V. Working with Analogical Semantics. Foris Publications, 1989.-256 p.
150. Sato, S., and M. Nagao. Toward Memory-based Translation. In Proceedings of the International Conference on Computational Linguistics, COLING-90. Vol. 3. Helsinki, Finland. August 1990. Pp. 247-252.
151. Schmid, H. Part-of-Speech Tagging with Neural Networks. In Proceedings of the 15th International Conference on Computational Linguistics (COL-ING'94). Kyoto, Japan. August 1994. Vol. 1. Pp. 172-176.
152. Sheremetyeva, S. A Flexible Approach to Multi-Lingual Knowledge Acquisition for NLG. In Proceedings of the 7th European Workshop on Natural Language Generation / P. St. Dizier (ed.). Toulouse, France. May 13-15, 1999. Pp. 106115.
153. Sheremetyeva, S. Natural Language Analysis of Patent Claims. In Proceedings of the Workshop on Patent Corpus Processing. Sapporo, Japan. July 12, 2003a. Pp. 66-73.
154. Sheremetyeva, S. On MT Learning Environment for Computational Linguistics Students // Теория и методика преподавания языков в вузе: Тезисы докладов / под ред. Е.Н. Ярославовой. — Челябинск: Изд-во ЮУрГУ, 2003b. — с. 32-38.
155. Sheremetyeva, S., S. Nirenburg, and I. Nirenburg. Generating patent claims from interactive input. In Proceedings of the 8th International Workshop on Natural Language Generation (INLG'96). Herstmonceux, England. 1996. Pp. 61-70.
156. Sheremetyeva, S. Handling Low Translatability in Machine Translation. In Proceedings of the Eleventh Conference of European Association of Machine Translation (EAMT). Oslo, Norway. August 19-20, 2006. Pp. 105-114.
157. Sparck Jones, K. A statistical interpretation of term specificity and its application in retrieval. In Journal of Documentation. Vol. 28. 1972. Pp. 111-121.
158. Strzalkowski, Tomek, and Jose Perez Carballo. Recent Developments in Natural Language Text Retrieval. In The Second Text REtrieval Conference (TREC-2) / D.K. Harman (ed.). August 31 September 2, 1993. Pp. 123-136. (NIST Special Publication 500-215). ,
159. Sumita, Eiichiro, and Hitoshi Iida. Experiments and Prospects of Example-Based Machine Translation. In Proceedings of Proceedings of the 29th Meetingof the Association for Computational Linguistics (ACL-91). Berkeley, USA. 1991. Pp.185-192.
160. Tadic, Marko. Building the Croatian National Corpus. In Proceedings of the Third International Conference on Language Resource and Evaluation. Vol.2. Las Palmas, Spain. May 29-31, 2002. Pp. 441-446.
161. Van Valin, R.D Jr. A Synopsis of Role and Reference Grammar. In Advances in Role and Reerence Grammar / R.D. Jr. Van Valin (ed.) Amsterdam: Benjamins, 1993.-Pp. 1-166.
162. Voutilainen, A. 1995. A syntax-based part-of-speech analyser. In Proceedings ofEACL'95. Dublin, Ireland. 1995. Pp. 157-164.
163. Watanabe, H., and H. Maruyama. A Transfer System Using Example-Based Approach. In IEICE Transactions on Information and Systems. Vol. E77-D, No. 2. 1994. Pp. 247-257.
164. Youli, Q., X. Guowei, and W. Jun. Rerank Method Based on Individual Thesaurus. In Proceedings of the Second NTCIR Workshop on Research in Chinese & Japanese Text Retrieval and Text Summarization. Tokyo, Japan. March 2001. Pp.553-558.