автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Языковые средства современных информационно-поисковых систем

  • Год: 1997
  • Автор научной работы: Захаров, Виктор Павлович
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.21
Автореферат по филологии на тему 'Языковые средства современных информационно-поисковых систем'

Полный текст автореферата диссертации по теме "Языковые средства современных информационно-поисковых систем"

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

~ № 1537

ЗАХАРОВ Виктор Павлович

ЯЗЫКОВЫЕ СРЕДСТВА СОВРЕМЕННЫХ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

Специальность 10.02.21 — Структурная, прикладная и математическая лингвистика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата филологических наук

Санкт-Петербург

1997

Работа выполнена на кафедре математической лингвистки Санкт-Петербургского государственного университета.

Официальные оппоненты: доктор филологических наук М.И.Откупщикова доктор технических наук, проф. В.Ш.Рубашкил

Ведущая организация: Санкт-Петербургский государственный

педагогический университет им. А.И.Герцена

Защита состоится /^р 1997 г. в /¿г часов на

заседании диссертационного совета К 663.57.52 по защите диссертаций на соискание ученой степени кандидата филологических наук в Санкт-Петербургском государственной университете по адресу: 199034, Санкт-Петербург, Университетская наб., 11.

С диссертацией можно ознакомиться в научной библиотеке имени А.М.Горького Санкт-Петербургского государственного университета по адресу: 199034, Санкт-Петербург, Университетская наб., 7/9.

Автореферат разослан "_ " _ 1997 г.

Ученый секретарь диссертационного совета, доктор филологических наук,

профессор О.И.Бродопич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Последние десятилетия нашего века характеризуются небывалым ростом объемов информации. Развитие сетевых технологий привело к кардинальным изменениям в информационной сфере. Мир вступает в эру безбумажной, электронной информации.

Из множества задач обработки информации выделяется задача информационного поиска, для реализации которой разрабатываются автоматизированные информационно-поисковые системы (ИПС), представляющие собой совокупность средств и методов, предназначенных для хранения и поиска текстов (документов) или данных (фактов).

Объектом исследования настоящей диссертации являются документальные информационно-поисковые системы, в которых единицами хранения и выдачи являются документы (тексты). В качестве предмета исследования выступают языковые средства ИПС, или подсистема лингвистического обеспечения.

Актуальность работы определяется необходимостью исследования проблем: лингвистического обеспечения документальных ИПС, так как языковые средства являются ядром ИПС. Несмотря на разнообразие теоретических работ и большое число реатьно функционирующих ИПС, результаты исследований по теории информационного поиска и лингвистическому обеспечению нельзя признать удовлетворительными. Более того, интенсивность теоретических исследований по лингвистическому обеспечению неуклонно снижается. Создание ИПС все чаще становится делом программистов и специалистов по компьютерной технике.

Лингвистический компонент современных ИПС отстает от технического и программного. Создание лингвистического обеспечения является сложной и комплексной проблемой, требующей исследования и решения многих задач семантики, прикладной лингвистики и теории информационного поиска. Достижения в области программно-технического обеспечения документального поиска, коренным образом изменившие лицо современных информационных систем, выглядят, безусловно, впечатляюще. Однако эти достижения образуют явную диспропорцию с показателями эффективности поиска. Под эффективностью мы понимаем функциональную эффективность, отражающую качественную сторону документального поиска. Качество же работы современных поисковых систем — особенно в Интернет — оставляет желать лучшего. Эта сложившаяся диспропорция делает работы, направленные на совершенствование документальных ИПС, особенно актуальными. Кроме того, в сферу электронного документооборота и информационного поиска на полных правах вошел естественный язык. Это явление требует серьезного научного осознания и освоения, для чего также необходимы теоретические и практические разработки в области лингвистического обеспечения.

Основной целью настоящего диссертационного исследования является разработка теоретических принципов построения лингвистического обеспечения документальных ИПС, создание комплекса языковых средств, практическая реализация их в виде действующей модели ИПС и проверка выработанных принципов.

Эта общая цель обусловила необходимость проработки и решения ряда теоретических и практических конкретных задач, в частности:

1) определение состава и структуры комплекса языковых средств документальных ИПС;

2) исследование схемы взаимодействия языковых средств документальных ИПС;

3) разработка концепции и выбор типа информационно-поискового языка (ИПЯ);

4) создание функциональной модели ИПС без лексического контроля;

5) разработка принципов и алгоритмов морфологической нормализации лексики ИПЯ;

6) разработка методов и средств работы с лексикой запросов;

7) разработка методов и алгоритмов построения тезауруса запросов;

8) анализ тенденций развитая современных ИПС и обоснование основных положений архитектуры "клиент-сервер" применительно к системе языковых средств информационных систем;

9) анализ языков запросов информационных систем и разработка унифицированной структурной модели языка запросов.

Методы исследования включают методы системного анализа, класси-фикационно-типологичсский анализ языковых средств, метод функционального моделирования, метод дистрибутивно-статистического анализа, метод структурно-функционального моделирования, методы эксперимента, аппарат теории множеств, математической логики, теории алгоритмов и прикладной лингвистики.

Научная новизна работы определяется следующими результатами:

• определены основные принципы построения документальных нолигема-тических ИПС без контроля лексики;

• разработан комплекс языковых средств ИПС без контроля лексики;

• разработана функциональная модель данной ИПС;

• разработаны методы автоматического кодирования словоформ текста в целях морфологической нормализации;

• разработаны средства и методы лексико-семактической обработки запросов;

• разработаны формализованные методы построения тезауруса запросов;

• обоснован подход к созданию языковых средств, обеспечивающих агрегацию традиционных дескрипгорных языков с языками библиографических данных;

• обобщены принципы архитектуры "клиент-сервер" применительно к языковым средствам документальных ИПС;

• создана унифицированная структурная модель языков запросов современных ИПС.

Научная достоверность исследования обеспечивается учетом обширной литературы по теме, обобщением опыта разработки лингвистического обеспечения различных систем и личного опыта автора, проверкой результатов исследования на практике. Представленная концепция документальной ИПС основана на исследованиях, проводившихся автором на протяжении многих лет (1973-1991) в ЛенЦНТИ для решения практических информационных задач достаточно крупного масштаба в рамках Государственной программы 0.80.18 по теме И81.40 (задание 06.01 "Усовершенствовать и ввести в эксплуатацию АСНТИ по РСФСР"). С 1992 г. исследования были продолжены в Библиотеке Российской академии наук в рамках работ по созданию автоматизированной библиотечной системы.

Практическая ценность работы заключается в том, что разработанные на основе диссертационного исследования лингвистические средства реализованы на практике в ряде систем, работающих в режиме промышленной и опытной эксплуатации в ЦНТИ АСНТИ РФ, в Библиотеке РАН, в других организациях. Полученные результаты могут быть использованы также в учебных курсах по прикладной лингвистике, информатике, автоматизированной обработке текстов, библиографическому поиску и др. Материалы диссертационного исследования использовались и используются автором в учебных курсах по автоматизации информационных процессов в Санкт-Петербургском университете, Институте повышения квалификации информационных работников и Санкт-Петербургской академии культуры. По данной тематике под руководством автора в Санкт-Петербургском университете и Санкт-Петербургской академии культуры защищено несколько дипломных работ.

Апробация работы. По проблемам лингвистического обеспечения и автоматизированного информационного поиска автором опубликовано 67 работ. Основные положения диссертации докладывались и обсуждались на многих конференциях и семинарах, перечень которых включает международные конференции и семинары по вопросам информатики в Кабли (Эстония, 1990), Лохусалу (Эстония, 1992), Москве (1993), Вильнюсе (1994), Крыму (1994, 1995, 1996, 1997), Новосибирске (1994, 1996), Тронхейме (Норвегия, 1995), Санкт-Петербурге (1995, 1996), Будапеште (1996), Всесоюзные научные семинары "Системные исследования ГАСНТИ" (1979-1991), Всесоюзные конференции "Проблемы развития Государственной системы патентной информации", межотраслевые конференции, семинары, симпозиумы и выставки по проблемам автоматизированной обработки научно-технической информации (1978—1989), конференцию "Семантика естественных и искусственных языков" (Ленинград, ЛГУ, 1979), Межвузовский симпозиум по научно-технической лексикографии (Ленинград, ЛГУ, 1981), Всесоюзную конференцию "Актуальные проблемы компьютерной лингвистжси" (Тарту, 1990) и др.

На защиту выносятся:

1. Основные принципы построения документальных политематических ИПС без контроля лексики.

2. Логико-лингвистическая реализация ИПС "РАСПРИ-1".

3. Разработка принципов и алгоритмов автоматического кодирования словоформ текста в целях морфологической нормализации.

4. Разработка методов и средств лексико-семантического нормирования запросов в ИПС без лексического контроля.

5. Методология и алгоритмы построения тезауруса запросов методами дистрибутивно-статистического анализа и транзитивного замыкания.

6. Обобщенная структурная модель языков запросов современных ИПС.

Структура и объем работы. Диссертация состоит из введения, 4 глав, заключения и списка литературы. Основной текст диссертации занимает 216 страниц, содержит 8 таблиц, 7 рисунков. Список литературы состоит из 224 названий.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается необходимость научного исследования и практического совершенствования языковых средств информационного поиска; определяются цель и задачи исследования. Раскрываются актуальность диссертационного исследования, его научная новизна, научная достоверность и практическая значимость.

Первая глава «Основы теории информационно-поисковых систем» посвящена общим вопросам информационного поиска и лингвистического обеспечения.

Лингвистическое обеспечение (языковые средства) ИПС в целом — это набор логических и лингвистических средств и методов по обеспечению основной функции ИПС. Главной частью ИПС считают информационно-поисковый язык (ИПЯ). Практический опыт по созданию ИПС привел к осознанию того, что лингвистическое обеспечение (ЛО) ИПС не исчерпывается одним только ИПЯ. В ЛО ИПС стали включать также специальные языковые средства поиска в режиме диалога, средства мультибазового поиска, автоматизации вспомогательных процессов в ИПС, средства ведения машинных словарей и др.

Ниже предлагается типологическая схема, отражающая, на наш взгляд, объем и содержание понятия "лингвистическое обеспечение". 1. Собственно информационно-поисковый язык, служащий для описания

содержания документов в виде, пригодном для поиска.

1.1. Алфавит и микросинтаксис ИПЯ.

1.2. Средства представления плана содержания (словари, тезаурусы, вспомогательные словари, рубрикаторы, классификаторы, грамматические средства, форматы).

1.3. Средства представления текстовой информации (правила представления текстов на естественном языке (ЕЯ), проблемы многоязычия, диакритики и т.п.). 2. Процедурные средства информационного поиска.

2.1. Средства поиска (язык запросов, средства автоматической адресации запросов к базам данных, единые командные языки, критерий смыслового соответствия).

2.2. Средства обеспечения совместимости различных языков (таблицы соответствия, таблицы конвертирования, протоколы).

2.3. Средства семантической обработки данных (процедуры автоматической индексации документов к запросов, автоматической классификации документов, автоматизированного построения поисковых предписаний, автоматизированного обнаружения ошибок).

2.4. Средства обработки текстов на ЕЯ и поддержки Л О (программно-алгоритмические средства морфологического и синтаксического анализа, машинные словари лексических и морфологических единиц ЕЯ, процедуры автоматизированного составления и ведения машинных словарей, грамматические таблицы ЕЯ, документация по лингвистическому обеспечению).

В первой главе обсуждается также проблема типологии ИПЯ и особенности языков разных типов. По сравнению с иерархическими классификациями (языки предкоордикировацного типа), предназначенными для систематизации литературы с помощью заранее определенных классификационных индексов, в документальных ИПС в основном применяются дескрнлторные ИПЯ (языки посткоординируемого типа), в основу построения которых положен принцип координатного индексирования, заключающийся в том, что содержание документов представляется в виде набора дескрипторов (ключевых слов). Мы считаем, что принцип координатного индексирования и операция координации — логического умножения или сложения ицдекеащюшшх терминов в процессе поиска — являются главными отличительными особенностями дескрипторных языков. Поэтому даже в системах, где словарь индексирования в явном виде отсутствует, мы все равно имеем дело с дсскрипторным ИПЯ (без фиксированного словаря).

Рассматриваются составные части дескрипторных ИПЯ: словарь (лексика) и грамматика. Разделение языковых средств ИПС на словарные и грамматические довольно условно. Обычно к грамматическим средствам ИПЯ относят парадигматические и синтагматические отношения. Собственно говоря, грамматике в узком, естественноязыковом смысле принадлежат только синтагматические отношения. Парадигматические отношения обусловлены наличием логических связей между понятиями как элементами, отражающими объекты и явления реального мира. Они фиксируются в словаре и в отличие от естественных языков отображаются там в явном виде.

Отличие ИПЯ от естественных языков заключается в том, что все элементы ИПЯ формализованы. Совокупность мер, принимаемых при

координатном индексировании с целью сокращения до минимума отрицательных последствий неоднозначного и неединообразного употребления слов ЕЯ, носит название лексического контроля. Лексический контроль сводится к контролю синонимии и разрешению омонимии.

Контроль синонимии заключается в том, что все синонимы заменяются одним и тем же лексическим вариантом. Этот вариант называется дескриптором и выступает в качестве ЛЕ дескрипторного языка. Совокупность дескриптора и приравниваемых ему по смыслу слов образует класс условной эквивалентности. В число синонимов включаются: полные синонимы (радар — радиолокатор, ЭВМ — компьютер); фонетические (графические) варианты слов (.секстан — секстант, center — centre, labor — labour, Chekhov — Tchékhov); аббревиатуры ШПС — информационно-поисковая система); слова, близкие по смыслу (отсечка — отсечение, магнитный диск — магнитная память, ОРЗ — простуда); слова, совпадающие по смыслу в одном из значений (компьютер — машина, статья — работа, перепись — перезапись). Иногда к синонимам относят и антонимы ("квазисинонимы") (жесткость — мягкость, фокусировка — дефокусировка). Иногда в один класс условной эквивалентности сводятся не только грамматические формы одной лексемы, но и разноосновные и относящиеся даже к разным частям речи лексемы, объединяемые общим лексическим значением, например: трелевка — трелевочный, сверло — сверление. Такие единицы называют "пшерлек-семами". Для нормирования ЛЕ используется нормативный словарь индексирования (дескрипторный словарь), в котором в явном виде перечислены ключевые слова и дескрипторы, объединенные в классы условной эквивалентности.

В диссертации обсуждается задача выработки единого подхода к вопросам нормирования ИПЯ в традиционных ИПС и в информационно-библиотечных системах. Специфика последних заключается в том, что фактически в одной технологии сосуществуют различные типы ИПС и ИПЯ. Главное место в библиотечных системах и библиографическом поиске занимает язык библиографического описания. Развитием языка библиографического описания являются машинные библиографические форматы. Фактически это самостоятельные языки со своими словарем и грамматикой. В качестве примера рассматриваются международный обменный формат UNI MARC и формат UNI M ARC/ Authorities, предназначенный для создания и ведения нормативно-справочных данных в информационно-библиотечных системах. Рассматривается задача создания языковых средств, обеспечивающих агрегацию традиционных дескрипторных языков с языками библиографических данных.

Во второй главе «Разработка лингвистического обеспечения функциональной модели документальной ИПС "РАСПРИ-1"» излагается опыт проектирования лингвистического обеспечения политематической документальной ИПС на примере действующей ИПС "РАСПРИ-1" (Республиканская Автоматизированная Система Поиска и Распространения

Информации), разрабатывавшейся в АСНТИ ЦНТИ РСФСР под руководством и при личном участии автора.

ИПС "РАСПРИ-1" рассматривается нами, в частности, как натурная функциональная модель для отработки принципов и методов построения подсистемы ЛО для широкого класса документальных политематических ИПС.

Формулируются основные системные требования к лингвистическому обеспечению ИПС.

1. Требование простоты. Лингвистическое обеспечение должно строиться с учетом только тех задач, которые стоят перед информационной системой. Язык и логика системы должны включать лишь тс средства, которые безусловно необходимы для эффективного функционирования системы.

2. Требование сбалансированности. Все компоненты лингвистического обеспечения образуют единое целое и должны быть соразмерны.

В диссертации обосновывается использование ограниченного естественного языка как основы ИПЯ без лексического контроля. Для координатного индексирования в таких языках используются слова и словосочетания ЕЯ из документов и запросов. Фактически мы 1гмсем дело с дескрипторпым ИПЯ, но без фиксированного словаря индексирования и фиксированной парадигматики. Такой ИПЯ назван нами бестезауруспым.

Исходя из общесистемных требований к ЛО и типа системы (документальная политематическая ИПС для работы с большим документальным потоком в режиме избирательного распространения информации) нами были выработаны и сформулированы 10 основных принципов построения Л О ИПС "РАСПРИ-1":

1. Система базируется на ИПЯ бестезаурусного типа (ИПЯ без фиксированного словаря).

2. В системе не проводится разрешение омонимии и многозначности.

3. ИПЯ "РАСПРИ-1" строится как язык с элементами линейной грамматики. Учет сшггагматнческях связей между единицами ИПЯ обеспечивается выделением словосочетаний на уровне языка запросов и реализуется на этапе поиска.

4. Предусматривается поиск по полному тексту документа (реферата). Это позволяет компенсировать снижение полноты поиска.

5. Процедуры обработки документов должны быть максимально автоматизированы.

6. Язык запросов позволяет строить многовариантные поисковые предписания.

7. Система строится на простом критерии выдачи, основывающемся на булевой логике.

8. Используются лингвистические и алгоритмические средства для ограничения области поиска.

9. Лингвистическое обеспечение включает алгоритмические и неалгоритмические средства для составления и корректировки поисковых предписаний.

10. Развитие системы предусматривает создание службы словаря для составителей поисковых предписаний.

ИПЯ "РАСПРИ-1" строится как двухуровневый ИПЯ классификационно-дескршггорного типа. Первый уровень представлен Рубрикатором ГАСНТИ. Этот классификационный язык применяется в "РАСПРИ-1" в основном только для ограничения области поиска по конкретному запросу. Второй, главный уровень ИПЯ представлен неконтролируемым ИПЯ без фиксированного словаря с элементами линейной грамматики.

ИПС может рассматриваться как совокупность механизмов смыслораз-личения и смыслоотождествления. Отказ от индексирования документов и лексического контроля затрудняет выполнение функции смыслоотождествления и, как следствие, ведет к снижению полноты. Поэтому требуется включение компенсационных механизмов в каком-либо другом месте системы. В бестезаурусньгх ИПС проблема обеспечения полноты решается на стадии составления поисковых предписаний (ПП) путем избыточного индексирования запросов. Там каждому термину из ПП приписываются синонимичные или близкие ему но смыслу термины, в том числе термины, находящиеся с данным в родо-видовых и других парадигматических отношениях, т.е. происходит как бы "развертывание" словарной статьи дескрииторного словаря или тезауруса. Отличие от индексирования в традиционном смысле заключается в том, что исходные ЛЕ запроса и документа здесь никак не искажаются, а методика индексирования запроса при таком подходе в большей степени способна учесть конкретную информационную потребность. В ИПС бестезаурусного типа информационно-поисковый тезаурус используется, как и тезаурус в лингвистике, в качестве средства для моделирования информационной потребности и смыслового варьирования запросов.

Возможное снижение точности, связанное с поиском по полному тексту, компенсируется учетом синтагматических связей между терминами. Вводится понятие устойчивого словосочетания, которое используется в ПП. Сохранение в поисковом образе документа всех лексических единиц текста позволяет на этапе поиска выделять словосочетания алгоритмически. Поиск словосочетаний как простой конъюнкции терминов в тексте документа нередко приводит к информационному шуму. Например, на запрос со словосочетанием реле времени, был выдан документ: "Устройство для защиты минимального напряжения времени магнитных пускателей и контакторов, содержащее два промежуточных реле...", а на запрос со словосочетанием товарные знаки — документ: "...улучшает их качество и товарный вид. Продукции присвоен знак качества".

Для устранения этого шума мы предложили алгоритм выделения словосочетаний (алгоритм "СИНТАГМА"), который базируется на закономерности следования слов в составных терминах — синтагмах текста на естественном языке — и позволяет искать в документе реальные словосочетания. Алгоритм исходит из предположения, что элементы словосочетаний, заданных в ПП, в документе, как правило, стоят рядом и следуют в том же порядке, что и в ПП. Анализ показал, что, однако, в ряде случаев словосочетание входит в тексте документа не в элементарную, а в осложненную синтагму, когда зависимое слово данной синтагмы

одновременно входит и в другую синтагму. В таких случаях вместо одного зависимого слова в данной синтагме оказывается целая зависимая синтагма. Так, словосочетание качество продукции может входить и в осложненную синтагму качество (выпускаемой продукции), а словосочетание уборка мусора — в синтагму уборка (технологического мусора). В этих случаях в интервале между словами искомого словосочетания оказываются слова из других синтагм, чаще всего - одно слово, хотя в принципе возможны интервалы и с большим количеством слов. Отмеченные структуры довольно часто встречаются среди именных непредикативных наименований (а именно такие наименования наиболее актуальны при поиске).

Кроме того, довольно часто устойчивые словосочетания входят в конструкцию с однородными членами. Эта конструкция отражает компрессию текста, связанную с устранением общего члена. Например, словосочетания сыпучие материалы и жидкие материалы составляют в тексте документа единую конструкцию с однородными членами: сыпучие и жидкие материалы. Для поиска в тексте подобного словосочетания необходимо преодолеть эту компрессию и восстановить исходные синтагмы. В процессе работы с алгоритмом "СИНТАГМА" подтвердилось, что он обеспечивает также выявление словосочетаний, входящих в конструкции с однородными членами.

Опишем работу данного алгоритма. Вводится параметр длины допустимого интервала между элементами словосочетания (И=^), и только в этом интервале осуществляется поиск (¿+1)-го элемента, когда уже обнаружен г-й элемент. Можно задать поиск элементов словосочетания как в правом, так и в левом окружении. Например:

Пусть имеется запрос со словосочетанием: КАТАЛИЗАТОРЫ БРОМИСТОГО МАРГАНЦА. И пусть имеется документ, содержащий фрагмент: Производство фталевой кислоты окислением, ксилола БРОМИСТЫМ МАРГАНЦЕМ в присутствии КАТАЛИЗАТОРОВ.

Программа поиска в соответствии с критерием выдачи проверяет знак и величину параметра "длина допустимого интервала". Пусть разрешен поиск как в правом, так и в левом окружении и длина интервала равняется 3. В этом случае программа, обнаружив в документе первый элемент словосочетания (катализаторы), просматривает контекст 3 слова вправо, а не найдя, — 3 слова влево,и сравнивает слова из этого контекста со вторым элементом словосочетания (бромистый). Если результат сравнения положительный, тот же алгоритм повторяется для пары "второй + третий элементы словосочетания" (бромистый — марганец) относительно местоположения слова бромистый. В нашем случае слово бромистый удалено от слова катализаторы на 4 слова влево и,следовательно, не будет найдено ни в правом,ни в левом окружении для И=3. Обработка данного словосочетания на этом прекращаемся с отрицательным результатом. Для положительного исхода сравнения и выдачи данного документа на запрос длина интервала должна быть задана равной 4.

В диссертации представлены данные экспериментальной проверки алгоритма, результаты которой следует рассматривать как рекомендацию по оптимальному значению параметра длины допустимого интервала (И=2).

Морфологическая нормализация в ИПЯ "РАСПРИ-1" обеспечивается методами автоматического кодирования ЛЕ. Суть процедуры нормализации заключается в приведении разных словоформ одной и той же лексической

единицы к стандартному виду. Флективный характер русского словоизменения делает процедуру морфологической нормализации особенно важным и необходимым компонентом ЛО. Каждой словоформе текста в "РАСПРИ-1" ставится в соответствие ее код, который получается непосредственно из словоформы путем ее алгоритмического свертывания. Поэтому такой код назван "сверткой". Эта операция свертывания в идеальном случае должна удовлетворять двум условиям: 1) разным лексемам ставятся в соответствие разные свертки; 2) словоформы одной и той же лексемы свертываются одинаково.

Были реализованы и экспериментально исследованы различные варианты алгоритмов кодирования. В результате были выбраны алгоритмы, снижающие потери документов, повышающие точность поиска и обеспечивающие кодирование за приемлемое время. Эта совокупность алгоритмов получила название "ОСНОВА". В общих чертах их суть сводится к следующему: длина свертки фиксирована, в свертку включается начальная часть слова, из остальной части слова в нее входят только согласные. Наиболее оптимальные результаты дал алгоритм, получивший условное название "ОСНОВА-2". Правила свертки в нем следующие:

1) в свертку включаются три первые буквы слова;

2) в свертку включаются остальные согласные буквы слова;

3) при свертывании отбрасываются конечные буквы в, г, м, х;

4) если в оставшейся части свертки не более шести букв, то она целиком включается в поисковый образ документа или запроса (ПОД, ПОЗ), если в ней более шести букв, то в ПОД (ПОЗ) включается две свертки, причем вторая должна иметь не более шести букв (первая в этом случае всегда имеет шесть букв);

5) если в поисковом предписании слово оказывается представленным двумя свертками, то обе оформляются как жесткое "сверткосочетание" — код словосочетания (для поиска по алгоритму "СИНТАГМА").

Примеры сверток по алгоритму "ОСНОВА-2":

стол - СТОЛ; стул - СТУЛ; документ - ДОКМНТ; документами - ДОКМНТ;

электроизмерительный — ЭЛЕКТР+ЗМРТЛН; электроизмерительного —

ЭЛЕКТР+ЗМРТЛН; водоподогреватель - ВОДПДГ+РВТЛ; компрессор -

КОМПРС+СР; компрессором - КОМПРС+СР; компрессоров - КОМПРС+СР.

Лингвистическое обоснование описанного здесь свертывания заключается в том, что русский язык имеет консонантный характер, т.е. смыслоразлкчи-тельная роль согласных во »шого раз больше, чем гласных. Начальная часть слова включается в код целиком, так как информативность первых букв, в том числе и гласных, в слове велика. Согласные в, г, м, х, которым "запрещено" появляться в позиции последнего символа свертки, могут попадать в нее из окончаний существительных и прилагательных. Исключая эти согласные из кода, мы тем самым отсекаем окончания.

Лексико-семантическое нормирование в ИПС с неконтролируемой лексикой выполняется с помощью специальных методов в процессе индексирования запросов и рассматривается в разделе, посвященном языку запросов ИПС "РАСПРИ-1" и критерию смыслового соответствия.

Язык запросов ИПС "РАСПРИ-1" — язык булевой алгебры с операторами И, ИЛИ, НЕ и с элементами линейной грамматики. Запрос, сформулированный на естественном языке, при переводе на ИПЯ получает название поискового предписания (ПП) и записывается на специальном бланке, макет которого представлен на рис.1.

С формальной точки зрения поисковое предписание представляет собой конъюнктивную нормальную форму (конъюнкцию дизъюнкций) на множестве поисковых признаков — терминов или словосочетаний (последние в поисковом предписании записываются в круглых скобках). Бланк разделен на несколько столбцов, которые интерпретируются как члены конъюнкции. В один столбец рекомендуется записывать термины или словосочетания, которые с точки зрения составителя запроса находятся между собой в отношении "поисковой" синонимии. Между ними подразумевается операция дизъюнкции.

Лексика поискового образа запроса

1 2

Исследование (Информационный поток)

Анализ (Документальный поток)

Модель (Периодическое издание)

(Количественная мера) (Продолжающееся издание)

Критерий (Рассеяние информации)

(Ранговое распределение) (Поток терминов)

(Закон Ципфа) (Распределение публикаций)

(Закон Бредфорда) (Поток публикаций)

Параметр (Массив публикаций)

Цитируемосгь

(Число ссылок)

(Частотное распределение)

(Распределение Лотки)

(Показатель рассеяния)

(Ядерная зона)

(Частота терминов)

Индекс Требование выдачи

эшелона

001 + +

Рис.1. Поисковое предписание ИПС "РАСПРИ-1".

В состав поискового нредписашгя входит также специальная матрица "требований выдачи", описывающая подзапросы (эшелоны выдачи). Каждая строка матрицы задает вариант ПП, раскрывающий, как правило, часть смысловых аспектов запроса. В матрице требований для отдельных эшелонов каждому столбцу соответствует один из трех возможных типов его роли в булевой формуле запроса: "+" конъюнктивная роль данного столбца в данном эшелоне, " —" конъюнкция с отрицанием, "О" "квази-дизьюнктивная" роль данного столбца в данном эшелоне (т.е. термины столбца на результат поиска не влияют). В терминах бланка ПП критерий смыслового соответствия выглядит следующим образом: документ подлежит выдаче на запрос, если в документе обнаружена хотя бы одна ЛЕ

(слово или словосочетание) из тех столбцов блажа, для которых в матрице требований стоит 'Ч-" и не обнаружена ни одна ЛЕ из тех столбцов, для которых в матрице требований стоит " —".

Результаты поиска выдаются по каждому эшелону отдельно, а суммарный объем выдачи представляет собой результат теоретико-множественной операции объединения выдач отдельных эшелонов. Схематически это можно показать на следующем примере (рис. 2).

Лексика поискового образа запроса

1 2 3 4

tu tu tis tu tis ti, tu ts) ts. ta t« to tu

Индекс Требование выдачи

001 002 003 + + + + + 0 + 0 + 0 0

Рис. 2. Схема ПП ИПС "РАСПРИ-1" с матрицей требований.

Этим поисковым предписанием фактически заданы три варианта запроса — с индексами 001, 002, 003 в матрице требований. Обозначим их как Zi, Ъ% Z3. Логическая формула каждого их них следующая:

Zi= (tu v t|2V ti3V tl4 V tis) & (t2(V t22V ta) & (t3lV tjj),

Z: = (tu v tu v t« v tu v tis) & (t2i v ta v ta) & NOT (U, v U2 v to v tu),

Z3= (tu V t,2 V t[3V t|4 V tii) & (t31 v t32),

где tij — поисковые признаки (слова или словосочетания)^ — дизъюнкция, & — конъюгация.

По каждому варианту запроса в соответствии с логической формулой будет сформирована своя выдача. Обозначим их как {Z1}, {Z2}, {Z3}. Тогда общая выдача на запрос будет представлять собой объединение этих множеств:

Z = {Z<} и {Z2} U W .

Важное направление исследований в бестезаурусных ИПС связано с разработкой методики формирования поисковых предписаний. В заключительной части второй главы приводятся результаты исследований этих процессов и даются рекомендации по составлению IIП.

В третьей главе «Средства и методы решения лексико-семанти-ческих проблем в бестезаурусных ИПС» рассматриваются способы повышения функциональной эффективности ИПС за счет разработки специальных лингвистических и алгоритмических средств и методов, предназначенных в первую очередь для работы с лексикой запросов.

Процесс семантической обработки запросов в любой системе является процедурой важной и трудоемкой. В общем случае на этом этапе происходит

его лексическое расширение. Там, где в традиционных дескрипторных системах какой-то аспект запроса заменяется именем соответствующего понятия — дескриптором, в данном ИПЯ для выражения в запросе соответствующего аспекта может использоваться все гнездо синонимичных и ассоциативно связанных терминов. Это позволяет для каждого конкретного запроса варьировать объем поняли}.

В нервом разделе дается описание специализированного диалогового комплекса, предназначенного для отладки поисковых предписаний. Лингвистическое и алгоритмическое обеспечение отладочного комплекса позволяет проводить оценку качества работы ПП, автоматизировать подбор лексических единиц и процесс корректировки ПП, выбирать из разных вариантов ПП оптимальный — т.е. формализовать наиболее сложные и трудоемкие семантические процессы, связанные с составлением ПП.

В системах без контроля лексики словари индексирования и тезаурусы также могут использоваться, но не как средство для индексирования документов, а как пособие составителя поисковых предписаний. В работе описывается оригинальная методика их формирования в процессе функционирования системы.

Семантические связи множества лексических единиц можно установить с помощью различных методов, в частности: логико-интуитивного, дистри-бутшзно-статистического, метода ассоциативного эксперимента.

В диссертации предлагается критерий и алгоритм объединения терминов в классы условной эквивалентности на основе дистрибутивно-статистического метода. Роль текстов для анализа играют поисковые предписания, формируемые и накапливаемые в ИПС. Поскольку в этих ПП фиксируются знания экспертов — составителей ПП, можно сказать, что данная методика базируется и на методологии ассоциативного эксперимента.

Классом условной эквивалентности термина Т (в качестве термина здесь может выступать и словосочетание) с критерием N считается множество таких терминов из ПП, которые попарно встречаются совместно с данным не менее чем в N столбцах массива ГШ. В терминах булевых операций каждый столбец — это группа дизъюнктивно связанных, условно синонимичных терминов. Алгоритм устанавливает частоту совместной встречаемости пар терминов в массиве ПП. На основе этой характеристики для каждого термина строится "гнездо эквивалентности", в котором данный термин выступает как заглавный. При этом каждый из терминов, включаемых в состав этого "гнезда", должен удовлетворять условию п > N. где п — показатель силы связи терминов, равный числу подзапросов (столбцов ПП), в которые данный термин входит совместно с заглавным, N — некоторый вычисляемый или опытно устанавливаемый порог.

Кроме того, пользователь может включить механизм "транзитивного замыкания", порождающий гнезда условной эквивалентности 2-го порядка. При этом используется отношение транзитивности, а именно: если термины А и В являются условно эквивалентными (В входит в гнездо термина А) и В и С являются эквивалентными (С входит в гнездо термина В), то А и С также следует считать эквивалентными. И гак далее.

Транзитивная сила связи терминов Ь вычисляется по формуле:

аЬ Ьс

Нас) =

А + В В + С

где ((ас) — транзитивная сила связи терминов А и С; аЬ — сила связи терминов А и В, Ьс — сила связи терминов В и С; А, В, С — число словоупотреблений соответствующих терминов в массиве ПП.

Естественно, что классы, получаемые путем простого объединения терминов разных гнезд по транзитивности, могут оказаться слишком широкими. Поэтому вводятся соответствующие пороговые значения. Термины А и С включаются в общий класс условной эквивалентности, если выполняется условие Мае) > Т, где 'Г — пороговое значение критерия транзитивной силы связи терминов. Вводится также критерий <2, который задает число "транзитивных" шагов, т.е. число гнезд, участвующих в операции "замыкания". Эти пороги могут быть выбраны самим пользователем или могут быть заданы системой, где они получаются на основе обработки результатов экспериментов. Программа настраивается на заданные порош динамически, и пользователь на экране монитора может просмотреть разные варианты гнезд 2-го порядка.

Кроме того, имеется механизм объединения гнезд по критерию силы связи гнезд (д). Этот критерий определяется следующим образом.

|сс(Л) о а(3)1 9 ' |а(Д) и а(5)| '

где а(А) и а(В) — множества терминов, входящих в гнезда терминов А и В, п — операция пересечения множеств, и — операция объединения множеств, ¡а(/1) п а(В)| и |а(/1) и а(В)[ — мощность множеств, получаемых в результате операций пересечения и объединения.

Гнезда объединяются в одно гнездо, если g > С, где в — пороговое значение критерия силы связи гнезд, устанавливаемое опытным путем.

Одна из особенностей нашего подхода к созданию языковых средств бестезаурусных ИПС заключается в совмещении этого процесса с эксплуатацией системы. Лексика документов и запросов используется при этом как языковой материал для построения компонентов лингвистического обеспечения. Предлагается технология создания, опытной эксплуатации и совершенствования системы языковых средств, привязанных к конкретной локальной базе данных. В частности, рассматриваются схема создания проблемно-ориентированного тезауруса и использования архива информационных запросов. В работе описывается технология разработки проблемно-ориентированного тезауруса на примере локальной ИПС "Реставрация и консервация документов".

В четвертой главе -«Языковые средства в системах с архитектурой "клиент-сервер"» обсуждаются особенности поиска в современных информационных сетях. ИПС, ориентиров?нпая на работу в сетевой технологии, состоит из двух частей: серверной и клиентской. Клиентская часть устанав-

ливается на компьютерах пользователей, серверная — на центральной машине. Первая общается с пользователем, формирует запрос к базе данных и передает его на сервер. Серверная часть ИПС производит поиск релепант-ных записей в поисковом пассиве, формирование выходных записей, после чего релевантные записи или сведения о них пересылаются на пользовательский компьютер.

В первом разделе 4-й главы анализируются тенденции развития современных ИПС и проблемы поиска в сети Интернет, где появились специализированные поисковые системы, организующие глобальный поиск по всей сети. ИПЯ этих систем также реализованы по принципам архитектуры "клиент-сервер", и пользователь видит только "клиентскую" часть этого ИПЯ — язык запросов.

В диссертации анализируются языки запросов различных ИПС сети Интернет и предлагается обобщенная структурная модель языка запросов, включающая:

1) собственно поисковые элементы (объекты поиска);

2) поисковые операторы;

3) средства нормализации элементов запроса;

4) средства линейной грамматики: порядок следования поисковых элементов и расстояние между ними;

5) средства управления критерием смыслового соответствия;

6) средства управления сортировкой (ранжированном) выдаваемых результатов поиска;

7) дополнительные условия поиска:

• поиск в определенных полях (частях) документа;

• ограничение области поиска;

• модификаторы поиска (например, временной интервал применительно к дате создания документа и т.п.);

8) требования к форме представления результатов поиска;

• вид выдаваемых результатов;

' количество выдаваемых документов.

Естественно, эффективность поиска зависит не только от правильно составленного запроса. На уровне И ПС-посредника, представленного сегодня в cení Интернет специализированными информационно-поисковыми службами, необходимо в первую очередь решить три семантические задачи: автоматическое смысловое индексирование, автоматическая классификация с предоставлением пользователю возможности ограничивать область поиска в терминах предметных областей и развитие и совершенствование методов ранжирования выдаваемых документов.

Важное средство унификации сетевых языковых средств — протокол Z39.50 — рассматривается в заключительном разделе четвертой главы. Протокол определяет форматы и процедуры, управляющие обменом сообщениями между различными частями ИПС — "клиентом" (уровень запросов) и "сервером" (уровень документов и собственно поиска). Важнейшие из этих сообщений — запросы на поиск и результаты поиска. Этот протокол можно рассматривать как трансформацию идеи единого командного языка. В диссертации предложено данный протокол рассмат-

ривать как язык-посредник при переводе запросов из графического интерфейса программ-" навигаторов" сети Интернет в собственно поисковый язык серверов баз данных.

В заключении дается сводка основных результатов диссертационной работы и ставятся проблемы, требующие дальнейших исследований.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ И ВЫВОДЫ

В представленной диссертационной работе определены теоретические основы построения лингвистического обеспечения документальных ИПС. Дана типология языковых средств документальных ИПС. Обоснован подход к созданию языковых средств, обеспечивающих агрегацию традиционных дескрипторных языков с языками библиографических данных. Исследована схема взаимодействия языковых средств документальных ИПС. Проанализирована роль естественного языка в ИПС. Обосновывается использование ограниченного естественного языка как лексической основы бестезаурусного ИПЯ, который характеризуется отказом от лексического контроля и индексирования документов. Разработаны концепция и функциональная модель бестезаурусной документальной политематической ИПС "РАСПРИ-1". В рамках данной системы разработаны методы автоматического кодирования лексических единиц для морфологической нормализации словоформ текста. Разработаны средства и методы лекси-ко-семантического нормирования запросов. Разработан и описан комплекс отладки поисковых предписаний. Разработаны формализованные методы построения тезауруса запросов методами дистрибутивно-статистического анализа и транзитивного замыкания. Проанализированы тенденции развития современных ИПС, обоснованы основные положения архитектуры "клиент-сервер" применительно к системе языковых средств распределенных информационных систем. Проанализированы языки запросов основных поисковых систем в сети Интернет и разработана обобщенная структурная модель языка запросов.

Практическая ценность теоретических положений диссертационного исследования подтверждена на практике.

Проведенное исследование и полученные результаты позволяют сделать следующие выводы:

1. Лингвистическое обеспечение (языковые средства) документальных ИПС включает в себя как собственно информационно-поисковый язык, служащий для описания содержания документов в виде, пригодном для поиска, так и процедурные средства поиска и обработки информации.

2. Основную функцию политематических документальных ИПС наилучшим образом реализуют языки дескрипторкого типа, в основе которых лежит принцип координатного индексирования.

3. Принцип координатного индексирования соответствует принципу предметного индексирования в библиотечных системах. Языки библиографического описания и машинные библиографические форматы представляют собой особые типы ИПЯ для документального поиска. Это позволяет ставить вопрос об интеграции традиционных дескрипторных языков с языками библиографических данных.

4. Разработка ИПС представляет собой задачу многокритериальной оптимизации. Отношения между компонентами ИПС, особенно теми, которые включают в себя процессы семантической обработки информации, не поддаются строгой формализации, и задача проектирования ИПС — это, скорее, задача поиска удовлетворительных решений.

5. При разработке языковых средств ИПС язык и логика системы должны включать только те средства, которые безусловно нужны для эффективного функционирования системы. Уровень сложности всех компонентов лингвистического обеспечения должен быть сбалансирован.

6. Одной из заметных тенденций в информационном поиске является широкое распространение систем на основе ИПЯ бестезаурусного типа. Класс бестезаурусных ИПЯ и ИПС характеризуется отказом от лексическою контроля и индексирования документов. Эксперименты по оценке систем показали, что бестезаурусные системы, будучи намного более экономичными, часто по поисковым характеристикам не уступают классическим дескрипторным ИПС. Отказ от лексического контроля особенно оправдан, когда речь идет о политематическом пояске. Отказ от лексического контроля в бестезаурусных ИПС "компенсируется" специальными средствами и методами.

7. Особое внимание о бестезаурусных ИПС отводится обработке лексики запросов. Составление поисковых предписаний является одним из наиболее ответственных, сложных и трудоемких процессов в документальных ИПС. Работа по составлению ПП предполагает не просто получение некоторой формулировки ПП, а включает в себя и оценку его эффективности, т.е. процесс отладки ПП. Важным направлением в развитии документальных ИПС является разработка методов и средств автоматизированного формирования качественных ПП и их корректировки.

8. В большинстве функционирующих ИПС используется логический критерий выдачи, базирующийся на принципах булевой алгебры. Исследования показали, что этот критерий целесообразно дополнить методами ранжирования документов в выдаче.

9. Современные ИПС представляют собой объединение двух типов систем — гипертекстовых и полнотекстовых. Такие ИПС характеризуются переходом от индексирования документов к поиску по полному тексту и поэтому должны включать в себя средства работы с текстами на естественной языке.

10. В развитии ИПЯ современных ИПС намечается возврат к словарям и тезаурусам, но полностью автоматизированным и учитывающим распределенную архитектуру построения информационных систем.

11. В распределенных информационных системах с архитектурой "клиент-сервер" ИПЯ представлен пользователям в виде языка запросов,

который становится центральным звеном в документальном информационном поиске,

12. Протокол Z39.50, определяющий форматы и процедуры, управляющие обменом сообщениями между различными частями ИПС, является средством унификации и стандартизации языков запросов и может рассматриваться как язык-посредник при переводе запросов из интерфейса программ-"навигаторов" сети в собственно поисковый язык серверов баз данных.

Публикации. Всего по теме диссертации опубликовано 67 печатных работ. Основные публикации, достаточно полно отражающие выполненное исследование, следующие:

Издания монографического характера:

1. Опыт разработки математического обеспечения ИИС "РАСПРИ-1" для ЕС ЭВМ // Пути автоматизации основных информационных процессов в сети ЦНТИ в РСФСР: Опыт разработки и эксплуатации АСНТИ сети ЦНТИ в РСФСР. М., 1977. С.88-100.

2. Программно-алгоритмическое обеспечение АСНТИ-Связь. Режим избирательного распространения информации. М., 1982. 80 с. Соавт.: Е.М.Берковнч.

3. Информационно-поисковые системы // Прикладное языкознание: Учебник / Отв.ред. А.С.Герд. СПб., 1996. С.334-359. Соавт.: И.П.Панков.

Статьи:

4. Региональная автоматизированная система избирательного распространения латентной информации "Вектор-П" // НТИ. Сер.2. 1980, № 7. С.7-16. Соавт.: Ф.С.Бунимович, М.Г.Красикова, П.Г.Мордовченко.

5. Совершенствование лингвистического обеспечения в ИПС "бестезау-русного" типа // НТИ. Сер.2. 1980. К» 6. С.14-19. Соавт.: П.Г.Мордовченко, Л.В.Сахарный.

6. Лингвистическое обеспечение ИПС "бестезаурусного" типа // Проблемы автоматизированной обработки научно-технической информации: Материалы межотраслевых научно-технических конференций, совещаний, семинаров и выставок. М., 1980. С.242-245. Соавт.: П.Г.Мордовченко, Л. В. Сахарный.

7. О некоторых лексико-семантических проблемах в "бестезаурусных" ИПС // Структурная и прикладная лингвистика: Межвуз. сб. Вып. 2. Л., 1983. С.170-177. Соавт/. В.Г.Войскунский, П.Г.Мордовченко, Л.И.Сороко-летова.

8. Республиканская автоматизированная система поиска и распространения информации // НТИ. Сер.2. 1983. № 2. С. 1-8. Соавт.: В.Г.Войскунский, Л.А.Гсселева, Л.И.Сороколетова.

9. Лексический контроль и использование тезаурусов в автоматизированных информационно-поисковых системах // Разработка и использование словарно-терминологических средств документальных ИПС: Межвуз. сб. науч. тр. Новосибирск, 1987. С.3-26.

10. Лингвистическое обеспечение политематического документального поиска // Структурная и прикладная лингвистика: Межвуз. сб. Вып.З. Л., 1987. С. 149-153.

11. Основные направления развития АСПГИ // Информационная деятельность территориальных органов НТИ: Науч.-тех. сб. Вып.II. М., 1990. С.9-15.

12. Диалоговый отладочный комплекс // Структурная и прикладная лингвистика: Межпуз. сб. Вып. 4. СПб., 1993. С.197-211. Соавт.: В. Г. Войскунский.

13. Разработка в Библиотеке Академии наук интеллектуальной базы данных по превентивной консервации библиотечных фондов // Информационные ресурсы России. 1993. № 5. С.20-21. Соавт.: И.В.Азарова, И.М.Беляева, Л.Г.Левашова, В.П.Леонов.

14. Библиографический контроль и формат UNIMARC. // Библиография. 1995. № 1. С.125-130. Соавт.: Масевич А.Ц.

15. The role of machine-readable format in planning an electronic catalogue in the two largest libraries of Saint Petersburg // Intern. Catal. a. Bibliogr. Control. January-March 1995. 24(1). P.10-12. Соавт.: А.Ц.Масевич.

16. Качество информационного продукта автоматизированных библиотечных систем // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Матер. 3-й Междунар. конф. "Крым-96" (Форос, Ялта, Автономная Республика Крым, Украина, 1-9 июня 1996 г.). Т.1. М„ 1996. С.178-181. Соавт.: А.Ц.Масевич.

17. Создание системы информационного обеспечения проблем консервации и реставрации библиотечных фондов // Науч. и тех. библиотеки. 1996. № 1. С.54-57.

18. Authority control as a linguistic support element of an automated library system// Intern. Catal. a. Bibliogr. Control. October-December 1996. 25(4). P.86-87. Соавт.: А.Ц.Масевич, Е.Н.Пименов.

19. Особенности поисковых средств в информационных сетях с архитектурой "клиент-сервер" // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества: Матер. 4-й Междунар. конф. "Крым-97" (Судак, Автономная Республика Крым, Украина, 7-15 июня 1997 г.). T.l. М., 1997. С.185-189.

Тезисы докладов

20. Современные тенденции в нормировании лексики в ИПС // Семантика естественных и искусственных языков: Тез. докл. конф. (Ленинград, 1-2 октября 1979 г.). Л., 1979. С.65-66.

21. Особенности лингвистического обеспечения ИПС с ориентацией на машиночитаемые базы данных в АСНТИ регионального уровня // Основные пути совершенствования и развития ГАСНТИ: Тез. докл. XII науч. семинара "Системные исследования ГАСНТИ" (Душанбе, 27-30 октября 1981 г.). Ч.И. М„ 1981. С. 103-104.

22. Проблемы разработки лингвистического обеспечения ИПС в АСНТИ регионального уровня И Автоматизированная обработка научно-технической информации. Рига, 1981. С.78-79.

23. Способы повышения функциональной эффективности ИПС в АСПТИ ЦНТИ в РСФСР // Вопросы информационной технологии первой очереди ГАСНТИ: Тез. докл. XVI Всесоюз. науч. семинара "Системные исследования ГАСНТИ" (Ярославль, 20-22 октября 1987 г.). 4.1. М., 1987. С.69-71.

24. Интеллектуальный интерфейс в документальных ИПС И П Всесоюзная конф. "Искусственный интеллект — 90" (Минск, 21-24 октября 1990 г.): Секционные и стендовые доклады. Т.2. Минск, 1990. С.83-85.

25. Принципы построения динамического автоматизированного словаря семантически связанных терминов // Актуальные проблемы компьютерной лингвистики: Тез. докл. Всесоюз. конф. (Тарту, 29-31 мая 1990 г.). Тарту, 1990. С.56-57. Соавт.: Д.В.Мунтян, А.П.Петров.

26. Проблемы разработки машинного библиографического формата БАН // Автоматизированные библиотечно-информационные системы: Тез. докл. 5-го Сибир. науч. семинара с междунар. участием (Новосибирск, 7-9 сентября 1993 г.). Новосибирск, 1994. С. 14-15.

27. Работа с тезаурусом в программной среде CDS/ISIS/M // Библиотеки и ассоциации в меняющемся мире: Тез. междунар. семинара (Евпатория, Крым, май 1994). М., 1994. С.113-114. Соавт.: Е.Н.Пименов.