автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов

  • Год: 1978
  • Автор научной работы: Лавренова, Ольга Александровна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Москва
  • Код cпециальности ВАК: 10.02.21
Автореферат по филологии на тему 'Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов'

Полный текст автореферата диссертации по теме "Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов"

На правах рукописи

ЛАВРЁНОВА Ольга Александровна

моделирование семантической струкг/ры текстов научно-технического содержания в связи с автоматизацией информационных процессов

10.02.21 - Структурная, прикладная и математическая лингвистика

Автореферат диссертации на соискание ученой степени кандидата филологических наук

ИЗДАТЕЛЬСТВО МОСКОВСКОГО УНИВЕРСИТЕТА • 1978

Работа выполнена на кафедре структурной и прикладной лингвистики филологического факультета Московского государственного университета им. М.В. Ломоносова.

Научный руководитель - доктор филологических наук, доцент

Кибрик А.Е.

Официальные оппоненты - доктор филологических наук,

профессор Герд A.C. - кандидат физико-математических наук Шрейдер Ю.А.

Ведущее научное учреждение (рецензент) - кафедра научно-технической информации Ленинградского государственного института культуры им. Н.К. Крупской

Автореферат разослан "_"_1978 г.

Защита состоится "_н_1978 г.

на заседании специализированного совета (Д 053,05.16) по общему и структурному языкознанию при Московском государственном университете им. М.В. Ломоносова.

Адрес: г. Москва, Ленинские горы, МГУ, корпус гуманитарных факультетов, филологический факультет.

С диссертацией можно ознакомиться в библиотеке филологического факультета.

Ученый секретарь профессор

О.С.Широков

Теплы современного развития научно-технического прогресса поставили перед человеком сложную и многоплановую проблему поиска необходимой информации в огромном массиве сведений.

Одной ив важнейших гадач, требующих практического решения в навей стране, является создание государственной автоматизированной система научно-технической информации (ГАСНТИ), обеспечивающей повышение научно-техничесхого уровня и эффективности исследований, разработок и производства (научно-техническая проблема 0.80.13 (СЭВ)).

Особое значение в свете автоматизации информационных процессов имеют лингвистические исследования, так как научная информация мохет быть представлена только с помощью некоторого языка*

Главным носителем вводимых и обрабатываемых в автоматизированных системах научно-технической информации (АСНТИ) сведений являются тексты на естественных языках. Поэтому на первый план выдвигается проблема выявления ипредставления в удобном для машинной обработки виде смыслового с о -держания текстов информационных документов и запросов, решаемая в рамках общей проблемы создания автоматизированных систем обработки текстов (АООТ)*.

формализованного описания семантической структуры текстов требует специфика их обработки с помощью ЭВМ: от машины нельзя ожидать того интуитивного, почти неосознанного оперирования смыслом, которое свойственно человеку.

Эксплицитное представление знаний, содержащихся в речевых высказываниях, а также некоторой предварительной системы званий, которая обеспечивает их понимание человеком, составляет одну из самых важных и сложных задач, стоящих на пути создания рагличных систем "искусственного интеллекта"•

Кроме того, формализованное описание смысла текста представляет собой в настоящее время одну из главных и наиболее перспективных задач теоретической лингвистики, так как это направление вносит существенный вклад в решение центральной проблемы языкознания - изучение соотношения "между звучаниями и значениями".

постановка проблемы АООТ в работах Б.Ю. Городецкого. См., например: Городецкий Б.Ю. О лингвистическом подходе к теории информационных языков. - В кн.: Исследования по структурной и прикладной лингвистике. К., 1975, с. 31-38.

1-14 5"

Реиение основных проблем представления общего смысла целого речевого сообщения, создание массива информации некоторой области знания, обеспечение возможности отыскания сведений, удовлетворяющих информационную потребность специалиста, в сводной системе знаний информационно-поисковой системы (ИПС), заключается, в первую очередь, в построении соответствующей задаче автоматизированного поиска информации формальной модели системы научно-технических знаний, фрагменты которой отображаются в текстах информационных документов и запросов.

В принципе, существующие ИПЯ (преимущественно имплицитным образом) основываются на определенной концепции относительно организации системы знаний компьютера в соответствующей информационной системе. Соответственно такой концепции выявляются наиболее существенные единицы текста или определяются нужные классы классификации.

Однако, серьезным недостатком используемых ИПЯ является отсутствие какого-либо удовлетворительного обоснования тех моделей системы знаний, на которых они основаны, т.е. способов извлечения и представления информации (сообщаемых в текстах знаний) в системе. Методы выбора индексацион-ных элементов из текстов, отнесения текстов к тому или иному классу определяются интуитивно или на основании эмпирически создаваемых методик.

разрабатываемые для решения других задач модели системы знаний о мире (создание интеллектуальных роботов, систем "вопрос-ответ" и т.д*) на данном этапе могут быть реализованы только в очень узких тематических областях. Применению такого рода моделей в обычных информационно-поисковых системах (ИПС) препятствует высокая степень сложности их разработки и недостаточный объем памяти современных ЭВМ.

Нам представляются наиболее продуктивными такие пути моделирования семантики текстов, которые обеспечивают решение конкретного типа задач, но а возможно более широкой тематической области.

Кроме того, в практике разработки ИПЯ недостаточно учитываются специфически языковые особенности выражения и передачи информации с помощью текстов на естественном языке.

Целью настоящей работы является вывод принципов моделирования семантики научно-технических текстов как

основы ИДЯ с привлечением результатов исследований в различных областях науки: теоретическом и прикладном я8ыко8нании, информатике» психологии, науковедении, теории "искусственного интеллекта" и т.д., а также построение конкретного способа моделирования, отвечающего выработанным принципам.

В основу разработки принципов моделирования положено исследование с лингвистической точки зрения общих закономерностей поиска информации человеком и важнейших характеристик текста и его семантики как объекта моделирования, обобщение основных явыковых проблем, связанных с представлением семантики текстов в ИПС.

В отличие от существующих способов отражения смыслового содержания текстов в машинной памяти ИПС, предлагаемый метод моделирования смысла текстов основан на специальном (соответствующем задаче) представлении (модели) системы научно-технических знаний.

Сформулированные в работе принципы моделирования семантики научно-технических текстов могу» быть использованы в качестве общетеоретической основы для построения различных И П Я .

Модель системы знаний, описанная в работе, задумана как основа для конкретного ИПЯ или системы ИПЯ различной сложности, а также возможно ее использование для совершенствования существующих методик индексирования информационных документов и запросов, что позволит в значительной степени формализовать интеллектуальный процесс выбора ключевых слов в целом ряде ШС при ручном индексировании и тем самым повысить эффективность их функционирования. ^

Важной задачей, поставленной в навей стране в связи с сов-данием ГАСНТИ, является задача построения системы взаимосвязанных информационно-поисковых тезау-^ р у с о в (ИПТ), Решению данной проблемы может послужить нред-лагаемая модель системы знаний, позволяющая разработать на ее основе общую структуру такой системы ИПТ, обеспечивая совместимость построенных по предлагаемым принципам тезаурусов в различных отраслях знания и возможность использования фрагментов готовых тезаурусов при создании новых ИПТ,

Принципиальная структура модели была использована прн разработке отраслевой АСНТИ В/О "Союзсельхозтехника" дхя построе-

1-те

ния схем индексирования документов и запросов и методики построения ИПТ, которая положена в основу структуры политематического "Тезауруса информационно-поискового по тематике деятельности системы "Союзсельхозтехника".

В качестве дополнительных возможностей практического использования предлагаемой модели системы знаний можно назвать такие проблемы, как исследование "семантических полей" и ассоциативных отношений в лексических системах естественных и информационно-поисковых языков, изучение научно-технической терминологии (в частности, образования терминов), исследование знаний о способах, средствах и методах деятельности человека, классификация объектов исследования в науке и технике, построение модели накопления знаний автоматом и т.д.

Диссертационная работа состоит из введения, трех глав и заключения, а также включает 5 приложений.

Список литературы, использованной в работе, содержит 500

наименований.

Введение определяет место и значение исследуемого вопроса среди круга проблем современной науки, предмет и основные

принципы исследования.

Пгутетжание глав I и П посвящено определению основных принципов моделирования семантической структуры текстов для АСНТИ с точки зрения особенностей текста и его семантики как объекта моделирования (глава I) и в аспекте поиска информации по запросам как задачи, для решения которой разрабатывались способы семантического представления (глава П).

В свете изучаемой в работе проблемы, текстом предлагается считать связное, законченное, лингвистически завершенное речевое произведение любой длины. Лингвистическая завершенность (целостность) такого речевого произведения обеспечивается в семантическом - наличие общего смысла, темы - и прагматическом - интенция говорящего (пишущего) - аспектах. При этом определяющим считается семантический аспект целостности текста, по отношению к которому другие факторы, обеспечивающие завершенность, связность текста, являются вторичными.

Выбранная трактовка понятия "текст" основана на исследовании проблемы текста, а также более широкой проблемы сложного синтаксического целого, проблемы единства текста (с семантической, синтаксической и прагматической точек зрения), его связ-

ности, смысловой и интенционной целостности, как в современном®, так и в классическом языкознании.

На основании анализа точек зрения на статус текста в языковой системе в свете кардинальной проблемы лингвистики - проблемы "языка и речи" - выводится концепция текста как единицы высшего языкового уровня, расположенного выше уровня предложения.

Только на уровне текста можно говорить о смысле языковых произведений (в том числе - предложений), о прагматическом аспекте языка.

Будучи основной единицей выражения смысла, текст воплощает в себе реализацию всех возможностей и основного предназначения языка как функциональной системы. В связи с этим текст в качестве объекта семантического моделирования рассматривается как сложная, но целостная и основная единица речевой коммуникации (передачи информации). Такой взгляд не является распространенным в теории информационного поиска, хотя имплицитным образом в большинстве простых дескриторных ИПЯ поисковый образ документа выступает в качестве представления единого целого текста. Однако, в более сложных семантических языках представление смысла текста рассматривается как совокупность семантических представлений предложений или результат каких-либо операций над этой совокупностью.

В связи со спецификой решаемой задачи на понятие "текст" накладывается еще одно рабочее ограничение: в работе рассматриваются только письменные тексты.

Семантическим представлением (СемП), как это принято в современной лингвистике, называется результат моделирования семантики какого-либо речевого отрезка . В работе различаются СемП текстов (СемПТ), в том числе СемП текстов информационных документов (СемПД) и СемП текстов информационных запросов (СемПЗ), а также СемП массива текстов - нелинейный гипертекст, т.е. представление (модель) системы знаний в данной области науки или техники. СемП текста как целостной и основной единицы, вычленяемой в речевом (языковом) материале, т.е. "совокупности всего говоримого и понимав-

Пи^оМя?Й§дтитег йветская лингвистика текста. Некоторые проблемы и результаты (1948-1975). - "Изв.АН СССР.Се-рия литературы и языка111, 1977, НА, с. 348-561

мого", рассматривается в качестве основной единицы, вычленяемой в гипертексте.

Общая теория человеческого знания представляет собой еще не решенную проблему и является предметом специальных исследований на стыке различных наук. Однако, необходимость решения задач по представлению знаний в системах"искусственного интеллекта" обусловливает необходимость создания гипотетических моделей системы человеческих знаний в качестве "знания системы"*.

В работе используется достаточно узкая трактовка понятий "знание", "семантическая структура текста" с точки зрения прикладной семантики.

Под з н а н и е м человеческого общества, человека, коллектива специалистов или системы "искусственного интеллекта1'понимается совокупность сведений (представлений) человеческого общества, конкретного человека, коллектива специалистов или искусственной системы о внешнем мире (мире действительности), мире абстрактных наук и внутреннем мире разумных существ или систем3®.

Такие системы знаний удобно представлять как а б с т -рактный тезаурус ®а£, различая универсальный тезаурус, тезаурус данной области знания, тезаурус автора текста, фрагмент тезауруса автора, отображаемый в тексте, тезаурус адресата, пустые или сомнительные места в тезаурусе адресата, соответствующие информационным потребностям, фрагмент тезауруса адресата, соответствующий, в его представлении, , воспринимаемому тексту, тезаурус системы (гипертекст), СемПТ K8K фрагмент тезауруса системы.

Смыслом текста считается соответствие его материальной стороны некоторому фрагменту системы знаний (абстрактного тезауруса), который представляет собой сигнификат текста. Такая трактовка смысла текста вполне согласуется с распространенным определением смысла речевого отрезка как того, что по-

* См.: Труды 1У Международной объединенной конференции по искусственному интеллекту. T.I-1I. M., 1975.

**См. соответствующее определение знания системы в теории искусственного интеллекта: Попов Э.В., Фирдмвн П.Р. Алгоритмические основы интеллектуальных роботов и искусственный интеллект. М.,"Наука", 1976. 455 с.

хзтСи. работы Ю.А. Шрейдера,

нимеется, усваивается из него* (понимаются и усваиваются в первую очередь знания), а также подтверждается результатами целого ряда психолингвистических исследований по восприятию и запоминанию смыслового содержания сложных речевых сообщений3®.

Представляя собой сложное, многоуровневое образование, семантика текста на некотором "наиболее глубинном" уровне (уровнях) включает и дополнительные знания энциклопедического характера, в связи с чем должна рассматриваться в контексте системы знаний о мире. При этом вряд ли возможно четкое разграничение лингвистической и энциклопедической информации.

Смысловое содержание текста не является его неотъемлемым, реальным атрибутом, но проявляется только при восприятии его конкретным тезаурусом-интерпретатором. Неидентичность систем знаний (тезаурусов) различных индивидуумов обусловливает вариативность восприятия смысла текста, что отмечалось еще языковедами XIX века83®.

С этой точки зрения всякий СемПТ отражает интерпретацию смысла соответствующего текста информационной системой (тезаурусом системы). Для обеспечения адекватного восприятия ("понимания) смысла текста информационной системой способ моделирования семантики текстов должен учитывать особенности функционирования текста в процессе речевой коммуникации.

Рассмотрение основных закономерностей создания и восприятия текстов (как информационных документов, так и запросов), исследование семантических проблем, связанных с использованием текста как средства передачи информации в коммуникативной системе "человек - человек" (проблем информации, актуального членения текста; "темы" - "общего",

„ См/. Городецкий Б.Ю. К проблеме семантической типологии. М., Изд. Моск. ун-та, 1969, 564с.

**Лурия А.Р. Основные проблемы нейролингвистики. М., Изд. Моск. ун-та, 1975, 253с. '

®®См.: Гумбольдт В. О различии организмов человеческого языка и о влиянии этого различия на умственное развитие человеческого рода. СПБ (тип Имп. Акад.наук), 1859. 366с.: Потеб-ня A.A. Из записок по русской словесности. Харьков, 1905. 605с.; Крушевский Н.В. Очерк науки о языке. Казань, 1883. 151с.

3 -1ЧЙ>

"основного" смысла* - составляющей основу глубинной семантики текста и развертываемой, разрабатываемой® при его построении; проблемы неаддитивности сложения смыслов *И1| проблемы пресуппозиции) позволило сделать целый ряд выводов в связи с функционированием текстов в коммуникативной системе "человек -машина" ("человек - ИПС") и сформулировать соответствующие принципы моделирования их с е и а н -тики. Основные принципы перечислены ниже:

речевая коммуникация интерпретируется в свете прикладных задач как взаимодействие тезаурусов автора и адресата, обмен информацией между ними; при этом под "информацией" понимаются знания, предназначенные автором текста для передачи, или новые знания, которые адресат извлекает из текста;

предлагается считать текст информативным для системы, если ввод в нее СенП этого текста обусловливает изменения в тезаурусе системы, а информативным для потребителя информации -в случае наличия в семантическом представлении текста фрагментов, заполняющих пустые или уточняющих сомнительные места в семантическом представлении запроса;

способ моделирования должен, по возможности, ориентироваться на выявление темы ("общего смысла") текста как основы для определения места отображенного в тексте фрагмента знаний в тезаурусе системы;

для всякого текста должно обеспечиваться его полное представление, необходимое для решения задачи отыскания нужной научно-технической информации, в том числе - восстановление необходимых пресуппозиций текста, трактуемых как "фонд общих знаний" коммуникантов (в частности - человека и системы);

для восприятия смысла текста запроса использование "фонда общих знаний" выливается в решение проблемы восстановления

"истинной" информационной потребности; _____________ *

*См. в особенности работы: Звегинцев В.А. Предложение и его отношение к языку и сечи. М., Изд. Моск.ун-та, 1976,308с.; Волошкнов В.Н. Марксизм и философия языка. Изд.2-ое. Л.(Прибой) тип. Печатный двор Госуд.изд-ва, 1930, 160с. >

** Жинкин Н.И. Развитие письменной речи учащихся >7 классов. - "Изв.АПН РСФСР", 1956, вып. 78, с. Ш-250.

^^ерба Л.В. О трояком аспекте языковых явлений и об эксперименте в языкознании. - В кн.: Щерба Л.В. Языковая система и речевая деятельность. Л., 1974, с. 24-39.

в СемПД для документальных систем имеет смысл отражать актуальное членение содержания (в самом общем виде), так как часто это является показателем информативности документа относительно данного запроса;

восприятие смыслового содержания текста системой происходит путем определения координат опорных (известных системе) элементов и отношений в тезаурусе системы, а затем - ориентации в нем новых знаний (информации для системы); для обеспечения "понимания" системой смысла текста опорных элементов и отношений должно быть достаточно для ориентации информации в тезаурусе системы;

для разработки способа моделирования семантики текстов имеет значение и учет коммуникативного гадания, типичного для создания текстов научно-технического содержания, вводимых в систему, так как оно во многом определяет учет тех или иных пресуппозиций, организацию знаний системы и т.д.;

однозначность интерпретации системой смысла текста находится в прямой зависимости от четкости организации знаний данной информационной системы.

При наличии разнообразных способов организации универсального тезауруса для наиболее точного определения места СемПТ в машинном тезаурусе необходимо задание некоторого о п-ределенного способа организации знаний информационной системы, соответствующего данной мыслительной задаче. Представляется, что такой подход к организации тезауруса системы обеспечит активный, целенаправленный характер восприятия смысла текстов системой, свойственный человеку*.

Поиск информации в массиве текстов, выступающий в качестве задачи моделирования их семантики, рассматривается в работе как один из видов мыслительной деятельности, а именно: процесс принятия решений, для которого важнейшей основой является модель исходной ситуации. Процесс поиска информации человеком без посредников, с посредником-человеком и с использованием ЭВМ в качестве посредника анализируется на

»0 целенаправленном восприятии текста человеком см.Городецкий Б.Ю. Семантические проблемы построения автоматизированных систем обработки текстовой информации. - В кн.: Вычислительная лингвистика. М., "Наука? 1976, с. 16-33.

основании предложенной в работе схемы ситуаций, исходных для ручного и автоматизированного поиска.

Исследование основных характеристик семантики текста как объекте моделирования, а также места и роли объекта моделирования в процессе поиска информации позволило определить следующий принципиальный путь разработки способа моделирования семантики научно-технических текстов:

первичным объектом моделирования должен стать универсальный тезаурус;

далее, необходима обоснованная гипотеза относительно того способа организации знаний в памяти человека, который используется при решелии им задачи поиска научно-технической информации 3-массиве текстов в соответствии с информационной потребностью;

эта гипотеза должна быть основана, в частности, на анализе типичных структур и видов информации и информационных потребностей в неуке и технике в свете проблемы информационного поиска, с тем чтобы обеспечивать фиксацию в системе тех и только тех фрагментов знаний, которые необходимы для поиска;

■знания системы (как базисные, так и вводимые с текстами фрагменты) должны быть организованы в соответствии с такой гипотезой;

семантические представления текстов строятся как фрагменты этой модели.

Краткий анализ существующих типов~ИПЯ, методов индексирования документов в дескрипторных Ш1С с точки зрения положенных в их основу концепций относительно организации знаний соответствующих систем, а также проблемы представления знаний в других системах "искусственного интеллекта" предпринимается с целью показать необходимость разработки принципов и конкретных способов моделирования системы знаний как основы ИПЯ, удовлетворяющих современным требованиям.

Глава Ш представляет собой описание предлагаемого в работе способа моделирования семантики научно-технических текстов, реализующего сформулированные принципы, и его применения в прак тике создания информационно-поисковых языков.

Построение гипотетической модели системы научно-технических знаний основывается на современных научных представлениях о целесообразной деятельности людей, о структуре проблемных ситуаций. Один вид деятельности отличается от другого в первую очередь своим предметом, который составляет мотив деятельности*. Для реализации цели деятельности, представляющей собой идеальный образ предмета потребности, необходимы определенные средства, которые нередко отсутствуют и сами становятся предметом потребности, для получе-" ния которого также необходима определенная деятельность, требующая средств ее осуществления и т.д. В процессе познавательной деятельности в целях разрешения проблемных ситуаций, заключающихся в необходимости отыскания способов, средств решения поставленной задачи, человек создает не только предметы потребности, но и совокупность соответствующих представлений об этих предметах и процессах деятельности. Предполагается, что при этом в системе знаний прежде всего фиксируются: потребности в виде некоторого "пустого места", виды деятельности и их составляющие (действия, операции), затем полученные предметы потребности, а также характеристики, условия,сопутствующие процессы (явления, состояния) процессов деятельности и предметов потребности.

Принципиальная структура предлагаемой модели системы знаний основана на этой общей гипотезе.

ч В общем виде модель, условно названная "системой наслоения знаний" (СНЗ), представляет собой систему взаимосвязанных "слоев", представляющих собой множества "элементов знаний", находящихся в определенных отношениях. При этом чередуются слои "предметов" и слои "процессов" (с их "характеристиками","сопутствующими процессами", "отрицательными явлениями" и "условиями"). На эти 6 категорий подразделяются все элементы моде-и. Элементы каждого q-ого слоя, обозначаемого £>п, обеспечивают существование или осуществление элементов п - 1-го слоя ( 5п-г) и выполнение ими этой же функции по отношению к элементам п-2-го слоя ( и

См., например: Основа теории речевой деятельности. М., "Наука", 1974. 367 с.

Таким образом, слои связаны между собой отношением "предназначения".

Элементом СНЗ считается фрагмент знаний любой сложности, объявленный в рамках модели минимальной (атомарной) единицей знаний.

Кроме основных слоев "процессов" и "предметов", в СНЗ выделяются дополнительные слои так называемых "процессов над процессами", осуществляемых по отношению к "процессам", их "условиям", "характеристикам", "сопутствующим процессам", "отрицательным явлениям" (например, организация, улучшение, оптимизация, ускорение процесса, повышение показателей процесса и т.д.)* Такие слои условно называются "прослойками", причем m-я прослойка над n-ым слоем обозначается

Построение гипотетической модели системы знаний (СНЗ) для решения задачи хранения и поиска информации с помощью ЭВМ опирается на изучение структуры содержания текстов политематического массива объемом более 30 тыс.рефератов с привлечением массива первичных документов (порядка 500 текстов). Кроме того, поисковый эксперимент, в ходе которого выяснялось, какого рода элементы знаний преимущественно замещают "пустые" места в запросах и являются ориентирами потребности в тезаурусе системы, подтвердил гипотезу о том, что выделяемые на основании СНЗ элементы знаний и отношения могут служить для отражения основного содержания документов и типичных информационных потребностей в плане ориентации относительно друг друга содержания запроса и документа при поиске.

Описание языка СНЗ, т.е. языка семантического представления, включает: определение семантических единиц (категорий элементов и видов отношений между ними), описание правил построения из них простых и сложных "фраз" СНЗ ("цепочек" й "комплексов цепочек"), а также процедуры непосредственного перевода смыслового содержания текстов на язык семантического представления и построения массива знаний информационной системы, называемого гипертекстом. Для материальной репрезентации элементов СНЗ используются слова и словосочетания русского языка, которым придаются специальные значения как единицэм языка модели. В случаях полисемии или омонимии лексических единиц русского языка они получают в языке СНЗ поясняющую помету в круглых скобах. Элементы СНЗ фиксируются в специальном словаре модели.

Проблема отнесения элементов СНЗ к той или иной категории а также другие вопросы относительно структуры СемПТ или гипер-' текста решаются с точки зрения отношения рассматриваемого фаота к целесообразной деятельности вообще или ее отдельной сфере!

К категории "процессы" относятся в СНЗ только целесообразные процессы, осуществляемые самим человеком или замещающими его труд техническими и другими средствами. Примеры: создание Эксплуатация, .ликридац^, сварка, транспортир»™. --

В отличие от целесообразных процессов, физические, биологические, химические процессы, явления, состояния выделяются в отдельную категорию "сопутствующие процессы" (или "естественные процессы"*).

Примеры: появление, свечение, движение, теплообмен, трение* омонимия.

К данной категории не относятся естественные процессы явления, состояния, которые рассматриваются в качестве отрицательных в свете деятельности человека. Такие элементы СНЗ входят в категорию "отрицательные явления".

болезнь, коррозия, выход из сипя, пожар, безра-

Кроме того, к категории "отрицательные явления" относятся некоторые првдаеты, появление или существование которых рассматривается как отрицательное явление (например, щт, сошяки).

Характеристиками" считаются все характеристики, ¡¡ой^ ва, параметры других элементов СНЗ. Выделяется два типа "характеристик": "характеристики-наименования" (например, ско-£ость, аффективнрсгй, качество, применимое тт.. высота) ¡Г" "конкретные характеристики" (например, ¿кодоотЩ, неЩектив-Ш, высокий, низкий). —

"Условиями" естественным образом признаются условия осу-' ществления "процессов", "сопутствующих процессов", «отрицательных явлений" или существования "предметов",

"Предметы" выделяются в отдельную категорию как множество самостоятельных сущностей в противоположность признакам -

A.B. ЗиЖы построенияТфасетнп°блпин8еТСЯ в Работе: Соколов Информационные^язы?и!ТЛ975Гс? 222-24з!3аУРУС0Б' " В КН,:

свойствам, отношениям, действиям, состояниям, характеристикам и т.п.*. К "предметам" относятся в СНЗ в основном материальные объекты (машина. груз, животное, чертеж), части материальных объектов или наименования места на или внутри них (выступ, поверхность, отверстие), идеальные объекты, теоретические конструкты (математика, интеграл, информация), совокупности материальных или идеальных объектов С коллектив, ворох, система, комплекс), общественные установления (страна, отрасль), материалы, вещества и т.п. или формы материала, вещества (медь, раствор, заполнитель, порошок), формы существования, представления материальных или идеальных объектов (тщк, .виток, сюда же можно отнести: выступ. порошок, система, комплекс, ворох).

Семантические категории элементов СНЗ носят внеязыковой, универсальный, понятийный характер и в своей основе являются принадлежностью парадигматики языка моделирования системы знаний.

Большинство элементов СНЗ принадлежит к одной определенной категории с точки зрения человеческой деятельности вообще. Элементы таких категорий, как "условия" и "отрицательные явления", напротив, часто зависят в этом смысле от сферы деятельности, но в некоторой, возможно, достаточно узкой области знания любой элемент СНЗ принадлежит к одной определенной категории.

Случаи одновременного вхождения элементов СНЗ, обозначающих форму материала или форму представления объекта, в две категории - "предметы" и "характеристики" (порошок, система) -нарушают структуру СНЗ и подтверждают необходимость вычленения в качестве простых элементов СНЗ минимальных семантических компонентов лексических единиц естественного языка, что представ-, ляется невозможным при современном уровне развития семантического компонентного анализа.

Отношения между элементами модели фиксируются с помощью восьми основных предикатов, определяющих структуру СНЗ: Р];(х,2) ~ "Ж предназначен или 1? или "х обеспечивает существование (осуществление) у";

*См.: Сусов И.П. Семантическая структура предложения. Тула, Тульский госпединститут, 1974, с. 16.

Р¿(Ы) * "2 предназначен для тд", или "х предназначен для

ликвидацииvпредотвращения vocnaCfleHHHvизоляции д"; РзС2»1) " предназначен для использования д", где ^ - "отрицательное явление" или "сопутствующий процесс".

Предикаты Pj^ и Р3 описывают три вида отношения "предназначения",

P^U.l) " "2 подчиняет д",или подчиняется х" (отношения подчинения между элементами одного и того же слоя, кроме отношения "род-вид"); P5(2,l) - "Ж является побочным элементом д", где д представляет собой всегда пару: Pj ( Z »v), Pj ( z , v) или P3 ( н ,т/), где z - "процесс"; Рб(2«Х) - "х без 2", или отношение "отрицания"; Р?(2«2) - "1 - вид 2"»или "j - родовое понятие для j"; PeteJ - "X - главный элемент цепочки".

Ев элементарных формул, выражающих принятые в модели предикаты, с помощью логических символов ( & ,v, 1, =>,V,3) мо» гут быть построены составные формулы. Всякий фрагмент СНЗ (а теоретически - и весь гипертекст) может быть изображен в виде предикатной записи или соответствующего ей квазиграфа.

В общем виде СНЗ представляет собой квазиграф, который состоит из конечного во всякий данный момент времени множества вершин, в которых располагаются элементы СНЗ, и множества -упорядоченных пар различных вершин, которые называются ориентированными ребрами, или дугами. Всякая пара вершин СНЗ упорядочена одним из отношений, соответствующих применяемым в модели предикатам.

Таким образом, всякий С е м П Т выглядит либо как предикатная запись, либо как соответствующий ей подграф квазиграфа СНЗ.

Слои СНЗ выделяются в качестве подмножеств вершин квазиграфа. Границы между слоями (и прослойками) проходят, пересекая дуги, соответствующие предикатам Pj, Р2 и Рд.При этом любая дуга, соответствующая этим предикатам, пересекается границей между слоями (или прослойками).

При графическом изображении фрагментов СНЗ для каждой дуги (стрелки) указывается номер соответствующего предиката. Границы между слоями изображаются прямыми горизонтальными линиями. Прослойки отделяются от- нижележащего слоя (или прослойки) с помощью

пунктирной линии. Пример фрагмента CHS представлен на рисунке I. Допустим, данный квазиграф соответствует некоторому СемПТ.

f f1

U-ч—Чг t г

-

Рис. I. Пример фрагмента СНЗ. ,

Основной структурной составляющей СНЗ является "цепочка"- связный подграф квазиграфа СНЗ, проходящий п слоев и прослоек и включающий при этом л- I дуг, соответствующих предикатам Pj,P2,P3. Число других дуг может быть любым. Цепочкой считается также предикатная запись такого подграфа. Отнесенность множества элементов СНЗ к одной и той же цепочке может быть описана с помощью предиката Р9 (£р ...,х h)• Так, например, для квазиграфа на рис, I верно: Р9 (a,B,c,d , но неверно, например: Р9(а,в,ъ»1).

Отношения, фиксируемые в СНЗ, подразделяются на отношения внутри слоя и отношения между элементами разных слоев, а также на отношения между элементами внутри цепочки и отношения между цепочками.

Внутри слоя возможны отношения: P^.Pg и Р?. Элементы разных слоев могут находиться в отношениях: Pj.Pg^.PjjPg,

Следует отметить, что предикат Р^ описывает целый класс отношений типа подчинения ("часть-целое", "характеристика -характеризуемый объект", "объект - его условие" и т.д.). Опыт показал, что при наличии распределения элементов СНЗ по смысловым категориям в выделении предикатов с более узкими значениями вместо Р^ нет никакой необходимости для решения задач информационного поиска. Родо-видовые отношения (Р?) условно выделяются из группы отношений подчинения и фиксируются в базисном тезаурусе системы.

Предикат Р^ фактически выражает отношение между тремя элементами СНЗ (например, побочный элемент утечка для пары распределение топлива). Пример отношения Р6: сварка без защитной среды.

Предлагаемый в работе список дополнительных предикатов, выражающих отношения между цепочками (например, отношение одновременности, следования во времени, пространственные отношения, отношения влияния, зависимости), а также операции над цепочками (например, замена, применение для других целей) может быть продолжен в соответствии с общими правилами построения СНЗ и задачами конкретной информационной системы.

Цепочки, связанные каким-либо отношением или производимой над ними операцией, образуют комплекс цепочек. Например, на рис. I все элементы СемПТ, кроме входят в один комплекс (Р12 - одно из отношений между цепочками).

Путем выделения в СемПТ главных элементов цепочек (упомянутый предикат Р8 (х)) и главных элементов комплексов цепочек (предикат Ртп(х^ » соответствующих так называемым "основным объектам рассмотрения" в текстах, задаются элементы актуального членения текста, т.е. сведения о коммуникативной организации смысла. На рис.

рТп(а).

Подробное описание каждой семантической категории элементов СНЗ и отношений между элементами и цепочками элементов позволило, в частности, получить перечень основных типов "предметов", классификацию "отрицательных явлений", типологические таблицы основных "процессов", встречающихся в научно-техниче-, ских текстах, установить ряд закономерностей в процессе отнесения терминов к той или иной семантической категории, а также дало возможность учитывать при построении СемПТ разнообразные структурные особенности семантики научно-технических текстов.

В порядке описания СНЗ в работе рассмотрено 135 языковых примеров (текстов и их фрагментов). Приложения 1,2,3 и 5 также относятся к главе 1 и иллюстрируют ее содержание.

Всякий СемПТ строится для целого текста как единицы речевой коммуникации путем его прямого семантического анализа, причем построение цепочек и комплексов цепочек происходит вне зависимости от фразовой структуры текста, а категоризация семантических элементов - вне зависимости от принадлежности соот ветствувщих лексических единиц естественного языка к той или иной части речи и их синтаксической роли в предложении.

В качестве предварительно вводимых в информационную систему энциклопедических знаний, позволяющих восстановить необходимые пресуппозиции текста, используется базисный тезаурус системы (в форме словаря типа "тезаурус"), где фиксируются родо-видовые и ассоциативные отношения между элементами СНЗ (парадигаматическая информация), а также сведения о стандартных структурах содержащихся в текстах знаний (синтагматическая информация)* в виде совокупности правил построения фрагментов СНЗ.

Первоначальный вариант СемПТ получается путем построения цепочек или комплексов цепочек для всех так называемых "основных объектов рассмотрения" из текста.

Перевод на язык СНЗ должен осуществляться в соответствии с формальной методикой-инструкцией для человека (в Приложении 4 приведены специально разработанные схемы перевода).

Преобразование первоначального варианта СемПТ в полный СемПТ должно происходить автоматически (при вводе в ЭВМ) путем ориентации СеиПТ в базисном тезаурусе системы и, тем самым, путем дополнения СемПТ зафиксированными парадигматическими связями элементов последнего.

Описание возможностей применения предлагаемого способа моделирования семантики текстов содержит, в частности, рекомендации по использованию языка СНЗ в качестве основы для ИПЯ, методические указания по разработке не основе СНЗ информационно-поисковых тезаурусов.

Стратегия поиска в ИПС, использующей язык СНЗ, должна учитывать все структурные особенности данной модели.

Заключение содержит основные результаты и выводы, полученные в ходе работы.

В частности, подчеркивается, что описание языке СНЗ и правил перевода на этот язык представляет собой готовый инструмент моделирования семантики научно-технических текстов для АСНТИ. Построение конкретных ИПЯ заключается в серии преобразований над языком СНЗ как над семантическим метаязыком?*

*Ср.: Перцова H.H. Понимание естественного языка как активный процесс. - В кн.: Институт русского языка АН СССР. Проблемная группа по экспериментальной и прикладной лингвистике. Предварит.публ., вып. 93, М., 1977, с. 39-45.

ж См. Городецкий Б.К>. Семантические проблемы...

Основное содержание диссертации изложено в следующих работах автора;

1. Моделирование семантической структуры текстов научно-технического содержания в связи с автоматизацией информационных процессов. - "Вопросы разработки отраслевой автоматизированной системы научно-технической информации", 1973, вып. I, с. 28-47.

2. Вопросы разработки рубрикатора для системы взаимосвязанных тезаурусов. - Там же, 1973, вып. I, с. 47-62.

3. Принципы построения отраслевого информационно-поискового тезауруса. - Там же, 1974, вып. 3, с. 31-50.

4. Информативность элементов текста в плане смыслового сопоставления информационных документов и запросов. - Там же, 1974, вып. 4, с. 41-58 (соавтор - Черкасова Л.П.).

5. Информационно-поисковые системы, разработанные в СССР и за рубежом. Обзорная информация. М., ЦНИИТЭИ В/О "Союзсель-хозтехника", 1973, 162с. (соавторы - Кардашевский C.B., Глотов H.A.),

6. Вопросы разработки рубрикатора для системы взаимосвязанных тезаурусов. - В кн.: Проблемы развития единой системы научно-технической информации в стране. Сборник рефератов, статей и докладов 1У Всесоюзной конференции. M., 1974, с. 164165.

7. Методика индексирования информационных документов для ввода в отраслевую ОАСНТИ. М., ЦНИИТЭИ В/О "Союзеельхозтех-ника", 1977, 42с.

8. Тезаурус информационно-поисковый по тематике деятельности системы "Союзсельхозтехника", Т. 1,2 (в трех к'нигах).М., ЦНИИТЭИ В/О "Союзсельхозтехника", 1977 (соавторы - Воронина Е.П., Евтушенко Е.М., Сарычева Н.В., Черкасова Л.П.).

\

Поди, к печати Ф.

Бум. тип. № Физ. п. л.

их

Уч.-изд. л.

Заказ 5" Тираж ЮО

Изд-во Московского университета. Москва, К-9. ул. Герцена, 5/7. Типография Изд-ва МГУ. Москва, Ленгоры