автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Модель синтеза текста формулы изобретения

  • Год: 1985
  • Автор научной работы: Шереметьева, Светлана Олеговна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Ленинград
  • Код cпециальности ВАК: 10.02.21
Диссертация по филологии на тему 'Модель синтеза текста формулы изобретения'

Текст диссертации на тему "Модель синтеза текста формулы изобретения"

лшинградсиий ощш ленина и ордена трудового красшго знамени государственный университет имени а.а.жданова

На правах рукописи

шершетьева Светлана Олеговна

УДК 800.855:608.3

модель синтеза текста зоршн изобретший

Специальность I0.02.2I - структурная, прикладная и математическая лингвистика

Диссертация на соискание ученой степени кандидата филологических наук

и 4

¡л. ¡. • • . ■

' С „ „

.... I -,*

1

Научный руководитель -кацдидат (Дологических наук, доцеят В.Д.КТОРОВ

Ленинград - 1985

- 2 -СОДЕРЖАНИЕ

Стр.

ВВКДЕНИЕ .................................................. 4

ГЛАВА I. ПРОБЛШЫ ЛйНГШСТМВЗКОГО МОДЕЛИРОВАНИЯ СИНТЕЗА

4ЮНШ ИЗОБРЕТЕНИЯ НА УСТРОЙСТВО (®У)..............13

1. К постановке проблею ..................................13

2. Методика и технология построения модели ................20

3» Лингвистические критерии оптимальной ®У..................27

3*1» Предварительные замечания..................................27

3.2. Прашатико-фуякциошдьные требования к подъязыку

Ш..................................................29

3.3» Подъязык Ш..........................................................................31

3.3.1. Выборка ..........................................................31

3.3.2. Маедострзгктура текста ®У...................................32

3:3.3. Ююфоструктура текста ............................37

3.3.4. Функции предлогов в текстах ®У ...................43

4. Выводы ................................................46

ГЛАВА П. ЛЕКСИЧЕСКИЙ КОМПОНЕНТ МОДЕЛИ СИНТЕЗА ЖУ..................50

1. Предварительные замечания ..............................50

2. Семантико-еинтавсический анализ терминов-предика-

тов ........................................................52

2.1. Объем ленсикографической информации» необходимой

для синтеза и методика её получения...........52

2.2. Структура семантического поля терминов-предикатов. 67

2.3. Описание предлогов в фикции терминов-предикатов.. 83

3. Функциояальио-семантическая характеристика актант-ных выражений $ЙУ................................ 84

4. Организация лексикогра^ичес кого обеспечения модели Ш ................................................90

5. Вывода................................................93

ГЛАВА Ш. ПРАВИЛА ФОРМАЛЬНОГО СИНТЕЗА ТЕКСТА Ш..................96

1. Предварительные замечания............................................96

2. Моделирование семантико-синтавсичесиой структур (СС-структуры) Ш..........................................................96

2.1. Общая характеристика СС-структуры ШТ.......... 96

2.2. Микроструктура СС-сети (язык конфигураций)..........98

2.3. Макроструктура СС-сети....................................III

2.4. Едок-схема построения СС-сети ШУ ........................123

3. Трансформации синтеза ЖУ на основе СС-сети .... 124

3.1. Методика разработки трансформационных правил ... 124

3.2. Линейное развертывание СС-сети ..........................124

3.3. Распределение субкатегориальных признаков............129

3.4. Моделирование механизмов свертывания......................134

4. Лексическое заполнение свертки и введение знаков препинания.................................................143

Л

5. Экспериментальный анализ адекватности модели

синтеза ............................................144

6; йшоды..................................................................................148

ЗАКЛЮЧЕНИЕ............................................................................................151

СПИСОК ЛИТЕРАТУРЫ...............................................159

ПРИЛОЖЕНИЕ I.........................................................175

ПРИЛОЖЕНИЕ П.....................................................179

ПРИЖЖЕНЙЕШ..............................................203

ПИШЯВНИЕ ПГ.............................................................................212

ЕВВДЕ9ИЕ

Ф АКТУАЛЬНОСТЬ настоящего исследования обусловлена тем внима-

нием, которое уделяет сегодня информатика вопросам синтеза технических текстов» В частности в "Прогнозе развития научно-технической информации до 1980 г.", разработанном специалистами стран-членов СЭВ» говорится: "Общая тенденция потребителей получать максимальное количество информации при минимальных усилиях будет все более остро ставить перед информационными системами проблему синтезирования информации***" (Прогноз*..1969, с.521). Необходимость и возможность применения вычислительной техники для решения информационных проблем вое настоятельнее требует формализи-рованных лингвистических описаний. Тема актуальна также и в том отношении, что объектом формализации являются закономерности построения формулы изобретения - важнейшей части патентного доцг-* "«и»» информационная ценность которого особенно велика: каадая десятая научно-техническая публикация в мире относится к латентной литературе. Поток заявок на изобретения постоянно увеличивается» однако "качество их оформления оставляет желать лучшего, о чем свидетельствуют следующие данные. В 1979 году на стадии предварительной экспертизы было возвращено 17,3^ от числа рассмотренных заявок, по 12,52 заявок сделаны запросы* В 1980 году процент возврата составил 15,2%, а запросов - 14В первом квартале 1981 года - возврат 15,б£, запрос - 19£" (Лисицын и др., 1982, с*23). Из этого следует, что вопрос адекватного составления текстов описаний изобретений требует самого пристального внимания и до сих пор не решен* Большая часть литература, предназначенной усовершенствовать и облегчить процесс составления описания изоб-Ф ретения, основное внимание уделяет оодерасательному аспекту проблемы, т.е. тему, о чем и в какой последовательности должно говорить-

ся в патентном документе. Например, во многих статьях, затрагивающих вопросы построения формулы изобретения, как правило, описываются прагматические требования к формуле, ее логическая структура, указывается, что отечественная формула изобретения строится в виде формальнологического определения, состоящего из двух частей: ограничительной и отличительной. Первая часть играет роль логического субъекта (ближайший род), а вторая -роль логического предиката (видовое отличие) (Лихачев, 1965; Новожилов, 1965; Фурман, 1967; Шепелев, 1978; Зайцева, 1981; Киселев, 1983). Исследуются возможные случаи включения в формулу изобретения на устройство технологическнх и конструктивных признаков в их взаимосвязи (Филатова, 1978), предлагаются способы логического обобщения признаков (Черняев и др., 1982), обсуждаются возможности прямого и косвенного представления в формуле изобретения факта наличия в устройстве определенных элементов, указываются ошибки логического характера (Могилеве кий, 1978), рассматриваются типичные отношения между признаками изобретения, их взаимосвязь в различных формах новизна (Раянап, 1971). Помогая решить важнейшую проблему, возникающую при составлении формул изобретения - проблему выделения и упорядочения признаков изобретения, лингвистический аспект в этих работах освещается бегло и сводится, как правило, к цитированию соответствующих положений инструкции, рассмотрению частных примеров и формулировке очень общих , не всегда лингвистически корректных указаний (Мартнненко и др., 1983, с.38-39).

Ни в коей мере не умаляя важности изучения содержания документа, нельзя закрывать глаза на то, что в процессе работы над описанием изобретения и, особенно, при составлении формулы изобретения работники патентных служб часто испытывают трудности именно лингвистического характера, что может привести и нередко приводит

к искажению не тояысо грамматики, но и самого технического содержании. В настоящее время проблеш порождения текста формулы изобретения практически не изучены, не существует четких методических указаний, которые гарантировали бы высокое качество этого информационного документа, где лаконично формулируется основная идея изобретения, а содержание выражается в форме, имеющей правовое значение. Поскольку форма эта стандартна, а содержание различно, язык формулы изобретения функционирует в напряженном режиме, что и служит причиной разного рода отклонений от грамнатнчесгах правил и стилистических норм русского языка* Текст формулы становится непонятным, снижается сего информативная и правовая ценность, причем стремление избежать указанных отклонений часто приводит к нарушению стандартной структуры формулы.

Таким образом, на першй план выдвигаются задачи повышения качества патентного документа, ускорения и облегчения труда патентоведа , а также, в связи с применением ЭВМ как основного средства повышения эффективности обработки патентной информации, задачи обеспечения более высокой степени формализации и стандартизации семантико-синтаксичесвой структуры патента. Несмотря на то, что патенту присуща достаточно высокая степень стандартизации изложения, проявляющаяся в частности в строгой упорядоченности его композиционного строя, а также в тем, что в тексте описания изобретения широко используются унифицированные слова и обороты, разграничивающие различные части текста (Богданова и др., 1972; Фе-досюк, 1975), в патентах как и в остальной научно-технической литературе наблюдается терминологический разнобой, а для описания сходных ситуаций используются различные синтаксические структуры, что, конечно, затруднит автоматического обработку этих текстов*

Успешное решение сформулированных шве проблем требует тщательного анализа лингвистических аспектов патентной информации,

важность которого отмечается н в зарубежной литературе (например, в японской), где подчеркивается, что "...раз работу языковых моделей патентных описаний необходимо передать лингвисту. Уже сейчас интуитивно-логический анализ языка не удовлетворяет патентную экспертизу и задачи экспертизы требуют привлечения современных методов анализа языка" (Шевенко, 1975, с.25).

В советской лингвистике необходимость собственно лингвистического анализа патентных документов уже осознана и в последнее время появилось несколько работ, рассматривающих наиболее общие особенности языка патентного документа и некоторые из его частных характеристик. Это работы, выполненные в рамках функциональной стилистики, где особенности патентной документации сравниваются с другими видами технической литературы (Дубовик, 1978; Фе-досюк, 1977), билиягвистические исследования описания изобретений, в которых основное внимание уделяется повышению качества перевода о иностранного языка на русский (Василевский и др., 1972), работы, посвященные лингвистическим проблемам автоматической обработки патентной документации (автоматический перевод, информационный поиск, автоматическое реферирование, индексирование, классификация и т.д.) (Василевский, 1967; Шайкевяч и др., 1970; Ключко, 1983), а также работы, выполненные на стыке патентоведения я лингвистики, где обсуждаются различного рода отклонения реальных текстов описаний изобретений от нормативных требований (Могилевокий, 1978; Мартыненко, 1979), и статистические исследования лексики патентов (Бунова, 1983; Чаре ная, 1983). Однако лингвистический анализ патентной литературы находится на начальном этапе и настоящая работа является продолжением исследований в этой области*

ОБЪЕКТ настоящего исследования - семантико-синтансическая структура формулы описания изобретения на устройство (ЗйУ). Выбор

формулы изобретения в качестве объекта исследования обусловлен не только тем, что к ней в равной степени относится все сказанное о патентной документации как таковой, но и тем, что информационное значение формулы особенно велико: первая публикация об изобретении, значительно опережающая все остальные источники информации о нем, появляется в бюллетене "Открытая, изобретения", где представлены только формулы изобретений, а также тем, что формула изобретения - это не только краткая словесная характеристика технической сущности изобретения, во и единственный критерий определения объема изобретения, а следовательно, единственная часть описания изобретения, имеющая юридическую силу. Причем для надежной защиты прав автора необходимо, чтобы предмет изобретения был правильно и четко изложен в соответствии с жесткими инструктивными требованиями, что делает текст формулы в лингвистическом отношении наиболее сложной частью описания изобретения. Разница в функциях формулы и остальной части описания изобретения (основной функцией формулы является обозначение границы изобретения, в то время как в описании должно быть изложено как в этих границах изобретение можно осуществить), "находит свое отражение в отборе и организации используемых в них языковых средств. Поэтому народу с изучением языка патентной документации в целом весьма важное значение имеет познание языка формулы изобретения" (Могилевский, 1978, с.26).

Формулы изобретения на устройство, способ и вещество имеют ряд существенных отличий и должны быть исследованы отдельно. В данной работе исследуются однозвенные и первые пункты многозвенных формул изобретения на устройство (ЗЙУ). Такое ограничение вызвано невозможностью проанализировать в одной работе все виды формул, а также тем, что первый пункт многозвенной формулы изобретения имеет самостоятельное правовое значение, причем изобретения

устройств - самая распространенная категория изобретений.

ЦЕЛЬ ИССЛЕДОВАНИЯ - разработка проблем лингвистического обеспечения автоматизированной .системы синтеза формулы изобретения на устройство.

Конкретные задачи. посредством которых достигается поставленная цель, определены следующем образом:

1. Исследовать существующие в лингвистике подходы к моделированию синтеза текста и определить принципиальные позиции, с которых целесообразно подходить к синтезу формулы описания изобретения.

2. Выявить лингвистические критерии оптимальной формулы изобретения на устройство.

3. Разработать принципы организации лексикографического компонента формальной модели синтеза ®У.

4. Разработать метаязык для описания лексических значений терминов-предикатов, определить критерии количественной оценки силы их системных связей и применить разработанный аппарат для анализа парадигматических отношений этого слоя левей л.

5. Проанализировать структуру и функциональную значимость актантных шражений ЯЙУ.

6. Разработать глубинный язык для записи содержания формулы изобретения»

7. Разработать правила построения формальной структуры» интерпретирующей содержание формулы.

8. Разработать трансформационные правила перевода формального представления смысла ШУ в текст на естественном языке.

9. Построить алгоритмы синтеза ЗДУ.

Общая методика исследования характеризуется сочетанием дедуктивного и индуктивного подходов, в частности для решения поставленных задач используются следующие МЕТОДЫ ЙСФЩЦОВАНЩ:

I) статистический анализ, 2) валентный анализ, 3) метод транс формаций, 4) компонентный анализ, 5) анализ с применением математического аппарата теории бинарных отношений, 6) метод фреймового/сетевого представления информации, 7) метод формального моделирования*

НОВИЗНА, настоящей работы определяется тем, что данный языковый материал впервые исследуется с применением указанной совокупности современных лингвистических методов, что обусловило новизну полученных результатов. Впервые разработаны формальные правила и некоторые алгоритш синтеза формулы изобретения на устройство* Ношм является моделирование омыола ®У с помощью овманти-ко-синтакоичесюсс сетей в виде корневых деревьев, что позволило обеспечить однозначную мотивацию трансформаций синтеза. Существенной новизной отличаются созданные на базе современных методик конкретные приемы анализа лексига, семантики и синтаксиса ®У и сформулированные критерии синонимических и иерархических отношений терминов-предикатов, играющих первостепенную роль цри синтезе формулы* Новым является введение в словарное обеспечение модели данных о линейном порядке реализации валентностей терминов-предикатов*

Актуальность и новизна исследования предопределяют его практическую и теоретическую значимость*

ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ проведенного исследования состоит в возможности создания на базе разработанных правил и алгоритмов системы автоматизированного синтеза ®У, с помощью которой решаются следующие задачи:

I* Облегчение труда и уменьшение затрат времени работников патентных служб*

2* Устранение в текстах формул отклонений от грамматических и стилистических норм русского языка*

3. Достижение высокой степени стандартизации и унификации структуры и языка формулы, что значительно расширит возможности автоматизированной обработки ее текстов.

Описанная в работе модель формального синтеза допускает дальнейшее развитие и может быть использована при решении проблемы полной формализации процесса синтеза ®У, включающей формальное выделение признаков изобретения из текста его описания, а также при решении задач формализации перевода отечественной формулы изобретения на устройство на иностранные языки при выпуске сигнальной информации или при зарубежном патентовании. Результаты исследования могут быть использованы при разработке информационно-поисковых систем, а также при чтении вдюов по функциональной стилистике и прикладной лингвистике. С методической точки зрения примененные в работе методы анализа языка могут оказаться полезными при построении формальных моделей синтеза других видов формул (на сп�