автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему:
Именные словосочетания в структуре английского научного текста

  • Год: 1994
  • Автор научной работы: Переселяк, Ирина Васильевна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Минск
  • Код cпециальности ВАК: 10.02.19
Автореферат по филологии на тему 'Именные словосочетания в структуре английского научного текста'

Полный текст автореферата диссертации по теме "Именные словосочетания в структуре английского научного текста"

п минский государственный

г'| о 0Лингвистический университет

1 ; ЛИГ

На правах рукописи

ПЕРЕСЕЛЯК Ирина Васильевна

ИМЕННЫЕ СЛОВОСОЧЕТАНИЯ В СТРУКТУРЕ АНГЛИЙСКОГО НАУЧНОГО ТЕКСТА

Специальность 10.02.19—теория языкознания

Автореферат

диссертации на соискание ученой степени кандидата филологических наук

Минск 1994

Работа выполнена в Минском государственном лингвистическом университете.

Научный руководитель —кандидат филологических наук, доцент Т. П. Карпилович.

Официальные оппоненты —доктор филологических наук, профессор Ю. Г. Панкрац,

кандидат филологических наук, доцент И. Г. Сафьян.

Ведущая организация—Белорусский государственный университет.

Защита состоится « г?. » апреля 1994 г. в 14.00 часов на заседании специализированного совета Д. 056.'06.01 по присуждению ученой степени доктора филологических наук при Минском государственном лингвистическом университете по адресу: 220662, г. Минск, ул. Захарова, 21.

С диссертацией можно ознакомиться в научном зале Минского государственного лингвистического университета.

Автореферат разослан

1994 г,

И. о. ученого секретаря специализированного совета доктор филологических наук

3. А. ХАРИТОНЧИК

л

Реферируемая диссертация посвящена проблематике оптимизации автоматической обработки научного текста на основании установления функциональной роли именных словосочетаний в его содержательной структуре.В научном тексте, обладающем особой семантикой, именные словосочетания выступают.в основном, как иненные терминологические словосочетанияСИТС).семантико-синтаксические свойства которых взаимосвязаны со спецификой отображаемой предметной областиСПО).Анализ информативно-коммуникативной значимости ИТС а тексте может способствовать решению актуальных задач автоиатической переработки связный текстов на ЭВМ.

Дискретные языковые элементы текста имеют различное функциональное значение для выражения смысловой информации. В текстах научно-технической литературы особую роль при Формировании содержательного аспекта выполняют именные конструкции, т.е. ИТС.Содержательная информация специальных текстов концентрируется в ИТС. служащих для выражения научных понятий.объективирующих систему знаний о некоторой ПО.Изучение ИТС в структуре текстов научных публикаций позволяет установить некоторые важные закономерности функционирования сложных языковых единиц в целостном тексте, от которых зависит решение проблем преобразования текстовой семантики. Извлечение из текста автоматическим путем ИТС. представляющих наиболее информационно-значимые компоненты текста, дает возможность представить его содержание в сжатой Форме.

Актуальность данного исследования определяется тем^что проблемы алгоритмического смыслового анализа текстов приобретают большое значение в связи с ростом информационных потоков в современном мире.Необходимость автоматического свертывания смысловой информации научных публикаций предполагает разработку лингвистических моделей извлечения основного содержания н»учн®г<> -тетста, Установление функциональной роли ИТС при

Формировании содержательной структуры текста позволяет выделить его наиболее информационно-значимые фрагменты.представляющие в совокупности коппрессивное изложение основного содержания целостного текста научной журнальной статьиСНЖС).

Целью работ« является изучение информативно-коммун*-кативнсго Функционирования ИТС в научной тексте и создании на основе лингвистического исследования алгоритма анализа текст« НЖС.с целью извлечения ее основного содержания.Результаты исследования должны стать основой для разработки действующей экспериментальной вопросно-ответной системы алгоритмического поиска необходимой информации в текстах по специальности."химия протона".

Для достижения поставленной цели в диссертации потребовалось решить следующие задачи!

-построить структурно-семантические подели ИТС рассматрива-. епой ПО;

-исследовать содержательную структуру текстов НХС по "химии протона"и проанализировать корреляции между композиционной структурой текстов и их содержанием»

-найти формализуемый способ экспликации семантической структуры текстов и выделить их основное содержание!

-определить функциональную роль ИТС в Формировании основного содержания НЖС1 ..

-проанализировать возможности языковой манифестации основного содержания текстов посредством ИТС!

-разработать Формализованные методы для автоматического поиска а тексте информационно-значимых ИТС)

-создать лингвистическую информационную базу вопросно-ответной системы, вхлюч&ющую энциклопедические знания о данной П0>

-провести экспериментальную проверку работы систены на конт-: рольных текстах.

Объектом анализа послужили тексты научных публикаций на английской языкв в специальных зарубежных изданиях.

Нате'риалов лля исследования являлись 173В ИТС.выбранных из текстов объемом в 200 тысяч словоупотреблений.Их функционирование было изучено в 20 текстах ПО "химия протона" из английских. американских, канадских и японских журналов по химии.

3 ходе исследования были использованы методы сеяантико-сиитаксического и ситуативного моделирования, компонентного анализа. лингвистического описания и алгоритмического моделирования.

Научная новизна данного исследования заключается в том. что впервые структурно-семантические характеристики ИТС рассматриваются в связи с их Функционированием в структуре содержания целостного научного текста. Семантическое моделирование текста НЖС осуществлено в виде основных аспектов содержания.репрезентированных ИТС.Алгоритмическое обнаружение НТС.представляющих информативно-коммуникативные элементы содержательной структуры текста.производится комплексом процедур.предусматривающим обращение к энциклопедической информации.т.е.знаниям о ПО "химия протона", учет позиционных характеристик НТС в определенных блоках композиционной структуры текста НЖС и лексических маркеров, а также анализ синтаксической структуры предложения.

Теоретическая значимость проведенного исследования состоит в разработке проблем семантического анализа целостных текстов научных публикаций и установлении закономерностей функционирования ИТС при Формировании содержательной структуры текста.

Практическое значение данной работы заключается в создании действутаагй экспериментальной системы поиска необходимой информации в текстах НЖС по проблемам "химии протона". Система создавалась с учетом прагматических интересов конкретных пользователей.сотрудников Института химии неводных

растворов РАН, и должна способствовать информационному обслуживанию паучник исследований.Предложенный подход автоматической переработки текстов может быть использован в более сложных системах информационного поиска.индексирования и реферирования НХС. а также при компьютерной обучении студентов реферированию иноязычного текста.

На зашиту выносятся следующие основные положения диссертации)

1. Тексты НХС обладают определенный языковый построение«, репрезентирующим некоторый фрагмент научного знания, где главным средством передачи семантической информации служат наименования понятий.т.е. НТС,выступающие в качестве основного средства номинации единиц знания.

2. Представляя элементы системного знания о некоторой ПО. ИТС в тексте взаимосвязаны логическими отношениями, определяющими способ семантического структурирования текстов.

3. Экспликация структуры содержания текстов может быть проведена посредством выявления основных аспектов содержания, которые представляют собой инвариантную модель для семантического анализа тематически однородных текстов.

4. Обнаружение в тексте НТС. передавший основные аспекты содержания, позволяет выделить информационно-значимые фрагменты текстов, в совокупности представлявших основное содержание научных публикаций.

5. Разработка формальных процедур отождествления в тексте НТС. выражающих основные'аспекты содержания, основывается на ряде методов, включающих в себя обращение к энциклопедическим знаниям, позиционные характеристики Фрагментов текста, учет лексических маркеров; анализ синтаксической структуры предло-жекия.

Апробация работы. Основные положения и резу-

льтаты исследования были представлены на научных конференциях Пинского ГПИИЯ. Ивановской ГХТА, ИвГЫ. ИвТИ и в публикациях автора.

Цель и задачи диссертации определили ее структуру« диссертация состоит из введения, трех глав и заключения, списка использованной литературы и словарей.» также приложений.

Во введении обосновывается актуальность текы. определяются цель, задачи и методы исследования, отмечается новизна, теоретическая и практическая значимость, излагаются оновные положения, выносимые на защиту.

В первой главе рассматривается проблема определения текста в лингвистике, особенности научно-технических текстов, знаковость текста и его семантика . Предлагается способ экспликации семантической структуры текстов в виде перечня содержательных аспектов. воспроизводящих основное содержание текстов. Изучается проблематика ИТС и их роль в Формировании содержания текстов.

Вторая глава посвящена изучению структурирования содержания научных статей по проблемам "химии протона".« также синтаксическим и семантическим особенностям ИТС яанной ПО и их участию в передаче основных аспектов содержания текстов.

В третьей главе проводится анализ композиционной структуры текстов НЖС в сопоставлении с содержащейся в ней семантической информацией. Выделяются способы Формального определения в тексте ИТС. передающих основное содержание текстов, списывается овший алгоритм работы системы и ее лингвистическая информационная база, а также ряд отдельных алгоритмов для анализа текстов.

В заключении приводятся выводы обобщающего характера и результаты исследования.намечаются возможные перспективы дальнейшей работы по данной проблематике.

Содержание работы Определение онтологических признаков текста предполагает изучение коммуникативно-функциональной стороны отдельных текстовых «оппонентов. Элементы языковой системы в структур© текста подчиняется задаче выражения законченного содержания.отвечающегочцелян коммуникации.Обладая многоплановым характером, текст репрезентирует результаты реченыслительной деятельности в языковой Форме, т.е., представляет некое знание о действительности в комбинациях языковых знаков.

Содержание текста эксплицируется в языковых средствах.имеющих дискретный и линейный характер, которые не находятся во взаимно-однозначных соответствиях с семантическими явлениями. Семантика текста представляет собой сложный информативный комплекс. интегрирующий замысел автора текста в соответствии с условиями и целями коммуникации.Объективируя некоторый фрагмент /знаний, содержательный аспект текста характеризуется целостностью и структурностью, так как смысловая структур« текста складывается. с одной стороны.из отношений объектов денотативной сферы, а с другой стороны, она отражает логические взаимосвязи между коммуникативными действиями.

Семантика научного текста.как и любого другого, многомерна и неоднородна, поскольку заключает в себе не только предиетно-тен&тический компонент, но и отношение субгекта познания к этому предметному содержанию.а также отношение самого текста к описываемой реальности.Преобладание в научном тексте когнитивного Свонцептуального) компонента определяет иетаязыковую форму интегрированных ментальных и коммуникативных процессов. Пересечение когнитивных, коммуникативных, ситуативно-прагматических компонентов обуславливает сложную семантическую структуру научного текста, обнаружение которой необходимо для моделирования процесса .Извлечения информативно-значимых элементов текста.

Информационное обслуживание научных исследований предусматривает семантическую переработку связных текстов научных публикаций в аннотации' и рефераты, позволяющие в краткой Форме представить основное содержание целостных текстов. Особенно актуальной считается переработка иноязычной информации, помогающая преодолеть языковые барьеры для специалистов.не владеющих иностранным языком. В этом случае проблема сжатия текста дополняется задачей осуществления перевода с языка оригинала на русский язык.

Автоматическое РвФериРованиеСАЯЭ.основанное на использовании смысловых преобразований- перспективное направление теоретических и прикладных исследований, требующее разнообразных подходов и экспериментальной проверки. В подобных системах прежде всего решается задача экспликации структуры содержания первичного текста Формальными способамиСИ. П. Севбо.Э.Ф. Скороходько. р. Г. Пиотровский. А. В. ЭУбов. Л. Н. Беляева. А. Н. Новиков.x. А. Арзикулов. В.Е.Берзон.С.И. Гиндин. Н.Н.Леонтьева. Б. В. Якушин?. На основании установления неравнозначности элементов содержания текста можно выделить его значимые компоненты.т.е, получить модель основного содержания текста.

Способы выявления структуры содержания текстов различны в зависимости от реализуемых лингвистических подходов.Одним из подходов к экспликации семантической структуры текстов и обнаружения стабильных элементов предметных ситуаций и отношений между ними можно считать выделение аспектов содержания определенного класса текстов.Его преимупюствон считается то.что анализ текстов осуществляется исходя из содержания конкретных текстов по той или иной проблематике.Объективирование основного содержания текстов происходит на основании конкретных задач автоматической переработки текстов и целей потребителей информации. Выделение инвариантных элементов содержания текстов при помощи аспектов содержания является легко Формализуемым методом для

а

экспликации содержательной структуры текстов.позволяющий представить ее в виде перечня основных элементов содержания для некоторого пножества тематически однородных текстов.

Научный текст, наиболее распространенным представителем которого является НЖС.обнаруживает системно-структурные признаки. которые проявляются в иерархичности его семантической структуры. находящей выражение во внешней организации текста.хотя отношения, связывающие элементы структуры содержания могут иметь и имплицитный характер. -

Языковая Форма английских научных текстов, характеризуется наличием большого количества номинативных конструкций, .абстрактной лексики.особых способов словообразования.усложненных синтаксических структур словосочетаний и предложений.Строгая композиционная структура,закономерность построения сверхфразовых единств и абза-. цев.а также преимущественное употребление научных терминов,значение которых определено заранее в логико-понятийной системе знание определенной ПО. детерминируют тенденции к стандартизации текстовых форм, к Формализации средств научной коммуникации.позволяющие повысить степень информативности и однозначности научного текста. Эти свойства научного текста являются важной предпосылкой его «налитико-синтетической переработки в системах человеко-машинной коммуникации.

В процессе реферирования.основанном на выделении ИТС. необходимо определить в тексте словосочетания с наибольшей семантической нагрузкой.способные замещать значительные фрагменты содержания. Наиболее емхнми оказываются'ИТС.обозначающие модели микроситуаций в свернутом виде.так как ИТС обладают способностью к латентной предикации. Образование этих синтаксических единиц обусловлено объективными отношениями предметов и явлений реальной действительности. Познание действительности начинается с выделения •материальных субстанций и определения их признаков. Номинация

новых структур познания реализуется вследствие комбинаторных возможностей языковых знаков.что' приводит к созданию именных словосочетаний различной устойчивости.

В предложении и тексте устойчивые именные словосочетания приобретают коммуникативную достаточность, они обозначают предметы и процессы в. их действительных связях, соотносясь с реальной ситуацией и прагматическим фокусом сообщения. Именно в тексте именные словосочетания обнаруживают системные взаимосвязи, обуславливаемые логикой воспроизводимой действительности.

В английском языке структур» именных словосочетаний проявляется в Форме именных комплексов, где синтаксические зависимости не выражены морфологически. Они заключают в себе высокий семантический потенциал, обладая способностью передавать разнообразные смысловые отношения имени и адгюнкта.

Выступая как тематические доминанты научного текста. ИТС Фукционируют как структурно-семантические единицы содержательной структуры текста. Присутствующая в тексте имплицитно иерархия системных отношений между терминами определяет структуру тено-рема-тической прогрессии в тексте.где каждое ИТС актуализируется в зависимости от его информационной значимости.функционирование ИТС в тексте детерминируется не только их системными свойствами.закрепляемыми в логико-понятийной системе знаний ПО. но и авторским замыслом. коммуникативными целями и требованиями к языковой организации конкретного вида текста. Проблема соотнесения содержательной структуры текста с его языковыми конституентами может быть решена как выделение ИТС. представляющих основные аспекты содержания текстов. Этот процесс требует моделирования системы знания некоторой ПО.а также тех проблемных ситуаций, которые воспроизводятся в текстах определенного типа. Аспекты содержания текстов, представленные в"виде ИТС.которые передают основное содержание текстов, воспроизводят устойчивую модель семантической структуры

текстов.объективируя логические связи ИТС в научной тексте.

Изучение семантической структуры текстов ПО "линия протона" позволило выделить ряд аспектов содержания.являющихся аналогом основного содержания этих текстов. К ниц относятся «"тепа и предмет исследования"."анализ предыдущих исследований"."цель исследования", "типы и виды хипических реакций"."участники реакцииСкис-лоты и основания)"."растворитель и его свойства"."вещества для синтеза", "препаративные методики", "теоретические и экспериментальные методы изучения реакций".и т.д.

Выделенные аспекты содержания НХС по "химии протона" можно разделить на две группы.К первой относятся те аспекты.которые связаны с презентацией исследовательской деятельности ученых, когда устанавливается предмет изучения.его связи с ранее проведенными исследованиями.цель нового исследования и анализируются полученные результаты. Эти элементы содержания текста об- . ладают особым текстообразуюшим статусом и выражены в текстовых фрагментах.которые представляют собой.как правило, свободные комбинации слов и ИТС в составе целых предложений с разнообразными полипредикативными структурами.

Вторую группу образуют аспекты.описывающие знания об объектах. явлениях и процессах ПО "химия протона". Эти аспекты отражают рубрики тезауруса данной области знания и моделируют логико-понятийную систему данной ПО. Они манифестированы в тексте, как в виде устойчивых наименований понятий.т.е. терминов или ИТС.так и в виде комбинаций терминов.т.е. свободных словосочетаний.

Явление неоднородности содержательных аспектов научного текста, проявляющееся в их различной текстовой манифестации, отображает дифференциацию субъектно-объектных отношений в процессе познания реального мира.' Эти отношения воспроизводят структуру взаимосвязей как между познающим субъектом и объектом поз-

нания. так и между разными объектами описываемого Фрагмента действительности.

Полученные в результате анализа текстов ИТС были распределены с помощью экспертов на группы в соответствии с их принадлежностью к различным аспектам предметного содержания текстов. Данные структурного анализа ИТС приведены в тексте диссертации в нескольких таблииахСнаприпер.табл.15. Классификация по количеству составляющих ИТС компонентов позволила выделить наиболее частотные синтаксические подели для всех аспектов содержания. Наиболее распространенной моделью словосочетания в английских текстах по "химии протона"является субстантивное словосочетание N1+N2C48Z} -vibration frequency.distribution curve, что подтверждает данные об универсальности этой модели в английском терпиносбразовании. Второй наиболее употребительной модель» двухкоппонентных ИТС в изучаемом подъязыке является модель Й+Ж19/СЗ.служащая для экспликации предметно-признаковых отношений« stoichiometric concentration.molar absorptivity.

Среди трехкомпонентных словосочетаний С24/.} наиболее употребительны модели Nl+N2+N3.ft+Nl+N2 и 01+ft2*N.например» solvent exchange equilibrium -равновесие обмена растворителя, high polarity solvents-высокополярные растворители,rigid chemical bonds-жесткие химические связи. Наибольшие комбинационные потенции проявляют именно трехкомпонентные модели.очевидно, это связано с оптимизацией процессов номинации, причем в них часто фигурируют причастия и наречия, например» differently solvated anion -различно солъватированный анион.

Синтаксические структуры ИТС в различных аспектах содержания носят универсальный характер, что свидетельствует о недостаточности структурных характеристик ИТС для алгоритмического выделения словосочетаний, списывающих различные аспекты содержания изученных текстов.Однако этот этап работы позволил систематизировать

Структурные подели ИТС. описывающих содержательный аспект

Таблица 1 Сфрагмент5 "Параметры реакции"

Структур« с/с | Кол-го |

Пример

Перевод

дсуккоппонентные

2. ft*N

Z. *р+fig

трехкомпонентные

•г и ¿пхм J.M i.

Е. ILJ+P+0+N2

S.ft1+ft2*M

7. fij+ft+f^ S.^ + Kg+p+Nj

209 transfer enthalpy

activation parameters 72 first-order conditions '

semiquantitative correlation 31 energy of activation rates of detritiation

35 interim?lecular separation

coordinate 23 transition state structure ion association constants ' 12 rates of deuterium transfer entropy of activation effect

4 structural change of activation

0 concentration of free water

2 combined kinetic energy

2 h.a. r. cheraical shift

1 excess heat of mixing

знтаЛьпия переноса активационные параметры условия первого порядка полуколичественная корреляция энергия активации скорость детритирования

нежнолекулярная координата разделения

структура переходного состояния константы ассоциации ионов скорость переноса дейтерона эффект энтропии активации структурное изменение активации концентрация свободной воды суммарная кинетическая энергия химический сдвиг я.и.р. избыточная теплота смешивания

Всего:

415

корпус изученных ИТС и.в дальнейшем.заложить их в лингвистическую информационную базу компьютерной системы.

Следующим этапом изучения ИТС. относящихся к различным аспектам содержания .было исследование семантики ядерного существительного ИТС. которое могло дать семантические критерии для определения принадлежности того или иного ИТС к какому-либо содержательному аспекту. Исследование семантики ядерных компонентов ИТС.являющееся одним из апробированных методов прикладной и теоретической лингвистики, проводилось на основании выделения универсальных логико-семантических категорий, анализа данных толковых и энциклопедических словарей и изучения микроконтекста словосочетаний.

Были получены семантические признакиССем П). характеризующие значения ядерного существительного ИТС/ например. Сем П- вещество Cacid.base.alcohol.amineî,элементарная частица Cproton.neutron, electron).Физико-химический процесс Сabstraction,асtivation.absorption, vibration). структурная единица вещества С atom, ion. group. molecule).Физическая величина Cmass.viscosity.energy.potentlal). и т.д. Всего было выделено 33 Сем П для изученных ИТС.

Сравнение и сопоставление семантических признаков ядерного компонента и определений ИТС.входящих в различные содержательные аспекты, показало, что полученных Сем П достаточно для однозначного определения лишь немногих аспектов. Большая же часть изученных аспектов проявляет явления пересечения и совпадения Сем П.

Это касается таких аспектов содержания, которые относятся к тео-

у

ретическим сторонам ПО "химия протона", что можно объяснить взаимосвязями процессов и явлений, описываемых в различных содержательных аспектах.!.е. некоторой диффузностыо системы концептуальных представлений сложной предметной области. Языковые средства для описания подобных систем оказываются полифункциональными и лабильными. а их семантическая интерпретация является относительной

вследствие постоянного изменения научного знания о Реальной действительности. Многозначность языковых единиц.употребляемых для обозначения научных понятий, снимается за счет ограничений, накладываемых рамками контекста и процессами актуализации значений словосочетаний в тексте.

Таким образом, структурные и семантические характеристики ИТС оказываются недостаточными для идентификации их роли в структуре содержания текста.т.е. принадлежности к тому или иному аспекту содержания, поэтому.как представляется, только изучение их Функционирования в тексте может привести к отождествлению необходимой информации.

Б тексте НХС наблюдаются определенные закономерности распределения содержательной информации а блоках композиционной структуры, что позволяет установить пути оптимального поиска информационно-значимых ИТС.передающих в тексте единицы знания. Композиция НЖС выступает как совокупность структурно-семантических признаков, определяющих способы кодирования и декодирования научной информации. Сегментирование текста на отдельные структурно-семантические блоки возможно благодаря их автосеман-тичности и относительной завершенности в пределах целого текста.

Структурные элементы научней статьи выполняют определенную коммуникативно-прагматическую функцию. Заголовок статьи, аннотация, введение, основная часть и заключение реализуют коммуникативное намерение автора и адекватно воспроизводят содержательные элементы научной информации.Данные о распределении содержательной информации текста НЖС в отдельных композиционных блоках представлены в табл.2. Из табл.2 следует, что различные аспекты содержания НЖС имеют неодинаковые позиционные характеристики. Аспекты, относящиеся к презентации структуры исследовательской деятельности.обнаруживают тенденцию к четкой локализации в определенных блоках композиционной структуры НЖС.например.в заголов-

ке и во введении.поэтопу их алгоритпический поиск пожно осуществить на основе позиционных характеристик.

Таблица 2 Сфрагнент)

Корреляция аспектов содержания статей и их позиций в композиционной структуре текста

-

X

Аспекты содержания

Разделы статьи

и о ч о и, га

(.о

а а

ф Я ф ?

« £ Й я

£ н

ьЗ

а *

* а

® .9

т У

3

Е » 5.3

9 Й

§ § 5 §

« о

в; я

<0 о. (-, о я »=! Ю Я (Д

Л I-

(К о а о х х

Н Л

к ч

СП ф

«о

р О! >»0) о Ч

Г- X

И СО ®

Ро

•О <=< о ш ч о и Я

.Тема и преднет исследования .Анализ предыдущих исследований .Цель исследования .Выводы . Типы и виды реакций . Кислоты и их свойства .Основания и их свойства .Растворитель и его свойства . Продукты реакции

+ + Т

1

з

б

7

Однако аспекты содержания, передающие концептуальное описа-

ние ПО "химия протона", т. е. объект, исследования, находятся во всех композиционных блоках НЖС и их однозначное отождествление в тексте невозможно сделать на основании только лишь позиционных критериев. Композиционная структура НЖС позволяет сузить сферу алгоритмического поиска необходимой информации, но для большинства аспектов содержания необходимы дополнительные критерии.

Особую роль выполняют ИТС. находящиеся в сильных позициях текста.например, в заголовке, в первом предложении аннотации, в первом предложении текста, в конце абзацев, разделов и всего текста. ИТС в заголовке текста раскрывают тему и предмет иссле-* дования. ИТС в первом предложении аннотации манифестируют тематическую доминанту последующего текста.например, в тексте с заголовком "Kinetic isotope effects in the reaction of 4-nitro-phenylnitromethane with various bases in сЪ1огоЬепгепе"тема ис-следввания обозначена в виде наименования изучаемой реакции-reaction of 4-nltrophenylnitromethane with various bases in chiorobenzene - с конкретным указанием всех участников реакции. Первое предложение аннотации к этому тексту:"The kinetics of the proton-transfer reactions of 4-nltrophenylnitromethane with various bases in chlorobensene solution have been studied, and deuterium isotope effects determined" содержит обозначение пред пета и темы исследования посредством повторения номинативных элементов заголовка с дополнениями и уточнениями!proton-transfer reactions называет тип реакции.4-nitrophenylnitromethane-кислоту. various bases-основания.chiorobenzene solutlon-раство-ритель.deuterium isotope effects-обозначает предмет исследования в данном тексте.

В первом предложении основного текста.обладающем автосемантическими свойствами, не только повторяется тепа и предмет исследования. но и устанавливается логическая связь предыдущих

исследований с данным конкретный изучение« проблемы. излагаемой в тексте. Например»"Previous Investigations of the proton-transfer reaction of 4-NPPCM and substituted derivatives uith TUG studied the activation parameters.deuterium isotope effects,and the Hammett correlation".

Для формализованного обнаружения необходимых фрагментов текста используются также определенные лексические показатели, называемые лексическими паркерами. Они позволяют обнаружить необходимую информацию на уровне отдельного предложения, входя в его состав. Лексические маркеры образуют вспомогательную подсистему текста, обрамляющую собственно содержательную информацию. Изучение текстов НЖС по "химии протона" подтвердило, что с помощью лексических паркеров можно довольно точно найти предложения. описывающие те аспекты содержания, где представлена структура субъектной деятельности.т.е." анализ предыдущих исследований", "цель исследования" и "выводы".например.маркеры this work continues, we now present, the present uork, the present Investigation, будучи дополненными позиционными критериями, указывают на аспект "цель исследования".

В некоторых случаях для поиска необходимых фрагментов текста, относящихся к предметному содержанию, проводится анализ синтаксической структуры предложения. Он основывается на темо-рематй-ческих отношениях в структуре предложения.когда ИТС. несущие необходимую информацию, отождествляются на основании выделения Формальных границ сказуемого или же других признаков.

7

Привлечение энциклопедической информации (табл.3) необходимо для всех аспектов.относяидахся к описанию ПО "химия протона".Представление знаний.увеличивающее поисковые возможности системы.может осуществляться различными'способами, что определяется как свойствами самой ПО. так и задачами информационного поиска, а также требованиями к размещению информации оптимальным способом в

Таблице. 3.

Способы идентификации инФормационно-значиных фрагпентов текста

-1-1-1—I-1-

Способы |Позиии-| Лексичес- | База энии- |Анализ Идентификации |онные | кие нархе-| клопедичес-|синта-1 ( рн клише | кой информ,|ксич.

Аспекты содержания | | ( ¡структ.

9.

10 11

13

14

15 1Р

Тема и предмет исследования Анализ предыдущих исследований 11ель исследования Выводы

Типы и виды реакций Кислоты и их свойстве Основания и их свойства

Растворитель и его свойства

Продукты реакции . Сешества для синтеза . Препаративные нетолики

. Экспериментальная ■

аппаратура . Теоретические и экспериментальные методы изучения реакции . Изотопный эффект . Параметры реакции Механизм реакции

4-

+

4.

4-

+

+

памяти машины. В .нвшеи случае била выбрана модель фрейма, поскольку в центре внимания специалистов по "химии протона" находится стандартный процесс-химическая реакция. Есе составляющие которой можно зафиксировать в качестве узлов фрейма. При помощи фрейма задается, модель ситуации . являющаяся исходной для формирования текстовых ситуаций и характеризующаяся категориальной устойчивостью ПО. Налы фрейма соответствуют тем аспектам содержания.которые представляют логическую структуру знания об объектах и процессах рассматриваемой ПО. Фактически они соответствуют рубрикам тезауруса данной ПО и открывают доступ к спискам ИТС. являющихся наименованиями базовых понятий этой специальности. • Поиск и отождествление этих понятий в тексте приводит к обнаружению ИТС. являющихся ответами на запросы пользователейСрис.1).

Алгоритмический поиск Срис.2) в тексте ответов на запросы пользователей, которые соответствуют' выделенным аспектам содержания. осуществляется по нисходящему принципу-от анализа структуры целого текста до отдельных его ФРагментов-комплексом поисковых процедур.которые включают в себя позиционные критерии.лексические маркеры, обращение к энциклопедической информации и анализ синтаксической структуры предложения.Выделяемые в тексте ИТС репрезентируют информационно-значимые фрагменты текста, в совокупности передающие его основное содержание.

Система автоматического поиска необходиной информации в тексте базируется на лингвистических данных, заложенных в лингвистическую информационную базу, функционирующую в виде аатона-

У

тического словаря с определенной структурой. Для вопросно-ответной системы поиска информации в тексте был создан автоматический словарь ИТС.так как в данной системе именно ИТС являются зсновиой единицей языкового айализа текстов и выдаются пользователю в качестве ответов на его запросы. Автоматический сло-58рь словосочетаний отвечает задачам системы, и позволяет зало-

и 5

а п ч

i ш

3 и о

4

0

1

п л ■Т •и п

>1 ш III п

■ III -I 1 ■ И п — т, т

III 1 ¡о 0 1

0 0

III (Л

тэ ь

и «1

а й

1С №

£

•о п 10 -4

Р1 "О 1 <£

1 X тз ч 1С 1С

3 Т1 Б I

2 £ x №

П X

4 а> я т-1 Я

та •о i п ч £ X

ч п и и ад

Я 2 '1 «

II Г| 9 Е » i

участвуют в реакции

участвуют

в реакции

образует среду

С паз

т 10 1СП

5 14 * 0

X 1 1

и ш

1» ■* г о а

7. 1

•1 1 1

реагирования

дает

наблюдается

£ -О 1 т

5 Ш 10 и

5 № И и

X п »

1 1С 1

£ ТЗ т т

I ш 10

г 111 и X

X 1 1 № 1

проявляет

происходят

путем

ЛШ Т1 ш

3 » ! *

■О 3 ¡5 I п »»«!:]

и I и

и № I I

! а

ишн юс» ш ьн

1Г X то I П 10

г з н

" г» I и 1 I I 5 Ф ; » 2 и ИИ

а х г. 1 I ш

»

р и з и: г ^ 10

ог

С

с

начала

3

$ Вь:еод на экран застаеки системы

В Виеод на экран названий текстас, имеющиесл в текстовом массиве системы

С Выбор пользоЕателем теиста для анализа

О Обработка предтекстоеои информации, перевод эаго-лаек.а как указа»>ия на тему и предмет исследования

Я Вывод на экран пере-ого предложения аннотации и выбор из него па Формальным признакам ИТС с переводом и подстановкой в предложение "В тексте рассматривается. - . "

• Рис-од на экран статьи нгзЕднни разделов и подразделов ^

1

» Вывод на экран таблиц, схем »1 графиков статьи /

1

Вывод на экран можно задавать списка вопросов, которые. / системе по тексту /

Рис. 2. алгоритм рзеаты гго/н зэь а*г

с диллогттоП спсТЕмоП "ПРОТОН"

жить в лингвистическую базу информационного поиска подели сложных языковых знаков, несущих сведения об устойчивых лексических единицах, а также семантическую информацию в виде кодов классификационного фрейпа и переводные эквиваленты на русской языке.

Помимо словаря ИТС. систепа содержит словарь служебных слов и некоторых прилагательных для более точного перевода предложений текста, имеющих большое информационное значение.Это касается перевода на русский язык первого предложения аннотации.первого предложения текста,а также предложений.сообщающих о цели исследования и его выводах.

Экспериментальная проверка работы алгоритнасрис.3) показала, что в целом автоматический поиск необходимых сведений в тексте дает правильный, но более огрубленный результат,чем интеллектуальное реферирование.Неточности в Работе алгоритма обуславливаются объективными причинами! вероятностным характером информации, вариативностью языкового выражения некоторых понятий.возможностью нескольких ответов на один запрос.т.е. многомерностью содержательных характеристик текста, когда однозначные ответы являются огрублением текстовой информации.

Проведенное исследование ИТС в структуре английского научного текста показало.что ИТС в тексте функционируют не только как устойчивые синтагматические комплексы, но и как легко разложимые синтаксические единицы, способные к изменению своих структурно-сепантических свойств и к свободному комбинированию. Это создает определенные трудности при алгоритмическом поиске ИТС. поэтому совершенствование работы системы предполагает переход к анализу целых предложений, установлению логических взаимосвязей фрагментов текста для обнаружения репы текста.т.е.новой информации, получение которой # составляет основную цель воспринимающего текст читателя.

Основные положения диссертации отражены в следующих публи-

-------------------------------------------

5 Отчет по работе с текстом - _=tatl -txt S •

Заголовок

кинетика изотопное» эффекты я механизм pgs.ku;:h 2,2-di ( 4-ni tr прЪепуЗ >-115 11 xluoroethane с алиоксидныяи основаниями в спиртовых растворителях

В тексте рассматривается-- -

реакция между (4-nitrapheny1)-J>1,1-trifluorcstha

ne vi алкохси-зньши основаниями ОСНЗ, 0C2HS, 0НС4КЭ, ОСН(СКЗ) 2, и 0С.< CK3>3 з соответствующих спиртозых растворителях i s многоступенчатая реакции с нескольким;: промежуточными веместааки 2i2-di( 4-ni tropheny1) -1,1-di f luoro-l-aU;axyetha ne (A)i 2,2-di-< 4-rii trophenyl >-1-f 1 ucro-l-a]J,oxyethane (B), ?.,2-dH 4-ni tropbpr.yl) -1, J -dialfcoxyethene (C), 2,2-di(4-nit ropheny) )-1,1-di f luoroethene (D), и 4,4'-dinitrodenzapHene (K>

Диализ лрадыдуиих исследований Вили изучали...

реакция между 2.2-di( 4-ni tropher.yi >-1,1 ■ 1-tri f 1 uorosthane и алкпкслдными оонсранияки has already beer, examined /!-4/ и

'ыли найдены--.

шогпступгнчатый процесс с несколькими промежуточными аеиест->ами катйрый exhibit различная реакционная способность

>лнакп...

гзотопньгй эффект );(Н) /1с( D) = 1 <42 при ?6~С при appearance '525 ieaV Has очень низкий для реакции перекоса протона

инее этой проблемой занимались - -■

г. J.Kursawa and К.Т.Leffe!<-Can.J.Chera.55,169й( 197?) -

2. K-T.Leffok and G-Schreder.Can«J.Chem-60,1696(19E2>.

3. A. Jarc=ews];i and K.T-!-ef felc-Can. J.Chem-58,1979( l-jeo) .4. K-T-I.ef fek and G.Schrede««.Can.J.Chem.60,30774 19e2> -

оль исследования *****************

с*ль исслодоэания состояла в той. чтобы изучить.••

as initiated рракпия субстрата с рядом алкогссидов з соответ-гру»них спиртах чтобы obtain ясное и лсг::\'::ср поникание эхакизма whole set реакций '

эепаратизкыо методики Ьр 165-155~С

Рис.3.Фрагмент результата работы диалоговой • системы "Протон"

нациях автора«

1. Роль частотного терминологического словаря в оптиииэа-ции обучения лексике /V Проблемы методики преподавания иностраи• ных языков в неязыковой вузе.Сб. науч. ст.-Иваново«ИХТИ. 196?.-

С. 255-262.Деп.в НИИВШ.М 115-88 от 07.01.1988.

2. Семантическое моделирование терминологических словосочетаний /V Лексикографические методы в обучении и научных иссле-

«

дованиях.Тезисы межвуз.конФ.-Иваново«ИХТИ, 1868.-С.33-34.

3. Проблемы применения ЭБН в обучении иностранному языку

в неязыковом вузе /( Применение технических средств в преподавании иностранных языков. Тезисы межвуз.конФ.-Новочеркасск«НПИ. 1989.-С. 4?.

4. Семантика многокомпонентных субстантивных словосочетаний терминологического характера Г Г Лексикографические методы в обучении и научных исследованиях.Сб.науч.ст.-Иваново«ИХТИ.1990. -Деп. в ННИОН ЙН СССР. -С. 177-183. -М 41730 от 28.04.1980.

5. Терминологические именные словосочетания в целостном тексте научной публикации // Совершенствование преподавания иностранных языков в высшей и средней школе.Тезисы респуб.конф. -Душанбе«ДГПИ им. Т. Г.Шевченко.1891. -С. 38-39.

6. Именные словосочетания в структуре научного текста /( Белорусский язык среди европейских,Тезисы докладов аспирантов и студентов.-Нн.«ПГПИИЯ. 1092.-С.46.

7. Семантические особенности определяемого существительного в именных словосочетаниях терминологического характера

П Проблемы словосочетания.Тезисы межвуз,копф,-Пятигорск«ПГПИИ: 1992.-С.183-184.

6. Корреляция композиционного членения научного текста к информационно-значимых аспектов его содержания // Белорусский язык среди европейских.Тезисы докл.аспирантов и студентов.-Мн. ИГЛУ.1993. -С. 75.