автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Знаки препинания как тектообразующие единицы (автоматизация анализа и редактирования в научном тексте)
Полный текст автореферата диссертации по теме "Знаки препинания как тектообразующие единицы (автоматизация анализа и редактирования в научном тексте)"
КИЕВСКИЙ ОРДЕНА ЛЕНША И ОРДЕНА ОКТЯБРЬСКОЙ РЕВОЛЮЦИИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им.Т.Г.ШЕВЧЕНКО ,
КРИТСКАЯ Валентина Ивановна
УДК 806.2:581.3*801.19+82.06
ЖАКИ ПРЕПИНАНЖ КАК ТЕКСТ00БРАЗШШ ЕДШЩЫ (АВТОМАТИЗАЦИЯ АНАЛИЗА И РЕДАКТИРОВАНИЯ В НАУЧНОМ ТЕКСТЕ)
10.02.19 - теория языкознания
Автореферат диссертации на соискание ученой степени кандидата филологических наук
На правах рукописи
Киев - 1991
Работа выполнена в Отделе структурно-математической лингвистики Института языковедения им. А.А.Потебни АН Украины
Научный руководитель - доктор филологических наук.
профессор ПЕГЕЕЕЙЮС В. И.
Официальные оппоненты: доктор филологических наук.
профессор СКОРОХОДЬЮ Э.Ф. ;•
кандидат филологических наук, доцент АЛЕКСЕНШО Л.А.
Защита состоится "«¿7 " 1991 года в .
на заседании специализированного совета Д 068.18.11 при
1/
чао.
та
Киевоком государственном университете им.Т.Г.Шевченко по адресу: 252017, Киев-17, бульвар Шевче1ШО, 14.
Ведущая организация - Харьковский государственный университет.
С диссертацией можно ознакомиться в библиотеке Киевского государственного университета.
Автореферат разослан
Учений секретарь специализированного совета
ЛЫСЕНКО Э.И.
Общая характеристика работа.
Пунктуация используется на всех этапах анализа в автоматизированных системах переработки текстовой информации для идентификации единиц с различным статусом (морфологических, лексических, синтаксических, терминологических, логических и др.). Поэтому правильное "чтение" знаков препинания, т.е. распознавание их роли в контексте, является одним из ванных условий эффективности автоматического анализа текста.
Однако специального исследования пунктуации с целью автоматизации ее анализа в научном тексте до сих пор не проводилось. Проблема редактирования знаков препинания в процессе автоматического анализа текста на разных его уровнях кан в теоретическом, так и в практическом плана разрабатывалась мало (Еелоногов Г.Г., Кан А.Г., Партыко З.В.).
Последний раз правила пунктуации систематизировались в 50-е годы. Но так как с тех пор получены новые данные з области теории текста и пунктуации возникла необходимость переосмысления рога пунхгутяонной системы как особой системы в яисьшдкоЯ речи и законченном тексте, ее теоретических принципов. Этим определяется актуальность теш реферируемого диссертационного исследования.
Цель работы ко ото оформулчровать как определение возможностей алгоритмизации анализа и редактирования знаков препинания й научном тексте на основе закономерностей его структурной организации.
В качество материала исследования яспотьзуюгся правя та пунктуации из справочника "Правила орфографии и пунктуации", а такае тексты научных рефератов из РЕ ВИНИТИ по разделу "Кибернетика". Объем текстовой выборки составляет 100 тыс. словоупотреблений (сплошная выборка).
работа выполнена как часть комплексной теш "Автоматизация анализа научного текста", разрабатываемой в Отделе структурно-математической лингвистики Института языковедения АН Украины.
Анализ знаков препинания понимается как распознавание их смысла (рога) в тексте в соответствии с принятой для русских текстов системой правил пунктуации. Правила пунктуации, сформулированные с позиции структурирования текста как целого и рассчитанные на использование их человеком, преобразуются в систему "машинных" правил, опирающихся на описание текстовой структу-
ры с помощью морфологических, синтаксических, лексических и позиционные параметров. Правомерность такого преобразования основывается на формальна* признаках правил пунктуации, а также на фундаментальном законе построения текста, сформулированном Ю.М.Лот-манси. т.е. на возможности многоаспектного членения линейной последовательности элементов, образующих текст. Следствием этого закона является принципиальная многофункциональность знаков препинания в тексте. Роль знаков препинания распознается отдельно на каждой этапе анализа текста.
Редактирование знаков препинания опирается на закономерности их употребления в тексте. Процесс редактирования понимается в узком смысле - как поиск несоответствий реального употребления знаков препинания и определенных ранее закономерностей их употребления. Случаи несоответствия помечаются в анализируемом тексте для постредактирования и корректировки.
Объектом данного исследования являются закономерности употребления знаков препинания в научном тексте реферативного типа. Изучаются содержательные закономерности употребления, осиовивающиеся на представлении о знаках препинания как текстообразуюлих единицах, и формальные закономерности употребления знаков препинания на разных уровнях текстовой структуры. Исследование проводите? в.деух направлениях: 1) .на базе существующей системы правил пунктуации; 2) на текстовом материале.
В работе используются следующие методы: структурно-системный. анализ, дистрибутивный анализ, статистические методы, количественный анализ, алгоритмический метод.
В процессе работы над темой для достижения поставленной це-г ли были решены следующие конкретные задачи..
1) Проведен содержательный и" формальный анализ правчл русской пунктуации. '
2) Описаны текстовые закономерности употребления знаков препинания. . .
3) Определены статистические и количественные характеристики использования правил пунктуации и употребления знаков препинания в рефератах. '. . ■
4) Разработан алгоритм анализа и редактирования пунктуацион- ' ных знаков при оформлении синтаксических оборотов.
На защиту выносятся следующие положения.
1. Теория пунктуационной системы является пастью теории текста. Знаки препинания относятся к текстообразуюпшм единицам письменного текста, а пунктуационная система в целом предназначена для экспликации элементов композиционно-смысловой структуры целого текста.
2. Русская пунктуационная система основана на смысловом принципе. "Синтаксический" подход к пунктуационной системе недостаточен. Правила пунктуации, сфорыулироЕачные на основе практических соображении простоты понимания и обучения, не отражают в явном виде истинного назначения пунктуации. Текстовый подход к пунктуационной системе требует дополнения системы правил и их пере-фориуляровки.
3. Традиционная структура пунктуационного правила удобна для целей форлализации. В правиле выделяются структурные части, в частности описание содергательних а формальных признаков текста. по которым определяется возможность постановки знака препинания.
4. Научный реферат как законченный текст построен по принципу вложения единиц текста, как гит текста характеризуется применением разнообразных приемов компрессии информации, сроди которых наиболее распространено обособление.
5. Автоматический анализ и редактирование знаков препинания должны базироваться на правилах пунктуации и на результатах, детального анализа дистрибуции знаков препинания э тексте.
Новизна исследования заключается, во-первых, в подходе -впервые сформулирована концепция пунктуационной системы русского языка, основанная на смысловом принципе. Во-вторых, осуществлен комплексный анализ пунк:уации с позиций системного и функционального анализа. И, наконец, разработан оригинальный алгоритм автоматического анализа и редактирования пунктуации в научном тексте.
Теоретическая значимость. Предложенная концепция пунктуационной системы является дальнейшим развитием теории текста. Выявленные в ходе исследования закономерности функционирования знаков препинания дают возможность глубже проникнуть в закономерности построения научного текста малого ланра. Разработанная страгерия и алгоритм автоматического анализа и редактирования знаков препинания способствуют дальнейшему развитию теории автоматического анализа текста.
Практическое значение работы. Разработан алгоритм анализа и редактирования знаков препинания на границах синтаксических оборотов. который шкет использоваться в различных системах автоматического анализа текста. Предложенная в работе методика исследования пунктуации в тексте мотет применяться при изучении текстов
т результаты .
других жанров. Теоретические и практические работы оудут полезны
при уточнении правил .пунктуации, а также при разработке методик обучения пунктуационной системе.
Апробация работы. Основные положения диссертации изложены в выступлениях на Республиканском семинаре "Автоматизированные системы переработки текстовой информации" (Львов. 1985), на Всесоюзной конференции по проблемам создания Машинного фонда русского языка (Москва, 1989), а тагам на семинаре "Лингвистические проблемы проектирования информационных систем" Научного совета АН УССР по проблеме "Кибернетика" (Киев, 1989).
Список публикаций включает б работ но теме диссертации.
Структура и объем работы. Диссертация состоит из введения, трех глав и, заключения. В'работу включены 5 таблиц и 4 р: унка. Список литературы включает 193 позиций.
Содержание работы
Во введении обосновывается актуальность, новизна и теоретическая значимость работы, определяются цель и задачи исследования, характеризуется материал исследования, перечисляются применяемые методы, формулируются положения, выносимые на защиту, указывается практическое значение работы.
Кратко излагаются и анализируются точки зрения на пунктуационную систему в русских текстах, начиная с М.В.Ломоносова и до . настоящего времени. Пунктуация - это множество .специальных символов (знаков препинания). Знаки пр'епинания организованы в систему. Возникшая еше в рукописных текстах для'удобства чтения вслух, пунктуэдионная система усовершенствовалась с развитием письменной речи, особенно после появления книгопечатания..Назначение пунктуации И ее-теория рассматривались в.риториках. Наибольшего внимания заслуживает трактовка пунктуации М.В.Ломоносовым. Обоснование перечня пунктуационных знаков и правил их употребления М.В.Ломоносов выводят из своего понимания текста, которое достаточно, близко к современному представлению о целостном тексте. Он исходит из идеи, что в тексте все подчинено замыслу "ритора".
В. зависимости от замысла выбирается ганр, сюжет и способы развертывания "Текста. Пунктуационная система соответствует системе риторических, т.о. текстовых, единиц. Пунктуация укгзывает на: а) деление текста от целого к части; б) эмотивность (повествование, удивление, вопрос); в) относительную значимость контактно расположенных единиц; г) основной и неосновной ("вирсной") текст.
Изменения в трактовке пунктуации произошли под влиянием реформаторских идей в области литературного языка в нач. XIX века. Сложное соотношение системы пунктуация и периодического типа речи постепенно забывались, роль знаков препинания суживались до уровня синтаксического членения предложения (Я.К.Грот). Многие правила пунктуации Я.К.Грота используются до настоящего времени.
. Среди других подходов к пунктуации следует упомянуть предложение А.М.Пешковского создать пунктуационную систему на основе интонационного принципа. В проекте пунктуационной системы Гяав-науки 1930 г. была сделана наудавшаяся попытка возродить первоначальный текстовый подход к пунктуации.
В настоящее время используется правила орфографии и пунктуации, утвержденные в 1956 г. и опирающиеся, в основном, на синтаксическую теорию языка. В разработке теоретических и практических проблем пунктуации принимали участие такие ученые, как А.Б.Шапиро, Д.Э.Розенталь, Т.М.Николаева,. Г.Г.1.Блинов, Н.С.Валгииа, М.Н. Иванов, И.А.Фигуровскнй. В.Ф.Иванова, Л.Н.Ланда. А.Ф.Ломизов. А.В.Текучев, Б.С.Шварцкопф и др. Возникающие трудности при рас-мотрении фактов употребления знаков препинания и при теоретическом обосновании принципов пунктуационной системы объясняются тем. что в работах по пунктуации чаще всего игнорируется первоначальное текстовое назначение знаков препинания. Необходимость восстановления нарушенных сгя:.ей пунктуационной системы с теорией текста в .литературе не обсуждается. При таком положении затрудняется и решение проблем автоматизации анализа знаков препинания в тексте. поскольку и постановка задач, и получаемые результаты должны опираться на адекватное представление об объекте исследования. В связи с этил нами делается вывод о том, что для достиженй1л$або-ты необходимо принять рабочую концепцию русской 'пунктуационной системы.
В первой главе "Пунктуационная система как система тексто-образуюшая" рассматриваются правила пунктуации с целью разработ-
ки концепции пунктуационной системы. Даотся определения основных терминов, принятых в работе.
Сфера употребления знаков препинания - письменный текст. Текст - результат передачи замысла автора с пошщыо языковых средств и небуквенних средств графики. Замысел автора включает: I) го. для чего пишется текст. 2) то. о чем пишется текст, 3) то, как пишется текст. Языковые сродства - единицы разных уровней языковой системы (фонемы, морфемы, слова, синтаксические конструкции), записанные буквами принятого алфавита. К небуквенным средствам графики относятся все остальные символы и средства записи текста: пробел (в том числе разрядка), шрифтовые варианты, перенос, формирование строки, параграф, абзацный отступ, надстрочные знаки (звездочка и т.п.). строчные знаки (традиционно относящиеся к знакам препинания), специальная символика (принятая в математике, физике и т.д.). подчеркивание, дефис, косая черта. Специальная символика используется наравне с языковыми единицами. Шрифтовые варианты, разрядка и подчеркивание, перенос, дефис в сложных словах, косая черта употребляются при взаимодействии с орфографическими правилами или по правилам орфографии. Есе остальные упомянутые графические средства отнесены в данной работе к знакам препинания, т.е. средствам оформления линейного текста, выраженного языковыми единицами.
Для анализа в данной работе выбраны правила (§§ 125-194) из общего раздела сборника 1956 г. как используемые в текстах любых ланроз. Правила из других разделов привлекаются при необходимости в ходе анализа. Анализируется 123 правил.
В '¡¡I определяется понятие отдельного правила и указываются, формальные и интуитивные способы, выделения правил из формулировок. В формулировке правила на предварительном содержательном этапе анализа определены три основных компонента: I) описание знака препинания, включая его название, 2) утверждение о знаке (позитивное или негативное), 3) описание контекста знака препинания. Указываются следующие способы выделения отдельных правил: группировка правил по общности знака препинания, по разделам и параграфам. Различаются основные правила и примечания, используется прием рубрикации. Отдельные правила выделяются с помощью примеров. Иногда требуется переформулировка правил из-за наличия в одной формулировке двух компонентов описания знака препинания.
Наибольшую трудность для вычленения правила представляют случаи, когда какие-либо компонента задаются в формулировке имплицитно. Например (§ 151,1): "Запятыми выделяются причастия и прилагательные, имеющие при оебе пояснительные слова и стоящие поело определяемого существительного, кроме таких, которые тесно примыкают по смыслу к глаголу". Здось в одной формулировке совмещены два правила, поскольку в нем имплицитно содержится второе утверждение о знаках препинания (в части правила от слова кроме). В отличие от позитивного утверждения в первой части формулировки ("запятыми выделяются"), второе правило должно иметь негативное утверждение ("запятыми не выделяются ... если они тесно пришкают по смыслу к глаголу").
Компонента описания знака препинания - это его название (точка, запятая и т.д.) и характеристика. К характеристике относится указание, является ли знак препинания а) одиночным или парным (с то,-ки зрения состава) и б) одиночным или повторяющимся (с Функциональной точки зрения). Повторяющимся знаком является, например, запятая при отделении однородных членов. Единичный и парный, одиночный и повторяющийся знаки ставятся при однократном применении правила пунктуации, но занимают в тексте разное количество позиций: одну, две, несколько.
Третий компонент правила - описание места постановки знака препинания. Этот компонент связывает описание контекста знака препинания с предшествующей частью правила. Для единичного или повторяющегося знака препинания описание места (в наиболее общем виде) выражается словами в конце, после, перед, между, внутри. Место парного знака препинания указывается неяйно с помощью глаголов выделяются й заключаются, что означает постановку открывающей части пары перед соответствующей единицей, а закрчваюшей -после .этой единицы.
После описания в общем виде места знака препинания в контексте этот параметр конкретизируется. Описание контекста знака препинания - это описание той текстовой ситуаций (т-ситуации), в про делах которой действует правило. Т-ситуация - сегмент текста (или целый текст), рассматриваемый в определенном ком"уникатив-ном аспекте и требующий пунктуационного оформления. В формулировке правила описание контекста знака дается в вида последовательности признаков т-ситуоции в форме условий. Выполнение всех условий, т.е. выявленио соответствия текста и его описания в правиле.
является основанием для постановки или непостановкк знака прели- ' нания. Выделено начальное условие, которое характеризует т-ситуа-цию в целом, и конкретизирующие условия. Например (§ 145): "Запятая ставится между парными однородными членами предложения, соединенными посредством союзов КАК ТАК И, НЕ СТОЛЬКО СКОЛЬКО, СТОЛЬКО ЕЕ СКОЛЬКО. НЕ ТОЛЬКО НО И. ЕСЛИ НЕ ТО, ХОТЬ НО и т.п.". Здесь пунктуационный знак - запятая; одиночный (разделяет пару однородных членов); утверждение позитивное; место знака обозначено словом между. Начальное условие стоит сразу после описания места и указывает общую характеристику т-ситуации (однородные члены -предложения). Т-сктуацкя с однородностью оформляется по многим правилам (§§ 143-148), поэтому после начального условия следуют уточняющие условия, описывающие именно ту т-ситуацию, для которой сформулировано данное правило: однородных членов два; они соединены союзами; союзы парше; перечисляются конкретные союзы. Знак препинания, при условии наличия в тексте всех перечисленных признаков, ставится меяду двумя однородными.членами (неявно подразумевается, что это место перед второй частью парного союза). Таким образом, признаками контекста, которые используются в качестве условий в правиле, могут быть единицы текста с разным статусом (в рассмотренном примере это синтаксические, морфологические, лексические единицы, семантическая связь). В работе выделено 10 типов признаков т-ситуаций.
К морфолог!1чес1шмт^знакам т-ситуации относятся слова определенных лексико-грамматических классов и подклассов (всего 21 признак). Это различные типы союзов, существительное и его подклассы, глагол и др. К (2) синтаксическим признакам (38 призна-. ков) отнесены: тип предложения, тип синтаксического отноиения, тип синтаксической Конструкции (1<ак в терминах членов предложения, так и в терминах грамматики зависимостей). Позиция (3) единиц текста описывается словами медду, перед, после, в, в начале, в конце, в середине. Знаки препинания (4) могут быть признаками наравне с другими единицами текста (в.этом случае они поставлены по другому правилу). В качестве признака используется слово с определенным значением, синтаксическая конструкция с определенным значением (обстоятельство), имена Собственные - все это относится к лингвистической семантике (5). Признаки длины (6) единиц текста образуют своеобразный градуальный ряд: короткий - распространенный - достаточно развитый -т; значительно, распространен-
ный. В некоторых правилах условием является необходимость мысленного преобразования текстовой ситуации (введение, изъятие, замена, элементов текста), чтобы проверить остальные признаки этой ситуации (7). В качестве лексических признаков (8) используются спи-' ски слов, словосочетаний и фразеологических единиц (таких признаков насчитырается 50). Текстовые составляющие (9) - это единицы текста, а не системы языка. Например, ремарка драматического текста, перечисление, обращение. 64 признака текстовой семантики (10) - это названия отношений между текстовыми составляющими, их характеристики и характе рис тики текста с разных точек зрения. Например, сюда входят такие признаки, как ирония, незаконченность. рассуждение, сравнение, присоединение.
Каждому правилу сопоставлен набор типов условий (т.е. типов признаков т-ситуации) и набор значений этих условий (т.е. набор признаков.ситуации).
Правидйкожет включать от I до 7 типов условий, а наиболее распространены правила с 4 условиями. Количество значений условий колеблется от I до II (тип может повторяться), чаше других встречаются правила с 6 значениями, т.е. текстовые ситуации чаде всего характеризуются 6 признаками. Особый интерес представляют данные о типе начального условия правил. Из Т26 рассмотренных правил 78 имеют начальное условие синтаксического типа, что и влияет на представление о русской пунктуационной системе как основанной на синтаксическом принципе. Однако представленные в реферируемой работе результаты исследования показывают, что в правилах используется, текстовая информация 10 типов.
Обобщением полученных результатов является перечень типов т-ситуаций, отраженных в правилах пунктуации: I) дополнительная смысловая нагрузка слова или словосочетания (при необычном употреблении, устаревших и новых, при невнятном прерывном произнесении); 2) членение текста на предложения: 3) членение предложения на части; 4) вводность единиц; 5) вставка единиц; 6) обращение; 7) выражение эмоций; 8) цитирование; 9) тематическое объединение предложений; 10) перечисление единиц; II) объединение и отделение единиц на основе некоторых отношений: 12) комментарий текста.
На базе полученных в реферируемой работе результатов и данных анализа литературы по проблемам пунктуации и теории текста обосновывается рабочая концепция русской пункту ад ионной системы. Утверждается, что пунктуация - одно из графических средств, ис-
пользуемое для наилучшей передачи замысла автора. Назначение пунктуации - Зохусирование внимания читателя на некоторых элементах текста, обусловленное общетекстовой или локальной коммуникативной установкой. Круг явлений текста, акцентируемых знаками препинания, задан заранее: это определенный перечень текстовых ситуаций. Наличие знака препинания свидетельствует об определенной структурированности или особом смысле некоторой части текота. Тем самым пунктуация в тексте служит специальным искусственным графическим контекстом для выделения единиц текста и установления отношений мекдг ними. Выполняя свои коммуникативные задачи, знаки препинания позиционно отделены от оформляемых ими единиц, но включаются в целый текст наравне с псследниш как текстообразуюшие единицы письменного текста.
В соответствии с принятым текстовым подходом в диссертации уточняется перечень знаков препинания. В него, кроме общепринятых, включены пробел, абзацный отступ, параграф, дефис, знак сноски. уточняется назначение каждого из этих знаков.
Особое внимание уделено знакам, ставшимся в конце предлояе-Ш1я, и соответствующей т-ситуации - представлению текста как последовательности предложений, а также средлоясенгаз как текстовой единице. Предложения и его части.выделяются как и другие единицы, исходя из замысла целого (В.А.Звегккцев, М.М.Бахтин). Предложение может соотноситься с внеязыковой действительностью не самэстоя-тельно. а через целое - текст (далее текстовое предложение называется т-предяоженпеы).
Утверждается, что все знаки препинания"служат единой цели -обозначить различные аспекты композиционно-структурного членения текста (указывают многоаспекгность и иерархичность членения). Отсюда делается вывод о том. что пунктуационная система основала на едином принципе - смысловом, а знаки препинания можно считать тек-стообразуюицмй единицами, поскольку они несут определенную смысловую нагрузку. Такое понимание пунктуации вводит теорию пунктуационной системы в крут проблем теории текста'.
Многоаспектность структурирования текста и, как следствие,, возможность многоаспектной интерпретации смысла ьнаков препинания делает последние шогофункционалыими единицами. На основе этого была выйрана'стратегия автоматизации анализа и редактирования пунктуация: с?лисл каждого знака препинания должен анализироваться отдельно на соответствующих структурных уровнях текста и при разных аспектах его рассмотрения.
Во П главе "Пунктуация в научно-реферативном текоте" рассматривается употребление знаков препинания в рефератах. Характеризуется массив исследуемых текстов: сюда включены собственно рефераты, аннотации и резюме авторов. Тексты рефератов имеют разную длину и структуру.
Описываются полученные количественные характеристики употребления знаков препинания. В частности, определены статистические параметры распределения знаков препинания (табл. I) в минимальных выборках, по 100 словоупотреблений '(общая выборка 100 тыс. словоупотреблений).
Табл. I. Статистические характеристики знаков препинания
Знак лрелинанш X 5 V <2 /О
6.952 1.80 1.0569 1.6
• 6.393 2.88 0.0911 2.8
абз. 1.6Н 0.24 0.0296 3.5
( ) 0.804 1.08 0.0342 8.3
0.495 0.93 0.0294 11.6
И М 0.365 0.86 0.0271 14.6
: 0.355 0,62 0.0195 10.8
} 0.302 0.93 0.0293 19.0
дефис ■ 0.012 0.17 0.0053 85.2
? 0.006 0.10 0.0032 103.0
Сумма з таков 17.295 3.54 0.1119 1.1
Колебания абсолютных частот каждого знака и их суммы подчиняются нормальному'закону.
Другая Группа хараотеристкк определяется с учетом позиции знака препинания. Для этого вьодится понятна пунктуационной позиции (ПП) - такой позиции между двумя ближайнши словоформами в которой поставлен.хотя бы один знак препинания кроме пробела. Пунктуационный пуль (ПН) - позиция только с пробелом. Интерес представляет как характер чередования ПП и ПН, так и зачолня-емость ПЛ.'Между двумя ближайшими ПП мояет быть расстояние'от I до 33 словоупотреблений, в одной ПП встречается от I до 4 знаков кроме пробела (в одну ПП чаго. всего попадают части парных знаков * со знаками топка, запятая, точка с запятой). Для иллюстрации приводится фрагмент таблицы относительной частоты расстмяг'ия могду ПП: '
расстояние отн.ч., расстояние . отн.ч.,
(в словоупотребл.) % (в словоупотребл.) %
1 11.53 7 8.03
2 9.56 8 6.06
3 9.41 9 5.36
4 10.51 10 4.31
5 10.27 . II 3.36
6 9.70 ' 12 2.57
На каждые 100 словоупотреблений текста встречается в среднем 17.854 ПП, т.е. I ПП на 5.6 словоупотреблений.
Предлагается графический способ представления реферата, при котором обозначена все т-ситуации. Каждая т-ситуация изображена отдельной линией. Линии не накладываются одна на другую, чтобы нагляднее было видно композиционно-структурное членение текста, проявляемое пунктуацией. На Рис.1 изображен
(»- I • :: Ь, : , •• • » » ' •
Рис. I
текст реферата, в котором 48 словоупотреблений, I абзац, I т-пред-ложение, II ПП. Приведем текст реферата с перенумерованными словоупотреблениями: ■1 2 3 4 ч
^Определяется трехмерный ассоциативный параллельный процессор , 6 7 8 9 10 II 12 13 14
ШШШ.и приводится программа для него, не содержащая циклов
Я вепиеняй, которая для любой алгоритмически вычислимой
22 23 24 25 26 27 28 29 30
функции : а) вычисляет ее при конечных, но достаточно больших
31 32 33 34 35 36 37 38 39 40 размерах памяти, не зависших и от функции, и от аргумента, 41 42 1 43 44 45 46 ' 47 48 '
б), распознает область ее определения при бесконечной памяти.
По порядку следования сверху вниз обозначены оледуюшие т-ситуа-ции: линия текста как целого (включает все словоупотребления и знаки препинания); текст как последовательность абзацев (включает абзацный отступ); последовательность т-предлокений (не включает абзацный отступ); сочинение частей т-предлокения (не включает знак конца т-предложения); деление сложноподчиненной части т-пред-лоиэния; три обособления (позиции 12, 28, 33); конструкция перечисления с рубрикацией (включает двоеточие); деление конструкции на рубрики; вставка (в скобках); однородные члены (позиция 35); текст как последовательность словоупотреблений (игнорируются все знаки препинания, кроме пробела), Соответствующие знаки препинания включаются в т-ситуацию. Некоторые знаки входят в несколыю т-ситуаций и поэтому являются многофункциональными (после позиции К запятая отделяет обособление, выраженное синтаксическим причастным оборотом, а также отделяет придаточное предложение от главного); запятая после позиции 40 также отграничивает обособление причастного оборота и, кроме того, указывает на границу рубрики;. точка после позиции 48 обозначает конец текста, конец абзаца, конец т-предложения, конец конструкции перечисления и конец рубрики. Количество текстовых ситуаций, которые выявляются в какой-либо позиции текста, показывает кошозиционно-структурную сложность в данной точке текста, ее информационную насышэнность (так, в отрезке текста с 34 до 40 позиций отмечено 10 разных текстовых ситуаций).
Интерпретируются количественные параметры знаков препинания, указывается относительная частота употребления знаков препинания в определенной роли. т.е. поставленных по определенным правилам пунктуации. Точка ставится после заглавия реферата (20,01$), внутри заглавия при отделении его частей (0,82$) - ТЕШЬ Пакет программ для решения тепловых задач (в той зго позиции могут стоять и некоторые другие знаки препинания) . Большая часть точек указывает на конец предшествующего т-предпояения (78,75$). Некоторая часть точек использована после рубрик в конструкции перечисления. Запятая встречается: I) на границах предложений, составляющих сложные предложения (28,1$), 2) в пределах части сложного предложения (39,26%), 3) в конструкциях перечисления (25,48$). Часть запятых (1,75%) поставлены ошибочно. Указанные четыре группы запятых рассматриваются подробнее. I. Части т-предложения с сочинительной связью встречаются реже, чем'с подчини-
тельной (соответственно. 4,04$ и 22,26/5 всех употреблений запятых). Между придаточными, относящимися к одному главное предложению, поставлено 1,81? запятых. Начало придаточного предложения отмечается запятой в 10 раз чаше, чем его конец (из-за поглощения в конце предикативной части). Многофункциональных запятых относительно немного (1,06?). 2. Наиболее распространены запятые, поставленные для выделения обособлений. Причем начало обособления помечается в 5,5 раза чаще, чем конец. Большинство обособлений выражены причастными оборотами (31,27$ всех употреблений запятой). Далее по частоте следуют поясняющие обороты (2,39?), адъективные обороты (2,15$), деепричастные обороты (1,66Я. сравнительные обороты (0,91$), обороты с существительным в косвенных падежах (0,81$), приложения (0,12?). При вводных единицах использовано 4,46? всех запятых; закрывающих частей в 1,55 раз больше, чем открывающих. 3. Перечислительные конструщии являются характерной структурной единицей реферативного текста. Встречаются как традиционно построенные, так и нетрадиционно выделяемые рубрики. В тексте реферата, представленном на Рис Л, для выделения особенно важной части смысла по правилам оформления конструкции с рубрикацией Г попользовано двоеточие и специальные символы обозначения рубрик) в обычном предлоиенаи образована конструкция, где в рубрики выделены две группы однородных сказуемых. 4. Большинство ошибок (лишние запятые) связано с неправильным применением правила постановки запятой при сочинении предложений с детершна^ом. ;
Абзацный отступ по правилам Инструкции для референтов РЕ ВИНИТИ разрешен только перед началом текста реферата. Однако это правило не соблюдается, и только 15,89$ абзацных отступов поставлено по правилу, В текстах абзацы выделяются в случаях характеристики реферируемой работы в разных аспектах, а также при необходимости выделенуя важных частей содержания реферата.
Скобки традиционно выделяют вставные конструкции (53,34$), а также вводимые аббревиатуры (28,03$). перевод (8,04?). библиографические ссылки (3,60?) и др.
Тире в рефератах встречается одиночное, парное и повторяющееся. Между подлежащим и сказуемым зарегистрировано 27.92% всех употреблений тире. Как повторяющийся знак тире используется в многокомпонентных иоменах (22,57?): уравнение Эйнштейна - Планка - Фоккера. В эллптических конструкциях употреблено 12,28?, при приложениях - 10,30/» всех встречающихся тире. Тире ставится
при отделении составляющих заглавия (8,51$): ЗЕТ - очень простой в применении язык. При отделении обособлений встретилось 8,51$ тире. Тире используется такие для обозначения интервалов (количественных и временных) - 3.17$. Ошибочно поставленные тире составляют 7.15$, например: стратегия сверху - вниз.
Среди употреблений кавычек наиболее распространено выделение иоменов (45,88$). а также терминологических единиц (42,65$). например: принцип "первым прибил - первым обслужен". Случаи употребления для выделения слов и словосочетаний в необычном смысле составляют 9,68$ кавычек. Вследствие неупорядоченности офорше-ния терминологических единиц некоторые кавычки ошибочны (лишние) -1,79%.
Двоеточие чаше всего используется в конструкциях с перечислением (82,54$). Между частями т-предлогент поставлены 10.94$ употреблений двоеточия. Большая часть двоеточий (6,52$) разделяет составляющие заглавий (аналогично другим знакам з этой позиции) .
Точка о запятой в основном ставится после частей конструкций с перечислением как повторявшийся знак (77,16$ всех употреблений). Мезду частями слоеного т-предлояения использовано 21,86$, а около 1$ всех употреблений не соответствуют правилам.
Дефис в качестве пунктуационного знака используется очень редко и только в одной роли - в качестве показателя текстового сокращения словоформы в конструкции перечисления, например: двух-п трехмерные массивы. Дефис отавится вместо опущенной части словоформы: программы 50РУМ-3, -4. -5, и -0.
Вопросительные предложения с вопросительным знаком не характерны для реферативного текста. Они переносятся чаше всего из реферируемых работ.
В .работе на конкретных примерах показано, что при создании рефератов широко используются различные приемы сжатия текстовой информации: обособление, вставление, конструкции с перечислением, аббревиация и др., для оформления получаемых текстовых единиц служат знаки препинания. Текст реферата как результат сжатия исходного текста имеет сложную формально-смысловую организации, что. показано графически на Рис Л. В научном тексте реферативного типа выполняется закон 'построения текста, описанный Ю.М.Лотманск.; для художественных текстов: на одном отрезке текста одновременно выражается разная информация.,Из-за различий в целевой уста-
новке художественного и научного текста эта информация неодинакова, но способы ее упорядочения во многом совпадают.
В Ш главе "Алгоритм анализа и редактирования знаков препинания на границах синтаксических оборотов" представлено описание лингвистического алгоритма анализа текста с целью нахождения синтаксических оборотов, отграничиваемых знаками препинания, с последующим кодированием этих знаков препинания.
Показывается, что анализ знаков препинания, т.е. распознавание их роли в тексте, является частью процедуры редактирования, так как в процессе анализа текстовой ситуации выявляются позиции и пропущенных знаков препинания. Анализ и редактирование опираются на общую базу - правила пунктуации, которые в алгоритме переформулируются в виде алгоритмических правил сравнения анализируемого текста с заданной исходной информацией к алгоритму. Это информация о морфологических, лексических, синтаксических и позиционных признаках текстовых ситуаций с синтаксическими оборотами. Все анализируемые алгоритмом обороты относятся к типу обособленных единиц и могут характеризоваться определенными формальными признаками (указанными пыле) вследствие закона построения текста: один и тот'же отрезок текста может быть описан с разных позиций. Это является теоретическим обоснованием правомерности предлагаемого подхода к анализу текста и постепенного, от уровня к уровню, описания смысла знаков препинания. Данным алгоритмом знакам препинания приписывается "синтаксический сшсл".
Алгоритмом.распознаются следующие синтаксические обороты: причастный; деепричастный; адъективный; обороты с разными начальными словами и еловоеочетаниями типа в том число, например и др.; предложный; оборот со словами такой как и такой что; сравнительный и оборот с союзом как.
Все указанные обороты анализируются по обшей схеме. Начало анализа определяется на основании формального признака - слова или словосочетания с заданными грамматическими характеристиками или являющихся определенными лексемами (словоформы с кодом причастия. деепричастия, лексема как, слога и словосочетания из описка и др.). Морфологическая информация приписана всем словоформам текста на предшествующем этапе автоматического морфологического анализа. Поскольку синтаксический анализ проводится последовательно, т.е. устанавливаются синтаксические связи словоформ по мере их появления при последовательном просмотре предло-
яеиия, предавствуюпшв указанным оборотам слова ута могут иметь указание на синтаксическую связь (подчинительную или сочинительную). На предшествующем первом этапе синтаксического анализа выявлены такяаз подлежащее и сказуемое.
Синтаксические обороты могут быть двух разновидностей с точки зрения распространения синтаксических связей: X) замкнутые обороты - одна из словоформ является конечной в цепочке синтаксически связанных слов (связи обрывается): 2) незамкнутые обороти - синтаксическая связь одной из словоформ оборота переходит в другую часть сложного т-предлояения. Данным алгоритмом устанавливаются синтаксические связи в пределах одной части алойного т-предлояения: связи между предложениями внутри слог.®ого проставлены на первом этапе синтаксического анализа.
При появлении в процессе анализа т-продловэния формального признака оборота начинается поиск его границ с целью нахождения знаков препинания на этих границах. В процессе поиска устанавливаются синтаксические связи в пределах оборота, проводится корректировка морфологических, характеристик входящих в оборот словоформ. Начальная граница определяется, в основном, по составу начальной части оборота, а конечная - по наличию определенных классов слов, которые но i.ioiyT входить в оборот: это объясняется тем, что начало оборота имеет более стандартную структуру, чем его конечная часть. В. случае нахождения знаков препинания на границах оборота они получают соответствутяй их позиции код (начало-конец; тип оборота и его номер). Алгоритм распознает одиночные обороты, сочиненные группы оборотов,-вполивные обороты и последовательности оборотов. Работу алгоритма можно проиллюстрировать на следующих примерах35.
(I) Язык ориентирован на описание алгоритмов.^®, имеющих огра-
ПТКТТ7Н ' ■
ниченный обьем вычислений,11" . воспринимавших входные данные
в виде записей специализированных бланков л выдавших данные также в форме заполненных бланков.^^
В'примере /I/ три однородных причастных оборота, располопзн-ных последовательно. В результате синтаксического анализа будут найдены границы всех оборотов. Затем находятся заяятые на этих
34 П - причастный оборот; Н - начало оборота; X,- копен обо-
рота; 1,2,3 - порядковый покер оборота. Например, код П1К.означает: начало riepcoro оборота, он является причастным. Д - деепричастный оборот, У - уточняющий, поясняющий оборот.
- и - .
границах и им приписывается код ТИПА оборота, его номер по порядку и знак начала/конца, код указан над знаком.
(2) Приводится модификация алгоритма разбора,11®, данного в работе (РЕ, 1979 , 2В730), П1К 1121. позволяющая обрабатывать в процес- '
пгк
се разбора наследуемые атрибуты. .
Во (2) также два причастных оборота. Они расположены последовательно, но не являются одноровными, так как относятся к разным словам.
(3) Обобщив гомоморфизм функции на отношения и добавив к с-исчи-слению с типами различные расширения,^5®, в том числе типы,^1-определяемые пользователем,1®^ автор формулирует теорему абстракции. Последний пример достаточно слояен для анализа.
В нем два однородных деепричастных оборота. К слову во втором обороте относится уточняющий оборот со словами в том числе. Причастный оборот имеет хозяина в уточняющем обороте. Все это устанавливается в результате синтаксического анализа. Знаки препинания кодируются на основании этих данных. В случае отсутствия, на-• пример, последней запятой алгоритм синтаксического анализа найдет последнюю словоформу последнего оборота, знак конца оборота не будет найден и правила редактирования поотавят специальную помету в месте отсутствующего знака. Таким образом, правила анализа и редактирования пунктуации естественным образом подключаются к правилам синтаксического анализа. Последующее редактирование рассмотрит также случаи неоднозначности анализа синтаксической структуры, невозможности определения границ оборота, наличия незакоди-рованного знака препинания после полного анализа т-преллощения (данный алгоритм этого не делает).
В Заключении делаются общие выводы по полученным результата!.:. Указывается, что в работе сформирована отличная от прпня-' той сейчас концепция пунктуационной системы на смысловом принципе. Пунктуационная система определяется как одна из текстообразуюших семиотических систем, входящих в графическую систему русских текстов. Пунктуация подчиняется законам организации текста - знаки препинания многофункциональны. Роль знака препинания в конкретном тексте, его полнчй смысл может быть представлен как комплекс его функций в разных текстовых ситуациях.
Научно-реферативный текст описан с точки зрения функционирования в нем пунктуационной системы. Пунктуация используется оп-
тимально о точки зрения восприятия человеком, однако структурная и емченовая сложность рефератов зачастую такова, что требует усиленного внимания при чтении,Из-за необходимости размещения информации в малом объеме текста активно используются разнообразные приемы сжатия текста (на «снова исходного реферируемого текста), что приводит к образованию структурной многоуровневости и много-аспектности: это видно из анализа количества текстовых ситуаций, в которых участвуют элементы текста.
На основе полученных данных о закономерностях структурной организации реферативного текста предложена стратегия ступенчатого, многоуровневого и многоаспектного описания смысла знаков препинания, которая реализована на примере алгоритма анализа и ре-дг "'.тиров ания знаков препинания на границах синтаксических оборотов.
Предполагается углубить разработку текстовой концепции русской пунктуационной системы. Перспективным является начатое в данной работе изучение статуса т-ситуаций, их взаимодействия.
Расширение этапов автоматического анализа научного текста даст
зкакоз. пре.таяания и возможность получить комплексное описание их роли в тексте.
1. Критская З.Й. Распределение пунктуационных знаков // Закономерности структурной организации научно-реферативного текста. - К.: Наукова думка, 1983. - С.225-236.
2. Критская В.И. О возможности формализации пунктуационных правил // Уч. зап. Тартусского ун-та. Квантитативная лингвистика и стилистика. - Вып. 658. - Тарту: ТГУ, 1983. - С. 27-34.
3. Критская В.И. Анализ функционирования знаков препинания // Автоматизация анализа научного текста. - К.: Наукова думка, 1984. - С. 205-217.
4. Критская В.И. Употребление знаков препинания в несинтаксических целях // Лингвистические проблемы автоматизации редяк-ционно-издательстких процессов. - К.: Наукова думка, 1985. -
С. 200-222.
5. Критская В,И. Контроль пунктуации при автоматизированном редактировании // Автоматизированные сястога переработки токсто-
вой инфорлаиии (АСПТИ). Тезисы докладов республиканской научно-технической конференции (2-6 декабря 1985 г., Львов). - Львов: УНИШП. 1985. - С. 212-213.
6. Критская В.И. Анализ пунктуации в системах автоматической обработки текста // Третья Всесоюзная конф. по созданию Машинного фонда русского языка. - Тезисы докладов. - Ч. I. -М.: Ин-т русск. яз.. 1989. - С. 139-170.
ЩаГ