автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Компрессия научного текста: методы и модели

  • Год: 2013
  • Автор научной работы: Дубинина, Екатерина Юрьевна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.21
Диссертация по филологии на тему 'Компрессия научного текста: методы и модели'

Полный текст автореферата диссертации по теме "Компрессия научного текста: методы и модели"

На правах рукописи УДК 81'322.2

ДУБИНИНА Екатерина Юрьевна

КОМПРЕССИЯ НАУЧНОГО ТЕКСТА: МЕТОДЫ И МОДЕЛИ

Специальность 10. 02. 21 - прикладная и математическая лингвистика

Автореферат диссертации на соискание ученой степени кандидата филологических наук

12 ДЕК 2013

Санкт-Петербург 2013

005543737

Работа выполнена на кафедре прикладной лингвистики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Российский государственный педагогический университет им. А. И. Герцена»

Научный руководитель:

Заслуженный деятель науки РФ, доктор филологических наук, профессор, профессор кафедры образовательных технологий в филологии федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Российский государственный педагогический университет им. А. И. Герцена» Беляева Лариса Николаевна

Официальные оппоненты:

доктор филологических наук, профессор, зам. директора по научной работе Института прикладной лингвистики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный политехнический университет» Чернявская Валерия Евгеньевна

кандидат филологических наук, доцент, доцент кафедры математической лингвистики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет» Захаров Виктор Павлович

Ведущая организация:

федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Пермский национальный исследовательский политехнический университет»

Защита состоится « » 2013 г. в 15.30 часов на заседании

диссертационного совета Д 212.199.17, созданного на базе федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Российский государственный педагогический университет им. А. И. Герцена», по адресу: 191186, г. Санкт-Петербург, наб. р. Мойки, д. 48, корп. 14, ауд. 314.

С диссертацией можно ознакомиться в фундаментальной библиотеке Российского государственного педагогического университета им. А. И. Герцена по адресу: 191186, г. Санкт-Петербург, наб. р. Мойки, д. 48, корп. 5.

Автореферат разослан «-¿У» _2013 г.

Ученый секретарь диссертационного совета ^^ /

доктор филологических наук, профессор/^Р]Л. А. Пиотровская

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

В реферируемой диссертации рассматриваются основные вопросы, возникающие при моделировании процесса компрессии научного текста, а также базовые принципы, лежащие в основе операций по выделению его информативных фрагментов.

Актуальность темы исследования обусловлена постоянно растущими потребностями современного информационного общества, основанного на экономике знаний, в совершенствовании систем автоматической переработки текстовой информации, в частности систем компрессии информации, извлекаемой из текстов различной природы и состава; кроме того, возрастание роли английского языка в процессе межкультурной и межнациональной коммуникации, а также рост объемов специальных текстов определяют необходимость создания специализированных систем для компрессии и перевода текстов с английского языка и на него.

По мере совершенствования компьютерных технологий к автоматическим системам компрессии текста предъявляются все более высокие требования, прежде всего - интеллектуальности, т. е. компенсации концептуальных различий между процессами построения текста человеком и компьютерной системой (Т. П. Карпилович). Эти требования, в свою очередь, обусловливают необходимость поиска более совершенных подходов к созданию систем компрессии. В связи с этим исследование соотношения текстов рефератов, созданных человеком - автором статьи - и порожденных компьютерной системой, является актуальным.

При решении задачи компрессии важно установить, как происходит актуализация основных понятий в научном тексте, в частности в тексте научной статьи. В реферируемой работе основными лексическими единицами, являющимися главным средством номинации понятий, служат именные группы.

Если предположить, что именные группы, номинируя основные понятия статьи, несут основную смысловую нагрузку, то и фрагменты текста, в которых они сконцентрированы, являются наиболее значимыми с точки зрения информативности. Такие информационно значимые фрагменты текста, передающие в совокупности его основное содержание, могут быть использованы в процессе создания реферата с помощью компьютерной системы.

Данные о распределении наиболее значимой информации в тексте научной статьи можно получить на основе исследования ее структуры, т. е. таких ее компонентов как заглавие, введение, основная часть, выводы. Соответственно, можно предположить, что изучение композиционной структуры научной статьи и особенностей именных групп в данной структуре позволит сузить сферу поиска необходимой информации в тексте в процессе его компрессии.

Таким образом, изучение распределения именных групп в тексте и установление базовых принципов компрессии находятся в неразрывной связи с одной из самых актуальных задач в области автоматизации свертывания текстовой информации — задачей выделения основного содержания текста.

Степень разработанности проблемы. Работы в области автоматизации свертывания текстовой информации ведутся с 1950-х годов и связаны с именами таких исследователей, как X. Лун, У. Хан, Г. Эдмундсон, П. Баксендейл, Г. Г. Белоногов, В. Е. Берзон, В. П. Захаров, Т. П. Карпилович, Н. Н. Леонтьева, Н. А. Пащенко, Л. В. Сахарный, Э. Ф. Скороходько, Е. А. Шингарева, В. А. Яцко и др. За это время был создан ряд экспериментальных и практических систем, в которых доля участия человека постепенно уменьшается. Сегодня существует два подхода к решению проблемы компрессии текста.

Первый подход предусматривает создание реферата за счет формирования нового текста. Этот подход базируется на семантическом анализе текста на основе информационных языков и предполагает создание и использование базы знаний (U. Hahn). Второй подход предполагает выделение наиболее информативных фрагментов исходного текста (как правило, предложений) и известен как метод извлечения предложений. После установления набора таких фрагментов из них составляется реферат, в котором предложения расположены в порядке их появления в тексте. Второй подход используется в настоящее время чаще, так как он требует меньшего объема предварительных исследований, что связано с применением различных формальных методов отбора наиболее информативных фрагментов исходного текста.

Рефераты, созданные на основе таких методов, по своей информативности далеки от рефератов, составленных людьми. Главная проблема заключается в сложности, а иногда и в невозможности формализации мыслительных процессов, которые сопровождают процесс реферирования в его «интеллектуальном» варианте. Исходя из вышесказанного, можно сделать вывод о том, что, несмотря на длительную историю развития, проблема автоматизации компрессии текста еще не решена.

Теоретической основой исследования являются следующие теории и положения:

1. Согласно теории «сильных» позиций текста, наиболее важная информация размещается автором в тех позициях текста, где она будет замечена читателем: в заглавии, первом и последнем предложении, во вводной и заключительной части текста (И. В. Арнольд, Т. П. Карпилович, О. И. Москальская, Г. Г. Москальчук, А. И. Новиков, В. Endres-Niggemeyer).

2. Именные группы являются главными текстообразующими компонентами и передают основную часть семантической информации, содержащейся в научном тексте (Л. Н. Беляева, Г. Г. Белоногов, Р. Г. Пиотровский).

3. Основное содержание текста определяется соответствующим списком ключевых лексических единиц, которые встречаются в тексте и отражают его тему (В. П. Захаров, Н. Н. Леонтьева, JI. В. Сахарный, Н. Luhn).

4. Научные статьи имеют определенный, свойственный им порядок расположения компонентов текста и, соответственно, стандартный набор языковых средств для перехода от одного компонента к другому (И. Р. Гальперин, О. И. Москальская, 3. Я. Тураева, В. Е. Чернявская).

5. Составляющими процесса компрессии является анализ первичного текста, его последовательное преобразование и синтез вторичного текста (Т. П. Карпилович, В. А. Яцко, В. Endres-Niggemeyer).

6. Общение человека с компьютерной системой может осуществляться при условии, что в память компьютера будет введена определенная модель, которая представляет собой краткое описание естественного языка (В. Е. Берзон, Р. Г. Пиотровский).

Объект исследования - простые именные группы в авторском реферате и заглавии статьи и их актуализация в тексте научной статьи.

Предмет исследования - соотношение компонентов научной статьи: заглавие - авторский реферат - текст.

Цель исследования — разработка базовых принципов выделения информативных фрагментов текста научной статьи и модели компрессии текста научной статьи на основе исследования соотношения ее компонентов: заглавие — авторский реферат - текст.

Поставленная цель достигается последовательным решением задач:

• изучение реферата как особого вида вторичного документа;

• исследование методов реферирования текста и типологии систем

реферирования текста;

• создание специального массива научных текстов и его анализ на основе

количественных методов;

• выявление простых именных групп в авторском реферате и заглавии

научной статьи и исследование их актуализации в тексте статьи;

• установление базовых принципов компрессии текста научной статьи;

• разработка и апробация модели компрессии текста научной статьи.

В соответствии с целью и задачами исследования в работе применяются следующие методы: метод количественного анализа, метод моделирования, метод сопоставительного анализа.

Материалом исследования послужили 100 текстов авторских рефератов и соответствующих им научных статей по судостроению, извлеченные из материалов научной конференции «International Conference Fast Sea Transportation», а также журналов «Marine Technology», «International Journal of Small Craft Technology», «Journal of Marine Science and Technology». В анализируемом массиве представлены тексты, которые относятся к двум группам: тексты, написанные на стандартном английском языке (авторы из

Великобритании, США, Канады и Австралии), и тексты, написанные на «русском» английском языке (авторы из России).

Гипотеза исследования - в тексте научной статьи можно выделить лексические единицы, которые свидетельствуют об уровне информативности отдельных фрагментов текста; в процессе создания реферата компьютерной системой эти лексические единицы могут служить индикаторами для отбора наиболее информативных фрагментов исходного текста.

Научная новизна работы состоит в интегративном исследовании двух самостоятельных, но неразрывно связанных областей переработки текстовой информации: создание реферата человеком - автором статьи, с одной стороны, и компьютерной системой — с другой. Установлено, что основную роль в процессе компрессии играют простые именные группы; наиболее информативными из них являются именные группы, расположенные в заглавии, введении и выводах. Выявлены закономерности распределения основной информации в тексте статьи, что позволяет установить пути оптимального поиска наиболее информативных фрагментов текста в процессе создания реферата.

Новизну результатов лингвистического исследования составляет создание алгоритмической модели реферирования текста. В этой модели отбор наиболее важной информации происходит на основе базовых принципов компрессии, которые были выработаны в результате сопоставительного анализа представительного массива текстов научных статей и авторских рефератов.

На защиту выносятся следующие положения:

1. Сопоставительный анализ текстов заглавий, авторских рефератов и научных статей позволяет выработать базовые принципы компрессии, которые могут быть использованы при разработке модели реферирования.

2. Получение адекватного реферата научной статьи может основываться на анализе таких ее компонентов как заглавие, введение и выводы.

3. В авторских рефератах основная компрессия осуществляется за счет формирования многокомпонентных именных групп (состоящих их четырех и более компонентов), которые в тексте научной статьи представлены в виде одно-, двух- и трехкомпонентных коллокаций. Именно эти малокомпонентные именные группы целесообразно использовать при автоматизации реферирования.

4. Именные группы, выделенные из заглавия и авторского реферата текста научной статьи, отражают основное содержание исходного текста и могут рассматриваться как ключевые лексические единицы.

5. Установление в тексте статьи ключевых лексических единиц позволяет выделить информационно-значимые фрагменты текста, в совокупности представляющие собой изложение основного содержания текста в компрессированной форме.

Теоретическая значимость результатов исследования определяется созданием модели процесса реферирования, учитывающей основы этого процесса, а также закономерности организации научной статьи.

В разработанной модели реферирования учтены все данные, полученные в результате сопоставительного анализа авторских рефератов и научных статей. Проведенное исследование уточняет особенности функционирования именных групп в рефератах и текстах и определяет возможность создания универсальной части лингвистической базы данных для процедуры автоматической компрессии текстов.

Практическая значимость результатов исследования определяется возможностью учета в системах автоматического реферирования стратегий, которыми руководствуется человек при создании реферата; разработкой и апробацией программы автоматического реферирования научного текста, которая при внедрении в промышленные системы будет способствовать ускорению доступа специалистов к необходимой им информации.

Достоверность и научная обоснованность теоретических и практических результатов исследования обеспечивается:

1) формированием исследовательского массива, в состав которого включены тексты, являющиеся однородными по назначению, структуре и проблемной ориентации;

2) анализом массива текстов значительного объема (750 ООО словоупотреблений) с применением метода количественной оценки;

3) созданием лингвистической базы знаний, основную часть которой составляет словарь антипризнаков и словарь типизированных конструкций;

4) программной реализацией разработанной модели реферирования текста.

Рекомендации об использовании результатов диссертациопного исследования. Результаты исследования могут быть использованы для совершенствования систем автоматической переработки текста, при решении задач автоматического реферирования. Основные положения и результаты исследования могут также быть включены в теоретические курсы, практические и семинарские занятия по лингвистике текста, теоретической и практической грамматике английского языка, они могут быть также использованы для обучения построению вторичных текстов.

Апробация работы. Основные положения диссертации были представлены в докладах на международных конференциях «Прикладная лингвистика в науке и образовании» (март 2010, апрель 2012) и «Гуманитарные науки и современность» (июль 2011), а также на заседаниях кафедры прикладной лингвистики РГПУ им. А. И. Герцена. По теме диссертации опубликовано 6 работ общим объемом 1,79 п. л.

Объем и структура диссертации. Диссертация состоит из введения, трех глав, заключения, списка литературы, включающего 150 наименований, в том числе 33 на английском языке, списка условных обозначений, списка иллюстративного материала (5 рисунков и 28 таблиц) и 15 приложений. В приложениях представлены ресурсы лингвистической базы знаний (словари антипризнаков и типизированных конструкций), фрагменты таблиц, отражающих результаты количественного анализа массива текстов, примеры

работы программы. Общий объем работы составляет 276 страниц печатного текста: основное содержание изложено на 180 страницах, 96 страниц занимают приложения.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается выбор темы исследования, отмечается ряд актуальных проблем в области автоматической переработки текста, определяются объект, предмет, цель, задачи, гипотеза, теоретическая основа и методы исследования, раскрыта его научная новизна, сформулированы положения, выносимые на защиту, аргументируется теоретическая и практическая значимость, даны рекомендации по использованию результатов исследования, отражена апробация работы.

В первой главе диссертации «Реферирование как особый вид аналитико-синтетической переработки текста» рассматриваются основные процессы аналитико-синтетической переработки текста с целью создания документов различной формы и степени свернутости, выполняющих определенные функции в системе научной коммуникации.

В условиях постоянного роста объемов текстовой информации особую роль играет аналитико-синтетическая переработка текста, которая сопровождается уменьшением физического объема документа с сохранением его информативности (компрессия текста) (В. Е. Чернявская).

В результате компрессии текста могут быть созданы документы, которые являются по отношению к исходному (первичному) тексту вторичными, например: поисковый образ документа, библиографическое описание, обзор, рецензия, реферат. Среди этих документов реферат занимает особое место, поскольку позволяет осуществлять сжатие (компрессию) документа, передавая его основное содержание наиболее объективно.

В системе научной коммуникации реферат выполняет разнообразные информационно-коммуникативные функции, к основным функциям относятся:

• информативная;

• поисковая;

• справочная;

• сигнальная;

• коммуникативная (В. И. Соловьев).

Одной из наиболее существенных функций реферата является информативная. Ее выполнение становится возможным потому, что реферат прежде всего включает в себя основное содержание первичного документа. Хотя информативная функция присуща всем рефератам, проявляется она по-разному, в зависимости от того, с какой степенью подробности реферат раскрывает содержание первичного документа (Т. П. Карпилович). Для одних рефератов информативная функция является доминирующей: в них включена фактографическая информация, содержащаяся в основном документе; такие рефераты могут при определенных условиях заменить основной документ.

В других рефератах содержится лишь краткая характеристика основного содержания первичного документа; поэтому такие рефераты могут быть использованы преимущественно для того, чтобы принять решение о необходимости обращения к исходному тексту (А. И. Новиков, В. D. Cleveland).

Пользуясь рефератом, потребитель осуществляет поиск информации; тем самым реализуются поисковая функция реферата и, одновременно, его справочная функция, поскольку реферат содержит все справочные характеристики первичного документа, в частности его заглавие, фамилию автора, институциальные сведения об авторе и т.д. Соответственно, реферат можно рассматривать как поисковый образ документа, его информационную модель. Благодаря этой функции реферат может использоваться в автоматических информационно-поисковых системах, заменяя полный текст (Н. Н. Леонтьева).

Сигнальная функция также выполняется рефератом, поскольку он сообщает потребителю информацию о выходе в свет или о наличии первичного документа. Для научно-информационной деятельности важно, чтобы реферат публиковался, упреждая первичный документ (В. И. Соловьев).

Кроме того, реферат выполняет коммуникативную функцию: он является средством обмена научной информацией в интернациональном масштабе и позволяет преодолевать языковые барьеры. Публикация рефератов зарубежных научных документов дает возможность специалисту ознакомиться с основным содержанием первичного текста, независимо от того, на каком языке он был написан. Благодаря рефератам поддерживается возможность нормализации научной терминологии, ее гармонизация и межнациональное распространение. Таким образом, рефераты содействуют еще и сохранению единства науки.

Итак, реферат является многофункциональным вторичным документом, но реализуются его функции в разной степени в зависимости от содержания реферата, а также от того, кто и для каких целей использует реферат, т. е. от потенциальных потребителей информации.

В процессе создания рефератов особую роль играет их классификация, которая учитывает специфику рефератов: их целевое назначение, функции, зависимость от первичного документа и особенности их формы. На основе анализа критериев классификации рефератов были выявлены следующие основания деления:

• по степени информативности:

- индикативные рефераты, позволяющие определить необходимость

обращения к полному тексту,

- информативные рефераты, содержащие все основные положения

реферируемого документа (Т. П. Карпилович, В. D. Cleveland, R. Tucker);

• по ориентации:

- общие рефераты, предназначенные для широкого круга читателей,

- целевые рефераты, предназначенные для читателей определенной категории (К. Sparck Jones, R. Tucker);

• по методу создания:

— интеллектуальные рефераты, т. е. составленные человеком,

— машинные рефераты, т. е. созданные с помощью компьютера (В. В. Богданов, R. Tucker, В. Endres-Niggemeyer);

• по форме представления:

— текстовые рефераты, в которых информация представлена в виде текстов,

— статистические рефераты, в которых информация представлена в виде таблиц, диаграмм, графиков и т.д. (Н. Б. Агранович, К. Zervanou);

• по способу формирования:

— рефераты-экстракты, составленные из наиболее информативных фрагментов первичного текста,

— рефераты, созданные за счет формирования нового текста (С. Д. Тарасов, U. Hahn);

• по количеству реферируемых источников:

— монографические рефераты, составленные на один документ,

— сводные или обзорные рефераты, составленные из нескольких документов по одной теме (Д. И. Блюменау, В. И. Соловьев, К. Sparck Jones);

• по объему или глубине свертывания:

— краткие рефераты, объем которых составляет около 250 слов,

— расширенные рефераты, объем которых не лимитирован и составляет 10- 15% от объема первичного документа (В. И. Соловьев, Н. Borko). Таким образом, на один и тот же текст (документ) можно составить

несколько рефератов, причем в каждом из них может быть выдвинута на первый план определенная часть содержания первичного документа. В связи с развитием методов автоматического реферирования текстов из перечисленных видов рефератов особое место занимают именно рефераты-экстракты, в которых используются наиболее информативные фрагменты, выделенные из первичного текста. Следует, однако, учитывать, что ни один тип автоматического реферирования не может быть рассмотрен без изучения процесса реферирования, осуществляемого человеком, т. е. без интеллектуального реферирования.

К интеллектуальным методам реферирования относится реферирование на основе логико-семантического анализа. Этот метод используется специалистами-референтами, которые анализируют не весь текст, а лишь его наиболее значимые структурные фрагменты и из них выделяют наиболее важную информацию (В. Endres-Niggemeyer). Референт может также определять фрагменты, содержащие важную информацию, по наличию в них определенных аспектных маркеров — слов или словосочетаний, которые позволяют однозначно идентифицировать тот или иной аспект содержания. Таким образом, реферирование на основе логико-семантического анализа

предусматривает выделение из первичного текста ключевых фрагментов, на основе которых затем составляется реферат.

Постоянный рост объемов текстовой информации существенно снижает эффективность ее переработки традиционными (интеллектуальными) методами. В настоящее время все большая потребность возникает в разработке новых методов автоматической переработки тестов.

Проведенный в диссертации анализ показал, что большинство существующих методов автоматического реферирования основано на отборе из текста наиболее информативных фрагментов. Поэтому современные системы автоматического реферирования являются системами экстрагирования. В этих системах используются следующие методы автоматического реферирования: статистические, позиционные, синтаксические, метод фреймового анализа, метод сверхфразового анализа (В. Е. Берзон, П. И. Браславский, В. В. Гончаренко, Н. Н. Леонтьева, Р. Вахепс1а1е, Н. Еётипс^оп, Н. ЬиЬп).

Так, например, статистические методы автоматического реферирования основаны на учете частоты встречаемости слов и/или словосочетаний в тексте. Предполагается, что наиболее значимыми (ключевыми) являются слова с наибольшей частотой встречаемости в тексте. Чем больше таких ключевых слов присутствует в предложении, тем выше степень его информативности, т. е. его «вес» (П. И. Браславский). В лингвистике текста учет частоты встречаемости ключевых слов соотносится с учетом повторов (И. В. Арнольд). Для учета повторов в тексте используется методика количественного анализа, предполагающая построение алфавитного и частотного словников, что позволяет выявить частоту слов в тексте и получить данные об их значимости.

Кроме того, об информативности фрагментов можно судить на основе анализа расположения ЛЕ в тексте. Слова, расположенные в фиксированных фрагментах текста (например в заглавии, введении, выводах), считаются ключевыми, и на учете этих слов основаны позиционные методы автоматического реферирования. Теоретической основой этих методов является теория «сильных» позиций текста, согласно которой наиболее важная информация размещается в фиксированных фрагментах текста: в заглавии, первом и последнем предложении, заключительной части (О. И. Москальская).

Основанием для выделения этих фрагментов в тексте является их существенное влияние на восприятие текста читателем и тот факт, что определенная организация рамочных позиций обеспечивает адекватность толкования текста читателем (И. В. Арнольд). Эти «сильные» позиции являются универсальными для текста любого типа, в том числе и научного. Соответственно, некоторые фрагменты текста могут являться более значимыми с точки зрения передачи основного содержания и из них можно извлечь максимум информации при построении реферата.

В реферируемой работе информативность отдельных фрагментов текста исследуется на материале научных статей. Языковая форма научных статей характеризуется наличием специального набора лексических единиц, которые относятся, как правило, к терминологической лексике. Из этой лексики

наибольшую семантическую нагрузку несут именные группы (ИГ), способные номинировать предметы и процессы в их действительных связях. ИГ и должны составить основу для компрессии текста, т. е. объективного построения рефератов.

ИГ представляет собой структуру, в которой каждый элемент зависит от других. В соответствии с мерой сложности каждого элемента различают простые и сложные ИГ. Простая ИГ состоит из ядра - наиболее значимого слова, которое несет на себе основную смысловую нагрузку, и определяющих элементов в препозиции к нему либо только из ядра (Л. Н. Беляева, А. А. Джиоева, М. Ю. Иванова, С. Г. Татевосов). Сложная ИГ, в свою очередь, представляет собой совокупность простых ИГ, ее характерной чертой является наличие предлога между простыми ИГ. В реферируемой работе наибольший интерес представляет простая ИГ, так как именно ее можно использовать как минимальную единицу, характеризующую информацию текста. Простые ИГ достаточно легко обнаружить и выделить из научных текстов, этот процесс можно автоматизировать. Для выявления фрагментов с наибольшей концентрацией ИГ с целью разработки базовых принципов компрессии текста в работе проведен сопоставительный анализ рефератов и научных статей.

Во второй главе диссертации «Разработка базовых принципов компрессии на основе сопоставительного анализа рефератов и научных статей» описывается процесс и результаты сравнительного анализа массива текстов заглавий, авторских рефератов и соответствующих им научных статей с целью разработки основных принципов компрессии.

Для изучения механизма компрессии был составлен и исследован специальный массив текстов. В этот массив были включены тексты, которые соответствовали следующим требованиям:

• текст должен относиться к определенной, заранее заданной предметной области;

• текст должен быть представлен на английском языке и принадлежать либо англоязычным, либо российским авторам;

• текст должен обладать заранее заданной жесткой структурой.

В результате анализа было создано два массива: первый массив был сформирован из текстов на стандартном английском языке и состоял из 70 научных статей и авторских рефератов к ним, а второй — из текстов, написанных на «русском» английском языке, и состоял из 30 научных статей и авторских рефератов. Все статьи посвящены проблемам проектирования скоростных судов, взяты из сборников научной конференции и из научных журналов, составлены по заранее заданной жесткой схеме. Обязательными в них являются следующие компоненты: заглавие, авторский реферат и сама статья, которая включает в себя введение, основную часть и выводы.

Для того чтобы решить вопрос о том, какие элементы структурной организации текста могут быть положены в основу при разработке принципов компрессии, были рассмотрены особенности структуры научной статьи, такие ее компоненты как введение, основная часть и выводы. Проведенный анализ

показал, что введение и выводы, концентрирующие обобщающие сведения о содержании всего текста, являются наиболее важными в информативном плане компонентами. Они выделены в рассматриваемых статьях в виде отдельных разделов и имеют специальные заголовки Introduction и Conclusion. Анализ этих компонентов статьи показал наличие в них большого количества типизированных конструкций - высокочастотных словосочетаний, являющихся показателями важности конкретных предложений текста, например:

In this paper, a multi-level wave load assessment methodology that accounts for X-craft's design speed and operating environment is discussed.

The paper demonstrates that existing theories can be used to model the wave wake and that model tests at two different ratios are in broad agreement.

The results of this study show that a hydrogen fuelled high-speed container ship is, in principle, technically and economically viable.

Эти конструкции, выдвинутые, как правило, в начальную позицию предложения, с одной стороны, направлены на облегчение восприятия текста читателем, с другой стороны, позволяют автору привлечь внимание читателя к новому знанию, осветить главные достижения исследования. Предложения с типизированными конструкциями передают важную информацию о содержании текста и могут быть использованы при создании реферата. Эти конструкции были установлены и внесены в отдельный список, на основе которого в дальнейшем был сформирован словарь типизированных конструкций. Типизированные конструкции из текстов авторских рефератов, отражающие информацию о теме проведенного исследования, его целях и задачах, о результатах исследования, также были установлены и внесены в отдельный список. В дальнейшем на основе анализа полученных списков был составлен общий словарь типизированных конструкций.

Помимо введения, основной части и выводов, были рассмотрены такие компоненты статьи как заглавие и авторский реферат. Авторский реферат представляет собой сжатое изложение основной фактографической информации, содержащейся в статье. По своей структуре реферат является достаточно стандартизированным образованием, во многом он совпадает с такими компонентами статьи как введение и выводы. Заглавие, которое также является неотъемлемой частью каждой статьи, представляет собой максимальную свертку основного содержания научного текста. Нормой для заглавия является назывное (номинативное) предложение с использованием ИГ, что связано с тем, что в текстах научных статей заглавие выполняет преимущественно информативную функцию.

При решении задачи компрессии необходимо произвести отбор содержащихся в тексте значимых лексических единиц (J1E). В связи с тем, что авторский реферат и заглавие передают основное содержание текста, ИГ, выделенные из этих компонентов статьи, могут служить основой при разработке базовых принципов компрессии.

Отбор значимых ЛЕ осуществляется двумя диаметрально противоположными способами: 1) отбор значимой лексики в соответствии с

определенными критериями, в то время как вся остальная лексика считается незначимой; 2) выделение по заранее установленным параметрам группы неинформативных JIE которые в дальнейшем подлежат удалению. В реферируемой работе выделение информативной лексики (ключевых JIE) предлагается производить методом исключения неинформативной лексики (стоп-слов, выполняющих в предложении служебные функции), которая установлена и введена в словарь антипризнаков. Этот словарь был сформирован на основе анализа вспомогательного массива текстов объемом 750000 словоупотреблений. В состав словаря антипризнаков введена служебная лексика, общая и частично общенаучная лексика (словарь содержит 16000 разных словоформ).

Для выделения ключевых JIE из заглавий и авторских рефератов была разработана специальная процедура, состоящая из трех этапов:

1) составление для каждой статьи списка всех JIE, используемых в заглавии и авторском реферате;

2) сравнение составленного списка со словарем антипризнаков; удаление по результатам сравнения всех JIE, входящих в словарь антинризнаков;

3) выделение из заглавий и авторских рефератов простых ИГ на основе использования формального показателя их границы: артикль, предлог, союз или графический знак (запятая, двоеточие, тире, скобка и т. п.).

Выделенные ИГ считались ключевыми и являлись дальнейшим объектом анализа. Так была решена задача, связанная с выявлением простых ИГ в авторском реферате и заглавии статьи.

Следующей задачей было исследование актуализации ИГ, выделенных из заглавий и текстов авторских рефератов в текстах статей. При этом анализировалось употребление ключевых JIE в каждом предложении из выделенных компонентов текста, подсчитывалась частота встречаемости ключевой ЛЕ для каждого выделенного компонента и для всего текста. Кроме того, подсчитывалась степень распространенности каждой JIE, под которой понимается количество вхождений каждой ЛЕ из текста реферата и/или заглавия в компоненты статьи (введение, основная часть, выводы).

На основании полученных данных для каждой статьи были построены таблицы ключевых ЛЕ (см. пример в табл. 1 на с. 15). Далее была составлена сводная таблица, отражающая количественные характеристики ИГ в массиве текстов с указанием длины каждой именной группы и частоты ее использования в тексте (см. табл. 2 на с. 16). Затем были сформированы сводные словари, в которых были отражены количественные характеристики именных ЛЕ, состоящих из одного, двух и более компонентов.

Анализ полученных таблиц и словарей показал достаточно большое разнообразие входящих в них ЛЕ. В исследовательском массиве содержится 1718 разных ИГ. Из них наибольшую частоту имеют двухкомпонентные ИГ (суммарная частота равна 708), что свидетельствует об универсальности использования подобных ИГ (например, actuator dynamics, bulbous bows, stern wedges).

Таблица 1. Ключевые лексические единицы, выделенные при сопоставлении реферата, заглавия и статьи в массиве текстов англоязычных авторов (фрагмент)

Частота в разделах я л

я Б -а о Б L о я

№ текст: О» н 0) 5 02 «в 5 я м Лексические единицы Заглавие Реферат Введение Основная часп Выводы ЕР § X о. я s 2 >> и at Я я Ё о о. в и я е.

damping 1 3 6 6 16 4

exciter tests 1 1 7 2 11 4

ел fatigue life 1 3 20 3 27 4

finite element analysts 1 1 3 1 6 4

fluid-structure interaction 1 1 1 3 3

о frequencies 1 1 19 1 22 4

а- full-scale measurements 1 4 1 6 3

■а good correlation 1 1 2 2

к О 1? 1—] influence 1 1 3 5 3

investigation 1 1 1 3 3

m <4-1 О large high-speed aluminium catamarans 1 1 2 2

bfi <о .3 о. large high-speed catamarans 1 1 1 3 3

£ modal analysis 1 1 1 1 4 4

mode shapes 1 3 4 2

О g modes 1 3 9 2 15 4

с о predicted and measured frequencies 1 1 1

Ой slam events 1 3 10 1 15 4

сл О > strong influence 1 1 1 3 3

i theoretical fatigue life 1 1 2 2

whipping 1 9 7 3 20 4

whipping behaviour 2 4 3 2 11 4

whipping response 1 5 6 2

Таблица 2. Количественные характеристики именных групп в массиве текстов англоязычных авторов (фрагмент)

№ Длина ИГ Число разных ИГ Частота ИГ в разделах Суммарная частота ИГ

Заглавие, реферат Введение Основная часть Выводы

текст 1 1 8 8 32 43 2 85

2 15 16 30 43 9 98

3 9 9 8 6 2 25

4 3 3 4 3 10

5

6 1 1 1

текст 2 1 10 12 11 25 11 59

2 12 13 2 5 3 23

3 6 7 1 2 3 13

4

5

6 1 1 1

текст 3 1 21 24 23 60 13 120

2 9 9 3 10 22

3 7 8 2 1 11

4 4 4 1 5

5 1 2 2 3 1 8

Затем следуют трехкомпонеитные ИГ (суммарная частота равна 370). Вероятно, их широкое использование объясняется высоким комбинаторным потенциалом и уточнением двухкомпонентных групп (boundary element method, global loads derivation, seakeeping prediction methods). Далее следуют однокомпонентные ИГ (суммарная частота равна 350), среди которых наиболее высокую частоту имеют следующие J1E: vessel, resistance, ship, model, wave. Учитывая, что тексты относятся, в основном, к экспериментальным исследованиям в области судостроения, использование подобной лексики является вполне оправданным.

Кроме того, в массиве выделены четырехкомпонентные и пятикомпонентные ИГ, а зафиксированная максимальная длина именной группы составляет 10 компонентов {Det Norske Veritas (DNV) longitudinal bending moment sagging rule load case). Отметим, что в реферируемой работе многокомпонентными ИГ принято считать именные группы с количеством

элементов 4 и более. Соответственно, одно-, двух- и трехкомпонентные ИГ являются малокомпонентными.

Актуализация ИГ, выделенных из заглавий и авторских рефератов, была изучена на основе такого параметра как степень распространенности. В работе принято, что если JIE используется только в авторском реферате и/или заглавии, то степень ее распространенности равна 1. Если же у JIE степень распространенности равна 2, то это означает, что ЛЕ используется и в самой статье.

В результате анализа таблиц, составленных по исследуемому массиву текстов, было выявлено, что малокомпонентные ИГ имеют степень распространенности 2 и выше, т. е. используются как в текстах заглавий и авторских рефератов, так и в текстах статей. В свою очередь, многокомпонентные ИГ используются в текстах статей редко. Так, например, четырехкомпонентные ИГ встречаются в 27% статей, пятикомпонентные - в 34,3% статей, шести и более- компонентные ИГ в текстах статей практически не встречаются. В анализируемом массиве такие многокомпонентные ИГ разбиваются на малокомпонентные коллокации, например:

container ship transport efficiency —> transport efficiency of container ships; hydrogen fuelled aero-derivative gas turbines —» hydrogen fuelling ofgas turbines; closed-loop system damping ratio —> damping ratio of the closed loop system.

Исходя из этого был сделан вывод о том, что при создании автоматического реферата наиболее целесообразно использовать ИГ, имеющие в составе два или три компонента.

Для проверки гипотезы о том, что в тексте научной статьи можно выделить ЛЕ, которые будут свидетельствовать об уровне информативности отдельных фрагментов текста, было исследовано распределение ЛЕ, выделенных из заглавий и авторских рефератов, в отдельных компонентах каждой статьи. Исходя из теории сильных позиций текста, было сделано предположение о том, что основная часть статьи является менее значимой и ее можно исключить при создании автоматического реферата. Для подтверждения этого предположения такие компоненты научной статьи как заглавие, авторский реферат и основная часть были рассмотрены отдельно. Исследовались те ключевые ЛЕ, которые использовались авторами только в заглавии и/или реферате и основной части, но не вошли ни во введение, ни в выводы.

После составления и анализа таблиц, созданных по исследуемому массиву текстов, было установлено, что большинство авторов используют ключевые ЛЕ из заглавий и рефератов в остальных компонентах статьи. Число текстов, в которых в основной части встретилось большое количество ЛЕ, выделенных из заглавия и авторского реферата и не вошедших в другие компоненты статьи, является незначительным (6,1%). Исходя из этих данных, можно сделать вывод о том, что по сравнению с введением и заключением такой компонент научной статьи как основная часть является менее значимой

при отражении основного содержания текста и ее можно исключить при создании реферата.

Помимо исключения основной части статьи из процесса компрессии необходимо также исключать предложения, которые не являются самостоятельными и начинаются с коннекторов (например: these, that, it, above и т. п.). Подобные предложения выявляются на основе словаря антипризнаков и в дальнейшем не учитываются.

На основе полученных данных в диссертации предложены следующие основные принципы реферирования:

• полное исключение из процесса компрессии такого компонента статьи как основная часть;

• удаление несамостоятельных предложений (в основном это предложения, начинающиеся с коннекторов, а также предложения, содержащие ссылки на рисунки, таблицы и т. п.);

• установление степени информативности предложений по частоте и степени распространенности ключевых ЛЕ;

• определение степени информативности предложений по количественному составу ИГ;

• установление степени информативности предложений по наличию в них типизированных конструкций.

Оценка степени информативности основана на назначении предложениям некоторых числовых значений — весов, выражающих в количественной форме степень их важности для отбора в реферат.

Приведенные выше принципы были положены в основу разработки и реализации модели реферирования.

В третьей главе диссертации «Разработка и апробация алгоритмической модели реферирования научного текста» определяется понятие лингвистической модели компрессии, отмечается ряд проблем в области моделирования процесса компрессии, рассматриваются базовые компоненты модели реферирования, описывается программная реализация разработанной модели, производится оценка качества полученных рефератов.

При изучении процесса компрессии может быть использован метод моделирования, который заключается в том, что непосредственному наблюдению и исследованию подвергается не сам объект, а его аналог, т. е. его модель. Метод моделирования используется при описании лингвистических явлений в исследованиях по прикладной лингвистике. При решении задач, связанных с аналитико-синтетической переработкой текста, могут быть использованы инженерно-лингвистические модели, которые являются аналогами лингвистических объектов и связей между ними (Р. Г. Пиотровский).

Базовые компоненты предложенной модели реферирования включают в себя базу знаний, которая содержит словарь антипризнаков, список типизированных конструкций, а также формулы для подсчета весов предложений. Эта модель реализует возможность участия пользователя на

этапе обучения системы, выбора модели обработки текстов и задания уровня компрессии и организована как набор модулей. Общий алгоритм модели процесса реферирования представлен на рисунке (см. с. 20).

Ниже рассмотрены базовые компоненты предлагаемой модели реферирования.

МОДУЛЬ 1. Обучение системы

Задачей первого модуля является создание и ведение лингвистической базы данных. В результате проведенного анализа массива текстов были составлены словарь антипризнаков и словарь типизированных конструкций, которые и составили основную часть лингвистической базы. Эта часть может уточняться и дополняться пользователем в соответствии с конкретной предметной областью. Кроме того, в системе выполняется такое условие как задание требуемой степени компрессии исходного текста.

МОДУЛЬ 2. Загрузка текста заглавия, введения и заключения.

Задачей второго модуля является формирование текста, предназначенного для дальнейшей компрессии. Если же система работает в автономном режиме, то процедура формирования текстов из массива статей осуществляется автоматически; если система работает в режиме диалога, то загрузка текста заглавия, введения и заключения осуществляется пользователем системы.

МОДУЛЬ 3. Поиск в тексте ключевых ЛЕ и определение суммарной частоты встречаемости ключевых ЛЕ в тексте заглавия, введения и заключения.

В этом модуле реализованы следующие процедуры. На первом этапе каждое предложение массива разбивается на словоформы в соответствии со стандартным подходом (словоформой считается последовательность букв между двумя пробелами). Затем для удаления неинформативных элементов каждое слово сравнивается со словарем антипризнаков, в результате формируются квазипредложения, состоящие из ключевых элементов. Далее производится вычисление суммарной частоты встречаемости каждого ключевого элемента в массиве.

МОДУЛЬ 4. Определение базового веса предложений по соотношению ключевых и неключевых ЛЕ.

В этом модуле на первом этапе определяется количество ключевых и неключевых ЛЕ в каждом предложении введения и заключения. В результате каждому предложению присваивается базовый вес, который на последующих этапах суммируется с дополнительным весом каждого предложения.

МОДУЛЬ 5. Определение дополнительного веса предложений по частоте ключевых слов.

Дополнительный вес предложений определяется на основе следующей процедуры. На первом этапе вычисляется количество ключевых слов в каждом предложении массива. Затем каждому ключевому слову присваивается весовой коэффициент, который приравнен к суммарной частоте встречаемости этого слова в тексте. На заключительном этапе подсчитывается дополнительный вес предложения, который равен сумме весов входящих в него ключевых ЛЕ.

Рисунок. Общий алгоритм работы модели автоматического реферирования

МОДУЛЬ 6. Определение дополнительного веса предложений по ключевым словам, встречающимся в заглавии.

В этом модуле реализованы следующие процедуры. На первом этапе в результате сравнения со словарем антипризнаков составляется список ключевых слов заглавия. Далее осуществляется сравнение каждого слова в предложении со списком слов заглавия. При совпадении слова из предложения со словом из списка слов заглавия вес предложения увеличивается на 1.

МОДУЛЬ 7. Определение дополнительного веса предложений на основе использования типизированных конструкций.

На первом этапе производится установление в тексте типизированных конструкций. Затем осуществляется проверка каждого предложения на наличие в нем типизированных конструкций. При обнаружении в предложении типизированной конструкции вес предложения увеличивается на 1.

МОДУЛЬ 8. Определение дополнительного веса предложений по ключевым словам, встречающимся в заглавии, введении, заключении.

В этом модуле на первом этапе осуществляется составление списка слов, входящих во введение. Затем производится составление списка слов, входящих в заключение. Далее производится поиск в массиве ключевых слов, встречающихся одновременно в заглавии, введении и заключении. При совпадении слова из предложения со списком слов заглавия (см. модуль 6), введения и заключения вес предложения увеличивается на 1.

МОДУЛЬ 9. Определение дополнительного веса предложений по количественному составу ИГ.

В этом модуле осуществляется разбиение каждого предложения массива на ИГ. Затем определяется количество элементов в каждой ИГ. При наличии в предложении ИГ, содержащей два или три компонента, вес предложения увеличивается на 1.

МОДУЛЬ 10. Формирование итогового реферата.

В этом модуле вычисляется суммарный вес каждого предложения. Затем осуществляется упорядочивание предложений по убыванию значений их суммарного веса. На следующем этапе в зависимости от степени компрессии производится отбор определенного числа предложений. Далее осуществляется расположение предложений в порядке их следования в тексте. На заключительном этапе производится вывод составленного реферата на печать или сохранение в памяти компьютерной системы.

Анализ результатов работы программы, разработанной по вышеописанному алгоритму, подтвердил хорошие результаты предложенной модели. Оценка качества работы алгоритма была проведена специалистами-экспертами. Результаты оценки положительны. Тот факт, что для научных статей рефераты могут быть построены на основе введения и выводов, является существенным вкладом в разработку систем автоматического реферирования. Создание рефератов на основе предложенной модели позволит сократить время обработки документов.

ЗАКЛЮЧЕНИЕ

Реферируемое диссертационное исследование принципов выделения наиболее информативных фрагментов текста в целях построения реферата компьютерной системой позволило сделать следующие выводы.

1. На основе изучения различных видов вторичных документов: обзор, рецензия, библиографическое описание, поисковый образ, реферат - была

выявлена особая роль реферата. Реферат является вторичным документом, главное назначение которого - представление актуальной информации в результате ее переработки. В отличие от других вторичных документов, реферат позволяет передавать содержание исходного текста в более экономной форме при максимальном сохранении его информативности. В реферате используются ключевые фрагменты, заимствованные из первичного текста, что делает возможным создание автоматических рефератов.

2. Исследованы основные функции реферата в системе научной коммуникации. Установлено, что наиболее существенной его функцией является информативная, что позволяет специалисту получить новое научное знание в определенной предметной области без обращения к полному тексту.

3. Выявлены критерии классификации рефератов; сделан вывод о том, что реферат можно классифицировать по разным основаниям, получая в результате этого различные типы рефератов, в частности машинные (созданные компьютерной системой) и интеллектуальные (составленные человеком).

4. Изучены методы реферирования, в том числе интеллектуальные и автоматические. Установлено, что ни один тип автоматического реферирования не может быть рассмотрен без исследования интеллектуального реферирования. В результате изучения интеллектуального реферирования сделан вывод о том, что специалисты-референты при создании реферата анализируют не весь документ, а только такие его компоненты как заглавие, заголовки отдельных частей документа, отдельные абзацы, оглавление и т. п., т. е. его внешнюю структуру.

5. Рассмотрены и проанализированы методы и системы автоматического реферирования. Проведенный анализ показал, что большинство современных систем являются системами экстрагирования, так как они основаны на методах реферирования, предусматривающих отбор наиболее информативных фрагментов первичного текста. Кроме того, установлено, что в современных системах автоматического реферирования применяются методы реферирования, которые предусматривают анализ полностью всего текста в целях выделения его наиболее информативных фрагментов; однако при создании реферата целесообразно применять методы реферирования, учитывающие закономерности распределения информации в тексте.

6. Для разработки базовых принципов компрессии создан и проанализирован массив текстов, состоящий из 100 текстов авторских рефератов и научных статей, принадлежащих англоязычным и российским авторам, по предметной области «судостроение». Проведенный сопоставительный анализ авторских рефератов и соответствующих им научных статей показал, что максимум информации для построения реферата можно «извлечь» из сильных позиций научного текста.

7. Традиционно сложившийся подход к составлению рефератов, базирующийся на выявлении основных, наиболее информативных фрагментов содержания первичного документа, получил обоснование в данной работе как метод реферирования, основанный на учете внешней (композиционной)

структуры текста научной статьи. Его достоинство состоит в том, что он позволяет осуществить анализ содержания первичного документа, базируясь на «сильных» позициях текста. На основе изучения внешней структуры научной статьи из текста выделяются наиболее информативные фрагменты с последующим их включением в реферат. При этом из статьи удаляется такой компонент как основная часть, поскольку в ней содержится избыточная информация.

8. Полученные в результате сопоставительного анализа данные использованы при разработке принципов компрессии. В качестве базовых принципов предложены следующие: использование ключевых JIE, выделенных на основе сопоставления заглавия и авторского реферата с текстом статьи; учет «сильных» позиций текста, т. е. заглавия, введения и выводов, с исключением обработки основной части; установление степени информативности предложений по частоте и степени распространенности ключевых JIE, а также по наличию в предложениях типизированных конструкций.

9. Установлено, что в авторских рефератах основная компрессия осуществляется за счет усложнения простых ИГ: в большей части авторских рефератов используются многокомпонентные ИГ. Поскольку в самих научных статьях многокомпонентные ИГ практически не используются, сделан вывод о том, что наиболее перспективным для автоматизации реферирования является использование малокомпонентных ИГ с учетом закономерностей их распределения в тексте.

10. На основе полученных данных разработана модель процесса реферирования, в которой объединены все теоретико-экспериментальные сведения, полученные в ходе исследования.

11. Разработан алгоритм реферирования, позволяющий представить процесс реферирования в виде последовательности этапов, которые в созданной модели реферирования находят отражение в принципиально новых модулях, обеспечивающих отбор наиболее информативных фрагментов текста.

12. Создано новое лингвистическое обеспечение модели реферирования и универсальная база знаний, которая включает в себя словарь антипризнаков объемом 16000 словоформ и словарь типизированных конструкций объемом 105 ЛЕ.

13. На основе разработанного алгоритма создана компьютерная программа формирования автоматического реферата с использованием языка программирования Perl.

14. Анализ полученных результатов свидетельствует о том, что модель автоматического реферирования является высоко эффективной и позволяет оперативно создавать рефераты к научным статьям с учетом выбранного пользователем коэффициента компрессии первичного текста.

В перспективе разработанный алгоритм формирования рефератов может быть использован при создании лингвистических процессоров современных систем автоматической переработки текстовых документов.

Список использованных сокращений:

JIE - лексическая единица;

ИГ - именная группа.

Основные положения диссертации изложены в следующих публикациях

1. Дубинина, Е. Ю. Возможность компрессии научного текста на основе анализа закономерностей распределения ключевых лексических единиц / Е. Ю. Дубинина // European Social Science Journal. — 2011. — №3. — С. 97-102 (0,35 п. л.). — ISSN 2079-5513.

2. Дубинина, Е. Ю. Закономерности распределения информативных фрагментов в научном тексте / Е. Ю. Дубинина // Научная сессия ГУАП, 6-10 апреля 2009 г. : сб. докл. : в 4 ч. Ч. 3. Гуманитарные науки / [С.-Петерб. гос. унт аэрокосмич. приборостроения ; под общ. ред. В. И. Хименко]. — СПб. : [Б. и.], 2009. — С. 21-24 (0,39 п. л.). — ISBN 978-5-8088-0453-1.

3. Дубинина, Е. Ю. Компрессия текста научной статьи: методы и приемы / Е. Ю. Дубинина // V Междунар. науч.-практ. конф. «Прикладная лингвистика в науке и образовании» памяти Р. Г. Пиотровского (1922—2009), 25-26 марта 2010, Санкт-Петербург : материалы / [редкол.: Л.Н.Беляева, О. Н. Камшилова, Е. Ю. Северинова]. — СПб. : Лема, 2010. — С. 119-123 (0,23 п. л.). — ISBN 978-5-98709-219-4.

4. Дубинина, Е. Ю. Ключевые слова: методы их выделения в тексте научной статьи / Е. Ю. Дубинина // Научная сессия ГУАП, 12—16 апреля 2010 г. : сб. докл. : в 3 ч. Ч. 3. Гуманитарные науки / [С.-Петерб. гос. ун-т аэрокосмич. приборостроения ; под общ. ред. В. И. Хименко]. — СПб. : [Б. и.], 2010. — С. 90-92 (0,29 п. л.). ISBN 978-5-8088-0556-9.

5. Дубинина, Е. Ю. Разработка базовых принципов компрессии на основе сопоставительного анализа текстов научных статей и авторских рефератов / Е. Ю. Дубинина // Прикладная лингвистика в науке и образовании : сб. трудов VI Междунар. науч. конф., 5-7 апреля 2012 года / [орг. комитет: Л. Н. Беляева (пред.), А. С. Герд, В. П. Захаров и др.]. — СПб. : Книжный дом, 2012. — С. 92-97 (0,31 п. л.). — ISBN 978-5-94777-273-9.

6. Дубинина, Е. Ю. Моделирование компрессии текста на основе сопоставительного анализа авторских рефератов и научных статей / Е. Ю. Дубинина // Теория, методология и концепция модернизации в экономике, управлении проектами, политологии, педагогике, психологии, праве, природопользовании, медицине, философии, филологии, социологии, математике, технике, физике : сб. науч. ст. по итогам Междунар. науч.-практ. конф., 26-27 сентября 2013 года / пред. оргкомитета Н. В. Войтоловский. — СПб. : КультИнформПресс, 2013. — С. 151-154 (0,22 п. л.). — ISBN 978-58392-0416-4.

Подписано в печать 19.11.2013г. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,4. Тираж 100 экз. Заказ № 3352.

Отпечатано в ООО «Издательство "ЛЕМА"» 199004, Россия, Санкт-Петербург, В.О., Средний пр., д. 24 тел.: 323-30-50, тел./факс: 323-67-74 e-mail: izd_lema@mail.ru http://www.lemaprint.ru

 

Текст диссертации на тему "Компрессия научного текста: методы и модели"

!

^

/

04201456033

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФФЕСНОНАЛЬНОГО ОБРАЗОВАНИЯ «РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ ИМ. А.И. ГЕРЦЕНА»

На правах рукописи УДК 8 ГЗ 2 2.2

ДУБИНИНА Екатерина Юрьевна КОМПРЕССИЯ НАУЧНОГО ТЕКСТА: МЕТОДЫ И МОДЕЛИ

Специальность:

10.02.21 - прикладная и математическая лингвистика

Диссертация

на соискание ученой степени кандидата филологических наук

Научный руководитель доктор филологических наук, профессор Беляева Л.Н.

Санкт-Петербург 2013

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ.................................................................................................................6

ГЛАВА 1 РЕФЕРИРОВАНИЕ КАК ОСОБЫЙ ВИД

АНАЛИТИКО-СИНТЕТИЧЕСКОЙ ПЕРЕРАБОТКИ ТЕКСТА.........................15

1.1 Научный текст как объект реферирования......................................................15

1.1.1 Первичные и вторичные документы.............................................................15

1.1.2 Текст и текстуальность...................................................................................18

1.1.3 Лингвистическая специфика научной статьи...............................................24

1.1.4 Структура научной статьи и возможность ее использования для построения реферата................................................................................................31

1.2 Реферат как вид вторичного документа...........................................................34

1.2.1 Реферат и его функции....................................................................................34

1.2.2. Критерии классификации рефератов............................................................37

1.2.3 Методы интеллектуального реферирования.................................................43

1.3 Методы и системы автоматической компрессии текстов..............................47

1.3.1 Системы автоматического индексирования.................................................48

1.3.2 Типология систем и методов автоматического реферирования.................51

1.3.3 Статистические методы автоматического реферирования.........................56

1.3.4 Позиционные методы автоматического реферирования.............................58

1.3.5 Современные системы автоматического реферирования...........................61

1.4 Учет «сильных» позиций научной статьи в процессе реферирования.........67

Выводы к Главе 1......................................................................................................70

ГЛАВА 2 РАЗРАБОТКА БАЗОВЫХ ПРИНЦИПОВ КОМПРЕССИИ НА ОСНОВЕ СОПОСТАВИТЕЛЬНОГО АНАЛИЗА РЕФЕРАТОВ

И НАУЧНЫХ СТАТЕЙ...........................................................................................72

2.1 Процедура создания и характеристика структуры массива текстов авторских рефератов и научных статей.................................................................72

2.1.1 Процедура создания исследовательского массива текстов.........................72

2.1.2 Характеристика внешней структуры исследовательского массива текстов........................................................................................................................74

2.1.3 Характеристика внутренней структуры исследовательского массива текстов........................................................................................................................81

2.1.4 Характеристика текстов авторских рефератов и заглавий..........................83

2.2 Процедура выделения ключевых лексических единиц из заглавия

и авторского реферата..............................................................................................85

2.2.1 Создание сводного словаря антипризнаков..................................................85

2.2.2 Выделение простых именных групп из заглавия

и авторского реферата..............................................................................................89

2.3 Характеристика именных групп, выделенных из заглавия и авторского реферата.....................................................................................................................92

2.3.1 Анализ именных групп, выделенных из заглавий научных статей...........92

2.3.2 Анализ именных групп, выделенных из рефератов научных статей.........97

2.4 Использование именных групп, выделенных из заглавия и авторского реферата, в тексте статьи.......................................................................................101

2.4.1 Анализ распределения именных групп разной длины в тексте статьи ...101

2.4.2 Анализ распределения именных групп с разной степенью распространенности в тексте статьи.....................................................................108

2.5 Выявление закономерностей распределения именных групп в тексте научной статьи........................................................................................................113

2.5.1 Анализ распределения именных групп по структурным разделам статьи.......................................................................................................................113

2.5.2 Оценка информативности именных групп.................................................118

Выводы к Главе 2....................................................................................................123

ГЛАВА 3 РАЗРАБОТКА И АПРОБАЦИЯ АЛГОРИТМИЧЕСКОЙ МОДЕЛИ

РЕФЕРИРОВАНИЯ НАУЧНОГО ТЕКСТА........................................................125

3.1 Понятие лингвистической модели компрессии и принципы

ее разработки...........................................................................................................125

3.1.1 Лингвистические проблемы моделирования процесса компрессии........125

3.1.2 Базовые компоненты модели процесса реферирования............................130

3.1.3 Пример подсчета веса предложений...........................................................136

3.2 Программная реализация модели и оценка полученных результатов........145

3.2.1 Тестирование системы..................................................................................145

3.2.2 Оценка качества автоматических рефератов..............................................151

Выводы к Главе 3....................................................................................................155

ЗАКЛЮЧЕНИЕ.......................................................................................................156

СПИСОК УСЛОВНЫХ ОБОЗНАЧЕНИЙ...........................................................160

СПИСОК ЛИТЕРАТУРЫ......................................................................................161

СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА.............................................178

ПРИЛОЖЕНИЕ 1. Общая характеристика массива статей англоязычных

авторов.....................................................................................................................181

ПРИЛОЖЕНИЕ 2. Общая характеристика массива статей

российских авторов................................................................................................191

ПРИЛОЖЕНИЕ 3. Частотный словарь служебной лексики.......................

ПРИЛОЖЕНИЕ 4. Алфавитный словарь общей и общенаучной лексики

ПРИЛОЖЕНИЕ 5. Словарь антипризнаков..................................................

ПРИЛОЖЕНИЕ 6. Количественный состав именных групп

в заглавиях статей англоязычных авторов....................................................

ПРИЛОЖЕНИЕ 7. Количественный состав именных групп

в заглавиях статей российских авторов.........................................................

ПРИЛОЖЕНИЕ 8. Количественный состав именных групп в рефератах статей англоязычных авторов...................................................

ПРИЛОЖЕНИЕ 9. Количественный состав именных групп

в рефератах статей российских авторов...............................................................234

ПРИЛОЖЕНИЕ 10. Ключевые лексические единицы, выделенные при сопоставлении реферата, заглавия и статьи

в массиве текстов англоязычных авторов............................................................235

ПРИЛОЖЕНИЕ 11. Ключевые лексические единицы, выделенные при сопоставлении реферата, заглавия и статьи в массиве текстов российских

авторов.....................................................................................................................252

ПРИЛОЖЕНИЕ 12. Количественные характеристики PIT в массиве текстов

российских авторов................................................................................................264

ПРИЛОЖЕНИЕ 13. Примеры сводных словарей малокомпонентных и многокомпонентных именных групп к массиву текстов

англоязычных авторов............................................................................................268

ПРИЛОЖЕНИЕ 14. Словарь типизированных конструкций............................272

ПРИЛОЖЕНИЕ 15. Примеры результатов работы программы автоматического реферирования..........................................................................274

ВВЕДЕНИЕ

Актуальность данного исследования обусловлена постоянно растущими потребностями современного информационного общества, основанного на экономике знаний, в совершенствовании систем автоматической переработки текстовой информации, в частности систем компрессии информации, извлекаемой из текстов различной природы и состава; кроме того, возрастание роли английского языка в процессе межкультурной и межнациональной коммуникации, а также рост объемов специальных текстов определяют необходимость создания специализированных систем для компрессии и перевода текстов с английского языка и на него.

Работы в области автоматизации свертывания текстовой информации ведутся с 1950-х годов и связаны с именами таких исследователей, как X. Лун, У. Хан, Г. Эдмундсон, П. Баксендейл, Г. Г. Белоногов, В. Е. Берзон, В. П. Захаров, Т. П. Карпилович, Н. Н. Леонтьева, Н. А. Пащенко, Л. В. Сахарный, Э. Ф. Скороходько, Е. А. Шингарева, В. А. Яцко и др. За это время был создан ряд экспериментальных и практических систем, в которых доля участия человека постепенно уменьшается. В аналитическом обзоре У. Хана и И. Мани указывается, что сегодня существует два подхода к решению проблемы компрессии текста [131].

Первый подход предусматривает создание реферата за счет формирования нового текста. Этот подход базируется на семантическом анализе текста на основе информационных языков и предполагает создание и использование базы знаний [131, с. 30].

Второй подход предполагает выделение наиболее информативных фрагментов исходного текста (как правило, предложений) и известен как метод извлечения предложений. После установления набора таких фрагментов

из них составляется реферат, в котором предложения расположены в порядке их появления в тексте.

Второй подход, как утверждает С. Орасан, используется в настоящее время чаще, так как он требует меньшего объема предварительных исследований, что связано с применением различных формальных методов отбора наиболее информативных фрагментов исходного текста [138]. Так, например, в рамках этого подхода можно выделить статистические и позиционные методы автоматического реферирования.

В работе П. И. Браславского подчеркивается, что статистические методы предусматривают выделение из текста слов и/или словосочетаний с наибольшей частотой встречаемости, которые считаются ключевыми [23]. Чем больше таких ключевых слов или словосочетаний присутствует в предложении, тем выше степень его информативности.

В свою очередь, позиционные методы основаны на предположении о том, что наиболее информативными, как отмечает И. В. Арнольд, являются слова и/или словосочетания, которые расположены в определенных, фиксированных фрагментах текста (например заглавие, подзаголовки, введение, выводы) [7].

По мере совершенствования компьютерных технологий к автоматическим системам компрессии текста предъявляются все более высокие требования, прежде всего, как считает Т. П. Карпилович, -интеллектуальности, т. е. компенсации концептуальных различий между процессами построения текста человеком и компьютерной системой [55, с. 19]. Эти требования, в свою очередь, обусловливают необходимость поиска более совершенных подходов к созданию систем компрессии. В связи с этим исследование соотношения текстов рефератов, созданных человеком -автором статьи - и порожденных компьютерной системой является актуальным.

При решении задачи компрессии важно установить, как происходит актуализация основных понятий в научном тексте, в частности в тексте научной статьи. В данном исследовании такими основными понятиями, являющимися главным средством передачи семантической информации о некоторой предметной области, служат именные группы. При этом важно учитывать структуру научной статьи, т. е. такие ее компоненты как заглавие, введение, основная часть, выводы, и особенности именных групп в этой структуре.

Если предположить, что именные группы, номинируя основные понятия статьи, несут основную смысловую нагрузку, то и фрагменты текста, в которых встречаются именные группы, являются наиболее значимыми с точки зрения их информативности. Такие информационно значимые фрагменты текста, передающие в совокупности его основное содержание, могут быть использованы в процессе создания реферата с помощью компьютерной системы. На основании вышеизложенного можно сделать вывод о том, что изучение композиционной структуры научной статьи и особенностей именных групп в данной структуре позволит сузить сферу поиска необходимой информации в тексте в процессе его компрессии.

Таким образом, изучение распределения именных групп в тексте и установление базовых принципов компрессии находится в неразрывной связи с одной из самых актуальных задач в области автоматизации свертывания текстовой информации - проблемой выделения основного содержания текста.

Теоретической основой исследования являются следующие теории и положения.

1. Согласно теории «сильных» позиций текста, наиболее важная информация размещается автором в тех позициях текста, где она будет замечена читателем: в заглавии, первом и последнем предложении, во вводной и заключительной части текста (И. В. Арнольд, Т. П. Карпилович, О. И. Москальская, Г. Г. Москальчук, А. И. Новиков, В. Endres-Niggemeyer).

2. Именные группы являются главными текстообразующими компонентами и передают основную часть семантической информации, содержащейся в научном тексте (Л. Н. Беляева, Г. Г. Белоногов, Р. Г. Пиотровский).

3. Основное содержание текста определяется соответствующим списком ключевых лексических единиц, которые встречаются в тексте и отражают его тему (В. П. Захаров, Н. Н. Леонтьева, Л. В. Сахарный, Н. Ъи1т).

4. Научные статьи имеют определенный, свойственный им порядок расположения компонентов текста и, соответственно, стандартный набор языковых средств для перехода от одного компонента к другому (И. Р. Гальперин, О. И. Москальская, 3. Я. Тураева, В. Е. Чернявская).

5. Составляющими процесса компрессии является анализ первичного текста, его последовательное преобразование и синтез вторичного текста (Т. П. Карпилович, В. А. Яцко, В. Endres-Niggemeyer).

6. Общение человека с компьютерной системой может осуществляться при условии, что в память компьютера будет введена определенная модель, которая представляет собой краткое описание естественного языка (В. Е. Берзон, Р. Г. Пиотровский).

Объект исследования - простые именные группы в авторском реферате и заглавии статьи и их актуализация в тексте научной статьи.

Предмет исследования - соотношение компонентов научной статьи: заглавие - авторский реферат — текст.

Цель исследования - разработка базовых принципов выделения информативных фрагментов текста научной статьи и модели компрессии текста научной статьи на основе исследования соотношения ее компонентов: заглавие — авторский реферат — текст.

Поставленная цель достигается последовательным решением задач: • изучение реферата как особого вида вторичного документа;

• исследование методов реферирования текста и типологии систем реферирования текста;

• создание специального массива научных текстов и его анализ на основе количественных методов;

• выявление простых именных групп в авторском реферате и заглавии научной статьи и исследование их актуализации в тексте статьи;

• установление базовых принципов компрессии текста научной статьи;

• разработка и апробация модели компрессии текста научной статьи.

В соответствии с целью и задачами исследования в работе применяются следующие методы: метод количественного анализа, метод моделирования, метод сопоставительного анализа. Методологической базой работы являются принципы и методы прикладной лингвистики.

Материалом исследования послужили 100 текстов авторских рефератов и соответствующих им научных статей по судостроению, извлеченные из материалов научной конференции «International Conference Fast Sea Transportation», а также журналов «Marine Technology», «International Journal of Small Craft Technology», «Journal of Marine Science and Technology». В анализируемом массиве представлены тексты, которые относятся к двум группам: тексты, написанные на стандартном английском языке (авторы из Великобритании, США, Канады и Австралии), тексты, написанные на «русском» английском языке (авторы из России).

Гипотеза исследования — в тексте научной статьи можно выделить лексические единицы, которые свидетельствуют об уровне информативности отдельных фрагментов текста; в процессе создания реферата компьютерной системой эти лексические единицы могут служить индикаторами для отбора наиболее информативных фрагментов исходного текста.

Научная новизна работы состоит в интегративном исследовании двух самостоятельных, но неразрывно связанных областей переработки текстовой информации: создание реферата человеком - автором статьи, с одной стороны,

и компьютерной системой - с другой. Установлено, что основную роль в процессе компрессии играют простые именные группы; наиболее информативными из них являются именные группы, расположенные в заглавии, введении и выводах. Выявлены закономерности распределения основной информации в тексте статьи, что позволяет установить пути оптимального поиска наиболее информативных фрагментов текста в процессе создания реферата.

Новизну результатов лингвистического исследования составляет создание алгоритмической модели реферирования текста. В этой модели отбор наиболее важной информации происходит на основе базовых принципов компрессии, которые были выработаны в результате сопоставительного анализа представительного масс