автореферат диссертации по филологии, специальность ВАК РФ 10.02.01
диссертация на тему:
Корпусные методы в лексикографии: опыт создания модели Словарного корпуса

  • Год: 2013
  • Автор научной работы: Саженин, Игорь Игоревич
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Новосибирск
  • Код cпециальности ВАК: 10.02.01
450 руб.
Диссертация по филологии на тему 'Корпусные методы в лексикографии: опыт создания модели Словарного корпуса'

Полный текст автореферата диссертации по теме "Корпусные методы в лексикографии: опыт создания модели Словарного корпуса"

На праедх рукописи

Саженин Игорь Игоревич

Корпусные методы в лексикографии: опыт создания модели Словарного корпуса

Специальность 10.02.01 —русский язык (филологические науки)

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

1 г ДЕК 2013

005543471

Новосибирск 2013

005543471

Работа выполнена на кафедре современного русского языка федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Новосибирский государственный педагогический университет» Научный руководитель: кандидат филологических наук, доцент,

профессор кафедры современного русского языка ФГБОУ ВПО «Новосибирский государственный педагогический университет» Булыгина Елена Юрьевна Официальные оппоненты: доктор филологических наук, доцент,

профессор кафедры русского языка ФГБОУ ВПО «Российский государственный

педагогический университет им. А. И. Герцена» Ефремов Валерий Анатольевич кандидат филологических наук, доцент, доцент кафедры русского языка ФГБОУ ВПО «Новосибирский государственный технический университет»

Баранчеева Екатерина Игоревна

Ведущая организация: ФГБОУ ВПО «Национальный исследовательский Томский государственный университет»

Защита состоится 27 декабря 2013 года в 16.00 часов на заседании диссертационного совета Д 212.172.03 по защите диссертаций на соискание ученой степени доктора филологических наук в ФГБОУ ВПО «Новосибирский государственный педагогический университет» по адресу: 630126, г.Новосибирск, ул. Вилюйская, 28, www.nspu.ru.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Новосибирский государственный педагогический университет», Россия, 630126, г. Новосибирск, ул. Вилюйская, 28.

Автореферат разослан «34"» ноября 2013 г.

И. о. ученого секретаря диссертационного совета доктор филологических наук,

профессор ¿¿ии*^. Матханова И. П.

Настоящее диссертационное исследование выполнено на стыке лексикографии и корпусной лингвистики и посвящено проблеме создания электронных русскоязычных лексикографических ресурсов на основе корпусных методов.

Актуальность работы обусловлена необходимостью исследования тенденций развития современной практической компьютерной лексикографии не только в области технических решений, но и в области теории создания электронных лексикографических ресурсов на принципах, учитывающих как особенности содержательного словарного материала, так и достижения современной корпусной русистики. Еще в начале восьмидесятых годов прошлого века в нашей стране велись работы в области специализированной компьютерной лексикографии. Однако, по словам В. М. Андрющенко, информатизация русистики как направление оказалось нежизнеспособным (В. М. Андрющенко 1986). Возможно, по этой причине до сих пор для компьютерной лексикографии не сформирован собственный предмет изучения, а лексикографическая теория отстает от компьютерной лексикографической практики.

Технический инструментарий, используемый при разработке электронных лексикографических ресурсов, изначально не ориентирован на обеспечение работы со словарным содержанием, а наиболее перспективные методы, разработанные в области, например, корпусной лингвистики, не столь активно применяются в практике создания электронных лексикографических ресурсов (В. П. Селегей 2005, Я. Перванов 2010). Кроме того, существует множество электронных лексикографических ресурсов, отличающихся друг от друга содержанием, структурой, назначением, техническим инструментарием, которые часто именуются электронными словарями. При этом один такой продукт настолько отличается от другого по ряду критериев, что возникает сомнение в правомерности отнесения таких ресурсов к одной категории.

Основной проблемой при создании электронных лексикографических ресурсов является то, что машина не способна в полной мере работать с текстом на естественном языке для репрезентации пользователю информации, соответствующей возможному спектру его запросов (В. П. Селегей 2005, Я. Перванов 2010). Данная проблема была решена специалистами, разрабатывающими корпусы текстов посредством использования такого инструмента, как разметка.

Помимо анализа речевых произведений, для исследователя является важным также такой вид работы, как дефиниционный анализ. Нередко исследователю приходится обрабатывать большое количество словарной информации в поисках ему необходимой. Каждый словарь в силу своей специфики содержит различные типы информации. Несмотря на обилие электронных лексикографических источников в Сети, не существует ресурса, отвечающего следующим требованиям: объемность содержательного материала, «филологически компетентная» поисковая система, позволяющая извлекать разные типы лингвистической информации из всего объема содержательного материала словаря.

Объектом исследования является лингвистический словарь как инструмент филологических исследований.

Предметом исследования является комплекс информации, содержащейся в русских лексикографических источниках, на основании которой возможно разработать интерактивный ресурс, снабженный специализированной поисковой системой, способной предоставлять пользователю информацию максимально соответствующую возможным его запросам.

Цель работы - разработка принципов и технологии создания корпуса, массивом данных которого являются лексикографические ресурсы, а также разработка модели такого корпуса. Названная цель связана с выполнением следующих задач:

1. Проанализировать определения понятия электронный словарь, автоматизированный словарь, автоматический словарь и выявить признаки, приписываемые в научной литературе названным объектам.

2. Сопоставить существующие в электронном виде лексикографические источники с целью выявления присущих им признаков, особенностей их устройства и подходов к их созданию.

3. Выработать критерии описания существующих в электронной форме лексикографических источников

4. Выявить проблемы, существующие в области создания и использования электронных лексикографических ресурсов.

5. На основе анализа русскоязычных лексикографических источников, используемых в филологических исследованиях:

а) определить объем и содержание массива данных, то есть выявить, какие именно словари и в каком количестве должны быть использованы, чтобы ресурс мог отвечать условиям репрезентативности и «компетентности»;

б) разработать параметры ориентированной на потребности исследовательского процесса специализированной поисковой системы;

в) выявить особенности информации, содержащейся в словаре, которые позволят описать механизм анализа словарных статей для разработки параметров поисковой системы;

г) сформировать структуру базы данных заявленного ресурса.

Научная новизна определяется тем, что в процессе исследования нами были выделены критерии, позволяющие интегрально описать существующие на данный момент электронные лексикографические ресурсы, предпринята попытка систематизации подходов к определению понятий электронный словарь, автоматический словарь, автоматизированный словарь. Впервые были применены корпусные методы к формированию лексикографических баз данных с учетом особенностей содержания русскоязычных словарей разных типов, информационных

потребностей исследователя-лингвиста и круга проблем современной отечественной лексикографии.

Теоретическая значимость заключается в том, что полученные результаты вносят вклад в разработку ряда теоретических проблем современной лингвистики и компьютерной лексикографии. Во-первых, разработаны теоретические принципы построения корпуса, массивом данных которого являются словари, во-вторых, разработана авторская типология электронных лексикографических ресурсов, которая расширяет понятийный аппарат компьютерной лексикографии и создает базу для дальнейшей разработки проблемных вопросов терминологии в данной области.

Практическая значимость заключается в том, что разработанная технология позволяет начать работу по созданию предлагаемого нами ресурса, что выражается практически в создании модели такого ресурса. Использование в дальнейшем выработанных принципов и алгоритма действий будет способствовать созданию полноценного информационного, «филологически компетентного» инструмента лингвистических исследований.

Материалом исследования послужили наиболее распространенные электронные лексикографические ресурсы: проект «Русские словари»; ABBYY Lingvo; DICT; Cambridge Online Dictionary; Shorter Oxford English Dictionary; Random House; Webster's Dictiomary; Dizionario della lingua italiana Zingarelli, Образовательный портал Грамота. Py; Большой словарь русского языка - коллекция электронных словарей, выпущенная компанией «Target-Multimedia» и др., а также языковые корпусы (ХАНКО; Национальный корпус русского языка; Брауновский корпус и др.) и традиционные (печатные) лингвистические словари (Ахманова О. С. Словарь омонимов русского языка. - М., 1976; Львов М. Р. Словарь антонимов русского языка. - M., 1985; Словарь синонимов русского языка. - Л., 1970 - 1971, Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка. - M., 1997; Словарь русского языка: в 4-х Т. / Гл. ред. А.П. Евгеньева. - М., 1981 - 1984; Словарь русских народных говоров / гл. ред. Ф. П. Филин; ред. Ф. П. Сороколетов; Ин-т русского языка, Словарный сектор АН СССР. - Ленинград, 1965. - Вып. 1; Фасмер М. Этимологический словарь русского языка. М., 1986-1987; Крысий Л. П. Толковый словарь иноязычных слов. - М., 2000 и др.).

Основными методами исследования являются метод анализа словарных дефиниций, метод лингвистического описания, контекстуальный анализ, аннотирование, метод компонентного анализа, метод моделирования.

Апробация результатов исследования

Материалы и результаты исследования обсуждались на заседаниях кафедры современного русского языка ФГБОУ ВПО «Новосибирский государственный педагогический университет», на Всероссийской конференции молодых учёных «Проблемы интерпретации в лингвистике и литературоведении». Секция «Языковая система. Словарь. Языковая компетенция», Новосибирск, 2011 год; Международной

конференции «Информатизация образования», секция: «Электронные образовательные ресурсы в системном процессе информатизации», Елец, 2011 г.; Международной научно-практической конференции «Педагогика, лингвистика и информационные технологии», Елец, 2012 г., Международной научно-практической конференции «XIV филологические чтения: Активные процессы в языке: языковая личность - словарь - текст», Новосибирск, 2013 г.

Проблематика диссертации отражена в статьях, в том числе опубликованных в рецензируемых журналах, рекомендованных ВАК. Всего по теме диссертации опубликовано 6 работ.

На защиту выносятся следующие положения:

1. Определения понятий электронный словарь, автоматизированный словарь, автоматический словарь не характеризуют определяемые объекты в полном объеме, поскольку спектр продуктов компьютерной лексикографии настолько широк и разнообразен, что существующие попытки ограничить область определения данных понятий рамками одной дефиниции не представляется нам возможным. Необходим системный подход в описании электронных лексикографических ресурсов, поскольку большинство из них позиционируются как электронные словари, но в действительности по ряду признаков являются копиями или версиями традиционных словарей, а не собственно электронными словарями.

2. Инструментарий, позволяющий вести работу со словарным содержанием, не ориентирован на работу с собственно словарной информацией, что, с одной стороны, резко ограничивает спектр возможного взаимодействия пользователя со словарным содержанием, а с другой стороны, лишает компьютерную лексикографию собственного предмета изучения. Существующие решения в области компьютерной лексикографии, несмотря на свое разнообразие, не меняют принципов работы пользователя со словарным содержанием, и единицей поискового анализа по-прежнему остается заголовок словарной статьи, или слово как элемент текста словарной статьи.

3. Применение корпусных методов при формировании электронных словарных баз данных, разметка словарных статей с учетом возможных запросов пользователя, а также с учетом типов информации, содержащейся в словаре, позволяет расширить возможности работы пользователя со словарным содержанием.

4. Особенность включаемого в массив данных содержания накладывает определенные отпечатки на процесс аннотирования: разметке будут подвергаться не языковые единицы, как в случае с текстами языковых корпусов, а иные содержательные элементы (словарные статьи и заголовки словарных статей). Признаками, которые ложатся в основу параметров поисковой системы, обладают, как описываемые в словарных статьях лексические единицы и их значения, так и сами словарные статьи. Этот факт определят принципы

аннотирования элементов массива данных и саму структуру базы данных такого корпуса.

5. Каждому лексикографическому источнику может быть присущ собственный набор параметров поисковой системы, отражающий его уникальные особенности.

6. Процесс анализа словарных статей как один из этапов создания словарного корпуса базируется на следующих положениях: словарь является инструментом исследования; словарь является объектом изучения; словарь является инструментом обучения; словарная информация как особый тип информации имеет специфические характеристики, обозначенные нами, как способ представления (словарная информация может быть эксплицирована в тексте словарной статьи посредством некоторого набора печатных символов; словарная информация может быть представлена имплицитно в тексте словарной статьи, но может быть выявлена посредством анализа; элемент словарной статьи может обладать характеристикой, не эксплицированной в тексте и не выявляемой в процессе анализа словарной статьи) и объект описания (словарь представляет информацию: о слове (формальные признаки), о значении слова (семантические, стилистические характеристики и др.), о словарной статье и ее элементах.

Структура работы

Диссертация состоит из введения, трех глав, заключения и библиографического списка.

Основное содержание работы

Во введении даётся обоснование актуальности темы диссертации, определяются объект, предмет, цель и задачи исследования, содержится характеристика материала и методов его анализа, раскрывается научная новизна, теоретическая и практическая значимость работы, формулируются положения, выносимые на защиту.

В первой главе «Электронные словари: проблема определения понятия и характеристика существующих продуктов» рассматриваются вопросы терминологического характера, соотношения понятий электронный словарь, автоматический словарь, автоматизированный словарь. Проводится обзор существующих в электронном виде лексикографических источников с целью выявления особенностей их устройства и организации, подходов к их созданию и принципов работы с ними.

В первом параграфе «Электронный словарь, автоматический словарь, автоматизированный словарь: соотношение понятий» проводится анализ научной литературы, в которой поднимаются вопросы, касающиеся проблемы определения понятия электронный словарь. Анализ литературы выявил несколько особенностей восприятия и функционирования в современной научной среде терминов автоматический словарь, автоматизированный словарь, электронный словарь. Нами

были выявлены следующие особенности: в научном дискурсе данные термины либо определяются без учета специфики описываемого объекта, актуализируя лишь внешние вероятные признаки (В. М. Андрющенко 1986, Л. Н. Беляева 2010, Е. Ю. Чепик 2006, С. Л. Карпшовська 2006 и др.), либо подвергаются переосмыслению попытки упрощенного толкования. Таюке ставится вопрос об изменении подходов к созданию электронных лексикографических ресурсов (В. П. Селегей 2005, Я. Перванов 2010).

Электронные лексикографические объекты с одинаковыми или близкими свойствами именуются по-разному разными исследователями (электронный словарь, автоматический словарь, автоматизированный словарь). Приводимые авторами определения позволили выявить ряд признаков, приписываемых изучаемому объекту.

С точки зрения содержания электронные ресурсы делятся на две категории: те, что используют материалы уже существующих словарей, и те, что создаются с новым содержанием (Е. Ю. Чепик 2006).

С точки зрения адресованности таюке можно выделить две категории: ресурсы, адресованные человеку, как конечному пользователю, а таюке ресурсы, адресованные машине (Е. Ю. Чепик 2006, Л. Н. Беляева 2010).

Словари в электронной форме, адресованные человеку, отличаются от бумажных словарей наличием в них технического инструмента, позволяющего предоставлять пользователю словарное содержание, релевантное его запросу: морфологический и синтаксический анализ, полнотекстовый поиск, гипертекст, распознавание и синтез звука (В. М. Андрющенко 1986, В. П. Селегей 2005). А также позволяющего предоставлять данное содержание разными способами: аудио, графические средства, последовательность предоставляемого содержания (В. П. Селегей 2005, Е. Ю. Чепик 2006, Л. Н. Беляева 2010 и др.).

Такой критерий, как форма существования (электронная \'5 бумажная) является достаточным для ряда исследователей для отнесения словаря в категорию электронных (автоматических, автоматизированных) (Е. Ю. Чепик 2006, С. Л. Карпшовська 2006, Л. Н. Беляева 2010), для других данный критерий не является определяющим (В. П. Селегей 2005, Я. Перванов 2010).

Наличие определенного технического инструментария является достаточным основанием для отнесения объекта к категории электронных словарей, при этом их содержательные и структурные особенности не считаются принципиальными для этой цели (Е. Ю. Чепик 2006, С. Л. Карпшовська 2006, Л. Н. Беляева 2010 и др.).

Ряд исследователей предпринимают попытку переосмыслить существующие подходы к созданию электронных лексикографических ресурсов, поскольку данные подходы лишают компьютерную лексикографию собственного предмета изучения и не позволяют решать отдельные проблемы, свойственные лексикографической теории (Н. Ю. Шведова 1988), вследствие чего необходимым условием развития направления является именно изменение подхода к формированию содержания и

структуры, отмена воспроизводства словарного и структурного содержания (В. П. Селегей 2005, Я. Перванов 2010).

Информация, полученная в результате обзора литературы по вопросу терминологии в области компьютерной лексикографии, не является достаточной для принятия конкретных решений, касающихся отнесения к какой-либо категории (электронные словари, автоматические словари, оболочки, библиотеки) лексикографических объектов в электронной форме. Поскольку полученная информация является, во-первых, во многом противоречивой, во-вторых, проецируя полученные теоретические описания на реально существующие лексикографические продукты, мы пришли к выводу, что спектр таких продуктов настолько широк и разнообразен, что существующие определения не достаточны для исчерпывающей характеристики ряда лексикографических продуктов.

Во втором параграфе «Электронный учебник ув традиционный учебник: механизмы определения» мы предприняли попытку проанализировать подходы к определению понятий электронный учебник, и рассмотреть в параллели соотношение понятий электронный словарь Ув традиционный словарь и электронный учебник Ув традиционный учебник. Причина, по которой мы приняли решение рассмотреть вопрос о соотношении понятий электронный учебник и традиционный учебник в параллели с понятиями электронный словарь и традиционный словарь заключается в следующем: оба продукта (словарь и учебник) в своем инвариантном значении имеют ряд сходных характеристик. И тот и другой продукт являются хранилищем некоторой информации, которая имеет определенного адресата и функциональное назначение. Предполагается некоторое взаимодействие адресата с содержащейся в данных продуктах информацией. Информация при этом в обязательном порядке структурирована таким образом, чтобы ресурс отвечал своему предназначению, и работа с ним была бы максимально эффективной. С переходом на машинные носители данные продукты обрели свойства, которых ранее не имели. По этой причине встал вопрос о том, какими признаками должен обладать электронный ресурс, дабы качественно отличаться от традиционного, печатного, а также вопрос терминологического характера: что именовать собственно электронным учебником (словарем), что именовать электронной версией учебника (словаря) или еще каким-либо образом. Анализ литературы позволил прийти к выводу, что в отношении средств учебного назначения в современной педагогической науке большинство вопросов имеют варианты решения.

Попытку обозначить качественно новые признаки, отличающие электронный учебник от традиционного, мы находим в определениях А. А. Андреева (Андреев 2006) и О. С. Сысоевой (Сысоева 2005). Оба автора сходятся в том, что электронный учебник способен сопровождать все этапы учебного процесса для самостоятельного обучения, в отличие от традиционного учебника, в котором отсутствуют функции контроля и независимой от педагога выработки умений.

Возможным это стало только благодаря использованию определенных технических инструментов.

С позиции наличия таких инструментов, их разнообразия и функциональности электронный учебник предлагает описывать А. В. Осин в статье «Электронные образовательные ресурсы нового поколения: открытые образовательные модульные мультимедиа системы». Как и любой учебный материал, электронный образовательный ресурс (ЭОР) должен оцениваться совокупностью качеств. Автор выделяет такие критерии оценки как традиционные и инновационные. К традиционным автор относит: соответствие программе обучения (школьной, вузовской и др.), научную обоснованность представляемого материала, соответствие единой методике, соблюдение последовательности представления материалов и т. д., отсутствие фактографических ошибок, аморальных, неэтичных компонентов и т. п. К инновационным критериям, по мнению автора, относятся: обеспечение всех компонентов образовательного процесса, интерактив, который является основным техническим инструментом, характеризующим электронный образовательный ресурс. Автор предлагает оценивать качество ресурса по степени его интерактивности. Интересной, на наш взгляд, является попытка автора представить структуру электронного ресурса как двойственную: с технической точки зрения ЭОР - это совокупность программ и данных, с точки зрения потребителя - это контент. Разнообразие возможных манипуляций пользователя с элементами контента характеризуется формами взаимодействия. Осин выделяет четыре подобных формы: условно-пассивные формы, активные формы, деятельностные формы, исследовательские формы. (А. В. Осин 2007).

Традиционный, печатный учебник, репрезентированный в электронной форме, как отмечает Л. Л. Босова, не может рассматриваться в качестве электронного учебника: содержание электронного учебника не может быть сведено к печатному аналогу без потери дидактических свойств (Л. Л. Босова 2012). Иными словами, электронный документ, например, в текстовом или графическом формате (doc, rtf, pdf) - не является в строгом понимании электронным учебником. А представляет собой версию печатного издания. Эта мысль по сходным причинам напрямую перекликается с идеей Я. Перванова о необоснованности именования ряда электронных лексикографических ресурсов электронными словарями (Я. Перванов 2010).

Беря за основу подход, сформулированный А. В. Осиным, мы, в свою очередь, сформулировали ряд характеристик, описывающих электронные лексикографические ресурсы.

С позиции соответствия традиционным требованиям к содержанию электронного лексикографического ресурса мы можем охарактеризовать предмет нашего изучения следующим образом.

1. Содержание электронного ресурса должно соответствовать содержанию источника в случае, если за основу был взят какой-либо печатный продукт, или формирование содержания такого ресурса «с нуля» должно проходить при непосредственном участии специалистов в области лексикографии и лингвистики.

2. Структура и содержательное наполнение словарных статей должны полностью соответствовать структуре и содержательному наполнению словарных статей источника или должны формироваться таким образом, чтобы максимально полно, понятно, четко и корректно описывать языковую единицу.

С позиции соответствия инновационным требованиям электронный лексикографический ресурс имеет следующие характеристики.

1. Больший объем лексикографических данных.

2. Интегральное описание лексической единицы за счет включения в описание звука, изображений, средств визуализации, данных из большего числа словарей и возможностей перехода по гиперссылкам.

3. Возможность манипуляции с элементами содержания: возможность коррекции содержания, возможность формирования собственного содержания пользователем.

4. Создание системы сложных запросов за счет использования таких инструментов, как полнотекстовый поиск, морфологический анализ, разметка.

От разнообразия интерактивного функционала, от его свойств зависит как качество самого ресурса, так и его тип.

В третьем параграфе «Критерии описания электронных лексикографических ресурсов» мы предприняли попытку анализа функционирования в текстах словосочетния электронный словарь с целью выявления характерных для номинируемого объекта признаков. В качестве источников мы использовали материалы Национального корпуса русского языка, а также контексты, которые выдают поисковые системы Google и Яндекс на запрос электронный словарь. Анализ полученных результатов позводлил выявить два типа контекстов: определения понятия электронный словарь и описание продуктов позиционируемых как электронные словари. Анализ дефиниции электронный словарь в свободной электронной энциклопедии «Википедия» и продуктов, перечисленных в качестве илюстративного материала, позволил нам выделить критерии описания электронных лексикографических источников. Такими критериями стали:

1. Морфологический - описывает ресурс с точки зрения его формы существования и назначения, которое прямым образом определяется именно его формой существования. При этом использованный нами термин «морфологический» не имеет отношения к такому инструменту, как «морфологический анализ», речь идет сугубо о форме существования лексикографического объекта.

2. Содержательный - описывает ресурс с точки зрения особенностей

включенного в него содержания.

3. Технический - описывает ресурс с точки зрения технического

инструментария, которым он располагает.

По каждому критерию был установлен ряд признаков, присущих тому или иному словарю. Для морфологического критерия такими признаками стали: сетевой -

несетевой; словарь - оболочка.

Сетевой ресурс для доступа к нему требует подключения к Интернету, несетевой - не требует этого, все необходимое программное обеспечение устанавливается на локальную машину. Под оболочкой подразумевается специализированное программное обеспечение, позволяющее создавать словарные базы данных и проводить в дальнейшем операции с этими данными, то есть с

помощью оболочки можно создать словарь.

Для содержательного критерия ключевыми признаками являются:

интегрирующий; проприетарный.

При этом под интегрирующим мы подразумеваем такой ресурс, который пользуется не собственной базой данных или же не только собственной, а посредством особых алгоритмов способен проводить поиск по базам данных других лексикографических источников, находящихся в Сети, а проприетарный ресурс, соответственно, использует строго свою словарную базу данных. Под «своей» подразумевается база данных, располагающаяся на сервере разработчика продукта. При этом источником для ресурса может быть печатный аналог.

Для технического критерия ключевыми признаками являются: пословный поиск - возможность найти информацию по заголовку словарной статьи; морфологический анализ - возможность поиска словарных статей не по лемме, а по словоформе; полнотекстовый поиск - возможность поиска информации по текстам словарных статей; алфавитный поиск - возможность поиска информации по алфавиту; фразовый поиск - возможность поиска при введении в поисковую строку фраз словосочетаний как являющихся отдельными словарными входами, так и элементами словарных статей, например - иллюстративным материалом; прослушивание произношения; сканирование выделенного - вывод словарной статьи при наведении курсора на нужное слово или при выделении курсором нужного фрагмента; возможность самостоятельного пополнения словарной базы; возможность

формировать сложные запросы.

Четвертый параграф «Обзор электронных лексикографических ресурсов»

посвящен исследованию обзорно-аналитического характера, целью которого являлось выявление подходов к созданию электронных лексикографических ресурсов, а также характеристика особенностей их устройства. Кроме того, мы попытались выявить сходства и различия, существующие между традиционными «бумажными» словарями и их цифровыми воплощениями или же аналогами, а также обозначить признаки,

присущие словарям в электронном формате, признаки, отличающие один продукт от другого. Помимо этого, целью такого обзора являлось установление тех решений, которые развитие информационных технологий позволило реализовать в области компьютерной лексикографии. В обзор электронных лексикографических ресурсов мы включали одноязычные словари русского языка, словари английского и итальянского языков. Всего нами было проанализировано двадцать электронных лексикографических ресурсов.

В результате исследования были сделаны следующие выводы. В соответствии е морфологическим критерием мы отметили такую особенность: количество сетевых лексикографических ресурсов гораздо больше, чем не сетевых. Кроме того, на запрос «электронный словарь» поисковые системы не предложили такую категорию продукта, как оболочки. Все предложенные ресурсы позиционируются как собственно словари.

В соответствии с содержательным критерием отмечаем еще некоторые

особенности:

1. Ряд продуктов включает в себя материалы двух и более словарей-источников.

2. Источниками электронных лексикографических ресурсов в основном являются печатные аналоги.

3. Архитектура всех двадцати продуктов такова, что предполагает работу с

собственными базами данных.

В соответствии с техническим критерием мы можем наблюдать следующую картину:

1. В девятнадцати из двадцати проанализированных ресурсов возможен поиск по заголовку словарной статьи - то есть, как и в случае с печатным аналогом, пользователь ищет информацию о конкретной лексической единице.

2. Алфавитной структурой обладают лишь тринадцать ресурсов.

3. Таким мощным инструментом, как морфологический анализ обладают девять ресурсов. Из них пять - сетевые и четыре - не сетевые. Из них только два включают словари русского языка. Остальные семь - словари английского и

итальянского языков.

4. Возможностью создавать сложные запросы, ограничивая тем самым круг необходимой пользователю информации, обладают лишь два ресурса: «Shorter Oxford English Dictionary» и Интернет-проект «Русские словари». В остальных случаях возможность отбора словарной информации сводится так или иначе к поиску словарной статьи по конкретной лексической единице.

5. Полнотекстовым поиском снабжены лишь четыре ресурса.

6. Словарные статьи снабжены аудио-файлами в четырех ресурсах, три из которых не являются сетевыми.

7. С технической точки зрения наибольшим инструментальным потенциалом обладают «Русские словари», словари итальянского языка Dizionario della lingua italiana Zingarelli; Dizionario etimologico; II Sabatini-Coletti. Dizionario della Lingua Italiana и словари английского языка Shorter Oxford English Dictionary; Concise Oxford English Dictionary; Cambridge Online Dictionary.

Основываясь на приведенных наблюдениях, мы обозначили основные особенности современной компьютерной лексикографии. В первую очередь отмечается тенденция к увеличению объема словарных баз данных за счет включения в один ресурс материалов большого количества словарей. Источниками для электронных лексикографических ресурсов в основном становятся соответствующие печатные издания. Иными словами, готовое содержание помещается в электронную форму и снабжается тем или иным инструментом для работы с данным содержанием.

Наибольшими функциональными возможностями обладают однословарные продукты, что объяснимо: для большего объема текстовой информации сложнее и дольше разрабатываются аналитические механизмы: морфологический и синтаксический анализ, разметка. При этом основной единицей поискового анализа все же является лексема. Таким образом, пользователь лишен возможности проводить отбор словарной информации по признакам, которым обладает, например, лексическое значение, представленное в словаре, или же словарная статья в целом. По этой причине мы склонны полагать, что при конструировании электронных лексикографических ресурсов необходимо использование корпусных методов, в частности такого механизма, как аннотирование, или иначе - разметка, который лег в основу создания языковых корпусов. Данный подход, с нашей точки зрения позволяет по-новому взглянуть на процесс создания электронных лексикографических ресурсов. Аннотирование элементов словарного содержание позволяет, с нашей точки зрения, работать с лексикографической информацией посредством компьютера не как с текстом на естественном языке, а как с информационным объектом, имеющим и внеязыковые характеристики, актуальные для исследователя, использующего словарь в качестве инструмента своей работы. В отношении вопросов терминологического свойства, мы, взяв за основу положения В. П. Селегея и Я. Перванова о том, что электронный словарь - это продукт, который необходимо создавать, а не воспроизводить, при этом создавать его на совершенно новых принципах (В П Селегей 2005, Я. Перванов 2010), приходим к выводу, что проанализированные нами лексикографические продукты являются либо электронными версиями печатных словарей (если содержат в себе материалы одного словаря), либо -электронными библиотеками словарей (если база данных такого ресурса включает в

себя материалы двух и более словарей).

Во второй главе «Языковые корпусы как инструмент исследовательского процесса» представлены теоретические основания дальнейшей разработки заявленного нами ресурса. Описан понятийный аппарат корпусной лингвистики,

механизмы и принципы создания языковых корпусов, представлена характеристика русскоязычных корпусов, описаны сферы применения данного инструмента.

В первом параграфе «Понятие корпуса и корпусной лингвистики» рассматриваются определения данных понятий (Т. МсЕпегу, А. Wilson 1996; В. В. Рыков 1999; В. П. Захаров 2005; М. В. Копотев, А. Мустайоки 2008) и методы, используемые в рамках данного направления (Т. МсЕпегу, А. Wilson 1996; В. В. Рыков 1999; В. П. Захаров 2005). Общим для всех определений является локализация корпуса на машинном носителе и наличие аннотаций. Есть, тем не менее, и различия в подходах к определению понятия корпус. Часть исследователей определяет корпус через понятие текста (Т. МсЕпегу, А. Wilson 1996; В. В. Рыков 1999), говоря о том, что корпус - это собрание текстов. В. П. Захаров избегает употреблять данный термин и использует наименование «массив языковых данных» (В. П. Захаров 2005).

Корпусной лингвистикой, по определению В. П. Захарова, является раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. (В. П. Захаров 2005). М. В. Копотев и А. Мустайоки, также замечают: «Дело в том, что сам по себе он (термин) имеет два значения. Это, во-первых, теория и методика создания корпусов и, во-вторых, корпусные исследования, т.е. исследования языка с помощью корпусных методов» (М. В. Копотев, А. Мустайоки 2008: 13 - 16).

Во втором параграфе «Обзор корпусов. Характеристика русскоязычных корпусов» приводится описание следующих корпусов: Тюбингенский корпус (ТК), Корпус газетных текстов (КГТ), Хельсинкский аннотированный корпус (ХАНКО), Национальный корпус русского языка (НКРЯ), Национальный корпус русского литературного языка (НКРЛЯ), Система баз данных Интегрум. Каждый из представленных корпусов имеет различия в объеме, типам разметки и критериям поиска. «Интегрум» несопоставимо больше по объему, чем все остальные ресурсы (например, слово корпус в разных значениях встречается в нем свыше 2 млн. раз; в Национальном корпусе - около. 4 тыс., в ХАНКО - 3 раза). Однако Интегрум не предназначен специально для изучения русского языка и содержит только сплошные тексты без морфологической разметки. В Национальном корпусе можно осуществлять поиск на представительной выборке текстов XVIII-XXI вв., используя морфологические и семантические параметры и богатую систему жанровых и функциональных признаков текста. ХАНКО лучше подходит для целей преподавания, поскольку содержит более качественное и традиционное аннотирование» (М. В. Копотев, А. Мустайоки 2008).

В третьем параграфе «Возможности использования корпусов в исследовательском и учебном процессах» описывается область применения корпуса. Так М. В. Копотев и А. Мустайоки приводят 12 примеров использования корпуса в

различных сферах: от исследования и преподавания до решения задач судебно

лингвистической экспертизы.

Кроме того характеристики сфер применения корпусных методов находят отражение в работах (С. А. Анохина 2007; А. Мустайоки 2007; Л. М. Кольцова, Ж. В. Грачева 2007;. Лора А. Янда 2007 и др.). Таким образом, выделяются три наиболее крупных направления использования корпусов: филологические исследования, прикладные виды работ, учебный процесс. Но, прежде всего, сфера применения корпусных методов - это исследование различных аспектов языкознания и преподавание языка. Богатство разметки и разнообразие параметров поисковой системы позволяют отбирать большое количество языкового и статистического материала, что позволяет проводить более точный анализ, экономя при этом время исследователя.

Ключевые положения теории и практики создания и использования языковых корпусов легли в основу разработки технологии корпуса, массивом данных которого явились русскоязычные лексикографические источники.

В третьей главе «Словарный корпус: технология создания и возможности использования» описывается механизм проектирования корпуса, массивом данных которого являются русскоязычные лексикографические источники, а также реализуется попытка построения модели такого ресурса.

В первом параграфе «Технология создания Словарного корпуса» на основе существующих определений понятия корпус (Т. МсЕпегу, А. Wilson 1996; В. В. Рыков 1999; В. П. Захаров 2005; М. В. Копотев, А. Мустайоки 2008 и др.), а также с учетом специфики используемого нами в качестве массива данных объекта (лингвистический словарь) дается определение понятия Словарный корпус -структурированный массив словарных данных, снабженный специализированной разметкой и поисковой системой, предназначенный для решения конкретных лингвистических задач (исследовательского и прикладного характера). Разработка принципов и технологии как сопутствующие задачи при создании модели Словарного корпуса, потребовали решения нескольких последовательных задач технического и научно-аналитического характера.

К техническим задачам мы отнесли:

1. Выбор технической платформы, на которой будет базироваться ресурс (систему управления базами данных (СУБД), язык WEB-программирования).

2. Адаптацию содержательного материала лексикографических источников в соответствующую электронную форму, которая отвечает требованиям технической платформы.

3. Разработку проекта пользовательского интерфейса, структура которого определяется составом массива данных, параметрами поисковой системы и подвидом корпуса.

К научно-аналитическим задачам относятся следующие:

1. Определение объема и содержания массива данных (какие именно словари и в каком количестве должны быть использованы, чтобы ресурс мог отвечать условиям репрезентативности и компетентности.

2. Определение критериев выбора параметров поисковой системы.

3. Разработка системы тэгов (разметки).

Во втором параграфе «Определение объема и содержания массива данных» проводится выбор словарей, материалы которых легли в основу разрабатываемой нами модели. Результатом отбора стали восемь лексикографических источников: Ахманова О. С. Словарь омонимов русского языка. - М., 1976; Львов М. Р. Словарь антонимов русского языка. - М., 1985; Словарь синонимов русского языка. - Л., 1970 - 1971, Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка. - М., 1997 (СОШ); Словарь русского языка: в 4-х Т. / Гл. ред. А. П. Евгеньева. - М., 1981 - 1984 (МАС); Словарь русских народных говоров / гл. ред. Ф. П. Филин; ред. Ф. П. Сороколетов; Ин-т русского языка, Словарный сектор АН СССР. - Л., 1965. - Вып. 1; Фасмер М. Этимологический словарь русского языка. М., 1986-1987; Крысин Л. П. Толковый словарь иноязычных слов. -М., 2000.

Мы выбрали четыре толковых словаря русского языка, так как, несмотря на свою принадлежность к одному типу (все являются толковыми, одноязычными лингвистическими словарями), данные источники описывают лексические единицы в различных аспектах: Толковый словарь иноязычных слов Л. П. Крысина описывает такой специфический пласт лексики русского языка, как заимствования. МАС и СОШ, описывая лексику современного русского языка, имеют, тем не менее, различия в объеме словника, структуре словарных статей, системе помет и т.д. Словарь русских народных говоров описывает пласт лексики русского языка, ограниченный географическими рамками. Иные, выбранные нами лексикографические источники являются словарями других типов, что позволит ресурсу предоставлять пользователю более разнообразную информацию о той или иной лексической единице. Так как цель создания модели - демонстрация потенциальных возможностей корпуса, массив данных включает:

а) лексические единицы и их лексикографическое описание, представленные в каждом из используемых словарей;

б) те лексические единицы, на примере которых можно продемонстрировать возможности поисковой системы, используя различные параметры поиска (см. третий параграф).

В третьем параграфе «Определение параметров поисковой системы» мы

проводим анализ словарного содержания и целей использования словаря как инструмента чтобы выявить, какие факторы должны обеспечить формирование поисковых параметров, на основе которых должна проводиться разметка. Для решения поставленной задачи мы сформулировали положение о том, что словарь как

специализированный объект имеет три ипостаси: инструмент исследования, объект исследования, инструмент обучения. Учитывая, что Словарь - это инструмент исследования, содержащий определенную информацию о входящих в его состав лексических единицах, предназначенный для сопровождения как учебного, так и исследовательского процессов, и может являться при этом предметом изучения, мы пришли к выводу, что наиболее очевидными факторами, которые обусловливают

выбор параметров, являются:

а) содержательно-целевой - необходимо учесть, какую информацию может предоставить исследователю тот или иной лексикографический источник в зависимости от своего типа, структуры, содержания и целевой направленности, во-вторых, поиск информации зависит от цели, которую исследователь ставит перед

собой в своей работе;

б) дидактический - учитывает то, что в рамках образовательного процесса студент не только должен решать поставленные перед ним задачи с помощью лексикографических источников, но и должен научиться пользоваться самими источниками; не менее важно использование Словарного корпуса преподавателем для создания упражнений и отбора материала для лекционных и практических занятий.

Следовательно, параметры поиска должны быть ориентированы в определенной степени и на методическую составляющую учебного процесса.

В четвертом параграфе «Содержательно-целевой фактор определения параметров поисковой системы» и в пятом параграфе «Дидактический фактор определения параметров поисковой системы» проводится анализ словарного материала с целью разработки параметров поисковой системы.

С учетом содержательно-целевого фактора, а также с опорой на теоретические положения ряда работ по теории лексикографии и (В. В. Виноградов 1977, Д. И. Арбатский 1970, Б. А. Ларин 1986, Г. Н. Скляревская 1995, О. С. Ахманова 1976, Л. А. Новиков 1982, Ф. П. Филин 1965) мы разработали комплекс параметров поисковой системы. Соотношение словарей и параметров поисковой системы для каждого словаря отражено в следующей таблице:

Таблица 1. Соотношение словарей и поисковых параметров

Словари Поисковые параметры

Л. П. Крысин Толковый словарь иноязычных слов. - М., 2000. по языку-источнику по статусу языка (источник-посредник) по сфере функционирования лексической единицы

М. Фасмер Этимологический словарь русского языка. М., 19861987, - Т.1-4. по генетическому слою (индоевропейская, общеславянская и др.) по принадлежности лексической единицы к языковому объединению (макросемья, семья и др.)

Словарь русского языка: в 4-х т. / Гл. ред. А.П. Евгеньева. - М., 1981 -1984. по пометам, характеризующим ограниченность употребления единица

18

Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка. -М., 1997 (СОШ) по пометам, характеризующим ограниченность употребления единицы (бран., прост., разг. и др.)

Ахманова О. С. Словарь омонимов русского языка. - М., 1976 по типу лексических омонимов

Словарь синонимов русского языка. - Л., 1970-1971 по лексико-семантическим характеристикам (разряды частей речи, деривационные характеристики, морфологический тип словообразования, оценка: положительная, отрицательная и др.) *Основано на семантической разметке Национального корпуса русского языка.

Львов М. Р. Словарь антонимов русского языка - М., 1985.

Словарь русских народных говоров / Гл. ред. Ф. П. Филин. - Л., 1965 -Вып. 1. по типу диалектизма, по сфере функционирования единицы

С учетом дидактического фактора были также введены параметры, применительно к толковым словарям: поиск по типу лексических значений (В. В. Виноградов 1977), поиск по способам толкования' (Д. И. Арбатский 1970). Часть параметров, разработанных с учетом содержательно-целевого фактора, применима и в соответствии с дидактическим. Кроме того, общим параметром для всех словарей стал поиск по заголовку словарной статьи.

В шестом параграфе «От технологии к модели» мы выработали алгоритм анализа словарного содержания, а также, на его основе, сформировали структуру базы данных и создали модель корпуса. Основой послужили наблюдения, сделанные в процессе решения задачи выбора параметров поисковой системы, включавшей подробный анализ структурных и содержательных особенностей словарных статей.

Результатом данных наблюдений стало следующее положение: анализ словарного содержания с целью разметки как процесс должен базироваться на свойствах словарной информации. Основными ее свойствами являются: способ представления информации и объект описания.

Способ представления информации характеризуется следующими положениями: словарная информация может быть эксплицирована в тексте словарной статьи посредством некоторого набора помет, выраженных печатными символами, например, бран., поэт, и др.; словарная информация может быть представлена имплицитно в тексте словарной статьи, но может быть выявлена посредством анализа дефиниции, помет и иллюстративного материала, например, в процессе анализа дефиниции выявляются: язык-источник, заимствованного слова, принадлежность лексической единицы к языковой семье, группе и т.д.; элемент словарной статьи может обладать характеристикой, не эксплицированной и не выявляемой в процессе анализа словарной статьи (тематическая группа, разряды частей речи, деривационные характеристики, морфологический тип словообразования и др.).

Объектом описания в словарной статье может выступать: лексема (постоянные формальные признаки: категориальные характеристики, частеречная принадлежность); значение слова (семантические характеристики, стилистические характеристики и др.); словарная статья (способы толкования слова, типы лексических значений).

Данные свойства словарной информации в купе с функциональным назначением конкретного словаря, с одной стороны, определяют процесс анализа словарной статьи с целью разработки параметров поисковой системы и последующим процессом разметки в соответствии с выделенными параметрами, а с другой стороны, определяют структуру базы данных Словарного корпуса.

Принципы построения компьютерных баз данных учитывают, что обычно база данных являет собой некоторым образом заполненную таблицу, а чаще - набор таких таблиц, атрибутами которых являются строки (записи), столбцы (поля). В табличной структуре адрес данных определяется пересечением строк и столбцов. Поля формируют структуру базы данных, а записи составляют информацию, содержащуюся в базе данных. Текстовое поле - символьные или числовые данные, которые не требуют вычислений. Такое поле может содержать до 255 символов. Применительно к объекту нашей работы - Словарному корпусу - структура базы данных зависит именно от формальной структуры словарной статьи, и от набора информационных характеристик, которыми обладают элементы словарной статьи.

Базовая структура словарной статьи, например, статьи толкового словаря, имеет вид лемма - словарная статья. Проецируя ее на табличную структуру базы данных, получаем две таблицы: в одной таблице хранятся заголовки словарных статей, а в другой - собственно тексты словарных статей. При этом поля обеих таблиц имеют соответствующую корреляцию: одно из полей первой таблицы, содержащее заголовок словарной статьи, связано с полем второй таблицы, содержащем текст словарной статьи, соответствующий данному слову.

Кроме того, в базу данных помещаются признаки, присущие объекту информационного описания и являющиеся для пользователя критериями поиска. Таким образом, модель структуры базы данных описывается следующим образом: база данных содержит несколько типов таблиц: таблицы, содержащие информацию о лексеме; таблицы, хранящие информацию о лексическом значении; и таблицы, содержащие информацию о словарной статье. Схематически, в общем виде, структура базы данных Словарного корпуса представлена Схемой 1.:

Схема 1. Структура базы данных

Такая структура позволяет упорядоченно проводить анализ словарных статей с целью приписывания им соответствующих меток и решать тем самым задачу аннотирования последовательно. При выявлении в процессе анализа словарной статьи какого-либо нового параметра поисковой системы, таблица записей данных для которого отсутствует, необходимо определить, к какому типу данных будет относиться данный параметр, и создать соответствующую таблицу для записи данных по вновь выделенному параметру.

Таким образом, в основе технологии разработки словарного корпуса как совокупности средств, способов, правил, действий и последовательностей действий лежат многие принципы проектирования языковых корпусов, но особенность включаемого в массив данных содержания предъявляет определенные требования к данному процессу. Так, в качестве массива данных используются материалы лексикографических источников. Это означает, что разметке будут подвергаться не языковые единицы, как в случае с текстами языковых корпусов, а иные содержательные элементы - в нашем случае такими элементами являются словарные

статьи и заголовки словарных статей. Еще одной особенностью является то, что признаками, которые ложатся в основу параметров поисковой системы, обладают как описываемые в словарных статьях лексические единицы и их значения, так и сами словарные статьи. Этот факт определят особенности аннотирования элементов массива данных и саму структуру базы данных такого корпуса.

Таким образом, технология как процесс создания словарного корпуса включает в себя следующую последовательность действий: выбор системы управления базами данных, формирование массива данных, то есть выбор тех или иных лексикографических источников для их преобразования в соответствующую форму, анализ данных лексикографических источников, во-первых, с учетом их функционального назначения, а, во-вторых, с учетом информационных и структурных особенностей единиц, подвергаемых аннотированию, то есть -словарных статей и заголовков словарных статей.

Модель корпуса имеет следующие составляющие: база данных на платформе MySQL, поисковый менеджер на основе PHP, веб-интрефейс.

В заключении кратко излагаются основные результаты предпринятого исследования, к которым относится: формирование механизма описания электронных лексикографических ресурсов на основе выработанных нами критериев их описания и признаков им соответствующих; разработку первичных параметров поисковой системы для восьми лингвистических словарей русского языка, разработка технологии создания Словарного корпуса, включающая описание механизма анализа словарных статей и способов организации структуры базы данных на основании свойств словарной информации и формальной структуры словарных статей;

проектирование модели корпуса.

Основные положения диссертации отражены в шести публикациях автора.

1. Саженин, И. И. Словарный корпус: проблемы и перспективы / И. И. Саженин; под ред. О. А. Маркасовой, Н. В. Константиновой // Молодая филология - 2011 (по материалам исследований молодых учёных): межвузовский сборник научных трудов. - Новосибирск: Изд-во НГПУ, 2011. - С. 250 - 259 (0,7 п.л.).

2. Саженин, И. И. Словарный корпус как элемент оптимизации учебного и исследовательского процессов / И. И. Саженин; отв. ред. 3. П. Ларских // Информатизация образования: материалы международной научно-практической конференции. - Елец: Изд-во ЕГУ им. И. А. Бунина, 2011. - Т. 2. - С. 447-453 (0,3 п. л.).

3. Саженин, И. И. Некоторые возможности использования информационных технологий в курсе лексикологии / И. И. Саженин; отв. ред. 3. П. Ларских // Педагогика, лингвистика и информационные технологии: материалы международной научно-практической конференции, посвященной 90-летию со дня рождения профессора Н. Н. Аглазиной. - Елец: Изд-во ЕГУ им. И. А. Бунина, 2012. - Т.2. - С.509 - 513 (0,3 п.л.).

Саженин, И. И. Разработка параметров поисковой системы для Словаря русских народных говоров / И. И. Саженин // Сибирский филологический журнал. -2013. -№2.-С. 208-211. (0,3 п. л.)

Саженин, И. И. Словарный корпус как элемент оптимизации исследовательского процесса [Электронный ресурс] / И. И. Саженин // Вестник НГПУ - 2013. - №4. - URL: http://vestnik.nspu.ru/article/348.

Саженин, И. И. Словарный корпус: проблемы определения и структурной организации / И. И. Саженин; отв. ред. И.П. Матханова. // Проблемы интерпретационной лингвистики: типы восприятия и их языковое воплощение: межвузовский сборник научных трудов. - Новосибирск: Изд-во НГПУ, 2013. - С. 294-298(0,3 п. л.).

Подписано в печать 26.11.13. Формат бумаги 60x84/16. Печать RISO. Уч.-изд.л. 1,2. Усл. п.л. 1,5. Тираж 100 экз. Заказ № 111.

Педуниверситет, 630126, Новосибирск, Вилюйская, 28

 

Текст диссертации на тему "Корпусные методы в лексикографии: опыт создания модели Словарного корпуса"

Федеральное государственное бюджетное образовательное учреждение «Новосибирский государственный педагогический университет»

0420145531 6

Саженин Игорь Игоревич

Корпусные методы в лексикографии: опыт создания модели Словарного корпуса

Специальность 10.02.01 —русский язык (филологические науки)

Диссертация на соискание ученой степени кандидата филологических наук

На правахрукописи

Научный руководитель к. филол. н., профессор Булыгина Е. Ю.

Новосибирск — 2013

Оглавление

Оглавление...................................................................................................................3

Введение.......................................................................................................................4

Глава 1 Электронные словари: проблема определения понятия и

характеристика существующих продуктов............................................................12

1.1 Электронный словарь, автоматический словарь, автоматизированный

словарь: соотношения понятий................................................................................12

1.2. Электронный учебник уб традиционный учебник: механизмы определения .....................................................................................................................................23

1.3. Критерии описания электронных лексикографических ресурсов................30

1.4 Обзор электронных лексикографических ресурсов........................................59

Выводы.......................................................................................................................78

Глава 2 Языковые корпусы как инструмент исследовательского процесса.......84

2.1. Понятие корпуса и корпусной лингвистики....................................................84

2.2. Обзор корпусов. Характеристика русскоязычных корпусов.........................89

2.3. Возможности использования корпусов в исследовательском и учебном

процессах....................................................................................................................92

Выводы.......................................................................................................................97

Глава 3. Словарный корпус: технология создания и возможности использования .....................................................................................................................................99

3.1. Технология создания Словарного корпуса......................................................99

3.2. Определение объема и содержания массива данных...................................105

3.3. Определение параметров поисковой системы..............................................117

3.4. Содержательно-целевой фактор определения параметров поисковой системы.....................................................................................................................121

3.4. Дидактический фактор определения параметров поисковой системы......147

3.5. От технологии к модели..................................................................................154

Выводы.....................................................................................................................169

Заключение...............................................................................................................172

Список использованной литературы.....................................................................179

Введение

Настоящее диссертационное исследование выполнено на стыке лексикографии и корпусной лингвистики. С момента начала применения информационных технологий в гуманитарной сфере прошло не одно десятилетие. За это время успели выделиться в самостоятельные направления такие области филологической науки, как компьютерная лингвистика, корпусная лингвистика и компьютерная лексикография. В рамках данных, в первую очередь, прикладных направлений были созданы инструменты, позволившие во многом облегчить труд исследователя. Мы имеем в виду, прежде всего, языковые корпусы и электронные лексикографические ресурсы. Создание и развитее данных инструментов шли отличными друг от друга путями. Если в области корпусной лингвистики главную роль играли, все-таки, специалисты-филологи, то компьютерная лексикография была отдана во многом на откуп профессиональным программистам и бизнесменам, и это не в последнюю очередь заслуга господства в современном обществе рыночных отношений: когда спрос на электронные лексикографические продукты определяется потребностями практического характера. По этой причине наиболее совершенными и многофункциональными лексикографическими продуктами на сегодняшний день являются переводные многоязычные словари. Специализированные же лексикографические продукты прогресс если не обошел стороной, то, по крайней мере, не сказался должным образом на их развитии.

Еще в начале восьмидесятых годов пошлого века в нашей стране велись

работы в области специализированной компьютерной лексикографии. В данной

области были заняты такие ученые как А. П. Ершов, Ю. Н. Караулов, В.М.

Андрющенко, А. Я. Шайкевич и др. Ряд идей и разработок Машинного фонда

русского языка в последствии лег в основу создания Национального корпуса

русского языка. Однако, по словам В.М. Андрющенко, информатизация

русистики в тех организационных и финансовых условиях как направление

оказалось нежизнеспособным. Возможно, по этой причине до сих пор для

4

компьютерной лексикографии не сформирован собственный предмет изучения, а лексикографическая теория отстает от компьютерной лексикографической практики.

Технический инструментарий, используемый при разработке электронных лексикографических ресурсов, изначально не ориентирован на обеспечение работы со словарным содержанием, а наиболее перспективные методы, разработанные в области, например, корпусной лингвистики, не столь активно применяются в практике создания электронных лексикографических ресурсов (В. П. Селегей 2005, Я. Перванов 2010). Кроме того, существует множество электронных лексикографических ресурсов, отличающихся друг от друга содержанием, структурой, назначением, техническим инструментарием, которые часто именуются электронными словарями. При этом один такой продукт настолько отличается от другого по ряду критериев, что возникает сомнение в правомерности отнесения таких ресурсов к одной категории.

Основной проблемой при создании электронных лексикографических ресурсов является то, что машина не способна в полной мере работать с текстом на естественном языке для репрезентации пользователю информации, соответствующей возможному спектру его запросов (В. П. Селегей 2005, Я. Перванов 2010). Данная проблема была решена специалистами, разрабатывающими корпусы текстов посредством использования такого инструмента, как разметка. Как отмечают М. В. Копотев и А. Мустайоки «...современная корпусная лингвистика, несмотря на относительно короткую историю существования, является хорошо разработанным направлением языкознания, тесно связанным с компьютерной и когнитивной лингвистикой. С первой она связана технологией и инструментами обработки языкового материала, со второй совпадает в базовой предпосылке: как когнитивная, так и корпусная лингвистика интересуется речевой деятельностью, представленной в бесконечном числе текстов. <...> Каждый новый этап в развитии машинной обработки языкового материала открывает новые возможности сначала для

создателей корпусов, а затем и для лингвистов, осуществляющих исследования на основе существующей разметки» [Копотев, Мустаоки 2008: 8-12].

Помимо анализа речевых произведений для исследователя является важным также такой вид работы, как дефиниционный анализ. Нередко исследователю приходится обрабатывать большое количество словарной информации в поисках ему необходимой. Каждый словарь в силу своей специфики содержит различные типы информации. Несмотря на обилие электронных лексикографических источников в Сети, не существует ресурса, отвечающего следующим требованиям: объемность содержательного материала, «филологически компетентная» поисковая система, позволяющая извлекать разные типы лингвистической информации из всего объема содержательного материала словаря. В этой связи актуальность работы обусловлена необходимостью исследования тенденций развития современной практической компьютерной лексикографии не только в области технических решений, но и в области теории создания электронных лексикографических ресурсов на принципах, учитывающих как особенности содержательного словарного материала, так и достижения современной корпусной русистики.

Объектом исследования является лингвистический словарь как инструмент филологических исследований.

Предметом исследования является комплекс информации, содержащейся в русскоязычных лексикографических источниках, на основании которой возможно разработать интерактивный ресурс, снабженный специализированной поисковой системой, способной предоставлять пользователю информацию максимально соответствующую возможным его запросам.

Материалом исследования послужили наиболее распространенные электронные лексикографические ресурсы: проект «Русские словари»; ABBYY Lingvo; DICT; Cambridge Online Dictionary; Shorter Oxford English Dictionary; Random House; Webster's Dictiomary; Dizionario della lingua italiana Zingarelli,

Образовательный портал Грамота. Ру; Большой словарь русского языка -коллекция электронных словарей, выпущенная компанией «Target-Multimedia» и др., а также языковые корпусы (ХАНКО; Национальный корпус русского языка; Брауновский корпус и др.) и традиционные (печатные) лингвистические словари (Ахманова О. С. Словарь омонимов русского языка. - М., 1976; Львов М. Р. Словарь антонимов русского языка. - М., 1985; Словарь синонимов русского языка. - Л., 1970 - 1971, Ожегов С. И., Шведова Н. Ю. Толковый словарь русского языка. - М., 1997; Словарь русского языка: в 4-х Т. / Гл. ред. А.П. Евгеньева. - М., 1981 - 1984; Словарь русских народных говоров / гл. ред. Ф. П. Филин; ред. Ф. П. Сороколетов; Ин-т русского языка, Словарный сектор АН СССР. - Ленинград, 1965. - Вып. 1; Фасмер М. Этимологический словарь русского языка. М., 1986-1987; Крысин Л. П. Толковый словарь иноязычных слов. - М., 2000 и др.).

Цель работы — разработка принципов и технологии создания корпуса, массивом данных которого являются лексикографические ресурсы, а также разработка модели такого корпуса. Названная цель связана с выполнением следующих задач;

1. Проанализировать определения понятия электронный словарь, автоматизированный словарь, автоматический словарь и выявить признаки, приписываемые в научной литературе названным объектам.

2. Сопоставить существующие в электронном виде лексикографические источники с целью выявления присущих им признаков, особенностей их устройства и подходов к их созданию.

3. Выработать критерии описания существующих в электронной форме лексикографических источников

4. Выявить проблемы, существующие в области создания и использования электронных лексикографических ресурсов.

5. На основе анализа русскоязычных лексикографических источников, используемых в филологических исследованиях:

а) определить объем и содержание массива данных, то есть выявить, какие именно словари и в каком количестве должны быть использованы, чтобы ресурс мог отвечать условиям репрезентативности и «компетентности»;

б) разработать параметры ориентированной на потребности исследовательского процесса специализированной поисковой системы;

в) выявить особенности информации, содержащейся в словаре, которые позволят описать механизм анализа словарных статей для разработки параметров поисковой системы;

г) сформировать структуру базы данных заявленного ресурса.

Основными методами исследования являются метод анализа словарных

дефиниций, метод лингвистического описания, контекстуальный анализ, аннотирование, метод компонентного анализа, метод моделирования.

Теоретической основой исследования служат работы по корпусной лингвистике В. А. Плунгяна, М. В. Копотева, А. Мустайоки, А. Н. Баранова, В. В. Рыкова, В. П. Захарова и др., работы по теоретической и прикладной лексикографии В. М. Андрющенко, В. С. Селегея, Я. Перванова, Г. Н. Скляревской, Н. Ю. Шведовой, Л. В. Щербы, О. С. Ахмановой, В. Ф. Роменской и др.

Научная новизна определяется тем, что в процессе исследования нами были выделены критерии, позволяющие интегрально описать существующие на данный момент электронные лексикографические ресурсы, предпринята попытка систематизации подходов к определению понятий электронный словарь, автоматический словарь, автоматизированный словарь. Впервые были применены корпусные методы к формированию лексикографических баз данных с учетом особенностей содержания русскоязычных словарей разных типов, информационных потребностей исследователя-лингвиста и круга проблем современной отечественной лексикографии.

Теоретическая значимость заключается в том, что полученные результаты вносят вклад в разработку ряда теоретических проблем современной лингвистики и компьютерной лексикографии. Во-первых, разработаны теоретические принципы построения корпуса, массивом данных которого являются словари, во-вторых, разработана авторская типология электронных лексикографических ресурсов, которая расширяет понятийный

4 (•<

аппарат компьютерной лексикографии и создает базу для дальнейшей разработки проблемных вопросов терминологии в данной области.

Практическая значимость заключается в том, что разработанная технология позволяет начать работу по созданию предлагаемого нами ресурса, что выражается практически в создании модели такого ресурса. Использование в дальнейшем выработанных принципов и алгоритма действий будет способствовать созданию полноценного информационного, «филологически компетентного» инструмента лингвистических исследований.

На защиту выносятся следующие положения:

1. Определения понятий электронный словарь, автоматизированный словарь, автоматический словарь не характеризуют определяемые объекты в полном объеме, поскольку спектр продуктов компьютерной лексикографии настолько широк и разнообразен, что существующие попытки ограничить область определения данных понятий рамками одной дефиниции не представляется нам возможным. Необходим системный подход в описании электронных лексикографических ресурсов, поскольку большинство из них позиционируются как электронные словари, но в действительности по ряду признаков являются копиями или версиями традиционных словарей, а не собственно электронными словарями.

2. Инструментарий, позволяющий вести работу со словарным содержанием, не ориентирован на работу с собственно словарной информацией, что, с одной стороны, резко ограничивает спектр возможного взаимодействия пользователя со словарным содержанием, а с другой стороны, лишает компьютерную лексикографию собственного предмета изучения. Существующие решения в области компьютерной лексикографии, несмотря на свое разнообразие, не меняют принципов работы пользователя со словарным содержанием, и единицей поискового анализа по-прежнему

остается заголовок словарной статьи, или слово как элемент текста словарной статьи.

3. Применение корпусных методов при формировании электронных словарных баз данных, разметка словарных статей с учетом возможных запросов пользователя, а также с учетом типов информации, содержащейся в словаре, позволяет расширить возможности работы пользователя со словарным содержанием.

4. Особенность включаемого в массив данных содержания накладывает определенные отпечатки на процесс аннотирования: разметке будут подвергаться не языковые единицы, как в случае с текстами языковых корпусов, а иные содержательные элементы (словарные статьи и заголовки словарных статей). Признаками, которые ложатся в основу параметров поисковой системы, обладают, как описываемые в словарных статьях лексические единицы и их значения, так и сами словарные статьи. Этот факт определят принципы аннотирования элементов массива данных и саму структуру базы данных такого корпуса.

5. Каждому лексикографическому источнику может быть присущ собственный набор параметров поисковой системы, отражающий его уникальные особенности.

6. Процесс анализа словарных статей как один из этапов создания словарного корпуса базируется на следующих положениях: словарь является инструментом исследования; словарь является объектом изучения; словарь является инструментом обучения; словарная информация как особый тип информации имеет специфические характеристики, обозначенные нами, как способ представления (словарная информация может быть эксплицирована в тексте словарной статьи посредством некоторого набора печатных символов; словарная информация может быть представлена имплицитно в тексте словарной статьи, но может быть выявлена посредством анализа; элемент словарной статьи может обладать характеристикой, не эксплицированной в тексте и не выявляемой в

10

процессе анализа словарной статьи) и объект описания (словарь представляет информацию: о слове (формальные признаки), о значении слова (семантические, стилистические характеристики и др.), о словарной статье и ее элементах).

Структура работы. Исследование состоит из введения, трех глав, заключения, и библиографического списка.

Апробация результатов исследования

Материалы и результаты исследования обсуждались на заседаниях кафедры современного русского языка ФГБОУ ВПО «Новосибир