автореферат диссертации по филологии, специальность ВАК РФ 10.02.19
диссертация на тему: Корпусная лингвистика и контекстное разрешение лексической многозначности слов
Полный текст автореферата диссертации по теме "Корпусная лингвистика и контекстное разрешение лексической многозначности слов"
На правахрукописи
МАГОМЕДОВА Аднгат Нурахмагаджиевна
КОРПУСНАЯ ЛИНГВИСТИКА И КОНТЕКСТНОЕ РАЗРЕШЕНИЕ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ СЛОВ
10.02.19 - теория языка
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата филологических наук
Нальчик 2004
Диссертация выполнена в Дагестанском государственном университете
Научный руководитель: доктор филологических наук, профессор
Официальные оппоненты: доктор филологических наук, профессор
Защита состоится 22 октября 2004 г. в 14:00 ч. на заседании диссертационного совета Д 212.075.05 при Кабардино-Балкарском государственном университете им. X. М. Бербекова (360004, г.Нальчик,
ул. Чернышевского, 173).
С диссертацией можно ознакомится в научной библиотеке Кабардино - Балкарского государственного университета имени X. М. Бербекова.
Автореферат разослан « » 2004 г.
Ученый секретарь
Марчук Юрий Николаевич
Самедов Джалил Самедович
кандидат филологических наук, доцент Кимов Рашад Султанович
Ведущая организация: Институт языкознания РАН
диссертационного совета
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Новые информационные технологии в последнее десятилетие предоставили возможность не только изучать язык по традиционным «хранилищам» языковых данных, таким, как словари, художественные произведения, сочинения классиков, письменные тексты как представительные выборки из генеральной совокупности, но и вводить эти данные в компьютер и обрабатывать большие массивы текстов - корпусы текстов [Ю. Н. Марчук].
Объектом исследования в данной работе выступают слова с широкой понятийной основой, которые, являясь терминами, одновременно входят в пласт общеупотребительной лексики.
Актуальность темы исследования определяется тем, что в современном языковом общении большую роль играет терминология, которая функционирует как в общеупотребительном пласте, так и в виде достаточно узких специальных обозначений, вошедших тем не менее в язык ( «компьютер», «файл», «сервер» и т.д.)- В рамках корпусной лингвистики появляется возможность по-новому описать такую важную единицу современной лексики, как термин. Поскольку современные базы знаний политематичны, постольку в них велика роль контекстологического словаря, который можно эффективно исследовать, используя принципы и методы корпусной лингвистики.
Основная цель работы - выявить особенности функционирования слов, выбранных для анализа в географически, социально и культурно различных условиях.
Поставленная цель определила и ряд конкретных задач: определить распространение многозначных глаголов и существительных на материале английского языка в разных условиях его бытования (Англия, Шри-Ланка, Таиланд
• определить и выбрать достаточный массив (корпус) исходных текстов для обеспечения репрезентативности материала и надежности полученных результатов;
• опираясь на контексты, представленные в конкордансе, установить значения лексических единиц, отобранных для анализа, в конкретных контекстуальных условиях; выявить особенности реализации этих значений при их сочетании с детерминантами;
• провести сравнительный анализ словарных значений слов, вовлеченных в исследование, и тех значений, которые они приобретают в контексте;
• при опоре на дистрибутивный и статистический методы выявить коэффициент корреляции между несколькими парами признаков: география газеты, тематика (рубрикация газетного материала), осложнение детерминантами и т.д.;
• с учетом синхронического вектора слова (по аналогии с диахроническим вектором, введенным в лингвистический обиход М. В. Марчук), выявить сходства и различия в семантике глаголов и существительных в словаре и в корпусе.
Научная новизна исследования заключается в том, что впервые с опорой на корпусную лингвистику исследуется семантика многозначных глаголов и существительных и выявляются особенности их функционирования, предопределяемые как спецификой вариантов английского языка, используемых в Англии, Шри-Ланке, Таиланде, так и особенностями текстов публицистического стиля; освещается роль и структура контекстологического словаря, разработанного и изданного Ю. Н. Марчуком [1976] как основы для многоязычных терминологических баз данных. Впервые вводится понятие синхронического вектора, предопределяющего развитие семантической структуры слов, используемых в качестве терминов. При помощи коэффициента корреляции определяется
зависимость между степенями изменений значений слов, принадлежащих к тому или иному лексико-грамматическому классу.
Основные положения диссертации, выносимые на защиту:
1. Корпусная лингвистика открывает, новые методы и исследовательские приемы для более полного описания лексического слоя современного языка и при этом дает возможность получить новые результаты.
2. Исследование корпуса текстов способствует выявлению широкого спектра семантики многозначных слов в широком контексте, способствует идентификации слова в конкретном акте коммуникации.
3. Корпус текста представляет собой основной массив не только для построения контекстологического словаря, но и разграничения различных вариантов языка.
Основные методы, применяемые в настоящей работе, определяются задачами исследования. В связи с этим главным образом используются дистрибутивный и статистический методы. Первый использован при контекстологическом анализе для выявления спектра реализации значений глаголов и существительных. При опоре же на категориальный аппарат статистического метода нами были выявлены указанные выше корреляции нескольких пар признаков.
Материалом исследования послужили англоязычные газеты: «THE TIMES» (Лондон), «THE ISLAND» (Шри-Ланка) и «THE NATION» (Бангкок). При этом для выявления указанных корреляций тематика газетных»статей была представлена максимально разнообразно: культура, образование, политика, экономика.
Исследованию в работе подвергнут исходный корпус в 10 тысяч словоупотреблений по каждой из газет. Географическая отдаленность стран, в которых издаются указанные газеты, позволяет, на наш взгляд, наиболее
полно выявить особенности реализации значений выбранного списка слов в таком многогранном корпусе, как газета.
Теоретическая значимость исследования заключается в уточнении и расширении некоторых важных теоретических вопросов, связанных с определением слов с широкой понятийной основой, возможностей привлечения как теоретических, так и практических ресурсов корпусной лингвистики вообще, корпуса и конкорданса, в частности, для решения ряда проблем, лежащих в сфере синхронического вектора слова.
. Практическая значимость работы определяется возможностью использования результатов проведенного исследования в учебном процессе, в лексикографической практике, в частности, при составлении двуязычных и многоязычных словарей, в теории и практике перевода, при чтении лекций по корпусной лингвистике и обработке текстов.
Апробация работы. Основные положения диссертации обсуждались на различных Международных и региональных научных конференциях: Международной научно-практической конференции "Человек. Язык. Искусство" (памяти проф. Н. В. Черемисиной) (Москва, 4-6 ноября 2002 г.); XXX научной конференции студентов и молодых ученых Южного Федерального округа: (декабрь 2002 г.- март 2003 г.); Международной научной конференции, посвященной 30-летию факультета иностранных языков Адыгейского государственного университета "Язык. Этнос. Сознание" (Майкоп,. 24 - 25 апреля 2003 г.); 250-летию МГУ X Международной Юбилейной научной конференции студентов, аспирантов и молодых ученых к "Ломоносов-2003" (Москва, 15-18 апреля 2003 г.). Результаты данного исследования были также апробированы на научно-практической конференции профессорско-преподавательского состава Дагестанского государственного университета (Махачкала, 24 - 25 апреля 2003 г.) и изложены в 13 публикациях.
Структура и объем диссертации. Содержание диссертации изложено на 132 страницах. Работа состоит из введения, четырех глав, заключения и библиографии. Текст диссертации иллюстрируется 5 рисунками и содержит 3 таблицы. В конце диссертации дано приложение: образцы статей из газет, на материале которых проводилось исследование.
В первой главе исследуются такие проблемы, как аспекты речевой деятельности, моделирование с помощью распределений и др. Во второй главе рассмотрены роль и функции контекстологического словаря в идентификации многозначных терминов. Третья» глава посвящена исследованию проблемы термина и контекста. В четвертой главе рассматриваются вопросы контекстного разрешения лексической многозначности. Каждая глава сопровождается краткими выводами.
СОДЕРЖАНИЕ РАБОТЫ Во введении обосновывается актуальность темы диссертационного исследования, определяются цель и задачи работы, отмечается ее научная новизна, теоретическая и практическая значимость, указываются методы и материал исследования.
Глава L Исходный корпус текстов и методы его обработки-Ряд лингвистических проблем был решен благодаря идеям машинного перевода. Ю. Н. Марчук в докладе на III научной конференции «Теория перевода и практика подготовки переводчиков» [Марчук 1999] оценивает уроки начального периода становления и развития работ по машинному переводу. Взгляд на язык как на код повлек за собой применение методики статистического исследования текстов на предмет выявления в них определенных лингвистических закономерностей. По мнению Г. Э. Мирама [Miram 1998], именно в это время были сформулированы основные положения дистрибутивной теории, главным принципом которой было изучение текстового поведения языковых элементов для их последующей
всесторонней характеристики. Дистрибутивная методика, объединенная на основе статистических приемов, в большой степени стимулировала становление теоретического языкознания, в котором с этого времени стало применяться моделирование, понимаемое как построение моделей, объясняющих действие языковых законов или проверяющих работу и эффективность воспроизводящих языковые действия кибернетических устройств [Пиотровский 1979].
Такая методика предполагает исследование достаточно больших массивов исходных текстов для получения достоверных данных. Как утверждает Г. Э. Мирам, изучение дистрибуции позволяет: а) определить модель значения, т.е. состав основных компонентов, которые образуют в своей сумме значение данной лексической единицы; б) установить модель сочетаемости данной лексической единицы с другими лексическими единицами; в) дать определение формальной структуры лексической единицы. В свое время дистрибутивно-статистический подход сыграл большую роль не только в исследованиях по машинному переводу, но и в теоретической лингвистике, позволяя строить дистрибутивно-статистические модели языковых стилей. На уровне содержательного понимания дистрибуция, языкового элемента есть его встречаемость в определенных контекстах, совокупность соседних с ним языковых элементов и текстовых единиц. При этом глубину контекста можно задать, исходя из возможностей исследования.
Квантитативные методы не в состоянии решить любые проблемы анализа языковых явлений; они могут лишь охватить определенный аспект языка и речи. Определение дистрибутивных характеристик слов важно для разрешения существенного аспекта, отражающего ряд важных сторон речевой деятельности, так как эти стороны невозможно обнаружить только качественным анализом.
Лингвистические основы изучения языка и речи точными, методами включают, в первую очередь, разграничение языка и речи. Такое разделение представляет собой разные способы интерпретации одного и того же материального объекта, который можно назвать общей системой языка или речевой деятельностью. Возможность и необходимость разграничения двух сторон языковой деятельности - языка и речи - основываются на том очевидном факте, что в этой деятельности можно различить два взаимосвязанных, но отделяемых друг от друга компонента: средство (орудие) и его применение.
Учитывая специфику квантитативного системного исследования языка вообще и лексики в частности, можно представить комплекс "язык-речь" в виде перекрещивающихся двух главных осей: оси с противопоставлением потенции - реализации и оси с противопоставлением динамики - статики [Тулдава 1987].
Рис. 1. Отношение "язык-речь"
Как видно из приведенной схемы, в соотношении "потенция-реализация" содержится элемент уровневости: потенция - высший уровень, а
реализация - низший, речь как конкретная реализация языка является единственным непосредственно наблюдаемым объектом лингвистики. Именно вследствие этого корпусная лингвистика, основы которой сейчас создаются, является чрезвычайно важным направлением современного языкознания.
Согласно мнению К). Н. Марчука, корпусная лингвистика может включать не только исследование корпусов текстов, но также и корпусов словарей как регистраторов обширного словарного материала.
Применение качественно-количественного метода в изучении закономерностей распределения языковых явлений в отношении лексики можно определить следующим образом:
• формулировка гипотезы и назначение метода количественного и качественного эксперимента для проверки гипотезы;
• отбор исходного массива текстов, руководствуясь общими статистическими соображениями и организуя достаточно представительную выборку;
• построение фрагмента словаря-конкорданса, в котором будут представлены изучаемые лингвистические явления на основе сплошной выборки их из корпуса исходных текстов;
• разработка системы контекстных окружений изучаемых лексических единиц для проверки исходной гипотезы;
• систематизация полученных результатов и выводы. Таким образом:
• Статистические методы обработки корпусов параллельных текстов открыли пути сокращения трудоемкости многих работ в области двуязычной лексикографии, создания программных инструментов для переводчиков и систем машинного перевода.
• Большинство современных систем статистической обработки параллельных текстов сталкиваются с необходимостью огромных тренировочных корпусов для описаний парадигмы явлений.
• Статистические методы анализа текстов дают возможность получить объективную картину распределения, дистрибуции лексических единиц в рамках конкретной прикладной задачи.
• Условием применения статистических методов является репрезентативность выборки. Поскольку мы не имеем- возможности обрабатывать корпусы текстов объемом в миллион словоупотреблений для точного подсчета величины относительной ошибки при определении выборки из генеральной совокупности, в качестве допустимого примем содержательное определение выборки.
Глава !Ь Роль и функции контекстологического словаря в идентификации многозначных терминов в корпусной лингвистике
На пороге нового тысячелетия в лингвистике отмечается быстрый рост и широкое распространение корпусных исследований [Гвишиани и др. 2001].
Используя обширные корпусы языковых данных на базе английского языка, можно получить и проанализировать новейшие сведения о его функционировании и употреблении. Значительные результаты в использовании корпусных данных уже достигнуты в лексикографии, компьютерной лингвистике и т.д.
Корпусная лингвистика изучает продукт функционирования языка и обращает внимание, главным образом, на построение речи- в процессе общения. Это направление возникло как естественное продолжение функционально-коммуникативной парадигмы. Успешное существование языка как общения обеспечено взаимодействием языковых составляющих, формы которого предопределены как системой и нормой языка, так и определенными условиями коммуникации.
По словам Е. С. Кубряковой, «современное состояние теоретической лингвистики характеризуется выдвижением в ней двух главных парадигм научного знания - когнитивной и коммуникативной» [Кубрякова 1997]. В этой связи вполне естественно, что, будучи одной из главных парадигм научного знания в современном языкознании, функционально -коммуникативная парадигма вызвала кардинальное изменение в области теоретической лингвистики и дала толчок пересмотру многих фундаментальных понятий с новых позиций и в новом свете [Кубрякова 1997].
Как следует из самого названия, корпусная лингвистика основывается на использовании корпуса, то есть «большого объема живого, "реального" языкового материала, извлеченного из разнообразных источников и сведенного в компьютеризованную систему с тем, чтобы исследователи, в особенности лексикографы, могли изучать значение и возникающие языковые закономерности» [Summers 1992].
Основная задача корпусной лингвистики - это исследование языковой действительности, микрокосма языкового использования в процессе коммуникации в целях наиболее верного и точного определения и демонстрации его различных аспектов. Данный подход характеризуется, по меньшей мере, двумя базовыми чертами:
• открывает доступ к большому объему текстов, представляющих различные жанры и регистры, и
• позволяет избежать чрезмерных обобщений о состоянии языка, что обычно имеет место при работе с ограниченным и разрозненным эмпирическим материалом [Granger 1998].
Корпусная лингвистика рассматривает не только речь, во и язык в новом свете, открывая мощный исследовательский потенциал, проистекающий из самого масштаба вводимых примеров и постоянно увеличивающегося объема охватываемых ими языковых явлений.
Предметом корпусных исследований выступает продукт, результат деятельности говорящего (или пишущего) в процессе построения речи. Данное многоплановое явление основывается на знании говорящим конкретного языка.
Широко известно, что накопление новых свойств в языке крайне трудно отразить в традиционных словарях. В отличие от словарей, корпус не имеет ограничений по объему: как и сама'языковая реальность, он является открытым, благодаря чему мы получаем уникальную возможность проверить свои знания и понимание того, как языковые единицы функционируют в процессе коммуникации.
Последний признак, т.е. «открытость» корпуса, неограниченная возможность его пополнения новыми < фактами, представляется особенно важным при исследовании такой сложной и многосторонней области языка, как лексикон.
Корпусная лингвистика связана с контрастивными исследованиями, направленными на установление фактов общего и отличного между языками, диалектами или вариантами языка в ходе их семантического описания. В этой области преимущество использования корпусов становится наиболее очевидным. Функциональные и синхронные виды анализа языков наилучшим образом развиваются на прочной и обширной базе эмпирических данных.
Контекст всегда рассматривался как некоторый фактор, учет которого необходим для полного описания системы лексических значений слова. А. А. Уфимцева рассматривает контекст в следующей смысловой парадигме: «... основные понятия, релевантные для описания лексико-семантического варьирования, следующие: лексико-семантический вариант слова...
• семантическая структура слова, представляющая собой иерархическую систему, исторически сложившееся единство лексико-семантических вариантов...
• системный (речевой) контекст как необходимое условие реализации виртуального слова...
• контекстологический анализ лексической семантики, обеспечивающий выявление средств тех уровней языка, от которых идет указание к семантически реализуемому слову» [Уфимцева 1986].
На первый взгляд, существует некоторое противоречие между определением значения слова через контекст и словарноцентрическим подходом к определению значений. Контекст - элемент текстоцентрического подхода, в то время как словарноцентрический подход предполагает, в первую очередь, анализ дефиниций. Система контекстных признаков в дефинициях не может полностью совпадать с контекстными признаками, взятыми из текущих текстов. Поэтому необходим специальный словарь контекстов - словарь-конкорданс, где каждое го значений определяется контекстом.
Разрешение лексической многозначности по контексту является одной из важных проблем современной компьютерной лингвистики и многих прикладных исследований.
Для этого разработан специальный тип словаря, в целях разрешения многозначности учитывающий роль контекста. Впервые термин "контекстологический словарь" был введен в практику прикладной лингвистики Ю. Н. Марчуком [Марчук 1976]. Контекстологический словарь имеет целью обеспечить перевод многозначных слов приведенного в нем списка с учетом контекстного окружения этих слов по строго формальным признакам с помощью алгоритмической процедуры. Основное назначение словаря - использование в системах автоматической обработки текстов и системах искусственного интеллекта.
1 4
Структура и содержание контекстологического словаря делают возможными его разнообразные применения, главными из которых являются:
• непосредственное использование в системах автоматической обработки текстов - машинного перевода или информационного' поиска - для разрешения многозначности ключевых слов или для перевода многозначных слов. При этом нужно только выбрать форму кодирования словаря. Исходная грамматическая информация, на которую опирается в своей работе словарь, и алгоритм, в рамках которого он работает, могут быть при необходимости сравнительно просто модифицированы;
• использование в качестве справочного пособия при обучении языку, поскольку словарь отражает наиболее актуальную сочетаемость слов, а также в качестве пособия переводчикам по публицистической (газетной) тематике;
• использование в качестве основы для программированного обучения языку. Для такого использования удобна нынешняя форма словаря;
• использование для научно-исследовательской работы лингвистов в области современной лексикологии, лексикографии и машинной обработки текстов на естественных языках, а также для других целей [Нелюбин 1983].
Словарь-конкорданс является необходимым инструментом исследования в корпусной лингвистике. В словаре-конкордансе слово представлено в контексте употребления в текстах. Значение словаря-конкорданса было определено достаточно давно в прикладных задачах языкознания, связанных с дистрибутивно-статистической методикой и задачами расшифровки текста, написанного на незнакомом языке или закодированного каким-либо кодом. Однако в традиционном языкознании принцип идентификации слова и лексемы посредством конкорданса применялся достаточно редко, хотя само представление о слове в контексте и
сам термин "конкорданс" идут еще от Священного писания. В последнее время лингвисты в своих исследованиях уделили значительное внимание вопросам использования конкорданса.
Современные системы машинного перевода и автоматической обработки текстов широко используют идею конкорданса, которая при новой информационной технологии дает все более достоверные результаты [Marchuk2001j.
Приведем пример конкорданса к глаголу to rule.
ТО RULE
1. Thecourtyesterday ruled that newelectoralregulations...
2. France is trying to rule treaty issue as a tool for...
3. They., by desire to rule out future war...
4. We do not rule outpossibility that...
5. He did not however rule out discussion of these topics.
6. Party activists who ruled roost underformer chairman.
7. The country is ruled by a small group..., etc.
Программа составления конкорданса может предусматривать упорядочение контекстов главного слова по алфавиту и обязательно указывает справа координаты того участка текста, из которого взят данный контекст. Такое указание нужно на случай, если из приведенного фрагмента контекста неясно значение заглавного слова или если требуется установить наличие или отсутствие других составляющих контекста, так или иначе влияющих на идентификацию значения слова [Марчук, Магомедова 2002].
Таким образом:
• Слово в языке функционирует в двух основных ипостасях: в словаре и в тексте. Словарь дает возможность проследить диахроническое развитие слова. Синхронное употребление слова отражается в текстах данного отрезка времени.
•Употребление слова в текстах в рамках современной' корпусной лингвистики отражается в таких понятиях и инструментах исследования, как контекстологический словарь и конкорданс.
• Конкорданс является важным инструментом исследования, известным
давно, но лишь сейчас получившим широкое применение в прикладных целях. Современные информационные технологии обеспечивают возможность быстрого составления представительных и полных конкордансов.
• Мощным инструментом исследования значений слов, особенно слов терминологического характера, является контекстологический словарь. Он может служить средством организации современных терминологических многоязычных баз данных. В нашем исследовании мы используем принципиальные подходы, которые применяются при составлении контекстологического словаря. Мы не строим конкретно контекстологический словарь, но в определении значений многозначных слов терминологического характера, одновременно являющихся словами общеупотребительного языка, применяем методы исследования контекста такие же, какие используются при составлении контекстологического словаря, т.е. методы детерминант.
• При отборе материала для анализа были взяты слова, обладающие широким предметным значением и являющиеся весьма частотными и в современной массовой коммуникации на английском языке. В такой коммуникации преобладают тексты политического, юридического, делового и информационного характера, эти слова могут выступать как в общеупотребительном, так и в строго терминологическом значении. В последнем случае для их экспликации необходимо использовать контекст.
Глава III. Термин и ко нтекст
За последнее время появился ряд обобщающих работ по терминоведению, в которых, рассматриваются и собственно лингвистические аспекты терминов и терминологий как составляющих информатики. Среди них можно отметить работы Ю. Н. Марчука [Марчук 1996], В. А. Татаринова [Татаринов 1994,1996] и др.
Согласно результатам глубокого исследования, проведенного на материале русского языка П. Н. Денисовым [Денисов 1993], лексический уровень каждого языка можно представить, в виде следующей схемы:
Как видно из этой схемы, большую роль в современном языковом общении играют термины, и мы не замечаем, как часто мы их употребляем
даже в бытовом общении. Это слова типа "компьютер", "аппарат", "устройство", "машина" и пр. Термины.можно делить на два класса: 1) термины широкого значения, принадлежащие к нескольким предметным областям и одновременно входящие в общеупотребительный слой лексики языка, и 2) термины более узкого употребления, принадлежащие к строго очерченным предметным областям. Однако даже реклама, например, вводит эти названия в широкий,круг общеязыкового употребления. Специфика термина, прежде всего, в том, что его семантическая структура содержит только свободное значение, имеющее четкие семантические границы. В связи с этим все большее значение приобретает идентификация значения термина посредством контекста.
Понятие «герминоведение» появилось в 1969 году [Гринев 1995]. Оно понимается как научно-прикладная дисциплина на стыке ряда областей науки. Основным объектом исследования в терминоведении являются специальные лексические единицы, в первую очередь термины. Основная цель термидаведения -изучение особенностей и закономерностей образования и развития терминологий для выработки рекомендаций по их совершенствованию- и наиболее эффективному использованию.
Терминоведение связано с рядом наук. В первую очередь оно имеет тесную связь с языкознанием, лексикологией, занимающейся изучением лексического состава языка.
Тесная связь существует между терминоведением и научно-технической информацией.
Роль специальной лексики в получении, хранении и передаче научных знаний, тесная связь истории специальной лексики с историей зарождения и развития научных понятий обусловливают связь терминоведения с гносеологией (теорией познания), науковедением и историей науки и техники. Эта связь усиливается в настоящее время в ходе работ по моделированию процессов приобретения специальных знаний и созданию систем искусственного интеллекта, в
которых требуется такие знания представлять. В терминоведении используются и различные математические методы, в первую очередь - методы математической статистики.
С. В: Гринев в терминоведении выделяет ряд самостоятельных направлений. Так, общее терминоведение изучает наиболее общие свойства, проблемы и процессы, происходящие в специальной лексике, а частное терминоведение занимается изучением отдельных областей знания. Семасиологическое терминоведение занимается исследованием проблем, связанных со значением (семантикой) специальных лексем, изменением значений и всевозможными семантическими явлениями - полисемией, омонимией и пр. Ономасиологическое терминоведение исследует структурные формы специальных лексем, процессы наименования специальных понятий и выбор оптимальных форм наименований. Историческое терминоведение изучает историю терминологий для того, чтобы вскрыть тенденции их образования и развития и с их учетом дать правильные рекомендации по их упорядочению [Гринев 1995].
В рамках корпусной лингвистики появляется возможность по-новому описать такую важную лексическую единицу современной лексики, как термин.
Рассмотрим три основных подхода к описанию термина как лексической единицы.
Первый подход связан с представлением термина в тезаурусе. Тезаурус есть особого вида словарь, где лексические единицы сгруппированы согласно системе понятий, которые они отражают. Словари такого типа известны в лексикологической практике достаточно давно. Сгруппированные по наиболее важным семантическим полям слова далее в той или иной степени детализации разносятся по подгруппам. Для европейских языков известны такие тезаурусы, как тезаурус Роже для английского языка, Дорнзайфа для немецкого и пр. В русской лексикологии можно отметить недавно опубликованный «Русский семантический словарь» академика Н. Ю. Шведовой [Русский семантический словарь 2000]. Последний представляет собой толковый словарь, систематизированный по
классам слов и значений. Для нас важно, что в этом случае составитель исходит из некоторой предварительной классификации внешнего мира и всего того, что описывается лексикой, и систематизирует эту картину, прежде чем заняться классификацией лексики. В некотором общем смысле такой подход можно назвать дедуктивным - от теории к реализации этой теории.
Второй подход - это система методов, складывающихся в рамках корпусной лингвистики. В общем смысле его можно назвать индуктивным, поскольку теория складывается не априорно, а на основе исследования корпуса текстов, практика которых позволяет вскрыть основные закономерности теории. В этом подходе главную роль играет исследование контекстных и речевых закономерностей.
Наконец, третий подход - сочетание двух первых. При этом, исходя из общей концепции системности в лексике, составители словаря дают более или менее богатый иллюстративный материал, показывающий то или иное употребление рассматриваемой лексемы. Этот материал не составляет какой-либо системы, а призван только иллюстрировать то или иное отличающееся от нормативного применение, но тем не менее он играет существенную роль, как это видно, например, на материале того же Русского семантического словаря.
Для сверхбольших баз знаний проблема представления слова и слова-термина играет большую роль. Существует много лингвистических теорий, касающихся проблемы определения значения слова и семантического анализа предложения. Большинство этих теорий основано на том, что выбор лексического значения слова и семантической структуры предложения вторичны по отношению к синтаксической структуре. Это означает, что мы можем получить правильную семантическую структуру только на основе знания синтаксиса.
Таким образом:
• Для всесторонней лингвистической оценки термина при аналитико-синтетической обработке текста необходимо хранить в памяти как можно больше примеров или моделей, предложений, содержащих этот термин. В рамках корпусной лингвистики появляется возможность описать такую
важную единицу словарной лексики, как термин. Из трех основных подходов к описанию термина как лексической единицы (представление термина в тезаурусе, исследование контекстных и речевых закономерностей, сочетание этих двух методов) наиболее эффективным нам представляется третий. К изучению слов общеупотребительного характера, наиболее частотных в разных вариантах английского языка, мы применяем такие же методы, которые используются для точного описания значений терминов.
• Слова общеупотребительной лексики, даже такие, как глаголы: make, give, take, сапу могут стать терминами в соответствующих предметных областях, поэтому мы считаем возможным применить к изучению функционирования этих слов в вариантах английского языка не просто общие содержательные рассуждения, а точные методы исследования контекста.
• Синхронное использование терминов и слов общеупотребительной лексики связано с диахроническим развитием этих слов. Поэтому при определении и классификации синхронных распределений необходимо опираться на опыт формальной регистрации диахронического распределения значений.
Глава IV. Лексическая единица и контекстное разрешение лексической многозначности
Связь диахронного аспекта и синхронии весьма важна для правильного анализа и оценки современного состояния лексики.
Слово есть знак. Как знак оно обладает сложной структурой, представление которой зависит от того, как именно представлять знак по отношению к пользующимся им. Во-первых, знак действует в коммуникации, что определяет его структуру, а, во-вторых, он является главным, поскольку коммуникативная функция есть важнейшая функция языка. В коммуникативной ситуации знак действует в некоторой системе, определяемой как в аспекте синхронности, т.е. в данных текстах, в данной коммуникативной ситуации и при данных коммуникантах, так и в
диахронии, поскольку у каждого языкового знака существует некоторая история, определяющая его современную коммуникативную роль.
Лексика современного английского языка представляет собой довольно своеобразный фрагмент языковой картины мира, поскольку распространение средств коммуникации происходит через нее.
Синхронное состояние лексики представляет собой некоторый идеальный конструкт, научную абстракцию, поскольку трудно представить себе, что состояние языка можно определить как недвижимое и неизменное даже на короткий период времени.
Дальнейшее исследование строится на материале современных англоязычных газет.
Исходная гипотеза: в разных вариантах современного английского языка есть различия в употреблении слов средней многозначности, которые проявляются в таких текстах, как газетные, идолжны быть учтены при обучении английскому языку.
В качестве исходного корпуса текстов нами взяты материалы трех газет на анг-лийскомязыке:
1) английская газета "The Times". Aug. 29, 2001, 17 р. Издается в Лондоне, Англия. Данную газету можно признать в качестве некоторого эталона английского словоупотребления;
2) газета на английском языке "The Island". Feb 2, 2001,16 р. Издается в Шри-Ланке;
3) газета на английском языка "The Nation". Feb. 9, 2000, 16 р. Издается в Бангкоке, Таиланд,
Географически места изданий этих газет отдалены друг от друга, поэтому интересно определить, как и в чем различаются между собой варианты английского языка.
Для того, чтобы в этих целях провести объективное исследование, мы ввели некоторый инструмент исследования - синхронический вектор.
По аналогии с диахроническим вектором слова, введенным М. В. Марчук для исследования диахронического развития слов основного терминологического слоя [Марчук Л988, 1996], в качестве объективного показателя интересующих нас данных определим синхронический вектор слова.
Заполнение синхронического вектора каждого слова осуществляется с помощью словаря-конкорданса, составленного по материалам исходных текстов.
Для каждого слова выборки нами составлен синхронический вектор отдельно для каждого исходного массива текстов, в котором выделены следующие показатели:
• ОЧ - общая частотность в исходном корпусе текстов;
• ЧП - число переводов (значений) в данном исходном корпусе;
• ЧД - общее число лексических и других детерминант;
•ПЗ - порядок значений. Если он совпадает с порядком значений в нормативном словаре, показатель приобретает значение 0, в противном случае -1.
Таким образом, синхронический вектор слова будет представлен в виде (пример с глаголом to rule):
Массив № 1
RULE ОЧ ЧП ЧД ПЗ
25 18 15 1
Массив№2 23 14 10 1
Массив№3 23 11 9 1
С помощью корреляционного анализа сравниваются элементы синхронического вектора, в результате которого можно определить общие тенденции в развитии элементов значений выбранных слов.
Анализ статистических данных может быть проведен точными методами, в том числе с использованием коэффициента корреляции, применение
которого наглядно показывает лингвистическую природу зависимости между компонентами синхронического вектора слова.
Для анализа был выбран массив слов, состоящий из десяти глаголов и четырех существительных. Это общеупотребительные слова, которые одновременно являются и терминами, т.е. лексемы с широкой понятийной основой.
Исходный корпус составляет 10 тысяч слов по каждой газете. Нам представляется, что данное количество достаточно для определения общих тенденций функционирования и различий в употреблении слов в вариантах английского языка.
С помощью компьютера нами проведен корреляционный анализ синхронических векторов слов. Совокупность этих векторов представлена в виде таблицы с набором цифр. Это сделано с целью определения чисто статистической корреляции данных таблицы. При этом следует исходить из предположения, что каждой паре столбцов соответствует некоторая корреляционная зависимость, применяется корреляционное вычисление.
Результаты корреляционного анализа синхронических- векторов выбранного списка представлены в следующих таблицах:
Таблица 1
The Times (Англия)
Q4 ЧП' ; - ЛДт ./:. л .IBS .
make 25 18 157 1
V' give;; 13 6 1
take 22 18 15 1
- carry " 4 3 1 0 !
expect 4 2 0 0
increases 4 2 0 . о 1 -i
find. 7 3 0 о
use. 12 4 1 0
• try 6 3 0 1
pay* 2 2- 0 0
t government. 16 1 0 0
i part; 4 3 1 1
" way. 9 4 0 0
Г- " 3 1 0 0
- корреляция- 0,83572 0,972309' (K659837
Таблица 2
The Nation (Таиланд)
ОЯ5 ЧП Щ v ПЗ;
- make.- 17 14 10 1
give- 12 10 9 1
-takea ,« - -« 15 10 8 1
^ carry» 4 4 2 0
expect; 11 2 0 0
; / increase 5 2 0 0
find? 3 2 0 0
use.. 14 3 0 0 -
: try»* 4 3 0 1
par 2 2 0 0
government* 18 1 0 0
! ■■ part 4 2 0 1
way 7 5 1 0
* party 10 1 0 0
Таблица 3
The Island (Цейлон)
■■. оч:' . ЧЩ- ' ЧД'
v •■' make: ' 23 11 9
19 И 9
. takes : . 23 21 20
сапу 3 3 2
; expects ; - - 7 , 1 0
V' increase , 5 2 0 0
- find* 11 з 1 0
user 10 3 0 0
, .'"ttjif :-. - V. • 1 1 0 1
Pay 4 3 0 1
i.' governmentt 34 1 0 0
.'-.parts;.. 6 2 0 0
- way» 8 5 1 0
party 11 1 0 0
корреляция?. - 0,48491*'; 0,986674' 0:4830682..
Анализ. результатов корреляционного анализа таблиц, составленных из. дистрибутивных характеристик глаголов и существительных в текстах, показывает, что наибольшая корреляционная зависимость имеет место между числом значений (переводов) (ЧП) и числом детерминант (ЧД) во всех газетах. А между общим числом (04) и порядком значений (ПЗ) имеются различия. Взятая за основу формула расчета корреляционной зависимости дала удовлетворительные результаты.
Британский вариант английского языка отличается от цейлонского и таиландского тем, что в нем имеет место наибольшая корреляция между числом переводов и частотностью. В британском варианте (Англия) этот коэффициент составляет 0,8, в то время как для цейлонского и таиландского вариантов он составляет ~ 0,5. Это означает, что в английском варианте анализируемые лексемы имеют более широкий спектр значений, чем в вариантах английского языка Цейлона и Таиланда, что свидетельствует о большей вариативности слов в речи носителей британского варианта английского языка.
Корреляция между числом переводов и числом детерминант во всех трех вариантах примерно одинаковая. .В таиландском и британском (Англия) вариантах коэффициент корреляции высок и составляет 0,97. В цейлонском варианте он выше и равен 0,98. Это можно объяснить качественным состоянием цейлонского варианта английского языка, носители которого считают необходимым эксплицировать значения полисемантичного слова с помощью лексических детерминант.
-Коэффициент корреляции между числом детерминант и порядком значений также варьируется. В таиландском и британском (Англия) вариантах он составляет соответственно 0,66 и 0,659. Это означает, что спектр значений в таиландском и английском вариантах примерно одинаковый. В цейлонском варианте этот коэффициент составляет 0,98, т.е. зависимость между числом детерминант и порядком значений меньше, что свидетельствует о большем разнообразии в выборе лексических значений слова. Трудно сказать, является ли это результатом более свободного владения языком или, наоборот, неправильным использованием языка в ряде случаев. Для того, чтобы прийти к однозначному решению, необходимо более глубокое качественное обследование выбранного массива слов.
В целом следует отметить, что корреляция существует между всеми выделенными столбцами таблиц. Таким образом, синхронический вектор
слова может служить удобным и эффективным инструментом для типологической характеристики вариантов естественного языка. Результаты этого анализа могут быть использованы в лексикологических и лексикографических исследованиях, при составлении словарей, в терминоведении, а также в системах анализа и синтеза на естественном языке.
Вышеизложенное позволяет сделать следующие выводы:
• Исследование корпуса текстов дает возможность выявить, сходства, и различия в использовании многозначных слов.
• Расширение исходного корпуса текстов позволит выявить новые примеры и новые случаи использования данных и других многозначных слов.
• Корреляционный анализ таблиц, составленных из дистрибутивных характеристик глаголов и существительных, показал, что имеется содержательная связь между числом значений и частотностью. Интересным представляется тот факт, что наибольшая корреляционная зависимость имеет место между числом значений (переводов) и числом детерминант, и эта зависимость примерно одинакова для всех видов газет.
В заключении обобщены результаты исследования:
• Сформулирована теоретическая основа исследования: в качестве теоретического фундамента корпусной лингвистики взято разделение языковых данностей на язык и речь и обобщены имеющиеся в статистической лингвистике приемы обработки речи (текстов) для выявления сущностей языка как устройства, порождающего тексты.
• На материале английского языка в рамках перевода текстов на русский язык (в двуязычной ситуации) определено распространение наиболее многозначных и общеупотребительных глаголов и существительных английского языка.
• На материале представительного корпуса текстов для изучения дистрибутивных характеристик выбранных глаголов и существительных.
суммированы известные принципы контекстного определения значений многозначных слов и структуры контекстологического словаря.
• Разработан механизм для иллюстрации дистрибуции и контекстных зависимостей каждого глагола и существительного в каждом выбранном массиве.
• Использован синхронический вектор слова как инструмент для определения объективной оценки роли каждого глагола и существительного в каждом выбранном массиве английских текстов.
• Определены факторы дистрибуции, наиболее характерные для выбранных разновидностей английского языка с точки зрения контекстных зависимостей многозначных слов.
Нами проделана работа по изучению современного состояния некоторых слов общеупотребительной лексики в современных вариантах английского языка. Диахронические векторы слов, составленные по данным синхронного обследования употребления этих слов, дают возможность наглядно проследить развитие значений и связь различных факторов, влияющих на это развитие.
Статистические измерения в языке должны всегда сопровождаться качественным анализом. В нашем случае анализ результатов исследования с содержательной точки зрения показал, что наибольшее влияние на развитие и становление новых лексических значений оказывает лексическая сочетаемость слов, впоследствии приобретающих терминологические значения. Корреляция между разными количественными показателями изменения значений слов явно доказывает правоту такого заключения.
Можно отметить, что корпусная лингвистика, которая в настоящее время находится в стадии становления, предоставляет новые методы, исследовательские приемы и результаты для более полного описания лексического слоя современного языка. Основополагающие принципы, заложенные в этом направлении российскими учеными, как П. Н. Денисовым и В. А. Татариновым получают, с одной стороны, решающее подтверждение, а с
другой - развиваются в результате применения новых информационных технологий.
Подводя общий итог исследования, можем констатировать, что корпусная лингвистика дает современному исследователю удобные инструменты не только для решения прикладных задач, но и для более глубокого понимания основных законов лингвистики.
Основные положения работы отражены в следующих публикациях автора: -
1. Исходный корпус текстов и методы его обработки //Вестник ДНЦ РАН, вып. 1 (12). - Махачкала: Изд-во ДНЦ, 2002. - С. 109-115.
2. Значение диахронических исследований в лексике // Материалы Международной научно-практической конференции ."Человек. Язык. Искусство" (памяти проф. Н. В. Черемисиной) (4-6 ноября 2002 г.). - М.: Изд-во МПГУ, 2002. -С. 162-163.
3. Корпусная лингвистика и контекст (в соавт. с Ю. Н. Марчуком) // Межвузовский сборник научных трудов "Теоретические и практические аспекты лингвистики и лингводидактики". - Сургут: Изд-во СурГУ, 2002. - С. 123-128.
А. Корпусная лингвистика и контекст (в соавт. с Ю. Н. Марчуком) // Вестник ДГУ, Гуманитарные науки, вып. 3 (52). - Махачкала: Изд-во ДГУ, 2002. -С. 46-50.
5. Текст, терминология и базы знаний // Вестник ДНЦ РАН, вып. 13. -Махачкала: Изд-во ДНЦ, 2003. - С. 103-109.
6. Проблема описания термина // Тезисы докладов XXX научной конференции студентов и молодых ученых вузов южного федерального округа (декабрь 2002 г. - март 2003 г.). - Краснодар: Изд-во КГАФК, 2003.- С.161-162.
7. Разнообразие функций словарей // Тезисы докладов XXX научной конференции студентов и молодых ученых вузов южного федерального округа (декабрь 2002 г. - март 2003 г.). - Краснодар: Изд-во КГАФК, 2003. - С. 162-163.
8. О некоторых аспектах представлений лексического значения слова II Вестник молодых ученых Дагестана, вып. 1. - Махачкала: Изд-во ДНЦ, 2003. - С. 230-231
9. Корпусная лингвистика и синхронное изучение лексики II Материалы Международной научной конференции "Язык. Этнос. Сознание" (24-25 апреля 2003 г.). Т. П. - Майкоп: Изд-во АТУ, 2003. - С. 105-114.
10. Основные принципы действия контекстологического словаря ПК250-,,летаю МГУ материалы X международной юбилейной научной конференции
студентов, аспирантов и молодых ученых "Ломоносов - 2003" (15-18 апреля 2003 г,). X П. -М.: Изд-во МГУ, 2003. - С. 249-250.
11. Функции словарей в аспекте корпусной лингвистики II Вестник ДГУ "Труды молодых ученых ДГУ". - Махачкала: Изд-во ДГУ, 2003. - С. 130-135.
12.Анализ параллельных текстов как один из методов корпусной лингвистики II МГУ, лаборатория общей и компьютерной лексикологии и лексикографии, www.philoLmsu.ru.
13. Слово в коммуникативном аспекте II Сборник иностранных и российских аспирантов и докторантов - филологов "Голоса молодых ученых", вып. 13. - М.: Изд-во МГУ, 2003. - С. 54-59.
»174 9 0
Оглавление научной работы автор диссертации — кандидата филологических наук Магомедова, Адигат Нурахмагаджиевна
ВВЕДЕНИЕ.
ГЛАВА 1. ИСХОДНЫЙ КОРПУС ТЕКСТОВ И МЕТОДЫ ЕГО
ОБРАБОТКИ
1.1. Значение исходного корпуса текстов для решения проблем языкознания.
1.1.1. Дистрибутивная методика в лингвистике.
1.1.2. Квантитативная лингвистика: противопоставление языка и речи.
1.1.3. Аспекты речевой деятельности.
1.2. Методика количественного исследования.
1.3. Моделирование с помощью распределений.
1.4. Выборка.
1.5. Связь между характером генеральной совокупности и приложимостью статистических методов.
1.6. Качественно-количественный метод в изучении закономерностей распределения языковых явлений.
1.7. Анализ параллельных текстов как один из методов корпусной лингвистики.
1.8. Выводы.
ГЛАВА 2. РОЛЬ И ФУНКЦИИ КОНТЕКСТОЛОГИЧЕСКОГО СЛОВАРЯ В ИДЕНТИФИКАЦИИ МНОГОЗНАЧНЫХ ТЕРМИНОВ В КОРПУСНОЙ ЛИНГВИСТИКЕ
2.1. Современные многоязычные базы данных.
2.2. Корпусная лингвистика: предмет и задачи.
2.3. Разнообразие функций словарей.
2.4. Значение контекста для реализации лексического значения.
2.5. Контекстологическое представление термина.
2.5.1. Контекстологический словарь: его состав, структура и применение.
2.5.2. Основные принципы действия контекстологического словаря.
2.6. Устройство автоматического контекстологического словаря.
2.7. Словарь - конкорданс как инструмент исследования.
2.8. Выводы.
ГЛАВА 3. ТЕРМИН И КОНТЕКСТ
3.1. Понятие терминологии.
3.1.1. Лексика современных текстов.
3.1.2. Роль терминов и терминологии в современном языковом общении.
3.2.Терминоведение как наука о терминах.
3.2.1. Связь терминоведения и лингвистики.
3.2.2. Понятие многозначности термина.
3.3. Текст и термины. Терминология и базы знаний.
3.3.1. Подъязык предметной области.
3.3.2. Роль среды представления знаний в аналитико-синтетическом процессе.
3.3.3. Язык представления знаний.
3.3.4. Характер существования языка представления знаний.
3.4. Проблема описания термина.
3.5. Терминография.
3.5.1. Методы терминографии.
3.5.2. Многоязычная лексикография и терминография.
3.6. Выводы.
Г Л ABA 4. ЛЕКСИЧЕСКАЯ ЕДИНИЦА И КОНТЕКСТНОЕ
РАЗРЕШЕНИЕ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ
4.1. Представление о лексическом значении слова.
4.2. Коммуникативный аспект определения значения через перевод.
4.3. Синхронное состояние лексики.
4.4. Диахроническое развитие лексики.
4.5. Роль диахронии в пополнении словарного состава.
4.6. Синхронический вектор слова.
4.7. Исследование контекста на примере слов с широким предметным значением в разных вариантах английского языка.
4.8. Выводы.
Введение диссертации2004 год, автореферат по филологии, Магомедова, Адигат Нурахмагаджиевна
Вынесение названия науки в тему диссертации не является обычным приемом и в данном случае объясняется лишь тем, что данная наука только еще формируется в рамках языкознания. Однако нам представляется, что уже есть основания говорить о такой науке или, по крайней мере, важном направлении исследований в типологическом и сопоставительном языкознании.
Новые информационные технологии приводят к тому, что появилась возможность изучать язык не только по традиционным "хранилищам" языковых данных, таким как словари, художественные произведения, сочинения классиков, письменные тексты как представительные выборки из генеральной совокупности, но и вводить в компьютер и обрабатывать большие массивы текстов - корпусы текстов. Мы имеем в этом отношении качественный скачок, который особенно часто отмечается в лексикологии и лексикографии: так, если раньше составление словарей, что является чрезвычайно важной теоретической и практической работой, определяющей, по существу, состав и структуру всех лингвистических исследований и применения языкознания к практическим задачам, таким важным, например, как обучение языку и речи, то теперь эта работа намного облегчается. Резко расширились возможности наблюдения и изучения речи, как устной, так и письменной. Огромный языковый материал, который в состоянии обработать современные компьютеры, дает возможность проверить выдвигаемые теоретические модели лингвистических явлений и разрабатывать новые. Многие традиционные проблемы языкознания в настоящее время решаются по-новому и их решение традиционных проблем достигается гораздо легче и доказательнее.
Язык, особенно его лексика, постоянно развивается. Слова приобретают новые значения, старые значения исчезают. Кроме того, появляются и совершенно новые слова. В подавляющем большинстве случаев новые слова - это термины, отражающие появляющиеся новые понятия науки, техники, быта, социальных отношений, политики и экономики. Количество терминов в каждом языке исчисляется миллионами, включая словосочетания. Современная языковая ситуация, характеризующаяся информатизацией общества, и, так называемым, "информационным взрывом", резким расширением каналов языковых коммуникаций, заставляет обращать особое внимание на расширение лексических значений и на роль терминов и терминологии в современных языках.
Слово и проблемы его анализа - основная тема современной лингвистики. Термин, прежде всего, - слово. Являясь главным носителем семантической информации, слово выступает основным элементом высказывания. Современные теоретические и прикладные исследования, от логических до морфологических, так или иначе исходят от формы и содержания именно слова, поскольку никакая другая языковая единица не обладает таким единством формы и содержания, не играет в высказывании такой важной конструирующей роли, как слово. Инструментом исследования может и должен быть не только словарь как регистратор значения слова в его парадигматике и синтагматике, но и конкорданс, составленный на основе представительной выборки текстов, как регистратор синтагматики и парадигматики слова уже в речи. Несмотря на то, что изменения в значениях только одного слова уже представляют собой самостоятельную проблему, можно представить совокупность слов определенной предметной области в виде некоторой системы, значения слов - составляющих которой определенным образом связаны.
Современные методы исследования дают новые инструменты, не известные лингвистам прошлого и позволяющие проверить гипотетические построения как методом обратной связи, так и точными формальными и количественными методами.
Корпусная лингвистика основана на использовании корпуса, то есть большого объема живого языкового материала, который можно извлечь из различных источников и ввести в компьютер. Она исследует как речь, так и язык в новом ракурсе, открывая огромный исследовательский словарь.
Все это требует особого осмысления. В данной диссертации мы пытаемся сформулировать предмет, объект и методы современной корпусной лингвистики.
Данное исследование посвящено анализу синхронного состояния лексических единиц в рамках корпусной лингвистики.
В настоящее время большое значение приобретает корпусная лингвистика, в рамках которой изучаются вопросы распределения лингвистических явлений в разных языках и объективным путем получаются новые лингвистические данные. Преимущества этого направления в том, что оно избегает субъективизма, неизбежного в традиционном языкознании, и опирается на объективные сведения.
Некоторые положения корпусной лингвистики были известны достаточно давно, например, дистрибутивная методика, составление конкордансов и пр. Однако как цельное лингвистическое направление она сформировалась сравнительно недавно.
Объектом исследования в данной работе выступают слова с широкой понятийной основой, которые, являясь терминами, одновременно входят в пласт общеупотребительной лексики.
Актуальность темы исследования определяется тем, что в современном языковом общении большую роль играет терминология, которая функционирует как в общеупотребительном пласте, так и в виде достаточно узких специальных обозначений, вошедших тем не менее в язык («компьютер», «файл», «сервер» и т.д.). В рамках корпусной лингвистики появляется возможность по-новому описать такую важную единицу современной лексики, как термин. Поскольку современные базы знаний политематичны, постольку в них велика роль контекстологического словаря, который можно эффективно исследовать, используя принципы и методы корпусной лингвистики.
Основная цель работы - выявить особенности функционирования слов, выбранных для анализа в географически, социально и культурно различных условиях.
Поставленная цель определила и ряд конкретных задач:
•определить распространение многозначных глаголов и существительных на материале английского языка в разных условиях его бытования (Англия, Шри-Ланка, Таиланд);
• определить и выбрать достаточный массив (корпус) исходных текстов для обеспечения репрезентативности материала и надежности полученных результатов;
• опираясь на контексты, представленные в конкордансе, установить значения лексических единиц, отобранных для анализа, в конкретных контекстуальных условиях; выявить особенности реализации этих значений при их сочетании с детерминантами;
• провести сравнительный анализ словарных значений слов, вовлеченных в исследование, и тех значений, которые они приобретают в контексте;
• при опоре на дистрибутивный и статистический методы выявить коэффициент корреляции между несколькими парами признаков: география газеты, тематика (рубрикация газетного материала), осложнение детерминантами и т.д.;
• с учетом синхронического вектора слова (по аналогии с диахроническим вектором, введенным в лингвистический обиход М. В. Марчук), выявить сходства и различия в семантике глаголов и существительных в словаре и в корпусе.
Научная новизна исследования заключается в том, что впервые с опорой на корпусную лингвистику исследуется семантика многозначных глаголов и существительных и выявляются особенности их функционирования, предопределяемые как спецификой вариантов английского языка, используемых в Англии, Шри-Ланке, Таиланде, так и особенностями текстов публицистического стиля; освещается роль и структура контекстологического словаря, разработанного и изданного Ю. Н. Марчуком [1976] как основы для многоязычных терминологических баз данных. Впервые вводится понятие синхронического вектора, предопределяющего развитие семантической структуры слов, используемых в качестве терминов. При помощи коэффициента корреляции определяется зависимость между степенями изменений значений слов, принадлежащих к тому или иному лексико-грамматическому классу.
Основные положения диссертации, выносимые на защиту:
1. Корпусная лингвистика открывает новые методы и исследовательские приемы для более полного описания лексического слоя современного языка и при этом дает возможность получить новые результаты.
2. Исследование корпуса текстов способствует выявлению широкого спектра семантики многозначных слов в широком контексте, способствует идентификации слова в конкретном акте коммуникации.
3. Корпус текста представляет собой основной массив не только для построения контекстологического словаря, но и разграничения различных вариантов языка.
Основные методы, применяемые в настоящей работе, определяются задачами исследования. В связи с этим главным образом используются дистрибутивный и статистический методы. Первый - использован при контекстологическом анализе для выявления спектра реализации значений глаголов и существительных. При опоре же на категориальный аппарат статистического метода нами были выявлены указанные выше корреляции нескольких пар признаков.
Материалом исследования послужили англоязычные газеты: «THE TIMES» (Лондон), «THE ISLAND» (Шри-Ланка) и «THE NATION» (Бангкок). При этом для выявления указанных корреляций тематика газетных статей была представлена максимально разнообразно: культура, образование, политика, экономика.
Исследованию в работе подвергнут исходный корпус в 10 тысяч словоупотреблений по каждой из газет. Географическая отдаленность стран, в которых издаются указанные газеты, позволяет, на наш взгляд, наиболее полно выявить особенности реализации значений выбранного списка слов в таком многогранном корпусе, как газета.
Теоретическая значимость исследования заключается в уточнении и расширении некоторых важных теоретических вопросов, связанных с определением слов с широкой понятийной основой, возможностей привлечения как теоретических, так и практических ресурсов корпусной лингвистики вообще, корпуса и конкорданса, в частности, для решения ряда проблем, лежащих в сфере синхронического вектора слова.
Практическая значимость работы определяется возможностью использования результатов проведенного исследования в учебном процессе, в лексикографической практике, в частности, при составлении двуязычных и многоязычных словарей, в теории и практике перевода, при чтении лекций по корпусной лингвистике и обработке текстов.
Апробация работы. Основные положения диссертации обсуждались на различных Международных и региональных научных конференциях: Международной научно-практической конференции "Человек. Язык. Искусство" (памяти проф. Н. В. Черемисиной) (Москва, 4-6 ноября 2002 г.); XXX научной конференции студентов и молодых ученых Южного Федерального округа (декабрь 2002 г.- март 2003 г.); Международной научной конференции, посвященной 30-летию факультета иностранных языков Адыгейского государственного университета "Язык. Этнос. Сознание" (Майкоп, 24 - 25 апреля 2003 г.); 250-летию МГУ X Международной Юбилейной научной конференции студентов, аспирантов и молодых ученых к "Ломоносов-2003" (Москва, 15-18 апреля 2003 г.). Результаты данного исследования были также апробированы на научно-практической конференции профессорско-преподавательского состава Дагестанского государственного университета (Махачкала, 24 - 25 апреля 2003 г.). Основные положения работы изложены в 13 публикациях.
Структура и объем диссертации. Содержание диссертации изложено на 132 страницах и состоит из введения, четырех глав, заключения и библиографии. Текст диссертации иллюстрируется 5 рисунками и содержит 3 таблицы. В конце диссертации дано приложение: образцы статей из газет, на материале которых проводилось исследование.
Заключение научной работыдиссертация на тему "Корпусная лингвистика и контекстное разрешение лексической многозначности слов"
4.8. Выводы
Вышеизложенное позволяет сделать следующие выводы:
Исследование корпуса текстов дает возможность выявить сходства и различия в использовании многозначных слов.
Корреляционный анализ таблиц, составленных из дистрибутивных характеристик глаголов и существительных, показал, что имеется содержательная связь между числом значений и частотностью. Интересным представляется тот факт, что наибольшая корреляционная зависимость имеет место между числом значений (переводов) и числом детерминант, и эта зависимость примерно одинакова для всех видов газет.
Вариант английского языка в Англии отличается от цейлонского и таиландского тем, что в нем имеет место наибольшая корреляция между числом переводов и частотностью. Это означает, что в британском варианте у наиболее употребительных слов больше значений, чем у тех же слов, но в цейлонском и таиландском вариантах английского языка. Это значит, что носители языка демонстрируют большую вариативность в использовании многозначных слов.
Коэффициент корреляции между числом детерминант и порядком значений также варьирует. Он одинаков в таиландском и английском вариантах. Это означает, что упорядочение значений многозначных слов в таиландском и английском вариантах примерно одинаковое. В цейлонском варианте зависимость между числом детерминант и порядком значений меньше. Имеет место большее разнообразие в выборе лексических значений слова. Корреляция существует между всеми выделенными столбцами таблиц. Синхронический вектор слова может служить удобным и эффективным инструментом для типологической характеристики вариантов естественного языка.
Расширение исходного корпуса текстов позволит выявить новые примеры и новые случаи использования данных и других многозначных слов.
ЗАКЛЮЧЕНИЕ
В результате исследования заявленной темы нами:
- сформулирована теоретическая основа исследования: взято в качестве теоретического фундамента корпусной лингвистики разделение языковых данностей на язык и речь и обобщены имеющиеся в статистической лингвистике приемы обработки речи (текстов) для выявления сущностей языка как устройства, порождающего тексты;
- на материале английского языка в рамках перевода текстов на русский язык (в двуязычной ситуации) определено распространение наиболее многозначных и общеупотребительных глаголов и существительных английского языка; суммированы известные принципы контекстного определения значений многозначных слов и структуры контекстологического словаря, на материале представительного корпуса текстов для изучения д истрибутивных характеристик выбранных глаголов и существительных; разработан механизм для иллюстрации дистрибуции и контекстных зависимостей каждого глагола и существительного в каждом выбранном массиве; использован синхронический вектор слова как инструмент для определения объективной оценки роли каждого глагола и существительного в каждом выбранном массиве английских текстов. определены факторы дистрибуции, наиболее характерные для выбранных разновидностей английского языка с точки зрения контекстных зависимостей многозначных слов.
Можно констатировать, что проведенное исследование подтвердило предположения, высказанные в постановке задач. Корпус текстов дает достаточные данные не только для построения контекстологического словаря, но и для разграничения разных вариантов английского языка, т.е. для некоторой типологии, имеющей отношение также и к теоретической лингвистике. Синхронический вектор слова позволяет разграничить особенности контекстных зависимостей многозначных глаголов и существительных в разных вариантах языка.
Изучение лексического состава естественного языка приобретает в настоящее время большое значение в связи с тем, что быстрее всего реагирует на новые информационные технологии лексический уровень языка. Многочисленные автоматические словари включают новые массивы как однозначных слов-терминов, так и общеупотребительных слов, и граница между терминами и общеупотребительными словами становится все более расплывчатой.
Решением проблемы является использование контекстологических словарей. Однако в многоязычных терминологических базах данных, которые все чаще используются в прикладных целях, возможности контекстного описания многозначных терминов, хотя и остаются, но ограничиваются тем, что раздел между предметными областями стирается.
В связи с этим возникает потребность диахронического описания лексических единиц. Развитие и становление значений многозначных терминов можно описать посредством такой формальной системы, как диахронический вектор слова. В этом векторе в явном виде представлены изменения в составе значений слов. Эти изменения доступны для измерений с помощью точных методов математической статистики.
Нами проделана работа по изучению современного состояния некоторых слов общеупотребительной лексики в современных вариантах английского языка. Диахронические векторы слов, составленные по данным синхронного обследования употребления этих слов, дают возможность наглядно проследить развитие значений и связь различных факторов, влияющих на это развитие.
Статистические измерения в языке должны всегда сопровождаться качественным анализом. В нашем случае анализ результатов исследования с содержательной точки зрения показал, что наибольшее влияние на развитие и становление новых лексических значений оказывает лексическая сочетаемость слов, впоследствии приобретающих терминологические значения. Корреляция между разными количественными показателями изменения значений слов явно доказывает правоту такого заключения.
Можно отметить, что корпусная лингвистика, которая в настоящее время находится в стадии становления, предоставляет новые методы, исследовательские приемы и результаты для более полного описания лексического слоя современного языка. Основополагающие принципы, заложенные в этом направлении такими российскими учеными, как П. Н. Денисовым и В. А. Татариновым получают, с одной стороны, решающее подтверждение, а с другой - развиваются в результате применения новых информационных технологий.
Подводя общий итог исследования, можем сказать, что корпусная лингвистика дает современному исследователю удобные инструменты не только для решения прикладных задач, но и для более глубокого понимания основных законов лингвистики.
Список научной литературыМагомедова, Адигат Нурахмагаджиевна, диссертация по теме "Теория языка"
1. Арапов М. В. Квантитативная лингвистика.- М.: Наука, 1988. 184 с.
2. Головин Б. Н. Язык и статистика.- М.: Просвещение, 1971. 189 с.
3. Головин Б. Н. Введение в языкознание. М.: Высшая школа, 1966.332 с.
4. Гвишиани Н. Б., Герви О. Ю. Корпусная лингвистика и грамматика речи // Вестник МГУ. Серия 9. Филология. 2001 №2. М. С. 46-62.
5. Гринев С. В. Введение в терминографию. М.: МПУ, 1995. 158 с.
6. Гринев С. В. Введение в терминоведение. М.: Московский Лицей, 1993. 310 с.
7. Денисов П. Н. Лексика русского языка и принципы ее описания.- М.: Русский язык, 1993. 245 с.
8. Естественный язык, искусственные языки и информационные процессы в современном обществе / Под ред. Р. Г. Котова. М.: Наука, 1988. 174 с.
9. Зелко В. М. Проблемы разработки лингвистического обеспечения системы китайско-русского информационного машинного перевода: Дис. . канд. филол. наук М.: Ин-т языкознания АН СССР, 1991. 165 с.
10. Зубова И. И. Информационные технологии в лингвистике. Минск: МГЛУ, 2001.212 с.
11. Ивлева Г. Г. Тенденции развития слова и словарного состава. М.: Наука, 1986. 135 с.
12. Караулов Ю. Н. Обищ и русская идеография. М: Нгука, 1976.355 с.
13. Корреляционная типология глагольных систем индоевропейских и иноструктурных языков / Отв. ред. Г.Г. Сшъницкий. Смоленск: Смоленский государственный педагогический университет, 1999. 320 с.
14. Кривоносое А. Т. Язык, логика, мышление. Умозаключение в естественном языке.- М.: Нью-Йорк, Валанг, 1996. 682 с.
15. Лингвистический энциклопедический словарь. -М.'.Советская Энциклопедия, 1990. 683 с.
16. Марчук Ю. Н., Магомедова А. Н. Корпусная лингвистика и контекст // Межвузовский сборник научных трудов "Теоретические и практические аспекты лингвистики и лингводидактики". Сургут: Изд-во СурГУ, 2002. С. 123-128.
17. Мартыненко Г. Я. Методы статистического моделирования в языкознании // Прикладное языкознание. СПб.: Изд-во СПбГУ, 1996. С. 201-223.
18. Марчук М. В. Динамика лексических значений многозначных слов (лексика основного терминологического слоя). Дис. в форме научного доклада на соиск. уч. степени д-ра филол. наук. М.: МГПУ, 1996. 59с.
19. Марчук М. В. К развитию лексических значений многозначных слов: Дис. . канд. филол. наук. JL: ЛГУ, 1988. 125 с.
20. Марчук Ю. Н. Терминологическая работа Всероссийского Центра переводов // Терминоведение.- М.: Московский Лицей, Вып. 1-3. 1996. С.14-18.
21. Марчук Ю. Н. Основы терминографии,- М.: ЦИИ МГУ, 1992. 75 с.
22. Марчук Ю. Н. Вычислительная лексикография. М.: ВЦП, 1976,183 с.
23. Марчук Ю. Н. Контекстологический словарь для машинного перевода многозначных слов с английского языка на русский.- М.: ВЦП, 1976. Часть 1 264 е., часть 2 - 256 с.
24. Марчук Ю. Н. Опыт машинной реализации дистрибутивной методики определения лексических значений // Статистика речи и автоматический анализ текста 1972. Л.: Наука, 1973. С. 181-230.
25. Марчук Ю. Н. Основы компьютерной лингвистики: Уч. пособие. М.: Изд-во МПУ "Народный учитель", 1999. 226 с.
26. Марчук Ю. Н. Основы компьютерной лингвистики: Уч. пособие. М.: Изд-во МПУ "Народный учитель", 2000. 226 с. (изд-е 2-е доп.)
27. Марчук Ю. Н. Уроки начального периода развития машинного перевода в СССР // Докл. на III Научной конференции Военного Университета
28. Теория перевода и практика подготовки переводчиков». М., 18 февраля 1999. С. 201-212.
29. Марчук Ю. Н. Модель «текст-текст» и переводные соответствия в теории машинного перевода // Проблемы компьютерной лингвистики. Минск: МГЛУ, 1997. С. 21-29.
30. Марчук Ю. Н. О статье Д. Радо "Принципы систематической транслятологии" // Babel, No 2/1982, XXVIII. Budapest. Pp. 82-87.
31. Марчук Ю. Н. Проблемы машинного перевода. М.: Наука, 1983. 232 с.
32. Маслов Ю. С. Введение в языкознание. М.: Высшая школа, 1987. 272 с.
33. Мельников Г. П. Системология и языковые аспекты кибернетики. М.: Советское Радио, 1978. 367 с.
34. Михайлов А. И., Черный А. И., Гиляревский Р. С. Основы информатики. -М.: Наука, 1968. 231 с.
35. Моторин Ю. А., Марчук Ю. Н. Реализация автоматического перевода на современных серийных ЭВМ общего назначения // Вопросы радиоэлектроники, МРП СССР. Серия ЭВТ. 1970. Вып. 7. С. 20-39.
36. Нелюбим Л. Л. Перевод и прикладная лингвистика.- М.: Наука, 1983. 241 с.
37. Нелюбим Л. Л. Перевод боевых документов армии США. М.: Во-ениздат, 1989. 272 с.
38. Пиотровский Р. Г. Инженерная лингвистика и теория языка. Л.: Наука, 1979. 111 с.
39. Пиотровский Р. Г. Лингвистический автомат и его речемыслительное обоснование. Минск: МГЛУ, 1999.196 с.
40. Пиотровский Р. Г., Билан В.Н., Боркун М. Н, Бобков А. К. Методы автоматического анализа и синтеза текста. Минск: Вышэйшая школа, 1985. 222 с.
41. Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М.: Высшая школа, 1977. 383 с.
42. Поликарпов А. А. Элементы теоретической социолингвистики. М.: Изд-во МГУ, 1979. 161с.
43. Рождественский Ю. В. Типология слова. М.: Высшая школа, 1969. 321 с.
44. Рождественский Ю. В., Волков А. А., Марчук Ю. Н. Введение в прикладную филологию. М.: МГУ, 1988. 116 с.
45. Русский семантический словарь / Ред. Н. Ю. Шведова. М.: Азбуковник, 2000. 800 с.
46. Семенов A. JI. Контекстологический словарь основных терминов маркетинга. М.: ВЦП, 1994. 122 с.
47. Татаринов В. А. Теория терминоведения (в 3-х томах). Т. 1. Теория термина: история и современное состояние. М.: Московский Лицей, 1996.311 с.
48. Татаринов В. А. История отечественного терминоведения.-М.: Московский Лицей, том 1,1994. 407с., том 2,1995. 333 с.
49. Теория и практика английской научной речи. М.: МГУ, 1987. 240 с.
50. Тулдава Ю. Проблемы и методы квантитативно-системного исследования лексики. Таллин: Валгус, 1987. 204 с.
51. Уфимцева А. А. Лексическое значение. Принцип семиологического описания лексики,- М.: Наука, 1986. 239 с.
52. Шевчук В. Н. Динамика развития отраслевой терминологии как лексикографическая проблема // Теория и практика научно-технической лексикографии. М.: Русский язык, 1988. С. 57-61.
53. Шелов С. Д. Опыт построения терминологической теории: значение и определение терминов: Дис. . д-ра филол. наук. М.: МГУ, 1995. 201с.
54. Шемакин Ю. И. Введение в информатику. М.: Финансы и статистика, 1985. 189 с.
55. Шубик С. А. Статистические методы в лингвистике // Статистика речи и автоматический анализ текста 1980. Л.: Наука, 1980. С. 52-63
56. Brown P., Cocke J., Delia Pietra S., Delia Pietra V., Jenilek F., Lafferty J., Mercer R. Roossin P. S., A Statistical Approach To Machine Translation, in Computational Linguistics, 16(2), 1990.
57. Brown R., Adding Linguistic Knowledge to a Lexical Example-Based Translation System, in Proceedings of the Eighth International Conference on Theoretical and Methodological Issues in Machine Translation (TMI-99), Chester, UK, 1999.
58. Fung P., A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to Non-Parallel Corpora, in Third Conference of the Association for Machine Translation in the Americas, 1998.
59. Gaussier Ё., Hull D., Alt-Mokhtar S., Term Alignment in Use: Machine-Aided Human Translation, in Parallel Text Processing, edited by J. Veronis, Dordrecht, Netherlands, 2000
60. Han В., Building a Bilingual Dictionary with Scarce Resources: A Genetic Algorithm Approach, in Student Research Workshop, the Second Meeting of the North American Chapter of the Association for Computational Linguistics, Pittsburgh, USA, 2001.
61. Harris В., El-Text: A New Concept in Translation Theory, in Language Monthly, 54, March 1988.
62. Herdan G. Language as Choice and Chance. P. Noordhoff, Groningen, 1956. 350 p.
63. Hutchins W. J. (ed). Yars in Machine Translation. John Benjamin Publ.Co.,Amsterdam/ Philadelphia, 2000. 415 p.
64. Isabelle P., Bi-Textual Aids for Translators, in Proceedings of the Eight Annual Conference of the UW Centre for the New OED and Text Research, Waterloo, Canada, 1992.
65. Jager G. Translation und Translationslinguistik. Halle (Saale): VEB Max Niemeyer Verlag, 1975. 214 S.
66. Knight K., A Statistical MT Tutorial Workbook, http://www.clspjhu.edu/ws99/projects/mt/mt-workbook.htm. 1999.
67. Knight K., Automating Knowledge Acquisition for Machine Translation, in AI Magazine, 18 (4), 1997.
68. Macklovitch E., Can Terminological Consistency be Validated Automatically? Lexicommatique et Dictionairiques: Proceedings of the IV Journees scientifiques, Laval, Canada, 1995.
69. Marchuk Yu. N. Basic Trends in Modern Machine Translation Research // SPECOM 2001. International Workshop Speech and Computer. Moscow, 29-31. October 2001. Proceedings. Pp. 8-11.
70. Marchuk Y. N. The Contextological Dictionary: Use in Programmed Language Teaching. In Computers and the Humanities 13, (1979). Pp. 277-281.
71. Miram G. E. Translation Algorithms. Kyiv, "Twin inter", 1998,175 p.
72. Список источников на английском языке:
73. Thailands Independent Newspaper, "The NATION" Feb. 9, 2000,16 pages.
74. London, "THE TIMES" Aug. 29,2000,17 pages.
75. Sri-Lanka, Colombo, "THE ISLAND", Feb. 2,2001, 16 pages.