автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Оптимизация индивидуальных лингвистических исследований средствами специализированной базы данных
Полный текст автореферата диссертации по теме "Оптимизация индивидуальных лингвистических исследований средствами специализированной базы данных"
На правах рукописи
КЛОЧКО Алексей Данилович 1
ОПТИМИЗАЦИЯ ИНДИВИДУАЛЬНЫХ ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЙ СРЕДСТВАМИ СПЕЦИАЛИЗИРОВАННОЙ БАЗЫ ДАННЫХ
10 02 21 — прикладная и математическая лингвистика
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата филологических наук
Тверь -2006
003059631
Работа выполнена на кафедре английской филологии в Армавирском лингвистическом университете
Научный руководитель доктор филологических наук, профессор
Сакиева Римма Сафраиловна.
Официальные оппоненты
доктор физико-математических наук, профессор Чагров Александр Васильевич
кандидат филологических наук, доцент Дорофеева Ирина Валентиновна
Ведущая организация
Кубанский Государственный университет
1 /
Ч J<: 2006 г в
час на за-
Защита состоится « --' » _ -----_- ___ ______
седании диссертационного совета-Д212 263<)5 при Тверском государственном университете по адресу Россия, 170002, г Тверь, проспект Чайковского, д 70, корпус 4, филологический факультет, ауд 47
С диссертацией можно ознакомиться в научной библиотеке Тверского государственного университета (г Тверь, ул Володарского, 42)
Отзывы можно отправлять по адресу Россия, 170013, г Тверь, ул Желябова, 33, Тверской государственный университет, ученому секретарю
Автореферат диссертации разослан « »
Ученый секретарь диссертационного совета доктор филологических наук, профессор Л.Н Скаковская
Общая характеристика исследования Актуальность предложенной темы состоит в том, что индивидуальные лингвисты-исследователи, желающие оптимизировать сам процесс своей научной работы с помощью персонального компьютера, до сих пор не имеют обобщающих работ по данной проблеме Правда, имеются многочисленные публикации, в тч обобщающего характера, о применении обучающих программ на платформе ПК (персональных компьютеров), но при этом предмет исследований лежит в дидактической и общепедагогической плоскости Рабочими группами исследователей в различных научных центрах (Киев, Москва) разработаны программы для ПК, например, для разработки частотных словарей, т е для лексикологических исследований в области лингвостатистики Однако, будучи раз созданы, они не позволяют без переписывания кода перенастраивать себя для новых исследовательских задач, и даже для модификации той же задачи
При этом существует обширная литература по такой бурно развивающейся области лингвистики, как прикладная и математическая лингвистика, лабораторно-материальной базой которой служат большие ЭВМ, имеющие свой персонал ИТР и программистов, научные коллективы различных уровней и научных направлений Их целью являются большие проекты большие лингвистические базы данных, которые затем материализуются в многотомные словари (объемом до нескольких десятков томов), энциклопедические издания в области лингвистики (например, «Языки мира»), электронные базы данных, постоянно пополняемые ас-пектно ориентированными лингвистической фактологией и применяемые для синхронических и диахронических исследований Кроме того, имеется достаточное количество литературы по разработке баз данных для применения в бизнесе или юридической практике Но лингвистические исследования имеют свою ярко выраженную специфику и почти необозримую широту предметов исследования
Таким образом, можно констатировать, что существует своего рода
3
«серая зона» между глобальными лингвистическими исследованиями, обеспеченные мощными материально-техническими и человеческими ресурсами (т н Большие Проекты) и исследованиями лингвистов-одиночек, ведущие исследования средствами 19 века
Предлагаемая работа является попыткой обобщения и систематизации опыта создания и применения БД в указанных выше областях, а также изложением путей научно обоснованной оптимизации баз данных, специализированных для индивидуальных частнолингвистических исследований
Объектом исследования выступают специализированные (лингвистические) базы данных)
Предметом исследования является оптимизация электронных средств хранения и обработки лингвистических данных в целом, т е и специализированных баз данных и (присоединенных) электронных таблиц
Цель исследования — разработка и оптимизация специализированной электронной базы данных для хранения и обработки данных лингвистического исследования для индивидуального лингвиста-исследователя
Задачи исследования Из поставленной цели исследования следует решить ряд исследовательских задач теоретического и практического плана В теоретическом отношении мы делаем попытку
а) в историко-научном аспекте осветить проблемы компьютерной лингвистики и лингвистических баз данных различного типа, обсуждаемые в работах отечественных и зарубежных исследователей, б) изучить и обобщить опыт применения больших ЭВМ в различных сферах прикладной лингвистики, оценить возможность перенесения части этого опыта на платформу ПК, в) определить возможности и ограничения персонального компьютера, в оптимизации и интенсификации труда индивидуальных лингвистов, г) на реальном примере разработанной нами базы данных для частнолингвистического исследования показать упомянутые возможности и ограничения ПК, д) предложить классификацию лингвистических баз данных, посильных для разработки индивидуальными лингвистами-
4
исследователями
Из общетеоретической цели исследования необходимо следуют частные практические задачи а) формулирование принципов общий структуры и подсистем частнолингвистической (словообразовательной) базы данных для индивидуального исследователя, б) выделение критериев (частичный аналог зон или помет словарных статей) для запросов на выборку1 в частнолингвистической БД, в) компьютерный поиск и отбор языковых единиц и их эксплицитных словоформ по заданным параметрам, д) разработка частнолингвистической базы данных в качестве примера
Методология предлагаемой работы опирается на теоретическую базу прикладной и компьютерной лингвистики, созданную работами отечественных отечественных ученых в области прикладной лингвистики (А Е Кибрик, Р К Потапова, Ю В Рождественский, Б Ю Городецкий, J1 H Беляева, Р Ю Кобрин, С Д Шелов, Р Г Пиотровский, А С Герд, В M Лейчик, А H Баранов, Г В Колшанский и др ) С учетом междисциплинарного характера данного исследования, мы обратились также к теории баз данных (БД), аспекты которой изложены в трудах основоположника реляционных баз данных, американского математика Э Кодда (Edgar F Codd), а также экспертов по СУБД MS Access - Дж Вискас (John L Viescas), и в работах отечественных экспертов по теории БД — MP Кагаловский, В В Бойко, С А Каратыгин
Методы исследования В работе применялись следующие общенаучные и частные методы: общенаучные методы (методы эмпирического исследования — наблюдение, сравнение, измерение, эксперимент, моделирование, методы эмпирического и теоретического уровня - абстрагирование, анализ и синтез, методы теоретического уровня - метод восхождения от абстрактного к конкретному Лингвистические методы — поскольку наше исследование носит междисциплинарный характер, то в нашем случае
' Как пример возможностей частнолингвистической БД, это замечание относится и к пунктам «в, г, д»
речь может идти о комплексе частных методов из частных дисциплин сравнительно-сопоставительный метод, метод компонентного семантического анализа
Новизна исследования. Созданная нами специализированная база данных для хранения и обработки результатов индивидуальных лингвистических исследований на примере коллоквиальных композитных существительных представляет собой первый опыт оптимизации и интенсификации НИР средствами СУБД для ПК в среде лингвистов-индивидуалов, т е не входящих в «команды Больших Проектов» Это особенность предлагаемой работы и определяет ее новизну
Теоретическая значимость данного исследования состоит в том, что оно вносит вклад в систематизацию и развитие компьютерных методов индивидуальных частнолингвистических исследований Сформулированные принципы создания и оптимизации лингвистических баз данных, модифицируемых для индивидуальных исследований, могут послужить стимулом для дальнейшей компьютеризации и информатизации НИР индивидуальных лингвистов с чисто гуманитарным менталитетом Это поможет им рационализировать, ускорить поиск релевантного для исследования языкового материала и обработку полученных результатов в целях повышения объективности формулируемых закономерностей
Практическое применение результатов исследования заключается а) в возможности пополнения индивидуальными лингвистами-практиками разработанной нами БД «Словообразовательные аспекты коллоквиализмов» из доступных источников разговорной лексики, б) полученный словник, снабженный индексацией по релевантным частнолингвистическим (словообразовательным и семантическим) параметрам, может использоваться ими для лингводидактических задач, в) в возможности разработки оригинальных БД для других специфических направлений индивидуальных лингвистических исследований, г) в оптимизации разработки тематических учебных словарей по узким отраслям
6
Научная гипотеза: индивидуальная электронная лингвистическая база данных (ИЭЛ БД) является особым видом БД, которая должна обладать специфической структурой, оптимизированной для индивидуальных лингвистических исследований и предусматривающей возможность модификации в случае последующего уточнения задач, что неизбежно в ходе НИР
Положения, выносимые на защиту
1 Существующие аппаратные и программные средства для лингвистических исследований в подавляющем своем большинстве разрабатывались или оптимизировались для научных коллективов и т н Больших Проектов
2 Опыт применения персональных компьютеров в прикладной лингвистике, особенно БД, также относится в основном к исследовательским или проектным группам
3 Существует необходимость оптимизации и интенсификации индивидуальных лингвистических исследований, которые зачастую ведутся без применения ПК (если не учитывать набор текста), что
а) затягивает накопление фактического материала и его обработку и
б) при ручном методе некоторые закономерности трудно прослеживаются или допускают субъективную интерпретацию
4 Оптимальным решением было бы создание электронного рабочего места индивидуального лингвиста-исследователя, которое состояло бы из а) системы управления базами данных (СУБД) с набором специализированных баз данных (БД) с оптимизированной структурой для задач исследования; б) приложений на основе электронных таблиц для автоматизации статистических вычислений, в) шаблонов MS Word для хранения макрокоманд, предназначенных для автоматической обработки больших текстовых корпусов
5 Примером применения специализированной базы данных для индивидуальных лингвистических исследований может служить БД «Ас-
7
пекты словообразования», в структуру которой входят основная таблица, вспомогательные (подстановочные) таблицы со специализированными перечнями лингвистических критериев, запросы в соответствии с задачами исследования, вспомогательных электронных таблиц, меню для запуска специализированных форм (для ввода JIE) и запросов для извлечения и просмотра лингвистических данных, коллекцией ярлыков для быстрого запуска объектов БД, главного кнопочного меню для упрощения поиска и запуска лингвистически специализированных объектов БД
Апробация и внедрение результатов исследования в практику.
Содержание диссертации изложено в 8 публикациях общим объемом 16 п л Отдельные этапы исследования обсуждались на научных конференциях, статьи по темам выступлений опубликованы в материалах межвузовских научных конференций «Проблемы теории и практики преподавания иностранных языков» Краснодар, КВАИ, 2002, 2003, 2004, 2005», сборниках научно-методических статей с материалами научно-методической конференции Армавирского лингвистического университета Получен акт о внедрении результатов тестирования базы данных «Словообразовательные аспекты коллоквиализмов» на факультете иностранных языков Армавирского Государственного педагогического университета
Объем и структура исследования Композиция диссертации соответствует целям и задачам исследования и состоит из введения, трех глав, заключения, библиографии (всего 120), в качестве приложений - иллюстрированный перечень объектов базы данных и CD-ROM с дистрибутивом лингвистической базы данных «Словообразовательные аспекты коллоквиализмов» объемом около 7 МБ Перечень глав включает в себя Глава I «Краткий историко-научный обзор развития компьютерной лингвистики», Глава II «Категории общего и особенного в лингвистической базе данных как частного случая реализации теории баз данных», Глава III «Оптимизация структуры БД для задач индивидуального лингвистического исследования»
8
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ Во Введении обоснованы актуальность темы исследования, научная новизна, теоретическая и практическая значимость, определены предмет и объект исследования, методы, научная база, основная гипотеза, сформулированы цель, задачи и выносимые на защиту положения Указаны данные об апробации результатов и структуре диссертации
В первой главе «Краткий историко-научный обзор развития компьютерной лингвистики» освещены основные этапы развития и современное состояние субдисциплин, направлений и методов компьютерной лингвистики, обобщается опыт применения больших вычислительных систем в некоторых из указанных далее областей лингвистических исследований, делается предварительный вывод о влиянии соотношения «уровень сложности актуальной научно-лингвистической тематики / вычислительные ресурсы ПК (персональных компьютеров)», а также человеческого фактора лингвиста-исследователя» на выбор областей для лингвистических исследований с учетом указанных ресурсов и конкретных условий индивидуальной НИР
Задачи прикладной лингвистики в гуманитарных науках на современном этапе, по мнению одного из ведущих прикладников Гердт А С в самом общем виде следующие «Автоматизация научно-исследовательских работ в гуманитарных науках должна оптимизировать а) поиск литературы предмета на разных языках, б) подбор источников, фондов материалов, в) оперирование данными источников, г) многоаспектную, глубоко эшелонированную классификацию материала, д) создание сводных описаний, реестров, каталогов по заранее заданным параметрам, е) применение методов статистики, картографии, теория классификации и системного анализа, ж) графическое представление данных в виде схем, рисунков, карт» К разработанной нами БД относится п п б) и г)
' http //www nhil du ru/lib/ — статья «Предмет и основные направления прикладной лингвистики»
Судя по библиографии, наиболее востребованными областями хотя бы частично автоматизированных лингвистических исследований являются компьютерная лексикология и компьютерная лексикография и тесно связанная с ними корпусная лингвистика, машинный (автоматический) перевод
История компьютерной лингвистики началась непосредственно после создания первых экземпляров электронно-вычислительной машины (компьютера) Сразу же они нашла применение в такая специфической области, как шифрование и дешифрование данных, машинный перевод (автоматический перевод), автоматизация лексикографических работ и др
Пионером в области автоматизированной лексикографии стоял итальянский ученый Р Буза С помощью ЭВМ были составлены словоуказатели к древним рукописям В 1959 г в г Безансоне (Франция) был основан Центр лингвистических исследований На ЭВМ были созданы картотеки (читай базы данных) для существующих больших словарей В 1960 в Нанси (Франция) был создан специальный Исследовательский центр для создания с помощью ЭВМ т н Сокровищницы французского языка В 1964 г в Академии делла Круско (Флоренция) Другие подобные научные и университетские центры Лейден (Нидерланды), Гетеборг (Швеция), Будапешт (Венгрия), Вашингтон (США) Из них наиболее впечатляющих проектов - машинная картотека французского языка (вместе с терминами -800 ООО слов) В начале 80-х г г в Мангейме (Германия) подобные работы (Lexicographical Data Base for German) развернулись на уже более современном аппаратном и программном обеспечении Другие проекты индексы (словоуказатели) к древним (напр Библии - г Осло) и современным литературным произведениям, конкордансы (Флоренция, Турин) и частотные словари (Гетеборг, Копенгаген), Этимологический словарь итальянского языка (Саарбрюккен - Германия) Словарные базы данных в европейских научно-лингвистических центрах создавались в качестве электронной версии бумажных словарей, напр Машинный словарь итальян-
10
ского языка Проект BONNLEX (машинный словарь немецкого языка) интересен как словарный банк лексической базы данных немецкого языка LEDA Шведская логотека - г Гетеборг Система словарных данных японского языка и Система для англо-японского словаря - г Киото Электронная версия Оксфордский словарь английского языка создана в университете Ватерлоо (Канада) По аналогии созданы электронные версии словарей английского языка Хорнби, Коллинз, Оксфордского словаря идиом, Оксфордского словаря цитат, фонетического словаря Джоунз
Наряду с общими национальными словарями велась разработка терминологических баз данных Получены первые результаты (Документ ISO 12616 2 ресурс Интернет http //www iso ch/) Некоторые национальные проекты Лексикографическая информационная система LEXIS (Федеральное языковое бюро ФРГ) EURIDICAUTOM (банк терминологических данных Бюро терминологии Комиссии европейских сообществ в Люксембурге)
Текстовые БД (корпусная лингвистика) образуют особую категорию лингвистических БД Корпус текстов есть множество текстов естественного языка, организованное для изучения конкретных языковых аспектов или прикладных задач (составление отраслевых частотных словарей, например) Примеры Боннский корпус газетных текстов Фрейбургский корпус текстов Проекты для универсальных целей Брауновский корпус английских текстов (Брауновский университет, США, 1962-63) Текстовой корпус Ланкастер-Осло-Берген Текстовой корпус LIMAS (Институт исследований проблем коммуникации и фонетики при Боннском университете) Корпус Хауза (250 тыс словоупотреблений) Корпус текстов для американского словаря Хартвига Даля по разговорной речи американского английского языка Он получен в результате расшифровки магнитозаписей Лондонско-Лундский корпус текстов (1979 г) представляет собой комбинацию текстов из письменной и устной речи Банк английского языка в
Бирмингемском университете, Великобритания (начало 1980-х гг) - его
11
несомненным плюсом является выход за рамки 1 млн словоупотреблений Источником для корпуса TEPL являются школьные учебники Объем — 1 млн словоупотреблений
Машинный (автоматический) перевод Наибольший интерес к машинному переводу с максималистскими, идеалистичекими ожиданиями характерен для периода 1955 - 1965 г г (в СССР - Вельская И К , Нелюбин JIJ1, Рябцева H К , Марчук Ю H , Котов Р Г, Пиотровский Р Г.; в Германии - Bruderer H., США - Hutchins W J.) Естественный язык оказался более сложным явлением, чем казалось энтузиастам, что ясно показали аналитические возможности любых ЭВМ (энциклопедия Britannica, статья Computational linguistics) Поддержка исследований в этой области несколько сократилась, но наработки применяются для автоматизированного лингвистического анализа (определение авторства)
Квантитативная типология и конфронтативная лингвистика Как известно, во всякой дисциплине столько науки, сколько в ней математики Поэтому количественный (квантитативный) анализ позволяет объективизировать закономерности типологии языка, полученные в частности, при конфронтативном методе лингвистических исследований (Арапов M В Алексеев П M , Арапов M В , Херц ММ), Джозеф Гринберг (США)
Лингводидактика Другое употребительное наименование этой прикладной дисциплины - Computer Assisted Language Learning (CALL) Ее статистический компонент занимается квантитативным анализом процесса обучения Первые опыты обучающего лингвистического автомата — ОЛА (термин Р Г. Пиотровского), относятся еще к периоду до появления персональных компьютеров (60-х гг в США в Стэндфордском университете (Russian-Program) и Нью-йоркском университете (Das deutsche Programm) Среди подходов лингводидактики сущесвтуют
Бихевиористский подход (упражнения подстановочного типа с заранее жестко заданной структурой) анализ и оценка ответов обучаемого со стороны ОЛА (А Мензель (Академия наук Берлин), развитие баз данных и
12
баз знаний, позволяющих повысить интеллектуальные возможности систем OJIA (Д Миндт (Университет Западного Берлина), разработка компьютерного тестирования (П Дункель (Пенсильванский университет, США)
Когнитивно-интеллектуальный подход (создание универсального программного обеспечения для CALL (CALL-Software) на базе опыта, полученного при разработке различных форм автоматической переработки текста) В СНГ центрами разработки CALL в 1990 г г являлись и продолжают вести лингводиактические исследования Казань (КГУ), Минск (БГЛУ), Москва (РГПУ) Когнитивно-интеллектуальный подход в разработке автоматических учебных словарей России представлен Г В Дроз-децкой и др (ИРЯ им А С Пушкина), Н А Обносовой и К Р Галиули-ным (Казанский университет), К Р Пиотровской (РГПУ) и др X Б Мас-ляева (Казанский университет) - программный комплекс коррекции произношения с обратной связью на дисплее Лексико-фонетические курсы с аудиоподдержкой разрабатывались П А Скрелин (ЛГУ), Л В Златоусто-ва и др (МГУ), Р К Потаповой (МГЛУ) Продолжаются усилия в области распознавания речи (Зиновьева, Н В , Кривнова О Ф Кейтер Дж, Кузнецов В И , Скрелин ПА).
В результате проведенного историко-научного обзора сформулирован вывод о том, что к наиболее реальным, перспективным и посильным направлениям компьютерной лингвистики с точки зрения материальных, временных и человеческих ресурсов можно отнести следующие лингвистическая лексикография и терминография, компьютерная лексикология и лексикография, терминологическая и статистическая лексикография и терминография, вероятностные и статистические модели языка и речи, статистическая семантика и статистическая стилистика, квантитативная типология, компьютерные отраслевые словари-минимумы, специализированные лингвистические базы данных, статистическая и машинная лин-гводидактика, компьютерная лингводидактика Некоторые другие подобласти компьютерной лингвистики, по нашему мнению, малопригодны для
13
научно-исследовательской деятельности индивидуальных лингвистов в силу высокого «ресурсного порога», о котором мы говорили выше Второй вывод по выбору одной из подобластей компьютерной лингвистики, тема индивидуальной НИР в области компьютерной лингвистики должна быть возможно более прикладной, «узконаправленной»
Во второй главе «Категории общего и особенного в лингвистической базе данных как частного случая реализации теории баз данных» рассматриваются тенденции, сложившиеся в современной теории и практике баз данных, описываются специфика различных моделей БД
Существует несколько таких моделей графовые модели (или иерархические), семантические сети, модель "сущность-связь" Сначала стали использовать иерархические даталогические модели БД Что касается лингвистических БД, то именно на этом принципе целесообразно выстраивать иерархию пользовательских субменю в интерфейсе различных программ, а также для тематического упорядочения источников и разработанных материалов по НИР но виртуальным папкам (темы, их разделы, назначение и т п)
Пример иерархической модели в системе субменю лингвистической
_(морфологической) БД_
Морфология
Ф
1 Части речи (перечень) 2 Морфологические средства (перечень)
Ф
Глагол
Ф
Перечень категорий (1 Залог, 2. Наклонение, 3 Время, 4 Аспект, 5 Лицо, 6 Число, 7. Неличные формы)
Ф
Рубрикация внутри каждой категории_
С точки зрения философских категорий общего и особенного, общим для любых иерархических БД и для лингвистических БД, основанных на этой модели, является принцип «вложенности» подчиненных объектов БД в объект на один уровень выше Особенным для лингвистических БД являются, а) нецелесообразность распространения этой модели на всю структуру БД в целом, ввиду неприемлемой для лингвиста-пользователя слож-
14
ности управления и настройки, б) иерархичность языковых категорий весьма относительна, поскольку сама сущность естественного языка раз-нопланова Отчасти такая негибкость иерархической модели БД может быть компенсирована элементами сетевой модели (гиперссылки), применяемых в лингвистической БД
В теории БД отмечается крайняя сложность разработки и высокая вероятность логических ошибок разработчика сетевой модели БД Реляционная модель БД является ныне наиболее распространенной и соответствующей современным возможностям аппаратно-программного обеспечения Теорию реляционных баз данных (<- relation - отношение, связь) разработал американский математик Е Кодд Она зиждется на нескольких ключевых понятиях информационный объект, реквизиты (- атрибуты) информационного объекта, нормализация отношений, тип связи, инфоло-гическая (информационно-логическая) модель Информационный объект -есть совокупность имени и реквизитов некоторой сущности разной степени абстрагированности (предмет, явление, процесс, событие)1 В прикладной лингвистике такими объектами могут быть лексемы в начальной форме, словоформы, словосочетания, синтаксические конструкции, предложения, высказывания, микродчалог, текст Реквизиты (= атрибуты) информационного объекта являются элементами описания информационного объекта С точки зрения лингвистической семантики (в широком смысле), указанные реквизиты могут соответствовать или семам в компонентном анализе, или принадлежностью JIE семантическому классу, или даже лексической теме (в лингводидактическом смысле) В грамматической базе данных реквизитами (= атрибутами) являются грамматические категории разного уровня В таблицах БД им соответствуют поля (они же столбцы) Информационные объекты с одинаковым набором реквизитов объединяются в класс, которому присваивается имя, напр Части речи Класс информационных объектов физически представлен специализированной таб-
1 Определение наше (- автор)
лицей БД, обычно с тем же именем. Экземпляры информационных объектов соответствуют записи базы данных Запись БД представляет собой строку основной таблицы
Особенным в реляционной БД для лингвистических исследований является необходимость дополнять вспомогательные таблицы по мере изучения объекта исследования списки семантических классов лексем, список словобразовательных моделей и др
Типов связи таблиц БД - три 1) один к одному, 2) один ко многим и 3) многие ко многим Первый тип у нас практически не представлен Но им может быть «один фонетический признак - одно место образования фонемы» Пример типа «один ко многим» в нашей БД Одна часть речи -много лексических единиц «Многие ко многим» каждый из множества примеров лексем может иллюстрировать много аспектов словообразования, каждый из множества аспектов словообразования представлен многими примерами лексем, в т ч в контексте
Вывод частнолингвистическая база данных однопользовательского типа имеет много общего с обычными реляционными БД Особенное а) необходимость внесения модификаций в ходе исследования б) наличие элементов иерархической БД (меню, субменю, иерархия виртуальных папок) и сетевой БД (гиперссылки к нужным данным за пределами основной БД)
В третьей главе в конкретном плане рассматриваются способы оптимизации при разработке структуры лингвистической БД (стадиально) I Определение тем и подтем (классификация и рубрикация) Тема- Словообразование коллоквиализмов Внутри темы определяем подтемы, т е перечень способов словообразования В отличие от обычного оглавления, в каждом пункте будем указывать краткое наименование (как иногда выражаются в классификациях) «материнской рубрики», те рубрики на один уровень выше В табл 1 демонстрируется часть такой рубрикации
Табл. 1: Классификация коллоквиальньгх существительных по грамматическим и лексико-семантическим аспектам словообразования
1) Способы словообразования - Аффиксация — Этимология Исконные/Заимствованные - Исконные
2) Способы словообразования - Аффиксация - Этимология Исконные/Заимствованные - Заимствованные
3) Способы словообразования - Аффиксация - Наличие видов аффиксов -Префиксы только
4) Способы словообразования — Аффиксация - Наличие видов аффиксов -Суффиксы только
5) Способы словообразования - Аффиксация - Наличие видов аффиксов -Префиксы + Суффиксы
6) Способы словообразования - Аффиксация - Продуктивность - Продуктивные
7) Способы словообразования - Аффиксация - Продуктивность - Непродуктивные
8) Лексико-тематический аспект (позиция в тезаурусе) — Результирующая семантика компонентов — (по аналогии)
II Трансформация классификационных рубрик в структурные компоненты БД
1) Главная и вспомогательная таблицы Встроенные списки подстановки Определив перечень таких классификационных рубрик, создаем главную таблицу Ш1Маш, записи которых представляют собой коллоквиапьную лексическую единицу (ЛЕ разговорного стиля) вместе с лингвистическим описанием, степень углубленности которой зависит от задач исследования Рубрикации можно подразделить на две категории конечный (= нижний) уровень и прочие, более высокие уровни (принцип «матрешки») Имена полей, как отражение рубрик, могут быть слегка перефразированы для сокращения длины имени Для нижнего уровня рубрикации следует создать вспомогательные таблицы подстановки Таблица 1 Вспомогательная таблица со списком подстановки
МТЬеБаигРоБиюпМатОгР^егтСотропеЩ
Бетап^сБ |
ОНЕСЛОВОСЛОЖЕНИЕО__I
Абстр_Время_16
Абстр_Здоровье_36 „ __ „ __ |
'Абстр_ИскусствоЛитер_39
Абстр_Качество_34 _
¡Абстр_Количество_35 Абстр_МистикаФантазия_19 |Абстр_ПриродаМетео_21 ;Абстр_ПространствОтнош_33 ;Абстр_ПроцессРезулыатМероприятие_17
¡Абстр_Религия_20 _
:Абстр_ЧувствоМысльХарактеристика_18
ИмяСобирательное_Неодуш_41___
■ИмяСобирательное_Одуш_40 ■КонкрНеодуш_Валюта_38 _.
Если список критериев (= рубрики нижнего уровня) невелик, то целесообразно создать встроенный список подстановки Приводим часть таблицы подстановки (далее по аналогии) Табл 2 Встроенный (в главную таблицу) список подстановки "НеСловосложение_0","АгглютСловосложБезСвязЭлем__1", "АгглютСловосложАфф_2","АгглютСловосложАббрев_3", "МорфологСловослож_4","СинтактСловослож_5"_
2) Запросы на выборку
Далее создаваем запросы на выборку (их много) Маркировка _ знак подчеркивания с номером дает возможность в последующем легко создавать запросы с этим критерием Напр запрос для выборки ЛЕ с определяемым компонентом на тему ВРЕМЯ имел бы критерий 16 Запрос для выборки всех абстрактных ЛЕ имел бы критерий Абстр_* Вот пример имен запросов
qryThesauгResultSemantCoпcretPersonRelatlonOtherPerson
Имена достаточно красноречивы, легко определить назначение запросов
3) Формы для ввода данных
Формы обеспечивают удобство ввода данных и просмотра ЛЕ (по одной ЛЕ с одним или атрибутами лингвистического описания, в зависимости от конструкции формы) Пример имен форм Й-тСотроБШопМс^е!
4) Тематически группированные ярлыки с русскими псевдонимами запросов и форм
В левой части окна имеется раздел Группы с системным значком папки Избранное Разработчик может создать и пользовательские тематические папки, напр Аспект категориального моделирования композитов Разработчик может дать русский внятный псевдоним назначения соответствующего запроса) Пример Форма Модель словосложения по частям речи
5) Главная кнопочная форма для запуска объектов БД
Для облегчения доступа к объектами БД разработчик может создать Главную кнопочную форму с набором кнопок, открывающих другие узкоспециализированные страницы той же кнопочной формы Напр Продуктивность аффикса)
6) Пользовательское меню
В строке меню можно поместить пользовательское меню с подменю, которые будут иметь столь же профессиональный вид, как привычные встроенные меню Файл, Правка, Вид и др В нашем случае -Словообразование коллоквиализмов Пример подменю Запросы по словосложению - Категориальная модель композита -(конечные команды запуска с именами всех запросов на все модели словосложения)
Выводы
1 Электронная база данных обеспечивает лингвиста-исследователя достаточно обширным инструментарием ввода данных, а также их сортировки, группировки (= систематизации), промежуточных и итоговых вычислений, в сумме неизмеримо превышающих возможности традиционных картотек
2 Структура БД должна соответствовать поставленной задачам лингвистического исследования Структура БД состоит из основной и вспомогательных таблиц и встроенных списков подстановки, запросов выборки
данных по всем критериям, соответствующим применяемой классификации исследуемого материала, форм ввода данных для обеспечения удобства исследователя-пользователя при вводе и выводе данных, главной кнопочной формы для удобства запуска специализированных форм (согласно классификации материала), Пользовательского меню запуска всех объектов лингвистической БД
3 Пользовательский интерфейс должен быть рассчитан на исследователя-гуманитария, быть интуитивно понятным и самоочевидным Разработчик должен снимать прогнозируемые затруднения исследователя-пользователя с помощью всех системных средств подсказки
Заключение. В заключительном разделе резюмируются итоги исследования и намечаются дальнейшие пути частнолингвистических исследований с применением методов компьютерной лингвистики, напр проблемы разработки баз данных словообразовательных моделей частей речи по узкоотраслевым подъязыкам
Основные идеи данного исследования в области компьютерной лингвистики, в частности, лингвистических баз данных, изложены в следующих публикациях
1 Клочко АД Проблемы оптимизации структуры учебника по иностранным языками для военных авиационных институтов к условиям обучения // Теория и практика обучения иностранным языкам Материалы межвуз науч -практ. конф - Краснодар КВАИ, 2002 — С 80 -92
2 Клочко А Д Маркировка английских многокомпонентных терминов в текстовом массиве как очередной этап разработки учебного отраслевого словаря с применением ПК // Теория и практика обучения иностранным языкам Материалы межвуз науч -практ конф - Краснодар КВАИ, 2003 -С 89-97.
3 Клочко А Д Опыт разработки электронной лексико-грамматической базы данных для повышения качества знаний по иностранным языкам // Развитие внутривузовских систем обеспечения качества обра-
20
зования Материалы межрегиональной науч конф - Армавир АГ-ПУ, 2004 - С 109-112
4 Клочко АД Место мультимедийных презентаций на занятиях по иностранному языку // Теория и практика обучения иностранным языкам Материалы межвуз науч -практ. конф - Краснодар- КВАИ, 2005 -С 3-7.
5 Клочко А Д Профилактика логических ошибок при разработке мультимедийных обучающих презентаций по иностранным языкам // Теория и практика обучения иностранным языкам Материалы межвуз науч -практ конф - Краснодар КВАИ, 2005 - С 7—11
6 Клочко А.Д Базы данных для преподавателей гуманитарных дисциплин. Учебное пособие для преподавателей гуманитарных специальностей - Армавир АЛУ, 2005 - 66 с
Подписано в печать 12 05 2006 г Формат 60x84 1/16 Бумага типографская № 1 Печать офсетная Уел печл 1,25 Уч-изд л 1,25 Тираж 100 экз Заказ №57 Издательств «Золотая буква» Россия, 170033, г Тверь, ул Фадеева, д 27 Тел (0822) 36-63-65
Оглавление научной работы автор диссертации — кандидата филологических наук Клочко, Алексей Данилович
Введение
Глава I КРАТКИЙ ИСТОРИКО-НАУЧНЫЙ ОБЗОР РАЗВИТИЯ 3 КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ
1.1 Место компьютерной лингвистики в прикладной лингвис- 16 тике.
1.2 Развитие компьютерной лексикологии, машинного пере- 18 вода и корпусной лингвистики
1.3 Компьютерная лингводидактика
1.4 Методы квантитативной лингвистики
1.5 Компьютерное распознавание символов и речи
1.6 Лингвистическое обеспечение информационных систем и 43 гипертексты
Выводы
Глава II ФИЛОСОФСКИЕ КАТЕГОРИИ ОБЩЕГО И 54 ОСОБЕННОГО В РЕАЛИЗАЦИИ ТЕОРИИ ЛИНГВИСТИЧЕСКИХ БАЗ ДАННЫХ
2.1 Основные понятия теории баз данных на примерах модели 54 «сущность-связь» в приложении к языковой системе
2.2 Иерархическая модель БД и оценка ее адекватности зада- 61 чам лингвистических исследований
2.3 Сетевая модель БД: ее преимущества и ограничения для 64 прикладных лингвистических разработок
2.4 Реляционная модель как оптимальное решение для разра- 68 ботки специализированных лингвистических БД
Выводы
Глава III ОПТИМИЗАЦИЯ СТРУКТУРЫ СПЕЦИАЛИЗИРО- 71 ВАННЫХ БД ДЛЯ ИНДИВИДУАЛЬНОГО ИССЛЕДОВАНИЯ (НА ПРИМЕРЕ КОМПОЗИТОВ)
3.1 Обработка текстового корпуса и маркировка цельно- 71 оформленности композитов средствами макросов
3.2 Семантическая многоуровневая классификация и рубрика- 79 ция лексических единиц
3.3 Трансформация классификационных рубрик в структур- 96 ные компоненты БД
3.4 Оптимизация пользовательского интерфейса для задач 101 лингвистического исследования
Выводы
Введение диссертации2006 год, автореферат по филологии, Клочко, Алексей Данилович
Актуальность заявленной нами темы состоит в том, что индивидуальные лингвисты-исследователи, желающие оптимизировать сам процесс своих исследований с помощью баз данных для персонального компьютера, не имеют достаточного количества обобщающих работ по данной проблеме. Правда, имеются многочисленные публикации, в т.ч. обобщающего характера, о применении обучающих программ на платформе ПК (персональных компьютеров), но при этом предмет исследований лежит в дидактической и общепедагогической плоскости. Рабочими группами исследователей в различных научных центрах разработаны программы для ПК, напр., для разработки частотных словарей, т.е. для лексикологических исследований в области лингвостатистики. С другой стороны, существует обширная литература по бурно развивающейся области лингвистики, т.е. прикладной и математическая лингвистики, лабораторно-материальной базой которых служат большие ЭВМ, имеющие свой персонал ИТР и программистов, научные коллективы различных уровней и научных направлений. Их целью являются большие проекты: большие лингвистические базы данных, которые затем материализуются в многотомные словари (объемом до нескольких десятков томов), энциклопедические издания в области лингвистики (напр. «Языки мира»), постоянно пополняемые электронные базы данных лингвистической фактологии, применяемые для синхронических и диахронических исследований. Кроме того, мы можем найти достаточное количество литературы по разработке баз данных для применения в бизнесе или юридической практике. Но лингвистические исследования имеют свою ярко выраженную специфику и почти необозримую широту предметов исследования.
Мы констатируем, что существует своего рода «серая зона» между глобальными лингвистическими исследованиями, обеспеченные мощными материально-техническими и человеческими ресурсами - т.н. Большие Проек-ты(напр., рабочая группа по теме «Энциклопедия «Языки мира» в Ин-те языкознания РАН, отдел прикладного языкознания - А.К.Валентей,
А.И.Новиков - руководитель, Н.К.Рябцева, Е.И.Ярославцева, с группой группа "Языки мира" (М.А.Журинская, В.П.Калыгин, А.А.Кибрик, Н.Рогова, Я. Тестелец) [227], и исследованиями лингвистов-одиночек, ведущие исследования средствами 19 века (бумажные картотеки, выписки, лингвостатисти-ка вручную: использование калькулятора - не что иное, как ручной труд). Эти внутренние психологические барьеры преодолеваются частью индивидуальных лингвистов с большим трудом, что отмечают авторитетные специалисты в этой области: «Специалист часто оказывается в ситуации, когда ему неизвестны или недостаточно известны возможности применения ИТ для решения задач, входящих в его компетенцию. Незнание этих возможностей (или, что еще хуже, знания неполные и/или некорректные) приводит к тому, что филолог не умеет оценивать и выбирать нужные именно ему средства и, следовательно, не способен их адекватно использовать. В результате, сталкиваясь с некорректным использованием ИТ и не умея получить желаемый результат, преподаватель-филолог часто просто отвергает саму идею использования ИТ, оценивая их как средство дегуманизации науки» (Беляева Л. Н. 214).
Предлагаемая работа как раз и является попыткой обобщения и систематизации опыта создания и применения БД в указанных выше областях, а также изложением путей научно обоснованной оптимизации баз данных, специализированных для индивидуальных частнолингвистических исследований.
Объектом исследования являются специализированные лингвистические базы данных.
Предметом исследования является оптимизация электронных средств хранения и обработки лингвистических данных в целом, т.е. специализированных баз данных (основная роль) и присоединенных электронных таблиц и подпрограмм текстового процессора (вспомогательные роли).
Под оптимизацией средств в данном случае мы подразумеваем: а) учет все еще скромных возможностей аппаратного обеспечения ПК для обработки огромных массивов информации и б) оптимизация структуры лингвистической индивидуальной базы данных (БД), т.е. учет специфики лингвистических данных при разработке такой ее структуры, которая обеспечивала бы удобство конечного пользователя (индивидуального лингвиста-исследователя) в решении большинства исследовательских задач.
Имея в виду междисциплинарный характер данного исследования (на стыке лексикологии, словообразования, стилистики и информатики, в частности, теории баз данных), фактический материал по своему характеру был нами отобран в соответствии с указанными областями научного знания по следующим принципам:
А. Принципы отбора языкового материала: грамматико-категориальный принцип: определяемый компонент отбираемых лексем (с контекстуальными примерами их употребления) относятся к грамматической категории существительных; словообразовательный принцип: способ словообразования лексем композиция (словосложение); лексико-стилистический принцип: принадлежность лексем к функциональному разговорному стилю - от просторечного до фамильярного;
Б. Принципы оптимизации электронных (программных) средств хранения и компьютерной обработки лингвистического материала: принцип соответствия человеческого фактора и материально-технических средств лингвистического исследования, под которым мы понимаем соотношение «сложность исследовательских задач по объему объекта и теоретической глубине исследования / мощность доступного индивидуального аппаратного (ПК) и программного обеспечения»; принцип соответствия структуры объектов электронных баз данных целям лингвистического исследования: т.е. с одной стороны, наличие необходимой и достаточной номенклатуры элементов структуры соответствующих объектов, а с другой - возможность ее дальнейших модификаций в случае уточнения задач исследования; эргономический принцип оптимизации электронных средств лингвистического исследования: лингвист-исследователь изначально должен рассматривать эти средства как удобный инструмент и верного союзника, а не как неприятеля. В терминах информатики речь идет, в частности, об интуитивно понятном интерфейсе пользователя.
Цель исследования — обоснование, разработка и оптимизация структуры специализированной электронной базы данных для хранения и обработки данных лингвистического исследования для индивидуального лингвиста-исследователя.
Задачи исследования. Из поставленной цели исследования следует необходимость решить несколько исследовательских задач теоретического и практического плана. В теоретическом отношении мы делаем попытку: а) в историко-научном аспекте проследить развитие и современную проблематику компьютерной лингвистики и лингвистических баз данных различного типа, обсуждаемые в работах отечественных и зарубежных исследователей в области прикладной лингвистики, в т.ч. тенденции их развития, а также новые направления: компьютерная терминография и лексикография, корпусная лингвистика и многие др.; б) изучить и обобщить опыт применения больших ЭВМ в различных сферах прикладной лингвистики, особенно в области разработки и применения электронных БД, оценить возможность перенесения части этого опыта на платформу ПК (персональных компьютеров); в) определить возможности и ограничения персонального компьютера в оптимизации и интенсификации труда индивидуальных лингвистов, ведущих исследования по узкоспециальным темам частнолингвистического характера; г) на реальном примере частнолингвистического исследования (оптимизация структуры базы данных по словообразованию коллоквиальных существительных в английском языке) показать упомянутые возможности и ограничения ПК: какие задачи в области прикладной лингвистики он в состоянии решать, иными словами, для исследовательских задач какого уровня и объема его применение целесообразно - при наличии указанных выше человеческих и иных ресурсов (один исследователь, одна посильная частно-лингвистическая проблема, один ПК с его достаточно средними возможностями на сегодняшний день); д) предложить классификацию лингвистических баз данных и выбрать тип, посильный для разработки индивидуальными лингвистами-исследователями ;
Из общетеоретической цели исследования следуют частные практические задачи: а) формулирование принципов общий структуры и подсистем частно-лингвистической (словообразовательной) базы данных для индивидуального исследователя; б) выделение критериев (частичный аналог зон словарных статей в электронных словарях) для запросов на выборку в частнолингвистической
БД; в) компьютерный поиск и отбор языковых единиц и их эксплицитных словоформ по заданным параметрам; г) компьютерная обработка полученного массива контекстуальных примеров по нескольким параметрам и наглядное представление найденных закономерностей; д) разработка нескольких примеров частнолингвистических баз данных, специализированных и оптимизированных по некоторым субдисциплинам и разделам частной лингвистики (в т.ч. с выходом на общеязыковедческий уровень, но на примере частнолингвистического исследования) - с более подробным освещением БД «Словообразовательные аспекты коллоквиализмов» (См. в качестве приложения лазерный диск с файлом Colloq.mbd).
Методология предлагаемой работы опирается на теоретическую базу прикладной и компьютерной лингвистики, отраженную в работах отечественных: и зарубежных ученых в области теоретической и прикладной лингвистики (А.Е.Кибрик [69, 70, 71], Р.К.Потапова [56], Б.Ю.Городецкий [37], Л.Н.Беляева [19, 214], Р.Ю.Кобрин [36], С.Д.Шелов [93], Р.Г.Пиотровский [17, 18, 59, 99, 139, 140, 141, 142, 172], А.С.Герд [1, 19, 31, 32, 94, 148, 217, ], В.М.Лейчик [92, 93, ], А.Н.Баранов [13, 14, 15, ].и др.- см. раздел Библиография. С учетом междисциплинарного характера данного исследования, мы обратились также к теории баз данных (БД), аспекты которой изложены в трудах основоположника реляционных баз данных, американского математика Эдгар Кодд (F. Codd - A Relational Model of Data for Large Shared Data Banks www.cs.brown.edu/courses/cs295-ll/codd.pdf), а также экспертов по СУБД MS Access - Вейскас Дж. (John L. Viescas) [24], Дейт К. [43] и в работах отечественных экспертов по теории БД - Кагаловский М.Р. Бойко В.В., Каратыгин С.А. Харитонова И.А. [123, 194],Михеева В.Д. [123, 194],и мн. др. [103,108, 122, 180, 223, 234, 237, 244, 245, 250] Кроме того, мы использовали общенаучную методологию исследовательского процесса Кузина Ф.А.
Методы исследования
С учетом того обстоятельства, что данное исследование находится на стыке наук - теории баз данных и частной лингвистики - то и сама методика исследования комплексна по своему характеру.
А. Общенаучные методы а) Методы эмпирического исследования
Наблюдение применялось а) для поиска лингвистических фактов в электронных словарях, в Интернете, в оцифрованных литературных произведениях на лазерных носителях и т.п.; б) для оценки эргономичности и функциональности (соответствие задачам лингвистических исследований) отдельных подсистем БД (базы данных) с точки зрения конечного пользователя-лингвиста.
Сравнение было использовано а) при определении превалирующего способа графического оформления коллоквиальных композитов: дефис, слитное и раздельное написание; б) для определения более эффективных и эргономичных способов управления БД из нескольких, выполняющих аналогичную функцию.
Измерение применялось в качестве иллюстрации возможностей встроенных средств СУБД (системы управления базами данных) для обработки фактуры частнолингвистического исследования (т.е. методы лингвостатисти-ки в ходе исследования коллоквиальных композитов), а также для наглядного представления результатов.
Эксперимент, как метод научного исследования, предполагает «вмешательство в естественные условия существования предметов и явлений или воспроизведение определенных сторон предметов и явлений в специально созданных условиях с целью изучения их без усложняющих процесс сопутствующих обстоятельств» (Кузин Ф.А. Кандидатская диссертация». М.: 1998.). С экспериментом тесно связано моделирование, как метод научного познания. В нашем случае применение указанных методов заключалось: а) в отборе лингвистических контекстуальных примеров (коллоквиаль-ные композитные существительные) в указанных далее источниках - из всего множества лексических единиц коллоквиального стиля, и использование полученного подмножества композитных существительных как модель для дальнейшего исследования; б) в применении образцов лингвистических данных для экспериментирования с самой структурой лингвистической базы данных для ее последующей модификации с целью повышения функциональности. б) Методы эмпирического и теоретического уровня
Абстрагирование. Данный метод предполагает отвлечение от несущественных атрибутов объектов в целях выделения элементов подмножества объектов с существенными для целей исследования атрибутами. Примерами применения этого метода в нашем исследовании могут служить следующие: а) абстрагирование от графического способа оформления композитов; б) в разработанной нами БД «Словообразовательные аспекты коллоквиализмов» каждый из критериев выборки (= фильтрации данных), напр. «Одушевленные - Личность», и многие другие, уже сам по себе является абстракцией; в) принципы реляционной БД являются абстракцией в той мере, в какой они применимы к данным из различных понятийных областей. (О типах БД см. в описании хода исследования).
Анализ и синтез являются взаимосвязанными методами научного исследования. Имея в виду конечную цель - разработку БД, оптимизированной для конкретных задач лингвистического исследования - возникла необходимость семантического, морфологического и синтаксического (в нескольких случаях) анализа отобранных лингвистических данных. После соответствующей их классификации по нескольким основаниям была получена, «синтезирована» единая, работоспособная, функционально обоснованная лингвистическая база данных, управляемая как из одного виртуального «пульта» (Кнопочная форма), так и посредством иных элементов управления (пользовательское меню и встроенное окно БД).
Индукция и дедукция. Индуктивный метод (переход от разрозненных фактов к обобщениям) применялся нами не в самом начале исследования, поскольку сам поиск и отбор фактов изначально был достаточно целенаправленным (т.е. гипотеза в черновом варианте была уже сформулирована). Тем не менее, на средней стадии работы имело место доуточнение задач исследования как раз ввиду обнаружения новых фактов, не вписывающихся в предварительные классификации (например, семантическую рубрикацию компонентов композитов). Иными словами, происходило как бы циклическое возвращение (рекурренция) с этапа дедукции (подбор фактов для готовой гипотезы) к этапу индукции (новые факты уточняют гипотезу). Соответственно подвергалась модификации и сама структура БД, чтобы она отражала новую, уточненную семантическую рубрикацию содержащихся в ней данных - коллоквиализмов. в) Методы теоретического уровня исследования
Исторический метод правомерен в случае исследования развивающегося объекта. Применяя данный метод, и прослеживая историю развития компьютерной лингвистики как комплекса субдисциплин прикладной лингвистики, мы ставили перед собой задачу отбора таких ее областей, которые были бы адекватны ресурсам индивидуального исследователя-лингвиста, с учетом уже обнаруженных возможностей и ограничений этой технологии на переживаемом нами витке цивилизации.
Метод восхождения от абстрактного к конкретному (Кузин Ф.А.) разбивается на два этапа: а) переход от чувственно-конкретных фактов об объекте в действительности к совокупности абстрактных определений каждого из этих фактов; б) воспроизведение целостного объекта уже в мышлении - на новом уровне конкретного знания о всех его сторонах.
Подробнее применение этого метода дано в описании хода исследования. Пока приведем лишь один пример. В начале исследования мы исходили, что наш объект исследования - английские коллоквиальные композитные (сложные) существительные - являются в строгом смысле этого термина сложными цельнооформленными лексемами, характеризующиеся, в частности, слитным написанием или наличием дефиса. Предварительный анализ разрозненных лингвистических фактов по коллоквиальным композитам показал, что графическое оформление коллоквиальных композитов в английском языке не единообразно, поэтому не может быть надежным критерием отнесения соответствующего отрезка речи к композитам или словосочетаниям. Отсюда необходимость такой формулировки определения композитов, которая бы не настаивала на слитности их графического образа. Оставив графические признаки и изучив семантические характеристики коллоквиальных композитов, мы пришли к выводу об определяющей роли понятия (логическая и психолингвистическая категория) в идентификации композита. В дальнейшем мы нашли подтверждение этому предположению в Интернетресурсах энциклопедического характера, где подчеркивалась нестрогость английской графики в отношении словосложения (compounds, compound words, composition). Т.е. на уровне мышления через этап обобщения сформировался объект «коллоквиальные композитные существительные» уже на более полном описании их характеристик.
Б. Лингвистические методы Лингвистические методы подразделяются на общие и частные [ЛЭС, - М., 1990]. Поскольку наше исследование носит междисциплинарный характер (информатика с теорией информации и теорией баз данных, а также частная лексикология, семасиология, лексикография), то в нашем случае речь может идти о комплексе частных методов из частных дисциплин: сравнительно-сопоставительный метод, метод дефиниционного анализа. Как отмечает А.А. Уфимцева, «В наши дни так называемый дефиниционный анализ, т. е. использование словарных дефиниций как особого методического приема описания лексической семантики, возведен в ранг специального метода лингвистических исследований» [251].
Новизна исследования. Созданная нами специализированная база данных для хранения и обработки результатов индивидуальных лингвистических исследований на примере английских коллоквиализмов представляет собой опыт оптимизации и интенсификации НИР средствами БД для ПК в среде лингвистов-индивидуалов, т.е. не входящих в «команды Больших Проектов». Это особенность предлагаемой работы и определяет её новизну.
Теоретическая значимость данного исследования состоит в том, что оно вносит вклад в систематизацию и развитие компьютерных методов индивидуальных частнолингвистических исследований. Прикладной характер предлагаемой работы обусловил и значимость его результатов для компьютерной лингвистики в широком смысле. Сформулированные принципы создания и оптимизации специализированных лингвистических баз данных, модифицируемых для индивидуальных исследований, могут послужить стимулом для дальнейшей компьютеризации и информатизации НИР индивидуальных лингвистов с чисто гуманитарным менталитетом.
Практическое применение результатов исследования заключается: а) в возможности пополнения индивидуальными лингвистами-практиками разработанной нами БД «Словообразовательные аспекты коллоквиализмов» из доступных и непрерывно развивающихся источников разговорной лексики: новые видеофильмы и литературные произведения (в т.ч. озвученные) на лазерных дисках, сайты Интернета, посвященные разговорному стилю, там же - литературные произведения, зачастую еще не опубликованные в «твердом виде», а также тематические форумы Интернет, в которых возможно употребление разговорного стиля; б) полученный словник, пополняемый индивидуальными лингвистами с учетом научных и образовательных потребностей, может использоваться ими для конкретных задач, в т.ч. с учетом особенностей контингента обучаемых, если речь идет о лингводидактическом применении БД; в) в возможности разработки оригинальных БД для других специфических направлений индивидуальных лингвистических исследований, с учетом изложенных принципов и методов такой разработки.
Научная гипотеза: индивидуальная электронная лингвистическая база данных (ИЭЛБД) является особым видом БД, обладающей специфической структурой, оптимизированной для индивидуальных лингвистических исследований и предусматривающей возможность модификации в случае уточнения задач, что неизбежно в ходе НИР. Положения, выносимые на защиту:
1. Существующие аппаратные и программные средства для лингвистических исследований в подавляющем своем большинстве разрабатывались или оптимизировались для научных коллективов и т.н. Больших Проектов.
2. Опыт применения персональных компьютеров в прикладной лингвистике, особенно БД, также относится в основном к исследовательским или проектным группам.
3. Существует необходимость оптимизации и интенсификации индивидуальных лингвистических исследований, которые зачастую ведутся без применения ПК (если не учитывать набор текста), что а) затягивает накопление фактического материала и его обработку и б) при ручном методе некоторые закономерности трудно прослеживаются или допускают субъективную интерпретацию.
4. Оптимальным решением было бы создание электронного рабочего места индивидуального лингвиста-исследователя, которое состояло бы из: а) системы управления базами данных (СУБД) с набором специализированных баз данных (БД) с оптимизированной структурой для задач исследования; б) приложений на основе электронных таблиц для автоматизации статистических вычислений; в) шаблонов MS Word для хранения макрокоманд, предназначенных для автоматической обработки больших текстовых корпусов (поиск словоформ, относящихся к одной грамматической категории или словообразовательной модели и мн. др).
5. Примером применения специализированной базы данных для индивидуальных лингвистических исследований может служить БД «Аспекты словообразования» (см. БДна лазерном диске в приложении к диссертации), в структуру которой входят: основная таблица, вспомогательные (подстановочные) таблицы со специализированными перечнями лингвистических критериев; запросы на выборку для группировки и сортировки данных в соответствии с задачами исследования; присоединенные электронных таблицы, с более удобными и разнообразными средствами математической обработки данных; меню для запуска: а) специализированных форм, б) запросов для извлечения и просмотра лингвистических данных; коллекцией ярлыков для быстрого запуска объектов БД; главного кнопочного меню для упрощения поиска и запуска лингвистически специализированных объектов БД.
6. Лингвистическая (лексико-грамматическая) БД потенциально может интегрировать многие из типологических признаков электронногословаря: справочный, переводной, учебный, инвентаризационный.
Апробация и внедрение результатов исследования в практику. Положения диссертации изложены в 8 публикациях общим объемом 3 п.л. Отдельные этапы исследования обсуждались на научных конференциях, статьи по темам выступлений опубликованы в материалах межвузовских научных конференций «Проблемы теории и практики преподавания научных конференции иностранных языков. Краснодар, КВАИ, 2002, 2003, 2004, 2005»; сборника научно-методических статей с материалами научно-методической конференции Армавирского лингвистического университета в феврале 2006 г. и межрегиональной научной конференции «Развитие внутривузовских систем обеспечения качества образования», в Армавирском Государственном педагогическом университете, 2004. Имеется акт о внедрении базы данных «Словообразовательные аспекты коллоквиализмов» в Армавирском Лингвистическом университете. На основе результатов исследования опубликовано три учебных пособия общим объемом 11 п.л.:
1) Клочко А.Д. Базы данных. Пособие для преподавателей гуманитарных специальностей. Армавир: АЛУ, 2005. - 65 с.
2) Фетисов О.В., Клочко А.Д. Средства выражения причинно-следственных отношений в английском языке. АЛУ, 2005. -50 с.
3) Т. Б. Авдеева, А.Д. Клочко. Сложные коллоквиальные существительные. Армавир: АЛУ, 2005. -170 с.
Объем и структура исследования. Композиция диссертации соответствует целям и задачам исследования и состоит из введения, трех глав, заключения, библиографии; в качестве приложений - иллюстрированный перечень объектов базы данных и CD-ROM с дистрибутивом лингвистической базы данных «Словообразовательные аспекты коллоквиализмов» объемом около 7 МБ.
Заключение научной работыдиссертация на тему "Оптимизация индивидуальных лингвистических исследований средствами специализированной базы данных"
Выводы:
1. Примеры употребления коллоквиализмов представлены по всем основным словообразовательным и семантическим рубрикам, которые находят свое отражение в структуре разрабатываемой БД.
2. Вследствие урбанизации и использования всеми слоями общества почти всех благ современной материальной культуры («цивилизации»), а также под влиянием масс-медиа (как правило, в малохудожественной продукции, однако отражающие часть реальности), в разговорную речь проникли некоторые лексические единицы, характерные для научно-технического функционального стиля. Иначе говоря, понятийные области научно-технического тезауруса не чужды т.н. «уличной» речи, хотя и с полным изменением первоначального значения (метасемантизация).
3. Поэтому в примерах коллоквиализмов отражены и соответствующие словообразовательно-семантические средства, характерные не только для нейтрально-разговорного стиля, но и заимствованные из других сфер функционирования английского языка. Напр., суффикс с семантикой «деятель, инструмент» приобрел значение «событие»: eye-opener = случай, показавший, «кто есть кто», кто чего стоит.
4. Субстантивные композитные коллоквиализмы в структурном отношении представляют почти исключительно объекты действительности (в т.ч. абстрактные), тогда как коллоквиализмы, формально принадлежащие другим частям речи, называют свойства объектов (пространственные, временные и качественные). Поэтому рубрикация ( = перечень позиций в тезаурусе исследуемого языка) композитных коллоквиализмов объективно гораздо более разветвленная, изощренная, или, применяя сверхчастотную англоязычную характеристику, "(over)sophisticatecT.
5. Показательно, что не обнаружены примеры следующих рубрик :
Классификация по семантике главного компонента:
Экзотизмы, варваризмы (слова с ярко выраженной иностранной этимологией
Классификация по семантике определяющего (детерминирующего) компонента:
Экзотизмы, варваризмы (слова с ярко выраженной иностранной этимологией
Классификация по результирующей семантике:
Растения.
6. Электронная база данных обеспечивает лингвиста-исследователя достаточно обширным инструментарием ввода лингвистических данных, а также их сортировки, группировки ( = систематизации), промежуточных и итоговых вычислений, в сумме неизмеримо превышающих возможности традиционных картотек.
7. Структура БД должна соответствовать задачам индивидуального лингвистического исследования. Такая структура состоит из основной и вспомогательных таблиц и встроенных списков подстановки; запросов выборки данных по всем критериям, соответствующим применяемой классификации исследуемого материала; форм ввода данных для обеспечения удобства исследователя-пользователя при вводе и выводе данных; главной кнопочной формы для удобства запуска специализированных форм (согласно классификации материала); пользовательского меню запуска всех объектов лингвистической БД.
8. Пользовательский интерфейс должен быть рассчитан на исследователя-гуманитария, быть интуитивно понятным и самоочевидным. Разработчик должен снимать прогнозируемые затруднения исследователя-пользователя с помощью всех системных средств подсказки.
9. Помимо владения основными функциями таких широко используемых программных продуктов, как текстовые и табличные процессоры, лингвисту-исследователю крайне необходимо усвоить теоретически и практически основы разработки и использования специализированной базы данных, поскольку только сам исследователь лучше знает цели и задачи своего исследования и он сможет оперативно модифицировать структуру БД, в случае уточнения задач.
106
ЗАКЛЮЧЕНИЕ
Цель диссертационного исследования была двоякая: изучив основные вехи в развитии компьютерной лингвистики, выбрать оптимальные для индивидуального исследователя направления (с учетом человеческих и аппаратных ресурсов), и показать на примере частнолингвистической базы данных «Словообразовательные аспекты коллоквиализмов» широкие возможности для «настольного лингвистического НИИ». Отметим, что это метафора, однако имеющая своим аналогом ставший общепринятым термин «настольное издательство».
Для этого потребовалось изучить теорию баз данных в объеме, необходимом и достаточном для специалиста-гуманитария: типы моделей баз данных, (углубленно) реляционную модель БД; начала математической логики. В теории БД значителен удельный вес разделов, связанных с транзациями в корпоративных сетях с общим доступом, что оказалось возможным опустить в индивидуальном исследовании. Тем не менее, следует упомянуть, что используемая СУБД имеет достаточно встроенных средств для обеспечения корректного ввода новых данных в случае одновременной работы сравнительно небольших рабочих групп, созданных для осуществления более крупных проектов, в приемлемые сроки. Это касается и структуры предлагаемой нами БД.
Хотя вопросы лингвостатистики в данном исследовании затрагивались лишь в историко-научном аспекте (в главе о развитии компьютерной лингвистики), изучение соответствующей литературы (как одной из промежуточных задач исследования) привело автора этих строк к выводу, что разработанная им БД будет иметь эффективность на порядок выше в том случае, если БД станет компонентом рабочего места лингвиста-исследователя, наряду со следующими элементами такой системы: специализированные лингвистические базы данных с некоторыми вычислительными возможностями в среде некоторых из объектов БД (т.н. вычисляемые поля таблиц, запросов, форм и отчетов);
Список научной литературыКлочко, Алексей Данилович, диссертация по теме "Прикладная и математическая лингвистика"
1. Аверина С.А., Азарова И. В., Алексеева Е.Л. и др. Прикладное языкознание. ред Герд. - Спб.: СпбГУ, 1996. - 525.
2. Berelson, Bernard. Content Analysis in Communication Research. New York: Free Press, 1952
3. Автоматизация в лингвистике. Сб. ст. ред. Засорина Л.Н. М.-Л. Наука, 1966.- 158 с.
4. Актуальные вопросы структурной и прикладной лингвистики: Сб. ст. -М.: МГУ, 1980.-232.
5. АНДРЕЕВ Н.Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. Л. Наука, 1967. 403.
6. Андреев С.Н. Исследование языковой системы при помощи ЭВМ: Учебное пособие к спецкурсу.- Смоленск: СГПИ, 1987. -87 с
7. Арапов М.В., Херц М.М. Математические методы в исторической лингвистике. -М.: Наука, 1974 167 с.
8. Арапов, М.В. Квантитативная лингвистика. М.: Наука, 1988. 183. с
9. Арапов, М.В., Херц, М.М. Математические методы в лингвистике. -М., 1974.
10. Арнольд И.В. Основы научных исследований в лингвистике. М.: Выс. шк., 1991.- 139.
11. Бакулов А.Д., Леонтьева Н. Н. Теоретические аспекты машинного перевода // Искусственный интеллект. Справочник. Кн. 1. Системы общения и экспертные системы. М., 1990.
12. БакуловА. Д., Леонтьева Н. Н., Шаляпина 3. М. Отечественные системы машинного перевода// Искусственный интеллект. Справочник. Кн. 1. Системы общения и экспертные системы. - М., 1990.
13. Баранов А. Н. Введение в прикладную лингвистику. М. 2003. - 360 с. а также http://www.dialog-21.ru/Archive/2004/Baranov.htm
14. Баранов А. Н., Добровольский Д. О. Немецкая корпусная лингвисти15