автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Лингвистический контент и программная реализация интеллектуального немецко-русского отраслевого словаря

  • Год: 2013
  • Автор научной работы: Большакова, Мария Александровна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Москва
  • Код cпециальности ВАК: 10.02.21
450 руб.
Диссертация по филологии на тему 'Лингвистический контент и программная реализация интеллектуального немецко-русского отраслевого словаря'

Полный текст автореферата диссертации по теме "Лингвистический контент и программная реализация интеллектуального немецко-русского отраслевого словаря"

На правах рукописи

БОЛЬШАКОВА Мария Александровна

ЛИНГВИСТИЧЕСКИМ КОНТЕНТ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ИНТЕЛЛЕКТУАЛЬНОГО НЕМЕЦКО-РУССКОГО ОТРАСЛЕВОГО СЛОВАРЯ

Специальность 10.02.21 - Прикладная и математическая лингвистика

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата филологических наук

г 8 ноя гт

00554132»

Москва-2013

005541328

Диссертация выполнена на кафедре прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики факультета гуманитарных и прикладных наук Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный лингвистический университет»

доктор филологических наук, профессор Потапова Родмонга Кондратьевна, директор Института прикладной и математической лингвистики, заведующая кафедрой прикладной и экспериментальной лингвистики Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный лингвистический университет»

1. Доктор филологических наук, профессор Убнн Иван Иванович,

заведующий кафедрой переводоведения и практикой перевода английского языка переводческого факультета Федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Московский государственный лингвистический университет»

2. Кандидат филологических наук, доцент Ахренова Наталья Александровна, доцент кафедры английского языка Государственного автономного образовательного учреждения высшего профессионального образования «московский государственный областной Социально-гуманитарный институт»

Ведущая организация: ФГБУН Институт языкознания РАН

Научный руководитель:

Официальные оппоненты:

Защита состоится «16» декабря 2013 года в 13 часов на заседании диссертационного совета Д 212.135.02 при ФГБОУ МГЛУ (119 034, Москва, ул. Остоженка, 38).

С диссертацией можно ознакомиться в диссертационном читальном зале библиотеки ФГБОУ ВПО МГЛУ. Автореферат разослан «-/4^» ноября 2013г.

Ученый секретарь диссертационного совета Pttft^'— Страхова B.C.

Настоящее диссертационное исследование посвящено изучению немецких терминов в предметной области «робототехника» и «мехатроника», особенностям формирования корпуса текстов данного подъязыка, а также разработке на основе полученных данных интеллектуального электронного отраслевого словаря.

Выбор темы обусловлен необходимостью исследования и формирования специального корпуса немецких текстов и маркировки соответствующих терминов в предметных областях «робототехника» и «мехатроника» вследствие недостаточной степени их изученности в вышеуказанных предметных областях в прикладной лингвистике.

Несмотря на то, что в прикладной лингвистике накопился богатый опыт по формированию корпусов текстов и изучению подъязыка науки и техники, одним из малоизученных аспектов по-прежнему остается терминосистема, в частности, предметной области «робототехника» и «мехатроника», формирование специального корпуса текстов, а также создание на основе полученных результатов электронных словарей вышеуказанного подъязыка.

Под интеллектуальным электронным словарем в настоящей диссертационной работе понимается интеллектуальная автоматизированная система, содержащая сформированные и определенным образом упорядоченные понятия в конкретной предметной области.

Актуальность исследования обусловлена необходимостью решения задачи создания интеллектуального электронного отраслевого словаря для предметной области «робототехника» и «мехатроника». Это объясняется тем, что в настоящее время происходит активное развитие данного научно-технического направления в разных странах ЕС, в частности, в Германии, которая является ведущей в области робототехники, что отражается прежде всего в создании образовательного стандарта по робототехнике и мехатронике, который широко используется в различных странах Европы [Т^о ВНёшщзАэпск].

Современные проблемы автоматической обработки информации, представленной на естественном языке, невозможно решить без лингвистических данных, полученных методами корпусной лингвистики - количественными и

качественными [Сушилин 2007]. Результаты исследования корпусов текстов могут использоваться для решения многих лингвистических задач: составления разнообразных словарей (слов, словосочетаний, частотных словарей и т.д.), описания грамматического строя языка, дифференциации типов текстов, а также в качестве основы моделирования разнообразных систем автоматической обработки текста.

Методологическую основу исследования составляют концептуальные разработки и практические результаты, отраженные в трудах по терминоведению (М.В. Антонова, И.Н. Волкова, М.А. Ковязина, В.М. Лейчик, В.М. Перерва, В.Н.Сергеев, В.Д. Табанакова); проблемам корпусной лингвистики (Н.Д. Андреев, В.М. Андрющенко, Л.Н. Беляева, В.П. Захаров, A.A. Поликарпов); лексикографии (Ю.Д.Апресян, А.Н.Баранов, В.П.Берков, В.М.Варинская, В.Г. Гак, A.C. Герд, C.B. Гринев, П.Н. Денисов, В.В. Дубчинский, Б.И. Игнатьев, Е.В. Капамбет, Ю.Н. Караулов, Р.Ю. Кобрин, З.И. Комарова, И .С. Куликова, Ю.С. Маслов, В.В. Морковкин, JI.JI. Нелюбин, В.П. Петушков, JI.B. Попова, В.Ф. Роменская, Д.В. Салмина, JI.B. Щерба); речевого управления роботом (Р.К. Потапова); информационным технологиям в лингвистике (Ю.М. Абсалямов, О.И. Бабина, A.B. Зубов, А.Д. Клочко, О.И Максименко, З.М. Шаляпина), текстологии (М.Я. Дымарский, Г.А. Золотова, И.А. Мельчук, О.И.Москальская), а также теоретической и прикладной лингвистике (В.А. Звегинцев, H.H. Леонтьева, Ю.Н. Марчук, C.B. Никитина, И.И. Убин).

Значительный вклад в исследования в вышеуказанных направлениях внесли зарубежные ученые С. Аткинс, Д. Бибер, В. Вартбург, А. Вилсон, Т. Виртанен, С. Конрад, П. Кюн, А. Люделинг, Р. Хаплиг и другие. Важная роль в вышеприведенных исследованиях отводится дефиниции таких понятий как корпус текстов, термин, а также классификации существующих словарей.

Однако в них отсутствует интеллектуальная автоматизированная система, содержащая сформированные и определенным образом упорядоченные наименования понятий предметной области «робототехника» и «мехатроника».

Существующие терминологические словари указанной предметной области на бумажном носителе не отвечают современным требованиям по ряду причин, одной из которых является отсутствие автоматического поиска терминов. Современные электронные словари имеют эту функцию, однако часть из них не позволяет пополнять базу данных с учетом грамматических правил языка, что важно при переводческой работе или при составлении текстов. Интеллектуальная составляющая словарей присутствует только в системах машинного перевода фирменных продуктов, стоимость которых затрудняет их использование для бюджетной сферы образования.

Для создания немецко-русского интеллектуального электронного словаря по робототехнике и мехатронике требуется разработка соответствующих методик, алгоритмов и прототипа системы.

Основные методы, применяемые в настоящем диссертационном исследовании, определяются его задачами и включают корпусный, алгоритмический, дистрибутивный, статистический, контекстологический, комбинаторный, компонентный, сопоставительный, трансформационный, семантический и лексикографический виды анализа.

Объектом исследования является корпус научно-технических текстов применительно к их использованию в автоматизированных системах.

Предметом исследования являются методы и алгоритмы автоматизированного отбора релевантной информации из информационного массива предметной области «робототехника» и «мехатроника», базы данных и знаний интеллектуального электронного словаря.

Вышеуказанная предметная область включает применительно к данному исследованию немецкоязычные научно-технические тексты в сфере робототехники и мехатроники, характеризующиеся наличием специальных терминов.

Основной целью исследования является построение модели извлечения научно-технических текстов вышеуказанной предметной области из первичных массивов текстов, включающих тексты научно-информационной литературы и из Интернета, а также разработка интеллектуального электронного отраслевого сло-

варя и его апробация на примере предметной области «робототехника» и «ме-хатроника» на немецком языке, что в дальнейшем может быть использовано для повышения эффективности автоматизированного научно-технического перевода.

Гипотеза исследования заключается в том, что дополнительное привлечение данных лингвистического анализа текстов с использованием правил импликаций «если...то» позволит оптимизировать процедуру автоматизированного поиска в полнотекстовом массиве документов ограниченной предметной области.

В соответствии с целью и гипотезой исследования решались следующие задачи:

- разработка архитектуры интеллектуального электронного отраслевого словаря применительно к предметной области «робототехника» и «ме-хатроника»;

- выбор модели хранения данных и представления знаний в вышеуказанной предметной области;

- формирование корпуса текстов вышеуказанной предметной области на базе различных источников информации;

- создание правил проверки корректности ввода единиц базы данных с учетом морфологического и семантического уровня немецкого языка;

- формализация разработанных правил на основе интеллектуальной модели представления знаний;

- программная реализация интеллектуального электронного отраслевого словаря с учетом разработанных лингвистических правил;

- заполнение базы знаний и базы данных интеллектуального электронного отраслевого словаря лингвистической информацией;

- пилотная апробация предложенного способа использования лингвистической информации для организации информационного массива в предметной области «робототехника» и «мехатроника».

Научная новизна диссертации заключается в том, что впервые:

- предложена архитектура немецкоязычного электронного отраслевого словаря, включающая базу данных и базу знаний в виде семантической

сети и содержащая интеллектуальную компоненту, реализующую продукционный механизм правильности содержания базы данных на основе морфологии и семантики немецкого языка;

- предложена методика проверки корректности содержания базы данных на основе морфологии и семантики немецкого языка;

- сформулированы правила проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка, формализованные в виде комплекса продукционных правил;

- разработаны алгоритмы функционирования интеллектуального электронного отраслевого словаря с учетом архитектуры и функционирования системы для WEB-реализации.

Теоретическая значимость диссертации заключается в том, что полученные результаты являются вкладом в теорию моделирования и формализации языковых и речевых единиц применительно к критериям и требованиям разработки автоматизированных систем с использованием лингвистических процессов, теорию лексикографии и терминографии применительно к созданию лингвистических процессоров в различных предметных областях, в теорию автоматизированных информационных систем и систем управления базами знаний и данными, а также в дальнейшее развитие концепции Р.К. Потаповой «Новые информационные технологии и лингвистика» [Потапова 2002, 2004,2005,2012] Практическая ценность диссертации заключается в следующем: созданы методики, которые могут использоваться при создании семейства интеллектуальных электронных словарей различного отраслевого характера. Созданный интеллектуальный электронный отраслевой словарь может быть использован при построении различных приложений: автоматизированных рабочих мест для переводчика и преподавателя, автоматических обучающих систем, пакетов тестов немецкого языка для технических вузов, а также при подготовке и чтении курсов по прикладной и математической лингвистике.

Положения, выносимые на защиту:

- архитектура электронного отраслевого словаря достаточно полно и эффективно описывается с помощью интегрированных методов искусственного интеллекта в виде представления данных и знаний на основе семантической сети и продукционного механизма правильности содержания базы данных с учетом морфологии и семантики немецкого языка;

- правила проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка формализованы в виде комплекса продукционных правил;

- методика проверки правильности содержания базы данных включает информацию о специфике морфологического и семантического уровня немецкого языка;

- алгоритмы функционирования интеллектуального электронного отраслевого словаря разработаны с учетом архитектуры и функционирования системы для \УЕВ-реализации.

Степень достоверности полученных результатов обеспечивается репрезентативной выборкой (первоначальная база терминов включает 3766 единиц и их словосочетаний), разнообразием рассмотренного языкового материала (в каждой категории содержится более 70 текстов, общий объем 87,5 пл.) с одной стороны и наличием фронтального методологического подхода к исследованию с другой стороны.

Основные результаты работы апробированы на различных конференциях: Международная научная конференция «Математические методы в технике и технологиях (ММТТ- 24,25, 26)» (2011, 2012,2013); Международная практическая конференция «Логистика и экономика ресурсосбережения и энергосбережения в промышленности» (2011,2012), Международная научная конференция «Корпусная лингвистика-2013» (2013), отражены в ряде научных публикаций, а также обсуждены на заседании кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики факультета гуманитарных и прикладных наук Федерального государственного

бюджетного образовательного учреждения высшего профессионального образования «Московский государственный лингвистический университет».

Структура и объем диссертации. Специфика разрабатываемой проблемы, а также поставленные в ходе исследования задачи определяют структуру работы, которая состоит из 152 страниц, содержит 18 рисунков, 9 таблиц, 3 приложения.

Основное содержание исследования

Во введении определяются объект и предмет исследования, формулируются цели и задачи, обосновываются актуальность, новизна, теоретическая значимость и практическая ценность работы, описываются материалы и методы исследования, указываются выносимые на защиту теоретические положения.

В первой главе «Современные методы создания электронных словарей» представлена оценка методов создания электронных словарей, которая включает анализ процесса становления и развития электронных словарей. Предложена типологическая классификация электронных словарей, включающая следующие типы: машинный, автоматический и компьютерный [Максименко 2003]. Последний может реализовываться как автоматический переводной словарь или автоматический терминологический словарь. Предлагаемая классификация включает характеристику соответствующего типа словаря, отражающую наиболее важные аспекты его содержания, назначения, функционирования и т.п. Существуют различные классификации электронных словарей по разным множествам классифицирующих признаков, которые сведены в таблицу с координатами: «Авторы классификации словарей и год выхода в печать» и «Характеристика классификаций словарей». Последняя включает три принципа типологического описания словарей: оппозиции (противоположности); основания (классы, фасеты); параметры [Табанакова 2001]. Для современных компьютерных словарей важными свойствами являются обратимость, гибкость и динамичность [Убин 1992; Максименко 2003]. Существующие классификации не включают электронные немецко-русские словари, являющиеся независимыми \VEB-приложениями предметной области «робототехника».

В качестве инструментальных средств создания электронных словарей следует признать наиболее перспективным следующее системотехническое решение: Web-приложение с клиент-серверной технологией, база данных MySQL, язык программирования PHP.

Выбор специального корпуса текстов на немецком языке в сфере робототехники и мехатроники в качестве предметной области для создания электронного отраслевого словаря обусловлен активным развитием данной сферы и значительным ростом публикационной активности на иностранных языках, в том числе на немецком. Последнее объясняется тем, что Германия занимает одну из ведущих позиций в мире робототехники.

При создании электронных словарей целесообразно применять методы искусственного интеллекта, причем наиболее перспективными для представления информации в корпусе текстов следует признать семантические сети. Однако этот формализм не содержит средств логического вывода. Поэтому для формализации знаний и данных о корпусе текстов в сфере робототехники и мехатроники на немецком языке целесообразно использовать гибридную модель представления знаний, основанную на комбинированном использовании семантических сетей и продукционных правил.

Вторая глава посвящена формированию основных требований к словарю. Основными требованиями, которые предъявляются к разрабатываемому словарю, являются интеллектуальность и электронный вид. Под интеллектуальностью понимается использование методов искусственного интеллекта при построении архитектуры системы и ее реализации [Большакова 2013]. В главе разрабатывается архитектура интеллектуального электронного отраслевого словаря (ИЭОС), топология семантической сети для отображения семантических отношений терминов немецкого языка, пример ее заполнения, а также методика проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка. Приводится пример из комплекса правил по контролю корректности содержания базы данных на основе морфологии и семантики немецкого языка.

При разработке словаря заложены свойства, приведенные в работе И.И. Убина: обратимость, гибкость и динамичность. Обратимость - это возможность произвольно, по желанию пользователя, менять входной и выходной языки местами. Гибкость - это комплекс лингвистических и программных приемов, которые упрощают обращение к словарю, расширяют возможности пользователя при работе с иноязычным текстом, снижают требования к уровню знания входного языка, а также позволяют использовать компьютерный словарь для задач автоматической обработки текстов и автоматизации лексикографических работ. Динамичность компьютерных словарей означает, что отбор лексики не прекращается после составления словаря, а продолжается в течение всего времени его функционирования [Убин 1992]. Вышеуказанные свойства также достаточно полно описаны в работе О.И. Максименко [Максименко 2003].

Словарь содержит базу знаний (БЗ), в которой хранится информация об одиночных терминах, их комбинаторных цепочках и грамматических пометах. Предлагаемая база основана на представлении знаний методами искусственного интеллекта. Собственно интеллектуальный электронный словарь как интеллектуальная система состоит из двух частей: вариативной и инвариантной. Вариативная часть отвечает за содержание и зависит от предметной области. Инвариантная часть образует оболочку системы, которая содержит, в частности, знания для контроля контента по формальным признакам при анализе базы данных (БД) словаря на непротиворечивость, для организации интеллектуального ввода и т.п.

Для достижения поставленной цели при разработке ИЭОС необходимо реализовать следующие методологические предпосылки:

- целостность компонента;

- пополняемость компонента;

- внутренняя структурированность для работы с данными предметной области. Разработанная архитектура ИЭОС включает программно-аппаратную

платформу, интерфейс и систему управления базой данных (СУБД) (рис. 1).

Для реализации программы выбрано приложение - \УеЬ-интерфейс, что обусловлено следующими факторами:

-функции приложения выполняются на сервере, а не на стороне клиента, что существенно снижает требования к аппаратной платформе вычислительных ресурсов рабочей станции клиента; -отсутствует необходимость устанавливать приложение на все компьютеры пользователей, достаточно разместить его на локальном сервере и пользоваться удаленно; -относительно легко можно встроить в структуру сайта или разместить на «хостинге», как отдельный элемент;

-не требуется специальной среды для написания модулей программы, достаточно текстового редактора. В связи с необходимостью обеспечения доступа БД с компьютеров локальной сети (или сети Интернет) - при этом вычислительная нагрузка на сервер относительно мала - наиболее предпочтительным выбором является организация клиент-серверной структуры СУБД.

Управляющий модуль координирует действия подсистем (модулей) ИЭОС в соответствии с определенными сценариями (рис. 1). Общение с внешней средой осуществляется на основе интерфейса ввода-вывода: из внешней среды поступают запросы к системе по установленным формам, предопределенным сценариями, в соответствии с которыми функционирует Управляющий модуль. Определенные запросы пользователей инициируют соответствующие сценарии работы, такие, как поиск определенного термина, ввод информации в БД в пакетном варианте; для эксперта - изменение в БД (модернизация); для пользователя -получение информации о склонении термина в заданных падежах. Результаты обработки представляются пользователям через интерфейс ввода-вывода.

Одним из центральных звеньев является СУБД, построенная на основе семантической сети, которая, собственно, содержит термины на немецком языке в единственном и множественном числе, перевод и артикль, а также (при наличии) информацию об устойчивых словосочетаниях.

Причем СУБД управляет функционированием БД (сохранение, восстановление, резервное копирование и т.п.).

Интеллектуальный модуль управления (МУ) содержит модуль управления и БЗ продукционного типа. При этом МУ БЗ функционирует аналогично механизму логического вывода (машине логического вывода) в экспертной системе.

Модуль управления рабочей памяти (МУ РП) и собственно РП также аналогичны подсистеме в экспертной системе, (называемой «рабочая доска»), в которой сохраняются временные данные, реализуется их обработка. На его основе, например, осуществляется ввод из Ехсе1-файла (пакетный режим) (табл. 1), обработка информации по определенным правилам (проверка правильности ввода и т.п.) с дальнейшим вводом в БД, а также реализация обратной связи при запросе из БД в Модуль рабочей памяти по сценарию управляющего модуля.

Важный компонент ИЭОС - это Лексико-семантический модуль, который осуществляет анализ поступающих данных в Модуль управления рабочей памятью и проверку их корректности. Кроме этого, осуществляет синтез различ-

ных словоформ на основе информации об устойчивых словосочетаниях по правилам, которые содержатся в БЗ.

Табл. 1. Фрагмент таблицы Exel-файла

Род Термин ед.ч номинатив Генетив Мн ожествен ное число Словосочетания с термином Перевод

die BasisAbbildungsunterstützung Basis- Abbildungsunterstütz ung BasisAbbildungsunterst ützungen базовая поддержка отображения

die Abbremsung Abbremsung Abbremsungen притормаживание

die Abdichtung Abdichtung Abdichtungen biegsame Abdichtung гибкое уплотнение уплотнение

die Abfallaufarbeitung Abfallaufarbeitung Abfallaufarbeitun gen Abfallaufarbeitung mittels Roboters обработка отходов с помощью роботов обработка отходов

die Abfallbeseitigung Abfallbeseitigung Abfallbeseitigung en Abfallbeseitigung mittels Roboters удаление отходов с помощью роботов удаление отходов

die Vorrichtung Vorrichtung Vorrichtungen Vorrichtung zur Beseitigung von Abfallen устройство для удаления отходов устройство

das Abfallprodukt Abfallproduktes Abfallprodukte побочный продукт

der Abfangmoment Ab fangmomentes Ab fangmomente момент перехвата; момент перехватывания

der Abfragebetrieb Abfragebetriebes Abfragebetriebe режим опроса

die Ab frageei nrichtung Abfrageeinrichtung Ab frageeinrichtun gen блок опроса; устройство опроса

die Abfragefrequenz Ab frage frequenz Ab fragefrequenze n частота запроса

Из приведенной таблицы виден список терминов, принадлежащих подъ-

языку мехатроники и робототехники. При перекачке информации в БД словаря учитывается соотнесенность каждой ячейки.

На основе классификации моделей представления знаний и хранения данных и сравнительного анализа выбрана расширенная семантическая сеть. Используемая расширенная семантическая сеть представлена в виде дерева, т.е. состоит из обыкновенных графов, содержащих N вершины и 1 дуг [Мешалкин 1989, Потапова 2012]. Вершины связаны дугами, которые отражают различные грамматические и морфологические отношения. Корнем дерева семантической сети является существительное на немецком языке в именительном падеже (рис. 2).

От него исходят дуги к вершинам «артикль», «склонение», «существительное на русском языке в именительном падеже», которые выражают отношения между вершинами-концептами и представляют функциональные связи,

т.е. связаны глаголом «иметь», а также по типу отношений являются Л'-арными. Вершина «артикль» связана с вершинами, отражающими виды артиклей «определенный», «неопределенный» и множественное число. Вершина «склонения существительного» связана с вершинами «существительное на немецком языке в падеже генетив», «существительное на немецком языке в падеже датив» и «существительное на немецком языке в падеже аккузатив» с помощью дуг (рис. 2). Вершина «словосочетания с существительным-термином» связана с «существительное на немецком языке в номинатив» дугой, которая выражает функциональную связь с глаголом «включать».

Вершина «словосочетания с существительным-термином» включает вершины «причастные словосочетания», «субстантивированные словосочетания» и «адъективные словосочетания». Каждая из вышеперечисленных вершин имеет Л^-арные отношения с вершинами «словосочетание 1...№>. Вершина «словосочетание» связана с вершиной «перевод». От вершины «словосочетание» исходит дуга, отображающая отношение принадлежности к вершине «зависимое слово словосочетания». Эти вершины объединены на основе дуг с

Рис. 2. Семантическая структура вариативной части БД словаря

вершиной «словосочетания с существительным-термином», которая связана дугой с вершиной «существительное термин на немецком языке в именительном падеже».

На рис. 3. показан пример семантической сети термина «Roboter». В левом верхнем углу расположены подграф «артикли» существительного: определенный артикль мужского рода, неопределенный артикль мужского рода и форма множественного числа артикля. Справа семантический подграф, отображающий формы склонения существительного по падежам в единственном и множественном числах. В центре находится собственно вершина, отображающая термин «Roboter», ниже левее вершины - перевод на русский язык. Далее расположен подграф «словосочетания с существительным термином», в котором осуществляется распределение словосочетаний с термином по категориям: адъективные, причастные и субстантивированные. Через зависимое слово словосочетания поддерживается связь с другими терминами - существительными. Таким образом, формируется семан-

Рис. 3. Пример семантической структуры термина «Roboter»

тическая сеть терминов, взаимосвязанных с другими словами и словосочетаниями предметной области «робототехника» и «мехатроника». В качестве тематических категорий, которыми ограничена заданная предметная область, выделены следующие:

• электроника;

• теоретическая механика;

• сопротивление материалов;

• автоматическое управление;

• методы искусственного интеллекта,

• программное обеспечение,

• механика,

• навигация,

• алгоритмическое обеспечение,

• элементы классификации по А.Е. Корбинскому.

В соответствии с методикой выбора смысловой информации для каждой категории формируется ядро ключевых терминов и словосочетаний с ними, чтобы в дальнейшем они послужили базой для пополнения и модернизации словаря [Большакова 2012]. Благодаря выбранным терминам происходит поиск текстов в информационном массиве и при положительном решении экспертов -добавление найденных текстов и терминов в БД словаря и корпуса по робототехнике и мехатронике.

Для корректного функционирования БД разрабатываемого ИЭОС необходимо следовать приведенной ниже методике проверки правильности содержания БД на основе морфологии и семантики немецкого языка. 1. Определить особенности морфологии и семантики выбранного языка:

- взаимосвязь существительных и артиклей;

- форма множественного и единственного числа существительных;

- изменение аффиксов в падежных формах;

- типы словосочетаний по виду связей;

- синтаксические связи в словосочетаниях;

2. На основе выявленных особенностей разработать продукционную модель знаний.

3. Реализовать продукционную модель знаний в ИЭОС.

4. Провести проверку сформированных продукционных правил в БЗ ИЭОС.

На основе вышеуказанной методики проанализирован корпус текстов предметной области «робототехника» и «мехатроника» для выявления типов словосочетаний (табл. 2).

Табл. 2. Типы словосочетаний, функционирующие в БД ИЭС

№ Тип словосочетания Пример

1 прилагательное (причастие 1,2) + прилагательное (причастие 1,2) hydralisch angetrieben

2 прилагательное (причастие 1,2) + прилагательное (причастие 1,2) + существительное Nominativ modularer programi erbarer Automat

3 прилагательное (причастие 1,2) + существительное Nominativ integriertes Abbildungssystem, umgewandelte Ausgangsgröße

4 прилагательное + существительное Nominativ + существительное Dativ automatische Abläufe bei Handhabungsprozessen

5 составное существительное Nominativ Drei-Achsen-Roboter

6 существительное Nominativ + прилагательное Akzeptor betriebsbereit

7 существительное Nominativ + существительное Akkusativ Ablagemuster für IR

8 существительное Nominativ + существительное Akkusativ + существительное Akkusativ Einfugeroboter für Bauteile auf Karten

9 существительное Nominativ + существительное Akkusativ + существительное Genetiv Roboter für die Montage von Bauteilen

10 существительное Nominativ + существительное Dativ Ablage von Werkstücken

И существительное Nominativ + существительное Dativ + существительное Akkusativ Abweichungsverhältnis bei Manipulation von Teilen

12 существительное Nominativ + существительное Dativ + существительное Genetiv System mit automatischer Anforderung einer Wiederholung

13 существительное Nominativ + существительное Genetiv Abfuhroperation eines Industrieroboters

14 существительное Nominativ + существительное Genetiv + существительное Dativ Vorrichtung zur Zuführung und Auswechselung von Werkzeugen

И существительное Nominativ + существительное Nominativ Anfahren und Speichern

16 наречие + прилагательное (причастие 1,2) + существительное Nominativ parallel bewegbare Greiferbakken

Алгоритмическое обеспечение включает множество алгоритмов, выпол-

няющих требуемый комплекс функций (функционала) интеллектуального электронного словаря. На рис. 4 приводится в качестве примера алгоритм добавления термина. Эта операция осуществляется следующим образом: эксперт вводит информацию о новом термине, после этого осуществляется проверка на за-

полненность полей и отсутствие термина в базе. Если данные условия выполняются, то термин заносится в базу данных словаря.

II. Если в первом поле артикль der, в третьем поле существительное с заглавной буквы, с о-умлаут [о] и окончанием -е, то во втором существительное с заглавной буквы, без умлаута и без окончания -е. и т.д.

В третьей главе отражены результаты использования ИЭОС в области «робототехника» и «мехатроника» в качестве независимого WEB-приложения, как встроенного компонента автоматизированного рабочего места переводчика и преподавателя, а также использование базы данных и знаний словаря в системах специфического тестирования немецкого языка. Оболочка ИЭОС системы позволяет заполнить ее информацией из конкретной предметной области. В диссертационном исследовании приведен пример разработки подобного словаря для подъязыка робототехники и мехатроники (рис. 5).

Словарь является независимым Web-приложением, поэтому его можно использовать в качестве компонента автоматизированного рабочего места переводчика и преподавателя. Пополняемость ИЭОС позволяет повысить эффективность работы специалистов.

Ниже приводится фрагмент комплекса продукционных правил, полный перечень которых приведен в диссертационной работе.

I. Если в первом поле ар-

Рис. 4. Алгоритм добавления термина

тикль der, в третьем поле существительное с заглавной буквы, с а-умлаут [ä] и окончанием -е, то во втором существительное с заглавной буквы, без умлаута и без окончания -е.

При этом БД словаря, содержащая корпус текстов, может быть использована преподавателями в учебном процессе для формирования навыков перевода аутентичных текстов и проверки их знания на основе тестирования.

Преподаватель, выбрав из необходимой категории текст, может включить его в

практические занятия для тренировки навыков перевода технических текстов или сконструировать тесты для проверки уровня знаний иностранного языка, а также изучаемой терминосистемы. Например, из категории «искусственный интеллект» вы-Рис. 5. Форма работы с терминами после выбора слова (для эксперта) бирается текст:

Künstliche Intelligenz

Im Verständnis des Begriffs künstliche Intelligenz spiegelt sich oft die aus der Aufklärung stammende Vorstellung vom „Menschen als Maschine" wider, dessen Nachahmung sich die so genannte starke KI zum Ziel setzt: eine Intelligenz zu erschaffen, die wie der Mensch kreativ nachdenken und Probleme lösen kann und die sich durch eine Form von Bewusstsein beziehungsweise Selbstbewusstsein sowie Emotionen auszeichnet. Die Ziele der starken KI sind nach Jahrzehnten der Forschung weiterhin visionär.

Im Gegensatz zur starken KI geht es der schwachen KI darum, konkrete Anwendungsprobleme zu meistern. Insbesondere sind dabei solche Anwendungen von Interesse, zu deren Lösung nach allgemeinem Verständnis eine Form von „Intelligenz" notwendig zu sein scheint.

Letztlich geht es der schwachen KI somit um die Simulation intelligenten Verhaltens mit Mitteln der Mathematik und der Informatik, es geht ihr nicht um Schaffung von Bewusstsein oder um ein tieferes Verständnis von Intelligenz. Während die starke KI an ihrer philosophischen Fragestellung bis heute scheiterte, sind auf der Seite der schwachen KI in den letzten Jahren bedeutende Fortschritte erzielt worden.

На основе разработанного программного продукта «Система тестирования C-Tests ver. 1.0.0» преподаватель может автоматизировать разработку тестов. Для проверки общего уровня владения иностранного языка используется принцип С-тестов, т.е. деление каждого третьего слова, всего 20 маркированных слов. Например:

Электронный немецко-русский словарь по робототехнике

термины:

Atuilchmgs«yaam » AnamotphoMchet abbildungtsytieni

Перевод избранного термина: Wegn«<ie* »bb'Klungssysiem

cMCTtei мэс*мж«<м ОрмсЛв» «OWein9»»ystem

| Добавит» новый <в

Импортировать слова и.

Im Verständnis des Begriffs künstliche Intelligenz spiegelt sich oft die aus der Aufklärung stammende Vorstellung vom „Menschen als Maschine" wider, dessen Nachahmung sich die so genannte starke KI zum Ziel setzt: eine Intelligenz zu erschaffen, die wie der Mensch kreativ nachdenken und Probleme lösen kann und die sich durch eine Form von Bewusstsein beziehungsweise

Selbstbewusstsein sowie Emotionen auszeichnet. Die Ziele _er starken künstlichen

_telligenz sind nach_hrzehnten der Forschung_terhin visionär. Im_gensatz zur

starken_stlichen Intelligenz geht _s der schwachen _stlichen Intelligenz darum,

_krete Anwendungsprobleme zu_stern. Insbesondere sind_bei solche Anwendungen _n Interesse, zu_ren Lösung nach_gemeinem Verständnis eine rm von

„Intelligenz"_wendig zu sein _heint. Letztlich geht_s der schwachen _stlichen

Intelligenz somit _m die Simulation intelligenten Verhaltens mit Mitteln der Mathematik und

der Informatik, es geht ihr nicht um Schaffung von Bewusstsein oder um ein tieferes Verständnis von Intelligenz. Während die starke künstliche Intelligenz an ihrer philosophischen Fragestellung bis heute scheiterte, sind auf der Seite der schwachen künstlichen Intelligenz in den letzten Jahren bedeutende Fortschritte erzielt worden.

Для проверки знаний терминологии преподавателю необходимо выбрать подходящий текст, провести упрощение синтаксического строя, чтобы внимание испытуемых направлялось на понимание смысла текста и проверяемого подъязыка, выделить термины; входящие в терминосистему. Далее по принципу С-тестов произвести деление выбранных слов.

На основе описанной методики построены также разделы «тексты» и «словарь» системы обучения английскому языку технических специалистов по направлениям робототехники и мехатроники, автоматизированные системы проектирования и системы искусственного интеллекта, подтвержденные свидетельствами о государственной регистрации программы для ЭВМ.

В заключении подведены итоги проведенного исследования, сформулированы основные выводы и обобщены рекомендации по разработке интеллектуального электронного отраслевого словаря. Разработана архитектура ИЭОС, выбрана программно-аппаратная платформа, созданы интерфейс и СУБД. Выбраны модели представления знаний и хранения данных, причем наиболее подходящими для представления информации в корпусе текстов следует признать семантические сети, в результате используется гибридная модель представления знаний, основанная на комбинированном использовании семантических сетей и продукционных правил. Осуществлен выбор необходимой смысловой информации из различных источников для формирования корпуса текстов в сфере робототехники и мехатроники с учетом существующей классификации в

предметной области и с последующим заполнением БЗ и БД ИЭОС соответствующей информацией. Представлена реализация ИЭОС на Web-платформе с клиент-серверной технологией, БД MySQL и на основе языка программирования PHP. Выполнена успешная апробация функциональности автоматизированного интеллектуального немецко-русского отраслевого словаря.

Перспективы дальнейших исследований включает разработку автоматического пополнения базы данных текстовыми массивами выбранной предметной области, создание алгоритмов для автоматического извлечения релевантной информации из вышеуказанных текстовых массивов и модернизацию прототипа разработанной системы, что обусловлено интенсивным развитием технологий в области машинного перевода и систем автоматической обработки текста.

Библиография содержит список научной литературы отечественных и зарубежных исследователей.

Основные положения диссертационного исследования нашли отражение в 16 публикациях Большаковой М.А. общим объемом 3,65 п.л. I. Статьи, опубликованные в изданиях, включенных в «Перечень российских рецензируемых научных журналов и изданий, в которых должны быть опубликованы основные научные результаты диссертаций на соискание ученой степени доктора и кандидата наук»:

1. Большакова, М.А. Программная реализация интеллектуального электронного словаря для дистанционного обучения / М.А. Большакова,

B.В. Лобанов // Журнал «Программная инженерия», Москва. - 2013. № 5 -

C. 21 - 26. - 0,4 п.л.

2. Большакова, М.А. Использование продукционных правил при формировании базы знаний для интеллектуального электронного словаря / М.А Большакова // Вестник Пятигорского государственного лингвистического университета. - 2013. - №1. - С. 142 - 146. - 0,3 п.л.

3. Большакова, М.А. Использование семантической сети при создании интеллектуального электронного словаря для немецко-русского отраслевого

перевода / М.А. Большакова. // Известия Волгоградского государственного педагогического университета. - 2013. №4 - С. 49-53. - 0,3 п.л.

4. Большакова, М.А. Особенности формирования специального корпуса текстов в области робототехники на немецком языке / М.А. Большакова // Гуманитарные исследования. Астрахань: Издательство «Астраханский государственный университет». - 2012.- №2 - С. 12 -19. - 0,5 п.л.

5. Bolshakova, М.А. Improving translator's workplace based on electronic intellectual specialized dictionaries / Совершенствование автоматического рабочего места переводчика на основе электронного интеллектуального отраслевого словаря / М.А. Большакова // Вестник Саратовского государственного технического университета. - 2012. - №1 (64). Выпуск 2. -С. 302 - 305. - 0,25 п.л.

6. Большакова, М.А. Создание автоматизированной обучающей системы для изучения иностранного языка в неязыковых вузах / М.А. Большакова // Вестник Саратовского государственного технического университета. - 2010. -№4 (50). Вып. 2 - С. 161 - 164. - 0,25 п.л.

И. Другие публикации по теме диссертационного исследования в периодических научных изданиях и сборниках:

7. Большакова, М.А. Логистика разработки отраслевого словаря для дистанционного обучения / М.А. Большакова, В.В. Лобанов // Логистика и экономика ресурсосбережения и энергосбережения в промышленности: Сборник научных трудов по материалам Международной практической конференции. ЛЭРЭП-6-2012. Саратов: СГТУ, 11-13 декабря 2012. С. 126 - 128. - 0,2 п.л.

8. Большакова, М.А. Teaching system using C-tests technologies in the field of robotics / М.А. Большакова // Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-25). Харьков 2- 4 октября 2012г. т. 5. С. 146- 148.-0,2 п.л.

9. Большакова, М.А. Разработка автоматизированной контролирующей системы в неязыковых вузах / М.А. Большакова // Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-24). 2011г. Т. 9. С.161-163. - 0,2 п.л.

10. Большакова, М.А. Создание автоматизированной обучающей системы для изучения иностранного языка в аграрном вузе / М.А. Большакова // Международная научно-практическая конференция "Организационно-экономические аспекты модернизации агропродовольственного сектора". Март, 2011. Саратовский государственный аграрный университет. С.52-54. - 0,2 п.л.

11. Большакова, М.А. С-тесты как инструмент контроля знаний иностранного языка у студентов неязыковых вузов / М.А. Большакова // Проблемы и перспективы развития эффективной агроэкономики: Материалы Всероссийской научно-практической конференции / Под ред. И.Л. Воротникова. - Саратов: Издательство «КУБиК». - 2010. - С. 175-176. - 0,1 п.л.

12. Большакова, М.А. Алгоритм вычисления уровня знания иностранного языка при помощи С-тестов / М.А. Большакова // Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-22). -Саратов: СГТУ, 2009. Т 9. С. 243-245. - 0,2 п.л.

13. Большакова, М.А. Программа оценки и контроля уровня знаний иностранного языка на основе С-тестов / М.А. Большакова, P.E. Ковач, В.В. Лобанов // Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-21). - Саратов: СГТУ, 2008. Т 9, секция 10. С. 246-247.-0,1 п.л.

14. Bolshakova, М.А. C(TF)-Test als Sprachprüfungsinstument der russischen Studenten Fachbereich Geschichte / R.S. Bauer, M.A. Bolshakova // Международная научная конференция «Математические методы в технике и технологиях» (ММТТ-21). - Саратов: СГТУ, 2008. Т 9, секция 10. С. 244-245. - 0,1 п.л.

15. Большакова, М.А. Активизация изучения немецкого языка на основе TF-тестов / М.А. Большакова, P.C. Баур, А.И. Шаповалов // Всероссийская научно-практическая конференция «Твой первый шаг в науку». - Саратов: Лицей СГТУ, 2007. С. 75-76. - 0,1 п.л.

16. Большакова, М.А. Информационная поддержка оценки уровня знания иностранного языка на основе С-тестов / М.А. Большакова, P.C. Баур, А.И. Шаповалов // Логистика и экономика ресурсосбережения и энергосбере-

жения в промышленности (МНПК «ЛЭРЭП-2-2007»): Сборник научных трудов по материалам Международной практической конференции 12-15 сентября 2007 года Том 3. - Саратов СГТУ, 2007. С.141-143. - 0,2 п.л.

III. Свидетельства о государственной регистрации программ

17. Большакова, М.А.Свидетельство о государственной регистрации программ для ЭВМ № 2013620720. «База данных немецко-русского интеллектуального электронного словаря по мехатронике и робототехнике» \ Р.К. Потапова, М.А. Большакова, В.В. Лобанов - 20.06.2013

18. Большакова, М.А. Свидетельство о государственной регистрации программ для ЭВМ №2013612250. «Интеллеюуальный электронный немецко-русский словарь для систем машинного перевода и дистанционного обучения» \ М.А. Большакова,

B.В. Лобанов, И .А. Фарафанов - 20.02.2013

19. Большакова, М.А.Свидетельство о государственной регистрации программ для ЭВМ №2010614166. «Система обучения английскому языку технических специалистов по направлениям мехатроника и робототехника» \ A.A. Большаков,

C.М. Федюнина, Н.А, Бексаева, C.B. Пчелинцева, М.А. Большакова - 28.04.2010.

20. Большакова, М.А.Свидетельство о государственной регистрации программ для ЭВМ №2010614166. «Система обучения английскому языку технических специалистов по направлениям автоматизированные системы проектирования и системы искусственного интеллекта» \ A.A. Большаков, С.М. Федюнина, Л.Н. Максимова, C.B. Пчелинцева, Р.В, Карпук., А.Ю. Новик, М.А. Большакова - 28.04.2010.

Подписано в печать: 13.11.13 Тираж: 100 экз. Заказ № 135 Объем усл. 1,0 п.л. Отпечатано в типографии «Реглет» г. Москва, ул. Ленинский проспект, д.2 8(495)978-66-63, www.reglet.ru

 

Текст диссертации на тему "Лингвистический контент и программная реализация интеллектуального немецко-русского отраслевого словаря"

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ УНИВЕРСИТЕТ»

На правах рукописи

04201365684

БОЛЬШАКОВА Мария Александровна

ЛИНГВИСТИЧЕСКИЙ КОНТЕНТ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ИНТЕЛЛЕКТУАЛЬНОГО НЕМЕЦКО -РУССКОГО ОТРАСЛЕВОГО СЛОВАРЯ

Специальность 10.02.21 - Прикладная и математическая лингвистика

Диссертация на соискание ученой степени кандидата филологических наук

Научный руководитель д.филол.н., проф., Потапова Р.К.

Москва 2013

ОГЛАВЛЕНИЕ

ВВЕДЕНИЕ...............................................................................................................................4

Глава 1. СОВРЕМЕННЫЕ МЕТОДЫ СОЗДАНИЯ ЭЛЕКТРОННЫХ СЛОВАРЕЙ......12

1.1. Анализ процесса становления и развития электронных словарей......................12

1.2. Классификация электронных словарей..................................................................19

1.3. Обзор современных методов и инструментальных средств создания электронных словарей........................................................................................................44

1.4. Характеристика корпусной лингвистики...............................................................52

1.5. Выбор корпуса текстов для диссертационного исследования.............................65

1.6. Краткая характеристика методов искусственного интеллекта в математической лингвистике.........................................................................................................................66

1.7. Постановка задачи диссертационного исследования...........................................72

1.8. Выводы.......................................................................................................................73

Глава 2. РАЗРАБОТКА ИНТЕЛЛЕКТУАЛЬНОГО ЭЛЕКТРОННОГО ОТРАСЛЕВОГО СЛОВАРЯ...............................................................................................................................76

2.1. Формирование требований к интеллектуальному электронному отраслевому словарю................................................................................................................................76

2.2. Выбор базы данных и типа архитектуры интеллектуального электронного отраслевого словаря............................................................................................................77

2.3. Разработка базы данных и архитектуры интеллектуального электронного отраслевого словаря............................................................................................................85

2.4. Выбор моделей представления знаний и хранения данных в интеллектуальном электронном отраслевом словаре......................................................................................87

2.5. Разработка семантической сети для интеллектуального электронного отраслевого словаря на немецком языке..........................................................................93

2.6. Создание методики выбора смысловой информации для формирования корпуса текстов в заданной предметной области..........................................................................97

2.7. Разработка методики проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка.......................................................100

2.8. Создание алгоритмического обеспечения интеллектуального электронного отраслевого словаря..........................................................................................................114

2.9. Программная реализация интеллектуального электронного отраслевого словаря ..121

2.10. Выводы.................................................................................................................123

Глава 3. АНАЛИЗ РЕЗУЛЬТАТОВ ИСПОЛЬЗОВАНИЯ ИНТЕЛЛЕКТУАЛЬНОГО ЭЛЕКТРОННОГО ОТРАСЛЕВОГО СЛОВАРЯ..............................................................125

3.1. Создание немецко-русского интеллектуального электронного словаря в сфере

робототехники и мехатроники.........................................................................................125

3.2. Использование интеллектуального электронного словаря как встроенного компонента АРМ переводчика, преподавателя.............................................................139

3.3. Использования интеллектуального электронного словаря в системах специфического тестирования немецкого языка...........................................................142

3.4. Выводы.....................................................................................................................149

ЗАКЛЮЧЕНИЕ....................................................................................................................150

СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ....................................153

ЛИТЕРАТУРА......................................................................................................................155

ПРИЛОЖЕНИЯ....................................................................................................................180

ВВЕДЕНИЕ

Современное общество порождает большое количество текстовых массивов. Развитие наук осуществляется все увеличивающимися темпами. Вслед за этим процессом, как «снежный ком», возрастает объем информации, посвященной научным исследованиям. Необходимо отметить, что не каждый владеет достаточными навыками в области иностранных языков для квалифицированной работы с литературой по специальности. Из-за этого возникают трудности понимания научной литературы и терминологии на другом языке, участия на международных конференциях и передачи научного знания. Для устранения этой проблемы могут быть использованы методы корпусной лингвистики, а именно специальный корпус текстов, который содержит необходимую терминологию. Он предназначен решить две задачи: стать «донором» электронному отраслевому словарю и предоставить тексты выбранной предметной области для получения знаний и тренировки иностранного языка. Несмотря на то, что современная корпусная лингвистика имеет большое количество корпусов текстов, не было найдено такого, который мог удовлетворить сформулированным требованиям. Это связано с тем, что стандартные корпусы располагают большим объемом различных текстов, основная задача которых изучение языковых явлений. Исследовательские или специальные корпусы текстов настроены на конкретные задачи и разрабатываются исходя из требований создателей.

Электронный словарь также является одним из способов устранения трудностей при работе с техническими текстами на иностранном языке. Существующие словари не всегда могут отвечать требованиям профильных специалистов: экспертов-лингвистов, либо работников инженерных отраслей. Основными недостатками являются отсутствие перевода искомых слов или их неточный перевод, отсутствие сопровождающей информации, такой как артикли, изменение формы в единственном и множественном числе. Также не во всех словарях можно увидеть словосочетания с искомым словом, добавить или

изменить их в базе. Эти недостатки увеличивают время перевода и понимания текста.

Таким образом, на основе интеграции гуманитарных и прикладных наук предоставляется возможность использовать преимущества прикладной лингвистики и искусственного интеллекта при разработке новых электронных словарей, которые на основе методов искусственного интеллекта повышают функциональные возможности.

Актуальность исследования обусловлена необходимостью решения задачи создания интеллектуального электронного отраслевого словаря для предметной области «робототехника» и «мехатроника». Это объясняется тем, что в настоящее время происходит активное развитие данного научно-технического направления в разных странах ЕС, в частности, в Германии, которая является ведущей в области робототехники, что отражается прежде всего в создании образовательного стандарта по робототехнике и мехатронике, который широко используется в различных странах Европы (ТеБШ ВПёш^Гопск].

Современные проблемы автоматической обработки информации, представленной на естественном языке, невозможно решить без лингвистических данных, полученных методами корпусной лингвистики -количественными и качественными [Сушилин 2007]. Результаты исследования корпусов текстов могут использоваться для решения многих лингвистических задач: составления разнообразных словарей (слов, словосочетаний, частотных словарей и т.д.), описания грамматического строя языка, дифференциации типов текстов, а также в качестве основы моделирования разнообразных систем автоматической обработки текста.

Методологическую основу исследования составляют концептуальные разработки и практические результаты, отраженные в трудах по терминоведению (М.В. Антонова, И.Н. Волкова, М.А. Ковязина, В.М. Лейчик, В.М. Перерва, В.Н. Сергеев, В.Д. Табанакова), которые рассматривают типологию терминологических словарей.

Проблемам корпусной лингвистики посвящены труды Н.Д. Андреева, В.М. Андрющенко, JT.H. Беляевой, В.П. Захарова, A.A. Поликарпова, где рассматриваются понятия корпуса текста, его разметки, а также параллельный корпус текстов.

Важным для данного диссертационного исследования являются труды в области лексикографии (Ю.Д. Апресян, А.Н. Баранов, В.П. Берков, В.М. Варинская, В.Г. Гак, A.C. Герд, C.B. Гринев, П.Н. Денисов, В.В. Дубчинский, Б.И. Игнатьев, Е.В. Каламбет, Ю.Н. Караулов, Р.Ю. Кобрин, З.И. Комарова, И.С. Куликова, Ю.С. Маслов, В.В. Морковкин, Л.Л. Нелюбин, В.П. Петушков, Л.В. Попова,

B.Ф. Роменская, Д.В. Салмина, Л.В. Щерба), посвященные классификациям словарей и их фукциям.

В книге Р.К. Потаповой «речевое управление роботом» дана классификация роботов с учетом технических и фонетико-лингвистических аспектов в робототехнике.

В работах Ю.М. Абсалямова, О.И. Бабиной, A.B. Зубова, А.Д. Клочко, О.И Максименко, З.М. Шаляпиной показано применение информационных технологий в лингвистике, такое как, например, применение формальных методов оценки эффективности систем автоматической обработки текстов.

В теории текстологии труды М.Я. Дымарского, Г.А. Золотовой, И.А. Мельчука и О.И.Москальской описывают понятие текста и его характеристики с учетом хронологии и точки зрения научных школ.

Труды в области теоретической и прикладной лингвистики В.А. Звегинцева, H.H. Леонтьевой, Ю.Н. Марчука, C.B. Никитиной, И.И. Убина важны для данного диссертационного исследования в связи с тем, что посвящены машинному переводу, информационному анализу текстов, автоматическому индексированию и автоматическому поиску информации, компьютерной лексикографии и интеллектуальным системам автоматического понимания текста и т.п.

Значительный вклад в исследования в вышеуказанных направлениях внесли зарубежные ученые С. Аткинс, Д. Бибер, В. Вартбург, А. Вилсон, Т. Виртанен,

C. Конрад, П. Кюн, А. Люделинг, Р. Халлиг и другие. Важная роль в

вышеприведенных исследованиях отводится дефиниции таких понятий как корпус текстов, термин, а также классификации существующих словарей.

Однако в них отсутствует интеллектуальная автоматизированная система, содержащая сформированные и определенным образом упорядоченные наименования понятий предметной области «робототехника» и «мехатроника».

Существующие терминологические словари указанной предметной области на бумажном носителе не отвечают современным требованиям по ряду причин, одной из которых является отсутствие автоматического поиска терминов. Современные электронные словари имеют эту функцию, однако часть из них не позволяет пополнять базу данных с учетом грамматических правил языка, что важно при переводческой работе или при составлении текстов. Например, словарь Ро^1оБзит, ориентированный на предметную область робототехники представляет пользователю только поиск термина на немецком/русском языке и его перевод без учета рода существительного (термина) без возможности дополнения базы данных новыми терминами и словосочетаний с ними данной предметной области. Интеллектуальная составляющая словарей присутствует только в системах машинного перевода фирменных продуктов, стоимость которых затрудняет их использование для бюджетной сферы образования.

Для создания немецко-русского интеллектуального электронного словаря по робототехнике и мехатронике требуется разработка соответствующих методик, алгоритмов и прототипа системы.

Основные методы, применяемые в настоящем диссертационном исследовании, определяются его задачами и включают корпусный, алгоритмический, дистрибутивный, статистический, контекстологический, комбинаторный, компонентный, сопоставительный, трансформационный, семантический и лексикографический виды анализа.

Объектом исследования является корпус научно-технических текстов применительно к их использованию в автоматизированных системах.

Предметом исследования являются методы и алгоритмы автоматизированного отбора релевантной информации из информационного массива предметной области «робототехника» и «мехатроника», базы данных и знаний интеллектуального электронного словаря.

Вышеуказанная предметная область включает применительно к данному исследованию немецкоязычные научно-технические тексты в сфере робототехники и мехатроники, характеризующиеся наличием специальных терминов.

Основной целью исследования является построение модели извлечения научно-технических текстов вышеуказанной предметной области из первичных массивов текстов, включающих тексты научно-информационной литературы и из Интернета, а также разработка интеллектуального электронного отраслевого словаря и его апробация на примере предметной области «робототехника» и «мехатроника» на немецком языке, что в дальнейшем может быть использовано для повышения эффективности автоматизированного научно-технического перевода.

Гипотеза исследования заключается в том, что дополнительное привлечение данных лингвистического анализа текстов с использованием правил импликаций «ее л и... то» позволит оптимизировать процедуру автоматизированного поиска в полнотекстовом массиве документов ограниченной предметной области.

В соответствии с целью и гипотезой исследования решались следующие задачи:

- разработка архитектуры интеллектуального электронного отраслевого словаря применительно к предметной области «робототехника» и «мехатроника»;

- выбор модели хранения данных и представления знаний в вышеуказанной предметной области;

- формирование корпуса текстов вышеуказанной предметной области на базе различных источников информации;

- создание правил проверки корректности ввода единиц базы данных с учетом морфологического и семантического уровня немецкого языка;

- формализация разработанных правил на основе интеллектуальной модели представления знаний;

- программная реализация интеллектуального электронного отраслевого словаря с учетом разработанных лингвистических правил;

- заполнение базы знаний и базы данных интеллектуального электронного отраслевого словаря лингвистической информацией;

- пилотная апробация предложенного способа использования лингвистической информации для организации информационного массива в предметной области «робототехника» и «мехатроника».

Научная новизна диссертации заключается в том, что впервые:

- предложена архитектура немецкоязычного электронного отраслевого словаря, включающая базу данных и базу знаний в виде семантической сети и содержащая интеллектуальную компоненту, реализующую продукционный механизм правильности содержания базы данных на основе морфологии и семантики немецкого языка;

- предложена методика проверки корректности содержания базы данных на основе морфологии и семантики немецкого языка;

- сформулированы правила проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка, формализованные в виде комплекса продукционных правил;

- разработаны алгоритмы функционирования интеллектуального электронного отраслевого словаря с учетом архитектуры и функционирования системы для WEB-реализации.

Теоретическая значимость диссертации заключается в том, что полученные результаты являются вкладом в теорию моделирования и формализации языковых и речевых единиц применительно к критериям и требованиям разработки автоматизированных систем с использованием лингвистических процессов, теорию лексикографии и терминографии применительно к созданию лингвистических процессоров в различных предметных областях, в теорию автоматизированных информационных систем и

систем управления базами знаний и данными, а также в дальнейшее развитие концепции Р.К. Потаповой «Новые информационные технологии и лингвистика» [Потапова 2002, 2004, 2005, 2012].

К подобным результатам, имеющим теоретическую значимость, следует отнести предложенную типовую архитектуру интеллектуального электронного отраслевого словаря, использующего комбинированную модель представления знаний; дуальный принцип построения, при котором инвариантная часть образует оболочку системы, причем ее функциональность связана с контролем контента по формальным признакам, интеллектуальным вводом и др., а вариативная часть определяется конкретной предметной областью. Кроме этого, определенный теоретический интерес представляет предложенная методика синтеза правил проверки корректности ввода единиц базы данных с учетом морфологического, синтаксического и семантического уровней немецкого языка с последующей их формализацией на основе интеллектуальной модели представления знаний.

Практическая ценность диссертации заключается в следующем: созданы методики, которые могут использоваться при создании семейства интеллектуа�