автореферат диссертации по филологии, специальность ВАК РФ 10.02.20
диссертация на тему:
Индоевропейские этимологические словари в гипертекстовой среде

  • Год: 2000
  • Автор научной работы: Вывенко, Светлана Олеговна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Санкт-Петербург
  • Код cпециальности ВАК: 10.02.20
450 руб.
Диссертация по филологии на тему 'Индоевропейские этимологические словари в гипертекстовой среде'

Полный текст автореферата диссертации по теме "Индоевропейские этимологические словари в гипертекстовой среде"

Санкт-Петербургский Государственный Университет.

На правах рукописи

Вывенко Светлана Олеговна

ОД

. I

Индоевропейские этимологические словаои

я.

в гипертекстовой среде

Специальность 10.02.20 - сравнительно-историческое, типологическое и сопоставительное языкознание

Специальность 10.02.21 - структурная, прикладная и математическая лингвистика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

Санкт-Петербург 2000

Работа выполнена на кафедре общего языкознания Санкт-Петербургского Государственного Университета.

Научный руководитель - доктор филологических наук, профессор Л. Г. Герценберг

Официальные оппоненты -доктор филологических наук В.П. Нерознак кандидат филологических наук П. А. Скрелин

Ведущая организация: Институт лингвистических исследований РАН

Защита состоится "24 " марта 2000 в "16 " часов на заседании диссертационного совета К 063.57.52 по защите диссертаций на соискание ученой степени кандидата филологических наук в Санкт-Петербургском государственном университете (199034, Санкг-Пеггербург, Университетская наб., д. 11, ауд. 24).

С диссертацией можно ознакомиться в научной библиотеке им. Горького СПбГУ.

А______----------------- «1 О'» Л-_______1ППП _

розОышп 1о ц^Сьрйлл ¿иии 1.

Ученый секретарь

диссертационного совета

кандидат филологических наук, доцент

В.Б. Гулида

'¿¿З/.ЫО.^О

Использование компьютеров в лексикографии началось более 50 лет назад, когда Томас Уотсон помог Роберто Буза подготовить глоссарий к работам Фомы Аквинского с целью создания философского и богословского словаря. С тех пор электронная лексикография превратилась в быстро развивающуюся область, ß литературе можно встретить разнообразные способы обозначения этого направления: в английской - computational lexicography, lexicographical computing, machine lexicography, во французской -lexicographie computationelle, lexicographie automatique (недавно dictionnairique), в немецкой - Computerlexikographie, maschinelle Lexikographie, Wörterbuchinfoimatik, в русской - вычислительная лексикография, машинная лексикография, автоматизированная лексикография, обработка лексикографических данных машинным способом.

Стремительное развитие Интернета привело к созданию разнообразных электронных словарей: одноязычных, многоязычных, терминологических, уже существовавших в печатной форме и т.д. Несмотря на то, что изначально Интернет не был задуман для создания словарей, такие его средства, как гипертекст, а также языки HTML и JavaScript позволяют различными способами создавать электронные лексикографические издания.

В настоящее время особое развитие получает направление компьютеризации лексикографической информации, в частности словарей, существующих в печатной форме.

Среди множества самых разнообразных жанров словарей этимологические словари выделяются благодаря своему специфическому характеру и типу использования. Так, при выяснении происхождения какого-либо слова необходимо одновременное использование нескольких этимологических словарей этого типа. Последовательность обрабатываемых словарей можно определить как некое "виртуальное этимологическое"

пространство гипертекстового типа.

В этих условиях чрезвычайно актуальным становится объединение [индоевропейских] этимологических словарей в едином словарном гипертекстовом банке.

В задачи исследования входит разработка гипертекстовой среды для объединения индоевропейских этимологических словарей, создание испытательного лексикографического блока и решение многочисленных возникших в ходе работы сложных вопросов, остающимися нерешенными в сфере шрифтового кодирования многоязычных электронных словарных изданий.

Для верификации разработки проекта представилось необходимым и полезным ввести в разработанную гипертекстовую оболочку некоторое количество этимологической информации: применительно к требованиям современной индоевропеистики была избрана лексика, обозначающая домашних животных.

Новизна работы заключается в том, что это первое отечественное исследование, посвященное созданию банка данных индоевропейских, а также других этимологических словарей при использовании, новейших возможностей языка разметки гипертекста HTML, языка скриптов Javascript и универсальной кодировки UNICODE.

Практическая значимость работы состоит, в частности, в том, что была разработана и апробирована оболочка для унификации этимологических разысканий в области самых различных языковых семей и создан банк индоевропейской тремматологической лексики.

Основные положения диссертации излагались в докладах: 1. "К вопросу о компьютеризации этимологических словарей", XXVI межвузовская научно-методическая конференция преподавателей и

аспирантов; Санкт-Петербург. Март, 1997__________________________

2. "Типы гипертекстовых отсылок в этимологическом гиперпространстве", 6 международная конференция "Использование компьютеров в исторической и сравнительной лингвистике". Франкфурт (Майн). Октябрь, 1997.

3. "Выбор кодировки для этимологического гипертекстового индоевропейского словаря", научный семинар, институт сравнительного языкознания. Франкфурт (Майн). Февраль, 1998.

4. "Индоевропейские словари и их компьютеризация: возникающие проблемы", конференция стипендиатов DAAD. Байрейт. Июль, 1998.

5. "Использование гипертекстовых возможностей в лексикографических изданиях", сообщение на кафедре общего языкознания филологического факультета. Санкт-Петербург. Сентябрь, 1998.

6. "Этимологический индоевропейский гипертекстовый словарь: предлагаемые типы поиска", Институт лингвистических исследований. Санкт-Петербург. Сентябрь, 1998.

7. "Структура гипертекстового этимологического словаря", 7 международная конференция "Использование компьютеров в исторической и сравнительной лингвистике". Прага. Октябрь, 1998.

8. "Кодировка диакритических знаков в электронных словарях", 11 конференция Общества лингвистической обработки данных. Франкфурт (Майн). Июль, 1999.

Автор диссертационной работы является победителем конкурса персональных грантов Мэрии Санкт-Петербурга (1997), в также Немецкой Службы Обмена Высшей Школы - DAAD (1997, 1998, 1999).

Диссертация состоит из введения, двух глав, заключения, списка используемой литературы на русском и иностранных языках, ряда иллюстраций. К диссертации прилагается компакт-диск с разработанным

словарем, содержащим около 100 словарных статей и цитат, посвященных домашним животным в индоевропейских языках.

Содержание диссертации.

Глава I "Возникновение и развитие электронных словарей " делится на две части. Первая часть посвящена анализу развития компьютерной лексикографии: от первых шагов до сегодняшних дней. Рассматривается одно из основных направлений компьютерной лексикографии -использование компьютеров при создании словарей: сбор данных, сортировка материала, оформление словарной статьи, лемматизация, организация по алфавиту, редактирование, печать. Кроме того, описываются проекты, посвященные объединению текстов или словарей в единой гипертекстовой среде, доступной в Интернете.

Вторая часть представляет попытку анализа компьютерных словарей в Интернете, описывает основные средства, используемые при создании словарей, различные типы поиска. Предлагаются новые типы поиска словоформ, содержащих знаки с диакритиками.

В этой же главе кратко рассматривается история возникновения сети WWW, появившейся в марте 1989 года в известной женевской лаборатории физики элементарных частиц, вводится понятие гипертекста - текста, в котором информация представлена в виде перекрестных отсылок, а также дается определение языка разметки гипертекста HTML и языка скриптов JavaScript.

Описанию электронных словарей в Интернете посвящен особый параграф. Как правило, словари, существующие в Интернете, объединены в группы или коллекции. Большинство словарных коллекций собрано по инициативе отдельных лиц и рассчитано на самые разнообразные вкусы и

интересы. Существуют работы, в которых предпринимаются попытки описания словарных коллекций в Интернете.1 В качестве примера следует прежде всего назвать следующие коллекции:

(1). Коллекция Ричарда Берда2,

(2). Коллекция Мартина Рамша',

(3). Лингвистика - словари в электронной форме4. Стремительное развитие и распространение Интернета, использование

его возможностей, в частности, в поддержке лексикографической информации в течение последних трех лет показывает сравнительная таблица все время дополняемой коллекции Р. Берда, отражающая состояние дел на 1996 год по сравнению с 1999 годом.

=1 1996 1999

Общее число словарей 154 800

Многоязычные словари 14 29

Этимологические словари 2 7

Ру сскоязычные словари - 16

Таблица 1.

Кроме того, в этой главе описываются средства, используемые при

создании словарей, а также анализируется типы поиска, используемые в словарях; особо рассматриваются сложности, возникающие в связи с этим.

Существует несколько способов использования средств броузера при

'Storrcr А., К. Frcesc. Wörterbücher im Internet.: Deutsehc Sprache 24,1 W>. 96-15.3.

2 http://www.bucknelI.edu/~rbcard/diction.Mml

3 http://www.foraiss.nni-passau.de/~ramsch/cngIish.html

4 http://www.brown.cdu/Departments/C[>K-Ling-Sci/lingdir/dictionan.html

создании словарей в Интернете, которые можно разделить на две группы в зависимости от типа доступа к данным. Во-первых, интересующие нас объекты (например, заглавные слова словарных статей) можно выбирать при помощи мыши и, во-вторых, их можно вводить с клавиатуры. При работе с мышью открываются следующие возможности: а). Переход от выбранных при помощи мыши гипертекстовых объектов, представленных в виде букв алфавита, к множеству словарных статей с заглавными словами, начинающимися с данной буквы (см. Рис. 1).

»«• Sp ЦштшИвш йФ>j

S • tot* FQMKI Я>М Нж» ПИ - .вноЯ»- Гсг, -

|В ДыММош ЩЫША CjUAi»tfafe.it« . ■ .... . . .... .d

Dictionary of most common AVESTA words

Copyngbl 1995, Joseph K Peterson

AgCDEFfiHIJKLMNOPQRSTgyWXVZ. Abbreviation*

PronancUtion

Л.ЧУЦ^ wyotfiii.

Asctta word [toot of woidj

number of tiroes word occurs in the AvesU (cue) taeamg . another form of word

Рис. 1: Гипертекстовые отсылки ст букв алфавита (http://www.avesta.nrg/ avdict/ av5.html).

б). По одной гипертекстовой отсылке на экране можно открыть ряд окон, содержащих различные словарные статьи. Это предоставляет быстрый информационный обмен между словарными статьями из различных словарей (рис.2). (Последние версии Netscape позволяют открыть до 100 окон!).

[E> £<* ys»i» So Ee™u кап НЛУ - Ji^UJfiB!», i m» niiiilllHil IIIIIIIIIIIIIMIIII III |

t.........¿<ч/-.;/ .',„ , ' ......... ........_.._. . . ■ .... ;.... - ':■;..,..;,.„!

Т^'—ГТ—г-*?*: Шаг назад

ПОИСК: ___________________________________________________________________

тзеконсгрукть Pokorny J. Indogermanisches etymologisches

....„.-> ... j Wörterbuch-yoLL-Bern: Franke, 1959-заачепие.

kЦОП-ifü/2-Hund«,

TTovairmssr n'innt Wr4»-y> Ct f*

Go Back

Mayrhofer it Кип etymologisches W des Aitindischen I Heidelberg, 1980 -

«V/f G7]Vo\ vw- f<z»

l» г a» , ) «»«» \MA,

Ii____J

Gen. k'uods

n. Sums, AkK, srfa.

ИНШК1М8Я

Schmitt-Brandt. Die Entwich

des indogermanischen

arm 5\i,

Hündcb

Mayihoier m7

ilsystems. Heidelberg 1'

3

Etymologisches Wörterbuch des Altjndoarischen. - Band I sq. - Heidelberg, 1986 -.

svan- m. Iiund (RV[NomSg svä, _ _______ Akk.Sg svänam,

" '^HA&Smjm. ышмш^ммт/мыттт- ~ C3

^Sllj ^Wa- ¡ggf.aMbW.-j ggWPOB»».. j gfontSboB. ( ^5VAl«M-.[¡ДД5УАЯ H- {¡$5ШЩ!Н..} V 13H

ergleiche etwa die ion des Wortes für "Hui kindischen und

«U ■ /i »i n rl^*« ^(•'»f»

inbar mit cJcvad 4 unter tea- "frisch

d

L.

Ряс. 2: Гипертекстовые отсылки в виде окон: па примере этимологического гипертекстового индоевропейского словаря.

Открыты окна:

• Pokorny J. Indogermanisches etymologisches Wörterbuch. - > ol. 1. - Bern: Franke, 195').

• Mayrhofer M. Kurzgefaßtes etymologisches Wörterbuch des Aitindischen ITV.- Heidelberg: Carl Winter, ISSO.

• Mayrhofer M. Etymologisches Wörterbuch des Altindoarischen.- Band I sq. - Heidelhergi,Carl Winter, 1ЗД6 -.

• Schmitt-Brandt R. Die Entwicklung des indogermanischen Vokalsystems. Heidelber&_Liiü7.

в). Гипертекстовые отсылки от словоформ, организованных в виде так называемого "избираемого списка" (scrolling-list, Auswahlliste). После выбора буквы алфавита осуществляется автоматический переход к

соответствующему отрывку словаря (см. Рис. 3,3.1).

ртЛ Ьис "ягнёнок/Lamm11 -

zd. büza- "Ziegenbock", пр. баг "Ziege, Bock"_

не. 3.1: Переход после выбранной буквы алфавита к словарной гатье аз армянского згималогического словаря Хюбшманна.

При работе с клавиатурой предлагаются такие варианты выбора лексикографических объектов:

а). После ввода буквы с клавиатуры курсор автоматически переходит на первое, содержащее данную букву слово из общего списка праформ. Дальнейший выбор слова предлагается осуществлять путем пролистываиия (см. Рис. 4).

б). Использование формуляров. Поиск основывается на вводимом с клавиатуры слова, (см. Рис. 5).

ыр) j

шя

ge*)

Рис. 3"И]бнраемый список".

Iguhen- 'schlagen'

ster- 'rauben, stehlen' ater- 'Streifen, Strich' vj

Рис. 4: Избираемый список.

Рис. 5: Поисковый формуляр.

________________На основании анализа рассмотренных возможностей выбора

лексикографических объектов выделяются различные типы поиска, используемые в электронных словарях:

A). Пролистывание.

Б). Поиск, ориентированный на гипертекстовые отсылки от букв алфавита или от списка словоформ.

B). Автоматическая поисковая система с использованием формуляров.

Г). Сочетание формуляров с разнообразными средствами, ограничивающими или конкретизирующими поиск.

Д). Использование формуляров с одновременным просмотром результата поиска (предлагаемым в Этимологическом Гипертекстовом Индоевропейском Словаре: см. ниже).

Далее приводятся типы словарей в зависимости от используемого в них типа поиска.

Большинство этимологических словарей, существующих в Интернете, используют тип поиска, обозначенный как ''"пролистывание". С одной стороны, этот выбор объясняется типом представления данных в виде списка, что позволяет судить о небольшом объеме лексикографического материала, с другой стороны, выбор словоформы, представленной в виде гипертекстовой отсылки, позволяет избежать проблему ввода с клавиатуры словоформ, содержащих диакритические знаки.

В словарях, использующих поисковые формуляры, после ввода словоформы без диакритических знаков выводится список слов со всеми возможными комбинациями с диакритиками. Такой двуступенчатый поиск также не является идеальным и требует дополнительного времени загрузки информации. Этот тип поиска может быть удачно применен лишь на некоторых этапах поиска, например, при поиске омонимичных форм.

В качестве примера использования сочетания формуляров с разнообразными средствами, ограничивающими или конкретизирующими поиск, следует назвать этимологический словарь гэльского языка5, в котором предлагаются 3 возможности оформления поиска: 1. по выбранной опции "заглавное слово" выводится список всех существующих заглавных гэльских слов, которые содержат набранную в поисковом формуляре буквенную комбинацию; 2. по опции "слово" - создается список всех словоформ по их встречаемости в словаре; 3. по опции "буквенная комбинация" - выводятся все слова из словарных статей, содержащие данную буквенную комбинацию. Такой тип поиска весьма эффективен, но не решает проблему ввода словоформ, содержащих диакритические знаки.

Для решения проблемы диакритических знаков в тексте словарных статей мною предлагается два типа поиска, созданных при помощи средств языка разметки текста HTML и языка программирования Javascript.

I. Для сохранения диакритических знаков при вводе запрашиваемой словоформы (в данном случае реконструкга) была создана поисковая система, использующая сочетание формуляров и "наглядного списка". Эта система и была применена для нашего этимологического индоевропейского словаря (на материале домашних животных). Ввод реконструируемой формы или её значения осуществляется с клавиатуры без диакритических знаков с использованием разработанной метасистемы, в которой каждому диакритическому знаку соответствует существующий знак на клавиатуре. В соседнем окне отражается результат поиска: закодированная форма, реконструкг с диакритиками и его значение (рис. 7).

II. Второй тип поиска создан на материале русско-немецкого словаря,

3 bttp^/www.ccantar.org/Dicts/MB2/bdcx.btml

находящегося на страницах проекта TITUS6. Первоначально словарь был организован в виде длинног о списка. Для словаря создана первая поисковая система, предлагающая вариант ввода и поиска знаков шрифта UNICODE -универсальной кодировке будущего, используемой и разрабатываемой уже сегодня (рис.8).

Поиск ПО реконструкту/ значен ангайемй. дозеоА и датнисждй трапсяиэтзииет) Кояироякя яиахштичесхих яахоа X-'r NeTYtape ИР1£Э)

Кодттрожа. диакритических знаков. *

Наригнояштк Символ Наимгнованяе Сямю акут / граняс \ ! тжшла ~к дн среза + _J | ана*. долготы циркумфлекс * WH9T i точм/круи/'к A •I т »п

:.: Раштл рун1/звачеш ^ k/u(ori ' :

f ]k/u(on I 'fojpn-, kun- 'собака / Н i WTtWH* j -Т J!

Рис.7: Использование форму.трон с одновременным

просмотром результата поиска

fb £dt Ban So [МММ И*

Комметзрйи к поиску i IVvkMX та видимы

Траислитерац»! abvgdejozhzi jklinnoprstufbcchshsi ^^¡^ а б в глее i л!ии яопрстуфц ч ш

riMJ fcJ 1!

Кодировка и UJJCODE [sieve -.Кодировать'. [ Йсдзть[

С

гффевдное ^WWj - Aiicktwort

vm - Affix aiMnirraipn - IlutfuiugBbji voa Aifiica

аф£вксирукщве яэыкл - affixierende Sprachen

xl

ap -a*-. . . . . у*

Рис. 8: Пример организации поиска на материале русско-немецкого словаря, закодированного в UNICODE.

6 http://tirts.um-frankfurtdc/lciica/russterm.htm

Глава П "Гипертекстовый этимологический словарь " состоит из трех частей.

Первая часть описывает словари, выступающие в качестве материала словарной оболочки, т.е. обрабатываемый материал, который в данном случае представляет собой этимологические словари индоевропейской семьи языков.

Словари многочисленной индоевропейской семьи языков можно разделить на несколько групп и подгрупп: во-первых, словари древних индоевропейских языков, в которых реально засвидетельственная лексика возводится к праязыковым реконструкгам (в качестве примера можно указать словари Майрхофера7 или Вальде-Хофманна8). Разновидностью этого типа являются словари живых или, во всяком случае, более поздних языков, в которых лексика возводится к словам некоторого древнего языка ("источника" данного "позднего" языка); таковы, например, известный непальский словарь Тернера9 или этимологический словарь французского языка Гамильшега10. Во-вторых, словари, в которых основными единицами являются сами праязыковые реконструкты (например, словарь Ю. Покорного").

Конечно, данное разделение нельзя считать универсальным: в ряде случаев реконструированная история слова тем или иным способом введена

7Majrtaofer M. Etymologisches Wörtcrbuch des Altindoarischen. Band I sq. Heidelberg: Carl Winter, 1986 -.

*Wa]dc A. Lateinisches etymologisches Wörterbuch, ncubcarb. von J.B. Hofmann. Bd. 1-3.3. Aufl. Heidelberg: Carl Winter, 1938. (1930-1956).

'Turner R.L. A comparative and etymological dictionary of the Nepali language. London: Paul, Trench, Trubncr, 1931

'"Gamilschcg E. Etymologsches Wörterbuch der französischen Sprache. Heidelberg, 1928. "Pokorny J. Indogermanisches etymologisches Wörterbuch, vol.l. Bern: Franke, 1959.

в словарь живого или отдельного языка; например, так как отсутствует "праиранский словарь", используются частные словари: древнеиранский словарь Бартоломе12 (который по определению содержит авестийскую и древнеперсидскую лексику, а в примечаниях к словарным статьям приводится богатый материал поздних иранских языков) или хотаносакский словарь Бэйли13.

Таким образом, обрабатываемый материал содержит словари древних индоевропейских языков (в диссертации они названы собственно-этимологическими словарями) с упомянутыми выше исключениями и словари реконструируемого языка, традиционно называемые сравнительно-историческими.

В задачи диссертационной работы входило разработать такую систему, которая позволила бы беспрепятственно сочетать в себе словари различных типов и разнородной структурной организации. Для этого, однако, оказалось недостаточным различать приведенные, достаточно общие "типы" словарей; было необходимо обратиться к структурной типологии самих словарных статей.

Анализ словарей - в первую очередь, организации словарных статей, привел нас к выделению понятий макро- и микроструктуры. Макроструктура определяется как организация словарных статей в словаре, к ней относится порядок расположения статей и статус заглавного слова; а микроструктура -как организация самих словарных статей, т.е. их внутренняя структура и содержание.

Далее рассматриваются струкгурные типы вовлеченных в исследование

12Bartholomac Chr. Altiranisches Wörterbuch. Berlin., 1961.

13Balley H.W. Dictionary of Khotan saka. London, New-York, Melbourne. Cambridge University Press, 1979.

словарей, исходя из их макроструктуры и микроструктуры.

Построение типологии словарей реконструируемого языка и этимологических словарей на основании их структуры является первым необходимым шагом при создании компьютеризированного банка лексикографических данных.

Вторая часть второй главы "Принцип объединения словарей " описывает понятие словарной группы, а также структуру словарной статьи, слдааря реконструируемого языка и этимологического словаря. Выделенные в ходе анализа компоненты словарной статьи в созданной словарной оболочке предоставляют первые шаги поиска и/или оформлены в виде гипертекстовых отсылок в этимологическом индоевропейском словаре, описанию которого посвящена третья часть данной главы "Структура этимологического гипертекстового индоевропейского словаря (ЭГИС) ".

Так как основной целью диссертационной работы была разработка принципа объединения этимологических словарей древних индоевропейских языков и словарей реконструируемого языка, то оказалось необходимым разработать словарную оболочку, для создания которой было необходимо:

1. выбрать гибкую гипертекстовую систему, предоставляющую простой переход между словарями, различными по своей структуре;

2. определить языки программирования;

3. предложить принцип объединения словарей разных типов;

4. определить компоненты, по которым должна быть установлена связь между словарными статьями (например, заглавные слова, перевод, иллюстрации);

5. создать поисковую систему;

6. установить направление поиска (например, к конкретной словарной статье или к списку словарных статей);

7. сохранить разнообразные шрифты, характерные для этимологических словарей.

Словарные статьи можно было использовать в гипертекстовой среде с помощью редактора WP 5.1. (версия для DOS), а также комплекта шрифтов к этому редактору и конвертера, превращающего созданные документы в формат HTML и, что особенно важно, - кодирующие в UNICODE.

Для демонстрации возможностей разработанной словарной оболочки были отобраны статьи, посвященные домашним животным.

Структура самой словарной оболочки такова: сначала возникает домашняя страница этимологического гипертекстового словаря, которая состоит из четырех основных блоков (Рис. 9).

Первый блок предоставляет поиск по реконструктам. По каждой из форм (речь идет о праформах, вводимых с клавиатуры) устанавливается переход к списку словарей, содержащих данную форму. Поиск реконструкта возможен как по его значению, так и по самой форме.

При этом в соответствии с новейшими принципами индоевропейской сравнительно-исторической реконструкции установлен выбор реконструкта как с ларингалом, так и без него. В качестве обозначения ларингалов используются: h,, h2, h3) Э„ э2, э,.

В этом же блоке можно познакомиться с общим сииском включенных в словарь реконструкгов, а также исследовать карту распространения первых домашних животных.

Второй блок состоит из отсылок к домашним страницам этимологических словарей, которые в сущности являются оглавлением

электронного словаря, включающего в себя помимо регистра словоформ дополнительную информацию, необходимую для работы со словарем.

Третий блок состоит из общей библиографии, списка литературы для каждого домашнего животного и включает отдельно античные источники.

Четвертый блок осуществляет поиск по авторам, чьи работы цитируются в словарных статьях. Приведенные словарные статьи оформлены в виде гипертекстовых отсылок. В словарной статье работа выбранного автора выделена и в большинстве случаев выводится в виде цитаты в отдельном окне.

к 1 кияеш.. Ыт Н ЯП И

й>.6* »»«.--Да- ЪжЛлк** в* " "'■'

Этимологический Гипертекстовый Индоевропейский Словарь Реконструируемые формы Список словарей

Поиск по реконструкту/по значению . ] Список словарей; |

Список гехонстотктов. Каста юепкхтшнения домашних животных. А £вЁЩОф4ВХ ! I] а | • Псаиндэеврэпейский. • ИнДОЭСКлСллСъ. • ИщнсхкА • Ас^гянский. • Гре<юсюсй; • Албанский. • И7ШМЙСКНЙ | ; • Кельтский. • Германский ( • Славянский. | • Еаггиискня • ТоХарСКИЙ ! • Аизтохкйгхиг Я5>1КЯ '

I Поиск, по автору: | т) --------- ---------

Рис. 9: Основная домашняя страница ЭГИСа.

Содержание отдельных домашних страниц детально определено в данной главе.

В результате создана словарная оболочка, которая обладает следующими основными характеристиками:

1. Поиск по заглавному слову словарной статьи и его значению. Результат поиска отражается в соседнем окне, что сохраняет необходимые диакритики и приводит к однозначному переходу к словарной статье.

2. Решение проблемы поиска в случае омонимичных корней или словоформ.

3. Два направления поиска: по выбранной словоформе/реконструкту к словарной статье или списку словарей, содержащих данную словоформу.

»• CAMIS HIM*- NMrö* - . , . — -------- ------------------------------------ НПО

М У« В, Ймп

Walde А. r-iteiniadiesetyrnolORlac^es'Wirterbiich, neiibearb. von ¡.В. Hofmann. IV1. 1-3. i.!

Anfl - Hei(1elberR.1938. (1930 195Й) 1

ш Laie

Генегаческий материал К значению сло®_43 лат.сля« __^»Ä

ш О

IV

gr. icucov, Kuva; ra.f, "Hund" (Kurepog "hündischer", Kü&a)ii>ia "Hundsfliege11: lit. sun-museds.},

y

toch.jro'Hund' (s i !'■;;«

arm, snrt. gen, san ds, *knön, s. Linen Huschardzan, Festschr. d. Mechitharisten Kongreg. 1911,381 ff. ; i

jf'^tt'l- 2A tv vonA.Nehfr« Beiin131M328 Y -iit. .li^. 13 _

Рис. 10: Гипертекстовая словарная статья этимологического словаря:

I - Отсылка к домашней странице словаря.

II - Отсылка к списку словарей и к списку словарных статей, связанных с данной словоформой.

III - Гипертекстовые отсылки к отдельным частям словарной статьи.

IV - Отсылки к словарным статьям из других словарей.

V - Установление отсылок к библиографическому источнику.

VI - Разъяснение сокращенна.

4. Кодировка словарных статей в UNICODE, что означает передачу необходимых диакритических знаков, и оформление в виде HTML документов.

5. Установление гипертекстовых ссылок:

5.1. Отсылки между словоформами в тексте статьи и соответствующими этимологическими словарями. В том случае, если словоформа встречаегся более чем в одном словаре, то после нажатия кнопки мыши на экране появляется ряд окон, содержащих различные словарные статьи. (Теоретически последние версии Netscape позволяют открыть до 100 окон!).

5.2. Отсылки, разъясняющие сокращения.

5.3. Отсылки к публикациям, представленных в большинстве случаев в виде цитат.

6. Разработка для каждого словаря так называемых "домашних страниц", которые представляют собой оглавление электронного словаря, включающее в себя помимо регистра словоформ дополнительную информацию, необходимую доя работы со словарем.

7. Создание электронного списка библиографии со встроенной поисковой процедурой.

8. Поиск по автору, цитируемому в словарных статьях.

Ф Pf f Bp -lift НШ ^ ES i>

ч

ihjék'ips

PL 'Nom

hjélcips (es) h ílft^m S

*Ь,еА'цо- 'конь, лошадь/Pferd'

UrÍQ<io,rOí SlJOi.'.cb 11(16 0%

Pokorny I. Indogermanisches etymologis Wörterbuch. - voil. - Bern; Franke. 1939.

ladoifucb Ияцаа ря4е«в£

Mayrhofer M. Etymologisches Wftrte rbur Heidelberg. 1986-,

Citechj_»ck ГрстегикЬ

Frisk H. Griechisches etymologisches Wöi

(1954-1972-).

' l^"''-«»'^ RH. К изучению древнейших домашних лошадей Восточной Европы. // "Бюллетень Московскою Общества «i«*.,«* А[ж»аг«нн I Испытателей Природы". Овдел

Hübsch mann Н. Armenische Grammatik, мялись»;™ . 7«fi/-b - >Uw УогЬ- 10Q-? _______________;__________________zi

gjStea) ^СаэШас. | gjwP0«n! -.[gjPatS'gy [Sgt*fao4 |){gPfEHD-... ¡jglaeopg j ^

Bibikova

Кодировать Поаск.

стереть

Рнс. 12: Гипертекстовые возможности словаря: грамматическая информация, список словарей, библиография со встроенной поисковой процедурой.

Закчючсние.

В результате проведенного исследования разработана гипертекстовая оболочка для объединения этимологических словарей древних индоевропейских языков и словарей реконструируемого языка я создан банк индоевропейской тремматологической лексики.

Первоначальный типоюгпческиу anana словарей реконструируемого языка и этимологических привел к разделению словарей в зависимости от статуса заглавного слова, задающего направление этимологии, на "прогрессивные", "регрессивные" и "горизонтальные", а на основе рассмотрения степени полноты включаемого материала - на словари реконструируемого языка, "французского" и "немецкого" типов. Выделение

групп на основании общих структурных закономерностей способствовал вводу и организации словарей в компьютеризированном банке лексикографических данных.

В результате структурного анализа словарных статей (словарей реконструируемого языка и этимологических) было предложено разделение на поля, оформленные в качестве необходимых связующих компонентов электронного словаря в целях дальнейшего использования в. сравнительно-исторических и лексикологических исследованиях.

Изучение основных используемых средств в современных гипертекстовых словарях дало представление о проблематике оформления лексикографических многошрифтовых этимологических изданий в виртуальной среде. Были выбраны оптимальные средства, пригодные для создания электронного этимологического словарного блока:

• редактор Word Perfect (версия 5.1 для DOS) с необходимым, в частности, для индоевропеистики шрифтом Polyglott;

• конвертирующая программа, превращающая созданные документы в формат HTML и кодирующая в UNICODE;

• средства языков HTML и JavaScript;

• гипертекстовая среда Netscape Communicator.

По сравнению с существующими проектами, посвященными объединению текстов или словарей в единой базе данных, разработанный этимологический гипертекстовый словарь выделяется, во-первых, благодаря вовлечению этимологий, основанных как на материала классических словарей индоевропейских языков, так и на материале последних публикаций, во-вторых, благодаря использованию кодировки UNICODE, решающей вопрос сохранения всех необходимых диакритических знаков. При этом предложено наиболее однозначное на сегодняшний день решение

ввода форм с диакритиками не только при помощи уже ставших традиционными "виртуальных таблиц", содержащих знаки в виде графических кнопок, отсутствующих на клавиатуре, но и при помощи специально разработанной системы перекодировки, превращающей вводимые с клавиатуры знаки в желаемые знаки с диакритиками. Указанная система ввода может быть использована для унификации этимологических разысканий в области самых различных языковых семей.

В целях демонстрации возможностей созданной гипертекстовой среды представилось необходимым ввести в словарь некоторое количество этимологической информации: применительно к требованиям современной индоевропеистики были избраны термины, обозначающие домашних животных. Выбор конкретного семантического поля вызван не только необходимостью детального описания принципов объединения в гипертекстовой среде словарей различной структуры; это позволило представить в единой гипертекстовой среде все существующие, словарные статьи, а также включить в разработанную гипертекстовую среду особое информационно-библиографическое издание, представленное основными публикациями, на которые приведены ссылки в этимологических словарях.

Специфическая особенность созданной системы состоит в возможное™ одновременного и параллельного представления различных систем и методов реконструкции; существенным применением этого свойства является симультанное использование метаязыков традиционной и ларингальной реконструкции.

Созданное гипертекстовое пространство с введенной в него тремматологической лексикой представляет ступень сравнительно-исторической лексикографии, создающую новую перспективу для функционального анализа словарного фонда как праязыка, так и отдельных

(древних) индоевропейских языков в виртуальном этимологическом пространстве.

По теме диссертации опубликованы следующие работы:

1. К вопросу о компьютеризации этимологических словарей. //Материалы XXVI межвузовской научно-методической конференции преподавателей и аспирантов. Санкт-Петербург, 1997.

2. Структура словарной статьи этимологического словаря. //Санкт-Петербургский вестник. 3 (16). Санкт-Петербург, 1997.

3. Типология этимологических словарей с точки зрения их представления в словарном гипертекстовом банке. //Лингвистические исследования 1998г. Санкт-Петербург, 1999.

4. Zur Nutzung von UNICODE in Online-Wörterbüchern. //Multilinguale Corpora. Codierung, Strukturierung, Analyse. 11. Jahrestagung der Gesellschaft für linguistische Datenverarbeitung. Herausgegeben von Jost Gippert in Verbindung mit Peter Olivier. Prag, 1999.

5. Kodierung der Sonderzeichen in Online-Wörterbüchern. //http://titus.fkidg.uni-franldurt.de/curric/gldv99/abstract/lana/lana.htm.

 

Оглавление научной работы автор диссертации — кандидата филологических наук Вывенко, Светлана Олеговна

Введение.

Глава I.

Возникновение и развитие электронных словарей.

Часть 1. Первые шаги в компьютерной лексикографии

Часть 2. Новая эра: компьютерные словари в Интернете

§1. WWW, HTML и Javascript.

§2. Электронные словари в Интернете.

§3. Средства броузера, используемые при создания словарей.

§4. Типы поиска в электронных словарях.

§5. Примеры используемой кодировки в электронных словарях.

§6. Новые возможности поиска.

Глава II.

Этимологический гипертекстовый индоевропейский словарь.

Часть 1. Анализ словарей, выступающих в качестве материала словарной оболочки.

§1. Введение

§2. Понятие "словаря реконструируемого языка" и "этимологического словаря".

§3. Понятие макро- и микроструктуры.

Часть 2. Принцип объединения словарей.

§1. Понятие словарной группы и словарного ядра.

§2. Структура словарной статьи этимологического словаря и словаря реконструируемого языка.

Часть 3. Структура этимологического гипертекстового индоевропейского словаря (ЭГИС).

§1. Постановка задачи.

§2. Структура словарной оболочки

§3. Содержание домашних страниц.

§3.1. Домашние страницы: поиск по реконструктам и по значению.

§3.2. Домашние страницы отдельных словарей.

§3.3. Выбор словаря.

§4. Электронный список литературы.

§5. Поиск по автору

§6. Структура гипертекстовой словарной статьи.

§7. Демонстрация гипертекстовых отсылок в словаре.

§7.1. Поиск словарной статьи из словаря X. Хюбшманна.

§7.2. Возможности гипертекста при поиске праформы.

§8. Характеристики словарной оболочки.

Список иллюстраций.

Рис. 1: Гипертекстовые отсылки от букв алфавита.

Рис. 2: Гипертекстовые отсылки от списка словоформ.

Рис. 3: Гипертекстовые отсылки в виде окон: на примере этимологического гипертекстового индоевропейского словаря.

Рис. 4: "Избираемый список".

Рис. 5: Избираемый список. Реконструкты из [Рокоту J., 1959].

Рис. 6: Поисковый формуляр.

Рис. 7: Использование графических кнопок.

Рис. 8. Традиционный способ транслитерации греческого языка.

Рис. 9. Код "Бета".

Рис. 10. Поиск словоформ с диакритическими знаками.

Рис. 11: Пример организации поиска на материале русско-немецкого словаря.

Рис. 11.1: Ввод словоформы согласно транслитерации в словаре тохарского языка.

Рис. 11.2: Кодировка словоформы в UNICODE.

Рис. 11.3: Демонстрация поиска в двух корпусах тохарского словаря.

Рис. 12: Поле словаря.

Рис. 13: Схематическое представление объединения подсетей в Интернете, связанных между собой "домашними страницами".

Рис. 14: Основная домашняя страница ЭГИСа.

Рис. 15: Организация домашних страниц в ЭГИСе.

Рис. 16: Открытие дополнительного окна с грамматической информацией.

Рис. 17: Ввод русского слова в латинской транслитерации.

Рис. 18: Поиск синонимичных реконструктов.

Рис. 19: Выбор омонимичных форм

Рис. 20: Домашняя страница словаря Ю. Покорного.

Рис. 21 - 22: Домашняя страница словаря X. Хюбшманна.

Рис. 23: Выбор словаря из основной домашней страницы.

Рис. 24: Выбор словаря из фрейма, присутствующего на всех Страницах ЭГИСа.

Рис. 25: Общий список словарей.

Рис. 26 - 26.1: Оформление библиографии в словаре.

Рис. 27 - 28: Выбор автора, цитируемого в словарной статье.

Рис. 29: Гипертекстовая словарная статья этимологического словаря.

Рис. 30-35: Поиск словарной статьи из словаря X. Хюбшманна.

Рис. 36-41: Возможности гипертекста при поиске праформы.

Рис. 42: Общая схема объединения словарей и словарных статей в ЭГИСе.

Рис. 43: Список словарей, относящихся к праформе со значением "собака".

Рис. 44: Представление библиографических отсылок в словарной статье.

Рис. 45: Гипертекстовая отсылка к словарю Й.Улиха.

Рис. 46: Список словарей, содержащих словарные статьи со значением "козел, коза".

Рис. 47: Список словарей, относящихся к обозначению "козла".

Рис. 48: Список словарей, относящихся к обозначению "овцы".

Рис. 49: Список словарей, относящихся к обозначению "ягненка".

Рис. 50: Список словарей и выводимых праформ, относящихся к обозначению "быка, коровы".

Рис. 51: Список словарей, относящихся к обозначению "свиньи".

Рис. 52: Список словарей, относящихся к обозначению "молодой свиньи".

Рис. 53: Список словарей, относящихся к обозначению "коня".

Рис. 54: Список словарей и отсылки, относящиеся к обозначению "осла". . 100 Рис. 55: Список словарей, относящихся к обозначению "скота".

 

Введение диссертации2000 год, автореферат по филологии, Вывенко, Светлана Олеговна

Современную лексикографию уже невозможно представить без использования компьютерных средств. В последние 50 лет традиционные методы постепенно заменяются компьютерной обработкой лексикографических данных. Это приводит к созданию электронных версий печатных словарей, словарных банков данных, лексикографических гипертекстовых систем, словарных изданий в Интернете. Компьютерные средства способствуют проверке различного рода ссылок и отсылочной информации, предоставляют немедленный доступ к словнику, цитируемому материалу, располагают словарный материал в любом, необходимом лексикографу порядке, и позволяют создать новые словари на материале различных текстов. Как отмечал В. В. Дубичинский, дальнейшее сочетание компьютерных средств и словарной деятельности позволит назвать XXI век золотым веком лексикографии.

Стремительное развитие Интернета привело к созданию разнообразных электронных словарей: одноязычных, многоязычных, терминологических, уже существовавших в печатной форме и т.д. Несмотря на то, что изначально Интернет не был задуман для создания словарей, такие его средства, как гипертекст, а также языки HTML и JavaScript, позволяют различными способами создавать электронные лексикографические издания.

В настоящее время особое развитие получает направление компьютеризации лексикографической информации, в частности словарей, существующих в печатной форме.

Этимологические словари выделяются среди множества самых разнообразных жанров словарей благодаря своему специфическому характеру и типу использования. Так, при выяснении происхождения какого-либо слова характерно одновременное использование нескольких этимологических словарей этого типа. Последовательность обрабатываемых словарей можно определить как некое "виртуальное этимологическое" пространство гипертекстового типа.

В этих условиях чрезвычайно актуальным становится объединение ряда индоевропейских этимологических словарей в едином словарном гипертекстовом банке.

В задачи исследования входит разработка гипертекстовой среды для объединения индоевропейских этимологических словарей, создание испытательного лексикографического блока и решение многочисленных возникших в ходе работы сложных вопросов, остающимися нерешенными в сфере шрифтового кодирования многоязычных электронных словарных изданий.

Этимологический гипертекстовый индоевропейский словарь (ЭГИС) представляет собой гипертекстовую оболочку, которая позволяет наполнение различной этимологической информацией, предлагает различные варианты поиска с учетом диакритических знаков, характерных для этимологических словарей, но отсутствующих на клавиатуре, использует современную кодировку UNICODE, включает в себя разнообразные гипертекстовые отсылки между словарными статьями, цитируемыми работами, библиографией.

Для верификации разработки проекта представилось необходимым и полезным ввести в разработанную гипертекстовую оболочку некоторое количество этимологической информации: применительно к требованиям современной индоевропеистики были избраны термины, обозначающие домашних животных.

Ограничение словарного материала конкретным семантическим полем вызвано не только необходимостью детального описания принципов объединения в гипертекстовой среде словарей различной структуры; это позволило представить в единой гипертекстовой среде все существующие словарные статьи, а также включить в разработанную гипертекстовую среду особое информационно-библиографическое издание, представленное основными публикациями, на которые приведены ссылки в этимологических словарях. С

• F rameruss.htm - Netscape

Fte Ей v™

ZZL

Г fKwn mr-ator Hobt

•г. w

•im1 lepTß&croi алё домашних жйвоттШх

Le germanique connaît aussi des mots nouveaux, danois faar, ail.

Schaf angl. sheep. Pok. 784. 1 ¡Пиния, пи цашшл um f/iiu .^Гачснню. йдиоок-реа^нструкюв Kama "расшххптанеяия: домашних животных.

IHunpEP. i JlKretschmer Р, /jBMayrhofer M.

I Singe DA. —^ Pesters Chr. , SittigE. I Schtfteiowitz J. I Schmitt-Brandt R Schulze W. i Wackemagel I. h2d\u -an "Se^ f [*h,évj~ ЪшаУSchaf]

Поиск по автору: о\ са II овца *ou i-, *h2oui-, *ti3eui- j

1 и i

Этимологический гипертекстовый индоевропейский словарь.

Это первое отечественное исследование, посвященное созданию банка данных индоевропейских этимологических словарей при использовании новейших возможностей языка разметки гипертекста HTML, языка скриптов Javascript и

11 универсальной кодировки UNICODE.

Практическая значимость работы состоит, в частности, в том, что была создана и апробирована оболочка для унификации этимологических разысканий в области самых различных языковых семей и создан банк индоевропейской тремматологической лексики.