автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему:
Методы и алгоритмы смыслового описания контента в системах тестирования

  • Год: 2011
  • Автор научной работы: Бидуля, Юлия Владимировна
  • Ученая cтепень: кандидата филологических наук
  • Место защиты диссертации: Тюмень
  • Код cпециальности ВАК: 10.02.21
Диссертация по филологии на тему 'Методы и алгоритмы смыслового описания контента в системах тестирования'

Полный текст автореферата диссертации по теме "Методы и алгоритмы смыслового описания контента в системах тестирования"

На правах рукописи

005002»^

Б ИДУ ЛЯ Юлия Владимировна

МЕТОДЫ И АЛГОРИТМЫ СМЫСЛОВОГО ОПИСАНИЯ КОНТЕНТА В СИСТЕМАХ ТЕСТИРОВАНИЯ

10.02.21 - Прикладная и математическая лингвистика

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук

- 1 ДЕК 2011

Тюмень-2011

005002822

Работа выполнена на кафедре информационных систем Института математики, естественных наук и информационных технологий ФГБОУ ВПО Тюменский государственный университет.

Научный руководитель доктор технических наук, профессор

ИВАШКО Александр Григорьевич

Официальные оппоненты: доктор технических наук, профессор

ЗАХАРОВ Александр Анатольевич

кандидат филологических наук БАБИНА Ольга Ивановна

Ведущая организация: ФГБОУ ВПО Тюменский государственный нефтегазовый университет,

Центр дистанционного образования

Защита состоится 23 декабря 2011 года в 12 часов на заседании диссертационного совета К 212.274.05 по защите диссертаций на соискание ученой степени кандидата филологических наук при Тюменском государственном университете по адресу: 625000, г. Тюмень, ул. Республики, 9,'ауд. 211.

С диссертацией можно ознакомиться в читальном зале ИБЦ Тюменского государственного университета по адресу: 625000, г. Тюмень, ул. Семакова, 18.

Автореферат разослан 13 ноября 2011 года.

Ученый секретарь диссертационного совета

кандидат филологических наук, 'Т. Г* _

доцент ¡Ы Х^ини,^ Т. В. Сотникова

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Развитие глобальных сетей, а также технологий создания интеллектуальных систем обуславливает значительный интерес к исследованиям, направленным на автоматическую обработку данных, и прежде всего - к различным видам семантического анализа текста. Семантический анализ текста позволяет извлекать информацию о фактах, ключевых понятиях и их взаимосвязях, с последующим представлением материала в виде определенным образом структурированного, смыслового описания.

Понятие смысл текста не имеет однозначного формального определения. Мы будем использовать данный термин в трактовке И. А. Мельчука: «смысл - это инвариант всех синонимических преобразований, т.е. то общее, что имеется в равнозначных текстах» (И.А. Мельчук).

Построение смыслового описания текста может решать многие практические задачи, в том числе: семантический поиск: выявление фактов, в которых принимают участие конкретные ключевые понятия; обработка текста на естественном языке в системах управления контентом; проверка ответов учащихся в системах контроля знаний при использовании открытой формы тестирования. Такого рода задачи характеризуются необходимостью сравнения двух текстов друг с другом на смысловое соответствие с учетом предикативных отношений в тексте.

Как известно, тестовые задания для контроля знаний обычно составляются на основе учебного материала - текста лекции, учебного пособия, методических указаний и т.п. Для проверки необходимо производить сопоставление смыслов текста ответа и текста лекции, на основе которой было сформулировано тестовое задание. В современных системах тестирования автоматизированная проверка открытой формы реализуется при условии ввода ответа на ограниченном естественном языке. Для проверки ответа на неограниченном естественном языке необходимо предусматривать возможность использования синонимов и различных вариантов построения фразы без ограничений на членимость текста по предложениям, что дает возможность испытуемому выразить мысль в произвольной форме.

Традиционные подходы к описанию естественного языка рассматривают текст на нескольких уровнях. Применительно к проблеме семантики текста разделение на уровни следующее: фонетический, фонологический, лексико-морфологический, синтаксический,

уровень смысла текста (И.А. Мельчук). Предикативные отношения выявляются на синтаксическом уровне в рамках одного предложения. Что касается смыслового описания текста в целом, то во многих задачах (к примеру, в информационном поиске) оно реализуется с применением частотного анализа и вероятностно-статистических методов. При этом смысловая структура текста не может дать представления о предикативных отношениях между ключевыми понятиями. Следовательно, для решения перечисленных выше практических задач необходимо разработать методы и алгоритмы, использующие синтаксический анализ предложений в качестве основы для построения смыслового описания всего текста, а также сформировать количественные критерии оценки соответствия смыслов текстов.

Цель работы - разработка методов и алгоритмов определения смыслового соответствия ответа на тестовое задание контенту, по которому составлен тест.

Для достижения поставленной цели в работе решались следующие задачи:

1. Исследовать существующие подходы к автоматизации смыслового анализа текстов на естественном языке.

2. Формализовать описание синтаксической структуры предложений учебного контента.

3. Построить математическую модель смыслового описания контента.

4. Разработать алгоритм перехода от синтаксической структуры предложений к семантической сети контента, отображающей предикативные отношения между объектами-понятиями.

5. Сформулировать критерии оценки сходства смыслового содержания контентов и построить алгоритм сопоставления.

6. Разработать инструментальный программный комплекс для формирования тестовых заданий открытой формы на основе смыслового описания учебно-методического материала и автоматической проверки результатов тестирования.

Объект исследования: модели и алгоритмы установления смыслового соответствия контентов в системе тестирования в процессе проверки тестовых заданий открытой формы.

Предмет исследования: условия и средства получения смыслового описания учебного контента на базе синтаксической структуры предложений с учетом предикативных отношений между понятиями контента.

Методы исследования.

Лингвистические методы: л*етод многоуровневого семантического анализа, включающий синтаксический анализ (синтаксический уровень); формальный, функциональный, категориальный анализ (лексико-морфологический уровень); метод семантических сетей (уровень текста).

Математические методы: методы теории множеств; методы теории графов; методы построения и анализа алгоритмов.

В качестве теоретических предпосылок используются:

• работы, посвященные теории «Смысл-Текст» (И.А. Мельчук, JI.JI. Иомдин, Ю.Д. Апресян, И.М. Богуславский, А.К. Жолковский);

• работы по изучению синтактико-семантических отношений в структуре предложения (Ч.Филмор, И.М.Богуславский, Н. Хомски, A.B. Гладкий и др.);

• работы по применению частотно-вероятностных методов лингвистического анализа (Г.Г. Белоногов, A.A. Хорошилов и др.);

• работы отечественных и зарубежных ученых по созданию прикладных систем автоматической обработки текста (Р.Г. Пиотровский, H.H. Леонтьева, В.Ш. Рубашкин, Э.В. Попов, А.Е. Ермаков, A.B. Гав-рилов, Р.К. Крое, Ж.К. Гардэн, Ф. Леви, С.А. Шумский).

Материалом для исследования послужили:

• тексты лекций учебно-методических комплексов по дисциплинам «Интеллектуальные информационные системы», «Системы электронной коммерции», «Технологии мультимедиа» общим объемом 110 тыс. словоформ;

• тексты ответов на тестовые задания открытой формы, полученных в процессе итогового контроля знаний студентов 3-го и 4-го курсов специальности 080801.65 «Прикладная информатика в экономике» Тюменского госуниверситета, общим объемом 36 тыс. словоформ.

Положения, выносимые на защиту:

1. Предложена новая математическая модель представления смыслов учебного контента в виде семантической сети, узлами которой являются именные группы, обозначающие понятия, а дуги отражают предикативные отношения, характеризуемые глагольными группами. Для учета синонимии слов и выражений лексический материал контента необходимо расширить при помощи тезауруса и толково-комбинаторного словаря.

2. В основу метода построения семантической сети контента положен следующий принцип: на основе синтаксических отношений предложений выявляются а) именные группы, представляющие имена понятий контента, б) предикативные отношения, связывающие эти понятия, в) глаголы и глагольные группы, выражающие предикацию, г) отношения кореференции именных групп, выраженные в форме буквального повтора или местоименной замены слов.

3. Разработанные методы и алгоритмы позволяют произвести количественную оценку степени смыслового соответствия текстов, выраженную в двух аспектах: содержательном и структурном. Содержательный аспект отвечает за лексический состав именных групп и предикатов контентов. Структурный аспект характеризует взаимное расположение связей сравниваемых семантических сетей.

4. Сравнение смыслов контентов при автоматизированной проверке результатов тестирования в открытой форме позволяет адекватно оценить знания испытуемых, что подтверждается численными экспериментами на разработанном нами программном комплексе «Семантик Тест».

Научная новизна исследования:

1. Разработана новая математическая модель смыслового описания учебного контента, описывающая предикативные отношения между понятиями.

2. Предложен метод и построен алгоритм перехода от синтаксического описания предложений к смысловому описанию всего текста.

3. Предложен метод и разработан алгоритм количественной оценки степени смыслового соответствия двух текстов, основанный на сопоставлении их смысловых описаний, построенных с помощью математической модели;

4. Разработан программный комплекс для формирования тестовых заданий на основе смыслового описания учебного контента, а также автоматической проверки открытой формы тестирования.

Теоретическая значимость работы состоит в разработке методики создания тестирующих программных комплексов с использованием лингвистических методов анализа учебного материала.

Практическая значимость работы заключается в возможности автоматизировать процесс проверки тестовых заданий открытой формы, а также существенно упростить их разработку, что позволяет сократить временные затраты преподавателя.

Апробация работы:

Материалы диссертации докладывались на следующих конференциях и семинарах:

• Международная научная конференция «Модернизация образования в условиях глобализации», Тюмень, 2005;

• Межрегиональная научно-практическая конференция «Информационные технологии и телекоммуникации в образовании, экономике и управлении регионом», Тюмень, 2006;

• Ш-я Международная научно-практическая конференция «Актуальные проблемы современных наук: теория и практика», Днепропетровск, 2006;

• Всероссийская научно-техническая конференция «Приоритетные направления развития науки и технологий», Тула, 2007;

• VI-я Межвузовская научно-практическая конференция студентов, аспирантов и молодых ученых «Безопасность информационного пространства», Тюмень, 2007;

• И-я Межрегиональная научно-практическая конференция «Информационные технологии и телекоммуникации в образовании, экономике и управлении регионом», Тюмень, 2008.

• Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных IT-решений. Третья научно-практическая региональная конференция. Тюмень, 2010.

• Экономические и экологические проблемы в меняющемся мире: сборник материалов Международной научно-практической конференции, посвященной 80-летию Тюменского государственного университета. Тюмень, 2010.

• Научно-методические семинары кафедры информационных систем Тюменского государственного университета (2005-2011 гг.).

Разработанный тестирующий комплекс «Семантик Тест» используется в учебном процессе в Тюменском государственном университете. Имеются свидетельства о государственной регистрации программы для ЭВМ и базы данных.

Публикации. Основное содержание диссертации представлено в 18 печатных работах, из которых 2 - свидетельства о государственной регистрации программ для ЭВМ и 3 статьи, опубликованных в ведущих рецензируемых журналах.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Объем

диссертации составляет 119 страниц, включая 12 рисунков и 13 таблиц. В списке литературы указано 116 наименований работ российских и зарубежных авторов.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи исследования, показаны научная новизна и значимость работы.

Первая глава содержит обзор литературных источников, посвященных проблеме построения смыслового описания текста. Рассматриваются виды семантических сетей и моделей данных, используемых для смыслового представления текста, произведен сравнительный анализ инструментальных средств синтаксического и семантического анализа.

В настоящее время не существует единого подхода к построению смысловых описаний. В то же время методы предшествующего этапа -синтаксического анализа, достаточно хорошо изучены (И.А. Мельчук, A.B. Гладкий, Н. Хомски, H.H. Леонтьева) и имеются все предпосылки для построения алгоритма перехода от синтаксической структуры предложений к семантической сети всего контента, отображающей предикативные отношения.

Анализ, программных средств показывает, что в настоящее время смысловой анализ реализован с применением вероятностно-статистических методов с вычислением разных видов релевантности (Г.Г. Белоногов, A.A. Хорошилов, А.Е. Ермаков), а также построения семантического вектора, описывающего контекст употребления одного понятия среди других. Разработка таких средств обусловлена необходимостью анализа больших объемов неструктурированной информации. Для детального анализа одного конкретного документа с установлением предикативных отношений между понятиями такие средства непригодны.

Таким образом, для программной реализации смыслового сопоставления двух контентов требуется разработать методы и алгоритмы построения и сравнения двух и более смысловых описаний контентов на основе синтаксических структур предложений. В качестве математического аппарата целесообразно использовать методы теории графов, которые нужно модифицировать и расширить методиками учета возможной синонимии и перифраз при поиске подсети в сети.

Кроме того, необходимо выработать критерии оценки степени смыслового соответствия двух контентов с учетом степени синонимии слов и выражений.

Вторая глава посвящена формализации синтаксической структуры предложения, моделированию смыслового описания контента, разработке методов и алгоритмов построения смыслового описания текста, сравнения смысловых описаний и формулированию критерия смыслового соответствия двух текстов.

Под контентом (от англ. content - «содержимое») мы понимаем собирательный термин для текстовой составляющей информационного наполнения электронного ресурса (лекции, электронной версии учебного пособия, web-страницы, тестового задания). В данном исследовании рассматривается учебный контент, используемый для формирования тестовых заданий в системе тестирования.

В качестве исходных данных выступают синтаксические структуры предложений контента. На основе синтаксических отношений между словоформами каждого предложения строится предикатно-аргументная структура, представленная в виде набора элементарных пропозиций - двухместных предикатов. Первый аргумент предиката - именная группа подлежащего, второй аргумент - именная группа дополнения или обстоятельства.

Рассмотрим текст, состоящий из предложений, каждое из которых имеет номер s. Представим модель синтаксической структуры предложения в виде

DS = (T,BS,C) (1)

где Ds - модель синтаксической структуры предложения, s - номер предложения, Т - множество словоформ текста, Bs={bk} - множество синтаксических отношений s-oro предложения, С - множество типов отношений.

Каждое синтаксическое отношение bk определяется в виде упорядоченного набора:

bk = <ti,tj,c> (2)

где к - номер синтаксического отношения в предложении, tj - i-я словоформа предложения, с - тип синтаксического отношения, с S С, где С= {"атрибутивный", "актантный", "обстоятельственный"}.

Словоформа t; формально представима в виде набора:

ti = <l,Fb> (3)

где 1 - порядковый номер слова в контенте, / - лексема, Я** - </}> Я .... /п?* - набор грамматических характеристик, определяющих грамматическую форму словоформы частеречная категория.

Смысловое описание б-того предложения 0 формально предста-вимо в виде упорядоченного набора

е5=<и,я>5 (4>

где и8 ={иь иг,..., ип} - множество именных групп б-ого предложения;

Кз ={гь г2,... , гу} - множество смысловых отношений в-ого предложения.

Смысловое отношение представимо в виде:

Ту = <ит, ип, Ру> (5)

где ит, ип - именные группы, связанные предикативным отношением, ру - метка дуги, представляющая предикат, выражающий смысловое отношение между именными группами.

Именная группа представима в виде дерева синтаксических отношений словоформ с корневой вершиной, представляющей главное слово группы - имя существительное:

ит={(/к1,/к2),(/к2,/кз),...(/к,/п)} (6)

где т - номер именной группы, /к - лексема словоформы

Алгоритм построения именной группы представлен следующей последовательностью действий:

1. Выбрать из множества синтаксических отношений В8 элемент Ькь удовлетворяющий условию Ьи е {Ьк: с = "актантный"}, вычислить его зависимую словоформу ^ = Берфы) и определить ее лексему.

2. Создать из словоформы ^ корневую вершину дерева именной группы ит.

3. Выбрать из множества синтаксических отношений В8 элемент Ьк, удовлетворяющий условию Ьке { Ьк: с = "атрибутивный"}, главным словом которого является словоформа ^ = Мат(Ьк). Вычислить его зависимую словоформу ^ = Оер(Ьк) и определить ее лексему.

4. Создать из словоформы ^ вершину дерева именной группы ит и соединить направленной дугой с корневой вершиной Ъь

5. Действия шагов 3-4 повторяются для всех элементов Ьк таких, что = Мат(Ьк) и ^ = Мат(Ьк) до тех пор, пока будут обнаруживаться Ьк.

6. Выбрать из множества синтаксических отношений В8 элемент Ьк2, удовлетворяющий условию {Ьк: с = "актантный"} и повторить для него действия шагов 1-5.

Утверждение 1. В результате работы Алгоритма 1 формируется множество именных групп и = {ит}, где т - номер именной группы. Каждая именная группа представляет дерево, в вершинах которого находится лексема.

Алгоритм построения смыслового отношения (5) включает следующие действия:

1. Выбрать из множества синтаксических отношений В8 элемент Ькь удовлетворяющий условию Ьы £ {Ьк: с = "актантный"}.

2. Выбрать из множества синтаксических отношений В5 элемент Ьк2, удовлетворяющий условию: Ь^е {Ь^с = "актантный", Матфн) = Мат(Ьи) =

3. Создать смысловое отношение гу = <ит, и„, ру>, состоящее из следующих элементов:

a. Именная группа ит имеет корневую вершину ^1= Оср(Ьк1), 8еп1(1[1)= "Именительный".

b. Именная группа и„ имеет корневую вершину ^2= БерСЬи), Бел^н)^ "Именительный".

c. Предикат ру имеет корневую вершину ^ = Маш(ЬкО = Мат(Ьк2)-Утверждение 2. В результате работы алгоритма формируется

множество смысловых отношений гу = <ит, ип, Ру>, образующих ориентированный граф в-ого предложения узлами которого являются именные группы ит, а метками дуг - предикаты ру.

Смысловое описание всего текста формируется из смысловых описаний отдельных предложений путем их объединения по корефе-рентным именным группам:

6 = 1)6* О)

£

где (2 - семантический граф текста.

Кореферентность именных групп устанавливается на основании изоморфности их деревьев.

Смысловое описание контента представимо в виде:

0=<е,Тг,Т8,П> (8)

где <2 - семантический граф контента, Тг - тезаурус именных групп и предикатов, Те - толково-комбинаторный словарь, П = {П;} - набор правил перифразирования.

Тезаурус именных групп и предикатов описывается в виде набора:

Тг = <и, Р, Н > (9)

где и - множество именных групп; Р - множество предикатов; Н -отношение между двумя именными группами или двумя предикатами, ставящее в соответствие каждой паре (ит, ип) или (рт, р„) значение веса атЕ [0,1] и характеризующее степень синонимии соответствующих именных групп или предикатов. Вес, равный единице, означает полное синонимическое совпадение терминов, частным случаем которого является изоморфизм именных групп или предикатов.

Толково-комбинаторный словарь представляет набор, который сопоставляет слову в каноническом виде значения лексических функций, примененных к этому слову:

Тб = <Ь, (10)

где Ь={ 1\ } - множество словоформ в каноническом виде, 1Л7 - множество лексических функций для словоформы /¡. Каждая лексическая функция может возвращать одно или несколько значений, также представляющих словоформы в каноническом виде. К примеру, лексическая функция 8уп(/;) возвращает список слов, являющихся синонимами слова /¡.

Правило перифразирования П; сопоставляет некоторую структуру смыслового описания другим структурам, несущим тот же смысл. Структуры. в правилах описываются с применением лексических функций к элементам смыслового описания:

П!:[ипЬ..., ип2, Рш1.....Рш2] (ип1).....(ип2), Ь^зС рт,),..., Ц>(рт2)].

При рассмотрении задачи поиска с учетом описания предметной области требования к сети Q, соответствующей по смыслу запросу £1 можно сформулировать следующим образом:

1. Для именных групп их, ит' смысловых описаний Q и Q' выполняются условия: ах > Апред, где их 6 £)> ит' е (У, Апред - некоторая константа, определяющая пороговое значение степени синонимии ах, начиная с которого именные группы считаются совпадающими по смыслу.

2. Для именных групп ит', и„' из гу'=<ит', ип', рк'>£ 0' и их, иуб2, удовлетворяющих условию 1, существует цепочка дуг, соединяющих узлы:г=(их,... ,иу).

3. Если г представляет смысловое отношение гу = <их, иу, рг>, то вес Wv > Впред, где Впред - некоторая константа. Вес определяется по формуле

Кк=К11-а1+Кд-а]+КПр-а„ (11)

где Кп, Кд, Кпр - параметры при весовых коэффициентах именной группы-подлежащего, дополнения и предиката соответственно.

Оценка степени смыслового соответствия двух семантических графов складывается из двух факторов: содержательного и структурного.

Содержательной мерой смыслового соответствия сети запроса £)' сети текста (2 будем считать величину:

1 Г"

где М - число смысловых отношений в сети £), W^: - вес к-го смыслового отношения, вычисляемый по формуле (11).

Структурный показатель £?') смыслового соответствия сети запроса £)' и сети текста ():

м

оШ,<21 = —--(12)

и М(М-1) 1 }

где Су представляет константу, значение которой определяется взаимным расположением ьой и >ой дуг семантического графа в запросе и в тексте. Значения сд могут принимать одно из значений: 0, 0.5 и 1. Следовательно, значения структурного показателя лежат в интервале [0;1].

Третья глава посвящена описанию программного комплекса «Семантик-тест», при разработке которого использован предложенный алгоритм получения смыслового описания контента, а также поиска в этом описании фрагмента, соответствующего по смыслу ответу на тестовое задание в открытой форме.

Программный комплекс состоит из следующих компонентов:

1. Контур синтаксического анализа производит выделение словоформ текста, определяет грамматические и синтаксические характеристики каждой словоформы, на основании которых выявляет синтаксические отношение между ними. На вход контура поступает текст, на выходе получается набор синтаксических отношений между

словоформами, определенный для каждого предложения текста. Рассмотрим пример.

На вход контура поступил фрагмент лекции: Электронная коммерция обеспечивает проведение маркетинговых мероприятий путем использования Сети. Благодаря электронной коммерции предприятия извлекают из применения Интернета прямую прибыль. Синтаксические отношения, полученные на выходе контура, показаны в табл. 1.

Таблица 1

Синтаксическое описание предложений контента

№ предложения № синт. отн. Главная словоформа [номер в предложении] Зависимая словоформа [номер в предложении] Падеж (предлог)* Тип синтаксич. отношения

1. 1. коммерция [2] электронная [1] Атрибутивное

2. обеспечивает [3] коммерция [2] И Актантное

3. обеспечивает [3] проведение [4] В Актантное

4. проведение [4] мероприятий [6] Атрибутивное

5. мероприятий [6] маркетинговых [5] Атрибутивное

6. обеспечивает [3] использования [13] Т (путем) Актантное

7. использования [13] Сети [14] Атрибутивное

2. 1. извлекают [4] предприятия [3] И Актантное

2. извлекают [4] прибыль [8] В Актантное

3. прибыль [8] прямую [7] Атрибутивное

4. извлекают [4] применения [5] Р (из) Актантное

5. применения [5] Интернета [6] Атрибутивное

6. извлекают [4] коммерции [2] Д (благодаря) Актантное

7. коммерции [2] электронной [1] Атрибутивное

* Падеж и предлог указываются только для отношения типа «актантный». И - именительный, Р - родительный, Д - дательный, В - винительный, Т -творительный.

При работе модуля используется библиотека правил полного синтаксического анализа текста на русском языке «RCO Syntactic Engine» производства ООО «Гарант-Парк-Интернет».

2. Контур семантического анализа — это часть программного комплекса, задачей которой является представление структуры текста в виде семантической сети. На вход контура поступает набор синтаксических отношений предложений текста, полученный контуром синтаксического анализа. На выходе контура получается описание семантической сети текста. Рассмотрим получение семантической сети из синтаксических отношений из табл. 1.

Лексический состав именных групп, имеющих структуру деревьев, в узлах которых располагаются лексемы, представлен в табл. 2.

Таблица 2

Именные группы предложений контента

№ предо. № именной группы Родительский узел дуги: лексема [номер в предл.] Дочерний узел дуги: лексема [номер в предл.]

1. 1. коммерция [2] электронный [1]

2. проведение [4] мероприятие [6]

мероприятие [6] маркетинговый [5]

3. использование [13] Сеть [14]

2. 1. коммерция [2] электронный [1]

2. предприятие [3] -

3. применение[5] Интернет [6]

4. прибыль [8] прямой [7]

Полученные именные группы представляют понятия, участвующие в предикативных отношениях, определенных в рамках предложений и представленных в табл. 3.

Таблица 3

Семантические сети предложений контента

№ предл. № связи Именная группа - подлежащее Именная группа -дополнение Предикат

1. 1. коммерция -электронный проведение - мероприятие, мероприятие - маркетинговый обеспечивать

2. коммерция -электронный использование - Сеть обеспечивать

2. 1. предприятие прибыль - прямой извлекать

2. предприятие применение - Интернет извлекать

3. предприятие коммерция - электронный извлекать

Далее семантические сети предложений объединяются в семантическую сеть контента по кореферентным именным группам. Нумерация именных групп становится независимой от номера предложения (см. табл. 4).

Таблица 4

Именные группы контента

№ именной группы Родительский узел дуги: лексема Дочерний узел дуги: лексема

1. коммерция электронный

2. проведение мероприятие

мероприятие маркетинговый

3. использование Сеть

4. предприятие -

5. применение Интернет

6. прибыль прямой

Смысловые отношения переопределяются в соответствии с новыми идентификаторами именных групп. Структура семантической сети контента показана в табл. 5.

3. Контур тестирования включает:

а) Интерфейс для преподавателя, позволяющий составлять тестовые задания на основе семантической сети текста лекции, формировать тесты, назначать их студентам, просматривать результаты тестирования.

б) Интерфейс для студентов, предоставляющий возможность ввода ответов на тестовые задания.

Таблица 5

Семантическая сеть контента

№ связи Именная группа -подлежащее Именная группа -дополнение Предикат

1. коммерция - электронный проведение - мероприятие, мероприятие - маркетинговый обеспечивать

2. коммерция - электронный использование - Сеть обеспечивать

3. предприятие прибыль - прямой извлекать

4. предприятие применение - Интернет извлекать

5. предприятие коммерция - электронный извлекать

Допустим, преподаватель составил вопрос: «.Что получают предприятия благодаря электронной коммерции?

Студент может ввести ответ в различных вариантах построения фразы, например: «Благодаря электронной коммерции применение Интернета приносит предприятиям прямую прибыль», «Прямая прибыль извлекается предприятиями из использования Интернета благодаря электронной коммерции», «Благодаря электронной коммерции предприятия получают прямой доход из использования Интернета».

Рассмотрим один из вариантов ответа студента, который поступает на вход контура синтаксического анализа, затем семантического. В результате их работы будут выявлены именные группы, показанные в табл. 6.

Таблица 6

Именные группы ответа

№ именной группы Родительский узел дуги Дочерний узел дуги

1. предприятие -

2. доход прямой

3. использование Интернет

4. коммерция электронный

Поскольку текст ответа состоит из одного предложения, семантическая сеть имеет вид, показанный в табл. 7.

Таблица 7

Семантическая сеть ответа

№ пред. отн. Именная группа подлежащее Именная группа дополнение Предикат

1. предприятие доход - прямой получать

2. предприятие использование - Интернет получать

3. предприятие коммерция - электронный получать

Результат сопоставления смысловых структур запроса и текста представлен в табл. 8, где каждому элементу сети ответа студента поставлен в соответствие элемент сети контента лекции, из тезауруса определена степень синонимии, рассчитан вес каждого смыслового отношения по формуле (11) и определена мера смыслового соответствия по формуле (12).

Таблица 8

Сопоставление смысловых описаний ответа и лекции

№ пред. отн. Элементы пре-дикатив-ного отношения Ответ студента Контент лекции Степень синонимии, а„ Вес пред. отношения, ^

1. Им. группа подлежащее предприятие предприятие 1.00 0.97

Им. группа дополнение доход - прямой прибыль - прямой 0.98

Предикат получать извлекать 0.92

2. Им. группа подлежащее предприятие предприятие 1.00 0.98

Им. группа дополнение использование -Интернет применение - Интернет 1.00

Предикат получать извлекать 0.92

3. Им. группа подлежащее предприятие предприятие 1.00 0.98

Им. группа дополнение коммерция - электронный коммерция - электронный 1.00

Предикат получать Извлекать 0.92

Кп = 0.40; Кд = 0.33; КПр = 0.27 Мера смыслового соответствия Е 0.976

Использование программного комплекса позволяет повысить эффективность работы преподавателя за счет сокращения количества времени, затрачиваемого на подготовку и проверку тестов открытой формы. Кроме того, уменьшается время изучения исходных текстовых данных (книг, электронных учебников, Интернет-источников) за счет схематичного, наглядного представления обширных объемов материала.

Четвертая глава содержит результаты экспериментального исследования корректности предложенных алгоритмов путем сравнения смысловых описаний текстов, для которых в результате экспертной оценки установлено, что они имеют сходное по смыслу содержание.

Экспериментальное исследование адекватности модели смыслового описания текста производилось в рамках апробации программного комплекса «Семантик Тест». Для организации процесса тести-

рования были подготовлены вопросы по дисциплинам: «Интеллектуальные информационные системы», «Системы электронной коммерции», «Технологии мультимедиа». Каждый комплект тестов включал 10 заданий открытой формы по каждой из дисциплин. В тестировании приняли участие 62 студента 3 и 4 курсов специальности 080801.65 «Прикладная информатика в экономике» Тюменского госуниверситета.

В трех группах студентов было проведено тестирование при помощи системы «Семантик Тест» с последующим автоматизированным анализом результатов. Затем те же самые ответы на задания были проверены экспертами и помечены как правильные или неправильные. Далее был произведен сравнительный анализ результатов проверки на предмет совпадения или расхождения заключений о правильности каждого ответа, выданных системой и экспертом. Показано, что при уровне значимости 0,95 достоверно утверждение: вероятность ошибочного определения системой степени смыслового соответствия составляет не более 0,06%.

Поскольку система выдает заключение на основании порогового значения содержательной меры смыслового соответствия eq, предлагается методика определения этого значения. Введена весовая функция Ек, принимающая дискретные значения, причем максимальные соответствуют тем значениям ео, при которых наибольшее число ответов оценивается одинаково (правильные или неправильные) как системой, так и экспертами.

Использование программного комплекса в учебном процессе показало эффективность его применения при подготовке и проведении тестирования открытой формы. Произведена оценка экономии времени при использовании системы «Семантик Тест» в сравнении с использованием системы без смыслового анализа (на примере системы ACT). Время подготовки, проведения и проверки тестовых заданий сокращается на величину до 57%. Показана зависимость эффективности использования системы от количества вопросов в тесте. Программный комплекс опробован и используется в учебном процессе.

В заключении приведены основные результаты исследования и излагаются основные выводы по диссертационной работе.

Основные результаты исследования отражены в следующих

публикациях:

В ведущих рецензируемых изданиях:

1. Ивашко А.Г., Бидуля Ю.В. Моделирование смыслового описания контента // Вестник ТюмГУ. - Тюмень: Изд-во ТюмГУ, 2007. - Вып. 5. -С. 80-86.

2. Бидуля Ю.В. Алгоритмизация смыслового описания контента // Вестник ТюмГУ. - Тюмень: Изд-во ТюмГУ, 2008. - Вып. 6. - С. 195-198.

3. Ивашко А.Г., Бидуля Ю.В. Алгоритмы оценки семантического соответствия контентов // Вестник ТюмГУ. - Тюмень: Изд-во ТюмГУ, 2010. -Вып. 6.-С. 168-173.

В прочих изданиях:

4. Бидуля Ю.В. Использование метаданных для формирования учебно-методических материалов в системах электронного обучения // Математическое и информационное моделирование: сборник научных трудов. - Тюмень: "Вектор Бук", 2005. - Вып. 7. - С. 72-77.

5. Бидуля Ю.В. Организация структуры контента в среде разработки тестовых заданий // Модернизация образования в условиях глобализации: Сборник материалов международной научной конференции, посвященной 75-летию Тюменского государственного университета. 14-15 сентября 2005 г. / Под ред. И.Е.Видт, Г.Ф.Ромашкиной. - Тюмень: Изд-во ТюмГУ, 2005. - С. 41-44.

6. Ивашко А.Г., Бидуля Ю.В. Структура семантической сети в системе генерации тестовых заданий // Матер1али III М1жнародно1 науково-практичшн конференцп "Актуалш проблеми сучасних наук: Teopi* та практика - 2006". - Дншропетровськ: Наука i осв1та, 2006. - Т. 10. -С. 66-69.

7. Бидуля Ю.В. Реферирование текста как подготовительный этап построения семантической сети // Математическое и информационное моделирование: сборник научных трудов. - Тюмень: Изд-во "Вектор Бук", 2006. - Вып. 8. - С. 46-50.

8. Бидуля Ю.В. Объектный подход в описании контента // Математическое и информационное моделирование: сборник научных трудов. -Тюмень: "Вектор Бук", 2007. - Вып. 9. - С. 11-15.

9. Бидуля Ю.В. Смысловое представление материала как этап автоматической генерации тестовых заданий // Приоритетные направления развития науки и технологий: доклады Всеросс. науч.-техн. конф./ под общ. ред. чл.-корр. Российской акад. наук В.П.Мешалкина. - г. Тула: Изд-во ТулГУ, 2007. - С. 142-143.

10. Бидуля Ю.В. Представление текста в виде семантической сети // Безопасность информационного пространства VI: сборник трудов межвузовской научно-практической конференции студентов, аспирантов и

молодых ученых. Тюмень, 22-23 ноября 2007 года. - Тюмень: Изд-во ТюмГУ, 2007. - С. 54-61.

11. Бидуля Ю.В. Об одном подходе к описанию контента // Информационные технологии и телекоммуникации в экономике, управлении и социальной сфере: Материалы межрегиональной научно-практической конференции 1-30 ноября 2006г. - Тюмень: Изд-во ТюмГУ, 2007. - С. 90-92.

12. Бидуля Ю.В. Разработка программного комплекса смыслового анализа учебных материалов,- Информационные технологии и телекоммуникации в экономике, управлении и социальной сфере: Материалы И-ой межрегиональной научно-практической конференции 15 ноября - 15 декабря 2007 г. - Тюмень: Изд-во ТюмГУ, 2008. - С. 116-118.

13. Бидуля Ю.В., Ивашко А.Г. Алгоритм построения семантической сети // Математическое и информационное моделирование: сборник научных трудов. - Тюмень: "Вектор Бук", 2009. - Вып. 11. - С. 42-50.

14. Бидуля Ю.В. Информационный поиск в семантической сети контента // Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных IT-решений. Третья научно-практическая региональная конференция (Тюмень, ТюмГУ, Институт математики и компьютерных наук, 14-15 апреля 2010 года). - Тюмень: "Вектор Бук", 2010. - С. 50-54.

15. Бидуля Ю.В.Использование смыслового анализа в системе тестирования // Экономические и экологические проблемы в меняющемся мире: сборник материалов Международной научно-практической конференции, посвященной 80-летию Тюменского государственного университета: в 2 ч. / Отв. за выпуск В.В. Зыков, Л.С. Киселева. - Тюмень: Печатник, 2010. - Ч. 1. - С. 399-401.

16. Бидуля Ю.В. Учет синонимии в модели смыслового описания контента // Математическое и информационное моделирование: сборник научных трудов. - Тюмень: "Вектор Бук", 2011. - Вып. 13. - С. 42-50.

17. Бидуля Ю.В., Губина Т.И., Губин М.В. Свидетельство о государственной регистрации программы для ЭВМ №2008615239 «Система смыслового анализа материалов и контроля знаний Семантик-тест» от

31.10.2008.

18. Бидуля Ю.В., Губина Т.И., Губин М.В. Свидетельство о государственной регистрации базы данных №2009620064 «Семантик-тест» от

29.01.2009.

Подписано в печать 15.11.2011. Тираж 100 экз. Объем 1,0 уч.-изд. л. Формат 60x84/16. Заказ 827.

Издательство Тюменского государственного университета 625003, г. Тюмень, ул. Семакова, 10. Тел./факс (3452) 45-56-60; 46-27-32 E-mail: izdateIstvo@utmn.ru

 

Оглавление научной работы автор диссертации — кандидата филологических наук Бидуля, Юлия Владимировна

Содержание.

Введение.

Глава 1. Лингвистические предпосылки смыслового анализа.

1.1. Модели представления смысла текста.

1.2. Подходы к реализации поиска в семантических сетях.

1.3. Программная реализация смыслового анализа текста.

1.4. Программная реализация проверки открытой формы тестирования.

Выводы по главе.

Глава 2. Построение модели смыслового описания контента.

2.1. Формализация синтаксической структуры предложения.

2.2. Смысловое описание контента.

2.3. Алгоритм построения семантической сети контента.

2.4. Сравнение смысловых описаний контента и ответа на тестовое задание

2.5. Поиск в семантической сети текста без учета синонимии.

Выводы по главе.

Глава 3. Информационная система «Семантик-тест».

3.1. Общая концепция системы.

3.2. Структура и состав программного комплекса.

Выводы по главе.

Глава 4. Апробация программного комплекса «Семантик-тест».

4.1. Постановка задачи эксперимента.

4.2. Решение задач эксперимента.

4.3 Пример оценки степени смыслового соответствия.

Выводы по главе.

 

Введение диссертации2011 год, автореферат по филологии, Бидуля, Юлия Владимировна

Актуальность работы. Развитие глобальных сетей, а также технологий создания интеллектуальных систем обуславливает значительный интерес к исследованиям, направленным на автоматическую обработку данных, и прежде всего различным видам семантического анализа текста, позволяющего извлекать информацию о фактах, ключевых понятиях и их взаимосвязях, с последующим представлением материала в виде определенным образом структурированного, смыслового описания.

Понятие смысл текста не имеет однозначного формального определения. Мы будем использовать данный термин в трактовке И.А.Мельчука: «смысл -это инвариант всех синонимических преобразований, т.е. то общее, что имеется в равнозначных текстах» [Мельчук 1995: 10].

Построение смыслового описания текста может решать многие практические задачи, в том числе: семантический поиск: выявление фактов, в которых принимают участие конкретные ключевые понятия; обработка текста на естественном языке в системах управления контентом; проверка ответов учащихся в системах контроля знаний при использовании открытой формы тестирования. Такого рода задачи характеризуются необходимостью сравнения двух текстов друг с другом на смысловое соответствие с учетом предикативных отношений в тексте.

Как известно, тестовые задания для контроля знаний обычно составляются на основе учебного материала - текста лекции, учебного пособия, методических указаний и т.п. Под контентом (от англ. content - «содержимое») мы понимаем собирательный термин для текстовой составляющей информационного наполнения электронного ресурса (лекции, электронной версии учебного пособия, web-страницы, тестового задания). В данном исследовании рассматривается учебный контент, используемый для формирования тестовых заданий в системе тестирования.

Для проверки открытой формы теста необходимо производить сопоставление смыслов текста ответа и учебного контента, на основе которого было сформулировано тестовое задание. В современных системах тестирования автоматизированная проверка открытой формы реализуется при условии ввода ответа на ограниченном естественном языке. Для проверки ответа на неограниченном естественном языке необходимо предусматривать возможность использования синонимов и различных вариантов построения фразы без ограничений на членимость текста по предложениям, что дает возможность испытуемому выразить мысль в произвольной форме.

Традиционные подходы к описанию естественного языка рассматривают текст на нескольких уровнях. Применительно к проблеме семантики текста разделение на уровни следующее: фонетический, фонологический, лексико-морфологический, синтаксический, уровень смысла текста (И.А. Мельчук). Предикативные отношения выявляются на синтаксическом уровне в рамках одного предложения. Что касается смыслового описания текста в целом, то во многих задачах (к примеру, в информационном поиске) оно реализуется с применением частотного анализа и вероятностно-статистических методов. При этом смысловая структура текста не может дать представления о предикативных отношениях между ключевыми понятиями. Следовательно, для решения перечисленных выше практических задач необходимо разработать методы и алгоритмы, использующие синтаксический анализ предложений в качестве основы для построения смыслового описания всего текста, а также сформировать количественные критерии оценки соответствия смыслов текстов.

Цель работы - разработка методов и алгоритмов определения смыслового соответствия ответа на тестовое задание контенту, по которому составлен тест.

Для достижения поставленной цели в работе решались следующие задачи:

1. Исследовать существующие подходы к автоматизации смыслового анализа текстов на естественном языке;

2. Формализовать описание синтаксической структуры предложений учебного контента;

3. Построить математическую модель смыслового описания контента;

4. Разработать алгоритм перехода от синтаксической структуры предложений к семантической сети контента, отображающей предикативные отношения между объектами-понятиями.

5. Сформулировать критерии оценки сходства смыслового содержания контентов и построить алгоритм сопоставления.

6. Разработать инструментальный программный комплекс для формирования тестовых заданий открытой формы на основе смыслового описания учебно-методического материала и автоматической проверки результатов тестирования.

Объект исследования: модели и алгоритмы установления смыслового соответствия контентов в системе тестирования в процессе проверки тестовых заданий открытой формы.

Предмет исследования: условия и средства получения смыслового описания учебного контента на базе синтаксической структуры предложений с учетом предикативных отношений между понятиями контента.

Методы исследования.

Лингвистические методы: .метод многоуровневого семантического анализа, включающий синтаксический анализ (синтаксический уровень); формальный, функциональный, категориальный анализ (лексико-морфологический уровень); метод семантических сетей (уровень текста).

Математические методы: методы теории множеств; методы теории графов; методы построения и анализа алгоритмов.

В качестве теоретических предпосылок используются: работы, посвященные теории «Смысл-Текст» (И.А. Мельчук, Л.Л. Иомдин, Ю.Д. Апресян, И.М. Богуславский, А.К. Жолковский) работы по изучению синтактико-семантических отношений в структуре предложения (Ч. Филмор, И.М. Богуславский, Н. Хомски, A.B. Гладкий, Н.Д. Арутюнова и др.) работы по применению частотно-вероятностных методов лингвистического анализа (Г.Г. Белоногов, A.A. Хорошилов и др.) работы отечественных и зарубежных ученых по созданию прикладных систем автоматической обработки текста (Р.Г. Пиотровский, H.H. Леонтьева, В.Ш. Рубашкин, Э.В. Попов, А.Е. Ермаков, A.B. Гаврилов, Р.К. Крое, Ж.К. Гардэн, Ф. Леви, С.А. Шумский).

Материалом для исследования послужили:

- тексты лекций учебно-методических комплексов по дисциплинам «Интеллектуальные информационные системы», «Системы электронной коммерции», «Технологии мультимедиа» общим объемом 110 тыс. словоформ;

- тексты ответов на тестовые задания открытой формы, полученных в процессе итогового контроля знаний студентов 3-го и 4-го курсов специальности 080801.65 «Прикладная информатика в экономике» Тюменского госуниверситета, общим объемом 36 тыс. словоформ.

Положения, выносимые на защиту:

1. Предложена новая математическая модель представления смыслов учебного контента в виде семантической сети, узлами которой являются именные группы, обозначающие понятия, а дуги отражают предикативные отношения, характеризуемые глагольными группами. Для учета синонимии слов и выражений лексический материал контента необходимо расширить при помощи тезауруса и толково-комбинаторного словаря.

2. В основу метода построения семантической сети контента положен следующий принцип: на основе синтаксических отношений предложений выявляются а) именные группы, представляющие имена понятий контента, б) предикативные отношения, связывающие эти понятия, в) глаголы и глагольные группы, выражающие предикацию, г) отношения кореференции именных групп, выраженные в форме буквального повтора или местоименной замены слов.

3. Разработанные методы и алгоритмы позволяют произвести количественную оценку степени смыслового соответствия текстов, выраженную в двух аспектах: содержательном и структурном. Содержательный аспект отвечает за лексический состав именных групп и предикатов контентов. Структурный аспект характеризует взаимное расположение связей сравниваемых семантических сетей.

4. Сравнение смыслов контентов при автоматизированной проверке результатов тестирования в открытой форме позволяет адекватно оценить знания испытуемых, что подтверждается численными экспериментами на разработанном нами программном комплексе «Семантик Тест».

Научная новизна исследования:

1. Разработана новая математическая модель смыслового описания учебного контента, описывающая предикативные отношения между понятиями.

2. Предложен метод и построен алгоритм перехода от синтаксического описания предложений к смысловому описанию всего текста.

3. Предложен метод и разработан алгоритм количественной оценки степени смыслового соответствия двух текстов, основанный на сопоставлении их смысловых описаний, построенных с помощью математической модели;

4. Разработан программный комплекс для формирования тестовых заданий на основе смыслового описания учебного контента, а также автоматической проверки открытой формы тестирования.

Теоретическая значимость работы состоит в разработке методики создания тестирующих программных комплексов с использованием лингвистических методов анализа учебного материала.

Практическая значимость работы заключается в возможности автоматизировать процесс проверки тестовых заданий открытой формы, а также существенно упростить их разработку, что позволяет сократить временные затраты преподавателя.

Апробация работы: материалы диссертации докладывались на следующих конференциях и семинарах:

1. Международная научная конференция «Модернизация образования в условиях глобализации», Тюмень, 2005;

2. Межрегиональная научно-практическая конференция «Информационные технологии и телекоммуникации в образовании, экономике и управлении регионом», Тюмень, 2006;

3. Ш-я Международная научно-практическая конференция «Актуальные проблемы современных наук: теория и практика», Днепропетровск, 2006;

4. Всероссийская научно-техническая конференция «Приоритетные направления развития науки и технологий», Тула, 2007;

5. VI-я Межвузовская научно-практическая конференция студентов, аспирантов и молодых ученых «Безопасность информационного пространства», Тюмень, 2007;

6. П-я Межрегиональная научно-практическая конференция «Информационные технологии и телекоммуникации в образовании, экономике и управлении регионом», Тюмень, 2008.

7. Современные проблемы математического и информационного моделирования. Перспективы разработки и внедрения инновационных 1Т-решений. Третья научно-практическая региональная конференция. Тюмень, 2010.

8. Экономические и экологические проблемы в меняющемся мире: сборник материалов Международной научно-практической конференции, посвященной 80-летию Тюменского государственного университета. Тюмень, 2010.

9. Научно - методические семинары кафедры информационных систем Тюменского государственного университета (2005 - 2011 гг.).

10.Разработанный тестирующий комплекс «Семантик Тест» используется в учебном процессе в Тюменском государственном университете. Имеются свидетельства о государственной регистрации программы для ЭВМ и базы данных.

Публикации. Основное содержание диссертации представлено в 18 печатных работах, из которых 2 - свидетельства о государственной регистрации программ для ЭВМ и 3 статьи, опубликованных в ведущих рецензируемых журналах.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Объем диссертации составляет 119 страниц, включая 12 рисунков и 13 таблиц. В списке литературы указано 116 наименований работ российских и зарубежных авторов.

 

Заключение научной работыдиссертация на тему "Методы и алгоритмы смыслового описания контента в системах тестирования"

Выводы по главе

Предложенная программная реализация модели семантического представления материала апробирована в процессе разработки контрольно-измерительных материалов, а также проведения тестирования среди студентов.

Использование программного комплекса в учебном процессе показало эффективность его применения при подготовке и проведении тестирования открытой формы. Существенно сокращается время подготовки тестовых заданий, а также проверки результатов тестирования открытой формы. Программный комплекс опробован и используется в учебном процессе для итогового контроля знаний студентов специальности 080801.65 «Прикладная информатика в экономике».

ЗАКЛЮЧЕНИЕ в Предложена новая математическая модель смыслового описания контента, отражающая предикативные отношения между именными группами, представляющими понятия контента. Модель включает семантическую сеть, дополненную тезаурусом именных групп и предикатов, толково-комбинаторным словарем и правилами перифразирования для оценки степени синонимии слов и выражений.

• Предложен алгоритм перехода от синтаксической структуры предложений к семантическому графу всего контента, отображающей предикативно-сказуемостные отношения между его понятиями.

• Предложен алгоритм сравнения смыслового содержания двух текстов с учетом использования синонимичных слов и выражений. Введены количественные величины содержательного и структурного показателей степени смыслового соответствия.

• Разработан инструментальный программный комплекс для формирования тестовых заданий на основе смыслового описания учебно-методического материала, а также автоматической проверки открытой формы тестирования. На основе численных экспериментов получена высокая вероятность адекватной оценки смыслового соответствия ответов на тестовые задания исходному контенту (0,94). В настоящее время российских аналогов такой системы не существует.

• Произведена апробация разработанных математических моделей и алгоритмов в процессе проверки тестовых заданий открытой формы. Показана эффективность применения программного комплекса в преподавательской деятельности за счет сокращения временных затрат на 57%.

 

Список научной литературыБидуля, Юлия Владимировна, диссертация по теме "Прикладная и математическая лингвистика"

1. Аванесов B.C. Формы тестовых заданий: Учеб. пособие. М.: Исследовательский центр Гособразования СССР, 1991. - 36 с.

2. Аванесов B.C. Научные основы тестового контроля знаний. М.: Иссл. центр, 1994. -135 с.

3. Аванесов B.C. Теоретические основы разработки заданий в тестовой форме: Пособие для высшей школы / Исследовательский центр проблем качества подготовки специалистов, московская государственная текстильная академия имени А.Н.Косыгина. М.: 1995. - 95 с.

4. Аванесов B.C. Композиция тестовых заданий: Учебная книга для преподавателей вузов, учителей школ, аспирантов и студентов педвузов. -М.: Адепт, 1998.-217 с.

5. Аванесов B.C., Володин Б.В. Вопросы применения тестов для контроля знаний студентов // Научная организация учебного процесса. М.: МИФИ, 1976. - Вып .3.-4.1,- С. 102-107.

6. Автоматическое индексирование текстов в документальных ИПС // Д.Г.Лахути, Е.Б.Федоров, И.С.Добронравов, В.Ф.Пархоменко // Кибернетическая лингвистика. М.: Наука, 1983. — С.84-95.

7. Ахо А., Ульман Дж. Теория синтаксического анализа, перевода и компиляции: В 2-х томах. Т.1. Синтаксический анализ. М.: Мир, 1978. -612 с.

8. Ахо А. и др. Структуры данных и алгоритмы / А. Ахо, Дж. Хопкрофт, Дж.Ульман / Пер. с англ. М. : Издательский дом "Вильяме", 2003. -384 с.

9. Алексеев В.Е., Таланов В.А. Графы. Модели вычислений. Структуры данных: Учебник. Нижний Новгород: Изд-во ННГУ, 2005. - 307 с.

10. П.Апресян Ю.Д. Избранные труды. В двух томах. Т.1. Лексическая семантика. Синонимические средства языка. М.: Школа «Языки русской культуры», 1995. - 472 с.

11. Апресян Ю.Д. Формальная модель языка и представление лексикографических знаний // Вопросы языкознания. 1990.- №6. - С. 123139.

12. Арутюнова Н.Д. Предложение и его смысл. М.: Наука, 1976. - 384 с.

13. Башмаков А.И. Обобщенная модель представления предметной области. -М.: МЭИ, 1997. -299 с.

14. Башмаков А.И., Башмаков И.А. Разработка компьютерных учебников и обучающих систем. М.: Информационно-издательский дом «Филинъ», 2003. - 616 с.

15. Белоногов Г.Г. и др. Компьютерная лингвистика и перспективные информационные технологии. Теория и практика построения систем автоматической обработки текстовой информации/ Г.Г.Белоногов, Ю.П. Калинин, A.A. Хорошилов. М.: Русский мир, 2004.-246 с.

16. Белоногов Г.Г., Кузнецов Б.А. Языковые средства автоматизированных информационных систем. М.: Наука, 1983. - 287 с.

17. Бидуля Ю.В. Алгоритмизация смыслового описания контента // Вестник ТюмГУ. Тюмень: Изд-во ТюмГУ, 2008. - Вып.6. - С. 195-198.

18. Бидуля Ю.В. Использование метаданных для формирования учебно-методических материалов в системах электронного обучения // Математическое и информационное моделирование: сборник научных трудов. Тюмень: "Вектор Бук", 2005. - Вып. 7. - С. 72-77.

19. Бидуля Ю.В. Объектный подход в описании контента // Математическое и информационное моделирование: сборник научных трудов. Тюмень: "Вектор Бук", 2007. - Вып. 9. - С. 11-15.

20. Бидуля Ю.В. Реферирование текста как подготовительный этап построения семантической сети // Математическое и информационное моделирование: сборник научных трудов. Тюмень: Издательство "Вектор Бук", 2006. - Вып. 8. - С. 46-50.

21. Бидуля Ю.В. Учет синонимии в модели смыслового описания контента // Математическое и информационное моделирование: сборник научных трудов. Тюмень: "Вектор Бук", 2011. - Вып. 13. - С. 42-50.

22. Бидуля Ю.В., Ивашко А.Г. Алгоритм построения семантической сети // Математическое и информационное моделирование: сборник научных трудов. Тюмень: "Вектор Бук", 2009. - Вып. И. - С. 42-50.

23. Бидуля Ю.В., Губина Т.И., Губин М.В. Свидетельство о государственной регистрации программы для ЭВМ №2008615239 «Система смыслового анализа материалов и контроля знаний Семантик-тест» от 31.10.2008.

24. Бидуля Ю.В., Губина Т.И., Губин М.В. Свидетельство о государственной регистрации базы данных №2009620064 «Семантик-тест» от 29.01.2009.

25. Валгина Н.С. Синтаксис современного русского языка: Учебник. М.: Агар, 2000.-416 с.

26. Вендров A.M. CASE-технологии. Современные методы и средства проектирования информационных систем. М.: Финансы и статистика, 2003. - 352 с.

27. Вентцель Е.С., Овчаров JI.A. Теория вероятностей. М.: Наука, 1969. -368 с.

28. Гаврилов A.B. Гибридные интеллектуальные системы: Монография -Новосибирск: Изд-во НГТУ, 2002. 142 с.

29. Герасимова И.А. Формальная грамматика и интенсиональная логика. М: ИФРАН, 2000. - 156 с.

30. Гладкий A.B. Формальные грамматики и языки. М.: Глав.ред. Физ.-мат. лит., 1973.- 368 с.

31. Гладкий A.B., Мельчук И.А. Грамматики деревьев I. Опыт формализации преобразований синтаксических структур естественного языка // Информационные вопросы семиотики, лингвистики и автоматического перевода. М.: Наука, 1971. - Вып. 1. - С. 16-41.

32. Гладкий A.B., Мельчук И.А. Грамматики деревьев II. К построению дельта-грамматики для русского языка// Информационные вопросы семиотики, лингвистики и автоматического перевода. М.: Наука, 1974. -Вып. 4. - С. 4-29.

33. Гладкий A.B.О значении союза ЕСЛИ // Семиотика и информатика. -1982.-Вып. 18.-С. 43-75.

34. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии. М.: Прогресс, 1976. - 495 с.

35. Дорофеев Г.В., Мартемьянов Ю.С. Логический вывод и выявление связей между предложениями в тексте // В кн. Машинный перевод и прикладная лингвистика,- М.: МГПИИЯ им. М. Тореза , 1969.-Вып.12.-С.36-59.

36. Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза. // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог'2003. М.: Наука, 2003. - С. 136-140.

37. Ермаков А.Е., Плешко В.В. Семантическая сеть текста в задачах аналитика. Информатизация и информационная безопасность правоохранительных органов: XI Международная научная конференция. Сб. трудов - М.: Наука, 2002. - С.343-347.

38. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. 2002. -№7. - С. 30-34.

39. Зализняк A.A. О понятии «факт» в лингвистической семантике. В: Н.Д.Арутюнова (ред.). Противоречивость и аномальность текста. М.: Наука, 1990. -С.21-33.

40. Ивашко А.Г., Бидуля Ю.В. Алгоритмы оценки семантического соответствия контентов // Вестник ТюмГУ. Тюмень: Изд-во ТюмГУ, 2010. - Вып.6. - С.168-173.

41. Ивашко А.Г., Бидуля Ю.В. Моделирование смыслового описания контента // Вестник ТюмГУ. Тюмень: Изд-во ТюмГУ, 2007. - Вып.5. -С.80-86.

42. Иомдин JI.JI. Симметричные предикаты в русском языке. Проблемы структурной лингвистики 1979.-М.: Наука, 1981.-С.89-105.

43. Искусственный интеллект: В 3 кн. Кн.1 Системы общения и экспертные системы: Справочник / Под ред. Э.В. Попова — М.: Радио и связь, 1990. -464 с.

44. Клайн П. Справочное руководство по конструированию тестов. Киев: ПАН ЛТД, 1994.-283 с.

45. Лагутина H.H. Тест как инструмент измерения уровня знаний // Химия в школе. 1998. -№3.-С. 41-45.

46. Левин Д.Я., Нариньяни A.C. Экспериментальный минипроцессор. Семантически ориентированный анализ // Взаимодействие с ЭВМ на естественном языке. Новосибирск: ВЦСО АН СССР, 1978. - С. 223-233.

47. Леонтьева H.H. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лингв, фак. вузов/Нина Николаевна Леонтьева. М.: Издательский центр «Академия», 2006. - 304 с.

48. Леонтьева H.H. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация // МП и ПЛ. Проблемы создания системы автом. перевода: Сб. научн. трудов МГПИИЯ им. М. Тореза. М.,1987. - Вып. 271. - С. 6-25.

49. Леонтьева H.H. Русский общесемантический словарь (РОСС): структура, наполнение. //Научно-техническая информация. Сер. 2. 1997. -N 12. - С.5-20.

50. Леонтьева H.H. К теории автоматического понимания естественных текстов. Ч.З: Семантический компонент. Локальный семантический анализ. М.: Изд-во МГУ, 2002. - 49 с.

51. Лингвистический процессор для сложных информационных систем / Ю.Д. Апресян, И.М. Богуславский, Л.Л. Иомдин и др. М.: Наука, 1992. -256 с.

52. Мазаев A.A. И др. Методика разработки обучающих программ для автоматизированных обучающих систем/А.А.Мазаев, О.Е.Монахова, А.Б.Токарев. М.: МЭИ, 1985. - 48 с.

53. Маслов Б.А. Проблемы лингвистического анализа связного текста. (Надфразовый уровень): Учеб. пособие к спецкурсу.- Таллин: ТПИ, 1975.- 104 с.

54. Мельчук И.А. Курс общей морфологии. Том I: Пер. с фр. / Предисл.

55. A.Е.Кибрика. Общ. Редакция Н.В.Перцова. Москва-Вена: «Языки русской культуры», Венский славистический альманах, Издательская группа «Прогресс», 1997. - 416 с.

56. Мельчук И.А. Курс общей морфологии. Том II: Пер. с фр. / Общ. Редакция Н.В.Перцова и Е.Н.Саввиной. Москва - Вена: «Языки русской культуры», Венский славистический альманах, Издательская группа «Прогресс», 1998. - 544 с.

57. Мельчук И.А. Опыт теории лингвистических моделей «смысл-текст» : Семантика, синтаксис / И.А. Мельчук. Переизд.. // М.:Школа «Языки русской культуры», 1999. - 345 с.

58. Мельчук И.А. Русский язык в модели «смысл-текст». — Москва — Вена: Школа «Языки русской культуры», Венский славистический альманах, 1995.-682 с.

59. Мельчук И.А., Жолковский А.К. Толково-комбинаторный словарь современного русского языка,- Вена: Wiener Slavistischer Almanach, 1984.- 992 с.

60. Методы автоматического анализа и синтеза текста /РГ. Пиотровский,

61. B.Н. Билан, М.Н. Боркун, А.К. Бобков. Минск: Высш. шк., 1985.- 224 с.

62. Нгуен Ба Нгок, А.Ф. Тузовский. Обзор подходов семантического поиска // Управление, вычислительная техника и информатика. Доклады ТУСУРа, декабрь 2010№ 2 (22). Томск, 2010. - 4.2. - С.234-237.

63. Некоторые проблемы фактографического поиска (специфика, состояние, тенденции) / Б.В. Кристальный, Г.Н. Радковский, A.A. Раскина и др. // Вопр. информ. теории и практики. 1983. - № 49. - С. 5-33.

64. Нейман Ю.М., Хлебников В.М. Введение в теорию моделирования и параметризацию педагогических тестов. М.: Центр тестирования МО РФ, 2000. - 168 с.

65. Непейвода H.H. Прикладная логика. Ижевск: Издательство Удмуртского университета, 1997.- 385 с.

66. Одинцев Н.В. Обобщенные модели управления. Синтаксический анализатор на основе обобщенных моделей управления. // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2002. -М.:Наука, 2002. Т.2. - С. 401-406.

67. Осипов Г.С. Построение моделей предметных областей. 4.1. Неоднородные семантические сети // Известия РАН. Техническая кибернетика. -М.:Наука, 1990. №5. - С.32-45.

68. Осуга С. Обработка знаний. М.: Мир, 1989. - 293 с.

69. Падучева Е.В. Коммуникативное выделение на уровне синтаксиса и семантики // Семиотика и информация. М.: Языки русской культуры, 1998. - Вып. 36. - С. 82-107.

70. Перцова H.H., Перцов Н.В. О проекте лингвистического процессора для обработки информации из сети Интернет.// Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог'2002. -М.:Наука, 2002. Т.1. - С.339-342.

71. Плешко В.В. и др. RCO на РОМИП 2004/В.В.Плешко, А.Е. Ермаков, В.П.Голенков // Труды второго российского семинара РОМИП'2004. (Пущино, 1 октября 2004 г.). Санкт-Петербург: НИИ Химии СПбГУ. -2004. - С. 43-61.

72. Попов Э.В. Общение с ЭВМ на естественном языке. М.: Наука, 1982. -360 с.

73. Поспелов Н. С. Сложное синтаксическое целое и основные особенности его структуры // Доклады и сообщения Ин-та русского языка АН СССР. -М.: Институт русского языка, 1948. Вып. 2. - С. 43-68.

74. Представление и использование знаний/Х.Уэно, Т. Кояма , Т. Окамото и др. / Пер. с япон. М.: Мир, 1989. - 220 с.

75. Приобретение и формализация знаний / А. В. Аверкин, А.Ф.Блишун, Г.С.Гаврилова, Г.С.Осипов // Искусственный интеллект / Под ред. Д.А.Поспелова. М.: Радио и связь, 1990. - Т.2. Модели данных. -С. 65-75.

76. Рубашкин В. Ш. О методах анализа связного текста // Вопросы информационной теории и практики. Вып. 49. - М.: ВИНИТИ. - 1983. -С. 58-73.

77. Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах. М.: Наука, 1989. - 190 с.

78. Сабуров C.B. Языки программирования С и С++. М.: Бук Пресс, 2006. -647 с.

79. Севбо И.П. Структура связного текста и автоматизация реферирования. -М.: Наука, 1969. 135 с.

80. СИНТОЛ // Сборник переводов по вопросам информационной теории и практики, № 10. М.: ВИНИТИ, 1968,- 177 с.

81. Супрун А.Е. Лексическая система и методы ее изучения / А.Е. Супрун // Методы изучения лексики/ Под ред. А.Е.Супруна. Минск, Изд-во БГУ, 1975. - С. 5-22.

82. Ульман Д. Введение в системы баз данных. М.: Лори, 2000. - 376 с.

83. Файн B.C. Распознавание образов и машинное понимание естественного языка. М.-Наука, 1987. - 422 с.

84. Фигуровский И.А. От синтаксиса отдельного предложения к синтаксису целого текста. - М.: Русский язык в школе, 1948. - № 3. - С. 21-31.

85. Хомский Н. Язык и мышление / Пер. с англ. М.: Изд. Моск. ун-та, 1972. - 122 с.

86. Хомский Н., Миллер Дж. Введение в формальный анализ естественных языков,- М.: Едиториал УРСС, 2003. 64 с.

87. Хопкрофт Дж. и др. Введение в теорию автоматов, языков и вычислений / Дж. Хопкрофт, Р. Мотвани, Дж. Ульман . М.: Издательский дом «Вильяме», 2002. - 528 с.

88. Цейтин Г.С. Программирование на ассоциативных сетях. // ЭВМ в проектировании и производстве/Под ред. Г.В. Орловского. -Л.: Машиностроение, 1985. Вып. 2. - С. 16-48.

89. Шемакин Ю.И. Начала компьютерной лингвистики. М.: Издательство МГОУ, А/О "Росвузнаука", 1992. - 220 с.

90. Шемакин Ю.И. Тезаурус в автоматизированных системах управления и обработки информации. М.: Воениздат, 1974. - 192 с.

91. Шемакин Ю.И., Романов А.А. Компьютерная семантика. М.: Научно-образовательный центр «Школа Китайгородской», 1995. - 343 с.

92. Шенк Р. Обработка концептуальной информации. М.: Энергия, 1980. - 344 с.

93. Шумский С.А. Самоорганизующиеся нейронные сети // Научная сессия МИФИ-2001. III Всероссийская научно-техническая конференция «Нейроинформатика-2001»: Лекции по нейроинформатике. М.: МИФИ, 2001,- С.182-212.

94. Якобсон P.O. Избранные работы. М.: Прогресс, 1985. - 460 с.

95. Якобсон P.O. Шифтеры, глагольные категории и русский глагол // Принципы типологического анализа языков различного строя. М.: Наука, 1972. - С. 246.

96. Berners-Lee Т., Hendler J., Lassila О. The Semantic Web // Scientific American, May 17, 2001. P. 28-37.

97. Fillmore Ch. J. The case for case // Universals in linguistic theory. /Ed. By E.Bach and B.Halms, N.Y.: Holt, Rinehart and Winston, 1968. P1-88.

98. Lin D. Using syntactic dependency as local context to resolve word sense ambiguity // Proceedings of the 35th annual meeting on Association for Computational Linguistics. Madrid, Spain, 1997. P. 64-71.

99. Quillian M.R. Semantic memory // In Semantic Information Processing. M.I.T. Press, Cambridge, Mass., 1968. - P. 227-268.1. Электронные ресурсы

100. Система тестирования «INDIGO» Электронный ресурс. // URL: http://indigotech.ru (дата обращения: 22.11.2011).

101. Russion Context Optimizer: Технологии анализа и поиска текстовой информации Электронный ресурс. // URL: http://www.rco.ru (дата обращения: 23.11.2011).

102. Text Analist Электронный ресурс. // URL: http://www.analyst.ru (дата обращения: 20.11.2011).

103. TrueKnowledge: The Internet Answer Engine Электронный ресурс. // URL: http://www.trueknowledge.com (дата обращения: 10.11.2011).