автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Негауссовое моделирование лексико-статистической структуры вариативного текста
Полный текст автореферата диссертации по теме "Негауссовое моделирование лексико-статистической структуры вариативного текста"
ФГБОУ ВПО «Санкт-Петербургский государственный университет»
Ковригина Любовь Юрьевна
НЕГАУССОВОЕ МОДЕЛИРОВАНИЕ ЛЕКСИКО-СТАТИСТИЧЕСКОЙ СТРУКТУРЫ ВАРИАТИВНОГО ТЕКСТА (НА ПРИМЕРЕ «СКАЗАНИЯ О МАМАЕВОМ ПОБОИЩЕ»)
Специальность 10.02.21 — Прикладная и математическая лингвистика
Автореферат диссертации на соискание ученой степени кандидата филологических наук
005558692
Санкт-Петербург - 2014
005558692
Работа выполнена на кафедре математической лингвистики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет»
Научный руководитель: Чебанов Сергей Викторович,
доктор филологических наук, ФГБОУ ВПО «Санкт-Петербургский государственный университет»,
профессор
Официальные оппоненты: Спивак Дмитрий Леонидович,
доктор филологических наук, Институт мозга человека РАН, лаборатория коррекции психического развития и адаптации,
ведущий научный сотрудник, Северо-Западное отделение Российского научно-исследовательского института культурного и природного наследия им. Д.С.Лихачева,
директор
Орехов Борис Валерьевич, кандидат филологических наук, ФГАОУ ВПО «Национальный исследовательский университет
«Высшая школа экономики», факультет филологии, доцент
Ведущая организация: ФГБОУ ВПО «Тюменский
государственный университет» ¡и?
и
Защита состоится "11" февраля 2015 г. в /о часов на заседании совета Д 212.232.23 по защите диссертаций на соискание степени доктора филологических наук, на соискание степени кандидата филологических наук при ФГБОУ ВПО «Санкт-Петербургский государственный униврр^ирет» по адресу: 199034, Санкт-Петербург, Университетская наб. д. 11, ауд.
ив^рирт»
С диссертацией можно ознакомиться в Научной библиотеке им. М. Горького Санкт-Петербургского государственного университета (г. Санкт-Петербург, Университетская набережная, Д.7/9) и на сайте:
http://spbu.ru/science/disser/dissertatsii-dopushchennye-k-zashchite-i-svedeniya-o-газЬсЬкеЛЫаИзЛг^б
Автореферат разослан «_г.
Ученый секретарь диссертационного совета,
кандидат филологических наук Манерова К.В.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.
К настоящему времени лингвостатистика достигла определённой степени зрелости. Это выражается в наличии, по крайней мере, трех областей исследований, которые находятся в тесной взаимосвязи друг с другом.
Во-первых, это изучение статистики языковых единиц разных уровней (фонем, букв, слогов, морфем, словоформ, лексем, словосочетаний, синтаксических конструкций) в текстах самой разной природы и их фрагментах. Начавшись в 1930-х гг. с работ Дж. К. Ципфа, подобные исследования продолжаются по настоящее время, а их результатом является формирование представления о резкой неравночисленности единиц разных уровней в тексте, накопление всё более точных количественных характеристик этих распределений для тех или иных лингвистических объектов (современных и древних текстов, технической документации и художественной литературы, спонтанной устной речи и поэтических текстов с жесткой структурой, такой как у сонетов и канцоны, и т.д.).
Во-вторых, это широкий круг практических разработок, основанных на изучении статистики лексических единиц. Прежде всего, это частотные словари разных национальных языков, профессиональных и социальных диалектов, идиолектов отдельных авторов (Засорина, 1977, Творогов, 1984, Ляшевская, Шаров, 2009, Гребенников, Мартыненко, 1999, 2011, Шайкевич, Андрющенко, Ребецкая, 2003, Алексеев, 2004, Kucera, Francis, 1967, Urai, Ando, 2003) и т.д. Такие словари являются основой для решения широкого круга прикладных задач - лингводидактики (учебные частотные словари — Алексеев, 1998, Зубов, 1990), стилеметрии (Мартыненко, 1988), атрибуции анонимных и псевдонимных текстов (Марусенко, 1990), в том числе, для целей осуществления судебно-криминалистических экспертиз и т.д.
В-третьих, это теория лингвостатистических распределений, которая формируется на стыке теории вероятности и математической статистики, лингвистики и лингвостатистики, психолингвистики и эстетики и т.д. Несмотря на примерно восьмидесятилетнее развитие этой области, она полна дискуссий и противоречий, представляя собой поле жесткой борьбы порою резко различающихся точек зрения (Арапов, Шрейдер, 1978, Бычков, 1986, Пиотровский, Бектаев, Пиотровская, 1977, Herdan, 1964).
Одной из самых острых проблем теории лингвостатистических распределений является вопрос об их гауссовости или негауссовости (Мартыненко, 1978, 1988, Чебанов, 2012, Popescu, Macutek, Altmann, 2009). При этом надо отметить, что в большинстве случаев этот вопрос обсуждается с обращением к выборкам языкового материала большего или меньшего объема (при том, что современные принципы и практика корпусной лингвистики позволяет оперировать с объемом материала, измеряемым миллионами словоупотреблений), и вопрос в большой мере сводится к обсуждению репрезентативности тех или иных выборок этого материала (Беликов, Копылов, Пиперски, 2013).
Вместе с тем, как на это обращал внимание еще Ципф (Zipf 1935, 1949), а позднее отмечали другие исследователи (Налимов, 1979, Арапов, Шрейдер,
1978) лингвостатистические распределения дают представление не о статистике отдельных репертуарных единиц (морфем, лексем, словаря) в языке, но об их статистике в тексте. В таком случае, лингвостатистические распределения оказываются инструментом изучения не языка, а речи, текста. Тем не менее, изучение статистики текста остается до сих пор делом новаторским, не вполне концептуально проясненным, хотя и пересекается с работами по интенсивно развивающейся ныне лингвистике текста.
Однако, если говорить о лингвостатистике текста, то ситуация как с теоретической, так и с практической точки зрения не является абсолютно ясной.
Дело в том, что при всем разнообразии (Филиппов, 2003) текстов, наиболее изучаемыми являются авторские художественные тексты нового и новейшего времени, тиражируемые с помощью традиционной гутенберговской полиграфии, обеспечивающей идентичность разных отпечатков одного тиража.
Ситуация же с устными и рукописными текстами, произведениями самиздата, современной городской (авторской) песней, текстами, циркулирующими в интернете, и т.д. оказывается совсем иной. Для таких текстов не существует эталонного, окончательного, подлинного авторского варианта, который и должен быть предметом исследования с позиций лингвистики текста.
Прецеденты рассмотрения таких текстов были и ранее (Лихачев, 2001, Корона, 1999, Пропп, 2003). Однако, целенаправленно концентрируясь на изучении таких текстов, Ю.В.Доманский обосновывает представление о том, что они должны рассматриваться в качестве особого класса текстов -вариативных текстов, трактуемых им следующим образом «категория варианта ... важна уже потому, что в неклассической художественности произведение не реализуется только в каком-то одном варианте, а представляет из себя совокупность текстуальных (в широком смысле) манифестаций, каждая из которых обладает относительно самостоятельными смыслами. Это сближает словесность парадигмы неклассической художественности с фольклором и древней литературой» (Доманский, 2006). Такими текстами являются и сказки (см. на эту тему работы В.Я.Проппа), рукописные тексты Средневековья, многие тексты замкнутых профессиональных и полупрофессиональных сообществ и т.д.
По отношению к таким текстам возникает новый круг задач из области лингвистики текста, которые лишь отчасти пересекаются с задачами, рассматриваемыми в текстологии, — как в авторско-гутенберговской, так и в средневековой (Лихачев, 2001). Очевидно, что описание особенностей вариативных текстов — серьезная самостоятельная задача, решение которой предполагает формирование обширной самостоятельной исследовательской программы.
В контексте же лингвостатистических исследований может быть поставлен вопрос об особенностях лингвостатистических распределений вариативных текстов. Этот вопрос тем более интересен, что не было не только каких-то попыток его изучения на конкретном материале, но он даже не
ставился в такой форме. Предлагаемая же постановка вопроса позволяет по-новому обсуждать всю лингвостатистическую проблематику.
В связи с этим важно иметь в виду то, что к настоящему времени сложилось несколько методологически различных подходов к описанию статистической структуры текстов и других поликомпонентных объектов
К настоящему времени сложилось несколько методологически различных подходов к описанию статистической структуры текстов и других поликомпонентных объектов — внутренних систем по терминологии Ю.А.Шрейдера (Шрейдер, 1977).
Начало таким исследованиям заложили работы В.Парето, Дж.Юла, Дж.Виллиса, Дж.Ципфа, Б.Мандельброта (конца XIX — первой половины XX вв.), обнаруживших сходный тип распределения, репрезентирующий резкую неравномерность численности объектов. Несмотря на неадекватность аппроксимации для отдельных участков кривой эмпирического распределения, наиболее известным оказалось ранговое распределение Ципфа (гипербола, или, как оно называется в лидирующей сейчас отечественной школе Б.И.Кудрина, — Я-распределение).
В практике описания подобных ранговых и спектровых распределений применяется множество аппроксимирующих функций, каждая из которых может быть оспорена. Разногласия наблюдаются не только в выборе аналитической модели, но и во мнении исследователей относительно объема (достаточности) материала репрезентативной выборки (этот вопрос нерелевантен только при изучении выборки, совпадающей с генеральной совокупностью, т.е. при описании частотной структуры целых объектов).
Характеристики гиперболических ранговых распределений частот лексики текстов на естественном языке указывают на негауссовость таких распределений: дисперсия увеличивается с объемом выборки, выборочная средняя величина неинформативна и даже бессмысленна из-за неопределенности генеральной средней (Шелухин, Беляков, 1992, Кудрин, 2002). При этом в лингвостатистике на протяжении более чем полувека широко применяются методы классической статистики, в том числе установление характеристик генеральной совокупности по выборке и многочисленные методы оценки. Таким образом, исследователь оказывается перед выбором одного из альтернативных классов распределений: гауссовых или негауссовых.
С одной стороны, представляется несомненной негауссовость совокупностей (в настоящей работе принимается гипотеза именно о негауссовой природе лексико-статистических распределений), имеющих резко асимметричное распределение, и невыполнение для них центральной предельной теоремы (ЦПТ, даже существование которой не принимается во внимание некоторыми исследователями), а также неопределенность для них моментов любого порядка, в частности, дисперсии, что определяет некорректность использования традиционных статистических методов
моделирования и оценки (см., напр., работу С.Д.Хайтуна - Хайтун, [20--?]).
Принятие идеи негауссовости для лингвостатистических распределений делает
неправомерным приписывание слову в языке определенной вероятности, оставляя возможность говорить только о частоте по корпусу.
Вслед за констатацией этого факта, исследователь оказывается в ситуации отсутствия удовлетворительных способов описания негауссовых распределений при наличии нескольких вариантов техники осуществления такого описания. Последнее обстоятельство ставит вопрос о необходимости либо выбора лучшей из имеющихся моделей, либо создания новой универсальной модели.
В связи с этим к рассмотрению привлекаются модели из других предметных областей, тем более, если эти модели самими их создателями трактуются как универсальные (метод ЯНА, ^-распределение, Н-распределение), применимые к любому материалу с подобными свойствами (когда можно говорить только о частоте по корпусу - выборочной частоте).
При этом, как показывает опыт моделирования, если модель обладает высокой степенью адекватности, то её приложение к новому, в данном случае лингвистическому, материалу может обнаружить новые нетривиальные свойства последнего. Однако, подобная универсальность для части обсуждаемых в диссертации моделей ранее никогда не подтверждалась на едином текстовом материале.
С другой стороны, кривая распределения (при разбиении на зоны) неплохо описывается некоторыми гауссовыми (в смысле выполнения для них ЦПТ) законами распределения (см. работы Г. Я. Мартыненко- Мартыненко, 1978, 2009 - и Г. Хердана - Негс1ап, 1964).
Таким же спорным вопросом, как и адекватность статистического аппарата, является аналитический вид распределения, его одномодальность / полимодальность (споры проистекают из соображений о смешанной / однородной природе генеральной совокупности), параметры теоретического распределения и некоторые другие.
Таким образом, методологические вопросы моделирования структуры текста как поликомпонентного объекта требуют прояснения. Дискуссионные методологические основания были исследованы в настоящей работе с точки зрения их реализации в конкретных статистических моделях и проинтерпретированы с помощью изучения сопоставимости полученных результатов моделирования.
Содержательно исследование представляет собой построение метамодели лексико-статистической структуры вариативного текста — «Сказания о Мамаевом побоище» («Сказания»). Частотные словари «Сказания о Мамаевом побоище» после подтверждения роста дисперсии в спектровых распределениях вариантов текста были обработаны с помощью каждого из выбранных средств изучения совокупностей, после чего были произведены сопоставления характеристик этих средств и содержательный анализ результатов применительно к тексту «Сказания».
Степень разработанности проблемы. Проблема природы гауссовости / негауссовости //-распределений является одной из тех проблем, обсуждение которых, несмотря на его напряженность, не получило своего
завершения (Яблонский, 1977, Арапов, Шрейдер, 1978, Мартыненко, 1978, 2009, Налимов, 1979, Шелухин, Беляков, 1992, Кудрин, 2002, Хайтун, 1983, 2005, Рореэси, МасШек, АИшапп, 2009 и др.). Нередко при моделировании компонентной структуры текстов принимается не принципиальное, а операциональное допущение об устойчивости / неустойчивости частот (без обсуждения вопроса о существовании вероятности), определяемое на основании опыта исследователя и эмпирического материала, в то время как собственно математический аппарат негауссовых распределений слабо разработан, не говоря уже о практике его использования при описании конкретного материала. В силу этого, сам факт того, что настоящая работа -первая, в которой исследуется сопоставимость моделей, которые не используют представления о гауссовости лингвостатистических распределений, принципиально отличает её от подавляющего числа исследований в данной области.
Указанное положение дел, связанное с содержательно-типологической ограниченностью материала исследований и научными позициями авторов, привело к тому, что для разных дискретных и недискретных объектов были разработаны концептуально различные методы без попыток апробации методики на инородном (в частности, лингвистическом) материале достаточного объема.
При этом, хотя накапливается всё больше аргументов в пользу того, что речь идет об использовании нового класса теоретических статистик, проводятся новаторские работы (причем на эмпирическом материале разных дисциплин), статус — предметно-специфический или универсальный - получаемых результатов не прояснен. Таким образом, сама история моделирования количественных соотношений компонентов в объекте, характеризующемся свойствами целостности и системности, предполагает проведение именно междисциплинарных исследований в этой области.
Следует отметить, что вопрос об аппроксимации одного и того же эмпирического материала разными математическими моделями неоднократно ставился в исследованиях по математической лингвистике (Пиотровский, Бектаев, Пиотровская, 1977, Мартыненко, 1978, Тулдава, 1986, Крылов Ю.К., 1996, Кромер, 2001). Однако подавляющее большинство исследований сводится к подтверждению адекватности одной модели для разного эмпирического материала, поэтому эквивалентность/специфичность моделей компонентной структуры негауссовых совокупностей равно как и методы оценки качества их аппроксимации остается совершенно неразработанной областью.
Компонентная же структура вариативного текста как самостоятельный предмет изучения ранее не исследовалась вовсе, и статистические данные о соотношении компонентов в вариантах одного текста представлены впервые именно в настоящей работе. При этом впервые средневековый рукописный текст представлен как текста вариативный, несмотря на подготовленность такой трактовки текста результатами, полученными текстологами и палеографами.
Актуальность проведенного исследования обоснована отсутствием данных о сопоставимости результатов, получаемых с помощью разных моделей, в том числе, моделей, созданных в разных дисциплинах, в которых были предложены модели статистической структуры поликомпонентных объектов, часть из которых опирается на гауссовость распределения совокупности компонентов, а часть — на негауссовость.
В силу вышесказанного проведенное исследование является крайне актуальным, поскольку результаты исследования проясняют характер и степень универсальности наиболее распространенных техник изучения негауссовых совокупностей. Актуальность усиливается тем, что, при наличии большого объема эмпирических данных по лингвостатистике, отдельные массивы этих данных разрабатываются внутри нескольких альтернативных версий представлений о природе лингвостатистических распределений, поскольку развитие этой области идет не путем накопления и обобщения данных, полученных предшествующими исследователями, а путем выдвижения нового взгляда на предметную область. Такая ситуация характерна для революционного, а не кумулятивного типа развития и свидетельствует о дефиците обобщающих концепций в этой области.
Кроме прояснения теоретических вопросов, выявление интерпретационной силы и активизация применения негауссовых моделей, описывающих компонентную структуру текста, являются крайне важными для задач, связанных с машинным обучением, поскольку в этой области проблема сходимости параметров выборки к параметрам генеральной совокупности относится к критичным. При проецировании модели, построенной по обучающей выборке и улучшенной по проверочной, на тестовые данные (Ripley, 1996) часто происходит ухудшение качества, что объясняется принадлежностью выборок к разным генеральным совокупностям. Можно выдвинуть гипотезу, что ухудшение качества обусловлено также и негауссовостью лингвистических совокупностей, проявляющейся в постоянном появлении маргинальных значений признаков и приводящей к изменению средних значений признака в обучающей и тестовой выборке и, что еще хуже, к чрезмерно близкой подгонке параметров имитационной модели.
Кроме того, идея негауссовости распределений лексики по числу употреблений полностью соответствует взглядам на порождение текста, как на процесс, определяющийся не вероятностью появления слова, а целями индивидуума, порождающего этот текст (Налимов, 1979, Шрейдер, 1996).
Вышеизложенное свидетельствует об обоснованности и необходимости учета негауссовости при обработке данных и установлении универсальности моделей, не опирающихся на гауссовские статистики.
Цель настоящего исследования заключается в построении метамодели лингвостатистических распределений частот лексики вариативного текста, которая позволит, с одной стороны, выявить сопоставимые меры и параметры рассматриваемых моделей и показать различия моделей, а с другой - выявить содержательно интерпретируемые количественные характеристики диахронических изменений текста. В соответствии с поставленной целью в
работе осуществляется прояснение универсальности и интерпретационной силы моделей, не учитывающих гауссовость лингвостатистических распределений, сравнение характера аппроксимации эмпирических распределений лексики разными теоретическими распределениями и обсуждение характера получаемых результатов и их интерпретируемости.
Достижение этой цели потребовало решения следующих задач:
1. Описание и критический анализ разных подходов (статических и динамических) к изучению поликомпонентных объектов, а также выявление концептуально значимых признаков для их сопоставления. В работе рассматриваются следующие средства изучения совокупностей:
— информационный язык ЯНА Т.Г.Петрова, применяемый для описания объектов разной природы (Петров, 1971, 2008, Петров, Фарафонова, 2005);
— структурно-топологический анализ временных рядов В. В. Фуфаева (Фуфаев, 1996, 2006, 2010), аналогичный модели изменения словаря во времени М. В. Арапова и М.М.Херц (Арапов, Херц, 1972), но разработанный совершенно независимо;
— методы описания ценозов посредством модели простых чисел и пойнтер-точки Я Б. И. Кудрина (Кудрин, 1974, 2002, 2007), сложившиеся внутри ценологического подхода;
— методика Г. Я. Мартыненко, с выделением в структуре неоднородной совокупности «ядра» и «периферии» (Мартыненко, 1978, 2009);
— принцип максимума диссимметрии Ю. А. Шрейдера-М. В. Арапова (Арапов, Шрейдер, 1978), ориентированный на отражение целостности структуры объекта;
— методика В. П. Маслова (Маслов, 2006а, б), направленная на улучшение аппроксимации эмпирических данных распределением Ципфа, принятым в качестве эталонного;
— методика Г. Альтманна, И.-И. Попеску и Я. Машутека, основанная на выделении функциональных зон в ранговом распределении (Роревси, Маечек, Актапп, 2009).
2. Сравнение результатов применения этих методов к одному и тому же материалу - «Сказанию о Мамаевом побоище».
3. Установление содержательной интерпретации полученных количественных характеристик.
Следует отметить, что модели В. В. Фуфаева и Т. Г. Петрова применяются их авторами для анализа временных рядов, а другие рассматриваемые «статические» модели не содержат жестких ограничений на добавление «динамической» компоненты и допускают переход к анализу темпоральных изменений объекта. Однако оказывается крайне сложным осуществить анализ временных рядов в чистом виде на материале «Сказания о Мамаевом побоище» из-за существования транзитивного полиморфизма (Мейен, 1978; о применении транзитивного полиморфизма к литературному материалу см. работу В.В.Короны-Корона, 1999).
Включение диахронических моделей в план исследования потребовало формулирования принципиально новых требований к отбору исследуемого
материала, так что для достижения поставленных целей оказались наиболее пригодными тексты, квалифицируемые как вариативные, т.е. существующие во множестве равноценных вариантов.
Текст, подходящий для такого исследования, должен иметь некоторое количество зафиксированных промежуточных стадий, «следов» процесса изменения. Поэтому речь идет об исследовании вариантов одного текста (см. главу 2). Таким текстом и является текст «Сказания».
Материалом исследования послужили 8 списков «Сказания» (описание см. в таблице 1).
Таблица 1 — Списки «Сказания», привлеченные для исследования
№ Название редакции Время возникновения редакции Датировка и шифр списка Особенности редакции
Типовые списки редакций в хронологическом порядке
1 Основная (ОР) не ранее 1-й четверти XV в. XVI в., РНБ 0.1У.22 Редакция, наиболее близкая к протографу
2 Летописная (ЛР) конец XV -нач. XVI вв. XVI в., СПбОИИ №251 Летописная повесть + ОР
3 Киприановская (КР) 1526-1530 гг. XVI в., БАН 32.14.8 Структура Летописной повести + сокращенная ОР, возникла в церковной среде, прославление митрополита Киприана
4 Распространенная (РР) до начала XVII в. XIX в., РНБ <3.1У.354 ОР + 2самостоятель-ные повести «О посольстве Захария», «О новгородцах»
5 Редакция в составе Киевского Синопсиса (РС) ок. 1680 г. конец XVIII в., РНБ Собр. Колобова, №336 Последовательное сокращение ОР, местами вставки
Нетиповые и компилятивные списки
6 Сокращенный вариант Распро страненной редакции не установлено XVII в., РНБ (З.ХУ11.70 Искусное сокращение текста РР
7 Компилятивный вариант Распространенной редакции не установлено XIX в., РНБ 0.1У.46 Компилят Распространенной редакции, в котором прочитывается 11 других источников.
8 Беллетризованный вариант Основной редакции не установлено XIX в., РНБ Собр. Михайловского, № О.509 ОР, опущены молитвы + поздние вставки
Эти списки включают типовые списки редакций (по Л. А. Дмитриеву -Тихомиров, Ржига, Дмитриев, 1959, Дмитриев, 1982; номера 1-5 в таблице 1) и списки, представляющие интерес для изучения статистических различий
между: а) полным текстом редакции и текстом, представляющим ее систематическое сокращение (номера 4 и 6); б) полным текстом и текстом, сокращенным с целью беллетризации (номера 1 и 8); в) текстом, близким к авторскому, и компилятивным текстом (номера 4 и 7).
Объектом исследования является множество статистических моделей текстов «Сказания», создаваемых при представлении текста как поликомпонентного объекта. Предмет исследования составляет характер и степень сходства / различия этих моделей (метамодель вариативного текста «Сказания»).
В полном соответствии с междисциплинарностью, как одной из основных особенностей математической лингвистики, в качестве рабочей гипотезы была принята квазиуниверсальность и квазиэквивалентность разных приемов изучения компонентного состава, что обеспечивает частичную сопоставимость результатов, получаемых с их помощью.
Новизна работы определяется тем, что автором впервые произведена апробация концептуально разных методов моделирования компонентной структуры (как в статике, так и в динамике) на одном и том же монографически обработанном материале. Результаты, полученные автором, позволяют расширить эмпирическую базу для дальнейших исследований. Кроме того, получен ряд новых ценных фактов о количественных коррелятах содержательных особенностей вариантов текста (выявление скореллированного изменения частоты словоупотреблений фиксированных частотных зон распределения лексики как индикатор идеологически целенаправленной правки текста, динамика числа hapax legomena (определяемых в настоящей работе, как слова, встретившиеся в рассматриваемом тексте по одному разу) как индикатор стилистической трансформации текста и т.д.
Кроме того, впервые были получены количественные данные о целостном вариативном тексте, изменявшемся на протяжении 400 лет (до этого в диахронии изучались только частотные характеристики отдельных лексем). Определение статистических свойств вариативного текста, выявление статистических коррелятов изменений, вносимых в текст в процессе создания редакций, переработок, компиляций, составляют несомненную новизну данной работы.
Автором создан претендующий на репрезентативность микрокорпус из 8 исследованных вариантов текста «Сказания», включающий 5 неизданных списков «Сказания», впервые представленных автором по единым правилам в машиночитаемой форме.
В процессе работы над диссертацией использованы методы а) представления рукописного текста в машиночитаемом виде в соответствии с методикой проекта СКАТ, б) статистической обработки текста, в) сопоставления результатов статистической обработки, г) выявления инвариантов. Расчеты и исследования производились с помощью пакета Attestat, встроенного в Microsoft Excel, пакета Statgraphics, макросов Visual Basic для Microsoft Excel, системы Mathcad, процедур, реализованных на
языках программирования С и Python, системы для обработки естественного языка NooJ, морфологического анализатора mystem (Япс1ех).
На защиту выносятся следующие положения:
1. Для лингвостатистического анализа «Сказание» выступает как представитель особого типа объектов — вариативного текста, количественные характеристики которого впервые получены в настоящей работе.
2. Использование разных методов лексико-статистического анализа обнаруживает у изученных списков «Сказания» следующие особенности:
а) для списков, написанных скорописью, уменьшается диагностический параметр р, который чувствителен к изменению интенсивности использования графических дублетов в рукописи;
б) компонентная структура церковной Киприановской редакции наиболее отлична от других версий «Сказания» по базовым лексико-статистическим характеристикам (относительная частота в тексте слова с рангом 1 - союза и, доля hapax legomena в словаре и тексте, отношение объема словаря к объему текста), её месту на диаграммах «энтропия-анэнтропия», динамике прироста скользящего коэффициента вариации, что объясняется обилием предлогов и усложненными синтаксическими конструкциями;
в) компонентная структура беллетризованного списка претерпевает изменения в процессе беллетризации, связанные с целенаправленным удалением из текста религиозной лексики, что влияет на форму S-распределения (оцениваемую увеличением угла наклона одной из его ветвей к оси абсцисс).
3. Пойнтер-точка R и правая граница монотонности прироста скользящего коэффициента вариации спектрового (видового) распределения либо совпадают, либо близки и выделяют наиболее высокочастотную лексику. Точка h Хирша пригодна для отсеивания служебной лексики и формирования списка стоп-слов. Полнозначные слова, имеющие частоту больше h в ранговых распределениях ЧС лексем «Сказания», относятся к религиозной лексике, именам собственным и титулатуре.
4. Методики изучения динамики разночастотных компонентов В.В.Фуфаева и М.В.Арапова-М.М.Херц дают частично сопоставимые результаты, а их совмещение на стабильной зоне .^-распределения выявляет лексику, маркирующую вставные повести в вариантах Распространенной редакции и установляет количественные индикаторы идеологической правки текста - его беллетризации (по списку собрания Михайловского, Q.509).
5. Статистическая структура текста обладает высокой устойчивостью, которая проявляется в сохранении относительных частот классов разных численностей при сокращении текста.
6. Коэффициент конкордации Кендэла применим для установления однородности выборки и чувствителен к введению в выборку инородного текста.
Теоретическая значимость работы заключается в построении метамодели рассматриваемых способов анализа текста, обеспечивающей
сопоставимость результатов, получаемых с помощью разных методик на одном и том же материале. Тем самым удается частично прояснить соотносимость получаемых результатов. В работе впервые осуществлена постановка задачи о статистическом исследовании структуры вариативного текста, что открывает принципиально новые перспективы лингвостатистических исследований.
Практическую ценность представляет возможность оптимизации процедуры исследования компонентной структуры текста как поликомпонентного объекта и выявление границ универсальности / специфичности таких процедур, а также основанная на этом оптимизация ситуативного выбора тактики исследования при статистическом изучении текстов как поликомпонентных объектов. Полученные результаты могут быть использованы при подготовке курсов по лингвостатистике и оптимизации методов лингвостатистических исследований.
Достоверность и научная обоснованность результатов исследования подтверждается следующими особенностями процедуры, массива изученных списков и полученных результатов: 1) унифицированностью методики перевода текста в машиночитаемую форму, 2) тщательной двукратной сверкой машиночитаемого и рукописного текста, 3) дублированием расчетов с помощью разных расчетных пакетов, 4) сопоставимостью результатов, полученных с помощью нескольких методик, качественным воспроизведением результатов для разных списков и типов частотных словарей, 5) эксплицитностью допущений, произведенных при построении моделей, 6) содержательной интерпретируемостью значительного числа полученных результатов, 7) принадлежностью исследуемых списков к контрастно различным аспектам варьирования текста.
Апробация работы. Материалы работы докладывались на конференции «Специфика ценологических представлений разных школ» в рамках «Федоровских чтений-2011» (Московский энергетический институт — МЭИ, кафедра электрики промышленных предприятий, г. Москва, 2011 г.) и семинаре по общей и прикладной ценологии в рамках Федоровских чтений-2012 (там же,
2012 г.), семинаре по прикладной лингвистике в Балтийском государственном техническом университете (БГТУ, г. Санкт-Петербург, руководитель семинара - С.В.Чебанов), семинаре по биогерменевтике Петербургского лингвистического общества (сентябрь - октябрь 2012 г.), 14-й конференции «Conference of Open Innovations Association FRUCT», Хельсинки, 11-15 ноября
2013 г.
Внедрение. Материалы исследования использованы при чтении курса «Формальные модели в лингвистике» на факультете прикладной лингвистики БГТУ и проведении практических занятий по этому курсу. Точка h Хирша была применена для улучшения алгоритма извлечения ключевых фраз (Popova, Kovriguina, Mouromtsev, Khodyrev, 2013).
Структура работы. Диссертация состоит из Введения, 4 глав, Заключения, списка сокращений, списка иллюстраций, библиографии из 229 наименований (из которых 192 источников на русском, 37 — на английском языках), списка приложений, пояснительной записки к приложениям и 15
приложений. Основная часть работы изложена на 242 страницах машинописного текста, содержит 22 рисунка и 36 таблиц. В приложения вынесены примеры текстов, частотных и инвариантных словарей, диаграммы, таблицы, содержащие расчеты и их результаты для всех исследованных списков «Сказания».
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ.
Во Введении описываются объект и предмет исследования, обосновываются причины выбора моделей, не использующих представления о гауссовости лингвостатистических совокупностей, определяются цели, задачи и методы исследования. Важную часть Введения составляет обсуждение вариативного текста и особенностей его существования в культуре, а также вводится представление о «Сказании о Мамаевом побоище», как вариативном тексте, пригодном для статистической обработки. Акцентирование внимания на вариативном тексте уже во Введении важно для понимания мотивов выбора адекватного эмпирического материала.
В главе 1 «Сказание о Мамаевом побоище» как вариативный текст и объект исследования» на основании работы о памятниках Куликовского цикла, проведенной в 1950-х гг. Л. А. Дмитриевым, излагается текстологическое описание «Сказания о Мамаевом побоище» как материала исследования и дается палеографическое описание рассматриваемых списков (см. таблицу 1 и рисунок 1).
Текст, существующий в нескольких вариантах, каждый из которых является полноправным представителем данного текста, будет квалифицироваться как вариативный (Доманский, 2006). Варьирование формы текста обеспечивается с помощью его сокращения, расширения, правки создателей списка, внесения содержательных, стилистических, структурных, грамматических изменений, фонетических изменений, получивших отражение в рукописном тексте, интенсивности интертекстуапьных связей и т.д. При этом все такие варианты функционируют в культуре как единый текст, без явного предпочтения одного из его вариантов.
В силу культурных предпосылок, семантически полноценные вариативные тексты значительного объема обнаруживаются только в средневековой литературе. В Новое время культурная норма Средневековья сменяется представлением о допустимости единственной окончательной версии авторского текста, а вытеснение коллективного авторства индивидуальным закономерно сужает диапазон и объем допустимых редакционных изменений. Следует отметить, что с появлением и распространением Интернета вновь актуализируется коллективное авторство, но уже в других формах и жанрах.
Сокращенный вариант Распространенной редакции
PHBO.XVII.70
Распространенная редакция
PHEQ.1V.354
Летописная редакция
СПбОИН №251
Компилятивный список PHB0.1V.46
Забелинский спмсок
СКАЗАНИЕ О МАМАЕВОМ ПОБОИЩЕ
Печатный вариант
ОСНОВНАЯ РЕДАКЦИЯ
ПРОТОГРАФ ?
гр. У ■ гр. О/У
Беллетршованный вариант
РНБСобр. Михайловского, <2.509
Летописная повесть пространная
основной источник > дополнительный
источник ■■> сокращение
------ Задоншина
Редакция Синопсиса
Собр. Колобова, N¡336
"> Киприановская
редакция ВАН 32.14.8
Редакция летописца кн. Хворостишша
Летописная повесть краткая
Западнорусская обработка
Рисунок 1 — Связи между редакциями «Сказания о Мамаевом побоище» и памятниками Куликовского цикла
Примечание — полужирным шрифтом выделены редакции «Сказания», отобранные для анализа (рядом - шифры используемых списков (курсивом), подчеркиванием - памятники Куликовского цикла, связанные со «Сказанием», «?» - дополнения из неустановленных источников (включая измышления переписчика), стрелка, вдутая от «протографа» обозначает наличие архаических чтений в списках
Можно выстроить несколько линий сопоставления списков с целью количественной оценки их различий:
1. Историческое изменение текста за время его существования: линия списков Основная редакция РНБ О. IV. 22 - Летописная редакция СПбОИИ №251 — Киприановская редакция Б АН 32.14.8 - Распространенная редакция РНБ <2. IV. 354 — редакция Синопсиса РНБ, собр. Колобова, №336, что соответствует хронологической последовательности основных редакций «Сказания».
Хронологическая последовательность списков не является еще историей текста. История же текста будет представлена тем, как набор существующих в списках его версий определенного времени сменяется в другое время другим набором списков с подобными версиями. Сам такой тип исторических изменений предложено называть транзитивным полиморфизмом (Мейен, 1978).
2. Полная версия текста уб сокращенная версия текста: по спискам типового варианта Распространенной редакции РНБ ().П'.354 и сокращенного варианта Распространенной редакции РНБ <2.XVII. 70 (сокращение по всему тексту), но вполне допустимо и сопоставление типового варианта Основной редакции РНБ О. IV. 22 — беллетризованного варианта Основной редакции РНБ собр. Михайловского, <2.509 (сокращены молитвы и отступления на религиозные темы).
3. Исходный идеологически нейтральный текст уб производный идеологизированный текст, к тому же заимствовавший структуру другого произведения — пространной Летописной повести: типовой вариант Основной редакции РНБ О. IV. 22 — типовой вариант церковной Киприановской редакции БАН 32.14.8.
4. Влияние жанра: редакции, предназначавшиеся для летописных сводов: типовые варианты Летописной и Киприановской редакций уб редакции в составе сборников и отдельные рукописи произведения (любой из остальных б списков).
5. Идейно и жанрово однородный текст уб текст со следами механической компиляции: типовой вариант Распространенной редакции РНБ 2. IV. 354 — компилятивный вариант Распространенной редакции РНБ О. IV.46.
Во всех списках «Сказания» обнаруживается широкий спектр изменений: от ошибок и механических описок до значительных смысловых правок.
Для целей настоящего исследования интересны изменения текста любого характера, начиная с графики и заканчивая деталями сюжета, однако исследование изменения лексического наполнения редакций одного текста представляется наиболее перспективным. При этом оказалось очень важно проследить, как именно изменяется распределение единиц в тексте, если последовательно избавляться от графической и грамматической вариативности. Эта задача частично решена при работе с несколькими видами частотных словарей (ЧС), отражающих особенности лексики с разной степенью детальности.
При этом не совсем очевидно, следует ли сводить словоформы-варианты к одной словоформе или нескольким. При проведении автоматического
морфологического анализа такие словоформы-варианты целесообразно «стягивать» в один класс, но с сохранением их различий.
Такая операция технически легко осуществима в лингвопроцессоре Ыоо1 В пункте 1.6.2 главы 1 приводится пример формализованного описания глагольного словоизменения и демонстрация процедуры сведения словоформ-вариантов в «суперлексему».
В главе 1 приводится также описание а) принципов представления текстов в электронном виде, б) методики формирования трех типов частотных словарей, различие которых отражает последовательное огрубление представления исходного текста, в) примера работы с корпусом вариативных текстов.
Для целей настоящего исследования перевод списков в машиночитаемую форму производился вручную с рукописи в соответствии с методикой представления рукописного текста, принятой в проекте «СКАТ» (1.6.1). Из 8 используемых списков 5 получены в машиночитаемом виде впервые, ранее не издавались и, таким образом, впервые вводятся в научный оборот (№№ 4, 5, 6 и 7 по таблице 1).
Методика формирования частотных словарей приводится в 1.6.2. Для каждого текста были построены три типа частотных словарей:
1. ЧС рукописных словоформ, на основании которого можно установить количественные характеристики графических особенностей списка; в таком словаре воспроизводится графика рукописи, включая описки и ошибки писца;
2. ЧС стандартизованных словоформ (графика редуцируется до современного алфавита + «ять», удаляются явные описки), с помощью которого обнаруживаются преимущественно синтаксические особенности редакций «Сказания»;
3. ЧС лексем, позволяющий определить преимущественно семантические особенности редакций.
Основные количественные характеристики списков «Сказания» демонстрируют устойчивость их статистической структуры и изменяются согласованно при переходе от одного типа частотных словарей к другому (§ 3.2).
Глава 2 «Моделирование структуры текста как поликомпонентного объекта» начинается с обзора исследований по моделированию структуры текстов и других поликомпонентных объектов (§ 2.1) отечественными и зарубежными исследователями. Результаты, полученные в этой области, проецируются на моделирование компонентной структуры текста. Пункты 2.2.12.2.7 посвящены описанию и анализу рассматриваемых методик и их сопоставлению посредством набора инвариантных признаков. Выявление сопоставимых параметров каждой из методик производится в § 2.3 (см. также результирующую таблицу 2).
Продемонстрировано, что при сходном начальном представлении статистических данных - ранговом распределении - результаты, получаемые с помощью некоторых из рассматриваемых методик, принципиально несопоставимы.
Можно конструктивно по конкретным характеристикам сопоставить:
1. Методы Г. Я. Мартыненко, Б. И. Кудрина и И.-И.Попеску с соавторами, предназначенные для членения кривой распределения на функциональные зоны: ядро соответствует саранчёвой касте и области от слова с максимальной частотой до точки h, а периферия — ноевой касте. Формальными маркёрами здесь являются граница, определяемая с помощью скользящего коэффициента вариации, пойнтер-точка R и точка h.
2. Методы Т. Г. Петрова и Г. Я. Мартыненко, сравнивая группировку списков «Сказания» в поле «энтропия-анэнтропия» и по индексу Я/С. Такое сопоставление кажется правомерным, так как значение энтропии определяют доли доминирующих, высокочастотных элементов, а значение анэнтропии, напротив, - редких, низкочастотных, «примесных».
3. Методы Б. И. Кудрина и Т. Г. Петрова, рассматривая энтропию H как характеристику саранчёвой касты (слово с максимальной частотой), а анэнтропию как характеристику ноевой касты (hapax legomena). В этом случае все прозрачно соотносимо с представлениями чистоты, как доли малых компонентов, и сложности по Т. Г. Петрову. Полученные результаты могут использоваться для сравнения подходов Ю. А. Шрейдера и Т. Г. Петрова (симметричность vs сложность-чистота).
4. Методы М. В. Арапова-М. М. Херц и В. В. Фуфаева по характеру убывания доли сохранившейся лексики в разных ранговых группах в стабильной зоне .^-распределения.
Явных параметров для сравнения методов Т. Г. Петрова и В. В. Фуфаева не обнаруживается, хотя оба исследователя ориентированы на изучение процесса. При этом метод В. В. Фуфаева направлен на изучение динамики численности компонента, а метод Т. Г. Петрова — на изучение динамики совокупности. Главное препятствие для возможности такого сравнения - несопоставимость исходных данных. Содержательно, в ^-распределении отражается динамика каждого компонента и выделяются зоны хаоса и стабильности как минимум для двух временных состояний объекта, а на диаграммах Т. Г. Петрова, наоборот, целое распределение компонентов объекта характеризуется двумя параметрами, и, уже анализируя набор этих точек-состояний, Т. Г. Петров выявляет и характеризует процесс.
Таблица 2 — Сопоставление рассматриваемых методов с помощью набора концептуальных признаков
Метод Характеристика Т. Г. Петров Б. И. Кудрин В. В. Фуфаев Г. Я. Мартыненко Ю. А. Шрейдер В. П. Маслов И.-И. Попеску, Г. Альтманн, Я. Машугек
1. Полнота исследования материала высокочастотные элементы целое распределение инвариантный словарь целое распределение целое распределение целое распределение целое распределение
2. Форма представления исходных данных ранговая формула видовое (спектровое) распределение ранговое распределение спектровое (видовое) распределение ранговое распределение видовое, ранговое распределение ранговое распределение
3. Декларирование составное™ распределения не обсуждается нет нет да принципиально несоставное не обсуждается нет
4. Операциональность обращения к составное™ нет нет нет есть нет не обсуждается да
5. Опора на ЦПТ не обсуждается опора есть опора есть игнорирование отрицание нет нет
б.Гауссовость/ негауссовость не обсуждается негауссовость негауссовость не принципиально негауссовость не обсуждается негауссовость
7. Техника расчетов энтропия, анэптропия комбинаторика, классич.статистика комбинаторика, классич.статистика классич.статистика негауссова статистика комбинаторика, классич. статистика аналитическая геометрия, классич. статистика
8. Прерывность / непрерывность данных поле из непрерывных параметров дискретность дискретность непрерывность данные прерывны, интерпретация непрерывна данные прерывны, интерпретация непрерывна данные прерывны, интерпретация непрерывна
9. Набор идеальных значений параметров значение НкА для чистых веществ и для равномерных смесей нет нет нет есть есть принципиально отсутствует, уникальность точки И для каждого текста
В пп. 3.3.1-3.3.6 главы 3 «Лексикостатистическая структура списков «Сказания о Мамаевом побоище» описан процесс моделирования материала с применением рассматриваемых методик.
ЧС всех 8 исследуемых списков «Сказания» обрабатывались с привлечением рассматриваемых методик (см. таблицу 3, «+» — ЧС указанного типа обрабатывался по соответствующей методике, «—» — не обрабатывался).
Таблица 3 — Сводная таблица проанализированных ЧС
Автор Тип ЧС методики ЧС рукописных словоформ ЧС стандартизованных словоформ ЧС лексем
В. П. Маслов - - +
Б. И. Кудрин + + +
Г. Я. Мартыненко + + +
Т. Г. Петров + + +
В. В. Фуфаев - + +
И.-И. Попеску, Я. Машутек, Г. Альтманн + + +
Анализ частотных словарей производился с помощью следующих средств: — Исправления эффекта рангового искажения при определении параметра С распределения Ципфа по В. П. Маслову (3.3.1, рисунок 2).
Рисунок 2 — График изменения параметра С распределения Ципфа до (верхняя линия) и после (нижняя линия) исправления эффекта рангового искажения для ЧС лексем сокращенного варианта Распространенной редакции РНБ (З.ХУП.70
— Моделирования спектровых распределений списков «Сказания» с помощью //-распределения и модели простых чисел Б. И. Кудрина (3.3.2).
— Метода динамики прироста скользящего коэффициента вариации, предложенного Г. Я. Мартыненко (3.3.3).
— Рангово-энтропийного подхода Т. Г. Петрова, заключающегося в вычислении для рангового распределения лексики каждого списка значений
энтропии и анэнтропии и рассмотрении группировки списков в поле «энтропия-анэнтропия» (3.3.4).
— Метода структурно-топологической динамики В. В. Фуфаева, нацеленного на изучение изменения компонентной структуры объекта в диахронии и анализ траекторий изменения рангов каждого компонента. Изменение статуса (ранга) элемента в структуре объекта позволяет ввести понятие скорости. Ранжирование скоростей по их убыванию дает 5-образное распределение, которое используется для выявления устойчивых и динамических областей в компонентной структуре объекта (3.3.5, см. также рисунок 3);
— Точки А Хирша по технике И.-И. Попеску, Я. Машутека и Г. Альтманна (3.3.6).
раит
Примечание — обведена стабильная зона ^-распределения Рисунок 3 — ^-распределение инвариантного словаря лексем типового (РНБ C2.IV.354) и
беллетризованного (РНБ Собр. Михайловского, р.509) вариантов (неалфавитное
упорядочивание)
^-распределения строились по инвариантным словарям групп и пар списков «Сказания». Коэффициент конкордации, как характеристика меры согласованности изменений траекторий элементов на поверхности Н-распределений, стабильно высок для комбинаций списков «Сказания», но при введении инородного текста резко падает вместе с объемом инвариантного словаря и, следовательно, может использоваться для установления однородности совокупности.
Глава 4 «Многомодельное представление лексико-статистической структуры «Сказания о Мамаевом побоище» как вариативного текста»
посвящена сопоставлению выделенных параметров разных моделей и описанию лексико-статистических аспектов сокращения и беллетризации текста.
Те параметры, которые удалось сопоставить, демонстрируют сходство результатов при различии допущений при моделировании. Так, например, пойнтер-точка Я Б. И. Кудрина и правая граница монотонности графика функции
прироста скользящего коэффициента вариации очень близки или совпадают (§ 4.2, см. таблицу 4).
Таблица 4 — Совмещение значений натуральнозначного аргумента, пойнтер-точки й (полужирный шрифт), левой (курсив и подчеркивание) и правой (подчеркивание) границ знакомононности прироста скользящего коэффициента вариации и точки И (черный фон). Курсивом и серым фоном обозначено значение п, до которого количество классов с
Основная ред.. Лспшнснаи рел ред. Синопсиса, Беллетрнзованная Оси. ред., 1
РНБ ).|У.22 СПбОИИ №251 РНБ Собр. Колобова №336 РНБ Собр. Мих.. О. 509
п Г(п) V (IV п Чп) V ¿V п Г(Щ V (IV п «.0 V (IV
1 2692 0.000 1 2380 0.000 I 2321 0,000 I 1875 0.000
2 508 0.315 0,315 2 479 0.320 0,320 2 412 0,311 0,311 2 385 0,321 0321
..... 3 236 0.45 5 0,139 3 178 0,44! 0,121 3 182 0,447 0,136 3 179 0 459 0.138
4 116 0.546 0,092 4 112 0,546 0,104 4 88 0,537 0.090 4 89 0,550 0,091
60 0.611 0.065 5 71 0.62 8 0,083 5 55 0.613 0.076 5 70 0.640 0.090
6 59 0.691 0,080 6 43 0,691 0,062 6 43 0.687 0.074 ^ 6 48 0,712 0,072
7 27 0,736 0.045 21 0.736 0.046 7 27 0.743 0 056 7 27 0,761 0.049
' 33 0.801 0,065 8 25 0,792 0.056 8 18_ 0.788 тш. 8 18 0.801 0,040
9 20 0.845 0.045 V 26 0.856 0.064 9 .1.7 0.838 М5? 9 1А ! У! 0.038
10 16 0.887 0,042 10 9 0.882 0.026 ! 20 0.903 0,065 10 15 0.887 0.047
11 13 0,925 0.039 ~ 11 13 0,925 0.043 11 13 0,949 0,046 11 12 0.929 0.042
12 13 0,968 0,043 12 10 0.963 0,037 12 9 0,984 0,035 12 6 0,954 0,024
13 14 1,018 0 050 13 6 0.98 8 0,025 13 7 1,015 0,031 13 12 1,007 0,053
_14 _10 1,056 0,038 14 8 1,026 0.038 14 5 1,040 0.025 14 ........9 1.049 0.042
_____И 8 1,089 (1.033 15 8 1.066 0,041 15 __5 1.068 0,028 15 12 1.106 0.058
16 5 1,112 0,023 16 5 1.093 0,027 16 4 1.092 0,025 16 1,136 0,030
17 8 1,151 0,039 17 3 1.112 0,018 17 ______А 1.120 0.027 17 1,147 0.011
18 _9 1.197 0.046 18 2 1.125 0.014 18 5 1.156 0,036 18 7 0,042
19 5 1.224 0,027 19 9 1.189 0,064 19 4 1.187 0.031 _ 4 1.215 0,025
20 1 1.230 0,006 20 2 1.204 0.015 ____22 2 1,208 0.321 20 2 1,229 0.014
21 2 1.243 0,013 21 1.23 5 0.032 25 2 1.237 0.028 21 3 1.251 0,023
22 1 1.250 0.007 22 1.260 0.025 26 4 1,294 0,057 ___22 _4 1,283 0,032
23 3 1.274 0.024 23 1.269 0.009 28 х 1,310 0,016 23 2 1,300 0 0 17
24 2 1,291 0.017 24 1.298 0.029 30 2 1,346 0,036 24 ! 1,309 0.009
25 1 1.300 0,009 25 1.309 0,010 31 2 1,383 0,037 25 1 1,3 19 0,010
27 3 1.332 0,032 26 1.33 1 0.022 33 2 1.423 0.040 27 2 1.343 0.024
28 1 1.343 0,011 29 1.359 0.028 38 2 1.475 0.052 28 1 1.355 0 012
31 2 1.371 0.028 30 1.373 0.015 39 2 1.527 0.051 29 2 1.381 0.026
32 1 1.385 0,015 31 1.403 0,030 40 1,552 0,026 31 1 1,396 0,015
33 6 1.471 0,085 32 1.449 0.046 43 1.582 0.029 _33 [ 1.413 0.017
35 2 1.500 0.030 33 1.464 0.015 44 1.611 0.030 34 1 1,431 0.018
36 1 1.516 0.015 37 1.484 0.020 45 1.641 0.030 38 1 1.454 0.023
37 1 1.532 0.016 38 1.505 0,021 53 1.683 0,042 39 1 1.477 0,023
38 1 1.548 0,017 39 1.526 0,021 55 1,727 0.043 40 1 1.501 0,024
39 2 1.582 0,034 40 1,569 0.043 63 1.783 0.056 41 .......1 1.525 0,024
40 1 1.599 0.017 41 1.590 0.022 64 1.837 0>54 42 1 1.550 0.025
44 1 1.620 0.021 43 1.614 0.023 76 1.913 0.075 47 1 1.581 0.031
46 1 1,643 0,023 50 1.646 0,032 77 2,050 0.137 48 1 1,612 0,031
47 _ 1.666 0,023 55 1.685 0.039 80 2,117 0,067 49 1 1.643 0,031
51 1 1.693 0.027 64 1.738 0.052 89 2.268 0.152 53 1 1.679 0.036
52 1 1.721 0.027 65 1.788 0.051 100 2.356 0.088 55 1 1.716 0.037
56 _{ 1,752 0,032 68 1,891 0,103 169 2,611 0,255 57 1 1,75 5 0,038
62 1.791 0.038 74 2,001 0.110 190 2.884 0,272 58 1 1.792 0.038
74 Г11 1.897 0.107 77 2.056 0.055 567 4.645 1.762 67 1 1.843 0,051
79 2 2.007 0.110 81 2.114 0.058 71 2 1.948 0.105
82 1 2.061 0.054 85 2,230 0.116 72 I 1.996 0.049
84 1 2.115 0.054 87 2.285 0.055 84 т 2.062 0.066
85 т 2.167 0.052 97 2.352 0,067 88 1 2.130 0,068
87 1 2.219 0.052 99 2.418 0.065 104 1 2.223 0.092
90 I 2.271 0.053 123 2.519 0.101 160 1 2.440 0,217
93 1 2.325 0.053 139 2.640 0.121 243 1 2,873 0,434
114 1 2.406 0.081 141 2.753 0.1 12 636 1 4,785 1.912
209 1 2.687 0281 196 2.965 0.213
226 1 2.963 0.276 687 4.924 1.959
758 1 5.115 2.151
Примечание — п - численность класса, Ди) - количество классов с такой численностью, V- коэффициент вариации, с1У— прирост коэффициента вариации
Интересным и практически важным параметром является также точка к Хирша, определяемая в большинстве случаев, как И = г, если 1 г = Лг) (см. таблицу 4). Зафиксировав на ранговом распределении точку И, можно выделить большую часть тематически незначимой лексики, в то время как параметры Б.И.Кудрина и Г.Я.Мартыненко позволяют отфильтровать лишь самые высокочастотные строевые элементы (см. таблицу 5).
Таблица 5 — Словоформы, отграничиваемые точкой Л (весь столбец), пойнтер-точкой Я (серый фон) и правой границей знакомонотонности скользящего коэффициента вариации (полужирный шрифт), по ЧС стандартизованных словоформ
Основная ред., PHEO.IV.22
т
т^гг"
225 НА
Летописная ред., СПбОИИ 251
т
ш и
ред. Синопсиса, РНБ Собр.Колобова, №336
/И
167Й
Беллетриюванный список, РНБ Мих.(3.509
/И
636 243 160 104 88 ; 84 72 71 71 67 58 57 55 53 49 48 47 42 41 40 39 38 34 33 31 29 29 28
НА III-
114 (Ж)
А
от :о
в
БО
ЖЕ С
ВЕЛИКИМ
ЕГО
ПО
ВЪ
ДА
РЕ(Ч)
НН+#
ЕМУ
СЪ
ТО
К
СВОЕГО
АКИ
ГИ#
ЮШ#
ВЕЛИКОМУ
КНЗЮ#
ЗА
кнзи#
НА(М) НА(С)
1 1
123
39 от КНЯЗЬ С
109 НА
1'
БО
но
О(Т) В
РЕ(Ч)
ЕГО
ЯКО
ВЕЛИКИИ
с
ДА
ПО
ЕМУ
ТО
К
КНЗЯ»
КНЗИ#
КНЗКМ
СВОЕГО
ВЕЛИКОМУ
И(Х)
КО
ВО
о со
ДМИТРЕИ
о
ЯКО
НЕ
ЕГО
ВЕЛИКИИ ДА РЕЧЕ СО
КНЯЗЯ
по
К
ВЕЛИКАГО
ЕМУ
А
ДИМИТРИИ
во
СВОЕГО
ЗА
НО
ВЕЛИКОМУ
КНЯЗЮ
ВЪ
0(Т) ЯКО
в
РЕЧЕ ДА
ИВАНОВИЧЪ
ДМИТРЕИ
А
ЕГО ПО К
СВОЕГО
ЕМУ
СО
ТО
ВО
ВЕЛИКОМУ
ЗА
БО
НАЧА КО
Примечание — в скобки заключены выносные буквы
Практически значимые результаты получаются при комбинировании методики М. В. Арапова-М. М. Херц с ¿-распределением В. В. Фуфаева в стабильной зоне ¿-распределения (§ 4.5). С помощью этого приема удалось выделить маркированную лексику вставных повестей в инвариантном словаре списков Распространенной редакции РНБ О.IV.354 и РНБ С).XVII.70 (таблица 6).
М. В. Арапов и М. М. Херц выдвигают и подтверждают гипотезу об уменьшении шансов слова сохраниться в своей ранговой группе с увеличением ранга слова (Арапов, Херц, 1972). Эта же гипотеза была принята при исследовании состава стабильной зоны ¿-распределения типового и
сокращенного вариантов Распространенной редакции, в которую попадают слова, незначительно изменившие свой ранг в частотном словаре вариантов текста.
Стабильная зона разбивалась на группы по 100 рангов (не слов!), после чего подсчитывалась доля словоформ каждой ранговой группы в стабильной зоне (активность), сохранившихся в пределах группы и перешедших в соседние группы (сохранность), см. рисунок 4. Так, для трех первых ранговых групп наблюдалось хорошее соответствие гипотезе М.В.Арапова-М.М.Херц: и активность, и сохранность словоформ уменьшались с увеличением номера ранговой группы. Начиная с 4-й ранговой группы сохранность немонотонно увеличивалась до последней группы. Активность же продолжала уменьшаться до 6-й группы, а начиная с 7-й группы увеличилась и осталась неизменной в 8-й и 9-й группах. Таким образом, кроме словоформ 1-й ранговой группы (1</-<100), словоформы 7-й, 8-й и 9-й ранговых групп (601<г<900) также имеют относительно большую активность и сохранность в пределах ранговой группы.
Примечание — на графике не отображены данные для последней ранговой группы, так как они полностью зависят от объема инвариантного словаря
Рисунок 4 — Активность и сохранность в пределах ранговой группы словоформ разных ранговых групп в стабильной зоне ¿'-распределения Распространенной редакции и ее сокращенного варианта
Лексика 7-й ранговой группы приведена в таблице 6. Словоформы, выделенные в таблице 6 полужирным шрифтом, относятся к прямой речи персонажей вставной повести о Захарии. Все эти словоформы относятся к уникальной лексике в обоих списках. Лексика 8-й ранговой группы преимущественно относится к началу вставной повести о новгородцах.
Таким образом, наблюдается отклонение в определенном диапазоне рангов, соответствующем уникальной лексике, которая является настолько важной, что не может быть удалена из текста при его сокращении. Указанный способ
выделения рядом стоящих hapax legomena имеет не статистическую природу, а определяется детерминистическим алгоритмом.
Таблица 6 — Лексика 7-й ранговой группы
601<г ,„„,,, <700
словоформы, перешедппе в (/ -1)-ую словоформы, сохранившихся в пределах словоформы, перешедшие в (/ + 1)-ую
Ф) ппу ПГ уппы группу
словоформа г распр Г„,кр <Р словоформа г ас Гсо^, <Р словоформа 'сокр V
УТОЛЯШ 601 534 -67 МИТРОПОЛИТА 605 680 75 МНОГОЮ 679 757 78
СМИРИТЦА 603 535 -68 СЛОВО 629 621 -8 ФЕДОР 681 779 98
ОБЛОБЫЗАЛ 636 568 -68 СОТВОРИШИ 657 601 -56
ПОЧЕСТЬ 637 571 -66 ПРОВОДИЛ! 658 602 -56
КУПИТЕ 638 572 -66 ХВАТАТИ 661 605 -56
ПЛЕТИ 639 573 -66 БЕЗУМИЯ 662 610 -52
поклонися 608 600 -8 ТАТАРИН 663 612 -51
ПРИСТАВЛЮ 640 575 -65 НЕУКЛОННО 665 614 -51
ВОЧМУ 641 578 -63 ЗАКОННУЮ 668 620 -48
ДВОР 642 577 -65 ГРАМОТА 671 609 -62
ОБЫЧАЯ 643 579 -64 Б 672 627 -45
ПОСАЖУ 644 580 -64 ПОСЫЛАЛИ 674 628 -46
ДОВЕРША 646 583 -63 ПИСАНА 675 629 -46
СЛУГОЮ 648 584 -64 Л+ТА 676 630 -46
СОЛГАХ 650 586 -64 ТЕЧЕНИЕ 678 637 -41
ПЕРВОМУ 651 587 -64 ТРОИЦЫ 683 639 -44
СЛОЖУ 652 589 -63 ПРЕПОДОБНОМУ 684 640 -44
СМИРЕННАГО 654 593 -61 ВСЕЮ 686 645 -41
ТАТАР 660 597 -63 ОКРОПИ 690 647 -43
ЕТЕРА 691 648 -43
ПОСЛУШАНИЕ 692 650 -42
ОРУЖИЯ 693 651 -42
ОРУЖНИЦЫ 694 653 -41
ГРАДУ 695 657 -38
СОКРОВИЩЕ 696 658 -38
НЕКРАДОМОЕ 697 659 -38
ЛОЖНИЦУ 698 662 -36
МУЖИ 700 693 -7
Примечания
1 Полужирным шрифтом выделена маркированная лексика вставной повести о посольстве Захарии
2 распр - ранг словоформы в ЧС Распространенной редакции РНБ С>.ГУ.354, гсокр - ранг словоформы в ЧС ее сокращенного варианта РНБ у.XVII,70 (ранги приписываются по инвариантному словарю), <р - скорость
В § 4.6 приводятся данные о количественных особенностях сокращения текста (таблица 7). Сокращение производится преимущественно за счет карах legomena. Одновременно с ростом численности класса п (п = 1, 2, 3...) резко уменьшается количество слов-новаций сокращенного варианта РНБ (}.ХУ11.70. При анализе ЧС лексем оказалось, что новации в сокращенном списке перестают встречаться, начиная с лексем, встретившихся в тексте 6 и более раз; при этом лексемы-новации относятся к более позднему времени, чем время составления самой Распространенной редакции, их можно считать т.н. «заносными» элементами. Лексика, сохранившаяся в сокращенном
Таблица 7 — Количественные аспекты сокращения текста на примере частотных словарей лексем Распространенной редакций и ее сокращенного варианта
п, частота встречаемости лексемы ^полн(^) (пшш(п)Л^ <общ(п) Гобщ2(п) Преимущественные группы перехода для лексем щ колонки (6) Количество лексем-новаций с частотой п, появившихся в сокращенном варианте
1 2 3 4 5 6 7 8 9
1 940 0,082 628 0,093 241 174 п=2 (49); п=3 (11); п=4 (4); п=5 (3) 253
2 279 0,024 211 0,031 143 26 п=1 (87); п=3 (20); п=4 (7); 4<п<7 (10) 41
3 149 0,013 110 0,016 105 15 п=1 (46); п=2 (35); п=4 (3); 4<п<8 (9) 7
4 115 0,010 44 0.006 89 5 п=1 (34); п=2 (17); п=3 (20); 4<п<7 (13) 3
5 65 0.006 42 0,006 53 2 п=1 (13); п=2 (17); п=3 (12); 3<п<8 (9) 4
б 40 0,004 20 0.003 37 1 п=1 (5); п=2 (19); 7<п<47 (10) 0
7 25 0,002 18 0,003 22 0 п=1 (6); п=3 (6); 0
8 26 0.002 15 0.002 24 0 п=1 (5); п=3 (5); п=4 (5); 0
9 9 0,001 16 0,002 8 3 преимущественной группы нет 0
10 20 0,002 8 0,001 20 1 преимущественной группы нет 0
1 '"Рта! 184 0,016 119 0,018 179 0 не сохраняют частоты 0
Примечания
1. В столбцах 3 и 5 указана доля в тексте лексем, встретившихся п раз, в столбце 8 в скобках указано количество лексем, перешедших в класс с частотой п из класса, указанного в столбце 1
2. /полн(я) - количество лексем с частотой и в исходном тексте, /СОкр(") - количество лексем с частотой п в сокращенном тексте, /общ(") - количество лексем, имеющих частоту п в полном варианте, и сохранившихся в сокращенном варианте,/0бщ2(и) - количество лексем, имеющих частоту п в полном варианте, и сохранившихся в сокращенном варианте с той же частотой
списке с другой частотой, чем в полном, распределяется по соседним частотным классам относительно ее частотного класса в сокращаемом списке.
В Заключении обобщаются результаты исследования и приводятся выводы.
1. Совокупность имеющихся эмпирических данных, относящихся к различному материалу, априорные соображения (экстремальные принципы, принципы симметрии, признание уникального значения натуральных чисел и т.п.), теоретические положения статистики (различение процессов разных типов), эмпирические критерии (аномальный рост дисперсии у эмпирических распределений) являются основанием для принятия тезиса о негауссовой природе распределений лексического состава в тексте как поликомпонентном объекте.
2. Ни одна из существующих концептуально различных моделей распределения численности компонентов поликомпонентных объектов не дает универсальных либо исчерпывающих характеристик статистической структуры текста.
3. Отношения разных редакций и списков «Сказания» как вариативного текста могут быть представлены в категориях транзитивного полиморфизма. Изученные редакции дают представления о пределах полиморфизма текста «Сказания», а поэтому составляют репрезентативный массив для лингвостатистического исследования вариативного текста.
4. В настоящей работе впервые произведена апробация всех рассмотренных моделей распределения численности компонентов поликомпонентных объектов на едином массиве эмпирических данных, что позволяет оценить возможности этих моделей, в частности:
— показана неприменимость модели простых чисел Б. И. Кудрина к обработке распределений лексики в текстах из-за большого индекса разнообразия;
— обнаружена относительно неплохая аппроксимация эмпирических распределений моделью В. П. Маслова и Я-распределением Б. И. Кудрина;
— получен ряд интересных и практически значимых результатов при использовании модели структурно-топологической динамики В. В. Фуфаева, в особенности при комбинировании ее с моделью М. В. Арапова-М. М. Херц. Можно утверждать, в частности, что
1) Лексика инвариантных словарей охватывает от 38 до 96 % словоупотреблений в списках «Сказания», свидетельствуя о малом разнообразии семантически насыщенной лексики.
2) Коэффициент конкордации Кендэла может быть использован в качестве индикатора однородности выборки, обладая чувствительностью к введению в выборку инородного текста.
3) Антисимметричная форма и наличие обширной стабильной зоны в 5-распределениях инвариантных словарей групп и пар списков «Сказания указывают на темпоральную устойчивость структуры текста «Сказания», а форма графика ¿-распределения может быть индикатором характера изменения текста.
4) Комбинация методик В. В. Фуфаева и М. В. Арапова-М. М. Херц позволяет выявить маркированную лексику вставных повестей в типовом и сокращенном вариантах Распространенной редакции.
5. Сопоставление значений пойнтер-точки R и правой границы монотонности графика прироста скользящего коэффициента вариации показывает, что эти точки совпадают или очень близки, и отсекают наиболее высокочастотную лексику. Точка h Хирша может использоваться как параметр для отсеивания служебной лексики. Полнозначные слова, имеющие частоту больше И в ранговых распределениях ЧС лексем «Сказания», относятся к идеологизированной лексике, именам собственным и титулатуре.
6. Списки «Сказания» группируются по-разному при вычислении для них индекса Я/С, характеризующего соотношение ядра лексики и полного словаря, энтропии и анэнтропии НА и доли ноевой и саранчёвой каст. При этом полученным кластерам невозможно дать содержательную интерпретацию.
7. Анализ состава и долей частотных классов в списках типовой Распространенной редакции и сокращенной Распространенной редакции показал, что текст сокращается преимущественно за счет hapax legomena, а лексика, сохранившаяся в обоих списках с разной частотой, меняет эту частоту незначительно и переходит в соседние по отношению к исходному частотные классы. Лексемы-новации при этом встречаются в сокращенном тексте только среди лексем с абсолютной частотой меньше 6.
Основные положения работы отражены в следующих публикациях:
— в изданиях, включенных в перечень ведущих рецензируемых изданий ВАК РФ:
1. Ковригина Л. Ю. Изменение лексико-статистических характеристик структуры
вариативного текста во времени / Л. Ю. Ковригина // Известия высших учебных заведений. Серия «Гуманитарные науки». — 2013. — Т.4. — Вып. 1.
— С. 41—45. —0,3 а.л.
2. Ковригина Л. Ю. Концептуальные различия подходов к описанию статистической структуры текстов (на примере «Сказания о Мамаевом побоище») / Л. Ю. Ковригина // Ученые записки Петрозаводского гос. ун-та. Общественные и гуманитарные науки. — 2013. — № 7 (136). — С. 70—76. — 0,5 а.л.
3. Ковригина Л. Ю. Применение лингвопроцессора NooJ для морфологической разметки вариативного текста (на примере «Сказания о Мамаевом побоище») / Л. Ю. Ковригина // Вестник СПбГУ. Серия 9. — 2014. — № 1. — С. 161—166.
— 0,3 а.л.
— в зарубежных изданиях, включенных в наукометрическую базу Scopus:
4. Stop-words in Keyphrase Extraction Problem / S. Popova, L. Kovriguina, D. Mouromtsev, I. Khodyrev // Proceedings of the 14th Conference of Open Innovations Association FRUCT, Helsinki, Finland, 11-15 November 2013. — P. 121—135. — URL: www.fruct.org/publications/fructl4/files/Pop_23.pdf (дата обращения 17.12.2013). — 1 а.л. (авторство разделено - 0,4 а.л.).
— в других изданиях:
5. Ковригина JI. Ю. К вопросу: описывается ли структура поликомпонентного объекта одним или несколькими распределениями / Л. Ю. Ковригина//Ценологические исследования. — 2012.
— Вып. 46 : Специфика ценологических представлений разных школ. — С. 203—210. — 0,4 а.л.
— Интернет-публикации:
6. Ковригина Л. Ю., Чебанов С. В. Предельность //-распределений. Доклад на семинаре по ценологическим исследованиям 09.11.12 г. [Электронный ресурс] / Л. Ю. Ковригина, С. В. Чебанов. — [2012]. — URL: http://iskri.ru/q/Misc/index.htm (дата обращения 19.09.2013).
Подписано в печать 10.12.2014 г. Формат 60x84 1/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 1,4. Тираж 100 экз. Заказ № 3658.
Отпечатано в ООО «Издательство "JIEMA"» 199004, Россия, Санкт-Петербург, 1-я линия В.О., д.28 тел.: 323-30-50, тел./факс: 323-67-74 e-mail: izd_lema@mail.ru http://www.lemaprint.ru