автореферат диссертации по социологии, специальность ВАК РФ 22.00.01
диссертация на тему:
Сравнительный анализ алгоритмов заполнения пропусков в социологических данных

  • Год: 2012
  • Автор научной работы: Зангиева, Ирина Казбековна
  • Ученая cтепень: кандидата социологических наук
  • Место защиты диссертации: Москва
  • Код cпециальности ВАК: 22.00.01
Диссертация по социологии на тему 'Сравнительный анализ алгоритмов заполнения пропусков в социологических данных'

Полный текст автореферата диссертации по теме "Сравнительный анализ алгоритмов заполнения пропусков в социологических данных"

На правах рукописи

Зангиева Ирина Казбековна

Сравнительный анализ алгоритмов заполнения пропусков в социологических данных

Специальность: 22.00.01 -Теория, методология и история социологии

АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата социологических наук

005016292

Работа выполнена в Федеральном государственном автономном образовательном учреждении высшего профессионального образования «Национальный исследовательский университет «Высшая школа экономики».

Научный руководитель:

Официальные оппоненты:

Толстова Юлиана Николаевна доктор социологических наук, профессор

Татарова Гульсина Галеевна доктор социологических наук, профессор. Федеральное государственное бюджетное учреждение науки Институт социологии РАН, главный научный сотрудник

Ведущая организация:

Чеботарев Павел Юрьевич доктор физико-математических наук, старший научный сотрудник.

Федеральное государственное бюджетное учреждение науки Институт проблем управления им.ВА. Трапезникова РАН, ведущий научный сотрудник

Федеральное государственное автономное образовательное учреждение высшего

профессионального образования

«Государственный университет управления ».

Защита состоится 18 мая 2012 года в 13:00 на заседании диссертационного совета Д 212.048.01 при Национальном исследовательском университете «Высшая школа экономики» по адресу: 101000, г. Москва, ул. Мясницкая, д. 20, ауд. 309.

С диссертацией можно ознакомиться в библиотеке Национального исследовательского университета «Высшая школа экономики».

Автореферат разослан «17» апреля 2012 года.

Ученый секретарь диссертационного совета кандидат экономических наук

Рощина Яна Михайловна

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность

Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальных исследованиях респонденты по разным причинам не отвечают на отдельные вопросы, в результате чего в данных появляются пропуски, с которыми приходится бороться разными способами. Первый способ, предлагаемый всеми известными статистическими пакетами, предусматривает автоматическое исключение из анализа наблюдений (наблюдением мы называем данные, отвечающие отдельному изучаемому объекту, чаще всего—респонденту) с пропусками, что ведет к снижению валидности статистических выводов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа, систематических смещений. Позже на их основе могут быть приняты ошибочные стратегические решения, устранение негативных последствий которых потребует дополнительных затрат.

Чтобы сгладить указанные недостатки удаления неполных наблюдений, оставшиеся полные наблюдения иногда взвешивают. Этот второй способ в большинстве случаев проблему тоже не решает. Корректировка пропусков в значениях одной характеристики путем взвешивания по ней всех имеющихся наблюдений вызовет неоправданные смещения в распределениях значений остальных характеристик, для которых все значения могли быть изначально известны.

Исследователю необходимы практические инструменты для восстановления отсутствующей информации. Эти инструменты обеспечивает третий (помимо удаления неполных наблюдений и взвешивания полных), на данный момент наиболее перспективный и бурно развивающийся подход — искусственное заполнение пропусков в данных.

На сегодняшний день разработано множество алгоритмов заполнения пропусков, однако сведения о них пока что не систематизированы и разбросаны по большому количеству работ. Отсутствуют обзорные работы, дающие представление о специфике, достоинствах и недостатках хотя бы наиболее распространенных в исследовательской практике алгоритмов заполнении пропусков. Крайне малочисленны и исследования, направленные на сравнительную оценку применимости отдельных алгоритмов заполнения пропусков в конкретных исследовательских ситуациях. Сказанное позволяет считать, что работа, направленная на систематизацию методов заполнения пропусков в данных и выявление условий их эффективного использования в социологии, является актуальной.

Разработанность проблемы

Рассмотрение проблемы использования в социологии алгоритмо] заполнения пропусков не может быть оторвано от условий применения други; способов «борьбы» с пропусками, от анализа причин возникновения последних Поэтому круг проанализированных в диссертации работ содержал отнюдь hi только публикации, посвященные непосредственно алгоритмам заполнена пропусков, но и ряд работ, посвященных и другим аспектам изучения пропуско! в данных статистических обследований (особенно социологических)1 Проведенный анализ показал, что такой подход оправдан.

В работах, посвященных анализу случаев неполноты социологическо{ (статистической) информации выделяются две большие темы: (!) недостижимосп респондентов и (2) неответы на отдельные вопросы, или отдельные пропуски г данных. Диссертация посвящена исключительно второй теме.

В российской социологии изучением причин возникновения пропусков i данных, анализом роли пропущенных данных, разработкой отдельных алгоритмоЕ заполнения пропусков в разное время занимались В.Г. Андреенков, В.Н. Вапник, Б.З. Докторов, Е.И. Злоба, H.A. Клюшина, Г.С. Лбов, В.Ю. Королев, О.М. Маслова А.Ю. Мягков, И.Б. Назарова, В.Е.Россиев, Снипок A.A., Г.Г. Татарова, Ю.Н. Толсгова, П.Ю. Чеботарев, И.В Яцкив. Однако наиболее широкое освещение проблематика работы с пропусками данных получила в работах западных исследователей. Настоящая работа в значительной мере лежит в русле идей, предложенных западной школой.

Три основных подхода к работе с отдельными пропусками— удаление неполных наблюдений, взвешивание полных наблюдений и заполнение пропусков— анализировали и сравнивали между собой Р. Платек, Р. Литгл, Д. Рубин и др. На данный момент основное внимание в литературе уделяется заполнению пропусков как наиболее перспективному подходу.

В качестве фактора, определяющего выбор допустимого способа ликвидации пропусков, Р. Литглом была выдвинута степень случайности пропуска:

1 Большинство рассмотренных нами работ посвящено обсуждению проблемы пропущенных данных в статистических обследованиях вообще, без привязки к конкретной тематике последних. Однако ситуации, складывающейся в социологии, автор уделяет особое внимание. Проявляется это в основном при обсуждении характера случайности пропусков (где основное внимание уделяется причинам их возникновения); выбора учитываемых методов анализа восстановленных данных (это - наиболее употребительные в социологии методы, хотя они широко используются и в других отраслях науки),; выборе исследования для «обкатки» предлагаемой методики сравнения методов заполнения пропусков.

2PlatekR. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980. No. 6. P. 127; Little R.J. Survey Nonresponse Adjustments for Estimates of Means // International Statistical Review / Revue Internationale de Statistique. 1986. Vol. 54. No. 2.P. 140; Rubin D.B. Multiple Imputation for Nonresponse in Surveys. New York: Willey, 1987. P. 64-66.

возможность считать пропуск неслучайным, случайным или полностью случайным3. Пропуски полностью случайны (missing completely at random — MCAR), если вероятность их возникновения не зависит ни от истинного значения данного признака, ни от значений других признаков. Пропуски случайны (missing at random — MAR), если вероятность их возникновения обусловлена известными значениями других признаков, но не связана с признаком, значение которого пропущено. Пропуски неслучайны (not missing at random — NMAR), если вероятность неответа на вопрос зависит от самого значения признака (возможного ответа), которое могло быть получено, если бы ответ был дан.

В данной работе не рассматриваются иные типологии пропусков (например, деление на реальные и артефактные, возникшие после удаления самим исследователем заведомо ложных значений), так как они, в отличие от типологии по степени случайности, не определяют допустимые способы работы с пропусками соответствующего типа.

Степень случайности пропуска в социологических исследованиях не в последнюю очередь зависит от причины его возникновения. Основные причины неответов респондентов на отдельные вопросы анализировали Р. Фербер,

A. Шински, Г. Эссер, Т. Даублер, Р. Платек. Из российских авторов, разрабатывавших данную тематику, назовем упомянутых выше О.М. Маслову и

B.Г. Андреенкова, Б.З. Докторова, H.A. Клюшину, А.Ю. Мягкова, И.Б. Назарову4. Однако работы, содержащие анализ того, как именно причины пропусков определяют степень случайности признака, нам неизвестны.

Подводя итог сказанному, констатируем актуальность выработки рекомендаций по выбору допустимого способа ликвидации пропусков в зависимости от причин пропусков и определяемой этими причинами степени их случайности.

Общие принципы заполнения пропусков заложили в своих работах Р. Литтл и Д. Рубин. Они сформулировали основные задачи заполнения пропусков и

3См. например: Little R. J. A. A test of missing completely at random for multivariate data with missing values // Journal of the American Statistical Association. 1988. No. 83. P. 1198-1202.

4 Ferber R. Item Nonresponse in a Consumer Survey// Public Opinion Quarterly. 1966. Vol. 30. No 3. P.403-410; SicLnski A. Don't Know Answers in Cross-National Surveys // Public Opinion Quarterly. 1970. Vol.34. No 1. P. 127; Esser H. Determinanten des Interviewer und Befragtenverhaltens: Probleme der theoretischen Erklärung und empirischen Undersuchung von Interviewreffekten // Allgemeine Bevolkerangsumfrage der Sozialwissenschaften. Frankfurt, 1984. S. 56-60; Daubler T. Nonresponseanalysen der Stichprobe F des SOEP. Berlin: DIW, 2002. P. 710; Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980. Vol.6. P. 97; Андреенков В. Г., Маслова О. М. Эмпирический базис социологической науки // Социологические исследования. 1987. № 6. С. 115; Докторов Б.З. О надежности измерения в социологическом исследовании. J1.: Наука, 1979. С. 56; Юпошина H.A. Причины, вызывающие отказ от ответа // Социологические исследования. 1990. № I. С. 17-29; Мягков А.Ю. Обеспечение анонимности в социологическом опросе // Социологические исследования. 1999. №5. С. 45-61; Мягков А.Ю. Опросные методы сбора данных: Предпочтения респондентов // Социологические исследования. 2000. № 8. С. 36-49; Назарова И.Б. Непроведение опроса и отказ от интервью // Социологический журнал. 1998. № 1/2. С. 27-39.

принципиальные требования, которым должны удовлетворять отдельны! алгоритмы заполнения. Р. Литтл разработал типологию отдельных алгоритмо1 заполнения пропусков в зависимости от степени их простоты и информации используемой при восстановлении пропущенных значений. Однако на момент публикации соответствующей работы (1978 год) этим автором был} классифицированы всего 5 алгоритмов (подстановка среднего арифметического регрессионное моделирование пропусков, множественное заполнение, HotDeck случайный подбор в подгруппе). С тех пор было разработано довольно многс новых алгоритмов, которые до сих пор не систематизированы.

Отдельные алгоритмы заполнения пропусков в российской литературе описывали Е.И. Злоба В.Ю. Королев, A.A. Россиев, В.Е. Снитюк, П.Ю.Чеботарев И.В.Яцкив. В англоязычной литературе отдельным алгоритмам заполнение пропусков посвящены работы К. By, Б. Дейлона, А.Демпстера, К. Эндерса; Дж. Гевики, Дж. Лью и Р. Чен, А. Конга, Р. Фей, У. Фулера, Г. Мидена, Г. Нортона. С. Липситца, Дж. Нелдера и Г. Смита, А. Гупты, Р. Гормана и Т. Сейновст Г. Банга и Дж. Робинса и многих других. Публикации, посвященные описанию отдельных алгоритмов заполнения пропусков, составляют наиболее многочисленный класс работ, посвященных пропущенным значениям. На данный момент это один из наиболее распространённых и активно развивающихся подходов к работе с пропусками. Подтверждением этого является наличие большого числа статистических пакетов, включающих в себя модули для заполнения пропусков с помощью различных алгоритмов. Например, SPSS (модули Missing Value Analysis Multiple imputation), SAS , STATA, SOLAS, MICE, Mising Data Library for S-Plus.

Работы, посвященные сравнению разных алгоритмов заполнения пропусков, появились в 1960-70-е гг. Для сравнения использовались не только разные основания (метод анализа данных, который предполагается использовать после заполнения пропусков, и тип шкалы, по которой измерен признак, значения которого подлежат восстановлению), но и разные способы сравнения: теоретическое или экспериментальное. В соответствии со способами сравнения алгоритмов заполнения пропусков выделим два класса работ.

Первый класс относится к 1960-70-м гг. и посвящен результатам теоретического сопоставления методов анализа данных и алгоритмов заполнения пропусков. Основной фокус работ этого класса находится в теоретическом описании связи между используемыми алгоритмами заполнения пропусков и результатами последующего анализа данных определенным методом. Здесь можно назвать работы Р. Литгла, А. Афифи и Р. Илашоффа, Й. Хайтовски, С. Бака,

Ф. Йейтса. А из российских авторов - упомянутых выше Н.В. Вапника и Г.С. Лбова5, разработавших собственные подходы к заполнению пропусков.

Второй класс работ, посвященных сравнению эффективности алгоритмов заполнения пропусков, объединяет публикации, в которых представлены результаты экспериментальных сравнений разных алгоритмов заполнения пропусков. Работы второго класса появились в конце 1980-х - начале 2000-х гг. В этом русле работали Л. Чен, Дж. Гилман и О. Данн, Д. Рубин и Н. Шенкер6. Таким образом, в работах, посвященных сравнению эффективности алгоритмов заполнения пропусков, отчетливо виден переход от теоретического (дедуктивного) обоснования выводов к экспериментальному (индуктивному).

Однако, упомянутые примеры как теоретического, так и экспериментального соотнесения методов анализа данных и алгоритмов заполнения пропусков не позволяют составить более или менее полных рекомендаций для исследователя по выбору последних. В качестве причин можно назвать два обстоятельства. Во-первых, работы названных авторов охватывают далеко не все даже самые распространённые в социологии методы анализа данных. Во-вторых, в известных попытках сравнить эффективность разных алгоритмов заполнения пропусков не учитывается количество пропусков, имеющихся в данных.

Проблема исследования заключается в (1) отсутствии описания социологических ситуаций, в которых для ликвидации пропусков в данных допустимо их искусственное заполнение и (2) недостаточности наработок в области сравнительного анализа эффективности отдельных алгоритмов заполнения пропусков, в зависимости от характеристик исследовательской ситуации.

Цель исследования — определить, в каких случаях допустимо искусственное заполнение пропусков в социологических данных, и экспериментально сравнить эффективность отдельных алгоритмов заполнения пропусков, в зависимости от

3 Little R.J. Regression With Missing X's: A Review // Journal of the American Statistical Association. 1992. Vol.

87. No. 420. P. 1227-1237; Afifi A.A., Elashoff R.M. Missing Observations in Multivariate Statistics: I. Review of

the Literature // Journal of the American Statistical Association. 1966. Vol. 61.No 315. P. 595-604; Haitovsky Y. Missing Data in Regression Analysis // Journal of the Royal Statistical Society. 1968. Series В (Methodological). Vol. 30.No. 1.Р. 67-82; Buck S.F. A method of estimation of missing values in multivariate data suitable for use with an electronic computer // Journal of the Royal Statistical Society. 1960. Series В (Methodological). Vol. 22.No. 3.P. 302-307; Yates F. The Analysis of Replicated Experiments When the Field Results Are Incomplete // The Empire Journal of Experimental Agriculture. 1933. No.l. P. 129-142; Вапник B.H. Восстановление зависимостей no эмпирическим данным. M.: Наука, 1979; Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981.

6 Chan L.S., Gilman J.A., Dunn O.J. Alternative Approaches to Missing Values in Discriminant Analysis // Journal of the American Statistical Association«! 1996. Vol. 71.No. 356. P. 842-844; Rubin D.B., Schenker N. Multiple Imputation for Interval Estimation From Simple Random Samples With Ignorable Nonresponse // Journal of the American Statistical Association. 1986.Vol. 81. No. 394.P. 366-374.

характеристик исследовательской ситуации: количества (доли) имеющихся пропусков и используемого метода анализа данных.

Объект исследования - алгоритмы заполнения пропусков в данных.

Предмет исследования - эффективность отдельных алгоритмов заполнения пропусков при использовании различных методов многомерного анализа данных с учетом количества пропусков.

В соответствии с целью, необходимо решить следующие задачи.

1. Классифицировать основные причины появления отдельных пропусков (неответов респондентов на отдельные вопросы) в данных социологических исследований, выявить и проанализировать связь между этими причинами и степенью случайности пропусков и на основе этой связи установить соответствие между причинами возникновения пропусков и допустимыми способами их ликвидации.

2. Дать систематическое описание основных алгоритмов заполнения пропусков в данных.

3. Расширить типологию алгоритмов заполнения пропусков Р. Литтла, дополнив ее алгоритмами, разработанными позже.

4. Разработать и теоретически обосновать методику экспериментального сравнения эффективности различных алгоритмов заполнения пропусков в данных.

5. Апробировать разработанную методику на «типичных» социологических данных.

Методологические и теоретические основания исследования

В теоретико-методологическом плане ключевое значение для данного исследования, особенно в части планирования и реализации методического эксперимента, имеют наработки Д.Рубина и Р.Литла: (1) введенная ими типология отдельных пропусков по степени случайности (полностью случайные, случайные и не случайные пропуски), (2) установленное соответствие между типами пропусков и допустимыми способами их корректировки после завершения сбора данных (доказательство применимости методов искусственного заполнения пропусков только для тех случаев, когда последние полностью случайны или случайны). Эти положения были использованы нами при разработке методики эксперимента в качестве обоснования возможности сравнения алгоритмов заполнения пропусков только в ситуации, когда пропуски полностью случайны или случайны. В данной работе мы ограничились сравнением алгоритмов заполнения пропусков на примере

полностью случайных пропусков, что существенно сократило объем вычислений и облегчило интерпретацию результатов.

Для планирования методического эксперимента принципиальное значение имеет предложенное Литтлом деление алгоритмов заполнения пропусков на простые и сложные. Сложные алгоритмы, в свою очередь, Литгл разделил на глобальные и локальные. Данная классификация, дополненная 14-ю алгоритмами, описанными в литературе уже после выхода в свет работы Литгла, в нашем эксперименте стала основанием для формирования экспериментальной выборки из пяти сравниваемых алгоритмов. Выбор 1-3 алгоритмов из каждой группы позволил сократить количество экспериментально сравниваемых алгоритмов с 19, описанных в диссертации, до пяти.

Информационная база исследования

В качестве эмпирической базы для методического эксперимента были использованы данные проекта «Социальное партнерство и конфликт» (руководитель И.М. Козина), выполненного в рамках программы фундаментальных исследований НИУ ВШЭ в 2010 году. Исходный массив содержал результаты выборочного опроса 935 сотрудников, отобранных на 3-х промышленных предприятиях по 2-х ступенчатой выборке. На первой ступени отбирались структурные подразделения, в которых планировалось проведение опроса, с учетом численности и структуры работников и возможностей доступа. На второй ступени в отобранных подразделениях осуществлялась квотная выборка, рассчитанная пропорционально численности работников по должностным и квалификационным группам на каждом предприятии. Минимальный объем выборки на каждом предприятии составлял 300 работников.

Выбор массива данных определяются тремя основными аргументами. Во-первых, в рамках опроса в основном затрагивались стандартные, несенситивные темы. Во-вторых, данные собирались с помощью простых по форме анкетных вопросов. В опроснике не использовались сложные для восприятия табличные и графические вопросы, сложные методики задавания вопросов (парные сравнения, семантический дифференциал и так далее). В-третьих, несмотря на упомянутую простоту собранных данных, разнообразие содержательных тем и типов шкал (номинальные, порядковые и интервальные), отраженных в опроснике данного исследования, позволяет сформулировать содержательные задачи, решаемые каждым из рассматриваемых в данной работе методов анализа данных.

Перечисленные аргументы позволяют утверждать, что экспериментальные данные получены на типичных, а не на уникальных социологических данных, и

предположить, что аналогичные или похожие результаты могут быть получены при реализации эксперимента по идентичной методике, но на других данных, типичных в том же смысле.

Научная новизна работы

Научная новизна диссертационного исследования проявляется в том, что автором были получены следующие результаты.

1. На основе рассмотрения корпуса релевантных научных публикаций проанализирована связь между причинами возникновения пропусков в социологических данных и их типами: полностью случайными, случайными и неслучайными пропусками; даны рекомендации по выявлению ситуаций, в которых недопустимо искусственное заполнение пропусков.

2. Впервые дано систематическое описание большинства известных алгоритмов заполнения пропусков в социологических данных.

3. Классическая типология алгоритмов заполнения пропусков Р. Литтла дополнена четырнадцатью новыми алгоритмами, В нее были добавлены алгоритмы ColdDeck, ЕМ, Бартлетта, Resampling, Zet, ZetBraid, предикативный подбор среднего значения, оценивание пропусков методом максимального правдоподобия, оценивание пропущенных значений с помощью метода наименьших квадратов, Байесово заполнение пропусков, ковариационное заполнения пропусков, моделирование пропущенных значений с помощью нейронных сетей, последовательное заполнение пропусков, вероятностное заполнения пропусков.

4. Разработана и апробирована методика экспериментальной оценки эффективности заполнения пропусков с помощью различных алгоритмов, в зависимости от количества пропусков в данных и метода последующего анализа данных (рассматривались методы анализа данных, чаще всего используемые в социологических исследованиях).

5. Экспериментально установлено, что эффективность заполнения пропусков зависит в некоторых случаях (в частности, при построении регрессионных моделей с фиктивными переменными и расчете мер описательной статистики) не просто от метода анализа данных, но и от характера решаемой социологической задачи.

Основные положения, выносимые на защиту

1. Выбор способа корректировки пропусков в ответах на определенные вопросы (удаление неполных наблюдений, взвешивание имеющихся данных или заполнение пропусков) зависит от причин возникновения пропусков, наличия связи между этими причинами и степенью случайности порождаемых ими пропусков (неответов). Если пропущенные данные могут быть отнесены к полностью случайным (MCAR) или случайным (MAR), возникшие пропуски можно корректировать путем их заполнения или взвешивания выборки. Если же результаты анализа причин говорят о зависимости вероятности пропуска от возможного ответа (неслучайный пропуск, NMAR), то такие отсутствующие значения после сбора данных корректировать методом заполнения или взвешивания выборки недопустимо.

2. Предлагаемая в диссертации система контролируемых параметров сравнения результатов применения ряда методов анализа данных позволяет оценивать устойчивость этих результатов относительно использованного алгоритма заполнения заданного количества пропусков. Эта система состоит из следующих совокупностей параметров, определенных, соответственно, для перечисленных ниже методов анализа данных:

• для описательной статистики: для номинальных шкал - доля точных подстановок (когда подставленное значение совпадает с истинным), мода и коэффициент качественной вариации; для порядковых шкал - доля точных подстановок, медиана и квартальный размах, для интервальных шкал -среднее арифметическое и дисперсия.

• для факторного анализа - общий процент объясненной дисперсии и матрица факторных нагрузок;

• для регрессионного анализа с фиктивными переменными - коэффициент детерминации (R2) и ошибка измерения зависимой переменной;

• для однофакторного дисперсионного анализа - величина F-критерия и его уровень значимости;

• для критерия «ХИ-квадрат» - значение критерия «Хи-квадрат» и его уровень значимости;

• для коэффициентов корреляции Спирмена и Пирсона - значение самого коэффициента корреляции и его уровень значимости.

3. Эффективность алгоритмов заполнения пропусков определяется не только их объективными свойствами, но и различными сочетаниями следующих характеристик исследовательской ситуации, в которой эти алгоритмы используются: долей пропущенных дынных, методом анализа, который будет

применен к данным после заполнения пропусков, характером решаемой социологической задачи. 4. С помощью разработанной методики эффективность алгоритмов заполнения пропусков может исследоваться применительно к другим, не рассмотренным в диссертации, методам анализа данных, что потребует разработки отдельной системы контролируемых параметров оценки результатов для каждого такого метода.

Теоретическая и практическая значимость работы.

Полученные автором теоретические и методические результаты могут быть использованы социологами, экономистами, политологами, маркетологами и другими специалистами в конкретных эмпирических социологических исследованиях. В частности, могут использоваться:

• уточненная классификация причин возникновения пропусков;

• принципы обоснования допустимости разных способов ликвидации пропусков (удаление неполных наблюдений, взвешивание имеющихся данных, искусственное заполнение пропусков), на базе анализа связи причин возникновения пропусков (с использованием упомянутой классификации) и степени случайности последних;

• систематизированное описание математической сущности, достоинств и недостатков наиболее распространенных алгоритмов заполнения пропусков и их классификация;

• методика проведения экспериментального сравнения эффективности алгоритмов заполнения пропусков в зависимости от заданных характеристик исследовательской ситуации;

• схемы для выбора алгоритма заполнения пропусков в зависимости от заданных характеристик исследовательской ситуации (доли имеющихся пропусков и метода анализа данных), рассматриваемые как экспериментально полученные гипотезы, требующие дальнейшей статистической верификации.

Работа может служить базой для дальнейших методических исследований, направленных на оценку устойчивости выводов об эффективности алгоритмов заполнения пропусков (в зависимости от количества пропусков и метода анализа данных), полученных по результатам эксперимента.

В педагогической деятельности результаты диссертационного исследования могут быть использованы в рамках общих курсов по методологии сбора (способы

12

профилактики пропусков) и анализа социологических данных (способы корректировки имеющихся пропусков), а также могут лечь в основу специального курса по работе с неполными социологическими данными.

Апробация результатов

Результаты диссертации докладывались в рамках выступлений автора на:

1. Научно-исследовательском семинаре кафедры методов сбора и анализа социологической информации НИУ ВШЭ для магистров 2-го года обучения программы «Прикладные методы социального анализа рынков» с докладом «Сравнительный анализ алгоритмов заполнения пропусков в данных при использовании методов многомерного статистического анализа»;

2. IV конференции памяти А.О. Крыштановского «Современные проблемы формирования методного арсенала социолога» (Москва, 2010) с докладом «Способы заполнения пропусков в данных массовых социологических опросов»;

3. V конференции памяти А.О. Крыштановского «Социологические методы в современной исследовательской практике» (Москва, 2011) с докладом «Опыт использования регрессионного моделирования и EM-алгоритма для заполнения пропусков в данных массового социологического опроса»;

4. VI конференции памяти А.О. Крыштановского «Современная социология — современной России» (Москва, 2012). Тема доклада «Экспериментальное сравнение эффективности пяти алгоритмов заполнения пропусков при использовании факторного анализа»;

5. XIV Междисциплинарном ежегодном научном семинаре «Математическое моделирование социальных процессов» им. Героя Социалистического труда академика A.A. Самарского (Москва, 2011) с докладом «Экспериментальное сравнение эффективности алгоритмов заполнения пропусков».

Полученные в диссертации результаты встроены в процесс преподавания ряда дисциплин на факультете социологии НИУ ВШЭ: «Методы измерения в социологии» (4-й курс бакалавриата, специализация «Прикладные методы социологических исследований»), «Теория измерения в социологии» (1-й курс магистратуры, программа «Прикладные методы социального анализа рынков»).

Логика и структура работы

Диссертация состоит из введения, трех глав, включающих 6 параграфов, заключения, библиографического списка и приложений. Общий объем работы -221 страница, в том числе, 5 приложений на 66 страницах, 11 страниц библиографии, 28 таблиц и 23 рисунка. Диссертация имеет следующую структуру:

Введение

Глава 1. Отдельные пропуски в социологических данных: причины, виды и подходы к работе

1.1. Типы отдельных пропусков и допустимые способы работы с ними

1.2. Причины неответов на вопросы как детерминанты степени случайности пропусков и допустимых способов их ликвидации

Резюме первой главы

Глава 2. Алгоритмы заполнения пропусков в данных: систематизированный обзор

2.1. Основные алгоритмы заполнения пропусков в данных

2.2. Имеющиеся наработки в области теоретического и экспериментального сравнения алгоритмов заполнения пропусков в данных

Резюме второй главы.

Глава 3. Методический эксперимент: сравнение эффективности отдельных алгоритмов заполнения пропусков

3.1. Методика экспериментального сравнения эффективности алгоритмов заполнения пропусков в данных: теоретическое описание

3.2. Эмпирическая апробация разработанной методики экспериментального сравнения эффективности алгоритмов заполнения пропусков в данных

Резюме третьей главы Заключение

Список использованной литературы Приложения

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во Введении аргументируется актуальность и степень разработанности темы диссертационной работы, формулируется проблема, объект и предмет исследования, ставятся цель и задачи, перечисляются теоретико-методологические и информационные (база данных) основания работы, раскрывается новизна работы и значимость ее результатов, приводятся основные положения, выносимые на защиту.

Глава 1 «Отдельные пропуски в социологических данных: причины, виды и подходы к работе с ними» посвящена систематизации различных элементов проблемы отдельных пропусков в социологических данных, уточняются объект и предмет исследования.

В первом параграфе аргументируется справедливость отнесения наличия пропусков в данных к важным социологическим проблемам, рассматриваются основные виды пропусков и известные способы «борьбы» с ними.

Показано, что пропуски в данных несут серьезную угрозу качеству исследовательских результатов из-за снижения валидности результатов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа систематических смещений, а также ограничений в применении некоторых видов анализа.

Рассмотрены две формы неполной информации, встречающейся в социологическом исследовании: недостижимые наблюдения и неполные наблюдения (отдельные пропуски). Указывается на принципиальное отличие задач по «борьбе» с этими двумя видами пропусков. Констатируется, что настоящая работа фокусируется только на неполных наблюдениях.

Проанализированы достоинства и недостатки трех основных подходов к работе с отдельными пропусками: удалению неполных наблюдений, взвешиванию полных наблюдений и заполнению пропусков.

Представлена типология отдельных пропусков в зависимости от их степени случайности. Вслед за Д.Рубином и Р.Литтлом выделены и описаны полностью случайные (MCAR -missing completely at random), случайные (MAR-missing at random) и неслучайные пропуски (NMAR -not missing at random). Описаны пять формальных способов определения степени случайности отдельных пропусков в данных7.

Теоретический анализ связи между типами пропусков по степени случайности и допустимыми способами работы ними показал, что корректировке (с помощью одного из трех упомянутых выше подходов) после сбора данных поддаются только полностью случайные и случайные пропуски. Корректировать

'Показатели DRSS, D Кука, DXX, процедура Дж. и П. Кознов, алгоритм Литтла.

15

неслучайные пропуски после сбора данных нельзя, их можно только предупредить на этапе планирования исследования и разработки инструментария. Поэтому неслучайные пропуски исключаются из дальнейшего рассмотрения.

Во втором параграфе выдвигается гипотеза о том, что тип пропусков, детерминируемый степенью их случайности (определяющей, как было сказано выше, допустимый способ ликвидации пропусков, в частности, использование алгоритмов заполнения), зависит от «содержательных» причин пропусков. По итогам обзора литературы, касающейся таких причин, сделан вывод, что авторы соответствующих работ не связывали эти причины с какими-то формальными свойствами пропусков, в частности, со степенью их случайности и выбором способа ликвидации. В диссертации высказаны гипотезы о наличии и характере такой связи. Причины систематизированы с точки зрения того, как они могут обусловливать степень случайности пропусков и, как следствие, «выводить» исследователя на допустимый способ «борьбы» с пропусками.

Данное исследование касается только данных, полученных с помощью опросов. Все причины неответов на вопросы в опросных исследованиях разделены на 3 класса: методологические (некорректные формулировки вопросов и перечней альтернатив, сензитивность вопросов, «эффект интервьюера», ошибки в планировании и реализации выборке - опрос «не тех» или некомпетентных в теме респондентов и т.д.), социальные (уровень доверия социологическим исследованиям в обществе, влияние СМИ, стереотипы относительно допустимых способов изучения общественного мнения и т.д.) и психологические (склонность скрывать свое мнение, неспособность респондента четко выражать свое мнение, боязнью осуждения собственного мнения со стороны общества и т.д.). В результате указывается, что психологические и социальные причины приводят в первую очередь к возникновению полностью случайных или случайных пропусков, а методологические причины напрямую обусловливают неслучайные пропуски.

В заключение параграфа обосновывается выбор для дальнейшего исследования только одного способа работы с отдельными пропусками— их заполнение. Указаны следующие преимущества заполнения пропусков по сравнению с удалением неполных наблюдением и взвешиванием полных: реально (а не искусственно, как при взвешивании) сохраняется запланированный объем выборки; сохраняется вся известная информация, которая могла бьггь утеряна при удалении наблюдений с пропусками; не возникает смещений по другим переменным, значения которых известны или в данный момент не восстанавливаются; запланированный анализ данных может осуществляться в обычном режиме.

Глава 2 «Алгоритмы заполнения пропусков в данных: описание и способы сравнения» посвящена аналитическому обзору девятнадцати наиболее распространенных в современной методической литературе алгоритмов заполнения пропусков и методов их сравнения. Аналитическая роль автора проявляется в дополнений классической типологии алгоритмов заполнения пропусков Литтла и вычленении нерешенных проблем их сравнения.

В первом параграфе предложена типология девятнадцати алгоритмов заполнения пропусков. За основу взята классическая типология Р. Литтла, в которой на первом шаге все алгоритмы делятся на простые и сложные, а на втором шаге сложные алгоритмы подразделяются на глобальные и локальные. В диссертации типология Литтла, изначально охватывавшая пять алгоритмов, была дополнена четырнадцатью новыми алгоритмами.

Далее дается систематическое описание девятнадцати алгоритмов заполнения пропусков. Систематичность достигается единообразием логики описания всех алгоритмов, предполагающей последовательное освещение следующих пунктов:

• автор и время разработки алгоритма;

• математическая сущность алгоритма;

• достоинства и недостатки алгоритма;

• статистические пакеты, в которых алгоритм реализован.

Сначала описываются шесть простых алгоритмов заполнения пропусков: с помощью мер центральной тенденции, подбора объектов (matching), предикативный подбор среднего значения, алгоритмов ColdDeck и HotDeck, моделирования пропусков с помощью регрессионных уравнений. Затем обсуждаются пять сложных глобальных алгоритмов: метод Бартлетга, ЕМ-алгоритм, алгоритм Resampling, оценивание пропусков методом максимального правдоподобия, Байесово заполнение пропусков. Затем описываются восемь сложных локальных алгоритмов: Zet и ZetBraid, оценивание пропущенных значений с помощью метода наименьших квадратов, ковариационное заполнения пропусков, моделирование пропущенных значений с помощью нейронных сетей, множественное, последовательное и вероятностное заполнения пропусков. Описание достоинств и недостатков всех описанных девятнадцати алгоритмов сводятся в одну таблицу.

В конце параграфа дан обзор основных статистических пакетов и модулей для заполнения пропусков в данных: модули Missing Value Analysis и Multiple imputation пакета SPSS 19.0, SOLAS for Missing Data, S-Plus, MICE.

Второй параграф представляет собой аналитический обзор имеющихся в литературе примеров обоснования применимости некоторых алгоритмов

заполнения пропусков в сочетании с определенными методами анализа данных. Так, в работах Литтла, Афифи и Илашоффа теоретически доказано, что для линейного регрессионного анализа пропуски в значениях независимых переменных предпочтительно заполнять условным средним, а для однофакторного дисперсионного анализа— оценивать пропуски с помощью метода наименьших квадратов.

Далее обосновывается необходимость при выборе алгоритма заполнения пропусков более целостно подходить к исследовательской ситуации: учитывать количество пропусков и планируемый метод анализа данных. В литературе описан опыт таких сравнений но при этом рассматриваются лишь отдельные алгоритмы заполнения пропусков применительно, главным образом, к одному методу анализа данных— регрессии. В заключение параграфа отмечено, что в работах по сравнению разных алгоритмов заполнения пропусков прослеживается явная тенденция: осуществляется постепенный переход от теоретического сравнения к экспериментально-статистическому.

Глава 3 «Методический эксперимент: сравнение эффективности отдельных методов заполнения пропусков» посвящена описанию разработанной автором методики экспериментального сравнения эффективности алгоритмов заполнения пропусков (с учетом исследовательской ситуации: количества пропусков и метода анализа данных после их заполнения) и результатов ее эмпирической апробации.

Первый параграф посвящен: (1) обоснованию выбора метода статистического эксперимента для сравнения разных алгоритмов искусственного заполнения пропусков, (2) описанию проблем, возникших при планировании эксперимента и (3) способов их решения в работе.

Выбор в пользу экспериментально-статистического метода сделан с учетом указанной выше тенденции перехода от теоретического к экспериментально-статистическому сравнению алгоритмов заполнения пропусков, а также ввиду явных сложностей математического плана, возникающих при теоретическом сравнении алгоритмов.

Анализ задачи планирования эксперимента показал, что такое планирование требует решения трех основных проблем:

1. Существует большое количество алгоритмов заполнения пропусков. Необходимо обоснованно сократить количество сравниваемых алгоритмов.

2. Не является очевидным, по каким параметрам сравнивать результаты рассматриваемых методов анализа и с помощью какого критерия сравнивать результаты применения отдельных алгоритмов заполнения

пропусков к одной исследовательской ситуации. Необходима разработка систем таких параметров и критериев.

3. Отсутствуют методики экспериментального сравнения алгоритмов заполнения пропусков. Необходима разработка такой методики. Первая проблема решалась на основе типологии Литтла, дополненной в рамках диссертационного исследования (см. главу 2): из каждого из трех выделенных типов для статистического эксперимента было отобрано от 1 до 3 алгоритмов.

Поскольку большинство сложных алгоритмов заполнения пропусков описаны разработчиками только теоретически и пока еще не получили реализации в доступных статистических пакетах, для эксперимента были отобраны один сложный локальный алгоритм - множественное заполнение и один сложный глобальный - ЕМ-алгоритм. Эти алгоритмы применимы для заполнения пропусков значений и по категориальным, и по непрерывным признакам и реализованы в доступных статистических пакетах.

Труднее отобрать типичные алгоритмы из числа простых, так как, в отличие от сложных, все они реализованы во многих статистических пакетах. Поэтому в эксперимент были включены 3 из 5 общедоступных простых алгоритма, существенно различающиеся по своей сути: подстановка мер центральной тенденции, НоФеск и регрессионное моделирование пропусков.

Таким образом, по критериям сходств/различий, универсальности и доступности для использования в эксперимент из 19 были отобраны 5 алгоритмов, репрезентирующих все три выделенные типа.

Для решения второй проблемы (формирования системы параметров для сравнения результатов рассматриваемых методов анализа данных) были отобраны параметры, на наш взгляд, лучше всего отражающие качество и смысл результатов рассматриваемых методов анализа данных:

• описательная статистика: для номинальных шкал количество правильных предсказаний, мода и ККВ (коэффициент качественной вариации), для порядковых шкал - количество правильных предсказаний, медиана и квартальный размах, для интервальных шкал - среднее арифметическое и дисперсия.

• факторный анализ - общий процент объясненной дисперсии и матрица факторных нагрузок;

• регрессионный анализ с фиктивными переменными - коэффициент детерминации (Л2) и ошибка измерения зависимой переменной;

• однофакторный дисперсионный анализ - величина Р-критерия и его уровень значимости;

• критерий «ХИ-квадрат» - значение критерия «Хи-квадрат» и его уровеь. значимости;

• коэффициенты корреляции Спирмена, и Пирсона-значение коэффициент: корреляции, и его уровень значимости.

Результаты использования отдельных алгоритмов заполнения пропусков дл: одномерных параметров, характеризующих результаты анализа данных (наприме] величины коэффициента качественной вариации, медианы, коэффициек детерминации Я2' значений коэффициентов корреляции их уровней значимости 1 т.д,) позволяет сравнивать введенный автором коэффициент эффективносл заполнения пропусков.

I

Где Аоь5егу«1 —значение параметра оценки работы метода анализа данных полученное после применения метода к данным, восстановленным с помощьк оцениваемого алгоритма заполнения пропусков (с учетом количества последних),: А^еа! —значение того же параметра, полученное на эталонном массиве, состоящед из полных наблюдений.

Для многомерного параметра (у нас таковым была только матриц: факторных нагрузок, служащая оценкой результата работы факторного анализа) использовался другой подход. В качестве критерия сравнения двух матрш факторных нагрузок были задействованы меры близости между векторами -«развертками» двух сравниваемых матриц. В качестве таких мер были выбраны квадрат Евклидова расстояния и коэффициент корреляции Пирсона.

Все предлагаемые критерии носят характер точечных статистических оценок. Построение доверительных интервалов было бы весьма желательным, но это требует специальных математико-статистических разработок, выходящих за рамки настоящего исследования.

Решение третьей проблемы (отсутствия методики сравнения двух алгоритмов заполнения пропусков) состояло в разработке требующейся методики, включившей в себя несколько шагов.

Прежде всего, формировался некий эталонный массив, не имеющий пропущенных данных. Результаты применения к нему рассматриваемых методов анализа данных считались «правильными» - эталонными. Затем в данных эталонного массива полностью случайным образом (чтобы, в соответствии со сказанным .в главе 1, было возможно избавляться от пропусков именно с помощью их искусственного заполнения) намеренно делались пропуски

Значения перечисленных выше параметров результатов применения рассматриваемых методов анализа данных, полученные на эталонном массиве

20

(составляющие базу эталонных результатов), сравнивались (на основе описанного выше критерия) со значениями, полученными после применения методов анализа данных к массивам, в которых искусственно сделанные пропуски, заполнявшиеся каждым из сравниваемых алгоритмов.

Во втором параграфе описана апробация разработанной методики сравнения эффективности алгоритмов заполнения пропусков, включающая 7 этапов:

1) формирование эталонного массива данных без пропусков;

2) получение эталонных значений параметров оценки работы рассматриваемых методов анализа данных;

3) создание массивов с разным количеством искусственно созданных полностью случайных пропусков;

4) оценка на основе выбранных параметров смещений в результатах анализа данных, возникших за счет изменения эталонного массива путем искусственного создания в нем пропусков (при разном количестве последних);

5) заполнение пропусков с помощью сравниваемых алгоритмов;

6) оценка результатов применения методов анализа данных к массиву с искусственно заполненными пропусками и сравнение (с помощью введенного критерия эффективности) этих результатов с эталонными;

7) выбор для каждого сочетания количества пропусков и метода анализа данных наиболее эффективных алгоритмов заполнения пропусков.

На первом этапе в исходном массиве данных (см. раздел «Информационная база исследования») из 935 было отобрано 717 абсолютно полных наблюдений, не имеющих ни единого пропуска по 89 содержательным переменным (признакам) (см. Приложение 1). Этот массив из 717 объектов был назван эталонным.

На втором этапе для получения эталонных результатов рассматриваемых методов анализа данных, под каждый из них была поставлена и решена своя содержательная задача. Результаты оказались вполне осмысленными содержательно (см. Приложение 2).

На третьем этапе в эталонный массив было внесено 10, 20, 30, 40 и 50% полностью случайных пропусков по каждой переменной. Наблюдения, в которых значения каких-то переменных должны были удаляться, выбирались для каждой переменной в отдельности с помощью генератора случайных чисел. В результате было получено 5 массивов разной степени полноты.

На четвертом этапе для оценки изменений результатов анализа данных в результате появления заданного количества пропусков на каждом из 5 массивов был повторен этап 2. Затем в каждом случае оценивалось количество наблюдений

исключенных из анализа по причине неполноты, изменения значений получении) критериев и потери в их уровне значимости. (См. Приложении 3).

На пятом этапе пропуски в каждом из 5 массивов разной степени полноты были заполнены 5-ю сравниваемыми алгоритмами.

В итоге было получено 25 массивов, состоящих из абсолютно полных наблюдений.

На шестом этапе на каждом из 25 массивов были реализованы все рассматриваемые методы анализа данных. Полученные в каждом из 25 случаев значения параметров результатов анализа данных с помощью соответствующего критерия (коэффициента эффективности заполнения или меры близости между «развертками» матриц) сравнивались с соответствующими эталонными значениями. Подробно результаты шестого этапа эксперимента представлены в Приложении 4.

На седьмом этапе для каждого сочетания заданного количества пропусков и метода анализа данных выбирался наиболее эффективный алгоритм заполнения пропусков. Таковым считался алгоритм, при использовании которого было получено минимальное значение коэффициента эффективности для одномерных параметров результатов анализа данных, или максимальное значение квадрата Евклидова расстояния между векторами — «развертками» матриц факторных нагрузок. Если для нескольких алгоритмов заполнения пропусков получались равные или очень близки значения данных критериев, то они признавались одинаково эффективными.

В конце параграфа описываются итоги сравнения с эталонными результатов анализа данных, полученных после заполнения заданного количества пропусков каждым из 5 сравниваемых алгоритмов.

Здесь проиллюстрируем итоги сравнений на примере одного из простейших методов анализа данных — поиска связи между двумя интервальными признаками с помощью коэффициента корреляции Пирсона. Чтобы не только установить наличие связи (по уровню значимости), но и сделать наиболее достоверные выводы о ее тесноте и направлении (по знаку и значению коэффициента), минимальное количество пропусков (10 %) следует заполнять при помощи регрессионного моделирования или множественного заполнения; при 20-40 % пропусков наиболее эффективен ЕМ-алгоритм; при 50 % пропусков наряду с ЕМ-алгоритмом эффективно множественное заполнение. Получается, что множественное заполнение эффективно в полярных ситуациях: минимальной и максимальной степени неполноты информации.

При использовании других алгоритмов выводы о наличии линейной связи могут соответствовать эталонной (истинной) ситуации, а выводы о направлении и тесноте связи могут искажаться с большей вероятностью.

Так как процедуры сравнения результатов для других методов анализа данных различаются только используемыми критериями сравнения, их подробное описание мы сочли возможным здесь не приводить, а представить результаты в виде сводной таблицы наиболее эффективных, по результатам эксперимента, алгоритмов заполнения пропусков и кратких выводов (таблица 1).

Кроме того, установлено, что для некоторых методов анализа данных, в частности, регрессионного и описательной статистики, использование определенных алгоритмов заполнения пропусков приводит к существенному искажению не только статистических, но и содержательных результатов.

Таблица 1

Сводная таблица результатов методического эксперимента: алгоритмы заполнения пропусков наиболее эффективные при заданном количестве пропусков и методе анализа данных после нх заполнения9

Наиболее эффективный алгоритм заполнения пропусков Количество пропусков в данных

10% 20% 30% 40%

Метод анализа данных Описательная статистика Оценка средней тенденции-тип шкалы Номинальная НоФеск, М3 НоФеск НоФеск НоФеск Ной

Порядковая НоФеск, Ме НоФеск, Ме НоФеск, Ме НоФеск, Ме НоИ Ме

Интервальная Ср.арифм., ЕМ, МЗ Ср.арифм ., ЕМ, МЗ Ср.арифм., ЕМ, МЗ ЕМ ЕМ

Оценка разброса - тип шкалы Номинальная НоФеск, МЗ НоФеск НоФеск НоФеск НоЧ

Порядковая ЕМ ЕМ ЕМ, МЗ ЕМ, МЗ ЕМ,

Интервальная Все рассмотренные НоФеск, МЗ НоФеск, МЗ НоФеск, МЗ Но1Е МЗ

Факторный анализа МЗ, ЕМ МЗ, ЕМ МЗ, ЕМ МЗ, ЕМ М3,1

Регрессионный анализ с фиктивными переменными-цель использования Прогнозирование НоФеск, Регрессия НоФеск, Регрессия НоФеск, Регрессия НоФеск, Регрессия МЗ, Но1Е Регр<

Поиск связи Не заполнять, либо НоФеск, ЕМ НоФеск, ЕМ НоФеск, ЕМ МЗ МЗ

Однофакторный дисперсионный анализ Не заполнять ЕМ ЕМ ЕМ ЕМ

Критерий "Хи-квадрат" ЕМ ЕМ ЕМ ЕМ ЕМ

Коэффициент ранговой корреляции Спирмена НоФеск, регрессия Ме ЕМ ЕМ ЕМ

Коэффициент корреляции Пирсона Регрессия, МЗ ЕМ ЕМ ЕМ ем,;

Перечисленные выше экспериментальные результаты нашли свое отражение в виде графических схем выбора алгоритма заполнения пропусков в зависимости от их количества и метода анализа данных после заполнения. Так, например, для упомянутого выше поиска связи между интервальными признаками

'МЗ-множественное заполнение, Мо-мода (как мера центральной тенденции дня номинальных шкал), Ме-медиана (как мера центральной тенденции для порядковых шкал).

24

с помощью коэффициента корреляции Пирсона была получена схема, изображенная на рисунке 1.

Рисунок 1

Алгоритмы заполнения пропусков, наиболее эффективные при использовании коэффициента корреляции Пирсона

Аналогичные схемы для других рассматриваемых методов анализа данных приведены в Приложении 5 диссертации.

В Заключении кратко обобщаются результаты диссертационного исследования, приводятся основные выводы и обозначается круг проблем для дальнейших исследований. К основным достижениям работам отнесены доказательство связи между алгоритмами заполнения пропусков и методами анализа данных. Эта связь выражается в том, что при заданном количестве пропусков для определенного метода анализа данных разные алгоритмы демонстрируют различную эффективность.

Однако связь может так же обусловливаться влиянием других факторов, в данной работе не изученных: особенностями распределений признаков, спецификой данных, использованных для эксперимента, выбранной градацией количества пропусков в данных и т.д. Для каждой исследовательской ситуации необходимо проводить собственное экспериментальное сравнение нескольких алгоритмов заполнения пропусков, в частности, с помощью методики, разработанной и апробированной в рамках данного диссертационного исследования.

Основным направлением дальнейшей работы в рамках выбранной тематики может стать проверка составленных схем выбора алгоритмов заполнения пропусков в зависимости от количества последних и метода анализа данных. Данная проверка необходима, для их статистического подтверждения полученных

выводов, пока представляющих собой экспериментально обоснованные гипотезы их перевода из разряда гипотез, в разряд статистически доказанны закономерностей. Так же важно в будущем разработать способ проверк статистической значимости различий получаемых значений сравниваемы критериев эффективности алгоритмов заполнения пропусков, чтобы перейти от и точечного оценивания к интервальному.

Другое возможное направление — статистическая проверка выводов о связ причин возникновения неответов на вопросы и степени случайности, возникающи в результате пропусков. Такую проверку можно осуществить, использу описанные выше 5 подходов к формальному определению типа случайност рассматриваемых пропусков, применив эти подходы к пропускам, полученньи вследствие действия разных содержательных причин.

В тексте диссертации имеется 5 приложений.

В первом приложении подробно описаны 89 переменных (признаков] задействованных в методическом эксперименте.

Во втором приложении представлена содержательная интерпретаци. результатов решения содержательных задач, полученных с помощьк рассматриваемых методов анализа данных на эталонном массиве.

В третьем приложении описаны смещения в результатах каждоп рассматриваемого метода анализа данных, возникшие после внесения в данны определенного количества пропусков.

В четвертом приложении подробно описаны результаты рассматриваемы: методов анализа данных, полученные после заполнения заданного количеств; пропусков каждым из сравниваемых алгоритмов.

В пятом приложении представлены схемы выбора алгоритма заполнение пропусков в зависимости от количества имеющихся пропусков и метода анализ! данных.

Список публикаций по теме диссертации

Результаты представлены в 4 публикациях общим объемом 3,65 пл., из которых общий личный вклад автора составляет 2,88 п.л.

Работы, опубликованные автором в ведущих рецензируемых научных журналах и журналах, рекомендованных ВАК Министерства образования и науки России

Зангиева И.К. Проблема пропусков в социологических данных: смысл и подходы к решению // Социология: 4M (методология, методы, математические модели). 2011. № 33. С.28-56. (1,4 п.л.)

Зангиева И.К., Воронина Н.Д. Установки работников на внутрифирменное взаимодействие в сфере социально-трудовых отношений // Экономическая социология, 2011. Т. 12. № 5 . С. 72—90. ( 1,47 п.л. Личный вклад автора 0,7 п.л.).

Другие работы, опубликованные автором по теме кандидатской диссертации

Зангиева И.К. Подходы к решению проблемы наличия пропусков в социологических данных // Материалы IV конференции «Современные проблемы формирования методного арсенала социолога», Москва: Изд-во Ин-та социологии РАН, 2010. (0,1 п.л.)

Зангиева И.К. Опыт использования регрессионного моделирования и ЕМ-алгоритма для заполнения пропусков в данных массового социологического опроса. // Социологические методы в современной исследовательской практике: Сборник статей памяти Александра Олеговича Крыштановского / Отв. ред. O.A. Оберемко; НИУ ВШЭ; Российское общество социологов. М., 2011. С.261-267.(0,68

П.Л.).

Лицензия ЛР № 020832 от 15 октября 1993 г. Подписано в печать «16» «апреля» 2012 г. Формат 60x84/16 Бумага офсетная. Печать офсетная. Усл. печ. л. 1. Тираж 100 экз. Заказ №3 Типография издательства НИУ ВШЭ, 125319 г. Москва, Кочновский пр-д, д.З.

 

Текст диссертации на тему "Сравнительный анализ алгоритмов заполнения пропусков в социологических данных"

61 12-22/207

Правительство Российской Федерации

Федеральное государственное автономное образовательное учрезвдение высшего профессионального образования

«Национальный исследовательский университет «Высшая школа экономики»

Сравнительный анализ алгоритмов заполнения пропусков в социологических

данных

Диссертация на соискание ученой степени кандидата социологических наук

На правах рукописи

Зангиева Ирина Казбековна

Специальность: 22.00.01 -Теория, методология и история социологии

Научный руководитель: д.с.н. Толстова Ю.Н.

Москва-2012

СОДЕРЖАНИЕ

ВВЕДЕНИЕ....................................................................................................................................

ГЛАВА 1. ОТДЕЛЬНЫЕ ПРОПУСКИ В СОЦИОЛОГИЧЕСКИХ ДАННЫХ: ПРИЧИНЫ, ВИДЫ И ПОДХОДЫ К РАБОТЕ...................................................................15

1.1 ТИПЫ ОТДЕЛЬНЫХ ПРОПУСКОВ И ДОПУСТИМЫЕ СПОСОБЫ РАБОТЫ С НИМИ 15

1.2. ПРИЧИНЫ НЕОТВЕТОВ НА ВОПРОСЫ КАК ДЕТЕРМИНАНТЫ СТЕПЕНИ СЛУЧАЙНОСТИ ПРОПУСКОВ И ДОПУСТИМЫХ СПОСОБОВ ИХ ЛИКВИДАЦИИ 32

РЕЗЮМЕ ПЕРВОЙ ГЛАВЫ.................................................................................................46

ГЛАВА 2. АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ: СИСТЕМАТИЗИРОВАНЫЙ ОБЗОР...................................................................................47

2.1. ОСНОВНЫЕ АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ..............47

2.2. ИМЕЮЩИЕСЯ НАРАБОТКИ В ОБЛАСТИ ТЕОРЕТИЧЕСКОГО И ЭКСПЕРИМЕНТАЛЬНОГО СРАВНЕНИЯ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ.................................................................................................Ю7

РЕЗЮМЕ ВТОРОЙ ГЛАВЫ...............................................................................................112

ГЛАВА 3. МЕТОДИЧЕСКИЙ ЭКСПЕРИМЕНТ: СРАВНЕНИЕ ЭФФЕКТИВНОСТИ ОТДЕЛЬНЫХ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ..................................114

3.1. МЕТОДИКА ЭКСПРИМЕНТАЛЬНОГО СРАВНЕНИЯ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ: ТЕОРЕТИЧЕСКОЕ ОПИСАНИЕ............................................................................................................................

3.2. ЭМПИРИЧЕСКАЯ АПРОБАЦИЯ РАЗРАБОТАННОЙ МЕТОДИКИ ЭКСПРИМЕНТАЛЬНОГО СРАВНЕНИЯ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ДАННЫХ.....................................................................124

РЕЗЮМЕ ТРЕТЬЕЙ ГЛАВЫ..............................................................................................138

ЗАКЛЮЧЕНИЕ..........................................................................................................................

СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ...........................................................144

ПРИЛОЖЕНИЯ.........................................................................................................................

ПРИЛОЖЕНИЕ 1. ОПИСАНИЕ ПЕРЕМЕННЫХ, ЗАДЕЙСТВОВАННЫХ В МЕТОДИЧЕСКОМ ЭКСПЕРИМЕНТЕ.............................................................................155

ПРИЛОЖЕНИЕ 2. РЕЗУЛЬТАТЫ РАССМАТРИВАЕМЫХ МЕТОДОВ АНАЛИЗА ДАННЫХ, ПОЛУЧЕННЫЕ НА ЭТАЛОННОМ МАССИВЕ, И ИХ СОДЕРЖАТЕЛЬНАЯ ИНТЕРПРЕТАЦИЯ...................................................................................................................

ПРИЛОЖЕНИЕ 3. СРАВНЕНИЕ С ЭТАЛОННЫМИ РЕЗУЛЬТАТОВ АНАЛИЗА, ПОЛУЧЕННЫХ ПОСЛЕ ВНЕСЕНИЯ В ДАННЫЕ ИСКУССТВЕННЫХ ПРОПУСКОВ......175

ПРИЛОЖЕНИЕ 4. СРАВНЕНИЕ С ЭТАЛОННЫМИ РЕЗУЛЬТАТОВ АНАЛИЗА ДАННЫХ, ПОЛУЧЕННЫХ ПОСЛЕ ЗАПОЛНЕНИЯ ПРОПУСКОВ......................................................189

ПРИЛОЖЕНИЕ 5. СХЕМЫ ДЛЯ ВЫБОРА АЛГОРИТМА ЗАПОЛНЕНИЯ ПРОПУСКОВ В ЗАВИСИМОСТИ ОТ КОЛИЧЕСТВА ПРОПУСКОВ И МЕТОДА АНАЛИЗА ДАННЫХ.....216

ВВЕДЕНИЕ

Актуальность

Большинство методов многомерного статистического анализа данных, такие как факторный, кластерный, регрессионный анализ и многие другие, требуют отсутствия пропусков в анализируемых данных. Однако в реальных исследованиях респонденты по разным причинам не отвечают на отдельные вопросы, в результате чего в данных появляются пропуски, с которыми приходится бороться разными способами. Первый способ, предлагаемый всеми известными статистическими пакетами, предусматривает автоматическое исключение из анализа наблюдений (наблюдением мы называем данные, отвечающие отдельному изучаемому объекту, чаще всего - респонденту) с пропусками, что ведет к снижению валидности статистических выводов за счет сокращения размера выборки, возникновения в данных, а затем и в результатах их анализа, систематических смещений. Позже на их основе могут быть приняты ошибочные стратегические решения, устранение негативных последствий которых потребует дополнительных затрат.

Чтобы сгладить указанные недостатки удаления неполных наблюдений, оставшиеся полные наблюдения иногда взвешивают. Этот второй способ в большинстве случаев проблему тоже не решает. Корректировка пропусков в значениях одной характеристики путем взвешивания по ней всех имеющихся наблюдений вызовет неоправданные смещения в распределениях значений остальных характеристик, для которых все значения могли быть изначально известны.

Исследователю необходимы практические инструменты для восстановления отсутствующей информации. Эти инструменты обеспечивает третий (помимо удаления неполных наблюдений и взвешивания полных), на данный момент наиболее перспективный и бурно развивающийся подход — искусственное заполнение пропусков в данных.

На сегодняшний день разработано множество алгоритмов заполнения пропусков, однако сведения о них пока что не систематизированы и разбросаны по большому количеству работ. Отсутствуют обзорные работы, дающие представление о специфике, достоинствах и недостатках хотя бы наиболее распространенных в исследовательской практике алгоритмов заполнения пропусков. Крайне малочисленны и исследования, направленные на сравнительную оценку применимости отдельных алгоритмов заполнения пропусков в конкретных исследовательских ситуациях. Сказанное позволяет считать, что работа, направленная на систематизацию методов заполнения

пропусков в данных и выявление условий их эффективного использования в социологии, является актуальной.

Разработанность проблемы

Рассмотрение проблемы использования в социологии алгоритмов заполнения пропусков не может быть оторвано от условий применения других способов «борьбы» с пропусками, от анализа причин возникновения последних. Поэтому круг проанализированных в диссертации работ содержал отнюдь не только публикации, посвященные непосредственно алгоритмам заполнения пропусков, но и ряд работ, посвященных и другим аспектам изучения пропусков в данных статистических обследований (особенно социологических)1. Проведенный анализ показал, что такой подход оправдан.

В работах, посвященных анализу случаев неполноты социологической (статистической) информации, выделяются две большие темы: (1) недостижимость респондентов и (2) неответы на отдельные вопросы, или отдельные пропуски в данных. Диссертация посвящена исключительно второй теме.

В российской социологии изучением причин возникновения пропусков в данных, анализом роли пропущенных данных, разработкой отдельных алгоритмов заполнения пропусков в разное время занимались В.Г. Андреенков, В.Н. Вапник, Б.З. Докторов, Е.И. Злоба, H.A. Клюшина, Г.С. Лбов, А.Б.Луппов, В.Ю. Королев, О.М. Маслова, А.Ю. Мягков, И.Б. Назарова, В.Е.Россиев, А.А.Снитюк, Г.Г. Татарова, Ю.Н. Толстова, П.Ю. Чеботарев, И.В. Яцкив. Однако наиболее широкое освещение проблематика работы с пропусками данных получила в работах западных исследователей. Настоящая работа в значительной мере лежит в русле идей, предложенных западной школой.

Три основных подхода к работе с отдельными пропусками— удаление неполных наблюдений, взвешивание полных наблюдений и заполнение пропусков — анализировали и сравнивали между собой Р. Платек, Р. Литтл,

1 Большинство рассмотренных нами работ посвящено обсуждению проблемы пропущенных данных в статистических обследованиях вообще, без привязки к конкретной тематике последних. Однако ситуации, складывающейся в социологии, автор уделяет особое внимание. Проявляется это в основном при обсуждении характера случайности пропусков (где основное внимание уделяется причинам их возникновения); выбора учитываемых методов анализа восстановленных данных (это - наиболее употребительные в социологии методы, хотя они широко используются и в других отраслях науки); выбора исследования для «обкатки» предлагаемой методики сравнения методов заполнения пропусков. См.например: Татарова Г.Г. Основания математической формализации в социологии: новые представления о старых проблемах // Математическое моделирование социальных процессов. Вып. 10: сб.ст. / Под ред. А.П. Михайлова. - М.: КДУб 2009. С.351-362. Толстова Ю.Н. Анализ социологических данных: Методология, дескриптивная статистика, изучение связей между номинальными признаками. - М.: Научный мир, 2000.

Д. Рубин2 и др. На данный момент основное внимание в литературе уделяется заполнению пропусков как наиболее перспективному подходу.

В качестве фактора, определяющего выбор допустимого способа ликвидации пропусков, Р.Литтлом была выдвинута степень случайности пропуска: возможность считать пропуск неслучайным, случайным или полностью случайным3. Пропуски полностью случайны (missing completely at random — MCAR), если вероятность их возникновения не зависит ни от истинного значения данного признака, ни от значений других признаков. Пропуски случайны (missing at random — MAR), если вероятность их возникновения обусловлена известными значениями других признаков, но не связана с признаком, значение которого пропущено. Пропуски неслучайны (not missing at random— NMAR), если вероятность неответа на вопрос зависит от самого значения признака (возможного ответа), которое могло быть получено, если бы ответ был дан.

В данной работе не рассматриваются иные типологии пропусков (например, деление на реальные и артефактные, возникшие после удаления самим исследователем заведомо ложных значений), так как они, в отличие от типологии по степени случайности, не определяют допустимые способы работы с пропусками

соответствующего типа.

Степень случайности пропуска в социологических исследованиях не в последнюю очередь зависит от причины его возникновения. Основные причины неответов респондентов на отдельные вопросы анализировали Р. Фербер,

A. Шински, Г. Эссер, Т. Даублер, Р. Платек. Из российских авторов, разрабатывавших данную тематику, назовем упомянутых выше О.М. Маслову,

B.Г. Андреенкова, Б.З. Докторова, H.A. Клюшину, А.Ю. Мягкова, И.Б. Назарову4.

2Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology, Statistics Canada. 1980. No 6 P 127; Little R.J. Survey Nonresponse Adjustments for Estimates of Means // International Statistical Review / Revue Internationale de Statistique. 1986. Vol. 54. No. 2.P. 140; Rubin D.B. Multiple Imputation for Nonresponse in Surveys. New York: Willey, 1987. P. 64-66.

3См. например: Little R. J. A. A test of missing completely at random for multivariate data with missing values // Journal of the American Statistical Association. 1988. No. 83. P. 1198-1202.

4 Ferber R. Item Nonresponse in a Consumer Survey // Public Opinion Quarterly. 1966. Vol. 30. No 3. P.403-410; Sicinski A. Don't Know Answers in Cross-National Surveys II Public Opinion Quarterly. 1970. Vol. 34. No 1. P. 127; Esser H. Determinanten des Interviewer und Befragtenverhaltens: Probleme der theoretischen Erklärung und empirischen Undersuchung von Interviewreffekten // Allgemeine Bevolkerungsumfrage der Sozialwissenschaften. Frunkfurt, 1984. S. 56-60; Daubler T. Nonresponseanalysen der Stichprobe F des SOEP. Berlin: DIW, 2002. P. 7-10; Platek R. Causes of Incomplete Data, Adjustments and Effects // Survey Methodology! Statistics Canada. 1980. Vol.6. P. 97; Андреенков В. Г., Маслова О. М. Эмпирический базис социологической науки // Социологические исследования. 1987. № 6. С. 115; Докторов Б.З. О надежности измерения в социологическом исследовании. Л.: Наука, 1979. С. 56; Клюшина H.A. Причины, вызывающие отказ от ответа // Социологические исследования. 1990. №1. С. 17-29; Мягков А.Ю. Обеспечение анонимности в социологическом опросе // Социологические исследования. 1999. №5. С. 45-61; Мягков А.Ю. Опросные методы сбора данных: Предпочтения респондентов // Социологические исследования. 2000. № 8. С. 36-49; Назарова И.Б. Непроведение опроса и отказ от интервью // Социологический журнал. 1998. № 1/2. С. 27-39.

Однако работы, содержащие анализ того, как именно причины пропусков определяют степень случайности признака, нам неизвестны.

Подводя итог сказанному, констатируем актуальность выработки рекомендаций по выбору допустимого способа ликвидации пропусков в зависимости от причин пропусков и определяемой этими причинами степени их случайности.

Общие принципы заполнения пропусков заложили в своих работах Р. Литгл и Д. Рубин. Они сформулировали основные задачи заполнения пропусков и принципиальные требования, которым должны удовлетворять отдельные алгоритмы заполнения. Р. Литтл разработал типологию отдельных алгоритмов заполнения пропусков в зависимости от степени их простоты и информации, используемой при восстановлении пропущенных значений. Однако на момент публикации соответствующей работы (1978 год) этим автором были классифицированы всего 5 алгоритмов (подстановка среднего арифметического, регрессионное моделирование пропусков, множественное заполнение, HotDeck, случайный подбор в подгруппе). С тех пор было разработано довольно много новых алгоритмов, которые до сих пор не систематизированы.

Отдельные алгоритмы заполнения пропусков в российской литературе описывали Е.И. Злоба, В.Ю.Королев, А.Б. Луппов, A.A. Россиев, В.Е. Снитюк, П.Ю.Чеботарев, И.В. Яцкив.5 В англоязычной литературе отдельным алгоритмам заполнения пропусков посвящены работы К. By, Б. Дейлона, А.Демпстера, К. Эндерса, Дж. Гевики, Дж. Лью и Р. Чен, А. Конга, Р. Фей, У. Фулера, Г. Мидена, Г.Нортона, С. Липситца, Дж.Нелдера и Г.Смита, А. Гупты, Р. Гормана и Т. Сейновски, Г. Банга и Дж. Робинса и многих других. Публикации, посвященные описанию отдельных алгоритмов заполнения пропусков, составляют наиболее многочисленный класс работ, посвященных пропущенным значениям. На данный момент это один из наиболее распространённых и активно развивающихся подходов к работе с пропусками. Подтверждением этого является наличие большого числа статистических пакетов, включающих в себя модули для заполнения пропусков с помощью различных алгоритмов. Например, SPSS (модули Missing Value Analysis Multiple imputation), SAS , STATA, SOLAS, MICE, Missing Data Library for S-Plus.

5 См.например Злоба E., Яцкив И. Статистические методы восстановления пропущенных данных // Computer Modelling & New Technologies., 2002. Vol. 6. Стр.55 - 56; П.Ю. Чеботарев. О рейтинге журналов и агрегировании неполных балльных оценок // Управление большими системами. Т. 27., С.81-90; Луппов А.Б., Кузин С.С. Технология базового анализа данных. М.:МИПК учета и статистики Госкомстата России, 2003 . '

Работы, посвященные сравнению разных алгоритмов заполнения пропусков, появились в 1960-70-е гг. Для сравнения использовались не только разные основания (метод анализа данных, который предполагается использовать после заполнения пропусков, и тип шкалы, по которой измерен признак, значения которого подлежат восстановлению), но и разные способы сравнения: теоретический или экспериментальный. В соответствии со способами сравнения алгоритмов заполнения пропусков выделим два класса работ.

Первый класс относится к 1960-70-м гг. и посвящен результатам теоретического сопоставления методов анализа данных и алгоритмов заполнения пропусков. Основной фокус работ этого класса находится в теоретическом описании связи между используемыми алгоритмами заполнения пропусков и результатами последующего анализа данных определенным методом. Здесь можно назвать работы Р. Литтла, А. Афифи и Р. Илашоффа, Й. Хайтовски, С. Бака, Ф. Йейтса. А из российских авторов - упомянутых выше Н.В. Вапника и Г.С. Лбова6, разработавших собственные подходы к заполнению пропусков.

Второй класс работ, посвященных сравнению эффективности алгоритмов заполнения пропусков, объединяет публикации, в которых представлены результаты экспериментальных сравнений разных алгоритмов заполнения пропусков. Работы второго класса появились в конце 1980-х - начале 2000-х гг. В этом русле работали Л. Чен, Дж. Гилман и О. Данн, Д. Рубин и Н. Шенкер7. Таким образом, в работах, посвященных сравнению эффективности алгоритмов заполнения пропусков, отчетливо виден переход от теоретического (дедуктивного) обоснования выводов к экспериментальному (индуктивному).

Однако упомянутые примеры как теоретического, так и экспериментального соотнесения методов анализа данных и алгоритмов заполнения пропусков не позволяют составить более или менее полных рекомендаций для исследователя по выбору последних. В качестве причин можно назвать два обстоятельства. Во-первых, работы названных авторов охватывают далеко не все даже самые

6 Little R.J. Regression With Missing X's: A Review // Journal of the American Statistical Association. 1992. Vol. 87. No. 420. P. 1227-1237; Afifi A.A., Elashoff R.M. Missing Observations in Multivariate Statistics: I. Review of the Literature // Journal of the American Statistical Association. 1966. Vol. 61.No 315. P. 595-604; Haitovsky Y Missing Data in Regression Analysis // Journal of the Royal Statistical Society. 1968. Series В (Methodological)! Vol. 30.No. l.P. 67-82; Buck S.F. A method of estimation of missing values in multivariate data suitable for use with an electronic computer // Journal of the Royal Statistical Society. 1960. Series В (Methodological). Vol. 22.No. 3.P. 302-307; Yates F. The Analysis of Replicated Experiments When the Field Results Are Incomplete // The Empire Journal of Experimental Agriculture. 1933. No.l. P. 129-142; Вапник B.H. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979; Лбов Г.С. Методы обработки разнотипных экспериментальных данных. Новосибирск: Наука, 1981.

Chan L.S., Gilman J.A., Dunn O.J. Alternative Approaches to Missing Values in Discriminant Analysis // Journal of the American Statistical Associatiomo 1996. Vol. 71.No. 356. P. 842-844; Rubin D.B., Schenker N Multiple Imputation for Interval Estimation From Simple Random Samples With Ignorable Nonresponse // Journal of the American Statistical Association. 1986.Vol. 81. No. 394.P. 366-374.

7

распространё�