На главную страницу

Автоматизация анализа анкетных данных
П. С. Ростовцев

Почти всегда прикладные исследования проводятся в состоянии цейтнота: необходимо выдать результаты обработки собранных данных к ближайшему выпуску газеты или проанализировать ситуацию до предстоящего совещания на высшем уровне, заседания городского совета, ускорить маркетинговые исследования и т. п.

В фундаментальных исследованиях много сил и средств идет на рутинную работу: подобрать интервалы для количественных переменных, так скомпоновать таблицу, чтобы закономерность прослеживалась наиболее явственно, наконец построить типологию, объединив содержание массы таблиц – все это требует колоссальных затрат времени и умственной энергии.

Надежен ли полученный результат? Может быть при повторном обследовании мы получим обратное? Эти вопросы важны и в прикладных и в фундаментальных исследованиях.В данной работе мы представим краткий обзор методов программного обеспечения, разработанных в Институте экономики и организации производства СО РАН (Новосибирск), предназначенных для автоматизации, увеличения эффективности и надежности анализа социально-экономических данных. Для иллюстрации применения методов используются данные различных социологических исследований, проведенных отделом социальных проблем Института экономики и ОПП СО РАН. Основные результаты данной работы ранее изложены в работе [8].

Ввод данных.Автоматизация обработки информации начинается с подготовки информации. Здесь нами используется в качестве экранных форм текст анкеты, непосредственно созданный для опроса. Если позволяют условия, может производиться компьютерный опрос. Логика опроса и контроль ввода программируются исследователем (не специалистом в программировании). До появления этого инструмента подобным инструментом являлась программа DATA ENTRY в статистическом пакете SPSS, однако, он был сложен для применения его социологом-практиком.

Устойчивость результатов. Для проверки устойчивости результатов мы применяем имитацию повторного сбора данных – метод BootStrap [11, 13]. Имитация состоит в выборке с возвращением и повторном вычислении статистик и структур данных.

Таблицы сопряженности. Этот наиболее распространенный инструмент исследования данных [1] мы развили в настоящее время для исследования связи между не альтернативными вопросами (типа меню). Кроме частот и процентов в число статистик ячеек таблицы мы включили средние по внешней переменной, значимости и BootStrap-значимости смещений средних и частот. BootStrap-значимость полезна при исследовании “взвешенных” данных, когда классические методы бессильны. В табл. 1 сопоставлено использование классического метода (критерия Стьюдента) и применение BootStrap-значимости. В ней сравниваются средние в группах, определяемых ячейками таблицы, с остальной совокупностью. Хотя применение критерия Стьюдента в данном случае не вполне корректно, складывается ясное впечатление о сопоставимости результатов.

Таблица 1
Средний возраст в группах по ответам на вопросы “Что цените в жизни?”
и “Ваше семейное положение?”, значимости отклонения среднего
по отношению к средним в группах по семейному положению,
Bootstrap-значимость (100 экспериментов)


Жизненная
ценность
Женат
Разведен
Вдовец (вдова)
Холост (не замужем)
По всей совокупности
Друзья
40,22
41,28
55,82
26,00
39,24
Значимость
0,000
0,079
0,001
0,001
-
Bootstr.-знач.
0,000
0,120
0,000
0,000
-
Работа
41,27
43,62
61,58
28,38
41,21
Значимость
0,016
0,674
0,324
0,238
-
Bootstr.-знач.
0,000
0,660
0,400
0,190
-
Семья 
41,13
41,27
58,45
27,41
41,16
Значимость
0,000
0,057
0,000
0,046
-
Bootstr.-знач.
0,000
0,080
0,000 
0,030
-
Материальное
благополучие
40,53
41,60
58,50
29,76
40,50
Значимость
0,000
0,109
0,056
0,599
-
Bootstr.-знач.
0,000
0,110
0,030
0,570
-
Здоровье
43,47
44,08
63,10
30,60
44,06
Значимость
0,991
0,852
0,792
0,889
-
Bootstr.-знач.
0,980
0,840
0,770
0,960
-
По всей
совокупности
42,45
43,06
62,35
29,38
42,76

Исследование структур данных. Распространенным методом анализа структуры данных является кластерный анализ [3]. Объекты этим методом распределяются по кластерам в соответствии с их близостью. Некоторые методы позволяют проводить прямую кластеризацию таблицы данных, выявляя в ней структуру из однородных прямоугольников [2, 14]. Точным обоснованным выводам статистического характера о кластерной структуре уделяли внимание Бокк и Хартиган [12, 14] – их исследования показывают сложность решения проблемы традиционными параметрическими методами.

Устойчивость метода "k средних". Мы снабдили средствами исследования устойчивости результатов работы этого метода. Суть метода состоит в генерировании выборки с возвращением из исходных данных, и проведении классификации методом "k средних" с использованием в качестве начальных центров, полученных на исходных данных. Это позволило, в отличие от их исследований, оценивать устойчивость отдельных объектов, классов, и классификации в целом.

Структура таблиц данных. Для анализа небольших данных, таких, как таблица сопряженности нами разработан алгоритм разделения матрицы данных на однородные связные области. Такая свободная форма областей является достижением данного метода. В основе алгоритма – упорядочение строк и столбцов, агломеративная процедура объединения кластеров и перемещение их границ.

В табл. 2 представлены результаты исследования структуры областей для таблицы стандартизованных отклонений частот от их ожидаемых значений. Из таблицы ясно видно, например, что ценность женатых (замужних) – семья, у вдовых ценности – уважение и отношения между людьми, зато работа не является ценностью.

Устойчивость структуры таблицы сопряженности. Имитация повторного сбора данных (BootStrap) вызывает “возмущение” элементов таблицы и изменение структуры кластеров (рис. 1).

Процедура имитации повторного сбора данных позволяет оценить устойчивость элементов таблицы в кластерах и устойчивость упорядочения строк и столбцов.

Основные тенденции связи. Черно-белый анализ связи переменных. Необъятность таблиц стимулировала появление множества методов исследования таблиц сопряженности [1, 4, 5, 10]. Эти методы позволяют выявить соответствия и даже провести оцифровку значений переменных, но оставляют за исследователем работу по интерпретации шкал.

Таблица 2
Структура однородных областей таблицы стандартизованных
отклонений частот от ожидаемых значений (Z-отклонений)
 

 

Рис 1. Эксперименты по проверке устойчивости структуры областей таблицы
Z-отклонений (связь жизненных ценностей и семейного положения, табл. 2).

Предлагаемый метод состоит в поиске такого дихотомического ("черно-белого") разбиения значений двух переменных, чтобы четырехклеточная таблица сопряженности агрегированных переменных была максимально контрастной. Критерием контрастности является смещение частоты в первой ячейке таблицы от ожидаемого значения. Мы пытаемся разделить совокупность по каждой из участвующих переменных на 2 группы, отражающие два полюса в значениях переменных – “черное–белое”, "богатые–бедные", "старые–молодые", "должно-
сти прибыльные–неприбыльные"; группировка происходит одновременно по двум переменным. Исследование устойчивости позволяет выявить нечеткость соответствия значений переменной полюсам. Преимущество, к которому мы стремимся – это простота интерпретации. Имитация повторного сбора данных размывает границы “черного и белого”, внося полутона в такой анализ.

Таблица 3
Связь профессионального образования с душевым доходом
(абсолютные частоты, проценты по строке и по столбцу)
 

 
Табл. 3 демонстрирует основную тенденцию, найденную компьютером. Классы по анализируемым переменным имеют номера 0 и 1. Соответственно ячейки имеют номера 00, 01, 10 и 11.
Таблица 4
Устойчивость классификации по проф. образованию
Проф.образование
(низкий уровень)
Курсы ПТУ, ФЗУ, РУ Нет проф.образования
»Степень 
серости» 
0%  4%  14%
Проф.образование 
(высокий уровень)
Высшее Среднее специальное Другое
Проф.образование 
(высокий уровень)
87% 100% 100%

Табл. 4 и 5 показывают размытость классификаций – “степень серости” каждого значения, которая является долей случаев, когда значение оказывалось в 1-м классе. Таким образом, значение переменной “образование” – “курсы” прочно осело в нулевом классе, а среднее специальное – в первом.

Таблица 5
Устойчивость классификации по душевому доходу
Душевой доход, руб.
“Степень серости”, %
Душевой доход, руб.
“Степень серости”, %
Менее 3600
0
4250
60
3600
6
4300
60
3700
8
4350
65
3725
10
4400
70
3800
15
4450
77
3900
21
4500
91
4050
43
4530
91
4100
58
4600
93
4109
58
4750
94
4118
58
4900
95
4150
58
5000
100
4200
58
более 5000
100
4230
58
   

Автоматизация построения типологий. Типологией называется логическое разделение совокупности объектов на качественно различные группы объектов – типы [7].

В соответствии с таким пониманием типологии мы рассматриваем множество целевых переменных, по которым оценивается качество группирования, и множество группировочных переменных, используемых для построения логики группирования. Таким образом, основная идея автоматизации типологического группирования заключена в рабочей формуле:

Типология = Логика Группирования + Цель Группирования

Формальной целью группирования является разделение совокупности объектов (анкет) на классы, различающиеся по множеству "зависимых" переменных Y={Y1,...,Yn}; для формирования логики группирования используется множество "независимых" переменных X={X1,...,Xm}
Типология здесь – разбиение R={R1,...,Rk} совокупности объектов на классы (типы), оптимальное с точки зрения его связи с целевыми переменными Y, построенное с использованием логики группирования объектов по множеству "независимых" переменных X. Типология строится в виде дерева группирования по переменным X, вершины которого объединяются в классы – типы. При построении классификации R мы ограничиваем сложность логики группирования формальными критериями (число вершин в дереве группирования, число типов, размер групп и т. п.); при построении типологии в диалоговом режиме, который в настоящее время считается основным, сложность группирования определяется из содержательных соображений.

В отличие от известных методов [6, 15] в качестве критерия классификации (типологии) мы используем внутриклассовый разброс [10], как это делается в ряде алгоритмов кластерного анализа [4], однако здесь используется модификация критерия, позволяющая работать как с количественными, так и с неколичественными переменными.

Для демонстрации дерева группирования воспользуемся типологией (рис. 2), построенной по переменным (X) "Пол", "Возраст", "Семейное положение" и "Образование". В качестве независимых переменных (Y) взяты дихотомические переменные – индикаторы того, являются ли жизненными ценностями респондентов "Семья" и "Будущее детей". Заметим, что хотя признак "Возраст" принимал участие "в конкурсе" переменных для группирования данных, он не участвовал в логике группирования. Для характеристики дерева группирования по зависимым переменным представим таблицу процентного распределения целевых переменных (табл. 6).
 
 
 
Группа
Тип
   
0<
*515
Вся совокупность
1<
  330 Семейное положение: женат
4*3
    51 Образование: неполное среднее
5*3
    81 Образование: общ.среднее, проф.-техническое
6*2
    198 Образование: среднее специальное, высшее
2<
  104 Семейное положение: разведен, вдов
7*1
    15 Пол: мужской
8*3
    89 Пол: женский
3*1
  81 Семейное положение: холост (не замужем)

 

Рис. 2. Типология населения по ориентации на семейные ценности. Структура строки рисунка: номер группы, символ “<“, если группа разбивается, символ “*” с последующим за ним номером типа, если группа представляет висячую вершину; описание вершины (группы): число объектов, переменная и список значений, ее идентифицирующих

Таблица 6
Доли в типах и группах респондентов (%), отметивших среди ценностей
будущее детей и семью


Группа, тип
Будущее детей
Семья
Вес*
Тип 1 
17,7
31,2
96
Группа 3
18,5
32,1
81
Группа 7
13,3
26,7
15
Тип 2 
78,3
72,7
198
Группа 6
78,3
72,7
198
Тип 3 
69,2
47,1
221
Группа 4
58,8
45,1
51
Группа 5
68,3
56,1
82
Группа 8
76,1
39,8
88

*) Взвешенное число объектов

Устойчивость типологического группирования исследуется на локальных шагах разбиения. Для этого классификация получается многократно на сгенерированных данных и сравнивается с классификацией на исходных данных.

Внутренняя типология. Не всегда при построении типологии задается множество целевых переменных, иногда нужно разумно логически разделить совокупность объектов на типы по заданным переменным, не более того. В этом случае целью является сжатие информации в одну классификацию. Задача кластерного анализа весьма близка к такой постановке, однако, при ее решении не дается логика группирования. Нашими средствами такая задача решается за счет задания в качестве целевых и группировочных признаков одного и того же множества признаков.

Именно так решена нами задача построения типологии по жизненным ценностям, которым в данных соответствовали дихотомичес-
кие переменные "Свобода", "Будущее детей", "Карьера", "Семья", "Ма-
териальное благосостояние", "Власть", "Здоровье", "Любимое дело".

Типология, по-существу, состоит из трех вершин дерева: группы 3 (тип 3, полученный объединением групп 7 и 8), респондентов, не ценящих ни будущее детей, ни карьеру; группы 4 (тип 1) – ценителей карьеры, не думающих о детях; группы 2 (тип 2, объединение групп 5 и 6) – ценители детей.
 
 
 
Группа
Тип
 
0<
*515.0 <14.56%1.00>
1<
 
224.1:0.00 <10.50%1.00> Будущее детей: нет
3<
   
194.7:0.00 <6.02%1.00> Карьера: нет
7*3
     
131.1:0.00 <3.42%1.00> Любимое дело: нет
8*3
     
63.5:0.00 <2.47%1.00> Любимое дело: да
4*1
   
29.4:0.00 <0.00%0.00> Карьера: да
2<
 
290.9:0.00 <7.71%1.00> Будущее детей: да
5*2
   
168.3:0.00 <4.95%1.00> Мат.благ.: нет
6*2
   
122.6:0.00 <2.98%1.00> Мат.благ.: да

Рис. 3. Дерево группирования по жизненным ценностям

Эта типология, вероятно, слишком бедна и лучше остановиться на типологии, которую дает разбиение без синтеза типов:

Здесь в логике группирования непосредственно заложена характеристика по цели группирования, но логика характеризует лишь часть переменных, остальную информацию мы извлечем из таблицы процентных распределений (табл. 7).
Таблица 7
Распределение респондентов в группах-типах по отмеченным ими
жизненным ценностям


Жизненная
Группа 6
Группа 5
Группа 7
Группа 8
Группа 4 
ценность
Хозяин
Семьянин
Нигилист
Увлекающийся
Карьерист
Будущее детей
100,0
100,0
0,0
0,0
0,0 
Семья
67,9
56,8
30,3
40,7
29,2 
Здоровье
69,0
65,7
57,9
62,2
37,2 
Матер.благопол.
100,0
0,0
36,0
50,8
94,6 
Любимое дело
5,1
28,6
0,0
100,0
32,1 
Свобода
14,8
25,6
15,5
38,0
62,5 
Карьера
2,7
3,2
0,0
0,0
100,0 
Власть
0,0
0,9
0,6
1,2
3,4 

Перспективы. В настоящее время идет работа по созданию небольшой системы программ, объединяющей разработанные методы. Круг решаемых задач будет расширяться с целью типологического анализа сложных явлений. Эта задача была предметом “соревнования” многих статистиков при сравнении средних в дисперсионном анализе [10]. Наш опыт здесь состоит в сравнениях групп в детерминационном анализе, основанном на простых статистиках [9], и эту область предстоит расширить.

Литература

 1. Аптон Г. Анализ таблиц сопряженности. – М.: Финансы и статистика, 1982.

 2. Браверман Э. М., Мучник И. Б. Структурные методы обработки эмпирических данных. – M.: Наука, 1983.

 3. Дюран Б., Оделл П. Кластерный анализ. – М.: ИЛ, 1977.

 4. Енюков И. С. Методы, алгоритмы, программы многомерного статистического анализа. – М.: Финансы и статистика, 1986.

 5. Жамбю М. Иерархический кластерный анализ и соответствия// Финансы и статистика, 1988.

 6. Лбов Г. С. Методы обработки разнотипных экспериментальных данных. – Новосибирск: Наука, 1981. 1983.

 7. Плошко Б. Г. Группировка и системы статистических показателей. – М.: Статистика, 1971.

 8. Ростовцев П. С. Смирнова Н. Ю., Корнюхин Ю. Г., Костин В. С. Анализ структур социологических данных. Устойчивость// Анализ и моделирование экономических процессов переходного периода в России. Вып. 2. – Новосибирск: ИЭиОПП СО РАН, 1997.

 9. Ростовцев П. С. Статистические характеристики детерминации// Статисти-
ческое моделирование экономических процессов. – Новосибирск, Наука, 1991.

10. Шеффе Г. Дисперсионный анализ. М.: 1963.

11. Эфрон Б. Нетрадиционные методы многомерного статистического анализа. – М.: Финансы и статистика, 1988.

12. Bock H. H. On some significance tests in cluster analysis// Journal of Classification, 1985. № 1

13. Efron B. Better bootstrap confidence intervals// J. Amer. Statist. Ass., 81, 1986.

14. Hartigan J. A. Clustering algorithms/ Wiley. – N.Y.: 1975.

15. SPSS for Windows. Chaid. – Chicago: 1993.