Иерархический кластерный анализ

Исследование территориальной дифференциации структуры добавленной стоимости субъектов РФ методами кластерного анализа

Имеются следующие статистические данные о структуре добавленной стоимости в субъектах Российской Федерации по состоянию на 2005 год:

· доля добавленной стоимости, приходящаяся на сельскохозяйственную продукцию;

· доля добавленной стоимости, приходящаяся на добычу полезных ископаемых;

· доля добавленной стоимости, приходящаяся на обрабатывающие производства;

· доля добавленной стоимости, приходящаяся на оптовую и розничную торговлю;

· доля добавленной стоимости, приходящаяся на операции с недвижимостью.

Всего объектов в выборке 78 (ряд АО не выделялся отдельно). Естественно задаться вопросом – не существует ли в пределах Российской Федерации некоторых групп регионов, сходных по структуре добавленной стоимости? Если да, то сколько существует таких групп, или, как говорят, кластеров? Что именно будет отличать объекты одного класса от объектов других кластеров?

Иерархический кластерный анализ

 

 

Для ответа на этот вопрос воспользуемся методами кластерного анализа. Поскольку число классов нам неизвестно, то обратимся к иерархическим кластер-процедурам. Все иерархические кластер-процедуры делятся на агломеративные (объединяющие) и дивизимные (разделяющие), в пакете Statistica реализованы агломеративные кластер-процедуры.

Перед проведением кластерного анализа следует обратить внимание на масштаб и шкалы, в которых представлены изучаемые признаки. Например, если одна переменная измерена в тысячах рублей, и ее среднее 2000, а вторая в рублях, и ее среднее 20, то при расчете расстояния между объектами даже небольшие различия по первой переменной будут вносить существенный вклад в увеличение расстояния, в то время как достаточно большие различия по второй переменной будут незаметны. В таких ситуациях рекомендуется привести данные к более сравнимому масштабу, перейдя к другим единицам измерения, или провести их стандартизацию.

В нашем случае стандартизация не является необходимой, попробуем выполнить классификацию без нее. Если исходные данные представлены не в файле формата *.sta, то при вставке удобно использовать опцию вставки в заголовками Paste with HeadersPaste with Both (рисунок 1).

Иерархический анализ

Рисунок 1 – Вид окна Statistica с вызванными пунктами меню для вставки с заголовоками

После вставки данных зайдем в модуль кластерного анализа, используя пункт меню StatisticsMultivariate Exploratory TechniquesClaster Analysis (рисунок 2).

Кластерный анализ

Рисунок 2 – Вид окна Statistica с исходными данными и выбором пунктов меню для вызова кластерного анализа

В появившемся окне выберем Joining (tree clustering) – Объединение (древовидная классификация) и нажмем ОК (рисунок 3). Выбор этого пункта запускает иерархические алгоритмы классификации, на выходе которых будет дендрограмма, о чем свидетельствует ее изображение в названии пункта.

Кластерный анализ

Рисунок 3 – Вид окна выбора метода классификации

В окне модуля иерархического кластерного анализа сразу перейдем на вкладку Advanced и будем работать с ней. Нажмем на кнопку Variables и выберем 5 анализируемых переменных для анализа. Это можно сделать с помощью мыши или перечислив номера выбираемых переменных в поле Select variables (рисунок 4).

Кластерный анализ

Рисунок 4 – Вид окна выбора переменных для кластерного анализа

В выпадающем списке Input file оставим установленный по умолчанию вариант Raw data – это означает, что исходные данные представлены матрицей «объект-свойство», строки которой представляют объекты, а столбцы – характеризующие эти объекты признаки. Именно в таком виде представлены наши исходные данные: 78 субъектов РФ (78 строк), характеризующихся 5 признаками (5 столбцов).

В выпадающем списке Cluster изменим установленный по умолчанию вариант Variables (columns), означающий, что кластеризоваться будут признаки (столбцы), на нужный нам вариант Cases (rows), означающий, что кластеризоваться будут объекты – в нашем случае субъекты РФ.

Далее нужно определиться с метрикой. В Statistica имеется несколько вариантов:

Squared euclidean distanceквадратичное евклидово расстояние;

Euclidean distance – обычное евклидово расстояние;

City-block (Manhattan) distances – манхеттенское расстояние;

Chebychev distance metric – расстояние Чебышева;

Power distanceспециальный класс метрических функций (расстояние Минковского).

Выбор метрики производится в выпадающем списке Distance measure. Поскольку в нашем случае нет информации о том, что какой-то признак более важен для классификации, чем остальные, мы желаем в равной степени учитывать различия по каждому признаку, выберем обычное евклидово расстояние.

После выбора метрики определяемся с алгоритмом кластеризации (выпадающий список Amalgamation (linkage) rule):

Single linkage – метод «одиночной связи»;

Complete linkage – метод «полных связей»;

Unweighted pair group average – метод «средней связи»;

Weighted pair group averageвзвешенный метод средней связи;

Unweighted pair group centroidцентроидный метод (невзвешенный);

Weighted pair group centroid – взвешенный центроидный метод;

Ward′s method – метод Уорда.

Выберем, например, метод Уорда – часто он дает довольно компактные и хорошо разделенные кластеры. Вид окна с описанными настройками представлен на рисунке 5.

Кластерный анализ

Рисунок 5 – Вид окна настроек иерархического кластерного анализа

Нажатие ОК выводит на экран форму вида, представленного на рисунке 6.

Кластерный анализ

Рисунок 6 – Вид окна вызова результатов модуля кластерного анализа

Результаты иерархической классификации нагляднее всего представить в виде дендрограммы. Выберем горизонтальную дендрограмму (кнопка Horizontal hierarchical tree plot), поскольку у нас достаточно длинные названия кластеризуемых объектов, и на вертикальной дендрограмме они будут неразличимы. Полученная дендрограмма представлена на рисунке 7.

Рисунок 7 - Вид дендрограммы (до изменения настроек)

Настройки диаграммы по умолчанию оказались не совсем удачными, поэтому прежде чем приступать к анализу, приведем дендрограмму в читабельный вид. Для этого, во-первых, изменим размер шрифта подписей названий объектов: выделим названия объектов с помощью мыши, выполним двойной щелчок, в окне настроек оси нажмем на кнопку Font и выберем подходящий размер шрифта, например 4 (рисунок 8).

Иерархический анализ

Рисунок 8 – Вид окна настроек параметров оси

При необходимости изменить фоновый цвет дендрограммы, делаем двойной щелчок мышью в любом месте дендрограммы и на вкладке Graph Window выбираем нужный цвет подложки (рисунок 9).

Иерархический анализ

Рисунок 9 – Вид окна настроек параметров графика

Отредактированная дендрограмма представлена на рисунке 10.

Иерархический анализ

Рисунок 10 – Вид дендрограммы после редактирования

Для определения количества кластеров, на которые целесообразно разбить все субъекты РФ, нужно выбрать пороговое расстояние - то есть такое расстояние, при превышении которого объединяться будут уже слишком далекие с точки зрения исследователя объекты. После выбора порогового расстояния проводится перпендикуляр через точку, соответствующую выбранному расстоянию, и подсчитывается количество его пересечений с «ветвями» дендрограммы. Количество пересечений и будет определять количество классов, а объекты, оказавшиеся на «отсеченной» ветке – состав классов. Например, при пороговом расстоянии 200 выделяется 3 класса, при пороговом расстоянии 100 – 5 классов, при пороговом расстоянии 70 – 6 классов (рисунок 11).

Иерархический анализ

Рисунок 11 – Вид дендрограммы с нанесенными линиями пороговых расстояний

Выбор количества классов может определяться на основе анализа специальных функционалов качества, на основе сравнения разбиений на различное количество классов, возможности из содержательной интерпретации и других критериев. Окончательный выбор остается за исследователем.

Одним из доступных в Statistica инструментов для выбора количества классов являются график процесса объединения (кнопка Graph of Amalgamation schedule) и таблица объединения объектов (кнопка Amalgamation schedule), представленные на рисунках 12 и 13.

Иерархический анализ

Рисунок 12 – График объединения объектов в классы методом Уорда

Иерархический анализ

Рисунок 13 – Таблица объединения объектов методом Уорда

Как же использовать данные инструменты для определения количества классов? Есть несколько практических рекомендаций:

1) на графике находится точка «перелома» и номер шага m, на котором произошел «перелом»; тогда количество классов равно n-m, где n – количество объектов в выборке;

2) в столбце linkage distance таблицы объединения находится такой номер шага m, объединение на котором произошло уже на существенно большем расстоянии, чем на шаге m-1; тогда количество классов равно n-m, где n – количество объектов в выборке.

В нашем случае в качестве точки перелома можно рассматривать шаг под номером 73, откуда получаем 78 - 73 = 5 классов. Такое же количество классов подтверждается и анализом таблицы объединения: на шаге 73 произошел скачок расстояния более, чем на 20 единиц, в то время как на предыдущих шагах скачки не превышали 9 единиц.

Таким образом, мы ответили на первый вопрос – по схожести структуры добавленной стоимости субъекты РФ целесообразно разделить на 5 классов.

Для иерархических методов в Statistica не предусмотрен ни автоматический вывод состава кластеров, ни автоматический вывод средних значений признаков в классах. Покажем, как по возможности упростить запись состава классов, не прибегая к программированию на VBA для Statistica.

Анализируя порядок следования субъектов РФ сверху вниз на дендрограмме (рисунок 14), заметим, что:

1 класс – с Белгородской области по Республику Башкортостна

2 класс – с Владимирской области по Омскую область

3 класс – с Брянской области по Карачаево-Черкесскую Республику

4 класс – с Республики Ингушетия по Чукотский Автономный округ

5 класс – с Республики Коми по Тюменскую область

Именно в таком порядке названия субъектов РФ перечислены в последней строке таблицы объединения, представленной выше на рисунке 13. Скопируем эта строку, например, в Excel, транспонируем в столбец с помощью операции Специальной вставки, снова скопируем в новый файл с данными в Statistica и проставим в новом столбце напротив Белгородской области, Республики Карелия и далее до республики Башкортостан номер 1, напротив Владимирской, Новгородской, Челябинской и далее до Омской области – номер 2 и т.д. по всем субъектам РФ (рисунок 15).

Иерархическое объединение

Рисунок 14 – Выделение классов на дендрограмме

Иерархическое объединение

Рисунок 15 – Вид окна Statistica с новой переменной, содержащей номера классов

Теперь легко составить таблицу, содержащую cведения о составе каждого класса, например, вот такую (таблица 1).

Таблица 1 – Состав классов, выделенных методом Уорда

Номер класса

Количество объектов в классе

Состав класса

1

11

Области: Белгородская, Архангельская, Курская, Калининградская, Мурманская, Самарская, Волгоградская

Республики: Карелия, Хакасия, Башкортостан

Края: Пермский

2

16

Области: Владимирская, Новгородская, Челябинская, Калужская,Тульская, Ярославская, Вологодская, Свердловская, Московская, Ленинградская, Астраханская, Иркутская, Липецкая, Нижегородская , Омская

Края: Красноярский

3

29

Области: Брянская, Орловская,Тамбовская, Курганская, Ивановская,Тверская, Рязанская, Смоленская, Воронежская, Ульяновская, Псковская, Ростовская, Саратовская, Новосибирская, Костромская, Кировская, Пензенская

Республики: Чувашская, Марий Эл, Мордовия, Северная Осетия – Алания, Адыгея, Дагестан, Кабардино-Балкарская, Карачаево-Черкесская

Края: Краснодарский, Хабаровский, Алтайский, Ставропольский

4

13

Области: Сахалинская, Амурская

Республики: Ингушетия, Бурятия, Алтай,Чеченская,Тыва, Калмыкия

АО: Еврейская автономная область, Чукотский автономный округ

Края: Забайкальский, Камчатский, Приморский

5

9

Области: Магаданская, Кемеровская, Оренбургская, Томская, Тюменская

Республики: Коми, Саха (Якутия) Татарстан Удмуртская

Теперь, чтобы восстановить соответствие между названиями субъектов РФ и характеризующими их данными, произведем упорядочение по алфавиту отдельно первых пяти переменных в файле с исходными данными (c/х, добыча полезных ископаемых, обрабатывающие производства, оптовая и розничная торговля, операции с недвижимостью) и двух переменных var1 и var2, содержащих упорядочение по классам. Для этого выделим первые пять переменных и выберем пункт главного меню DataSort (рисунок 16).

Иерархическое объединение

Рисунок 16 – Выбор пункта меню для сортировки данных

Далее кнопкой Add Var(s)> перенесем все пять анализируемых переменных и переменную casename, содержащую названия объектов, в правую часть окна (рисунок 17).

Иерархическое объединение

Рисунок 17 – Выбор переменных для сортировки

Выделим переменную casename. Нажатие ОК произведет сортировку данных по алфавиту. Аналогично проведем сортировку в новом файле данных, куда мы скопировали названия субъектов РФ и номера классов, к которым они относятся. Скопируем столбец с номерами классов в файл с исходными данными – теперь мы получили правильное сопоставление объектов и классов! (рисунок 18).

Иерархическое объединение

Рисунок 18 – Отсортированные по алфавиту данные вместе с номерами классов

Теперь мы легко можем получить средние значения признаков в каждом из выделенных классов и ответить на вопрос, чем же классы отличаются друг от друга. Для этого выберем пункт главного меню StatisticsBasic Statistics and Tables, в нем пункт Descriptive statistics (рисунок 19)

Иерархический кластерный анализ

Рисунок 19 – Выбор пункта Basic Statistics and Tables - Descriptive statistics

Затем в окне модуля описательной статистики, нажав кнопку Variables, выберем пять переменных (c/х, добыча полезных ископаемых, обрабатывающие производства, оптовая и розничная торговля, операции с недвижимостью). Нажмем кнопку By Group и выберем в качестве группирующей переменной Grouping Variable(s) ту, в которую мы сохранили номера классов. В нашем случае эта переменная была названа class (рисунок 20).

Иерархический кластерный анализ

Рисунок 20 – Выбор группирующей переменной для расчета описательных статистик по классам

Теперь определимся с тем, какие описательные характеристики классов нам будут наиболее интересны. Обычно достаточно сравнить средние значения признаков в классах. Однако будет полезно также рассчитать: границы доверительных интервалов для среднего (чтобы посмотреть, не пересекаются ли они для разных классов), дисперсию (чтобы сравнить классы по величине внутриклассового разброса значений), моду (наиболее часто встречающееся значение), минимальное и максимальное значения, количество объектов в классе и коэффициент вариации (рисунок 21).

Иерархический кластерный анализ

Рисунок 21 – Выбор описательных характеристик

Нажатие Summary даст следующие результаты, например, для первого класса (рисунок 22).

Иерархический кластерный анализ

Рисунок 22 – Описательная статистика по классу 1

Скопируем средние значения признаков в каждом классе в новый файл и переименуем переменные и объекты, как показано на рисунке 23.

Иерархический кластерный анализ

Рисунок 23 – Вид файла с данными по средним значениям признаков в классах

Выделим все переменные, выполним двойной щелчок мыши и в выпадающем меню выберем Graphs of Block DataLine Plot: Entire Columns (рисунок 24).

Иерархический кластерный анализ

Рисунок 24 – Выбор пункта всплывающего меню для построения графика

В результате выполнения команды будет получен следующий график (рисунок 25).

Иерархический кластерный анализ

Рисунок 25 – График средних значений признаков в классах, полученных методом Уорда

Его анализ позволяет нам дать интерпретацию классам и, наконец, выяснить, что же классы были нами выделены.

Первый класс характеризуется сравнительно высокими долями добавленной стоимости, приходящейся на добычу полезных ископаемых и обрабатывающие производства, однако не является ни одному направлению абсолютным лидером. В его состав вошли 11 субъектов РФ.

Характерной особенностью 16 субъектов РФ, вошедших во второй класс, является самая высокая доля добавленной стоимости, приходящаяся на обрабатывающие производства при крайне низкой доли добавленной стоимости, приходящейся на добычу полезных ископаемых. Сравнительно высока и доля торговли в добавленной стоимости.

Третий класс, содержащий 29 субъектов РФ и потому наиболее многочисленный, является лидером по доле в добавленной стоимости сельскохозяйственной продукции и торговли. Довольно высока и доля стоимости, формируемой за счет обрабатывающих производств.

Четвертый класс характеризуется крайне низкой долей обрабатывающих производств в добавленной стоимости, в ней сравнительно высоки доли сельского хозяйства и торговли, но в целом можно заметить, что для этих субъектов РФ рассмотренные пять статей добавленной стоимости формируют меньше половины всей добавленной стоимости.

Характерной особенностью субъектов РФ, вошедших в пятый класс, является самая высокая среди всех классов доля добавленной стоимости, приходящейся на добычу полезных ископаемых – в среднем 35% от всей добавленной стоимости. Напомним, что в этом класс вошли газовая Оренбургская области, нефтяная Тюменская области и др.

Таким образом, использование кластерного анализа позволило выделить группы субъектов Российской Федерации, сходных по структуре добавленной стоимости.

 

Attachments:
FileОписание
Access this URL (http://www.statosphere.ru/downloads/examples/Addvalue.sta)Иерархический кластерный анализДобавленная стоимость - Addvalue.sta

Комментарии  

 
+4 #5 Natali 12.11.2013 11:16
Большое спасибо за подробное описание процесса кластеризации
Используя данный метод, я затрудняюсь на какое количество классов правомерно делить
Цитировать
 
 
+10 #4 Евгения 19.05.2013 22:55
Огромное спасибо автору! очень помогла статья!
Цитировать
 
 
+8 #3 ЖВ 07.07.2012 02:49
замечательный анализ, замечательные инструкции. как бы все это пошире внедрить, в широкие-то массы? и чтобы, кроме пары-тройки умников, это поняли руководители наши? и рулили бы сообразно результатам анализа, а не как Бог на душу положит. Эх!
Цитировать
 
 
+7 #2 N 13.06.2012 16:23
супер, спасибо за подробное описание последовательно сти действий)
Цитировать
 
 
+6 #1 саша 20.04.2012 10:39
красиво-красиво
Цитировать
 

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей