Иерархическая классификация в STATISTICA

Следующий пример основан на выборке автомобилей различных марок. Более точно, было случайно выбрано по одной модели среди тех, которые предлагает соответствующий производитель. Для каждого автомобиля были записаны следующие данные:

1. Приблизительная стоимость автомобиля (переменная Цена - Price),

2. Время разгона автомобиля (от 0 до 60 секунд; переменная Время разгона - Acceler),

3. Величина тормозного пути (Тормозной путь - Braking при скорости 80 миль/час до полной остановки; переменная Тормоз - Braking),

4. Индекс управляемости - способности "держать" дорогу (переменная Управляемость - Handling), и

5. Расход топлива автомобилем (миль на галлон; переменная Расход топлива - Mileage).

Масштаб измерений. Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами или объектами, и ясно, что, когда вы вычисляете расстояние, необходимо задать масштаб. Поскольку различные измерения используют абсолютно различные типы шкал (т.е. чисел секунд, тысяч долларов и т.д.), данные были стандартизованы (командой Стандартизовать в меню Данные), так что каждая переменная имеет среднее 0 и стандартное отклонение 1. Очень важно, что размерности (переменные в этом примере), которые используются для вычисления расстояний между объектами (автомобилями в данном примере), имеют сравнимые величины, иначе анализ был бы смещённым и связан в большей степени с теми измерениями, которые имеют больший размах значений.

Иерархическая классификация в STATISTICA

 

 

 

 

Стандартизированные данные содержатся в файле Cars.sta. Открыть этот файл данных можно выбрав Открыть из меню Файл; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets.

Цели анализа. Может ли быть проведена таксономия автомобилей, включённых в анализ? Другими словами, формируют ли эти автомобили "естественные" кластеры, которые могут быть осмыслены? Сначала выполним для этих данных процедуры объединения (древовидная кластеризация).

Спецификация анализа. Выберите Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В этом диалоге выберите Иерархическая классификация и нажмите кнопку OK. Далее, нажмите кнопку Переменные во вкладке Быстрый стартовой панели модуля Кластерный анализ и выберите все переменные. Нажмите кнопку OK, чтобы вернуться во вкладку Быстрый стартовой панели модуля Кластерный анализ.

Иерархическая классификация в STATISTICA

Теперь выберите кластеризацию автомобилей (наблюдений) на основе различных переменных. По умолчанию в поле Кластер во вкладке Дополнительно диалогового окна Кластерный анализ: Иерархическая классификация выбрана установка Переменные (столбцы). Вам необходимо изменить эту установку. Вспомним из введения, что в зависимости от имеющегося у исследователя вопроса, можно кластеризовать наблюдения в одну систему, а переменные - в другую. Например, вы можете интересоваться, формируют или нет измерения (переменные) характеристик автомобиля естественные кластеры. Однако в данный момент вы хотели бы знать, формируют ли автомобили (наблюдения) кластеры, и поэтому необходимо установить поле Кластер, таким образом, чтобы оно содержало Наблюдения (строки). Установите также поле Правило объединения (связи) на Метод полной связи. Обсудим это кратко.

Иерархическая классификация в STATISTICA

Мера близости. Вспомним, что метод древовидной кластеризации последовательно свяжет вместе объекты с возрастающими различиями или расстояниями. Имеются различные способы вычисления расстояний, и они объясняются в разделе Вводный обзор. Наиболее прямой путь вычисления расстояния - рассматривать k переменных как размерности, образующие k-мерное пространство. Если имеется три переменных, тогда они сформируют трехмерное пространство. Евклидово расстояние в этом случае было бы тем же самым, как если бы вы измеряли расстояние с помощью рулетки. Возьмем меру Евклидово расстояние.

Правило объединения. Другой вопрос древовидной кластеризации состоит в том, как определить расстояния между кластерами. Будете ли вы использовать метод ближайших соседей в различных кластерах, наиболее удаленных или некоторую более сложную меру? Оказывается, что все эти методы (и другие) предлагаются здесь. Методом по умолчанию - одиночная связь - является правило "ближайшего соседа". Поэтому, когда выполняете процедуру формирования все больших и больших кластеров из все менее и менее сходных объектов (автомобилей), то расстояние между этими кластерами определяется ближайшими объектами из них. Иными словами, в каждом кластере имеется по одному представителю, расстояние между которыми принимается за расстояние между кластерами. Интуитивно ясно, что может случиться так, что ваш результат будет состоять из "волокнистых" кластеров, так как будет соединять вместе кластеры, основываясь только на положении отдельных элементов. В качестве альтернативы вы можете выбрать правило полной связи. В этом случае расстояние между двумя кластерами определяется расстоянием между двумя наиболее удаленными соседями. В результате будут получены более "бугорчатые" кластеры. Посмотрите на рисунки для этих данных, простое правило связи приводит фактически скорее к волокнистым и неразличимым кластерам.

Иерархическая классификация в STATISTICA

Таким образом, для этого анализа был выбран метод полной связи в качестве правила объединения (связи).

Результаты. Начните анализ, нажав кнопку OK в диалоговом окне Кластерный анализ: Иерархическая классификация. Метод древовидной кластеризации является итеративной процедурой. После того, как все объекты будут объединены, откроется диалоговое окно Иерархическая классификация. В данном примере, выберите вкладку Дополнительно.

Иерархическая классификация в STATISTICA

Дендрограмма. Наиболее важным результатом, получаемым в результате древовидной кластеризации, является иерархическое дерево. Модуль Кластерный анализ предлагает два типа древовидной диаграммы с двумя типами ветвей. Для получения древовидной диаграммы стандартного вида выберите опцию Прямоугольные ветви и нажмите на кнопку Горизонтальная дендрограмма.

Иерархическая классификация в STATISTICA

Вы можете также отобразить древовидную диаграмму в вертикальном стиле, нажав на кнопку Вертикальная дендрограмма.

Иерархическая классификация в STATISTICA

Для получения древовидной диаграммы с диагональными ветвями отмените опцию Прямоугольные ветви. Диагональный формат может улучшить читаемость диаграммы для решений со "сбалансированными" структурами объединений.

Иерархическая классификация в STATISTICA

Вы можете выбрать для масштабирования древовидной диаграммы стандартизированную шкалу, которой соответствует опция Масштаб расстояний*100. Если вы выберете эту опцию, горизонтальная ось (или вертикальная ось для вертикальной диаграммы) будет масштабирована в процентах: расстояние связи/максимальное расстояние*100. Поэтому на оси будет представлен размах в процентах от максимального до минимального расстояния в данных. Если эту опцию выбрать снова, то шкала будет основываться на типе расстоянии, используемом ранее.

Иерархическая классификация в STATISTICA

Вначале древовидные диаграммы могут показаться немного запутанными, однако после некоторого изучения они становятся более понятными. Диаграмма начинается слева для горизонтальной древовидной диаграммы (или сверху для вертикальной древовидной диаграммы) с каждого автомобиля в своем собственном кластере. Как только вы начнете двигаться вправо (или вниз для вертикальной древовидной диаграммы), автомобили, которые "теснее соприкасаются друг с другом" объединяются и формируют кластеры. Каждый узел диаграммы, приведенной выше, представляет объединение двух или более кластеров, положение узлов на горизонтальной (или вертикальной) оси определяет расстояние, на котором были объединены соответствующие кластеры.

Идентификация кластеров. Рассмотрим горизонтальные иерархические древовидные диаграммы (см. древовидную диаграмму со стандартизированной шкалой, представленную выше). Начните с вершины диаграммы. По-видимому, первым здесь является кластер, состоящий только из Acura и Olds; следующей является группа (т.е. кластер) из семи автомобилей: Крайслер - Chrysler, Додж - Dodge, Фольксваген - VW, Хонда - Honda, Понтиак - Pontiac, Мицубиси - Mitsubishi и Ниссан - Nissan. Как оказывается, в этой выборке модели уровней вхождения были выбраны (более или менее) для этих марок. Поэтому вы могли бы назвать этот кластер кластером "экономичного седана".

Первые два автомобиля, Акура - Acura и Олдс - Olds, объединяются в свой кластер приблизительно на расстоянии связи равном 32; после чего эта ветвь дерева распространяется вправо на расстояние 60. Поэтому эти два автомобиля могут рассматриваться также как члены кластера экономичный седан Двигаясь вниз по диаграмме, кластер, начинающийся с Ауди - Audi распространяется до Форд - Ford, а может быть и до Игл - Eagle. Эти автомобили (т.е. отдельные модели, отобранные в выборку) более или менее представляют роскошные седаны. Этот кластер, таким образом, может быть идентифицирован как кластер роскошных седанов.

Наконец, внизу диаграммы помещаются автомобили Корвет - Corvette и Порше - Porsche, которые объединяются на расстоянии связи, примерно равном 30.

Схема объединения. Неграфическим представлением результатов кластеризации является схема объединения. Откройте ее, нажав на кнопку Схема объединения во вкладке Дополнительно диалогового окна Результаты иерархической классификации.

Иерархическая классификация в STATISTICA

В этой таблице результатов перечислены объекты (автомобили), которые были объединены вместе на соответствующих расстояниях объединения (в самой левой колонке таблицы прокрутки).

График схемы объединения. Нажав на кнопку График схемы объединения, вы построите диаграмму расстояний объединения на последовательных шагах кластеризации.

Иерархическая классификация в STATISTICA

Этот график может быть очень полезен при обрыве древовидной диаграммы. Вспомним, что, когда вы двигаетесь вправо по диаграмме (с увеличением расстояния связей), всё больше и больше сформированных кластеров приобретают всё большую внутрикластерную изменчивость (иными словами кластеры размываются). Если этот график имеет ясно выраженное плато, то это обозначает, что многие кластеры были сформированы на существенно одинаковом расстоянии связи. Это расстояние может оказаться оптимальным моментом остановки при решении вопроса о том, сколько имеется кластеров (и как их интерпретировать).

Этот пример взят из справочной системы ППП STATISTICA фирмы StatSoft

Attachments:
FileОписание
Access this URL (http://www.statosphere.ru/downloads/examples/Cars.sta)Иерархическая классификация в STATISTICAМарки автомобилей - Cars.sta

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей