Кластеризация методом K средних в STATISTICA

Этот пример будет иллюстрировать один из других методов кластеризации: метод k средних. Как описано в разделе Вводный обзор, целью алгоритма является оптимальное "разбиение" всего набора объектов на k кластеров. Эта процедура будет перемещать объекты из одного кластера в другой, чтобы минимизировать внутрикластерную дисперсию и максимизировать межкластерную. В Примере 1, вы нашли три кластера во множестве данных об автомобилях (Cars.sta). Теперь посмотрим, какого сорта решение получим с помощью метода k средних в предположении, что в данных имеется всего три кластера.

Спецификация анализа. Выберите Кластерный анализ в меню Анализ - Многомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В появившемся диалоге выберите Кластеризация методом К средних и нажмите кнопку OK для отображения диалогового окна Кластерный анализ: кластеризация методом К средних. В этом диалоге выберите вкладу Дополнительно.

Кластеризация методом K средних в STATISTICA

 

 

 

 

Нажмите кнопку Переменные, в появившемся окне Выбор переменных выберите все переменные. Далее, нажмите кнопку OK, чтобы вернуться во вкладку Дополнительно диалогового окна Кластерный анализ: кластеризация методом К средних. Как и в Примере 1 вы можете кластеризовать объекты или переменные. В этом случае выберите Наблюдения (строки) в поле Кластер для того, чтобы кластеризовать автомобили. Чтобы получить результаты для трех кластеров, изменим Число кластеров на 3.

Начальные центры кластеров. Эти опции управляют способом вычисления начальных центров кластеров. Результаты метода k средних зависят в известной мере от начальной конфигурации (т.е. от средних или центров кластеров). В частности, это происходит, когда формируется много маленьких отчетливо различающихся кластеров (с несколькими объектами). Для дальнейшей информации об этих опциях обратитесь к вкладке Дополнительно диалогового окна Кластерный анализ: категоризация методом К средних.

В этом примере выберите, по умолчанию, метод Сортировать расстояния и выбрать набл. на постоянных интервалах и затем нажмите кнопку OK, чтобы начать анализ.

Результаты. После завершения анализа появляется диалоговое окно Результаты метода K средних.

Кластеризация методом K средних в STATISTICA

Дисперсионный анализ. В разделе Вводный обзор - Метод k средних этот метод был назван "дисперсионным анализом наоборот". В дисперсионном анализе межгрупповая дисперсия сравнивается с внутригрупповой дисперсией для принятия решения, являются ли средние для отдельных переменных в разных совокупностях значимо различными.

Даже, несмотря на то, что тестирование в этом случае не вполне корректно (во многом вы рассчитываете на везение), вы можете, тем не менее, принимать во внимание результаты дисперсионного анализа, сравнивая для каждого измерения средние (т.е. измерения характеристик) между совокупностями (кластерами автомобилей). Нажмите на кнопку Дисперсионный анализ для отображения приведенной выше таблицы.

Кластеризация методом K средних в STATISTICA

Исходя из амплитуды (и уровней значимости) F-статистики, переменные Управляемость - Handling, Тормоз - Braking и Цена - Price являются главными при решении вопроса о распределении объектов по кластерам.

Идентификация кластеров. Теперь посмотрим, как программа назначает автомобили в кластеры с использованием этого критерия. Для того чтобы понять, из каких членов состоит каждый кластер, нажмите на кнопку Элементы кластеров и расстояния во вкладке Дополнительно диалогового окна Результаты метода К средних для получения таблиц результатов (по одной для каждого кластера). Кластер 1 состоит из Акура - Acura, Бьюик - Buick, Крайслер - Chrysler, Додж - Dodge, Хонда - Honda, Мицубиси - Mitsubishi, Ниссан - Nissan, Олдс - Olds, Понтиак - Pontiac, Сааб - Saab, Тойота - Toyota, Фольксваген - VW и Вольво - Volvo.

Кластеризация методом K средних в STATISTICA

Следующая таблица содержит члены кластера 2:

Кластеризация методом K средних в STATISTICA

Второй кластер содержит Ауди - Audi, БМВ - BMW, Корвет - Corvette, Форд - Ford, Мазду - Mazda, Мерседес - Mercedes и Порше - Porsche. Последний кластер приведен в третьей таблице ниже. Этот кластер состоит из Игл - Eagle и Исузу - Isuzu.

Кластеризация методом K средних в STATISTICA

Эти результаты не полностью аналогичны кластерам, найденным в предшествующем анализе. Однако различия между кластерами экономичный седан и роскошный седан по-прежнему кажутся устойчивыми. Автомобили Игл - Eagle и Исузу - Isuzu были, вероятно, помещены в собственную категорию, так как они не "подходят" куда-либо ещё, и поскольку любое другое перераспределение автомобилей не улучшает решение (т.е. увеличивает межгрупповые суммы квадратов).

Описательные статистики для каждого кластера. Другим способом определения природы кластеров является проверка средних значений для каждого кластера и для каждого измерения. Вы можете или отобразить описательные статистики отдельно (нажмите на кнопку Описат. статистики для каждого кластера), или отобразить средние для всех кластеров и расстояний (евклидовых и квадратов евклидовых, см. ниже) между кластерами в отдельную таблицу результатов (нажмите на кнопку Средние кластеров и евклидовы расстояния), или вывести диаграмму этих средних (нажмите на кнопку График средних). Обычно, этот график дает наилучшее представление результатов.

Взглянем, например, на линию для кластера экономичный седан (Кластер 1) и сравним её с кластером роскошный седан (Кластер 2) на графике ниже. Можно заметить, что и в самом деле, автомобили в последнем классе:

(1) Являются более дорогими,

(2) Имеют меньше время разгона (вероятно из-за большего веса),

(3) Имеют приблизительно тот самый тормозной путь,

(4) Являются одинаковыми с точки зрения управляемости, и

(5) Имеют меньший расход топлива.

Кластеризация методом K средних в STATISTICA

Наиболее различающим признаком автомобилей из третьего кластера (Игл - Eagle и Исузу - Isuzu) в соответствии с этим графиком, является их более короткий тормозной путь и плохая управляемость.

Расстояния между кластерами. Другой полезный результат проверки - евклидовы расстояния между кластерами (нажмите на кнопку Средние кластеров и евклидовы расстояния). Эти расстояния (евклидовы и их квадраты) вычисляются по средним каждой переменной в кластере.

Кластеризация методом K средних в STATISTICA

Отметим, что кластеры 1 и 2 относительно близки друг к другу (евклидово расстояние = 0.97) по отношению к расстояниям от кластера 3 до кластеров 1 и 2.

Этот пример взят из справочной системы ППП STATISTICA фирмы StatSoft

Attachments:
FileОписание
Access this URL (http://www.statosphere.ru/downloads/examples/Cars.sta)Кластеризация методом K средних в STATISTICAМарки автомобилей - Cars.sta

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей