Анализ главных компонент и классификация в STATISTICA

 

Данный пример иллюстрирует применение модуля Анализ главных компонент и классификация. Для набора переменных создается факторное пространство, затем направляющие полученного пространства интерпретируются. Затем, на карте этого пространства анализируются дополнительные наблюдения и переменные. В примере используется файл данных из работы Jambu (1991), которые представляются собой различные характеристики образа жизни для 28 (групп) людей.

А именно, каждая переменная соответствует одному из 10 изучаемых видов социальной активности, которому посвящают время представители одной из 28 групп. Показателем является общее время, посвященное данному виду активности представителями группы в часах. Некоторые данные отсутствуют. При анализе пропуски заменяются на соответствующие средние. В качестве вспомогательных переменных выступают три дополнительные переменные SLEEP - (СОН), TV - (ТЕЛЕВИЗОР) и LEISURE - (ДОСУГ). Для того, чтобы проиллюстрировать способ задания основных и вспомогательных переменных, в файл данных добавлена дополнительная группирующая переменная GENDER - (ПОЛ). Для присвоения меток точкам на графиках, добавлена переменная GEO.REGION - (РЕГИОН). Обратим внимание, что ввиду этих изменений в структуре данных, результаты не будут идентичными результатам, опубликованным в работе Jambu (1991).

Цель анализа. Целью данного анализа является изучение взаимосвязей между различными социальной активности, чтобы выявить скрытые факторы (направляющие факторного пространства минимально возможной размерности), которые упростили бы процесс классификации изучаемых групп населения, а так же сделали бы возможной визуализацию этих групп. То есть, хотелось бы нанести результаты на карту полученного пространства.

Откройте файл данных Activities.sta и запустите модуль Анализ главных компонент и классификация через меню Анализ - Многомерный разведочный анализ. Выберите вкладку Дополнительно, нажмите кнопку Переменные, чтобы Выбрать переменные для анализа. Переменные анализа: список WORK - РАБОТА - MEAL - ПРИЕМ ПИЩИ. Вспомогательные: SLEEP - СОН, TV - ТЕЛЕВИЗОР и LEISURE - ДОСУГ. С основными наблюдениями: GENDER - ПОЛ. Группирующая: GEO.REGION - РЕГИОН.

Анализ главных компонент и классификация в STATISTICA

 

Так же выберите FEMALE - ЖЕН. в качестве кода для активных наблюдений в поле Код для основных наблюдений. После того, переменные заданы, важно принять решение будет ли анализ проводится на основе ковариаций, либо корреляций. В нашем случае анализ будет проводиться на основе корреляционной матрицы. Поэтому, выберите опцию Анализ основан на Корреляциях. Так же, в группе опций Удаление ПД установите Замена средним, для того, чтобы заменить пропуски на соответствующие значения средних.

Анализ главных компонент и классификация в STATISTICA

Нажмите кнопку OK, чтобы провести начальные вычисления. Затем, в диалоге Результатов установите Число факторов равным 2. В результате, Качество представления будет равным 81%.

Анализ главных компонент и классификация в STATISTICA

Давайте вначале просмотрим основные результаты: В информационном поле диалога Главные компоненты и результаты анализа классификаций представлена общая информация о текущем анализе. Это число активных и вспомогательных переменных и наблюдений и собственные значения. Другие результаты доступны во вкладке Переменные диалогового окна Результатов.

Анализ главных компонент и классификация в STATISTICA

Собственные значения. Посмотрим на собственные значения. Нажмите на кнопку Собственные значения, чтобы построить таблицу собственных значений. В этой таблице для каждого собственного значения так же представлен процент объясненной дисперсии, кумулятивное собственное значение и кумулятивный процент объясненной дисперсии. Собственные значения представлены в порядке убывания, отражая тем самым степень важности соответствующих выделенных факторов для объяснения вариации исходных данных.

Анализ главных компонент и классификация в STATISTICA

Фактор, соответствующий максимальному значению (3.976814), описывает приблизительно 56.8% общей вариации. Второй фактор, для значения (1.690162) отвечает за 25.77% общей вариации и т.д. Когда анализируются корреляционные матрицы, сумма собственных значений равна числу (активных) переменных, для которых выделены (рассчитаны) факторы, при этом "среднее ожидаемое" собственное значение равно 1.0. На практике применяется много критериев для правильного выбора размерности факторного пространства (см. так же раздел Электронного руководства Факторный анализ). Наиболее простой из них - оставить только те факторы, собственные значения которых больше 1. В данном примере, только первые два собственных значения больше 1 и они объясняют 82% общей вариации.

График каменистой осыпи. Другой способ определения числа факторов - построение и анализ, так называемого графика каменистой осыпи (см. Cattell, 1966). Этот график является линейным и на нем отображается последовательность собственных значений. Чтобы построить такой график, нажмите кнопку График каменистой осыпи.

Анализ главных компонент и классификация в STATISTICA

Cattell предложил определить на этом графике собственное значение, начиная с которого "горка" теряет свою кривизну и выходит на примерно постоянный уровень. Правая часть графика представляет собой лишь незначительные остатки "каменистую осыпь." Осыпь - это геологический термин, означающий каменные осколки (лом), лежащие у подножия скалы. Таким образом, нужно оставить не более чем число факторов, расположенных слева от осыпи.

Факторные координаты переменных. Затем, нажмите кнопку Факторные координаты переменных, чтобы получить таблицу координат исходных факторов в пространстве новых, выделенных факторов. Координаты отображаются как для активных переменных, так и для вспомогательных. Так как текущий анализ производится на основе корреляционной матрицы, выводимые результаты можно интерпретировать как корреляции соответствующих переменных с каждым фактором.

Анализ главных компонент и классификация в STATISTICA

В данном случае, первая ось, соответствующая собственному значению 3.976814, наиболее сильно коррелирует с переменными WORK - РАБОТА и TRANSPORT - ТРАНСПОРТ (большие отрицательные корреляции), HOUSEHOLD - ДОМАШНИЙ БЫТ и CHILDREN - ДЕТИ (большие положительные корреляции). На основе значений факторных координат (корреляций между переменными и факторами) для активных и вспомогательных переменных, а так же на основе знаков этих корреляций, можно субъективно обозначить первую выделенную ось как Социальная активность, связанная с работой и домом (большие отрицательные коэффициенты для WORK - РАБОТА, TRANSPORT - ТРАНСПОРТ и PERSONAL CARE - ЛИЧНАЯ БЕЗОПАСНОСТЬ в совокупности с HOUSEHOLD - ДОМАШНИЙ БЫТ, CHILDREN - ДЕТИ и т.д). Вторую же ось можно обозначить как социальная активность, связанная с типом работы, требующего современно организации жизни (SHOPPING - ПОКУПКИ, ЛИЧНАЯ БЕЗОПАСНОСТЬ). Однако, вы можете выбрать другие названия для выделенных факторов (при этом включение вспомогательных переменных и наблюдений может сделать интерпретацию второго фактора более ясной).

2М график факторных координат переменных. График факторных координат часто сильно упрощает процесс интерпретации факторов. Нажмите кнопку 2М график факторов перем., чтобы построить соответствующий график для двух выделенных факторов.

Анализ главных компонент и классификация в STATISTICA

Заметим, что по умолчанию на этом графике будет показан единичный круг. Так как текущий анализ основан на корреляциях, максимальное значение факторной координаты не может превысить 1.0. Кроме того, квадраты всех факторных координат для всех переменных (т.е., квадраты корреляций между переменной и всеми факторами) не могут превысить значения 1.0. Таким образом, все факторные координаты должны попасть в единичный круг, выведенный на график. Этот круг является визуальным индикатором того, на сколько хорошо каждая переменная воспроизводится текущим набором выделенных факторов (чем ближе переменная к единичной окружности, тем лучше она воспроизведена в найденной системе координат).

Просмотр результатов и графиков для наблюдений. Выберите вкладку Наблюдения, чтобы просмотреть результаты для наблюдений (строк). В этой вкладке выберите Без имен/номеров, в группе опций Опции графиков, затем нажмите кнопку 2М графики факторные набл.

Анализ главных компонент и классификация в STATISTICA

На этом графике изображаются все наблюдения в выделенном пространстве факторов. Изображаются как активные наблюдения, которые использовались при расчете факторов (а именно, Females - Женщины), так и вспомогательные наблюдения, которые только изображаются на факторной карте (Males - Мужчины). На этом графике заметен интересный результат кластеризации активных и вспомогательных наблюдений. Оказывается, что все вспомогательные наблюдения (Males - Мужчины, изображаются красными точками) смещены влево от центра первой оси (т.е., имеют отрицательные значения координат по первой, горизонтальной оси). При интерпретации этого фактора как Социальная активность, связанная с работой и домом, где переменные WORK - РАБОТА и TRANSPORT - ТРАНСПОРТ, как раз определяют отрицательную (левую) часть этой направляющей, оказывается, что Мужчины сгруппированы в области Work - Работа данной направляющей.

Цель данного примера - проиллюстрировать возможность применения модуля Анализ главных компонент и классификация для выявления ключевых факторов набора переменных, нанесения на карту выделенных осей других интересующих переменных и выявления кластеров наблюдений с общими характеристиками по отношению к полученным направляющим.

Attachments:
FileОписание
Access this URL (http://www.statosphere.ru/downloads/examples/Activities.sta)Анализ главных компонент и классификация в STATISTICAОбраз жизни людей - Activities.sta

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей