Session 18 - CHAID for Classification

(9 Голосов)

В этом блоке серии Data Mining Statistica мы обсудим построение деревьев классификации с помощью алгоритма CHAID. Мы будем продолжать использовать данные кредитного риска, которые были очищены и подготовлены для анализа. В предыдущем блоке мы использовали Р&КД для построения дерева классификации. Сегодня мы обсудим, что такое CHAID, рассмотрим опции для анализа, метод поиска наилучшего решения (exhaustive CHAID) и приведем пример в Statistica.    

 

 

 

 

 

 

 

 

0:29 CHAID означает хи-квадрат автоматическое обнаружение взаимодействия. Этот инструмент выполняет многоуровневое ветвление, где Р&КД использует двойное ветвление. На графике дерева первый узел имеет три дочерних узла. Этот анализ отлично подходит для большой совокупности данных и обычно используется для маркетинга, как например, для сегментации рынка.

0:55 C&RT и CHAID предлагают одинаковые опции для шифрованного анализа и дисперсионного анализа (ANOVA). Этот тип анализа позволяет выявлять взаимодействия. CHAID также связан с издержками ошибочной классификации. В CHAID издержки ошибочной классификации не влияют на процесс построения дерева, как это было в Р&КД, но влияние оказывается на оценку риска. Это мера не верной классификации. Для предотвращения переподгонки можно использовать V-fold перекрестную проверку или обучающую и проверочную выборки. Поправка Бонферонни используется, чтобы контролировать уровень ошибок.

1:43 Параметры остановки для CHAID слегка отличаются от C&RT. Минимальное количество отвечает за то, какие узлы должны быть ответвлены далее, а какие должны быть терминальными вершинами. В этом случае, узел с 60 или более наблюдениями может быть ответвлен далее. Максимально количество узлов контролирует сложность дерева. Вероятность определения использует предикторыне категории переменных и определяет, какие категории следует объединить, так как для кредитного риска нет значительного различия между этими категориями. Вероятность ответвления отвечает за то, является ли ответвление статистически значимым и ответвления не будут совершаться пока не будут найдены значимые.

2:27 Метод поиска наилучшего решения (exhaustive CHAID)требует большего объема исчислений, нужен для больших и сложных совокупностей данных. Вы можете заметить повышенные затраты по времени на исчисления. Эта опция обеспечивает более тщательное тестирование на необходимость ответвления и отбор лучших переменных для объединения их в категории пока не останется лишь две. Такой процесс отбора лучшей переменной для ответвления часто приводит к более эффективному дереву.

2:54 В Statistica меню обработки данных (data mining menu) предлагает инструмент Общие модели CHAID (General CHAID Models). Я использую CHAID с опцией шифрованного анализа. Я отмечаю переменные как категориальные. Выбираю переменные. По умолчанию анализ будет факторным для всех категориальных переменных. Посмотрим на взаимодействия 3, 4 и выше. Иногда взаимодействия более высокого порядка могут быть интересны для анализа, но обычно их не принимают во внимание. Для нашего анализа я хочу посмотреть на двойное взаимодействие. И так я могу продолжать далее с другими переменными.

4:01 Код отклика (response codes) позволяет нам использовать издержки ошибочной классификации. Колонки – это наблюдаемые классы. Итак, по наблюдениям у нас получился плохой результат, а по предсказаниям хороший. Предположим, что это вдвое более затратно, чем альтернативный вариант. Теперь сделаем уточнения при помощи издержек ошибочной классификации. Параметры остановки по умолчанию применимы к данному примеру. Теперь поиск наилучшего решения (exhaustive search). Когда мы нажимаем ОК, Statistica начинает строить деревья.

4:36 Итак, сначала давайте посмотрим на график дерева, он довольно сложный, поэтому давайте посмотрим на график с возможностью прокрутки, что позволит нам получить более детальное представление. Баланс текущего счета – это одна из значимых переменных. Дальнейшее ответвление использует взаимодействие между выплатами по предыдущему кредиту и накоплениями. Структура дерева показывает нам таблицу выходных данных с той же самой информацией, что и в графике дерева. Она показывает нам переменные, которые использовались для ответвления и критерии для сортировки наблюдений в различные узлы. Мы использовали несколько взаимодействий: Баланс текущего счета и Работа у настоящего работодателя; Выплата предыдущих кредитов и Цель кредита и т.д.

5:41 Давайте посмотрим оценку риска. Это оценка ошибочной классификации и то, как она влияет на оценку риска. В таблице наблюдений посмотрим на диаграмму точности прогнозов. Она дает нам представление о том, каков прогноз и какие дополнительные преимущества мы получили из модели CHAID. В таблице классификаций мы видим предсказуемое vs наблюдаемое. Теперь посмотрим на простую таблицу выходных данных. Мы предсказали плохой результат и наблюдали плохой 243 раза, а предсказали плохой, но наблюдали хороший 92. Теперь посмотрим на двумерную гистограмму. Более высокие колонки означают более точные предсказания. Мы проделали неплохую работу по предсказанию хорошего и плохого кредитного риска при помощи модели CHAID.

7:11 Вот еще несколько примеров, которые могут быть вам интересны.

7:20 Мы продолжим эту тему и поговорим о методах растущих деревьев и случайный лес и рассмотрим сравнительные модели.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей