Session 17 - Data Mining, C&RT

(8 Голосов)

Деревья регрессии и классификации (C&RT) – тема сегодняшней серии Data Mining Statistica. До этого мы рассматривали данные кредитного риска, которые были очищены, были сделаны выборки и отобраны подходящие для анализа переменные. В этом блоке мы будем использовать приложение Statistica добытчик данных, чтобы построить дерево классификации для категориальной переменной Кредитный риск. В этом блоке мы будем принимать во внимание основы методов рекурсивного разделения и дерева решений. Эти темы были рассмотрены в предыдущем блоке.

 

 

 

 

0:33 В этом блоке будет представлен общий обзор C&RT, издержки ошибочной классификации, условия остановки, перекрёстная проверка, суррогаты (заменители) и пример построения деревьев решений в Statistica.

0:49 C&RT означает деревья регрессии и классификации. В этом блоке мы остановимся более подробно на проблеме классификации. Это непараметрический подход, означающий, что не было сделано никаких предположений о характере распределения данных. Сравним две обобщенных линейных модели, где зависимая переменная имеет особое распределение, как, например, биноминальное или Расщепления в дереве решений сделаны при помощи переменной, которая лучше всего дифференцирует категории целевой переменной. Каждый узел может быть расщеплен на дочерний узел. C&RT использует условия остановки, чтобы найти верный размер дерева.

1:27 Статистик Джордж Баркс однажды сказал, что все модели ошибочны и лишь некоторые из них полезны. Ни одна модель никогда не сделает правильную классификацию наблюдений. Ошибочная классификация неизбежна. Некоторые ошибочные классификации могут быть хуже, чем другие. Statistica предлагает инструмент, который учитывает этот момент при построении модели. В таблице ниже мы видим: наблюдаемые и предсказываемые хорошие и плохие кредиты. Наблюдаемые хорошие и Предсказываемые хорошие – это верный ответ. Наблюдаемые хорошие, но предсказываемые плохие – это ошибочная классификация, которая приводит к упущенной возможности. Клиент, который полностью и вовремя выплатил кредит больше не получит возможности взять еще один кредит, так как модель предсказала его как клиента, не выполняющего своих обязательств. И наоборот. Мы можем наблюдать хороший риск, но модель будет предсказывать плохой. Это приведет к тому, что клиент, не выполняющий свои обязательства, получит кредит. Какая из этих двух классификаций хуже? Эта информация включена в процесс построения модели C&RT.

2:31 Условия остановки – это критерии, используемые для обнаружения верного размера дерева. Параметры обычно выбирают, какие узлы должны быть расщеплены, а какие должны быть терминальными вершинами. Statistica предлагает три варианта условий остановки: убрать ошибку классификации, удалить отклонения или непосредственная остановка. В случае с ошибкой классификации или с отклонениями необходимы два параметра: минимальное количество наблюдений равное 100, а наблюдения с меньшим числом (меньше 100) будут терминальными вершинами, и не будет сделано дальнейших расщеплений. Если наблюдений более 100, узел может быть расщеплен дальше. Максимальное число узлов отвечает за общую сложность дерева. Для методов непосредственной остановки параметр деления играет роль при расщеплении узлов. Допустим, параметр деления – 1/10. Когда в узле остаются одними и теми же 1/10 или больше наблюдений, тогда расщепления не требуется.

3:34 Перекрестная проверка – это техника, которая предотвращает переподгонку данных, в случае, когда совокупность данных хорошо изучена, но отсутствуют связи между переменными. Перекрестная проверка V-Fold особенно хорошо подходит для небольшой совокупности данных, когда не достаточно данных для тестовой выборки. Обучающая выборка – это еще один метод перекрестной проверки. В ходе тестовой выборки определяется верный размер дерева.

4:04 Суррогаты могут оказаться полезными, когда в применяемых данных отсутствуют некоторые значения. Суррогат – это следующее расщепление переменной, который применяется если переменная отсутствует. Если первый суррогат также отсутствует, то вместо него используется следующий.

4:20 Теперь посмотрим, как все это выглядит в Statistica. Здесь мы видим очищенные данные, была сделана выборка, были выбраны подходящие для анализа переменные. Все это было сделано в предыдущих блоках. Теперь мы готовы построить C&RT дерево классификации. Из меню анализа данных выбираем Общие модели дерева классификации и регрессии (Classification and Regression Tree Models), мы используем стандартные инструменты C&RT. Наша зависимая переменная является категориальной, проверьте это. Теперь мы переходим к выбору переменных. Оценка кредитного риска – это зависимая переменная, я использую объединения переменных, чтобы определить самые значимые переменные для нашего анализа.

5:14 Это позволяет мне выявить издержки ошибочной классификации в таблице классификации. Итак, нам нужны издержки классификации, определенные пользователем (User Specified misclassification cost).

5:26 Здесь мы видим наблюдаемые классы – это колонки и предсказываемые классы – это ряды. Предположим, что предсказывается хороший кредитный риск, когда клиент на самом деле не будет выполнять своих обязательств. Это будет в два раза хуже, чем альтернативная ошибочная классификация. Чтобы это отметить, я ставлю сюда 2. В условиях остановки мы используем Убрать классификацию (Prune on classification) и мне потребуется два суррогата для каждого расщепления. Нажимаем ОК – дерево построено.

6:03 Мы получаем диалоговое окно результатов и видим кнопку график дерева (tree graph). Дерево достаточно сложное, и я постараюсь понять, какое расщепление было сделано. Мы можем использовать дерево с возможностью прокрутки, чтобы понять, какие дальнейшие расщепления были сделаны для переменной Текущий счет. Затем Цель кредита, Текущие кредиты и т.д. Мы можем использовать дерево, как мы делали это в предыдущем блоке, чтобы прийти к терминальным вершинам и найти предикторное значение для этого дерева.

6:46 Кнопка Структура дерева (Tree structure) покажет нам таблицу с выходными данными, где мы увидим, какие переменные использовались для каждого расщепления. Затем либо постоянна, либо категориальная переменная, которая также повлияла на расщепление. В принципе, все то же самое мы видели в графе дерева, только здесь эти данные представлены в виде таблицы. Мы также можем видеть количество наблюдений в каждом узле и сколько клиентов с хорошим, а сколько с плохим кредитным риском в каждом узле.

7:22 Мы можем получить выходные данные значимости или увидеть их в виде графика. Здесь мы увидим, насколько значима каждая переменная для процесса построения дерева. Из таблицы наблюдений я могу получить (observational tab) выходные данные о предсказанных значениях, которые дают мне наблюдаемые данные о кредитном риске. Из таблицы классификаций (classification tab), кнопка предсказуемое vs наблюдаемое получим три вида выходных данных. Сначала мы можем увидеть наблюдаемое vs предсказуемое. 28 наблюдений были предсказаны как хорошие. Эти данные можно также увидеть и на двумерной гистограмме. Последние выходные данные дают нам лучшее представление о процентном соотношении, указанном в рядах и колонках. Эту категорию нужно контролировать, так как именно здесь наблюдения были плохими, а предсказания хорошими. Только 28 клиентов или менее 10 % было предсказано хорошими. Мы проделали неплохую работу рассмотрев конкретный случай ошибочной классификации.

8:58 Из таблицы отчетов (reports tab) мы можем получить код применения, и этот вопрос будет обсуждаться в следующем блоке. Также мы поговорим о стандарте PMML, который может быть использован в Statistica.

9:25 В следующем блоке мы продолжим строить деревья классификации, используя метод CHAID, метод растущих деревьев и случайный лес.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей