Session 16 - Introduction to Recursive Partitioning Methods

(9 Голосов)

В этом блоке серии Data Mining Statistica мы введем концепт рекурсивного разделения, который лежит в основе деревьев решений. В этой серии мы работаем с данными оценки кредитоспособности, которые мы рассмотрели графически, очистили, создали выборки и отобрали значимые переменные для моделирования. Мы продолжим использовать Statistica для построения модели по обработке и анализу данных.

 

 

 

0:29 Сегодняшние темы включат в себя следующие аспекты: что такое рекурсивное разделение. Его преимущества и недостатки и то, как интерпретировать результаты дерева решений.

0:40 Рекурсивное разделение относится к процессу создания дерева решений, которое, по сути, является системой вопросов, которая приведет к финальному предсказанию. Предикторные переменные образуют ветви дерева, создавая ответвления, которые организуют ключевые наблюдение в еще более похожие группы. Эти группы – листья дерева или узлы. Когда сделано достаточное количество ответвлений, мы достигаем терминальных вершин. В Statistica терминальные вершины показаны красным. Предсказание основывается на структуре терминальных вершин.

1:19 Давайте посмотрим на простой древовидный график переменной. Первый узел здесь содержит все данные и показывает гистограмму хорошего и плохого кредитного риска. Первое разделение сделано с помощью предикторной переменной Баланс текущего счета. Клиенты с нулевым балансом или у которых нет текущего счета относятся к правой терминальной вершине. Эта вершина преимущественно состоит из клиентов с плохим кредитным риском. Те, чей баланс менее или более 300$ относятся к левой вершине. Эта вершина далее делится предикторной переменной Другие текущие кредиты. Клиенты, у которых нет текущих кредитов относятся к положительной терминальной вершине. Те, у кого есть кредиты в других банках или магазинах относятся к отрицательной терминальной вершине. Гистограмма в каждой вершине показывает структуру.

2:25 Среди достоинств можно отметить:

- легко интерпретируемые модели. Например, ни одна нейронная сеть (часто этот подход называют черным ящиком) этим не отличается, так как создаваемые модели не интерпретируются вообще.

- Деревья не требуют модельных расчетов, как в случае с общими линейными моделями или обобщенными линейными моделями или с другим параметрическим подходом.

- предсказание появляется в виде серии вопросов, а не уравнений.

- Деревья дают хорошую точность предсказаний и допускают отсутствие данных благодаря наличию замещающих или альтернативных переменных.

3:25 К недостаткам этих методов можно отнести то, что они требуют оценки и опыта в определении нужного размера дерева. Слишком много разделений приведет к переподгонке данных. Текущие данные хорошо моделируются, но дереву не удается обобщить новые данные. Слишком мало ответвлений не дает высокой точности.

3:52 Давайте более подробно рассмотрим использование рекурсивных методов разделения и применения дерева решений для классификации этих двух клиентов. Клиент 1 имеет текущий счет 450$ и он дал заявку на кредит на покупку нового автомобиля. Необходимая сумма кредита 17 000$. Давайте посмотрим на дерево в Statistica. Итак, баланс текущего счета составил 450$, двигаемся сюда, клиент подает заявку на кредит на новое авто. Здесь мы видим новую машину, двигаемся к этому узлу и возвращаемся к балансу текущего счета 450$. Это более 300$, поэтому мы направляемся к этому узлу. Сумма кредита 17 000$, то есть более 15 446$. Итак, мы открываем это узел для клиента 1 и нам дается предсказание плохого кредитного риска.

5:15 Клиент 2 не имеет текущего счета, он просит кредит на 15 месяцев. У него нет накоплений и ему нужен кредит на мебель. Вернемся в Statistica. У клиента 2 нет текущего счета, поэтому мы здесь в этом узле. Кредит нужен на 15 месяцев, это больше, чем 8.5. месяцев, мы открываем этот узел. У клиента нет накоплений, поэтому переходим к этому узлу. Цель кредита – мебель, это не относится к категории новый автомобиль, а к категории другое. Двигаемся сюда и снова срок кредита 15 месяцев, меньше чем 22.5. Открываем эту терминальную вершину, которая снова рассматривает клиента, как имеющего плохой кредитный риск.

6:30 Итак, мы провели классификацию двух клиентов согласно их кредитному риску, используя метод рекурсивного разделения.

6:40 В следующих блоках серии Data Mining Statistica мы глубже рассмотрим на деревья классификации и регрессии, метод CHAID, растущих деревьев и случайный лес. После этого продолжим с алгоритмами данных.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей