Session 19 - Data Mining, Boosted Trees

(8 Голосов)

В этой серии Data Mining Statistica мы будем обсуждать построение модели растущих деревьев для процесса классификации. Мы продолжаем работать с данными оценки кредитного рынка, которые мы подготовили для анализа в предыдущих блоках. Мы также исследовали два других алгоритма: C&RT и CHAID. Обсуждая модель растущих деревьев мы рассмотрим, что это такое, выберем варианты анализа, параметры остановки и поработаем с примером при помощи добытчика данных Statistica.

 

0:36 Растущие деревья генерируют серию очень простых деревьев, как мы здесь видим. Каждое из этих деревьев само по себе имеет слабую продуктивную точность. Совместное использование слабых предикторов может создать сильный предиктор. Предсказание по модели растущих деревьев строится на основе классификации простых деревьев, взятых как одно целое.

0:58 По умолчанию значение параметра обучения 0.1. В исследовании показано, что параметр обучения со значением 0.1 или меньше дает в результате лучшие модели. Количество дополнительных членов множества равно тому, сколько деревьев мы будем генерировать. В данном случае будет создано 200 деревьев. 30 процентов данных уйдут на контрольную пробу, а оставшиеся 70 процентов подвыборки половины данных будут отобраны для каждого из 200 деревьев. Инициализация генератора случайных чисел контролирует, какие наблюдения отобраны для выборки.

1:39 Все параметры остановки используются для контроля сложности структуры деревьев при каждой генерации. Помните, что идеальная модель растущих деревьев использует очень простые ветви. При максимальном количестве узлов, установленном на числе 3, у каждого дерева будет только одно бинарное разделение.

2:05 Теперь давайте рассмотрим пример в Statistica. Из меню обработки данных я выбираю растущие деревья, проблема относится к классификационным, мы также выбираем переменные. Снова, при желании мы можем уточнить издержки ошибочной классификации. Во вкладке расширенные настройки (advanced) я оставляю все настройки по умолчанию, потому что мне нужны очень слабые и мы будем создавать 200 штук. Нажимаем ОК, Statistica начинает генерировать все 200 деревьев. Обучающие и контрольные данные показаны по своему среднему множественному отклонению. Давайте посмотрим на диаграмму значимости предикторов. Мы можем видеть, какие переменные наиболее значимы для модели растущих деревьев. Мы также можем посмотреть на график деревьев, но снова это будут очень простые бинарные разделения, поэтому отдельные деревья не вызывают особого интереса. Именно совокупность слабых создает наши предикторы. Итак перейдем ко вкладке предсказание (prediction) и каждая выборка получает предсказанное значение. Итак, у нас есть наблюдаемое значение, это исходные данные. Затем, у нас есть данные, что предсказала модель растущих деревьев и вероятность плохого или хорошего кредитного риска.

3:50 Во вкладке классификация (classification) мы можем посмотреть на соотношение наблюдаемого и предсказанного. Начнем с графика, итак у нас есть предсказанное плохое и наблюдаемое плохое событие, предсказанное хорошее и наблюдаемое хорошее, это самые высокие столбцы в нашей гистограмме. Из наблюдаемых плохих клиентов правильно распределены были 229, ошибочно, как хорошие клиенты – 71, хотя в действительности они относились к плохим клиентам. Если посмотреть на эту таблицу, то можно сказать, что была сделана неплохая работа. Примерно то же самое мы видели в случае с Р&КД и CHAID.

4:39 Здесь мы можем получить более детальную информацию. Мы видим точность предсказаний. Мы можем посмотреть на диаграмму роста и сравнить исходную линию с нашей моделью растущих деревьев, что показывает нам тот рост, которого можно добиться при помощи модели. Это был пример того результата, который можно получить при помощи растущих деревьев и пример работы при анализе.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей