Session 21 - Data Mining, Comparing Model

 

(12 Голосов)

Тема данного блока серии Data Mining Statistica – сравнение параллельных моделей. Этот блок продолжает работать с данными кредитного риска и мы уже очистили данные, исследовали их и построили модели, используя методы Р&КД, CHAID, метод растущих деревьев и случайный лес. Мы сравним работу этих моделей. Мы обсудим, как сгенерировать код разработчика в Statistica, используя этот код для определения ошибочных наблюдений, мы также обсудим показатели работы моделей, как, например, диаграмма роста и диаграмма усиления.

 

 

0:34 Добытчик данных Statistica предлагает возможность сгенерировать код развертывания для нескольких статистических процессов и процессов обработки данных от линейных моделей и логистической регрессии до древовидных алгоритмов и инструментов машинного обучения. Это может быть код на visual basic для рабочих зон обработки данных, код C\C ++для создания инструмента пользователя. PMML скрипт применяется для быстрого развертывания. В нашем примере мы будем применять код PMML так, чтобы его можно было использовать при быстром развертывании модели в Statistica для подсчета новых клиентов. Как только код PMML создан, файл нужно сохранить в формате .xml.

1:26 Инструмент быстрого развёртывания (rapid deployment) в Statistica позволяет загружать несколько моделей одновременно. Это позволяет нам делать обзор моделей, построенных при помощи Р&КД, CHAID, метода растущих деревьев и случайный лес одновременно. Результат предсказаний покажет предсказание каждой модели, а также предсказание, которое было выбрано. О выбранных предсказаниях мы поговорим в дальнейших блоках. Диаграммы роста и усиления позволяют сравнивать работу моделей, а инструмент быстрого развёртывания может записывать предсказания в файл данных.

2:04 Диаграмма роста и усиления – это визуальная сводка, показывающая работу моделей обработки данных. Они подходят для задач, относящихся к классификационным. Диаграмма роста показывает эффективность предсказательной модели по сравнению с отсутствием модели вообще. Диаграмма усиления показывает процент правильной классификации наблюдений для данной категории. Здесь диаграмма показывает категорию клиентов с плохим кредитным риском.

2:33 Теперь давайте посмотрим, как это происходит в Statistica. Вначале я хочу создать код развертывания. Мы уже делали это в предыдущих блоках, но просто освежим в памяти. Я создаю модель Р&КД. Давайте бегло посмотрим на древовидный график. Итак, это наше дерево и мы собираемся его развернуть. Я перехожу во вкладку отчет (report) и выбираю генератор кода скрипт PMML. Файл PMML создан. Теперь мы сохраним это файл, чтобы его можно было использовать в быстром развертывании. Нажимаю Сохранить как и меняю расширение файла на xml.

3:32 Теперь, когда у нас есть код развертывания для Р&КД, CHAID, метода растущих деревьев и случайный лес, мы можем использовать инструмент развертывания, чтобы развернуть эти данные, которые мы здесь видим. Итак, первый шаг – загрузить модели, я проверяю включена ли опция Включить возможность предсказаний в результат. Посмотрим, какой результат мы получим. Первое – это уровень ошибок для модели растущих деревьев, Р&КД, CHAID и случайный лес. У модели случайный лес самый низкий уровень. Давайте посмотрим на предсказания. Совокупность развернутых данных имеет значения, соответствующие нашей целевой переменной, а именно кредитный рейтинг. Эта информация не всегда бывает доступна, поэтому эту колонку можно оставлять пустой. Далее, у нас есть предсказание модели растущих деревьев, верное или нет. Затем предсказательные возможности клиентов с плохим или хорошим риском. И мы получаем тот же результат для Р&КД и для CHAID, а также для случайного леса.

4:55 Давайте посмотрим на диаграмму усиления. Здесь мы хотим максимизировать расстояние между кривыми и базовой линией. Похоже, что дальше всего от основной линии – модель случайный лес, то есть черная линия. А теперь обратимся к диаграмме роста за информацией о значимых переменных с плохими показателями. Здесь у нас все клиенты с точки зрения предсказательной возможности относятся к клиентам с плохим кредитным риском. Сколько из них были верно классифицированы? Здесь у нас модель случайный лес, у которой самый высокий процент кредитной классификации. Следующая модель Р&КД, растущие деревья и CHAID. Это показывает нам, насколько хорошо мы все сделали для предсказательной точности, когда мы распределяли модели согласно тому, насколько сильно они чувствуют, что у человека плохой кредитный риск.

6:03 И так как модель случайный лес показала хорошие результаты, то нам нужно записать их в файл. Я хочу, чтобы предсказательные возможности были и для плохого и для хорошего риска. Я нажимаю ОК, возвращаемся к данным с переменными и назначаем их для переменной в совокупности данных развёртывания. Нажимаем ОК, возвращаемся к нашим данным и эти переменные заполняются предсказаниями модели случайный лес.

7:03 Это был краткий обзор тех инструментов, который можно использовать при быстром развертывании в Statistica. В следующий раз, мы поговорим о выборе параллельных моделей и начнем рассматривать пример регрессии.

Комментарии  

 
+1 #1 Евгений 03.06.2014 07:46
Спасибо за неоценимый труд! На ютубе 35 роликов, здесь последний - 21-й. Будет перевод остальных сессий?
Цитировать
 

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей