Session 20 - Data Mining, Random Forest Tools

(8 Голосов)

Метод классификации Случайный лес – тема сегодняшнего блока серии Data Mining Statistica. В нашей серии мы уже подготовили данные для анализа и поработали с другими алгоритмами, как Р&КД, CHAID и метод растущих деревьев. В этом блоке мы обсудим, что такое метод Случайный лес, посмотрим варианты анализа и поработаем с примером в Statistica.

 

0:26 Случайный лес – это инструмент, который выстраивает серию классификационных деревьев, а затем использует предсказание для каждого дерева в этой серии. Каждое дерево делает предсказание: хорошее или плохое. Если большинство деревьев в случайном лесе классифицирует клиентов, как хороших, тогда случайный лес предскажет клиента, как относящегося к хорошему кредитному риску.

0:53 Количество параметров предиктора контролирует, как много независимых переменных учитываются в каждом узле. Оптимальная установка для этого параметра - log2 (M+1), где M – это число входных предикторных переменных. Statistica использует эту формулу для данного параметра. Мы ограничиваем число параметров для каждого узла для того, чтобы минимизировать корреляцию между деревьями в лесу. Это, в свою очередь, увеличивает радиус леса. Случайный лес выстраивает большое количество деревьев и во вкладке Параметры числа деревьев вы можете уточнить, сколько именно деревьев нужно построить. Здесь также есть параметры остановки. Мы видели похожие параметры остановки в других методах, которые мы обсуждали. Минимальное число наблюдений и максимальные уровни, минимальное число в дочернем узле и максимальное число узлов – все это контролирует сложность структуры индивидуальных деревьев в случайном лесе.

1:58 Давайте посмотрим на это в Statistica. Из меню обработки данных я выбираю Случайный лес для регрессии и классификации. Тип нашего анализа – классификация. Давайте выберем переменные. И снова мы можем уточнить издержки ошибочной классификации. Количество предикторов было автоматически выбрано, их 4, и формула снова будет log2 (M+1). Оставшиеся настройки по умолчанию должны подойти к нашему примеру. Я нажимаю ОК и мы начинаем строить сотню деревьев. Мы также можем посмотреть на график ошибочной классификации с контрольными и обучающими данными. Теперь давайте посмотрим, как все это будет выглядеть, когда построена вся сотня деревьев. Итак, мы видим уровень ошибочной классификации в методе случайных деревьев. Для контрольной совокупности данных значение составляет 0.25, а для обучающей 0.2.

3:23 Затем мы смотрим на выходные результаты оценки риска и это критерий нашей классификации. Для обучающих данных значение составляет 0.2, для контрольных – 0.25, как мы и видели в обобщающей диаграмме. Теперь давайте посмотрим, какие переменные являются наиболее значимыми. Сумма кредита, его продолжительность, цель, возраст и т.д. Это и есть самые значимые переменные для метода случайный лес. Мы также можем получить выходные данные в форме таблицы. Мы также можем увидеть индивидуальные деревья. Например, давайте посмотрим на 5 таких деревьев, каждое из которых классифицируется, как хороший и плохой кредит. Каждое из этих деревьев само по себе сделает хорошие или плохие предсказания по каждому представленному клиенту. Но мы не будем использовать каждое дерево индивидуально, все сто деревьев работают вместе, чтобы выбрать финальное дерево.

4:44 Мы можем видеть все выборки, совокупность данных, а также можем посмотреть на таблицу предсказанное против наблюдаемого. Итак, у нас наблюдаемое плохое, предсказанное плохое. 235 плохих наблюдений, а в плохих наблюдениях 65 было предсказано хорошими. Здесь наша ошибочная классификация. Итак, инструмент случайный лес проделал вполне хорошую работу, сделав классификацию клиентов по параметру хорошего и плохого кредитного риска. Мы также можем увидеть эти данные в графической форме. Более высокие столбцы – это верная классификация, более низкие – ошибочная классификация. Результат вполне хороший. Мы можем также посмотреть на упрощенную таблицу, которая показывает нам ошибочную классификацию.

5:41 Мы также можем посмотреть на таблицу предсказаний. Она показывает наблюдаемые значение, то есть исходные данные. Затем, что было предсказано методом случайный лес. Этот пример может показать, как мы можем использовать случайный лес в таком виде задачи, как классификация.

6:06 В следующем блоке мы сравним качество работы моделей для классификаторов, затем мы поговорим об использовании множества классификаторов и завершим разговор о классификации. После чего перейдем к регрессионному подходу.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей