Session 13 - Variable Screening

(8 Голосов)

В этом блоке серии Data Mining Statistica мы будем обсуждать экранирование переменной. В этом блоке продолжается работа с данными кредитного риска. Данные были очищены и исследованы в графическом виде. В 9 блоке мы обнаружили несколько переменных, которые относятся к кредитному риску, переменные, которые мы хотим предсказать. Мы продолжим эту работу, используя выбор признаков и экранирование переменной. Мы также обсудим преимущества экранирования переменной, посмотрим, как использовать инструмент в Statistica, рассмотрим объединения переменных, которые облегчают работу с совокупностью переменных.

 



0:35 Обычно при обработке и анализе данных мы видим обширное количество переменных. Не все переменные принесут пользу нашему проекту по анализу данных, целью которого является поиск предсказательной модели для кредитного рейтинга. Иногда легко сразу заметить, что некоторые переменные не подходят для нашего анализа. Возможно, ID номер будет такой очевидной переменной, которую нужно исключить. Другие переменные могут показаться значимыми, но они оказываются не очень хорошими предикторами. Еще одна причина для экранирования переменных в том, что мы можем убрать некоторые переменные, которые сложно отследить. Процесс сбора данных по этим переменным может оказаться дорогостоящим или слишком затратным по времени. Процесс экранирования может дать нам возможность исключить такие переменные с самого начала. Что еще более важно, простая модель с одним или несколькими предикторами гораздо легче использовать, чем модель, которая требует, скажем, двадцать или тридцать входящих данных.

1:33 Инструмент в Statistica Выбор Признаков и Экранирование Переменной (Feature Selection and Variable Screening) поможет вычистить некоторые из переменных, которые не имеют близкого отношения к переменной У. Для того чтобы упростить анализ мы сужаем список возможных предикторов. Мы можем взять за основу отбор конкретного числа предикторов или можем выбрать предикторы на основе проверки значимости.

1:58 Как только лучшие предсказываемые переменные будут найдены, Statistica предложит инструмент Bundles (Объединения), который создаст новый список и с ним будет очень легко работать. В проекте по обработке и анализу данных я буду работать с несколькими инструментами. Каждый раз мне будет нужно выбирать подходящие переменные для анализа. Функция Объединить (Bundle) – это предварительный выбор переменной до анализа.

2:26 Посмотрим, как это работает в Statistica. Здесь инструмент Выбор Признаков и Экранирование Переменной. Мы выберем переменные. Конечно, подходящая переменная рассортирует данные на непрерывные переменные и категориальные переменные. Затем мы выбираем оставшиеся переменные в качестве предикторов. Нажимаем ОК и видим диалоговое окно выбора признаков. Здесь у нас критерий для выбора предикторов. Мы можем выбрать отображение 10 или, скажем, 12 лучших переменных. Когда я нажимаю Summary (Сводка) на выходе мы получаем значение p критерия Хи-квадрат, что дает нам 12 лучших предикторов кредитного риска.

3:25 Мы также можем увидеть эту информацию в графическом виде. Итак, баланс текущего счета является самым значимым предиктором кредитного риска. Выплаты по предыдущим платежам, длительность кредита, сумма кредита – это все также значимые переменные и мы так можем продолжать далее по списку. Еще один способ основан на значении p. Посмотрим на этот результат. Мы получили меньший список переменных, которые считаются значимыми. Итак, на выходе у нас получилось, что все переменные связаны с кредитным рейтингом, а значение p для этих отношений составляет менее 0.01. И снова мы можем увидеть эти результаты графически.

4:20 В отчете лучшие предикторы предоставляют нам выходные данные и некоторые лучшие непрерывные и категориальные предикторы. Мы воспользуемся этой информацией, чтобы создать объединения. Теперь, когда у нас есть лучшие непрерывные и категориальные предикторы, давайте сделаем их объединение. Наши лучшие непрерывные предикторы – это переменные 3 и 6. Из меню данных я выбираю Bundles Manager (менеджер объединений) и мы даем название «непрерывные предикторы». Я выбираю переменные 3 и 6. Теперь у нас есть объединение непрерывных предикторов. Наши лучшие категориальные предикторы – это 2, 4, 7, 5, 13, 16, 8 и 15. Мы просто копируем это список и снова создаем объединение, новое объединение категориальных предикторов. Я вставляю свой список, свой выбор. Теперь у нас есть два объединения: непрерывных и категориальных предикторов.

5:53 Теперь, если я перейду к любому анализу графика и выбору переменной, я просто могу одним щелчком мыши выбрать категориальные предикторы. И это список будет автоматически создан. Или я могу выбрать свои непрерывные предикторы и список также появится автоматически. Поэтому мы видим, что работа с совокупностью лучших предикторов, которые мы определили, стала легче.

6:29 У нас есть еще две темы относительно экранирования переменных. Теперь, когда мы знаем, как выбирать лучшие предикторы, мы более детально поговорим, почему это важно. Следующие темы: влияние слишком большого числа переменных и избыточность переменных.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей