Session 9 - Graphical Exploration

(7 Голосов)

В этой серии Data Mining Statistica мы будем изучать очищенные данные в графическом виде и будем искать интересные связи между переменными. В пятом блоке было представлено базовое графическое исследование и проблемы в данных. Сейчас, когда данные очищены, мы изучим связи, которые могут оказаться важными.  

 

 

 

 

0:23 Данные раскроют некоторые интересные и важные связи между переменными. Здесь мы поговорим о графиках, которые могут быть полезны для связей.

0:35 Для начала я хотела бы посмотреть на связь между продолжительностью кредита и кредитным риском. Для этого я создам диаграмму среднего значения. Продолжительность кредита – это непрерывная зависимая переменная. Рейтинг кредита – это моя группирующая переменная. Диаграмма среднего значения показывает средние значения обеих категорий одновременно. Из графика видно, что плохой кредитный рейтинг, мы видим его здесь, имеет более длительную среднюю продолжительность кредита, чем у клиентов с хорошим кредитным рейтингом. Эта диаграмма предполагает, что продолжительность кредита, вероятно, будет хорошей предсказательной переменной в процессе построения модели.

1:18 Мы уже раньше посмотрели на гистограмму переменной кредитного рейтинга. И мы видели, что клиентов с хорошим кредитным рейтингом больше, чем с плохим. В действительности, клиентов с хорошим кредитным рейтингом в два раза больше. Возможно, мы захотим узнать, является ли эта связь одинаковой и для других категорий других переменных в данной совокупности данных. Для этого, нам нужно категоризировать эту гистограмму по переменной ценное имущество. Если посмотреть на категоризованную гистограмму клиентов, у которых нет ценного имущества, то связь будет другая. Здесь количество клиентов с хорошим кредитным рейтингом в два раза меньше. Мы также видим и другие связи в категории «ценное имущество менее 140». Это говорит нам, что у клиентов в одной из этих категорий (нет имущества и менее 140) не большая вероятность попасть в категорию клиентов с хорошим рейтингом.

2:31 Теперь рассмотрим переменную баланс текущего счета. Двумерная гистограмма покажет нам связь между кредитным риском (хороший и плохой риск) и балансом текущего счета. Диаграмма показывает нам частоты, разделенные хорошим и плохим кредитным рейтингом. Для баланса текущего счета – нет текущего счета, нулевой баланс, менее 300 или более 300 долларов. На диаграмме виден баланс более 300 долларов, и он обычно относится к хорошему кредитному риску. Есть хорошие и плохие категории частот. Здесь мы видим колонки: нулевой баланс и нет текущего счета. И клиенты с плохим и хорошим кредитным риском здесь почти равны.

3:36 Теперь воспользуемся инструментом детализации (drill-down tool) для более глубоко исследования. Я выбираю переменные: продолжительность кредита, конечно, кредитный рейтинг, баланс текущего счета и ценное имущество. Инструмент детализации позволит нам выбрать категории и сконцентрироваться только на тех областях, которые мы хотим исследовать и дальше. Этот инструмент также может помочь нам выявить некоторые интересные связи.

4:14 Ранее мы увидели, что более длительный срок кредита больше связан с плохим кредитным риском. Поэтому давайте возьмем эту переменную для детализации. Мы возьмем период больше 24 месяцев или двух лет. Теперь, когда мы детализировали эту переменную, мы увидим только тех клиентов, которые попадают в категорию длительности кредита больше 24 месяцев. Следующая переменная для детализации – ценное имущество. Клиенты, не имеющие ценного имущества, наиболее вероятно, окажутся в категории плохо кредитного риска. Итак, мы рассмотрели клиентов, не имеющих ценного имущества и длительность их кредита больше 2 лет.

5:14 Следующая переменная, которую я хочу детализировать – баланс текущего счета. Я буду использовать инструмент Кисть (Brush), мы видим диаграмму баланса текущего счета. Я могу выбрать категорию и также ее детализировать. Теперь мы будем видеть только клиентов, у которых нет текущего счета. Сейчас мы видим гистограмму плохой и хорошей оценки кредитоспособности. Теперь, когда у нас есть клиенты без текущего счета, без ценного имущества и длительность кредита 24 месяца, мы видим, что клиентов в категории плохого кредитного риска гораздо больше.

6:02 Давайте вернемся к балансу текущего счета и посмотрим на данные «нет баланса». Детализируем. И снова мы видим ту же самую ситуацию. В поле плохого кредитного рейтинга клиентов оказалось больше. Давайте посмотрим на оставшиеся две категории. Теперь хороший риск перевешивает плохой, если посмотреть на баланс текущего счета, который составляет менее 300 долларов. А если баланс больше 300 долларов, то клиентов с хорошим риском больше.

6:47 Таким образом, инструмент детализации позволяет нам исследовать и выяснять, что происходит с нашими данными до того, как мы начнем процесс построения модели. Теперь у нас есть представления об интересных связях, мы знаем о длительности кредита, наличии ценного имущества и балансе текущего счета. Эти переменные могут быть очень хорошими предсказательными переменными для построения модели.

7:23 При анализе и обработке данных очень полезной может оказаться выборка. В следующих блоках мы поговорим о том, как разделить данные на обучающую, контрольную и проверочную выборки, типическую (стратифицированную) выборку и использовать условия выбора наблюдений.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей