Session 15 - Variable redundancy

 

(7 Голосов)

Сегодня в серии Data Mining Statistica мы поговорим об избыточных переменных. В этом блоке мы продолжим работу с данными оценки кредитоспособности. В последних двух блоках мы познакомились с инструментом Выбор признаков и экранирование переменной и обсудили его преимущества для проекта обработки и анализа данных. Последующие блоки будут построены на этой информации.

 

 

 

0:19 Темы для этого блока о переменной избыточности: определение избыточных переменных, выявление их в категориальных и непрерывных данных и влияние избыточности на проекты обработки и анализа данных.

0:33 Что такое избыточные переменные? Это переменные, которые содержат одинаковую информацию. Так как информация одна и та же, то использование избыточной переменной для построения модели желательно. Если они имеют отношение к нашему анализу, то их следует включить, но не все.

0:51 Вот пример избыточных переменных, которые являются категориальными. Переменные Работа у настоящего работодателя и записи в трудовой книжке. Из многокоординатной таблицы легко увидеть, что эти две переменные содержат большое количество совпадающей информации. Те, кто работает на настоящем месте более 1 года считаются удовлетворительными. Итак, менее 1, от 1 до 5 и больше 8 – все относятся к удовлетворяющей оценке. Показатель менее 1 года имеет запись либо как недостаточная информация, либо неудовлетворяющая оценка. Поэтому для категориальных данных таблицы и двумерные гистограммы могут показать избыточность.

1:40 Для непрерывных данных мера корреляции показывает избыточность. Здесь мы видим показатели корреляции для годового дохода и заработок из последней квитанции начисления заработной платы. Также у нас есть рассеянная диаграмма этих двух переменных, показывающая их тесную взаимосвязь.

1:59 Когда модель обработки и анализа данных включает избыточные переменные, истинное влияние на модель может быть скрыто. Если посмотреть на чувствительность выходных переменных в нейронных сетях, то мы увидим, что сеть использовала комбинацию переменных Годовой доход и заработок согласно квитанции. Таким образом, чувствительность для обеих переменных уменьшилась. Общий уровень дохода скрыт. Так как избыточные переменные не несут какой-либо новой дополнительной информации, поэтому включение их всех только добавит сложности модели.

2:34 Давайте посмотрим на корреляцию между годовым доходом и выплатой за последний месяц. Для этого я использую меню данных, затем статистика и таблицы, затем корреляционные матрицы. Я выбираю переменные: годовой доход и выплаты за последний месяц. Мы получаем корреляционную матрицу, показывающую корреляцию 0.999 между годовым доходом и выплатами за последний месяц. Между этими двумя переменными очень сильная корреляция и тесные взаимоотношения. Я также делаю рассеянную диаграмму. И снова диаграмма показывает тесные взаимоотношения, указывающие на то, что эти переменные избыточные.

3:29 Показатели корреляции выше 0.7 говорят об избыточности. Поэтому для построения модели я использую только одну переменную, но не обе. Теперь рассмотрим пример с категориальными данными. Мы используем таблицы заголовков, затем многокоординатную таблицу. Я уточняю две переменные, а именно работа у настоящего работодателя и записи в трудовой книжке. Я создаю двумерную таблицу, показывающую работников, которые работают у данного работодателя от 1до 5, от 5 до 8 и свыше 5 лет. Все они относятся к удовлетворяющей оценке или показывают недостаточную информацию или неудовлетворяющую оценку. Мы видим, что информация, которую предоставляют эти переменные совпадает. Теперь сделаем графическое представление этой информации в 3D гистограмме. А так как информация совпадает, только одна переменная необходима для построения модели.

4:41 Теперь давайте посмотрим на переменные Возраст и Возрастная категория. Предположим, что у нас есть непрерывная переменная и одинаковая информация распределена по этим категориями. Поэтому эти переменные очевидно являются избыточными, но мы можем проверить избыточность между, скажем, непрерывной переменной и порядковыми данными при помощи непараметрических показателей для этой связи. Поэтому будет использовать коэффициент ранговой корреляции Спирмена. Это будет работать каждый раз, когда у нас появляются непрерывные или порядковые данные.

5:24 Итак, выбираем переменные, выбираем R Спирмена, чтобы получить связь между возрастом, что относится к непрерывным данным и возрастной категорией, что относится к категориальным данным. Но опять не любая категориальная переменная будет работать с этой корреляцией. Иногда упорядочение будет иметь смысл. Но снова мы нашли еще одну избыточную переменную, и мы используем либо возраст, либо возрастную категорию, но нам не нужно использовать обе для построения модели.

6:09 Мы исследовали данные, очистили их, создали выборки, проверили избыточность и отобрали самые значимые переменные для анализа. Подготовительная работа для создания проекта по обработке и анализу данных завершена, и мы готовы начать строить модели. В следующем блоке мы введем концепт рекурсивных методов разделения. И затем мы начнем строить модель в виде дерева в Statistica.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей