Session 8 - Other Data Cleaning Techniques

(10 Голосов)

В этой серии Data Mining Statistica мы будем обсуждать другие способы очистки данных, которые еще не освещались. Мы уже рассмотрели инструменты для очистки пропущенных данных и выбросов. Просмотр предыдущих эпизодов может помочь вам полностью понять вопрос очистки данных.  

 

 

 

 

0:25 Темы в этом блоке включают в себя: разреженные переменные и наблюдения, инвариантные данные и дублирующие записи. Мы обсудим, что это такое, почему они могут быть проблематичными и как эти проблемы устранить.

0:41 Разреженные данные – это данные, где пропущены два или более значений. Переменная, у которой большая часть наблюдений имеет пропущенные значения не приносит никакой пользы анализу, так же как и наблюдение с пропущенными записями. Такие разреженные переменные и наблюдения следует удалять. В Statistica есть такой инструмент для выполнения этой задачи.

1:03 В Statistica я использую данные оценки кредита до того, как будут заменены пропущенные значения. Обратите внимание, что в совокупности данных у нас одна тысяча пятьдесят наблюдений. Мы используем инструмент Фильтр Разреженных Данных (sparse filter data), выбираем все переменные и мы ищем переменные и наблюдения, где только 10 процентов пропущенных значений, нажимаем ОК. Таблица обновилась, и пять наблюдений было удалено.

1:33 Инвариантные данные – еще одна проблема для очистки данных. Если переменная не имеет значений или их очень мало, то она ничего не дает для анализа. Переменная Applied (сколько человек подавали заявку на кредит) – это индикаторная переменная. Все клиенты по нашим данным подавали заявку на кредит, поэтому во всех записях стоит «да», это можно увидеть и на гистограмме. Здесь мы видим переменную в наших данных. Инструмент Обработка Инвариантных Данных (process invariant variable) позволяет нам отфильтровать эту переменную и другие инвариантные переменные. Инвариантная переменная Applied была удалена из совокупности данных.

2:24 Когда наблюдения дублируются, они самопроизвольно получают больший вес в процессе построения модели. Клиент, который подавал заявку на заем, несколько раз может появляться в наших данных именно такое количество раз. Обратите внимание, что два последних наблюдения точно такие же. Это дублированные записи друг друга. Для того чтобы удалить дублирующую запись, мы будем использовать инструмент Фильтр Дублирующих Наблюдений (filter duplicate cases). Мы выбираем все переменные. Если бы у нас был уникальный номер ID, мы могли бы этим воспользоваться или мы можем использовать множественные записи в поиске дублированных записей во всех выбранных переменных. Я нажимаю ОК и дублирующие записи удалены.

3:32 В следующий раз мы будем рассматривать данные графически. В этот раз мы будем искать связи в данных между оценкой кредита и предсказательными переменными. Затем мы перейдем к теме выборки.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей