Session 7 - Data Cleaning and Missing Data

(11 Голосов)

В этом блоке серии Statistica Data Mining мы будем обсуждать еще один способ очистки данных, а именно пропущенных данных. В третьем блоке мы представили данные кредитного риска, а в пятом блоке мы сделали графический обзор этих данных. Возможно, вы получите лучшее представление о пропущенных данных, если сначала прослушаете эти два блока.  

 

 

 

 

 

0:17 Пропущенные данные – актуальный вопрос для большинства проектов по анализу и обработке данных. Они могут привести к некоторым проблемам при анализе. В этом блоке мы обсудим эти проблемы и то, как их решать. Также мы рассмотрим способы заполнения пропущенных данных, включая замену или другие особые значения и подход k-ближайший сосед.

0:39 Пропущенные данные могут создавать большие проблемы для проекта по анализу и обработке данных. Большинство инструментов не принимают пропущенные данные для обучающей модели. Поэтому, наблюдения с пропущенными данными, полностью выбрасываются из поля зрения. Информация для этих наблюдений, которая содержится в оставшихся переменных с данными, утеряна. Это может привести к смещениям, когда между пропущенными данными существуют систематические зависимости. В примере с кредитным риском мы может не обнаружить некоторую информацию о наших клиентах. Теперь для этих переменных у нас есть пропущенные данные о клиентах. Если с пропущенными данными ничего не делать, то информация о клиентах будет полностью проигнорирована. У нас есть группа клиентов не представленная в предсказательной модели.

1:25 Statistica предлагает инструменты для обнаружения и замены пропущенных данных на среднее значение, замена медианой или относительным значением. Как только пропущенные данные заменены, наблюдения, которые игнорировались теперь можно использовать. Предупреждение: как только пропущенные данные были заменены одним значением, это сокращает количество вариантов и также может повлиять на корреляцию.

1:49 K-ближайший сосед – это альтернативный подход. Statistica использует k-наблюдения, которые вероятней всего содержат пропущенное значение. В Statistica гистограмма переменной возраста показывает пропущенные наблюдения, они также отмечены в таблице. Инструмент Замена Пропущенных Данных (replace missing data) быстро заменит пропущенные значения на среднее значение. Инструмент Обработка Пропущенных Данных (process missing data) позволяет нам записать среднее значение, медиану или отметить данные. Мы также можем уточнить дополнительное пропущенное значение. Не доступные коды можно отметить аббревиатурой n\a, если мы хотим заменить и эти переменные. Итак, мы заменяем все пропущенные данные о возрасте цифрой 35. Теперь все записи, которые либо были пропущены, либо не доступны заменены на значение 35.

3:18 K-ближайший сосед доступен, если нажать на кнопку Восстановление Пропущенных Данных (missing data imputation). Мы хотим, чтобы возраст был непрерывным заданным значением. Мы хотим заменить пропущенные данные этой переменной, переменной возраста. Я выбираю несколько переменных, которые могут нам помочь. Это переменные, как: ценное имущество, сколько лет клиент работает у данного работодателя, его семейный статус, сколько он живет в данном месте, является ли он собственником жилья или арендует его, количество предыдущих кредитов. Подобные переменные, вероятно, будут хорошими показателями возраста человека. Нажимаем OK и мы видим, что была создана таблица. Пропущенные наблюдения заменены, каждое наблюдение заменено значением данных.

4:14 Statistica обеспечивает контроль очистки данных и заполнение пропущенных данных. Набор инструментов варьируется от быстрого и простого подхода заполнения средним значением всех пропущенных значений до обнаружения похожих наблюдений, которые и заменяют пропущенное значение. Важно то, что все наблюдения теперь можно использовать и никакая информация не будет утеряна.

4:41 В следующем блоке мы покажем еще несколько инструментов для очистки данных: как обрабатывать мало заполненные наблюдения, какие проблемы могут вызвать инвариантные данные, а также дублирующие записи. После этого мы исследуем данные графически и будем искать связи в этих данных.

Комментарии  

 
0 #1 Colleen 17.04.2017 14:23
I'm really enjoying the design and layout of your site.
It's a very easy on the eyes which makes it much more enjoyable for me to
come here and visit more often. Did you hire out a developer to create your theme?

Outstanding work!

My page :: education online: http://educationhint.eu/
Цитировать
 

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей