Session 6 - Data Mining, Data Cleaning & Outliers

(13 Голосов)

Мы снова возвращаемся к Data Mining Statistica! Мы начинаем разговор об очистке данных и в этом блоке мы поговорим о выбросах. В прошлый раз мы делали обзор данных оценки кредитоспособности в графическом виде при подготовке очистки данных. Поэтому перед просмотром этого блока, будет полезно просмотреть предыдущие блоки, а именно введение в данные по оценке кредитоспособности и обзор графического анализа.

 

 

 

 

0:27 Выбросы могут быть достаточно запутанной проблемой в проекте по анализу данных. Как обнаружить выбросы, когда выбросы обнаружены, что с ними делать? Причины их появления. В этом блоке мы попытаемся ответить на все эти вопросы. В большинстве графиков выбросы выделяются. Для непрерывных данных коробчатые диаграммы показывают разброс данных, в этих диаграммах даже есть специальные маркеры для выбросов. Эта коробчатая диаграмма переменной длительности кредита показывает крайние значения. Гистограмма показывает частотность, поэтому это очень хороший график для выделения выбросов в категорийных данных. На диаграмму наносятся данные о предыдущих кредитах в этом банке. Лишь у небольшого количества человек было 7 или более предыдущих кредитов, поэтому это может быть выбросом.

1:14 Statistica предлагает статистические тесты для определения выбросов: критерий Граббса, нормальное распределение, процентили и критерий Тьюки. Все они определяют наличие выбросов в непрерывных данных. Как только мы обнаружили выбросы, что с ними делать? Ответ зависит от проекта и причины появления выбросов. Сначала определим, чем вызваны выбросы. Является ли появление выбросов ошибкой ввода данных? Например, была выбрана неверная категория, и комбинация переменных является невозможной. Как мы видели в прошлый раз, клиенты, у которых нет предыдущих кредитов в одной переменной представляли 1 текущий счет в этом банке, что указывает на ошибки ввода данных. В некоторых случаях, данные вообще не относятся к совокупности наших данных. Так, в прошлый раз мы видели сумму в 1 миллион долларов, что не относится к ошибке ввода данных, но никак не связана с данным проектом. Некоторые крайние значения допустимы. Введенные данные принадлежат относятся к совокупности наших данных и не являются ошибкой ввода. В таком случае гораздо сложнее решить, что делать с такими данными. Ошибки ввода данных следует удалить или оставить как пропущенные данные и заполнить необходимыми переменными. В случае, если данные не принадлежат данному проекту их нужно полностью удалить. Допустимые, но крайние значения можно оставить. Древо решений (диаграмма решений) и другие инструменты анализа данных не подвергаются сильному влиянию данных по выбросу.

2:55 Статистика предлагает много разных способов управления выбросами. Как мы видим в коробчатой диаграмме, переменная количество кредита имеет выбросы. В меню данных я выбираю инструмент Запись выброса (Record outliers). Этот инструмент тестирует и удаляет значение выбросов. Я могу выбрать либо одностороннюю проверку, либо двустороннюю. Это может быть проверка по критерию Граббса, нормальное распределение, процентили и критерий Тьюки. Я выбираю двустороннюю проверку по критерию Граббса. Я проявлю немного консерватизма и выставлю параметр определения 0.01. Конечно, затем, мы можем выбрать, что нам делать с обнаруженными выбросами. В настройках по умолчанию происходит запись отсутствующих данных. Мы можем изменить настройки и задать особое значение, либо задать процентили и т.д. Мы также можем выделить эти зоны или выключить их, используя условия выбора (selection condition). Опция «повторить пока все выбросы не будут записаны» позволяет нам анализировать данные большое количество раз и заново пересчитывать статистику Граббса, а также удалять выбросы, как только они буду обнаружены. Нажимаем «ок» и создается новая совокупность данных. Давайте посмотрим на диаграмму, на которой показано количество кредита. Случай с 1 миллионом долларов был записан как отсутствующие данные. Давайте еще раз посмотрим на это инструмент. Мы могли выбрать все переменные и записать все выбросы в совокупности данных одновременно. Все то же самое можно сделать через особое число вариаций или пока все выбросы не будут записаны. Возможно, это единственный инструмент, который вам будет нужен для быстрого удаления выбросов.

5:06 Возвращаясь к гистограмме из предыдущего блока, мы смотрим на переменное число предыдущих кредитов в этом банке. Эта гистограмма показывает очень мало случаев в последних двух категориях: от 5 до 6 и от 7 и более предыдущих кредитов. Мы хотим объединить эти две группы. Для этого, я выбираю переменную «количество предыдущих кредитов в этом банке» и из меню данных мы выбираем инструмент Запись. Итак, число предыдущих кредитов в этом банке от 5 до 6 и от 7 и более. Сейчас мы изменим их до категории от 5 и более. Я нажимаю «ок» и изменения внесены. Давайте посмотрим на гистограмму, чтобы увидеть обновления. Теперь у нас есть категории от 2 до 4 и от 5 и более предыдущих кредитов.

6:01 Теперь посмотрим на переменную «Длительность кредитов». Из блока, посвященного основам графического анализа, мы увидели, что некоторые случаи превышают максимальный период 72 месяца. Эти случаи можно отключить, используя опцию Кисть (Brushing). Просто выделяем эти области и нажимаем «применить». Выбросы удалены, а график обновился.

6:31 Опция «условия выбора» позволяет исключать те случаи, которые не подходят под наши критерии. В прошлый раз мы видели, что введенные данные не показывают текущие счета в одной переменной, и показывают более 1 счета в другой переменной. Эта опция позволяют использовать выражение, чтобы исключить определенные случаи, тогда баланс текущего счета не означает текущий счет, а количество предыдущих кредитов в этом банке не равно «один и менее». Такие случаи следует исключать.

7:05 Итак, теперь посмотрим на двумерную гистограмму этих двух переменных, используя опцию «условия выбора». Клиенты, у которых нет текущего счета, теперь попадают в категорию «1 или менее кредитов в этом банке».

Мы рассмотрели несколько инструментов для обнаружения и управления случаями с выбросами. Иногда, весь случай можно удалить, например, используя опцию Кисть или Условия выбора. Другие способы оставляют этот случай, записывают его или меняют его на отсутствующие данные.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей