Session 5 - Data Mining, Initial Graphical Review

(13 Голосов)

Снова приветствуем вас в серии Data Mining Statistica! Это пятый блок, посвященный начальному графическому анализу. Информация из предыдущих блоков будет использоваться в данном блоке и также в дальнейшем. Поэтому, если вы не смотрели 3 серию, думаем, что она может быть вам полезной. Также, обратите внимание, что в ближайшее время у нас выходит новая тема, посвященная графикам, где мы будем исследовать достоверные данные в различных связях.

Сегодня мы будем делать обзор данных оценки кредитоспособности графически. Это самое начальное исследование и оно должно указать на любые проблемы с данными, как например, наличие выбросов и ошибки ввода данных. Мы рассмотрим те проблемы данных, на которые нужно обратить внимание на этапе очистки данных. Здесь важно привлечь знающего человека, который разбирается в данных и который может распознать ошибки данных и тому подобное.

 

 

 

 

 

 

0:55 Давайте перейдем к Statistica и начнем графическое исследование. Интерактивная детализация данных – это идеальный инструмент для исследования данных всех типов. Во вкладке обзора я выбираю переменные, релевантные для нашего анализа и создаю гистограммы каждой переменной. В них показана численность клиентов в каждой категории, а также области, где отсутствуют данные. Гистограмма оценки кредитоспособности показывает, что положительных клиентов в два раза больше, чем нежелательных. Эти данные важны для анализа данных. Все способы будут обсуждаться более детально в дальнейшем.

1:52 Еще одна интересная переменная – выплаты по предыдущему кредиту. У этой переменной отсутствуют некоторые записи, которые нужно определить на этапе очистки данных. Большинство клиентов либо не имели кредитов ранее, либо выплатили все предыдущие займы.

2:14 Диаграмма пола показывает, что клиентов мужчин в два раза больше, чем женщин. Интересно рассмотреть диаграмму предыдущих кредитов в том же банке. Последние две категории можно объединить, так как в каждой из них небольшое число клиентов. Поэтому мы можем сделать из категорий «от 5 до 6» и «7 и более» одну категорию, а назовем ее «5 и более». Диаграмма возраст показывает, что здесь возникли некоторые недочеты. Я полагаю, что клиентам уже должно исполниться 18 лет, чтобы они могли подавать заявку на получение кредита. Поэтому эта переменная требует пересмотра.

2:55 Теперь рассмотрим связь между переменными при помощи инструмента детализации данных. Мы выбираем переменные. Например, давайте сделаем детализацию для выплат по предыдущим кредитам. Для этого мы выбираем вкладку «нет предыдущих кредитов». Это позволит нам видеть только клиентов, у которых не было ранее взятых кредитов. Теперь нам нужно посмотреть на диаграмму количества предыдущих кредитов. Мне кажется, что здесь есть некоторые противоречия. Мы должны видеть только тех клиентов, у которых нет предыдущих кредитов, но число предыдущих кредитов в этом банке для некоторых покупателей либо от 2 до 4, либо 7 и более. А мы ожидали, что их число будет в категории 1 или менее. Поэтому данные записи нужно пересмотреть.

3:59 Диаграмма разброса данных включает три непрерывные переменные и показывает нам наличие выброса и ошибки ввода данных. Но давайте сконцентрируем внимание на длительности кредита и его сумме. Мы будем создавать диаграммы разброса для этих двух переменных. Именно поэтому нам нужно обратить на них особое внимание. Инструмент Кисть (brushing) позволит нам визуально исследовать данные. Предположим, мы знаем, что займы в этом отделе не превышали 30 тысяч долларов. Мы можем воспользоваться методом выделения блоками (box), чтобы выбрать те зоны, которые очевидно показывают больше 30 тысяч долларов и отключить их. График автоматически обновляется. Предположим, мы знаем, что все займы были выданы сроком не больше, чем 72 месяца. Мы видим, что здесь есть либо ошибки ввода данных, либо по какой-то причине эти данные не относятся к нашей совокупности данных.

4:56 Я нажимаю «применить» и диаграмма обновляется, а ошибочные области удалены. Но теперь появляется еще одна проблема. Длительность кредита должна быть, по крайней мере, 3 месяца. Давайте применим метод обобщения, чтобы выделить те области, которые указывают на длительность менее, чем 3 месяца. Я нажимаю «выделить». И эти области удалены. Теперь обратимся к областям, которые указывают на сумму менее ста долларов. И снова диаграмма обновлена. Если мы снова посмотрим на совокупность данных, то увидим, что все подозрительные данные все еще там есть. Важно знать, какие области были отключены, так как они не буду использоваться в дальнейшем анализе.

6:10 Мы рассмотрели данные оценки кредитоспособности, и нашли проблемы, к которым стоит обратиться при очистке данных. Мы рассмотрели инструмент Кисть, который может быть использован для удаления ошибочных моментов анализа.

В следующем блоке мы будем использовать все, что узнали ранее о графическом анализе. Некоторые переменные содержат выбросы, отсутствующие данные и неверный ввод данных, где мы и будем применять способы очистки данных.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей