Session 12 - Data Sampling & Case Selection

(7 Голосов)

В этом блоке серии Data Mining Statistica мы обсудим условия выбора наблюдений и их использование в проектах по анализу данных. Мы продолжим использовать данные, связанные с кредитным риском. Мы использовали эти данные в графическом виде, очищали их, делали выборку. Если вы не смотрели эти блоки, то они могут быть вам интересны.  

 

 

 

 

 

0:20 Сегодня мы рассмотрим условия выбора наблюдений в Statistica и поработаем с ними в программном обеспечении. Мы также посмотрим, как они могут быть полезны для вашего проекта по анализу данных.

0:30 Условия выбора данных – очень полезный инструмент, который сделает вашу работу с данными в Statistica очень гибкой. Применение условий выбора наблюдений позволит вам использовать подмножества данных, не меняя данные. Условия выбора наблюдений предлагают опцию визуального просмотра наблюдений в таблице, которые будут использованы для анализа. Это очень хороший инструмент, чтобы убедиться, какие данные мы используем и что мы от них ожидаем.

1:00 Преимущества этого инструмента в проекте по анализу данных заключаются в том, что вы можете работать с различными подмножествами данных, не создавая большое количество копий. Если данные объемные, то вы сможете сэкономить время и память. По умолчанию, условия выбора записываются в заголовки графиков и заголовки таблиц выходных данных. Так вы легко можете узнать, какие данные используются. Когда вы вернетесь к проекту и его результата позже, у вас не будет вопросов, что показано на выходе.

1:33 Итак, в нашем проекте мы хотим сконцентрироваться на подмножестве данных тех, кто подавал заявку на кредит, основанном на количестве кредита. Более конкретно, нам нужны те заявители, которые запросили кредит на сумму примерно 5 тысяч долларов. Для этого я могу использовать условия выбора наблюдений. Но перед этим, мы сделаем гистограмму переменной количества кредита. Гистограмма показывает, что у нас будет несколько наблюдений: выше 5 тысяч долларов и ниже 5 тысяч.

2:15 Возвращаемся к нашим данным, применяем инструмент условий выбора наблюдений. Мы можем получить доступ к этому инструменту несколькими способами: внизу мы видим что Выбор (Set selection) отключен, двойным щелчком мыши мы получим доступ к выбору условий. Эти иконки на панели инструментов позволяют нам включить условия выбора наблюдений. Наверное, самый легкий способ – это через меню инструментов, выбираем условия выбора, далее редактировать (edit). При любом из способов мы увидим вот такое диалоговое окно. Сначала ставим галочку напротив Разрешить условия выбора (Enable selection conditions). Мы также видим Включить (Include) и Исключить (Exclude). То есть у нас могут быть или условия включения, или исключения или оба условия. Название переменной вводим в кавычках (у нас это «количество кредита», более 5 тысяч долларов). Нажимаем ОК, мы видим, что наши данные обновились, а наблюдения, которые мы будем использовать, выделены зеленым. Мы видим количество кредита более 8 тысяч долларов, более 6 и т.д. А здесь 2 тысячи, одна, 3 тысячи. Они выделены белым. Поэтому эти наблюдения будут исключены при помощи выбора наблюдений.

3:48 Теперь после выбора условий наблюдения, посмотрим, как будет выглядеть результат на выходе. Переделаем гистограмму количества кредита, проверим, включены ли условия выбора. Получившаяся гистограмма выглядит по-другому, мы используем только наблюдения выше 5 тысяч долларов, а условия включения даны в заголовке нашего графика. График показывает только те наблюдения, которые больше 5 тысяч долларов. Давайте посмотрим на основную статистику, чтобы посмотреть на таблицу выходных данных. Снова, условия включения даны в заголовке.

4:54 В данном примере мы смогли исследовать подмножество данных, не создавая новой таблицы данных. Мы использовали детали подмножества, критерий включения показан на выходе. Таким образом, инструмент выбора условий наблюдений может оказаться очень полезным.

5:11 В следующих блоках мы начнем разговор о выборе предсказательных переменных для анализа. То есть мы приближаемся к построению модели по добыче данных. Среди обсуждаемых тем будут: отбор переменных, влияние слишком большого числа переменных и избыточность переменных.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей