Session 11 - Stratified Random Sampling

(7 Голосов)

Стратифицированная случайная выборка – тема этого блока серии Data Mining Statistica. Мы работаем с данными кредитного риска. В прошлый раз мы говорили о случайной выборке и ее преимуществах. Мы обсудим, когда и как применять стратифицированную выборку в Statistica.  

 

 

 

 

 

0:33 Когда представляющий интерес редкий, модели добычи данных вряд ли смогут обеспечить хорошее предсказание. В примере с кредитом мы работали с данными, а именно 70 процентов клиентов имеют хороший кредитный риск, а 30 процентов остаются в категории плохого кредитного риска. Я могла бы просто предположить, что все клиенты имеют хороший кредитный риск и была бы права в 70 процентов случаев. Это довольно точный прогноз, но он никак не отвечает целям проекта по анализу данных. Обучающие модели с данными 70 процентов хороший кредитный риск, а 30 – плохой, не отличались бы от моделей, которые всегда предсказывают только хороший риск. Но мы должны стремиться к тому, чтобы найти интересные и надежные связи, выровняв те данные, которые были стратифицированы случайной выборкой.

1:24 Для применения стратифицированной случайной выборки нам нужна переменная страты. В нашем случае переменная страты – кредитный риск. Переменная страты – это та переменная, для которой вы будете выбирать пропорции выборки. Выбрав одинаковый размер выборки для обеих страт (плохой и хороший риск), мы убеждаемся, что редкие события с плохим кредитным риском также хорошо представлены. Таким образом, получившиеся модели дадут нам более точное предсказание о клиентах с плохим кредитным риском. Стратифицированную выборку можно использовать не только для выравнивания расхождений между результатами, как мы показали в данном примере.

2:04 В Statistica инструмент Случайная Выборка (Random Sampling) применяется, как мы уже видели, для простой случайной выборки. Вкладка стратифицированная выборка (Stratified Sample) позволяет выбрать переменную страты и уточнить пропорции или размер выборки.

2:23 Вначале мы выберем случайную выборку из меню данных и найдем вкладку стратифицированная выборка. Переменная страты – это кредитный риск. Кнопка коды (codes) позволяет нам выбрать категории этой переменной страты. Итак, мы знаем, что нам нужно использовать и хороший и плохой кредитный риск, поэтому я нажимаю кнопку «все» (all). Масштаб изображения (Zoom) позволяет мне выбрать категории. И теперь мы видим сетки страты. По умолчанию были выбраны данные страты, используя проценты. Во вкладке настройки (options) я могу внести изменения и выбрать примерный размер выборки N. Теперь я могу изменить число наблюдений примерно до 300 на каждую категорию нашей переменной страты. Мы помним, что менее многочисленная группа это группа клиентов с плохим риском, и я сказала примерное число, потому что выборка случайная. Мы приближаемся к числу 300, но это не точные данные. Но и проценты также не являются точными данными. Нажимаем ОК и создана новая таблица, в которой представлена стратифицированная выборка наших данных оценки кредитоспособности. Давайте быстро создадим гистограмму. Выбираем переменную кредитный рейтинг. Из гистограммы видно, что пропорция хорошего и плохого кредитного риска уже почти одинаковая.

4:29 Далее мы будем рассматривать условия выбора наблюдений в Statistica, как способ выбрать те данные, с которыми мы хотим работать.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей