Session 10 - Data Sampling

(7 Голосов)

В этом блоке серии Data Mining Statistica мы затронем тему выборки. Мы будем говорить об обучающей, контрольной и проверочной выборке и затронем тему размера выборки. Ранее в этой серии мы очистили данные кредитного риска. В следующих трех блоках мы будем говорить о выборке, включая стратифицированную выборку.

 

 

 

 

 

0:24 Сегодня мы обсудим обучающую, контрольную и проверочную выборки, а также, что дает нам выборка. Мы рассмотрим методы выборки и определение размера выборки.

0:38 Обучающая выборка применяется для создания модели для анализа данных. Инструменты для анализа данных применяются для нахождения диаграммы предсказательного значения. Контрольная выборка применяется в процессе построения модели, чтобы убедиться, что данные для диаграммы обнаружены, кроме того выборка предотвращает модель от простого получения данных без обобщения. Проверочная выборка не применялась в процессе построения модели. Проверочная выборка показывает производительность модели. Если проверочная выборка показывает хорошую производительность модели, то можно заключить, что в модели показаны значимые связи.

1:17 Когда применяется случайная выборка, в ней также показаны диаграммы и связи. Построение модели на основе выборки повышает ее эффективность и предоставляет преимущества оценки модели, помогая избежать риска переподгонки. Модель с переподгонкой получает все данные выборки, но теряет актуальные связи. Модель с переподгонкой не применяется для обобщения.

1:46 Инструмент случайной выборки идеально подходит для создания управляемой совокупности данных. Если данные начинаются с сотен, тысяч или миллионов записей, инструмент случайной выборки может создать выборку, используя либо примерный размер выборки, либо процент от общего числа. Простая случайная выборка может быть с заменой или без нее. Таблица формул может создавать индикаторные переменные, эффективно разделяя данные на выборки, например обучающую и проверочную. Размер выборки вы выбираете сами, он может зависеть от количества данных.

2:23 Очень часто исследователи используют маленькую выборку при большом количестве данных. Способность находить значимые диаграммы или связи при случайной выборке никак не зависит от размера всей совокупности данных. Случайная выборка из, скажем, тысячи наблюдений будет такая же точная, как и при миллионной совокупности данных.

3:00 Для начала, будем использовать инструмент Случайная Выборка (Random Sampling) для разделения наших данных: данные для построения модели и данные оценки. В меню данных выбираем случайную выборку, выбираем все переменные, я собираюсь использовать случайную выборку для разделения данных на две отдельные группы. 15 процентов – проверочная выборка, а оставшиеся 85 процентов – обучающая и контрольная. Нажимаем ОК и получаем две новых группы данных. В первой группе данных 145 наблюдений, это будет наша проверочная выборка. В этой выборке примерно 15 процентов из тысячи наблюдений изначальной группы данных.

4:01 Как только модели построены и протестированы, мы будем их применять на основе данных проверочной выборки, следовательно, мы сможем оценить, насколько хорошо модель может обобщать новые данные. Оставшиеся 85 процентов данных - это 850 наблюдений. Они находятся в другой таблице, и из них мы будем делать обучающую и контрольную выборки для моделирования. Для этого воспользуемся таблицей формул. Это позволит нам сделать обе выборки одновременно в рамках одной совокупности данных. Мы создали две разных таблицы с выборками, если я хочу видеть их как одно целое, то рабочая зона анализа данных в интерактивном меню инструментов может облегчить работу с двумя выборками, пока мы исследуем и моделируем данные.

5:00 Сначала я хочу создать переменную, назовем ее «выборка». Мы назначим наблюдения либо к обучающей, либо к контрольной выборке данных. Давайте быстро посмотрим на гистограмму этой переменной, она показывает, что большая часть данных относится к обучающей выборке и лишь несколько наблюдений к контрольной выборке.

6:03 В следующий раз мы обратимся к теме стратифицированной случайной выборки. Этот тип выборки используется при предсказании категориальных переменных отклика. После стратифицированной выборки, мы детальней рассмотрим условия выбора наблюдений.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей