Session 3 - Data Mining Introduction of Credit Risk Data

(13 Голосов)

Это третий блок в серии Data Miner STATISTICA. В этом блоке мы обсудим данные, которые будут упоминаться и в дальнейших блоках и покажем инструменты для анализа данных. Мы будем использовать кредитный риск в качестве примера, чтобы показать способы очистки данных и классификацию алгоритмов анализа данных в STATISTICA. Вы можете использовать этот пример, чтобы обобщить эти способы и применить их к вашей области.

Если вспомнить процесс CRISP, то пример оценки кредитоспособности влияет только на бизнес аспекты процесса. Задача, оценка проекта и применение к бизнес процессам – это единственные уникальные черты в данном примере. С точки зрения построения модели и аналитики – это задача классификации, а все подходы классификации имеют схожие черты. Если оценка кредитоспособности никак не связана с вашей областью деятельности, представьте, что все данные связаны с задачей классификации, соответствующей вашей области и остановитесь только на общих подходах. Эти подходы мы будем рассматривать в дальнейших блоках.

 

 

 

1:10 Сегодня мы обсуждаем данные кредитного риска. Мы начнем с обсуждения применения анализа данных и с нужд бизнеса, затем сделаем обзор переменных, наконец, поговорим о следующих шагах проекта.

1:25 Практически все данные нуждаются в некоторой подготовительной работе. Это может быть очистка данных, если они отсутствуют, выделение отсутствующих данных и т.д., выбор переменных для анализа и формирование выборки. Задачи классификации имеют разное применение. STATISTICA может применяться для распределения переменных по 2-м, 3-м или более группам. Кроме того, мы можем предсказывать вероятность классификации.

2:00 Проект по анализу данных начинается с определения нужд бизнеса. В этом случае финансовое учреждение может предоставить данные о клиентах. Эти клиенты распределяются по группам, в зависимости от того, являются они клиентами с «хорошим» или «плохим» кредитным риском. Это распределение основано на кредитной истории, имеющейся у финансового учреждения. Классификация зависит от того, были ли просрочки по платежам, и учитывает размер потерь. Мы могли бы использовать такие данные, чтобы прогнозировать, каким клиентам можно выдавать кредит и на какую сумму. Успех мы измеряем в течение длительного периода, согласно ожидаемым сокращениям и падениям. Наши цели включают: - Определить переменные, которые лучше всего прогнозируют кредитный риск. – Найти высокопродуктивную предсказательную модель, которая классифицирует клиентов. – Применить данную модель для принятия решений по кредитам. – Обновлять модель по мере поступления новых данных.

2:52 Давайте посмотрим на данные STATISTICA. Здесь мы видим таблицу, но мы также посмотрим на наши данные в графическом изображении. У нас есть обзор графиков, где они будут рассмотрены более полно. Это зависимая переменная, то есть переменная, для которой мы хотим составить прогноз. Это называется кредитный рейтинг, наши клиенты и данные их кредитных историй определяются как «хорошие» и «плохие». И нам нужно дать прогноз по этой переменной. Переменные, которые, как мы ожидаем, могут иметь связь с кредитным рейтингом следующие: баланс текущего счета, длительность кредита в месяцах, сбережения, как давно клиент работает на данном месте работы. Здесь представлена информация о платежах в рассрочку, семейном статусе, указан пол, срок проживания в данном месте, самое ценное имущество, возраст, текущие кредиты, вид жилья, количество кредитов ранее взятых в данном банке, род деятельности. Таким образом первая переменная – зависимая переменная, а оставшиеся – предсказуемые переменные, которые, как мы полагаем, имеют отношение к наблюдаемой переменной. Мы будет рассматривать эту ситуация более детально в дальнейшем.

4:43 Итак, у нас есть понимание бизнеса. Мы указали нужды бизнеса, и как мы планируем их заполнить. Далее, нам нужно понять данные из графиков и основ статистики. Затем мы очистим данные, для использования на этапе моделирования, когда обнаружим подходящую модель. Мы проведём оценку этой модели, а затем будем ее применять.

Коротко, мы рассмотрели нужды бизнеса и применение данных. Мы сделали обзор переменных из ряда данных.

Мы получили общее представление об анализе и обработке данных и о понимании бизнеса. В следующем блоке, мы покажем практические примеры запроса данных из базы данных и примеры импорта данных из внешних источников, например Excel. И с самого начала мы сделаем обзор графиков и рассмотрим процесс очистки данных.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей