Session 2 - Data Mining Process using CRISP

(11 Голосов)

Это второй блок в серии Data Mining Statistica. В этом блоке мы поговорим о таком процессе анализа данных, как CRISP. Первый блок был посвящен обзору анализа данных, в этой серии мы продолжим говорить о других шагах процесса анализа данных. Это раздел носит концептуальный характер, то есть описывает основные понятия. А в оставшейся части мы покажем практические примеры использования анализа данных в Statistica.

Что такое CRISP? Сегодня мы рассмотрим основные шаги процесса CRISP и обсудим, почему они важны. Затем мы рассмотрим инструменты Statistica, разработанные для CRISP. Аббревиатура CRISP означает – межотраслевой стандартный процесс для анализа данных. Так как анализ и обработка данных – относительно новая область, то здесь каждый делает то, что считает нужным. Основоположники этой области объединились и стандартизировали процесс. CRISP можно применять в любой области, используя любое программное обеспечение по анализу и обработке данных. Стандартный процесс необходим, чтобы все проекты выполнялись быстро, эффективно и были экономически выгодными. Statistica Data Miner предлагает следующие инструменты: - Data Miner Recipe. Этот инструмент систематически планирует и показывает шаги для проекта по анализу данных, с применением CRISP; Data Miner Workspace обеспечивает хорошо спланированный ход работ для проекта по анализу данных, с применением CRISP; Interactive Data Miner – это диалоговый подход к процессу CRISP.

 

 

 

 

 

 

 

1:22 Давайте посмотрим на сам процесс. Понимание бизнеса – это первый и ключевой шаг в процессе CRISP. На этапе понимания бизнеса происходит определение целей проекта. Здесь важно осознать, что мы может получить, имея необходимые данные. На какие вопросы мы хотим получить ответ, реализуя проект по анализу данных? Какие задачи бизнеса могут быть решены? На этом этапе создается план проекта, определяются цели и возможный успех проекта. Если у нас не будет поставленных задач для проекта, то у нас не будет четкого направления, а значит проект не будет успешным.

1:52 Понимание данных. Этот этап начинается со сбора данных или с доступа к уже существующим данным. В этой области нам будут нужны эксперты. С полным пониманием нужд бизнеса, данные исследуются либо графически, либо при помощи основ статистики. Итак, какие взаимосвязи могут быть в данных? Понимание бизнеса и данных – это взаимосвязанные аспекты. Для понимания бизнеса важно исследование данных о взаимосвязях. Переходя от понимания бизнеса к пониманию данных, мы формируем гипотезу для проверки целей проекта.

2:24 Подготовка данных. Этот этап не только занимает много времени, но и может потребовать 80% усилий. Некоторые переменные могут отсутствовать или быть ошибочными. На этом этапе мы должны решить, как будет происходить очистка данных.

2:40 Моделирование. Сейчас доступно большое количество способов моделирования, в дальнейшем мы их рассмотрим более детально. Подготовка данных может быть необходима для правильного использования конкретного алгоритма. Таким образом, подготовка данных и моделирование могут быть взаимозаменяемыми. На этапе моделирования создаются несколько предсказательных моделей анализа и обработки данных. На этом этапе дается анализ моделей.

3:05 Оценка. Модели, созданные в ходе предыдущего этапа оцениваются с целью поиска модели или ряда моделей, наиболее подходящих для решения задач бизнеса. Эти задачи были определены на этапе понимания бизнеса. Здесь мы будем определять, как использовать эти модели.

3:22 Применение. К началу этого этапа у нас уже должна быть модель, которая соответствует задачам бизнеса. На этапе применения, модель используется для подсчета данных. Этот этап не обязательно должен завершать работу над проектом. Введение новых данных на этапе построения модели может значительно улучшить работу.

3:38 Statistica Data Miner Recipe дает возможность увидеть и пройти через все этапы вашего проекта. Такое решение идеально для новичков, но в то же время оно предлагает дополнительные параметры для экспертов. Этап понимания бизнеса должен быть завершен до того, как у нас появятся данные. Первые несколько шагов инструмента Recipe посвящены подготовке данных. Здесь мы также переходим к этапам построения модели, оценке и применению.

4:10 Инструмент Statistica Data Miner Workspace обеспечивает ход работы для создания проектов по анализу данных, с применением CRISP. В дальнейшем, результат работы можно применять к новым данным и запускать этот инструмент, не прилагая лишних усилий.

В этом проекте мы видим несколько способов моделирования и находим лучший для создания конечного прогноза.

4:32 Statistica Data Miner предлагает большое количество вариантов для каждого этапа анализа: - Понимание данных. Мы видим некоторые графические инструменты, которые предлагает Statistica. – Подготовка данных. Мы предлагаем инструменты, как запись выбросов и управление отсутствующими данными. – Моделирование. Здесь мы видим список некоторых способов моделирования от Statistica и древовидную схему. – Оценка. Здесь мы видим график роста, оценивающий модель. – Применение, а также наши инструменты по анализу данных имеют варианты для создания кода развертывания, C/C++ PMML и редактора visual basic.

5:22 В этом блоке мы обсудили этапы процесса CRISP и то, как они взаимосвязаны. Мы также обсудили, как Statistica Data Miner может помочь в реализации нужд бизнеса на каждом этапе анализа.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей