Session 1 - STATISTICA Data Mining Overview

(16 Голосов)

Добро пожаловать в Data Mining STATISTICA, представленную StatSoft Incorporated. Меня зовут Дженнифер Томпсон, я работаю статистиком в StatSoft и я имею степень магистра по статистике. Первый блок серии, посвященной анализу данных, освещает общие понятия процесса анализа данных.

Давайте посмотрим на блоки в этой серии. В этих блоках будут представлены наглядные стадии проектов анализа данных и будет показано, как можно осуществлять проекты, используя статистический анализ данных. Задача данной серии – помочь вам ближе познакомиться с способами и методами статистики, для использования в собственных проектах по анализу данных.

 

 

 

 

0:20 Каждый блок является самодостаточным, но некоторые блоки построены на информации из предыдущего материала. Лучше, просмотреть всю серию, чтобы получить полное понимание и представление о статистическом анализе данных.

0:54 В первом блоке мы покажем три примера того, как анализ данных можно применить при решении бизнес задач. Эти примеры иллюстрируют три типичных применения анализа данных: классификация, регрессионный анализ и кластерный анализ. Ситуации, описанные в примерах – не единственный вариант, когда анализ данных может принести пользу. Вы можете иметь те же цели использования анализа данных, но работать в других областях.

1:24    Классификация – это типичное применение анализа данных, где наблюдаемая переменная, то есть переменная, которую мы предсказываем, по своей природе является категориальной. Некоторые примеры касаются кредитования, а именно положительного или отрицательного исхода кредитного риска. В области медицины мы можем классифицировать пациентов относительно риска заболевания сердца. При обнаружении мошенничества, можно классифицировать людей, склонных к мошенническому поведению. Каждый из этих примеров показывает, что нужно тому или иному бизнесу и как в этом может помочь анализ данных. К целям задачи классификации относятся: Нахождение переменных, которые тесно связаны с наблюдаемыми переменными. 2. Разработка предсказательной модели классификации. Отметим, что точная классификация поможет вам сэкономить время и деньги.

2:08 Давайте рассмотрим пример классификации более детально. Некое финансовое учреждение имеет обширные данные о своих клиентах. В этом учреждении хотели бы использовать эти данные для создания модели оценки кредитного риска клиентов. Будущие клиенты будут классифицироваться по данной модели, на основании чего и будет решено, предоставлять ли кредит клиенту и на какую сумму. В этом примере применяется алгоритм Random Forest. Данный алгоритм классифицирует клиентов согласно кредитному риску. График роста внизу показывает уровень увеличения в точности прогноза согласно основной модели.

2:41 У нас есть рабочая зона для анализа данных, данные оценки кредитоспособности, информация о проекте, анализ алгоритма Random Forest, для создания отчетов. Давайте посмотрим отчет. Это график роста для модели Random Forest. Это очень краткое описание проекта. В следующих блоках мы рассмотрим его более детально, а в этом блоке мы представим много наглядных примеров с практическим применением.

3:15 Регрессионный анализ – это еще одно типичное применение анализа данных. В этом случае наблюдаемая переменная непрерывна. К возможным применениям регрессионного анализа данных относятся: 1. Оценка процесса производства. 2. Прогнозирование прибыли в долларах на основании существующих данных. 3. Или прогнозирование снижения уровня холестерина у пациентов, принимающих лекарство. Каждый из этих примеров показывает, что нужно в том или иной случае и как в этом может помочь анализ данных. Цели регрессионного анализа такие же как и в случае с классификацией. Мы хотим найти ряд переменных, которые тесно связаны с наблюдаемой переменной, и разработать предсказательную модель.

3:54 Давайте рассмотрим пример регрессионного анализа более детально. Заводу по производству напитков нужно определить, какие переменные сильнее всего оказывают влияние на процесс разлива напитков по бутылкам. Также, предсказательная модель поможет предвидеть проблемы, которые могут возникнуть в процессе производства. Feature Selection (выбор характеристик) находит ряд переменных, которые оказывают сильное влияние на результат процесса производства. Эта таблица показывает самые важные переменные по уровню значимости. Для нахождения предсказательной модели примерялись Многомерные Адаптивные Сплайны (МАР - сплайны). У алгоритма Map-сплайнов очень высока точность прогнозов.

4:35    Кластерный анализ – это типичное применение анализа данных и он отличается от классификации и регрессионного анализа. Здесь отсутствует традиционная наблюдаемая переменная. Вместо этого данные группируются по кластерам (классам). Например, маркетинговая компания хочет создать кластеры своих клиентов, в исследовательской компании также могут быть образованы кластеры признаков. Также можно создавать кластеры брэндов товаров на основании данных отзывов клиентов. К целям кластерного анализа относятся: нахождение переменных, которые могут влиять на количество клиентов, сравнение кластеров по переменным, обнаружение новизны и выбор масштаба.

5:16 Рассмотрим пример кластерного анализа. Маркетинговая фирма могла бы извлечь выгоду при обнаружении кластеров в своих данных о клиентах. Кластерная информация позволила бы компании более эффективно проводить свои маркетинговые кампании. При кластерном анализе из данных о клиентах образуют кластеры, и каждый человек затем попадает в тот или иной кластер. Свойства кластером можно представить графически. Здесь мы видим разницу между кластером для переменных лица с высоким доходом и кластером 1, который представлен в виде синий линии. В кластере 1 в основном представлены люди, находящиеся в браке.

6:04 В следующем блоке мы рассмотрим стандартный процесс анализа данных CRISP. Этот процесс показывает, как работает обычный проект по анализу данных, независимо от области применения. Еще дальше мы рассмотрим шаги проекта по анализу данных; примеры использования методов очистки данных; примеры использования алгоритмов для нахождения предсказательных моделей и применения новых данных. Мы также рассмотрим три подхода к проектам по анализу данных в STATISTICA.

6:42 Кратко перечислим, что мы узнали из этого блока. Мы рассмотрели примеры компаний, которые нуждаются в анализе данных от STATISTICA. Эти примеры нельзя назвать исчерпывающими, они лишь показывают, где нудно применять анализ данных. Общие принципы можно применять в тех областях, которые необходимы для улучшения вашего бизнеса. Примеры стандартных результатов показывают полезность анализа данных. Мы увидели большое количество результатов, иллюстрирующих, что мы может получить от анализа данных. Эти результат являются лишь примерами тех методов, которые мы будет изучать в дальнейшем. Кроме того, эти примеры доказывают насколько легко менеджер или человек, принимающий решения в компании, может добиться успеха в проекте по анализу данных .

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей