Предоставляем вашему вниманию перевод официальных видеокурсов от компании Statsoft по программе STATISTICA. С помощью данных материалов вы сможете ознакомиться с основными возможностями данной программы и научиться рационально ее использовать. В лекциях рассмотрены основные способы анализа, в том числе кластерный, регрессионный и т.д. Также приводятся методы и приемы решения различных статистических задач, с пояснением на практических примерах.

Называется видеокурс «Data Mining with STATISTICA», что в переводе на русский означает «Интеллектуальный анализ данных в программе STATISTICA». Как видно из названия, этот сборник лекций будет полезен всем, кто по каким-то причинам хочет заняться статистическим анализом с помощью самой подходящей для этого программы - STATISTICA (курс рассчитан на версию 8.0 ENG).

Основным преимуществом этих лекций является то, что материалы выпущены самим производителем, ведь никто не сможет описать способности программы лучше, чем тот, кто создал ее.

Автором является Дженнифер Томпсон, специалист, работающая в компании Statsoft и имеющая степень магистра по статистике. Ее творение хоть и созданное профессионалом, будет интересно очень широкому кругу людей, в том числе и новичкам в мире статистического анализа и обработки данных. Теоретическая часть, объясненная доступным и понятным языком, сочетается тут с практическими примерами, зачастую рассматривающими то ли иное интересное явление.

Для удобства освоения материала, перевод каждой из лекций разделен на части, каждая из которых вынесена в отдельный абзац (цифры перед абзацем означают время его появления в видеоуроке).

Все вопросы про практическому использованию STATISTICA Вы можете задать на наш форум по STATISTICA

Session 1 - STATISTICA Data Mining Overview

(16 Голосов)

Добро пожаловать в Data Mining STATISTICA, представленную StatSoft Incorporated. Меня зовут Дженнифер Томпсон, я работаю статистиком в StatSoft и я имею степень магистра по статистике. Первый блок серии, посвященной анализу данных, освещает общие понятия процесса анализа данных.

Давайте посмотрим на блоки в этой серии. В этих блоках будут представлены наглядные стадии проектов анализа данных и будет показано, как можно осуществлять проекты, используя статистический анализ данных. Задача данной серии – помочь вам ближе познакомиться с способами и методами статистики, для использования в собственных проектах по анализу данных.

 

Session 2 - Data Mining Process using CRISP

(11 Голосов)

Это второй блок в серии Data Mining Statistica. В этом блоке мы поговорим о таком процессе анализа данных, как CRISP. Первый блок был посвящен обзору анализа данных, в этой серии мы продолжим говорить о других шагах процесса анализа данных. Это раздел носит концептуальный характер, то есть описывает основные понятия. А в оставшейся части мы покажем практические примеры использования анализа данных в Statistica.

Что такое CRISP? Сегодня мы рассмотрим основные шаги процесса CRISP и обсудим, почему они важны. Затем мы рассмотрим инструменты Statistica, разработанные для CRISP. Аббревиатура CRISP означает – межотраслевой стандартный процесс для анализа данных. Так как анализ и обработка данных – относительно новая область, то здесь каждый делает то, что считает нужным. Основоположники этой области объединились и стандартизировали процесс. CRISP можно применять в любой области, используя любое программное обеспечение по анализу и обработке данных. Стандартный процесс необходим, чтобы все проекты выполнялись быстро, эффективно и были экономически выгодными. Statistica Data Miner предлагает следующие инструменты: - Data Miner Recipe. Этот инструмент систематически планирует и показывает шаги для проекта по анализу данных, с применением CRISP; Data Miner Workspace обеспечивает хорошо спланированный ход работ для проекта по анализу данных, с применением CRISP; Interactive Data Miner – это диалоговый подход к процессу CRISP.

 

Session 3 - Data Mining Introduction of Credit Risk Data

(13 Голосов)

Это третий блок в серии Data Miner STATISTICA. В этом блоке мы обсудим данные, которые будут упоминаться и в дальнейших блоках и покажем инструменты для анализа данных. Мы будем использовать кредитный риск в качестве примера, чтобы показать способы очистки данных и классификацию алгоритмов анализа данных в STATISTICA. Вы можете использовать этот пример, чтобы обобщить эти способы и применить их к вашей области.

Если вспомнить процесс CRISP, то пример оценки кредитоспособности влияет только на бизнес аспекты процесса. Задача, оценка проекта и применение к бизнес процессам – это единственные уникальные черты в данном примере. С точки зрения построения модели и аналитики – это задача классификации, а все подходы классификации имеют схожие черты. Если оценка кредитоспособности никак не связана с вашей областью деятельности, представьте, что все данные связаны с задачей классификации, соответствующей вашей области и остановитесь только на общих подходах. Эти подходы мы будем рассматривать в дальнейших блоках.

 

Session 4 - Data Mining, Data Import and Query

(12 Голосов)

Мы снова рады приветствовать вас в серии Data Mining STATISTICA! Это четвертый блок, посвященный импорту данных и запросам. Ранее мы говорили об анализе данных и делали обзор процесса. Мы определили набор данных, которые будем использовать в дальнейших блоках. Сегодня мы рассмотрим, как в STATISTICA можно импортировать файлы с данными из внешних источников. Это может быть файл Excel, текстовый файл и данные из другого статистического программного обеспечения, например SAS, SPSS. STATISTICA может также запрашивать данные из баз данных OLE DB или ODBC, например SQL, Access или Oracle.

   

Session 5 - Data Mining, Initial Graphical Review

(13 Голосов)

Снова приветствуем вас в серии Data Mining Statistica! Это пятый блок, посвященный начальному графическому анализу. Информация из предыдущих блоков будет использоваться в данном блоке и также в дальнейшем. Поэтому, если вы не смотрели 3 серию, думаем, что она может быть вам полезной. Также, обратите внимание, что в ближайшее время у нас выходит новая тема, посвященная графикам, где мы будем исследовать достоверные данные в различных связях.

Сегодня мы будем делать обзор данных оценки кредитоспособности графически. Это самое начальное исследование и оно должно указать на любые проблемы с данными, как например, наличие выбросов и ошибки ввода данных. Мы рассмотрим те проблемы данных, на которые нужно обратить внимание на этапе очистки данных. Здесь важно привлечь знающего человека, который разбирается в данных и который может распознать ошибки данных и тому подобное.

 

Session 6 - Data Mining, Data Cleaning & Outliers

(13 Голосов)

Мы снова возвращаемся к Data Mining Statistica! Мы начинаем разговор об очистке данных и в этом блоке мы поговорим о выбросах. В прошлый раз мы делали обзор данных оценки кредитоспособности в графическом виде при подготовке очистки данных. Поэтому перед просмотром этого блока, будет полезно просмотреть предыдущие блоки, а именно введение в данные по оценке кредитоспособности и обзор графического анализа.

   

Session 7 - Data Cleaning and Missing Data

(11 Голосов)

В этом блоке серии STATISTICA Data Mining мы будем обсуждать еще один способ очистки данных, а именно пропущенных данных. В третьем блоке мы представили данные кредитного риска, а в пятом блоке мы сделали графический обзор этих данных. Возможно, вы получите лучшее представление о пропущенных данных, если сначала прослушаете эти два блока.  

 

Session 8 - Other Data Cleaning Techniques

(10 Голосов)

В этой серии Data Mining STATISTICA мы будем обсуждать другие способы очистки данных, которые еще не освещались. Мы уже рассмотрели инструменты для очистки пропущенных данных и выбросов. Просмотр предыдущих эпизодов может помочь вам полностью понять вопрос очистки данных.  

   

Страница 1 из 3

Краткое содержание

Вход для слушателей