Предоставляем вашему вниманию перевод официальных видеокурсов от компании Statsoft по программе STATISTICA. С помощью данных материалов вы сможете ознакомиться с основными возможностями данной программы и научиться рационально ее использовать. В лекциях рассмотрены основные способы анализа, в том числе кластерный, регрессионный и т.д. Также приводятся методы и приемы решения различных статистических задач, с пояснением на практических примерах.

Называется видеокурс «Data Mining with STATISTICA», что в переводе на русский означает «Интеллектуальный анализ данных в программе STATISTICA». Как видно из названия, этот сборник лекций будет полезен всем, кто по каким-то причинам хочет заняться статистическим анализом с помощью самой подходящей для этого программы - STATISTICA (курс рассчитан на версию 8.0 ENG).

Основным преимуществом этих лекций является то, что материалы выпущены самим производителем, ведь никто не сможет описать способности программы лучше, чем тот, кто создал ее.

Автором является Дженнифер Томпсон, специалист, работающая в компании Statsoft и имеющая степень магистра по статистике. Ее творение хоть и созданное профессионалом, будет интересно очень широкому кругу людей, в том числе и новичкам в мире статистического анализа и обработки данных. Теоретическая часть, объясненная доступным и понятным языком, сочетается тут с практическими примерами, зачастую рассматривающими то ли иное интересное явление.

Для удобства освоения материала, перевод каждой из лекций разделен на части, каждая из которых вынесена в отдельный абзац (цифры перед абзацем означают время его появления в видеоуроке).

Все вопросы про практическому использованию STATISTICA Вы можете задать на наш форум по STATISTICA

Session 9 - Graphical Exploration

(7 Голосов)

В этой серии Data Mining STATISTICA мы будем изучать очищенные данные в графическом виде и будем искать интересные связи между переменными. В пятом блоке было представлено базовое графическое исследование и проблемы в данных. Сейчас, когда данные очищены, мы изучим связи, которые могут оказаться важными.  

 

Session 10 - Data Sampling

(7 Голосов)

В этом блоке серии Data Mining STATISTICA мы затронем тему выборки. Мы будем говорить об обучающей, контрольной и проверочной выборке и затронем тему размера выборки. Ранее в этой серии мы очистили данные кредитного риска. В следующих трех блоках мы будем говорить о выборке, включая стратифицированную выборку.

 

Session 11 - Stratified Random Sampling

(7 Голосов)

Стратифицированная случайная выборка – тема этого блока серии Data Mining STATISTICA. Мы работаем с данными кредитного риска. В прошлый раз мы говорили о случайной выборке и ее преимуществах. Мы обсудим, когда и как применять стратифицированную выборку в STATISTICA.  

 

Session 12 - Data Sampling & Case Selection

(7 Голосов)

В этом блоке серии Data Mining STATISTICA мы обсудим условия выбора наблюдений и их использование в проектах по анализу данных. Мы продолжим использовать данные, связанные с кредитным риском. Мы использовали эти данные в графическом виде, очищали их, делали выборку. Если вы не смотрели эти блоки, то они могут быть вам интересны.  

   

Session 13 - Variable Screening

(8 Голосов)

В этом блоке серии Data Mining STATISTICA мы будем обсуждать экранирование переменной. В этом блоке продолжается работа с данными кредитного риска. Данные были очищены и исследованы в графическом виде. В 9 блоке мы обнаружили несколько переменных, которые относятся к кредитному риску, переменные, которые мы хотим предсказать. Мы продолжим эту работу, используя выбор признаков и экранирование переменной. Мы также обсудим преимущества экранирования переменной, посмотрим, как использовать инструмент в STATISTICA, рассмотрим объединения переменных, которые облегчают работу с совокупностью переменных.

 

Session 14 - Impact of too many Variables

 

(7 Голосов)

Тема данного блока – влияние слишком большого числа переменных на построение моделей анализа данных. В предыдущем блоке мы изучили инструмент Выбор признаков и экранирование переменной. Это очень эффективный инструмент для предварительного экранирования данных и предоставления возможных входящих данных для проекта.

   

Session 15 - Variable redundancy

 

(7 Голосов)

Сегодня в серии Data Mining STATISTICA мы поговорим об избыточных переменных. В этом блоке мы продолжим работу с данными оценки кредитоспособности. В последних двух блоках мы познакомились с инструментом Выбор признаков и экранирование переменной и обсудили его преимущества для проекта обработки и анализа данных. Последующие блоки будут построены на этой информации.

 

Session 16 - Introduction to Recursive Partitioning Methods

(9 Голосов)

В этом блоке серии Data Mining STATISTICA мы введем концепт рекурсивного разделения, который лежит в основе деревьев решений. В этой серии мы работаем с данными оценки кредитоспособности, которые мы рассмотрели графически, очистили, создали выборки и отобрали значимые переменные для моделирования. Мы продолжим использовать STATISTICA для построения модели по обработке и анализу данных.

   

Страница 2 из 3

Краткое содержание

Вход для слушателей