Session 14 - Impact of too many Variables

 

(7 Голосов)

Тема данного блока – влияние слишком большого числа переменных на построение моделей анализа данных. В предыдущем блоке мы изучили инструмент Выбор признаков и экранирование переменной. Это очень эффективный инструмент для предварительного экранирования данных и предоставления возможных входящих данных для проекта.

 

 

 

0:19 В этом блоке мы обсудим проклятие размерности - эффект, который сказывается на работе процесса обработки и анализа данных и на сложность применения от слишком большого количества переменных, а также мы обсудим capitalizing on chance.

0:32 При большом количестве входных данных, а именно предикторных переменных, для инструментов по обработке и анализу данных требуется большое количество наблюдений. Любая переменная, если известно, что она не имеет отношения к искомой переменной должна быть исключена уже в самом начале. Это может быть особенно важно, если мы работаем с нейронной сетью. Включение переменных, не относящихся к нашей цели может отрицательно повлиять на нейронную сеть.

1:01 Мы можем улучшить процесс анализа данных, удалив из анализа не имеющую отношения предикторную переменную. Время, затрачиваемое на построение моделей по обработке и анализу данных сократится для предварительного экранирования данных, а точность предсказания значительно повысится. На этой диаграмме мы видим гистограмму точности результатов обработки данных. Первая гистограмма использует полную совокупность данных, включая некоторые не имеющие отношения переменные. Вторая использует предварительно экранированные данные, и показывает лучшую точность.

1:31 Еще один важный фактор – это использование моделей. Если модель использует, скажем, 50 входных переменных, то применение этой модели для подсчета новых наблюдений потребует входных данных для каждой из этих 50 переменных. Это может привести к крайне затруднительному применению модели. Если хорошая точность может быть достигнута при малой совокупности переменных, то это поможет нам сэкономить время и усилия в процессе применения этих моделей.

1:58 Использование Выбора признаков и экранирования переменной или любого другого метода предварительного экранирования в совокупности с традиционной проверкой гипотезы может быть проблематичным. Это часто называют Capitalizing on chance. переменные для анализа были определены заранее, как имеющие отношение. Поэтому проверка значимости в общих линейных моделях должна интерпретироваться очень аккуратно.

2:26 В следующем блоке мы рассмотрим тему предварительного экранирования данных, изучив влияние переменной избыточности. Методы рекурсивного разделения будут обсуждаться в общем плане, как ведущие модели для построения моделей в виде дерева в Statistica.

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей