Подгонка распределений в STATISTICA

 

Модуль Подгонка распределений позволяет оценить степень согласия наблюдаемых данных с некоторым теоретическим распределением. Обратитесь к разделу Типы распределений за описанием доступных распределений. Заметим, модуль Анализ выживаемости содержит специальные программы для подгонки цензурированных (неполных) данных типа времен выживания и отказов к распределениям Вейбулла и Гомпертца. В этом примере используется файл Irisdat.sta (показан ниже). Открыть этот файл данных можно выбрав Открыть в меню Файл; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets. Файл содержит данные, представленные Фишером (1936), включает длину и ширину чашелистиков (Sepallen, Sepalwid) и лепестков (Petallen, Petalwid) 50 цветков трех типов ириса. Дискриминантный анализ этих данных описан также в главе Дискриминантный анализ.

Подгонка распределений в STATISTICA

 

Далее оцениваются распределения четырех переменных, описывающих длину и ширину лепестков и чашелистиков. Ожидается, что распределения будут нормальными.

Задание анализа. Выберите Подгонка распределений в меню Анализ для отображения стартовой панели модуля Подгонка распределений. Далее, выберите в поле Непрерывные распределения опцию Нормальное. И нажмите кнопку ОК. В появившемся диалоговом окне нажмите кнопку Переменные и выберите переменную Sepallen. В этот момент данные будут обработаны и во вкладке Параметры будут показаны оценки среднего и дисперсии. В этой же вкладке можно задать Число групп и Нижнюю границу и Верхнюю границу для вычисления частот. Вкладка Параметры диалогового окна Подгонка непрерывных распределений теперь выглядит следующим образом.

Подгонка распределений в STATISTICA

Далее, выберите вкладку Опции и отметьте опцию Да (без группировки) в поле Критерий согласия К.-С.. Остальные опции оставьте по умолчанию и нажмите кнопку ОК, чтобы вычислить частоты.

Подгонка распределений в STATISTICA

Значения статистик. Хи-квадрат значим на уровне 0.05 (p = .042). Таким образом, основываясь на критерии хи-квадрат, можно заключить, что распределение значимо отклоняется от нормального распределения. Однако критерий согласия не значим. Результат этого примера не является необычным, потому что критерий согласия не является точной процедурой, a, скорее, методом обнаружения больших (грубых) отклонений от гипотетического распределения. Часто значение статистики хи-квадрат сильно зависит от способа группировки, иными словами, от числа групп, минимального и максимального значения, которые задает пользователь. Например, если вы разобьете распределение Sepallen только на 10 групп (установите 10 в поле Число групп во вкладке Параметры), то получите значение хи-квадрат, значимое только на уровне .07.

Подгонка распределений в STATISTICA

Самое важное понять, как общая форма распределения построенного по данным (т.е. наблюдаемого или эмпирического распределения) аппроксимирует гипотетическое нормальное распределение.

Теперь вернемся в окно Подгонка непрерывных распределений. Во вкладке Опции в поле График распределения выберите Гистограмма или Кумулятивное распределение, а в поле График частот - Исходные частоты или Относительные частоты (%).

Подгонка распределений в STATISTICA

По умолчанию, число групп (23), воспользуйтесь графиком по умолчанию, нажав кнопку График наблюдаемого и ожидаемого распределения во вкладке Быстрый, чтобы построить гистограмму частот для этой переменной.

Подгонка распределений в STATISTICA

Похоже, что распределение Sepallen бимодально, иными словами, имеет два "пика". Также видно, что подгонка наиболее удачна в левой части графика, где находится пик. Таким образом, можно заключить, что непрерывное нормальное распределение, по-видимому, не вполне адекватная модель для наблюдаемых данных.

Attachments:
FileОписание
Access this URL (http://www.statosphere.ru/downloads/examples/Irisdat.sta)Подгонка распределений в STATISTICAИрисы - Irisdat.sta

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей