Смотрите также:

Учебник STATISTICA 6 Статистический анализ данных - Халафян


Халафян - Статистический анализ данных

Объектом исследования в прикладной статистике являются статистические данные, полученные в результате наблюдений или экспериментов. Статистические данные — это совокупность объектов (наблюдений, случаев) и признаков (переменных), их характеризующих. Например, объекты исследования — страны мира и признаки, — географические и экономические показатели их характеризующие: континент; высота местности над уровнем моря; среднегодовая температура; место страны в списке по качеству жизни, доли ВВП на душу населения; расходы общества на здравоохранение, образование, армию; средняя продолжительность жизни; доля безработицы, безграмотных; индекс качества жизни и т.д.

 

 

 

 

Переменные — это величины, которые в результате измерения могут принимать различные значения.

Независимые переменные — это переменные, значения которых в процессе эксперимента можно изменять, а зависимые переменные — это переменные, значения которых можно только измерять (Программа STATISTICA для студентов и инженеров).

Переменные могут быть измерены в различных шкалах. Различие шкал определяется их информативностью. Рассматривают следующие типы шкал, представленные в порядке возрастания их информативности: номинальная, порядковая, интервальная, шкала отношений, абсолютная. Эти шкалы отличаются друг от друга также и количеством допустимых математических действий. Самая «бедная» шкала — номинальная, так как не определена ни одна арифметическая операция, самая «богатая» — абсолютная.

Измерение в номинальной (классификационной) шкале означает определение принадлежности объекта (наблюдения) к тому или иному классу. Например: пол, род войск, профессия, континент и т.д. Часто номинальные переменные называют категориальными, или группирующими, так как они позволяют произвести разделение объектов исследования на подгруппы (подклассы). В этой шкале можно лишь посчитать количество объектов в классах — частоту и относительную частоту.

Измерение в порядковой (ранговой) шкале, помимо определения класса принадлежности, позволяет упорядочить наблюдения, сравнив их между собой в каком-то отношении. Однако эта шкала не определяет дистанцию между классами, а только то, какое из двух наблюдений предпочтительнее. Поэтому порядковые экспериментальные данные, даже если они изображены цифрами, нельзя рассматривать как числа и выполнять над ними арифметические операции [5]. В этой шкале дополнительно к подсчету частоты объекта можно вычислить ранг объекта. Примеры переменных, измеренных в порядковой шкале: бальные оценки учащихся, призовые места на соревнованиях, воинские звания, место страны в списке по качеству жизни и т.д.

При измерении в интервальной шкале упорядочивание наблюдений можно выполнить настолько точно, что известны расстояния между любыми двумя их них. Шкала интервалов единственна с точностью до линейных преобразований. Это означает, что шкала имеет произвольную точку отсчета — условный нуль. Примеры переменных, измеренных в интервальной шкале: температура, время, высота местности над уровнем моря. Над переменными в данной шкале можно выполнять операцию определения расстояния между наблюдениями. Расстояния являются полноправными числами и над ними можно выполнять любые арифметические операции.

Шкала отношений похожа на интервальную шкалу, но она единственна с точностью до преобразования вида у = ах. Это означает, что шкала имеет фиксированную точку отсчета — абсолютный нуль, но произвольный масштаб измерения. Примеры переменных, измеренных в шкале отношений: длина, вес, сила тока, количество денег, расходы общества на здравоохранение, образование, армию, средняя продолжительность жизни и т.д. Измерения в этой шкале — полноправные числа и над ними можно выполнять любые арифметические действия.

Абсолютная шкала имеет и абсолютный ноль, и абсолютную единицу измерения (масштаб). Примером абсолютной шкалы является числовая прямая. Эта шкала безразмерна, поэтому измерения в ней могут быть использованы в качестве показателя степени или основания логарифма. Примеры измерений в абсолютной шкале: доля безработицы; доля безграмотных, индекс качества жизни и т.д.

Каждая измерительная шкала имеет соответствующую ей оценку среднего и разброса случайной величины. Так, например, в качестве оценки среднего для шкалы наименований целесообразно использовать моду — значение случайной величины, имеющее наибольшую частоту; для порядковой шкалы целесообразно использовать медиану — значение случайной величины, находящейся в середине несгруппированного вариационного ряда; для более сильных шкал — среднее арифметическое.

Вообще говоря, конечная цель всякого исследования или научного анализа состоит в нахождении связей (зависимостей) между переменными. Философия науки учит, что не существует иного способа представления знания, кроме как в терминах зависимостей между количествами или качествами, выраженными какими-либо переменными. Таким образом, развитие науки всегда заключается в нахождении новых связей между переменными [б].

Одномерный статистический анализ совокупности данных, состоящих из наблюдений и характеризующих их переменных, заключается в рассмотрении каждой отдельной переменной и исследовании их попарной взаимосвязи. Естественно, такой подход весьма ограничен, так как закономерности и взаимосвязи, присущие всей совокупности, не возможно выявить, исследуя каждую переменную в отдельности. Поэтому наиболее интересным, с точки зрения прикладных исследований, разделом математической статистики является многомерный статистический анализ данных.

Многомерный статистический анализ — это раздел математической статистики, посвященный математическим методам построения оптимальных планов сбора, систематизации и обработки многомерных статистических данных, направленных на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенных для получения научных и практических выводов. Под многомерным признаком понимается р-мерный вектор X = (хр х3,хр) показателей (признаков, переменных) х,, xv...,хр, среди которых могут быть количественные, т.е. скалярно измеряющие в определенной шкале степень проявления изучаемого свойства объекта; порядковые (или ординальные), т.е. позволяющие упорядочить анализируемые объекты по степени проявления в них изучаемого свойства; и классификационные (или номинальные), т.е. позволяющие разбивать исследуемую совокупность объектов на не подающиеся упорядочиванию однородные (по анализируемым свойствам) классы [7].

Многомерный статистический анализ дает возможность получить общие выводы относительно всей совокупности данных [8]. Учитывая также и то, что анализируемые данные являются стохастическими, т.е. ограниченными и неполными, использование методов многомерного анализа является не только оправданным, но и существенно необходимым [9J.

Изложению теоретических основ статистического анализа данных и разработанного математического аппарата посвящено большое количество прекрасных изданий. В то же время при пакетной реализации статистических методов особую актуальность приобрели их прикладные аспекты. Поэтому в учебнике уделено внимание не описанию математических методов статистического анализа, а рассмотрению постановочной части решаемых задач и интерпретации результатов статистического исследования — таблиц, графиков, сообщений пакета STATISTICA.

В гл. 1 изложены основные принципы работы с данными. Рассмотрены основные способы ввода данных в электронную таблицу STATISTICA, подготовленных в каком-либо другом приложении. Гл. 2 посвящена описанию основных принципов создания отчетов. Отчет — это тип документов STATISTICA, куда может быть выведена любая графическая и текстовая информация в формате RTF (Rich Text Format — расширенный текстовый формат).

В пакете STATISTICA представлено большое количество различных графических представлений данных. Это различные типы линейных графиков, диаграмм рассеяния, диаграмм размаха, круговые диаграммы частот и т.д. В гл. 3 показаны некоторые возможности пакета для построения двух и трехмерных графиков.

Вычислению описательных статистик, корреляционным матрицам, процедурам t-критерия сравнения средних, однофакторному дисперсионному анализу посвящена гл. 4. В гл. 5 содержится описание различных способов частотного анализа, который позволяет выявить взаимосвязь, установить характер этой взаимосвязи для двух переменных, измеренных в номинальной или порядковой шкале.

Большинство рассмотренных в книге модулей относится к методам параметрической статистики, в основе которых лежит предположение, что случайный вектор переменных образует некоторое многомерное распределение, как правило, нормальное или преобразуется к нормальному распределению. Если это предположение не находит подтверждения, следует воспользоваться непараметрическими методами математической статистики. В гл. 6 включены некоторые методы непараметрической статистики — сравнение средних, корреляционный анализ.

Возможности вероятностного калькулятора, способы генерации случайных чисел, проверка соответствия законов распределения известным законам, примеры решения задач по теории вероятностей и математической статистике изложены в гл. 7.

Только математическими методами можно установить тесноту и характер взаимосвязей различных переменных и степень их воздействия на интересующий исследователя результат. В таких исследованиях широко используются процедуры множественной регрессии. Регрессионный анализ тесно связан с другими статистическими методами — методами множественного корреляционного и дисперсионного анализа. В отличие от корреляционного анализа, исследующего направление и силу статистической связи переменных, регрессионный исследует вид зависимости переменных, т.е. математические модели зависимости количественной или качественной переменной от одной или нескольких других переменных. В дисперсионном анализе исследуется зависимость количественной переменной от одной или нескольких качественных переменных. В гл. 8-10 рассмотрены методы многомерного регрессионного и дисперсионного анализа. Описаны основные процедуры модулей «Дисперсионный анализ», «Множественная регрессия», «Нелинейная регрессия», «Нелинейное оценивание».

Канонический анализ является обобщением множественного корреляционного анализа как меры взаимосвязи одной переменной с множеством других переменных. Канонический анализ необходим, если имеются две совокупности переменных и необходимо определить взаимосвязь между ними. В гл. 11 рассмотрен модуль «Канонический анализ».

В методах классификационного анализа с обучением и без обучения исследуется взаимосвязь между одной качественной переменной и совокупностью количественных переменных. Дискриминантный анализ и деревья классификации — это методы, позволяющие предсказывать принадлежность объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких независимых переменных. Кластерный анализ позволяет произвести разбиение множества исследуемых объектов и признаков на однородные в некотором смысле группы, или кластеры. В гл. 12,13 рассмотрены методы классификационного анализа. Описаны модули «Дискриминантный анализ», «Общие модели дискриминантного анализа», «Кластерный анализ», «Деревья классификации».

Главными целями методов факторного анализа и анализа главных компонент и классификации являются сокращение числа переменных и определение структуры взаимосвязей между ними. Сокращение достигается посредством выделения скрытых общих факторов, объясняющих связи между наблюдаемыми признаками объекта, т.е. вместо исходного набора переменных анализируются данные по выделенным факторам, число которых значительно меньше исходного числа признаков. В гл. 14 описаны модули «Факторный анализ», «Анализ главных компонент и классификация».

Многомерное шкалирование можно рассматривать в качестве альтернативы факторного анализа. Основное предположение многомерного шкалирования заключается в том, что есть некоторое метрическое пространство существенных базовых характеристик и объекты можно представить как точки в этом пространстве. Предполагают, что более близким (по исходной матрице) объектам соответствуют меньшие расстояния в пространстве базовых характеристик. Следовательно, многомерное шкалирование — это совокупность методов, с помощью которых определяется размерность пространства базовых характеристик объектов и конструируется конфигурация объектов в этом пространстве. Это пространство (многомерная шкала) аналогично обычно используемым шкалам в том смысле, что значениям базовых характеристик объектов соответствуют определенные значения на осях пространства.

Анализ соответствий содержит описательные и разведочные методы анализа двухвходовых и многовходовых таблиц. Эти методы по своей природе похожи на методы факторного анализа и позволяют исследовать структуру группирующих переменных, включенных в таблицу частот сопряженности. Одна из целей анализа соответствий — представление содержимого таблицы относительных частот в виде расстояний между отдельными строками и/или столбцами таблицы в пространстве возможно более низкой размерности. Гл. 15 посвящена описанию модулей «Многомерное шкалирование» и «Анализ соответствий».

Объектом моделирования структурных уравнений являются сложные системы, внутренняя структура которых не известна. Исследуя параметры системы при помощи методов причинного моделирования, можно изучить ее структуру, установить причинно-следственные взаимосвязи между элементами системы. В гл. 16 рассмотрены основные идеи причинного моделирования и описан модуль «Моделирование структурными уравнениями».

Информация, когда нет данных о наступлении интересующего нас события, называется неполной. Если есть данные о наступлении интересующего нас события, то информация называется полной. Наблюдения, которые содержат неполную информацию, называются цензурированными наблюдениями. Цензурированные наблюдения типичны, когда наблюдаемая величина представляет время до наступления некоторого критического события, а продолжительность наблюдения ограничена по времени. Использование цензурированных наблюдений составляет специфику статистического метода — анализа выживаемости, в котором исследуются вероятностные характеристики интервалов времени между последовательным возникновением критических событий. Такого рода исследования называются анализ длительностей до момента прекращения. Их можно определить как интервалы времени между началом наблюдения за объектом и моментом прекращения, при котором объект перестает отвечать заданным для наблюдения свойствам. Цель исследований — определение условных вероятностей, связанных с длительностями до момента прекращения. В гл. 17 рассмотрен метод анализа выживаемости и описан модуль «Анализ выживаемости».

Методы прогнозирования временных рядов являются важным инструментом в процессе принятия решений. Такие прогнозы можно применять при принятии тактических и стратегических решений. Прогнозировать можно при помощи регрессионных моделей, описанных в гл. 9, 10. Такие приемы приемлемы при рассмотрении причинно-следственной зависимости между переменными 1. Однако существуют и альтернативные методы прогнозирования, которые используют приемы анализа временных рядов. В гл. 18 описаны основные процедуры модуля «Временные ряды и прогнозирование».

Очень часто при статистической обработке однотипных наборов данных приходится периодически многократно выполнять одну и ту же серию операций. Создав макрос, можно автоматизировать статистический анализ данных и соответственно избавить пользователя от трудоемкой и зачастую рутинной работы. Особенно использование макросов актуально при реализации модулей многомерного статистического анализа В гл. 19 излагаются основные приемы создания макросов.

Скачать книгу

Комментарии  

 
0 #17 Диана 06.05.2013 14:20
пароль просит...((((( что нужно сделать, чтобы его получить?
Цитировать
 
 
0 #16 incko 20.01.2013 03:52
У кого не качается:
http://rutracker.org/forum/viewtopic.php?t=1918631
Цитировать
 
 
+1 #15 ljana 22.09.2012 08:37
какой пароль?!
Цитировать
 
 
0 #14 Ниночка 15.06.2012 22:32
файл не открывается :-?
Цитировать
 
 
+2 #13 Margarita 01.04.2012 22:15
большое спасибо за пособие!
Цитировать
 
 
+3 #12 Technic 13.03.2012 19:02
Цитирую Халафян А.А.:
Всем скачавшим или купившим книгу спасибо за положительные отзывы. Вышла еще одна книга "Математическая статистика с элементами теории вероятностей". В ней есть новые разделы. Материал изложен на более понятных примерах. Файлы данных для обучения к обоим книгам можете скачать на сайте statlab.kubsu.ru. Планируется выпуск еще одной книги по промышленной статистике.




ого, какие люди! спасибо Вам!!))))
Цитировать
 
 
+13 #11 Халафян А.А. 13.03.2012 09:18
Всем скачавшим или купившим книгу спасибо за положительные отзывы. Вышла еще одна книга "Математическая статистика с элементами теории вероятностей". В ней есть новые разделы. Материал изложен на более понятных примерах. Файлы данных для обучения к обоим книгам можете скачать на сайте statlab.kubsu.ru. Планируется выпуск еще одной книги по промышленной статистике.
Цитировать
 
 
+5 #10 Fradreal 01.02.2012 21:13
spasibo. otlichniy uchebnik, viruchaet
Цитировать
 
 
+4 #9 Евген 15.01.2012 14:34
спасибо Халафяну, очень помогает в работе!
Цитировать
 
 
+4 #8 Анастасия 05.01.2012 23:59
Спасибо за книгу!
Если не скачивается с первого раза, то попробуйте еще раз, у меня со второго раза вышло= )
Цитировать
 

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей