ГЛАВА 5 Двухмерный визуальный анализ данных

ГЛАВА 5 Двухмерный визуальный анализ данных

Двухмерный, сокращенно, 2М визуальный анализ, — это визуальный анализ данных на плоскости. В двухмерном визуальном анализе используются разнообразные гистограммы, диаграммы рассеяния, вероятностные графики, линейные графики, диаграммы диапазонов, размахов, круговые диаграммы, столбчатые диаграммы, последовательные графики (графики последовательных значений) и т. д., позволяющие увидеть специфику данных.

 

Гистограммы

Термин гистограмма ввел Карл Пирсон в 1895 году. Гистограммы позволяют увидеть, как распределены значения переменных по интервалам группировки, то есть как часто переменные принимают значения из различных интервалов.

Особенно полезен этот график для большого числа наблюдений, например, больше 100.

Гистограмма наглядно показывает, какие значения или диапазоны значений исследуемой переменной являются наиболее частыми, насколько сильно они различаются между собой, как сконцентрировано большинство наблюдений вокруг среднего, является распределение симметричным или нет, имеет ли оно одну моду или несколько мод, то есть является мультимодальным.

На простой гистограмме отображаются частоты значений одной переменной, а на составной можно отобразить одновременно частоты нескольких переменных.

Например, показанная ниже составная гистограмма позволяет увидеть, как меняется соотношение между покупками мяса и колбасы в супермаркете. Из нее также видно, что доля колбас и мяса в дорогих покупках (на сумму более 300 рублей) минимальна.

Изменяя интервал группировки, можно провести более точную сегментацию рынка.

С помощью гистограмм можно проверить наличие у распределения тяжелых хвостов, что важно для актуарных расчетов.

Гистограммы дают возможность визуально оценить сходство наблюдаемых распределений с теоретическими или ожидаемыми распределениями.

Гистограмма, или распределение частот значений переменной по интервалам, представляет интерес по следующим причинам:

  • по форме распределения можно охарактеризовать природу исследуемой переменной (например, наличие двух мод — наиболее высоких столбцов гистограммы, или, как говорят, бимодальность распределения может означать, что выборка неоднородна и состоит из наблюдений, принадлежащих двум различным генеральным совокупностям);
  • многие статистики критериев основаны на определенных предположениях о виде распределения, например, на предположении нормальности; гистограммы помогают визуально проверить выполнение этих предположений.

Часто первый шаг визуального анализа нового множества данных состоит в построении гистограмм для всех переменных. При этом выбираются различные по величине интервалы группировки.

 

Гистограммы и описательные статистики

Хотя некоторые (числовые) описательные статистики легче воспринимать в виде таблиц, общую форму распределения значений переменной лучше исследовать на графике.

График дает качественную информацию о распределении, которая не может быть полностью выражена каким-то одним численным показателем.

Например, общее асимметричное распределение дохода может показывать, что большинство людей имеют доход, находящийся гораздо ближе к минимальному, нежели к максимальному значению.

Хотя эта информация содержаться в коэффициенте асимметрии, ее легче понять и запомнить визуально.

На гистограммах также могут быть заметны «провалы», которые несут важную информацию о социальном расслоении группы покупателей или об аномалиях распределения дохода, вызванных, например, недавней налоговой реформой.

Часто гистограммы применяются в маркетинге для сегментации рынка.

 

Группировка

Все окна Статистические графики системы STATISTICA, позволяющие строить гистограммы, содержат стандартный набор методов задания при построении гистограмм интервалов группировки. Диапазон значений переменной разбивается на интервалы (если переменная непрерывная) или категории (если переменная категориальная), для которых подсчитываются частоты, изображаемые в виде отдельных столбцов.

Например, можно построить гистограмму, на которой каждый столбец будет соответствовать интервалу из 10 единиц шкалы, используемой для представления переменной. Если минимальное значение равно 0, а максимальное — 120, то будет создано 12 столбцов. Кроме того, можно сделать так, чтобы весь диапазон значений переменной был разделен на указанное число интервалов равной длины (например, 10); в последнем случае, если минимальное значение равно 0, а максимальное — 120, каждый интервал будет равен 12 единицам шкалы. Можно выбрать и более сложный метод группировки. Например, можно применить неравные диапазоны с заданными пользователем границами, чтобы создать более понятные диапазоны или объединить выброс и увеличить читаемость средней части гистограммы. Диапазоны можно также создать, определив критерии включения и исключения с помощью логических операторов (например, первый столбец гистограммы может представлять людей, которые за последний год летали на самолете более 10 раз и не более 50% этих поездок связано с бизнесом и т. д.).

Пример. Продвинутые возможности для визуализации группировки имеются в модуле Основные статистики и таблицы (см. диалоговое окно Таблицы частот).

Шаг 1. Запустите модуль Основные статистики и таблицы. Откройте файл данных adstudy.sta из папки Examples. Внесите в этот файл следующие изменения: в пятой, седьмой и двенадцатой строке введите новое значение SPRITE в переменную ADVERT (см. рисунок).

Теперь эта переменная принимает 3 значения: PEPSI, COKE, SPRITE.

Шаг 2. В стартовой панели выберите диалог Таблицы частот и нажмите кнопку ОК.

Шаг 3. В диалоговом окнеТаблицы частот нажмите кнопку Переменные и выберите первые 3 переменные из файла данных.

Шаг 4. Выберите опцию Заданные группирующие коды и нажмите кнопку рядом с ней.

Шаг 5. В появившемся диалоговом окне выберите те значения переменных, которые вы хотели бы отобразить на гистограммах. Сделайте это, например, так, как показано на рисунке.

Шаг 6. Сделав выбор, нажмите кнопку ОК в окне Коды для выбранных переменных.

После этого вы вернетесь в диалоговое окно Таблицы частот.

Шаг 7. В диалоговом окне Таблицы частот нажмите кнопку Гистограммы.

Вы увидите появляющиеся одну за одной гистограммы на вашем экране. Обратите внимание, что на графике отображаются не все значения переменных, а только те, что выбраны вами.

 

Подгонка теоретических распределений к наблюдаемым распределениям

STATISTIC А позволяет сравнивать распределение наблюдаемых данных с распределениями: нормальное, бета-экспоненциальное, экстремальное, гамма- геометрическое, Лапласа, логистическое, лошормалъное, Пуассона, Релея, Вейбулла.

Простые гистограммы

Простые гистограммы является обычными столбчатыми графиками распределений частот выбранной переменной.

Составные гистограммы

Составные гистограммы представляют распределения частот для нескольких переменных на одном графике. Значения переменных откладываются по единой оси X, что облегчает визуальное сравнение распределения переменных.

На составных гистограммах переменные представлены премыкающими друг к другу столбцами; поэтому для каждой категории строится несколько столбцов. Следовательно, подогнанные кривые либо точно подходить к соответствующим им гистограммам, либо быть сравнимыми друг с другом.

Гистограммы с двойной осью Y.

Гистограмму с двойной осью Y можно рассматривать как комбинацию двух составных гистограмм. Можно выбрать два списка переменных. Будет построено распределение частот для каждой выбранной переменной, но частоты переменных, введенных в первый список (Левая ось Y), будут откладываться по левой оси Y, в то время как частоты переменных, введенных во второй список (Правая ось Y), — по правой оси Y.

Имена всех переменных из двух списков будут включены в условные обозначения, сопровождаемые буквой Л или П, обозначающей левую или правую ось  Y coответственно. Этот график полезен для визуального сравнения распределений переменных с разными частотами.

Висячие столбцы

Гистограмма висячих столбцов является изысканным визуальным способом проверки нормальности распределения переменной, который помогает наглядно определить области, где возникают расхождения между наблюдаемыми и нормальными частотами.

В отличие от обычного способа наложения на гистограмму нормальной кривой, гистограмма висячих столбцов предлагает альтернативный способ, когда столбцы, представляющие наблюдаемые частоты для последовательных диапазонов значений, «подвешиваются» к нормальной кривой. Если исследуемое распределение приближенно нормальное, то нижние стороны подвешенных прямоугольников ложатся на одну прямую.

 

Пересекающиеся категории

В системе STATISTICA можно задать логические условия выделения подгрупп. Формально могут возникнуть пересекающиеся подмножества (одно и то же наблюдение попадает в разные группы).

Однако действует следующее правило: каждое наблюдение будет помещено только в одну подгруппу, а именно в первую из тех, условиям которой оно удовлетворяет. Поэтому наборы подгрупп (категорий), создаваемые по таким правилам, не будут пересекаться ни при каких условиях. Например, если к подгруппе 1 множества опрошенных отнесены мужчины, а к подгруппе 2 — опрошенные старше 30 лет, то полученная подгруппа 2 будет содержать только женщин (старше 30 лет), так как все мужчины окажутся в подгруппе 1.

Пример:

Подгруппа 1: Включ., если: vl<=10

Подгруппа 2: Включ., если: vl>10 AND v2 = 'YES'

 

Диаграммы рассеяния

Двухмерные диаграммы рассеяния используются для визуального исследования зависимости между двумя переменными X и Y (например, весом и ростом человека, рекламой и объемом продаж и т. д.).

Данные изображаются точками в двухмерном пространстве. Две координаты (X и Y), которые определяют положение каждой точки, соответствуют значениям двух переменных. Если переменные сильно связаны, то множество точек данных принимает определенную форму (например, ложится на прямую линию или кривую, задаваемую определенным уравнением), как показано ниже на рисунке.

Подгонка функций к диаграммам рассеяния помогает увидеть зависимости между переменными.

Если переменные не связаны, то точки образуют «облако рассеяния» (см. ниже).

 

Однородность распределений двух переменных (формы зависимостей)

Диаграммы рассеяния обычно используются для визуального исследования зависимости двух переменных (например, кровяного давления и уровня холестерина), поскольку они предоставляют больше информации, чем простое значение коэффициента корреляции.

Например, отсутствие однородности в выборке, для которой была подсчитана корреляция, может исказить значение коэффициента корреляции.

Предположим, вычисления производились для данных из различных экспериментальных групп, но этот факт не был учтен, то есть группировка не проводилась. Можно предположить, что экспериментальные действия в одной из групп увеличили значения обеих коррелированных переменных, и таким образом, данные из каждой группы образуют отдельное «облако» на диаграмме рассеяния (как показано на рисунке ниже).

В этом примере высокая корреляция обусловлена наличием двух групп и не отражает действительный характер связи (точнее, ее отсутствие) между переменными.

При наличии определенных предположений о структуре данных и информации, а также о возможном способе разделения на группы попробуйте рассчитать корреляции отдельно для каждого подмножества наблюдений или используйте категоризованную диаграмму рассеяния.

Другой проблемой, которая может быть исследована на диаграммах рассеяния, является нелинейность. Для исследования нелинейной зависимости между переменными не существует «автоматических» или простых в употреблении методов.

Коэффициент корреляции Пирсона оценивает только линейные зависимости и именно по этой причине часто называется линейным; некоторые непараметрические критерии, такие как коэффициент корреляции Спирмена R, могут оценивать нелинейную зависимость, но только монотонную.

Исследование диаграмм рассеяния позволяет определять формы зависимостей, чтобы потом можно было выбрать подходящий тип преобразования данных для их «линеаризации» или выбора подходящего нелинейного уравнения подгонки (например, вместо линейной зависимости использовать полиномиальную).

 

Выбросы

Другое важное преимущество диаграмм рассеяния состоит в том, что они позволяют находить «выбросы» (нетипичные данные), которые искусственным образом увеличивают или уменьшают («смещают») коэффициент корреляции.

Даже один выброс может значительно увеличить коэффициент корреляции между двумя переменными. Диаграмма рассеяния позволяет обнаруживать такие аномалии.

Например, корреляция между двумя переменными на рисунке была бы близка к 0 при отсутствии выброса. Наличие этого выброса «искусственно» увеличивает значение корреляции.

Средство Кисть позволяет интерактивно удалять выбросы и непосредственно наблюдать за изменением аппроксимирующей функции или линии регрессии.

Простые диаграммы рассеяния

Простая диаграмма рассеяния визуализирует зависимость между двумя переменными X и Y (например, весом и высотой). Данные изображаются точками в двухмерном пространстве, где оси соответствуют переменным.

Две координаты (X и Y), которые определяют положение каждой точки, соответствуют значениям двух переменных. Если переменные сильно связаны, то множество точек данных принимает определенную форму (например, прямой линии или кривой). Если связи нет, то точки образуют «облако».

Составные диаграммы рассеяния

В отличие от простой диаграммы рассеяния, на которой одна переменная представлена по горизонтальной, а вторая — по вертикальной оси, составная диаграмма рассеяния включает несколько зависимостей: значения одной переменной (X) откладываются по горизонтальной оси, а по вертикальной оси откладываются значения нескольких переменных (Y). Для каждой переменной Y используется разный цвет и вид точек.

Диаграмма рассеяния составного типа используется для сравнения структуры нескольких корреляционных зависимостей путем изображения их на одном графике в одном масштабе.

Диаграммы рассеяния с двойной осью Y

Диаграмму рассеяния такого типа можно рассматривать как комбинацию двух составных диаграмм рассеяния для одной переменной X и двух различных множеств переменных У. Для независимой переменной Х и каждой из переменных Y строится диаграмма рассеяния, но переменные из первого списка (называемого Левая ось Y) откладываются по левой оси Y, тогда как переменные из второго списка (называемого Правая ось Y) откладываются по правой оси Y. На каждой из осей можно выбрать свой масштаб.

Имена всех переменных Y из двух списков будут включены в условные обозначения, сопровождаемые буквой (Л) или (П), обозначающей левую или правую ось Y соответственно.

Диаграммы рассеяния с двойной осью Y можно использовать для визуального сравнения структуры нескольких корреляционных зависимостей путем изображения их на одном графике. При этом в силу независимости масштабов, используемых для двух списков переменных, этот график облегчает сравнение переменных, значения которых принадлежат разным диапазонам.

Частоты

Эта диаграмма рассеяния позволяет наглядно изобразить частоты перекрывающихся точек для двух переменных, чтобы наглядно представить веса различных точек. Если для одного значения переменной X имеется несколько значений переменной Y, то возникает необходимость использовать подобные диаграммы рассеяния. Подсчитываются и группируются частоты перекрывающихся точек. Размеры маркеров точек на графике соответствуют значениям частот.

Квантили

На графиках квантилей изображается зависимость между квантилями двух переменных, позволяющая визуально оценить сходство эмпирических распределений каждой переменной.

Если точки данных ложатся на линию регрессии, то можно сделать вывод, что две переменные имеют одинаковое распределение.

Диаграмма Вороного

Эта особая диаграмма рассеяния одной переменной является в большей степени аналитическим средством, нежели просто методом графического представления данных. Пространство разделяется на области точек, максимально близких к наблюдаемым точкам, иными словами можно сказать, что строятся зоны влияния точек.

Обратите внимание, что на изображенной выше диаграмме оси одинаково масштабированы (минимум - 0, максимум = 10) и пропорции диаграммы таковы, что обе оси имеют приблизительно одинаковую длину. Разбиения для мозаичной диаграммы Вороного будут рассчитаны в предположении равных длин (и масштабов) осей; таким образом, пропорции диаграммы и масштабирование по умолчанию (например, автоматическое) могут привести к искаженной мозаичной диаграмме Вороного.

Способы использования этого метода сильно зависят от областей исследования, однако во многих случаях к этой диаграмме полезно добавлять дополнительные измерения, используя категоризацию и выбор сложных подгрупп.

 

Диаграммы рассеяния с гистограммами

Этот тип статистических графиков представляет собой составной график с зависимостью между двумя переменными и распределениями частот для каждой переменной.

График состоит из простой диаграммы рассеяния двух заданных переменных (X и Y) и гистограмм распределений частот для переменных X и Y, изображенных соответственно вдоль осей X и Y диаграммы рассеяния.

 

Диаграммы рассеяния с диаграммами размаха

Этот тип статистических графиков представляет собой составной график с зависимостью между двумя переменными и распределениями значений каждой из двух выборок (включая выбросы и экстремальные значения). Такой график особенно полезен при проверке по указанному пользователем критерию, являются ли отдельные точки данных выбросами или экстремальными значениями и можно ли их удалить из выборки. График состоит из простой диаграммы рассеяния двух указанных переменных (X и Y) и диаграмм размаха для переменных X и Y, изображенных соответственно вдоль осей X и Y диаграммы рассеяния.

 

Нормальные вероятностные графики

Эти графики позволяют визуально исследовать, насколько распределение данных близко к нормальному.

 

Нормальный вероятностный график

Стандартный нормальный вероятностный график строится следующим образом.

Сначала все значения переменной ранжируются. По рангам рассчитываются Z- значения (значения стандартного нормального распределения) в предположении.

Значение zj для j-ro ранга переменной с N наблюдениями вычисляется по

формуле:

zj=F-1[(3xj-l)/(3xN+l)]

где F-1 — это обратная функция стандартного нормального распределения (преобразовывающая нормальную вероятность р в нормальное значение z),

Значения z откладываются по оси Y, наблюдения — по оси X. Если наблюдаемые значения распределены нормально, то все значения на графике должны попасть на прямую линию. Если значения не являются нормально распределенными, то будет наблюдаться отклонение от прямой.

На этом графике можно визуально обнаружить выбросы.

Если наблюдается очевидное несовпадение и данные располагаются относительно линии определенным образом (например, в виде буквы 5), то перед применением статистических методов, для которых существенное значение имеет нормальность распределения, необходимо каким-то образом преобразовать переменные (например, логарифмическое преобразование часто используется для того, чтобы «втянуть» конец распределения).

 

Полунормальный вероятностный график

Полунормалъный вероятностный график строится тем же образом, что и стандартный нормальный вероятностный график, с тем отличием, что рассматривается лишь положительная часть нормальной кривой. Следовательно, по оси Y будут откладываться только положительные нормальные значения. В частности, полунормальное вероятностное значение zj для j-то упорядоченного значения (ранга) переменной с N наблюдениями вычисляется так:

zj = F-1[(3e x N+3 X j-l)/(6 x N+l)],

где F-1 — снова обратная функция нормального распределения.

Этот график часто используется для исследования распределения остатков, если нужно игнорировать знак остатка, когда интерес вызывает распределение абсолютных остатков независимо от их знака.

 

Нормальный вероятностный график с исключенным трендом

Нормальный вероятностный график с исключенным трендом строится тем же образом, что и стандартный нормальный вероятностный график, с тем отличием, что перед созданием графика удаляется линейный тренд.

В частности, на этом графике каждое значение (Xj) стандартизируется вычитанием среднего и делением на соответствующее стандартное отклонение (s). Нормальное вероятностное значение с исключенным трендом zj для j-го упорядоченного значения (ранга) переменной с n наблюдениями вычисляется так:

zj = F-1[(3 x j-l)/(3 x N+l)] - (хj - среднее)/s,

где F-1 — это обратная функция нормального распределения, a s — стандартное отклонение.

 

Графики квантиль-квантиль

График квантиль-квантиль (или кратко — график К-К) полезен для нахождения

наиболее подходящего распределения из выбранного семейства распределений.

Вначале выбирается семейство распределений, внутри которого производится подгонка.

Чтобы оценить подгонку распределения, наблюдаемые значения упорядочиваются (х1 <... < хn), и по этим значениям (хi) строится обратная эмпирическая функция распределения.

Затем к ней подгоняется линия регрессии. Если наблюдаемые значения попадают на линию регрессии, то можно сделать вывод, что они имеют заданное распределение.

Уравнение линии подгонки (Y=a + bx) дает оценки параметров а и b (где а — параметр сдвига, b — параметр масштаба).

Обычно квантильные графики строятся для наиболее употребляемых распределений: экспоненциального, экстремального, нормального распределений, распределения Релея, бета-, гамма-, логнормального распределения и распределения Вейбулла.

 

Графики вероятность-вероятность

График вероятность-вероятность (или график В-В) полезен для определения, насколько хорошо теоретическое распределение подходит для наблюдаемых данных. На графике В-В строится зависимость между эмпирической функцией распределения и теоретической функцией распределения для оценки подгонки теоретического распределения к наблюдаемым данным. Если все точки графика попадают на диагональную линию (со сдвигом 0 и наклоном 1), то можно сделать вывод, что теоретическое кумулятивное распределение точно приближает наблюдаемое распределение.

Если точки данных не попадают на диагональную линию, то этот график можно использовать для наглядной проверки того, подходит ли распределение к данным (например, если точки располагаются в форме S относительно диагональной линии, то может потребоваться преобразование данных для того, чтобы привести их распределение к нужному виду).

Для построения этого графика должна быть полностью задана функция теоретического распределения. Следовательно, параметры распределения должны быть либо определены пользователем, либо вычислены по данным (для получения дополнительной информации о параметрах см. описание соответствующего распределения).

Вообще говоря, если наблюдаемые точки имеют выбранное распределение с соответствующими параметрами, то они попадут на прямую линию на графике В-В.

Заметьте, что для получения используемых здесь оценок параметров (для наиболее подходящего распределения из семейства распределений) также можно применять график квантиль-квантиль.

 

Диаграммы диапазонов

На диаграммах диапазонов представлены диапазоны значений или столбцы ошибок, относящиеся к определенным точкам данных, в форме прямоугольников или отрезков. В отличие от стандартных диаграмм размаха, диапазоны или столбцы ошибок не вычисляются по данным, а определяются исходными значениями выбранных переменных.

Обычно горизонтальные диаграммы диапазонов используются для изображения временных промежутков, а не изменчивости; их также рекомендуется использовать, если у диапазонов очень длинные -метки, потому что на горизонтальных диаграммах диапазонов метки не нужно переносить (как в случае, когда длинные метки расположены вдоль оси X).

Вертикальные диаграммы диапазонов часто используются для представления данных рынка, торговли и т. д.

 

Диаграммы размаха

На диаграммах размаха (термин введен Тьюки в 1970 году), или так называемых графиках ящики-усы, диапазоны значений выбранной переменной (или переменных) строятся отдельно для групп наблюдений, определяемых значениями категоризующей или группирующей переменной.

Центр (например, медиана или среднее) и статистики диапазонов или вариации (например, квартили, стандартные ошибки или стандартные отклонения) вычисляются для каждой группы наблюдений.

На графике может быть представлено более одной зависимой переменной для возможности сравнения распределений результатов соответствующих измерений по группам.

Если изменить разметку осей, то можно увидеть следующую картину:

Из этой диаграммы размахов видно (данные носят модельный характер, но в них отражена реальная ситуация), как распределены покупки колбасы и мяса в супермаркете в течение дня. Диаграмма СУММА показывает, как распределена сумма всех покупок, сделанных клиентами.

Очевидно, что вариабельность покупок колбас больше вариабельности покупки мяса. Половина покупателей производят покупку колбас в очень узком диапазоне (типичный покупатель).

Диаграммы диапазонов отличаются от диаграмм размаха тем, что для диаграмм диапазонов диапазоны для построения определяются значениями выбранных переменных (например, одна переменная содержит минимальные значения диапазонов, а другая — максимальные значения диапазонов), в то время как для диаграмм размаха диапазоны вычисляются по исходным значениям переменной (например, стандартные отклонения, стандартные ошибки или исходные диапазоны).

Как правило, диаграммы размаха применяются в двух случаях: а) для сравнения диапазонов значений отдельных выборок или категорий наблюдений (например, типичная минимаксная диаграмма для акций или товаров или агрегированные диаграммы последовательностей данных с диапазонами) и б) для сравнения распределений или вариаций результатов в отдельных группах или выборках (например, диаграммы размаха, представляющие среднее в виде точки внутри прямоугольника, стандартные ошибки — в виде Прямоугольника, а стандартные отклонения от среднего — в виде более узкого прямоугольника или отрезка).

Диаграммы размаха, показывающие вариацию значений, дают возможность визуализировать и быстро оценить силу зависимости между группирующей и зависимой переменными. В частности, предполагая, что зависимая переменная распределена нормально, и зная, какая часть наблюдений попадает в интервал, например, ±1 или ±2 стандартных отклонения от среднего, можно легко оценить результаты эксперимента и показать, что около 95% наблюдений в экспериментальной группе 1 принадлежат к диапазону, отличному от диапазона значений, куда попадают примерно 95% наблюдений в группе 3.

Простые диаграммы размаха

Простые диаграммы размаха используются для представления и исследования диапазонов значений переменной при категоризации с помощью другой переменной. Когда выбрано более одной зависимой (т. е. Y) переменной, будет построена последовательность графиков (по одному для каждой выбранной зависимой переменной).

Составные диаграммы размаха

В отличие от простых диаграмм размаха, на которых представлены диапазоны значений одной переменной, составная диаграмма размаха изображает (на одном графике) диапазоны значений нескольких переменных.

Для каждой переменной используется и указывается в условных обозначениях свой маркер точек, шаблон заполнения и цвет. Этот тип диаграмм размаха используется для сравнения диапазонов значений нескольких переменных (или нескольких функций) путем представления их на одном графике, использующем общие шкалы (например, сравнение нескольких одновременных экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т. п.).

 

Столбчатые диаграммы

2М столбчатые диаграммы представляют собой последовательности значений в виде столбцов (одно наблюдение представлено одним столбцом). Если вы-

брано более одной переменной, то каждая диаграмма может быть изображена отдельно или все диаграммы могут быть представлены на одном графике в виде групп столбцов (одна группа для каждого наблюдения). Например, для этого множества данных будет построена следующая столбчатая диаграмма.

Следует отметить, что для изображения столбцов ошибок, связанных с отдельными измерениями (например, стандартных ошибок, вычисленных по данным или зафиксированным ранее границам диапазона), следует использовать диаграммы диапазонов или диаграммы размаха.

Простые столбчатые диаграммы

Для выбранной переменной строится простая столбчатая диаграмма (если выбрано более одной переменной, то для каждой переменной из списка строится отдельный график).

Составные столбчатые диаграммы

На составных столбчатых диаграммах (на одном двухмерном графике) показаны группы столбцов для многих переменных (одному наблюдению соответствует одна группа); один столбец группы представляет одну из выбранных переменных.

Значения всех исследуемых переменных откладываются по единой оси Y (или оси X, если выбрана горизонтальная ориентация), что облегчает сравнение анализируемых переменных.

 

Линейные графики (для переменных)

2М линейные графики представляют собой двухмерные линейные графики одной или многих переменных, на которых отдельные точки соединены линиями. Линейные графики дают простой способ наглядного представления последовательности большого числа значений (например, рыночных цен на акции за некоторое число дней); XY-графики трассировочного типа (см. ниже) могут быть использованы для изображения пути (вместо последовательности).

Линейные графики могут также быть построены для непрерывных функций, теоретических распределений и т. п. Ниже показано несколько таких графиков.

Если имеется лишь несколько наблюдений, то лучше использовать вертикальную столбчатую диаграмму, хотя значительным исключением из этого правила являются графики различий между средними некоторого количества групп.

Если в последовательности очень много наблюдений и они различаются, то необходимо сглаживание для обнаружения общей структуры последовательности данных. Простейшей формой сглаживания является агрегирование, когда вместо исходных данных изображаются средние последовательных множеств из n наблюдений. На агрегированных линейных графиках диапазоны значений на последовательных отрезках изображаются отрезками.

Агрегирование также может быть использовано в качестве средства уменьшения количества точек, дающего возможность представить на одном графике больше данных, чем в любом другом случае (при данном разрешении монитора или принтера).

 

Простые линейные графики

Простые линейные графики используются для представления и исследования последовательностей значений (обычно когда порядок значений является существенным).

Также типично применение линейных последовательных графиков при построении графиков непрерывных функций, таких как функции подгонки или теоретические распределения. Заметьте, что пустая ячейка данных (то есть пропущенные данные) «разрывает» линию.

 

Составные линейные графики

В отличие от простых линейных графиков, на которых представлена последовательность значений одной переменной, на составном линейном графике изображаются несколько последовательностей значений (переменных). Для каждой переменной используется и указывается в условных обозначениях свой шаблон линии и цвет.

Этот тип линейных графиков используется для сравнения последовательностей значений нескольких переменных (или нескольких функций) путем изображения их на одном графике, использующем один общий масштаб (например, для сравнения нескольких одновременных экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т. п.).

 

Линейные графики с двойной осью Y

Линейный график с двойной осью Y можно рассматривать как комбинацию двух по-разному масштабированных составных линейных графиков. Для каждой выбранной переменной используется свой шаблон линии, в то же время все переменные, выбранные в списке Левая ось Y, будут откладываться по левой оси Y, а переменные, выбранные в спискеПравая ось Y, будут откладываться по правой оси Y.

Имена всех переменных будут указаны в условных обозначениях вместе с буквой (Л) для переменных, относящихся к левой оси Y, и с буквой (П) для переменных, относящихся к правой оси Y.

Линейный график с двойной осьюY можно использовать для сравнения последовательностей значений нескольких переменных, накладывая их линейные представления на один график. В то же время в силу независимости шкал, используемых для двух осей, этот график может облегчить сравнение «не сравнимых» другим способом переменных (т. е. переменных со значениями в разных диапазонах).

 

Трассировочные XY

Трассировочные XY- графики требуют выбора по крайней мере двух переменных (Х и Y). На трассировочных графиках сначала строится диаграмма рассеяния двух переменных, а затем отдельные точки данных соединяются линией (в порядке их считывания из файла данных).

В этом смысле трассировочные графики визуализируют «путь» последовательного процесса (движение, изменение явления во времени и т. п.).

 

Агрегированные линейные графики

Агрегированные линейные графики изображают последовательность средних для последовательных подмножеств выбранной переменной. Можно выбрать число последовательных наблюдений, по которым будет вычислено среднее (параметр Индекс), а при необходимости диапазон значений в каждом подмножестве будет выделен значками типа отрезков.

Агрегированные линейные графики используются для представления и исследования последовательностей большого числа значений. Следует отметить, что в модуле Временные ряды содержится большой набор процедур сглаживания и фильтрации данных (например, скользящее среднее, скользящая медиана, 4253Н фильтр и др.).

 

Линейные графики (профили наблюдений)

2Млинейные графики (профили наблюдений) представляют собой двухмерные линейные графики одной и нескольких переменных.

В отличие от простых линейных графиков, где значения одной переменной изображаются в виде одной линии (отдельные точки данных соединены линией), на линейных графиках профилей наблюдений значения выбранных переменных для наблюдения (строки) изображаются в виде одной линии (то есть один линейный график создается для каждого выбранного наблюдения).

Линейные графики профилей наблюдений дают возможность наглядно представить значения для наблюдения (например, значения для нескольких критериев).

 

Простые линейные графики (профили наблюдений)

Простые линейные графики используются для представления и исследования последовательностей значений (обычно когда порядок значений является существенным). Обратите внимание, что пустая ячейка данных (то есть пропущенные данные) «разрывает» линию.

Составные линейные графики (профили наблюдений)

В отличие от простых графиков профилей наблюдений, на которых представлена последовательность значений одной переменной, на составном линейном графике изображаются несколько последовательностей значений (переменных). Для каждой переменной используется и указывается в условных обозначениях свой шаблон линии и цвет.

Этот тип линейных графиков используется для сравнения последовательностей значений нескольких переменных (или нескольких функций) путем изображения их на одном графике, использующем один общий масштаб (например, для сравнения нескольких одновременных экспериментальных процессов, социальных явлений, цен акций или товаров, форм кривых текущих характеристик и т. п.).

 

Последовательные/наложенные графики

Все типы графиков из этой группы используются для представления последовательностей значений. В этом отношении они сходны с линейными графиками. Фактически если для построения выбрана только одна переменная, то отображение данных будет идентично представлению на линейных графиках. В то же время наложенные графики позволяют реализовать более разнообразные способы графического представления (зонные, ступенчатые, столбчатые диаграммы и др.).

Единственное значительное различие между представлениями данных на рассматриваемом типе графиков и на линейных графиках проявляется, когда для построения выбирается более одной переменной. На линейных графиках каждая переменная будет построена независимо от других; так, например, если две переменные имеют одинаковые значения для наблюдения 3, то в этой точке (наблюдение 3) две линии пересекутся или перекроются. В то же время наложенные графики «складывают» соответствующие значения последовательных переменных (из выбранного списка).

Так, на этом графике точка, отвечающая наблюдению 3 для второй переменной, будет соответственно выше, чем для первой переменной. Переменные складываются в том порядке, в каком они были выбраны.

Благодаря такому наложенному представлению значений последовательных переменных линии (или шаги, области, столбцы и т. д.) последовательных переменных никогда не будут перекрываться, если они больше 0.

Такая интерпретация влечет ограничение, касающееся пропущенных значений в изображаемом множестве данных. А именно — положение каждой точки данных на графике для каждой последовательной переменной (из выбранного списка) является суммой ее значений и соответствующих значений (т. е. значений для того же наблюдения) всех «предшествующих» переменных в списке. Следовательно, если хотя бы одно из предшествующих значений пропущено, сумму нельзя вычислить, и график в этой точке будет «разорван». Таким образом, во множествах данных, выбранных для наложенного представления, не должно быть пропущенных данных (исключая данные для последней переменной).

Эти типы графиков используются для представления последовательностей значений выбранных переменных. Однако наложенный вид графиков (применяемый при выборе более одной переменной) специально разработан для представления большой категории множеств данных, в которых последовательные переменные представляют части («порции») целого. Например, каждое наблюдение может обозначать ВНП за один фискальный год, а каждая переменная — сумму в долларах, поступившую из каждой отрасли промышленности и из других источников товаров и услуг. Если такие данные были бы представлены на наложенном столбчатом графике, то получившаяся высота каждого столбца обозначала бы суммарный ВНП, а каждый из вложенных сегментов столбца показывал бы относительный вклад соответствующей отрасли.

Если переменные, представленные на графике, отражают проценты и/или в сумме дают одно и то же значение (например, 100%) для каждого наблюдения, то суммарная высота графика будет постоянной для всех наблюдений.

 

Линейный график

На этом типе графика последовательности значений каждой переменной будут представлены последовательными линиями, расположенными одна над другой.

 

Зонный график

На этом типе графика последовательности значений каждой переменной будут представлены последовательными областями, расположенными одна на другой.

 

Смешанный линейный график

На этом типе графика последовательности значений, выбранных в первом списке переменных, будут представлены последовательными областями, расположенными одна на другой, а последовательности значений, выбранных во втором списке переменных, будут представлены последовательными линиями, расположенными одна над другой (над областью, отвечающей последней переменной из первого списка).

 

Ступенчатый график

На этом типе графиков последовательности значений каждой переменной будут представлены последовательными ступенчатыми линиями, расположенными одна над другой.

 

Ступенчатый зонный график

На этом типе графиков последовательности значений каждой переменной будут представлены последовательными ступенчатыми областями, расположенными одна на другой.

 

Смешанный ступенчатый график

На этом типе графика последовательности значений, выбранных в первом списке переменных, будут представлены последовательными ступенчатыми областями, расположенными одна на другой, а последовательность значений выбранных во втором списке переменных будет представлена последовательными ступенчатыми линиями, расположенными одна над другой (над областью, отвечающей последней переменной из первого списка).

 

Столбчатая диаграмма

В данном случае последовательности значений каждой выбранной переменной будут представлены последовательными сегментами вертикальных столбцов, расположенных друг на друге.

 

Круговые диаграммы

Круговая диаграмма (термин был впервые использован Хаскеллом в 1922 году) является одним из наиболее часто используемых графиков для представления пропорций. В зависимости от выбранного типа графика на круговой диаграмме будут изображаться или исходные значения, или частоты особых категорий значений (как те, которые можно изобразить на гистограмме).

Круговые диаграммы частот

В отличие от круговой диаграммы значений этот тип круговой диаграммы (иногда называемой частотной круговой диаграммой) интерпретирует данные так же, как и гистограмма. Все значения выбранной переменной группируются по выбранному методу категоризации, а затем относительные частоты изображаются в виде круговых секторов пропорциональных размеров.

Расположение значений, представленных на графике, зависит от метода категоризации и происходит по той же схеме, что и для гистограмм.

 

Круговые диаграммы значений

Последовательность значений переменной будет изображена в виде последовательных круговых секторов; размер каждого сектора будет пропорционален соответствующему значению. Значения должны быть больше 0 (нулевое и отрицательные значения не могут быть представлены в виде круговых секторов).

Этот простой тип круговой диаграммы (иногда называемый круговой диаграммой данных) интерпретирует данные самым непосредственным образом: одно наблюдение соответствует одному сектору. Шаблоны круговых секторов, используемые для этого графика по умолчанию, можно регулировать в диалоговом окне Шаблоны специальных графиков по умолчанию.

 

Многоцветные столбчатые диаграммы

Многоцветная столбчатая диаграмма служит для изображения того же типа данных, что и описанная выше круговая диаграмма значений, однако последовательные значения выражены высотами вертикальных столбцов (разных цветов и видов), а не площадями круговых секторов.

Преимущество этих диаграмм перед круговыми диаграммами состоит в том, что они дают возможность более точного сравнения представленных значений (например, трудно сравнивать маленькие круговые секторы, если они не являются соседними).

Этот тип графика может также иметь преимущества перед простыми гистограммами (где для всех столбцов используется один цвет и шаблон заполнения) в случаях, когда требуется быстрая идентификация определенных столбцов.

 

Диаграммы пропущенных значений и интервалов

Диаграммы пропущенных значений и интервалов дают возможность исследовать шаблон расположения или распределение пропущенных данных и/или заданных пользователем точек «вне диапазона» текущего множества (или подмножества) наблюдений.

Этот график применяется в разведочном анализе данных для определения количества пропущенных данных (и/или данных «вне диапазона»), а также для выяснения, является ли их распределение более или менее случайным или в их расположении можно обнаружить некоторую закономерность.

В сущности, они представляют собой «карту» файла данных (или его частей) и позволяют исследовать структуру пропущенных данных, очень маленьких значений, больших значений и т. п. Категоризованный формат дает возможность сравнивать такие образцы для определенных подмножеств данных.

 

Графики функций пользователя

В отличие от большинства других типов графиков, для 2М графика функции пользователя не требуется выбирать переменные; вместо этого для построения графика программа запросит ввод формулы. Эта процедура создает графики, основанные не на значениях переменных в файле данных, а на заданных пользователем формулах (то есть пользовательских функциях), например:

Следует отметить, что для других типов графиков наряду с разнообразными возможностями настройки параметров также предусмотрена возможность наложения пользовательской функции. Например, аналогичные результаты построения функций можно получить при помощи регулирования соответствующих параметров настройки для других типов двухмерных графиков.

При наложении функции на график диапазоны осей графика автоматически подгоняются к соответствующим диапазонам значений переменных. Для рассматриваемого типа графика можно явно указать диапазоны значений в диалоговом окне определения графика, которые не будут зависеть от множества данных. Например, можно установить минимум и максимум для обеих осей (X и Y) равными 0 и 100 соответственно.

Обычно эти графики используются для исследования функциональной зависимости (например, для проверки соответствия теоретических моделей экспериментальным данным).

Краткое содержание

Вход для слушателей