Современный факторный анализ - Харман

Факторный анализ, изложению которого посвящена книга Г. Хармана, — это ветвь математической статистики. Его цель, как и цель других разделов математической статистики, заключается в разработке моделей, понятий и методов, позволяющих анализировать и интерпретировать массивы экспериментальных или наблюденных данных вне зависимости от их физической природы.  

 

Одной из наиболее типичных форм представления экспериментальных данных является матрица, столбцы которой соответствуют различным параметрам, свойствам, тестам и т. п., а строки — отдельным объектам, явлениям, режимам, описываемым набором конкретных значений параметров. На практике размеры матрицы оказываются достаточно большими: так, число строк этой матрицы может колебаться от нескольких десятков до нескольких сотен тысяч (например, при социологических обследованиях), а число столбцов — от одного-двух до нескольких сотен. Непосредственный, «визуальный», анализ матриц такого размера невозможен; поэтому в математической статистике возникло много подходов и методов, предназначенных для того, чтобы «сжать» исходную информацию, заключенную в матрице, до обозримых размеров, извлечь из исходной информации наиболее «существенное», отбросив «второстепенное», «случайное».

При анализе данных, представленных в форме матрицы, возникают два типа задач. Задачи первого типа имеют целью получить «короткое описание» распределения объектов, а задачи второго — выявить взаимоотношения между параметрами.

Следует иметь в виду, что основной стимул для появления указанных задач заключается не только и не столько в желании коротко закодировать большой массив чисел, а в значительно более принципиальном обстоятельстве, имеющем методологический характер: коль скоро удалось коротко описать большой массив чисел, то можно верить, что вскрыта некоторая объективная закономерность, обусловившая возможность короткого описания; а ведь именно поиск объективных закономерностей и является основной целью, ради которой, как правило, и собираются данные.

Упомянутые подходы и методы обработки матрицы данных различаются тем, какого типа задачи обработки данных они предназначены решать, и тем, к матрицам какого размера они применимы. Каково же место моделей и методов факторного анализа среди иных моделей и методов математической статистики, предназначенных для обработки матрицы данных?

Если матрица данных имеет малое (один—три) число столбцов (т. е. параметров), то для описания распределения объектов широко применяются такие известные статистические характеристики, как средние, моды, дисперсии, совместные и условные распределения, параметры стандартных распределений (например, распределений Гаусса, Пуассона и др.), аппроксимирующих эмпирическое распределение, задаваемое матрицей данных и т.д.; эффективным способом сжатия информации при малом числе параметров является так называемая задача Пирсона о смеси, когда эмпирическое распределение аппроксимируется суммой нескольких стандартных распределений с различными средними и дисперсией. Что касается описания связей между параметрами, то, поскольку число параметров мало, для такого описания оказывается достаточным набор коэффициентов корреляции между параметрами.

Когда число параметров больше пяти, указанные выше статистические характеристики оказываются неадекватными эмпирическому материалу либо потому, что они не могут быть построены практически, либо потому, что их число оказывается чрезмерно большим и они не поддаются содержательной интерпретации. Поэтому для анализа экспериментальных данных с числом параметров, существенно большим единицы, были разработаны специальные модели и методы.

Если число параметров лежит в диапазоне приблизительно от пяти до 30 (такое число параметров можно назвать средним), то для получения сокращенного описания распределения объектов пользуются методами, имеющими целью выделение «скоплений», «тесных групп» объектов в пространстве параметров. Сама задача выделения «скоплений» точек в многомерном пространстве начала изучаться всего 10—12 лет назад; еще нет установившихся терминов для обозначения различных точных постановок этой задачи и методов ее решения; наиболее употребительны названия «автоматическая классификация», «обучение машины распознаванию образов без учителя», «классификационный анализ» («cluster-analysis»). Вместе с тем уже имеется литература, посвященная списываемой задаче.

Что же касается проблемы короткого описания связей между параметрами при среднем числе этих параметров, то в данном случае соответствующая корреляционная матрица содержит несколько десятков или сотен чисел и сама по себе она еще не может служить «коротким описанием» существующих связей между параметрами, а должна с этой целью подвергнуться дальнейшей обработке.

Факторный анализ как раз и представляет собой набор моделей и методов, предназначенных для «сжатия» информации, содержащейся в корреляционной матрице. В основе различных моделей факторного анализа лежит следующая гипотеза: наблюдаемые или измеряемые параметры являются лишь косвенными характеристиками изучаемого объекта или явления, на самом же деле существуют внутренние (скрытые, не наблюдаемые непосредственно) параметры или свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами. Задача факторного анализа — представить наблюдаемые параметры в виде линейных комбинаций факторов и, может быть, некоторых дополнительных, «не существенных» величин — «помех». Замечательным является тот факт, что, хотя сами факторы не известны, такое разложение может быть получено и, более того, такие факторы могут быть определены, т. е. для каждого объекта могут быть указаны значения каждого фактора.

В терминах матрицы данных задача факторного анализа может быть понята как задача приписывания к матрице небольшого числа новых столбцов,'с помощью которых в том или ином смысле хорошо представляются все столбцы исходной матрицы, и определения коэффициентов такого представления.

Многочисленные экспериментальные исследования, в частности по обработке психологических, социологических, экономических и других данных, показали, что определяемые факторы, как правило, хорошо интерпретируются как некоторые существенные внутренние характеристики изучаемых объектов. Таким образом, факторный анализ оказался эффективным формальным средством генерации новых понятий и гипотез в самых различных науках.

В последние годы в связи с применением вычислительных машин возникла необходимость разработки формальных методов анализа матриц данных, содержащих несколько десятков или сотен столбцов (такое число может считаться большим). Для матриц такой размерности упомянутые выше методы автоматической классификации и факторного анализа оказались непосредственно непригодными как из-за вычислительных трудностей, так и, по-видимому, из-за неадекватности моделей, на которых базируются эти методы, тем естественнонаучным задачам, которые возникают при обработке данных с большим числом параметров. Для решения задач такого рода в настоящее время предложен так называемый лингвистический, или структурный, подход [556]. Этот подход опирается на модель, являющуюся развитием и комбинацией моделей факторного анализа и автоматической классификации. Такая модель исходит из следующих представлений: изменение какого-либо фактора сказывается неодинаково на всех измеряемых параметрах, и поэтому среди измеряемых параметров могут быть выделены группы, «особо остро» реагирующие на каждый из факторов порознь, а каждая из этих групп характеризуется тем, что параметры, входящие в одну группу, в определенном смысле сильно коррелируют между собой. В связи с этим задача выявления факторов может быть понята как задача разбиения параметров на такие группы, что параметры, входящие одну группу, коррелируют между собой сильно, а параметры, входящие в разные группы, — слабо. Эта задача получила название задачи группировки параметров; она позволяет коротко описать на качественном уровне взаимоотношения между параметрами.

Коль скоро для некоторой матрицы данных решена задача группировки параметров, то исходная матрица оказывается разбитой на ряд подматриц, каждая из которых содержит лишь столбцы, попавшие в одну группу. Теперь для получения короткого описания распределения объектов к каждой из таких подматриц могут быть применены алгоритмы автоматической классификации. Процедура последовательного решения задач группировки параметров и автоматической классификации может быть понята как выработка двух типов «слов»: слова первого типа указывают номер группы параметров, а слова второго типа — номер класса объектов в данной группе параметров. Эти слова позволяют коротко описать каждый объект, указав для него номера классов, к которым он относится, по каждой группе параметров.

Таким образом, факторный анализ является эффективным средством получения короткого описания взаимоотношений между параметрами при среднем числе параметров и, кроме того, в несколько модифицированном виде служит одной из основных составляющих лингвистических методов обработки экспериментальных данных с большим числом параметров.

Несмотря на столь важную роль факторного анализа, на русском языке имеется всего одна монография [329], посвященная в основном одной частной модели факторного анализа и адресованная математикам, а не прикладникам, заинтересованным в использовании факторного анализа для решения своих задач. Предлагаемая книга Г. Хармана как нельзя лучше восполняет образовавшийся пробел: в этой книге в доступной форме излагается практически все, что создано за 60 лет развития факторного анализа; книга Г. Хармана интересна еще и тем, что в ней наряду с научными результатами рассказана история факторного анализа, прослеживаются пути развития отдельных идей от их возникновения в виде некоторых интуитивных формулировок до точных математических постановок и соответствующих алгоритмов (см., например, в 6.2 принцип «простой структуры» Тэрстоуна, предложенный в интуитивной форме в 30-х годах, и соответствующие формальные построения в гл. 13—15, легшие в основу большинства методов получения так называемых преобразованных факторных решений), дается представление об имевших место дискуссиях, приводится библиография.

Вместе с тем книга не лишена некоторых недостатков методического характера. Автор часто одинаково подробно излагает как устаревшие либо неприжившиеся методы, так и методы, прошедшие апробацию в большом числе приложений. Много места в книге занимает описание модификаций тех или иных методов, предназначенных для ручного счета, что в наше время при широком распространении вычислительных машин явно не актуально. Эти методические дефекты книги в основном связаны с намерением автора дать широкий обзор всех имеющихся в факторном анализе методов.

В заключение хотелось бы предупредить читателя о следующем обстоятельстве. Поскольку конечным результатом применения методов факторного анализа является, как правило, получение содержательно интерпретируемых фактов, то при решении практических задач факторный анализ в настоящее время является еще в большой мере искусством, овладение которым требует некоторого опыта. Поэтому те, кто намереваются пользоваться описанными в этой книге методами в своей практической работе, должны ознакомиться с прикладными работами, в которых решаются аналогичные задачи.

Скачать книгу

Комментарии  

 
+2 #1 ммм 25.07.2011 09:37
спасибо! я за расширения теор.подборки ;-) ;-)
Цитировать
 

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей