Классификация и снижение размерности - Айвазян

 

Данная книга является третьей в трехтомном справочном издании, задуманном и реализуемом нашим авторским коллективом. В первом томе (Айвазян - Основы моделирования и первичная обработка данных) дается, в частности, определение прикладной статистики, как самостоятельной научной дисциплины, разрабатывающей и систематизирующей понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов.

 

 

Второй том (Айвазян - Исследование зависимостей) посвящен описанию методов анализа структуры, тесноты и конкретного вида статистических связей между исследуемыми признаками разной природы — количественными, ординальными, номинальными (категоризованными), а также обзору программного обеспечения этих методов. В числе описанных методов — корреляционный, регрессионный, дисперсионный, ковариационный анализ, элементы анализа временных рядов и систем одновременных эконометрических уравнений.

При минимальной вероятностно-статистической подготовке читателя, обеспечиваемой, например, обычным вероятностно-статистическим курсом экономического или технического вуза, данный (третий) том пригоден для полностью автономного чтения (т.е. его понимание не требует знания каких-либо специальных сведений, содержащихся в первых двух томах). Он посвящен актуальнейшим аспектам общей проблемы статистического анализа данных — задачам классификации объектов, снижения размерности исследуемого признакового пространства и статистическим методам их 7решения. Лишь в последние два-три десятилетия, когда определенного уровня достигли вычислительная база исследований и теоретические разработки многомерного статистического анализа, главной проблемой теории и практики классификации и снижения размерности стало развитие достаточно изощренного и эффективного в приложениях математического аппарата. На этом пути уже имеются серьезные достижения, однако до сих пор в отечественной, да пожалуй, и в мировой специальной литературе не было издания, в котором эти достижения были бы достаточно полно просистематизированы, выстроены в общую методологическую схему, снабжены необходимыми практическими рекомендациями (включая вопросы преодоления вычислительных трудностей и использования подходящего типового программного обеспечения).

Авторы предлагаемой вниманию читателей книги ставили перед собой именно такую целевую установку. При этом изложение построено таким образом, что уже знакомство с «Введением» должно позволить читателю составить достаточно ясное представление о сущности и назначении статистических методов классификации и снижения размерности, понять их разноаспектную типологизацию, узнать о содержании и логических связях всех частей книги (включая основные постановки задач и «адреса» их решений в книге). Следует отметить в общем замысле и в содержании книги один аспект, который выделяет ее среди другой литературы данного профиля. Речь идет о том специальном и неослабном внимании, которое уделяется в книге реализации важнейшего, узлового этапа всякого прикладного исследования, использующего математические методы и модели, — этапа разведочного статистического анализа. Как известно, назначение этого этапа — тщательный предварительный анализ, своеобразное «прощупывание» исходных статистических данных с целью выявления их вероятностной и геометрической природы, формирования и верификации тех или иных рабочих гипотез, касающихся этого аспекта проблемы. Принятые на этом этапе рабочие исходные допущения о математической модели реального механизма генерирования анализируемых данных являются определяющими в выборе необходимого математического инструментария, а значит, — и в успехе всего статистического исследования. Однако, к сожалению, в существующей практике прикладных статистических исследований этот важнейший этап чаще всего либо полностью игнорируется, либо реализуется весьма поверхностно. И одна из главных причин этого — почти полное отсутствие необходимой научно-методологической литературы (изданный много лет назад перевод книги Дж. Тьюки «Разведочный анализ», в свое время весьма полезный, ныне приходится отнести к устаревшим источникам информации). В данной же книге эти вопросы занимают центральное место: так или иначе с ними связано большинство глав (кроме гл. 1—4), а непосредственно этой проблематике посвящен специальный раздел IV (гл. 18—21). Авторы старались сопровождать изложение этих важных вопросов подробным описанием существа, роли и научно-прикладного значения результатов, полученных отечественными специалистами (в сравнении с результатами зарубежных исследователей).

Книга состоит из 4 разделов и 21 главы.

Раздел I (гл. 1—4) посвящен задачам классификации в ситуации, когда исследователь обладает так называемыми обучающими выборками (т. е. «классификации с учителем»). Математический аппарат, используемый при решении подобных задач, объединяется в разделе многомерного статистического анализа, именуемого дискриминантный анализ.

Раздел II (гл. 5—12) посвящен задачам «классификации без учителя» (исследователь не располагает обучающими выборками). Математический аппарат решения таких задач включает в себя методы кластер-анализа, или автоматической классификации (в том числе иерархические процедуры классификации), а также статистические методы расщепления смесей вероятностных распределений.

Раздел III (гл. 13—17) содержит описание наиболее разработанных и эффективных методов снижения размерности исследуемого признакового пространства и отбора наиболее информативных показателей. Среди представленных здесь методов — главные компоненты, факторный анализ, метод экстремальной группировки параметров, многомерное шкалирование, экспертно-статистический метод построения интегрального (латентного) показателя, методы нелинейного отображения многомерных данных в пространства низкой размерности по различным критериям, анализ соответствий в случае неколичественных переменных.

Раздел IV (гл. 18—21) объединяет в себе описание методов так называемого разведочного статистического анализа и одновременно вопросов вычислительной и программной реализации представленных в книге методов, включая обзор по соответствующему программному обеспечению ЭВМ (в том числе персональных ЭВМ) и краткое освещение проблем интеллектуализации статистического программного обеспечения. Методы разведочного (предмодельного) статистического анализа данных (и, в частности, методы целенаправленного проецирования многомерных наблюдений) направлены на «прощупывание» геометрической и вероятностной природы обрабатываемых данных с целью формирования адекватных реальности рабочих исходных допущений, на которых строится дальнейшее исследование. Эти методы как один из инструментов разведочного анализа являются естественным и необходимым дополнением к методам первичной статистической обработки, описанным в гл. 10, 11 первого тома данного издания. Сделанный в книге особый акцент на этих методах обусловлен тем обстоятельством, что в существовавшей до последнего времени практике статистических исследований этапу предмодельного анализа, методам выявления геометрической и вероятностной природы обрабатываемых данных, различным приемам тестирования гипотетических структур используемых моделей, как правило, не уделялось должного внимания.

В книгу включен ряд оригинальных результатов исследований авторов, а также результаты, ранее не публиковавшиеся в отечественной литературе: общая теория автоматической классификации (гл. 10), экспертно-статистический метод построения единого сводного показателя эффективности (гл. 15), некоторые приемы томографического анализа и целенаправленного проецирования многомерных данных (гл. 18—20), методы классификации при наличии элементов обучения (гл. 11), методы оцифровки неколичественных переменных (гл. 17).

Мы считаем, что термин «прикладная статистика» вполне приемлем, тем более что он уже давно в обиходе в целом ряде стран (США, ФРГ и др.), в которых имеются специализации студентов, институты и журналы такого названия. Хотелось бы обратить внимание читателя на наиболее актуальные направления исследований этой научной дисциплины.

а) Развитие методов анализа данных, не апеллирующих к их вероятностной природе, а также методов, нацеленных на выявление вероятностной и геометрической природы обрабатываемых данных в условиях отсутствия соответствующей априорной информации. Именно таким методам уделено большое внимание в данной книге (кластер-анализ, многомерное шкалирование, томографические методы, целенаправленное проецирование многомерных данных и т. п., см. разделы II—IV книги) и именно они, как правило, оказываются вне поля зрения монографий и руководств по математической статистике.

б) Формализация {математическая постановка) реальных задач статистического анализа данных в различных предметных областях (экономике, социологии, медицине и т.д.) и на базе это го опыта выработка типовых математических постановок задач, выходящих за стеснительные рамки жестких канонических моделей. Этот самый важный и самый трудный этап математико-статистического исследования является и самым неблагодарным, поскольку de facto оказался как бы «незаконнорожденным дитем» теории и практики статистического анализа данных. Искусство реалистического моделирования формально не предусмотрено ни в одном из разделов инструментальной статистической науки, его развитие никак и ничем не стимулируется. Разрозненный положительный опыт такого рода, однако, приупомянутые понятия и подходы казались актуальными для приложений.

В свете сказанного нам представляется вполне оправданной и объективно назревшей необходимость специальных изданий по прикладной статистике.

Данное справочное издание адресовано как статистикам, экономистам, социологам, медикам и специалистам в других областях, использующим статистические методы классификации и снижения размерности в ходе решения задач, так и математикам, профессионалам-разработчикам описываемого математического аппарата (включая математиков-программистов). Специалист не математик может ограничиться «потребительским» стилем пользования данной книгой, при котором внимание сосредотачивается на постановках задач и рекомендациях по реализации предложенных решений (алгоритмах, описании диапазона их применимости, практических приемах анализа данных, программах), а усвоение обоснований этих рекомендаций и свойств используемых процедур не является необходимым.

В заключение одно важное, с нашей точки зрения, наблюдение. Все мы в настоящее время являемся свидетелями и в той или иной мере участниками набирающего все большую силу глобального процесса информатизации общества. В проекции на проблематику данного издания это означает, в частности, что через сравнительно небольшое время персональный компьютер, а с ним и широкие возможности анализа данных станут неотъемлемой частью не только учрежденческого, но и домашнего уклада жизни. А следовательно, в повестке дня — бурная динамика роста спроса на методы и программы прикладной статистики.

Скачать книгу

Добавить комментарий


Защитный код
Обновить

Краткое содержание

Вход для слушателей