Text mining. Классификация текста.

 

Этот пример основан на "стандартном" наборе новостных документов, публикуемых интернет-сайтом lenta.ru. С данного сайта было взято 60 статей, посвященных таким сферам жизни как политике, спорту и экономике - по 20 штук на каждую тему. Все статьи являют собой некоторую сводку новостей за начало октября 2006 года

Текст этих сообщения был сохранен в файлах с расширением TXT (обычный текстовый документ). Ниже показан пример такого файла.

Text mining. Анализ и классификация текста.

Рис.1. Пример сохранённого документа

 

Факторный дисперсионный анализ с повторяющимися измерениями

 

Вызов модуля Дисперсионный анализ. Для запуска дисперсионного анализа, выберите Дисперсионный анализ в меню Анализ. Перед вами появится стартовая панель Общий Дисперсионный анализ.

Факторный дисперсионный анализ

Данный диалог предназначен как для вызова простых и часто используемых анализов (например, Однофакторный Дисперсионный анализ - планы с одним межгрупповым фактором), так и для более сложных видов анализа (например, Повторные измерения ДА - планы с межгрупповыми и внутригрупповыми факторами).

   

Одномерная АРПСС (ARIMA)

 

Следующий пример основан на главе 9 классической книги Бокса и Дженкинса (1976). Данные представляют собой международные месячные авиаперевозки (в тысячах) за 12 последовательных лет с 1949 по 1960 г. (см. Бокс и Дженкинс, 1976, стр. 531, "Ряд G"). Данные содержатся в файле Series_g.sta (переменная SERIES_G).

Одномерная АРПСС (ARIMA)

   

Дискриминантный анализ в STATISTICA

 

Следующий пример основан на классическом множестве данных, сообщенном Фишером (Fisher, 1936). В нем содержатся данные о длине и ширине чашелистиков и лепестков трех типов ирисов (Ириса щетинистого - Setosa, Ириса разноцветного - Versicol и Ириса вирджиника - Virginic). Целью анализа является изучение дискриминации между тремя типами цветов, основываясь на четырех измерениях: ширины и длины чашелистиков и лепестков. В принципе, все задачи дискриминантного анализа ставят подобный вопрос. Если вы являетесь исследователем в области образования, вы можете подставить вместо "типа цветка" "тип исключения", и вместо переменных "измерения длины и ширины чашелистиков и лепестков" переменные "успехи в четырех ключевых курсах". Если вы занимаетесь социальными науками, то вы можете изучать переменные, по которым можно предсказать выбор карьеры. При изучении отбора персонала вас могут интересовать переменные, по которым можно отличить работников уровня выше среднего от работников, которые не соответствуют выполняемой работе, и сотрудников, которые не пригодны к работе. Поэтому, хотя настоящий пример взят из биологии, общие процедуры, рассматриваемые здесь применимы более широко. Множество данных для этого анализа содержится в файле Irisdat.sta. Часть этого файла приведена ниже. Открыть этот файл можно с помощью опции Файл - Открыть; наиболее вероятно, что этот файл данных находится в директории /Examples/Datasets.


   

Анализ главных компонент и классификация в STATISTICA

 

Данный пример иллюстрирует применение модуля Анализ главных компонент и классификация. Для набора переменных создается факторное пространство, затем направляющие полученного пространства интерпретируются. Затем, на карте этого пространства анализируются дополнительные наблюдения и переменные. В примере используется файл данных из работы Jambu (1991), которые представляются собой различные характеристики образа жизни для 28 (групп) людей.

А именно, каждая переменная соответствует одному из 10 изучаемых видов социальной активности, которому посвящают время представители одной из 28 групп. Показателем является общее время, посвященное данному виду активности представителями группы в часах. Некоторые данные отсутствуют. При анализе пропуски заменяются на соответствующие средние. В качестве вспомогательных переменных выступают три дополнительные переменные SLEEP - (СОН), TV - (ТЕЛЕВИЗОР) и LEISURE - (ДОСУГ). Для того, чтобы проиллюстрировать способ задания основных и вспомогательных переменных, в файл данных добавлена дополнительная группирующая переменная GENDER - (ПОЛ). Для присвоения меток точкам на графиках, добавлена переменная GEO.REGION - (РЕГИОН). Обратим внимание, что ввиду этих изменений в структуре данных, результаты не будут идентичными результатам, опубликованным в работе Jambu (1991).

Цель анализа. Целью данного анализа является изучение взаимосвязей между различными социальной активности, чтобы выявить скрытые факторы (направляющие факторного пространства минимально возможной размерности), которые упростили бы процесс классификации изучаемых групп населения, а так же сделали бы возможной визуализацию этих групп. То есть, хотелось бы нанести результаты на карту полученного пространства.

Откройте файл данных Activities.sta и запустите модуль Анализ главных компонент и классификация через меню Анализ - Многомерный разведочный анализ. Выберите вкладку Дополнительно, нажмите кнопку Переменные, чтобы Выбрать переменные для анализа. Переменные анализа: список WORK - РАБОТА - MEAL - ПРИЕМ ПИЩИ. Вспомогательные: SLEEP - СОН, TV - ТЕЛЕВИЗОР и LEISURE - ДОСУГ. С основными наблюдениями: GENDER - ПОЛ. Группирующая: GEO.REGION - РЕГИОН.

Анализ главных компонент и классификация в STATISTICA

   

Страница 2 из 5

Краткое содержание

Вход для слушателей