Основная идея метода главных компонент состоит в. Факторный анализ

ПРИМЕНЕНИЕ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ

ДЛЯ ОБРАБОТКИ МНОГОМЕРНЫХ СТАТИСТИЧЕСКИХ ДАННЫХ

Рассмотрены вопросы обработки многомерных статистических данных рейтинговой оценки студентов на основе применения метода главных компонент.

Ключевые слова: многомерный анализ данных, снижение размерности, метод главных компонент, рейтинг.

На практике часто приходится сталкиваться с ситуацией, когда объект исследования характеризуется множеством разнообразных параметров, каждый из которых измеряется или оценивается. Анализ полученного в результате исследования нескольких однотипных объектов массива исходных данных представляет собой практически нерешаемую задачу. Поэтому исследователю необходимо проанализировать связи и взаимозависимости между исходными параметрами, с тем чтобы отбросить часть из них или заменить их меньшим числом каких-либо функций от них, сохранив при этом по возможности всю заключенную в них информацию.

В связи с этим встают задачиснижения размерности, т. е. перехода от исходного массива данных к существенно меньшему количеству показателей, отобранных из числа исходных или полученных путем некоторого их преобразования (с наименьшей потерей информации, содержащейся в исходном массиве), и классификации – разделения рассматриваемой совокупности объектов на однородные (в некотором смысле) группы. Если по большому числу разнотипных и стохастически взаимосвязанных показателей были получены результаты статистического обследования целой совокупности объектов, то для решения задач классификации и снижения размерности следует использовать инструментарий многомерного статистического анализа, в частности метод главных компонент .


В статье предлагается методика применения метода главных компонент для обработки многомерных статистических данных. В качестве примера приводится решение задачи статистической обработки многомерных результатов рейтинговой оценки студентов.

1. Определение и вычисление главных компонент ..png" height="22 src="> признаков. В результате получаем многомерные наблюдения, каждое из которых можно представить в виде векторного наблюдения

где https://pandia.ru/text/79/206/images/image005.png" height="22 src=">.png" height="22 src=">– символ операции транспонирования.

Полученные многомерные наблюдения необходимо подвергнуть статистической обработке..png" height="22 src=">.png" height="22 src=">.png" width="132" height="25 src=">.png" width="33" height="22 src="> допустимых преобразований исследуемых признаков 0 " style="border-collapse:collapse">

– условие нормировки;

– условие ортогональности

Полученные подобным преобразованием https://pandia.ru/text/79/206/images/image018.png" width="79" height="23 src="> и представляют собой главные компоненты. Из нихпри дальнейшем анализеисключают переменные с минимальной дисперсией , т. е..png" width="131" height="22 src="> в преобразовании (2)..png" width="13" height="22 src="> этой матрицы равны дисперсиям главных компонент .

Таким образом, первой главной компонентой https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src=">называется такая нормированно-центрированная линейная комбинация этих показателей, которая среди всех прочих подобных комбинаций обладает наибольшей дисперсией..png" width="12" height="22 src=">собственный вектор матрицы https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">.png" width="80" height="23 src="> называется такая нормированно-центрированная линейная комбинация этих показателей, которая не коррелирована с https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src=">.png" width="80" height="23 src="> измеряются в различных единицах, то результаты исследования с помощью главных компонент будут существенно зависеть от выбора масштаба и природы единиц измерения , а полученные линейные комбинации исходных переменных будет трудно интерпретировать. В связи с этим при различных единицах измерения исходных признаков DIV_ADBLOCK310">


https://pandia.ru/text/79/206/images/image030.png" width="17" height="22 src=">.png" width="56" height="23 src=">. После подобного преобразования проводят анализ главных компонент относительно величин https://pandia.ru/text/79/206/images/image033.png" width="17" height="22 src=">, которая является одновременно корреляционной матрицей https://pandia.ru/text/79/206/images/image035.png" width="162" height="22 src=">.png" width="13" height="22 src="> на i - й исходный признак ..png" width="14" height="22 src=">.png" width="10" height="22 src="> равна дисперсии v - й главной компонентыhttps://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src="> используются при содержательной интерпретации главных компонент..png" width="20" height="22 src=">.png" width="251" height="25 src=">

Для проведения расчетов векторные наблюдения агрегируем в выборочную матрицу, в которой строки соответствуют контролируемым признакам, а столбцы – объектам исследования (размерность матрицы – https://pandia.ru/text/79/206/images/image043.png" width="348" height="67 src=">

После центрирования исходных данных находим выборочную корреляционную матрицу по формуле

https://pandia.ru/text/79/206/images/image045.png" width="204" height="69 src=">

Диагональные элементы матрицы https://pandia.ru/text/79/206/images/image047.png" width="206" height="68 src=">

Недиагональные элементы этой матрицы представляют собой выборочные оценки коэффициентов корреляции между соответствующей парой признаков.

Составляем характеристическое уравнение для матрицы 0 " style="margin-left:5.4pt;border-collapse:collapse">

Находим все его корни:

Теперь для нахождения компонент главных векторов подставляем последовательно численные значения https://pandia.ru/text/79/206/images/image065.png" width="16" height="22 src=">.png" width="102" height="24 src=">

Например, при https://pandia.ru/text/79/206/images/image069.png" width="262" height="70 src=">

Очевидно, что полученная система уравнений совместна ввиду однородности и неопределенна, т. е. имеет бесконечное множество решений. Для нахождения единственного интересующего нас решения воспользуемся следующими положениями:

1. Для корней системы может быть записано соотношение

https://pandia.ru/text/79/206/images/image071.png" width="20" height="23 src="> – алгебраическое дополнение j -го элемента любой i -й строки матрицы системы.

2. Наличие условия нормировки (2) обеспечивает единственность решения рассматриваемой системы уравнений..png" width="13" height="22 src=">, определяются однозначно, за исключением того, что все они могут одновременно изменить знак. Однако знаки компонентов собственных векторов не играют существенной роли, так как их смена не влияет на результат анализа. Они могут служить только для индикации противоположных тенденций на соответствующей главной компоненте .

Таким образом, получаем собственный вектор https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">:

https://pandia.ru/text/79/206/images/image024.png" width="12" height="22 src="> проверяем по равенству

https://pandia.ru/text/79/206/images/image076.png" width="503" height="22">

… … … … … … … … …

https://pandia.ru/text/79/206/images/image078.png" width="595" height="22 src=">

https://pandia.ru/text/79/206/images/image080.png" width="589" height="22 src=">

где https://pandia.ru/text/79/206/images/image082.png" width="16" height="22 src=">.png" width="23" height="22 src="> – стандартизированные значения соответствующих исходных признаков.

Составляем ортогональную матрицу линейного преобразования https://pandia.ru/text/79/206/images/image086.png" width="94" height="22 src=">

Так как в соответствии со свойствами главных компонент сумма дисперсий исходных признаков равна сумме дисперсий всех главных компонент, то с учетом того, что мы рассматривали нормированные исходные признаки, можно оценить, какую часть общей изменчивости исходных признаков объясняет каждая из главных компонент. Например, для первых двух главных компонент имеем:

Таким образом, в соответствии с критерием информативности, используемым для главных компонент, найденных по корреляционной матрице, семьпервых главных компонент объясняют 88,97% общей изменчивости пятнадцати исходных признаков.

Используя матрицу линейного преобразования https://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src="> (для семи первых главных компонент):

https://pandia.ru/text/79/206/images/image090.png" width="16" height="22 src="> – число дипломов, полученных в конкурсе научных и дипломных работ ; https://pandia.ru/text/79/206/images/image092.png" width="16" height="22 src=">.png" width="22" height="22 src=">.png" width="22" height="22 src=">.png" width="22" height="22 src="> – награды и призовые места, занятые на региональных, областных и городских спортивных соревнованиях.

3..png" width="16" height="22 src=">(число грамот по результатам участия в конкурсах научных и дипломных работ).

4..png" width="22" height="22 src=">(награды и призовые места, занятые на вузовских соревнованиях).

6. Шестая главная компонента положительно коррелирована с показателем DIV_ADBLOCK311">

4. Третья главная компонента – активность студентов в учебном процессе.

5. Четвертая и шестая компоненты – прилежность студентов в течение весеннего и осеннего семестров соответственно.

6. Пятая главная компонента – степень участия в спортивных соревнованиях университета.

В дальнейшем для проведения всех необходимых расчетов при выделении главных компонент предлагается использовать специализированные статистические программные комплексы, например STATISTICA, что существенно облегчит процесс анализа.

Описанный в данной статье процесс выделения главных компонент на примере рейтинговой оценки студентов предлагается использовать для аттестации бакалавров и магистров.

СПИСОК ЛИТЕРАТУРЫ

1. Прикладная статистика: Классификация и снижение размерности: справ. изд. / , ; под ред. . – М.: Финансы и статистика, 1989. – 607 с.

2. Справочник по прикладной статистике:в 2 т.: [пер. с англ.] / под ред. Э. Ллойда, У. Ледермана, . – М.:Финансы и статистика, 1990. – Т. 2. – 526 c.

3. Прикладная статистика. Основы эконометрики . В 2 т. Т.1. Теория вероятностей и прикладная статистика: учеб. для вузов / , B. C. Мхитарян. – 2-е изд., испр.– М: ЮНИТИ-ДАНА, 2001. – 656 с.

4. Афифи, А. Статистический анализ: подход с использованием ЭВМ: [пер. с англ.] / А. Афифи, С. Эйзен.– М.: Мир, 1982. – 488 с.

5. Дронов, статистический анализ: учеб. пособие / . – Барна3. – 213 с.

6. Андерсон, Т. Введение в многомерный статистический анализ / Т. Андерсон; пер. с англ. [и др.]; под ред. . – М.: Гос. изд-во физ.-мат. лит., 1963. – 500 с.

7. Лоули, Д. Факторный анализ как статистический метод / Д. Лоули, А. Максвелл; пер. с англ. . – М.: Мир, 1967. – 144 с.

8. Дубров, статистические методы: учебник / , . – М.: Финансы и статистика, 2003. – 352 с.

9. Кендалл, М. Многомерный статистический анализ и временные ряды / М. Кендалл, А. Стьюарт;пер. с англ. , ; под ред. , . – М.: Наука,1976. – 736 с.

10. Белоглазов, анализ в задачах квалиметрии образования / // Изв. РАН. Теория и системы управления. – 2006. – №6. – С. 39 – 52.

Материал поступил в редколлегию 8.11.11.

Работа выполнена в рамках реализации федеральной целевой программы «Научные и научно-педагогические кадры инновационной России» на 2009 – 2013 гг. (государственный контракт № П770).

Метод главных компонентов (английский - principal component analysis, PCA) упрощает сложность высокоразмерных данных, сохраняя тенденции и шаблоны. Он делает это, преобразуя данные в меньшие размеры, которые действуют, как резюме функций. Такие данные очень распространены в разных отраслях науки и техники, и возникают, когда для каждого образца измеряются несколько признаков, например, таких как экспрессия многих видов. Подобный тип данных представляет проблемы, вызванные повышенной частотой ошибок из-за множественной коррекции данных.

Метод похож на кластеризацию - находит шаблоны без ссылок и анализирует их, проверяя, взяты ли образцы из разных групп исследования, и имеют ли они существенные различия. Как и во всех статистических методах, его можно применить неправильно. Масштабирование переменных может привести к разным результатам анализа, и очень важно, чтобы оно не корректировалось, на предмет соответствия предыдущему значению данных.

Цели анализа компонентов

Основная цель метода - обнаружить и уменьшить размерность набора данных, определить новые значимые базовые переменные. Для этого предлагается использовать специальные инструменты, например, собрать многомерные данные в матрице данных TableOfReal, в которой строки связаны со случаями и столбцами переменных. Поэтому TableOfReal интерпретируется как векторы данных numberOfRows, каждый вектор которых имеет число элементов Columns.

Традиционно метод главных компонентов выполняется по ковариационной матрице или по корреляционной матрице, которые можно вычислить из матрицы данных. Ковариационная матрица содержит масштабированные суммы квадратов и кросс-произведений. Корреляционная матрица подобна ковариационной матрице, но в ней сначала переменные, то есть столбцы, были стандартизованы. Вначале придется стандартизировать данные, если дисперсии или единицы измерения переменных сильно отличаются. Чтобы выполнить анализ, выбирают матрицу данных TabelOfReal в списке объектов и даже нажимают перейти.

Это приведет к появлению нового объекта в списке объектов по методу главных компонент. Теперь можно составить график кривых собственных значений, чтобы получить представление о важности каждого. И также программа может предложить действие: получить долю дисперсии или проверить равенство числа собственных значений и получить их равенство. Поскольку компоненты получены путем решения конкретной задачи оптимизации, у них есть некоторые «встроенные» свойства, например, максимальная изменчивость. Кроме того, существует ряд других их свойств, которые могут обеспечить факторный анализ:

  • дисперсию каждого, при этом доля полной дисперсии исходных переменных задается собственными значениями;
  • вычисления оценки, которые иллюстрируют значение каждого компонента при наблюдении;
  • получение нагрузок, которые описывают корреляцию между каждым компонентом и каждой переменной;
  • корреляцию между исходными переменными, воспроизведенными с помощью р-компонента;
  • воспроизведения исходных данных могут быть воспроизведены с р-компонентов;
  • «поворот» компонентов, чтобы повысить их интерпретируемость.

Выбор количества точек хранения

Существует два способа выбрать необходимое количество компонентов для хранения. Оба метода основаны на отношениях между собственными значениями. Для этого рекомендуется построить график значений. Если точки на графике имеют тенденцию выравниваться и достаточно близки к нулю, то их можно игнорировать. Ограничивают количество компонентов до числа, на которое приходится определенная доля общей дисперсии. Например, если пользователя удовлетворяет 95% от общей дисперсии - получают количество компонентов (VAF) 0.95.

Основные компоненты получают проектированием многомерного статистического анализа метода главных компонентов datavectors на пространстве собственных векторов. Это можно сделать двумя способами - непосредственно из TableOfReal без предварительного формирования PCA объекта и затем можно отобразить конфигурацию или ее номера. Выбрать объект и TableOfReal вместе и «Конфигурация», таким образом, выполняется анализ в собственном окружении компонентов.

Если стартовая точка оказывается симметричной матрицей, например, ковариационной, сначала выполняют сокращение до формы, а затем алгоритм QL с неявными сдвигами. Если же наоборот и отправная точка является матрица данных, то нельзя формировать матрицу с суммами квадратов. Вместо этого, переходят от численно более стабильного способа, и образуют разложения по сингулярным значениям. Тогда матрица будет содержать собственные векторы, а квадратные диагональные элементы - собственные значения.

Основным компонентом является нормализованная линейная комбинация исходных предикторов в наборе данных по методу главных компонент для чайников. На изображении выше PC1 и PC2 являются основными компонентами. Допустим, есть ряд предикторов, как X1, X2...,Xp.

Основной компонент можно записать в виде: Z1 = 11X1 + 21X2 + 31X3 + .... + p1Xp

  • Z1 - является первым главным компонентом;
  • p1 - является вектором нагрузки, состоящим из нагрузок (1, 2.) первого основного компонента.

Нагрузки ограничены суммой квадрата равного 1. Это связано с тем, что большая величина нагрузок может привести к большой дисперсии. Он также определяет направление основной компоненты (Z1), по которой данные больше всего различаются. Это приводит к тому, что линия в пространстве р-мер, ближе всего к n-наблюдениям.

Близость измеряется с использованием среднеквадратичного евклидова расстояния. X1..Xp являются нормированными предикторами. Нормализованные предикторы имеют среднее значение, равное нулю, а стандартное отклонение равно единице. Следовательно, первый главный компонент - это линейная комбинация исходных предикторных переменных, которая фиксирует максимальную дисперсию в наборе данных. Он определяет направление наибольшей изменчивости в данных. Чем больше изменчивость, зафиксированная в первом компоненте, тем больше информация, полученная им. Ни один другой не может иметь изменчивость выше первого основного.

Первый основной компонент приводит к строке, которая ближе всего к данным и сводит к минимуму сумму квадрата расстояния между точкой данных и линией. Второй главный компонент (Z2) также представляет собой линейную комбинацию исходных предикторов, которая фиксирует оставшуюся дисперсию в наборе данных и некоррелирована Z1. Другими словами, корреляция между первым и вторым компонентами должна равняться нулю. Он может быть представлен как: Z2 = 12X1 + 22X2 + 32X3 + .... + p2Xp.

Если они некоррелированы, их направления должны быть ортогональными.

После того как вычислены главные компоненты начинают процесс прогнозирования тестовых данных с их использованием. Процесс метода главных компонент для чайников прост.

Например, необходимо сделать преобразование в тестовый набор, включая функцию центра и масштабирования в языке R (вер.3.4.2) и его библиотеке rvest. R - свободный язык программирования для статистических вычислений и графики. Он был реконструирован в 1992 году для решения статистических задач пользователями. Это полный процесс моделирования после извлечения PCA.

Для реализации PCA в python импортируют данные из библиотеки sklearn. Интерпретация остается такой же, как и пользователей R. Только набор данных, используемый для Python, представляет собой очищенную версию, в которой отсутствуют вмененные недостающие значения, а категориальные переменные преобразуются в числовые. Процесс моделирования остается таким же, как описано выше для пользователей R. Метод главных компонент, пример расчета:

Идея метода основного компонента заключается в приближении этого выражения для выполнения факторного анализа. Вместо суммирования от 1 до p теперь суммируются от 1 до m, игнорируя последние p-m членов в сумме и получая третье выражение. Можно переписать это, как показано в выражении, которое используется для определения матрицы факторных нагрузок L, что дает окончательное выражение в матричной нотации. Если используются стандартизованные измерения, заменяют S на матрицу корреляционной выборки R.

Это формирует матрицу L фактор-нагрузки в факторном анализе и сопровождается транспонированной L. Для оценки конкретных дисперсий фактор-модель для матрицы дисперсии-ковариации.

Теперь будет равна матрице дисперсии-ковариации минус LL " .

  • Xi - вектор наблюдений для i-го субъекта.
  • S обозначает нашу выборочную дисперсионно-ковариационную матрицу.

Тогда p собственные значения для этой матрицы ковариации дисперсии, а также соответствующих собственных векторов для этой матрицы.

Собственные значения S:λ^1, λ^2, ... , λ^п.

Собственные векторы S:е^1, e^2, ... , e^п.

Анализ PCA - это мощный и популярный метод многомерного анализа, который позволяет исследовать многомерные наборы данных с количественными переменными. По этой методике широко используется метод главных компонент в биоинформатике, маркетинге, социологии и многих других областях. XLSTAT предоставляет полную и гибкую функцию для изучения данных непосредственно в Excel и предлагает несколько стандартных и расширенных опций, которые позволят получить глубокое представление о пользовательских данных.

Можно запустить программу на необработанных данных или на матрицах различий, добавить дополнительные переменные или наблюдения, отфильтровать переменные в соответствии с различными критериями для оптимизации чтения карт. Кроме того, можно выполнять повороты. Легко настраивать корреляционный круг, график наблюдений в качестве стандартных диаграмм Excel. Достаточно перенести данные из отчета о результатах, чтобы использовать их в анализе.

XLSTAT предлагает несколько методов обработки данных, которые будут использоваться на входных данных до вычислений основного компонента:

  1. Pearson, классический PCA, который автоматически стандартизирует данные для вычислений, чтобы избежать раздутого влияния переменных с большими отклонениями от результата.
  2. Ковариация, которая работает с нестандартными отклонениями.
  3. Полихорические, для порядковых данных.

Примеры анализа данных размерностей

Можно рассмотреть метод главных компонентов на примере выполнения симметричной корреляционной или ковариационной матрицы. Это означает, что матрица должна быть числовой и иметь стандартизованные данные. Допустим, есть набор данных размерностью 300 (n) × 50 (p). Где n - представляет количество наблюдений, а p - число предикторов.

Поскольку имеется большой p = 50, может быть p(p-1)/2 диаграмма рассеяния. В этом случае было бы хорошим подходом выбрать подмножество предиктора p (p<< 50), который фиксирует количество информации. Затем следует составление графика наблюдения в полученном низкоразмерном пространстве. Не следует забывать, что каждое измерение является линейной комбинацией р-функций.

Пример для матрицы с двумя переменными. В этом примере метода главных компонентов создается набор данных с двумя переменными (большая длина и диагональная длина) с использованием искусственных данных Дэвиса.

Компоненты можно нарисовать на диаграмме рассеяния следующим образом.

Этот график иллюстрирует идею первого или главного компонента, обеспечивающего оптимальную сводку данных - никакая другая линия, нарисованная на таком графике рассеяния, не создаст набор прогнозируемых значений точек данных на линии с меньшей дисперсией.

Первый компонент также имеет приложение в регрессии с уменьшенной главной осью (RMA), в которой предполагается, что как x-, так и y-переменные имеют ошибки или неопределенности или, где нет четкого различия между предсказателем и ответом.

Метод главных компонентов в эконометрике - это анализ переменных, таких как ВНП, инфляция, обменные курсы и т. д. Их уравнения затем оцениваются по имеющимся данным, главным образом совокупным временным рядам. Однако эконометрические модели могут использоваться для многих приложений, а не для макроэкономических. Таким образом, эконометрика означает экономическое измерение.

Применение статистических методов к соответствующей эконометрике данных показывает взаимосвязь между экономическими переменными. Простой пример эконометрической модели. Предполагается, что ежемесячные расходы потребителей линейно зависят от доходов потребителей в предыдущем месяце. Тогда модель будет состоять из уравнения

Задачей эконометрика является получение оценок параметров a и b. Эти оценочные значения параметров, если они используются в уравнении модели, позволяют прогнозировать будущие значения потребления, которые будут зависеть от дохода предыдущего месяца. При разработке этих видов моделей необходимо учитывать несколько моментов:

  • характер вероятностного процесса, который генерирует данные;
  • уровень знаний об этом;
  • размер системы;
  • форма анализа;
  • горизонт прогноза;
  • математическая сложность системы.

Все эти предпосылки важны, потому что от них зависят источники ошибок, вытекающих из модели. Кроме того, для решения этих проблем необходимо определить метод прогнозирования. Его можно привести к линейной модели, даже если имеется только небольшая выборка. Этот тип является одним из самых общих, для которого можно создать прогнозный анализ.

Непараметрическая статистика

Метод главных компонент для непараметрических данных относится к методам измерения, в которых данные извлекаются из определенного распределения. Непараметрические статистические методы широко используются в различных типах исследований. На практике, когда предположение о нормальности измерений не выполняется, параметрические статистические методы могут приводить к вводящим в заблуждение результатам. Напротив, непараметрические методы делают гораздо менее строгие предположения о распределении по измерениям.

Они являются достоверными независимо от лежащих в их основе распределений наблюдений. Из-за этого привлекательного преимущества для анализа различных типов экспериментальных конструкций было разработано много разных типов непараметрических тестов. Такие проекты охватывают дизайн с одной выборкой, дизайн с двумя образцами, дизайн рандомизированных блоков. В настоящее время непараметрический байесовский подход с применением метода главных компонентов используется для упрощения анализа надежности железнодорожных систем.

Железнодорожная система представляет собой типичную крупномасштабную сложную систему с взаимосвязанными подсистемами, которые содержат многочисленные компоненты. Надежность системы сохраняется за счет соответствующих мер по техническому обслуживанию, а экономичное управление активами требует точной оценки надежности на самом низком уровне. Однако данные реальной надежности на уровне компонентов железнодорожной системы не всегда доступны на практике, не говоря уже о завершении. Распределение жизненных циклов компонентов от производителей часто скрывается и усложняется фактическим использованием и рабочей средой. Таким образом, анализ надежности требует подходящей методологии для оценки времени жизни компонента в условиях отсутствия данных об отказах.

Метод главных компонент в общественных науках используется для выполнения двух главных задач:

  • анализа по данным социологических исследований;
  • построения моделей общественных явлений.

Алгоритмы расчета моделей

Алгоритмы метода главных компонент дают другое представление о структуре модели и ее интерпретации. Они являются отражением того, как PCA используется в разных дисциплинах. Алгоритм нелинейного итеративного частичного наименьшего квадрата NIPALS представляет собой последовательный метод вычисления компонентов. Вычисление может быть прекращено досрочно, когда пользователь считает, что их достаточно. Большинство компьютерных пакетов имеют тенденцию использовать алгоритм NIPALS, поскольку он имеет два основных преимущества:

  • он обрабатывает отсутствующие данные;
  • последовательно вычисляет компоненты.

Цель рассмотрения этого алгоритма:

  • дает дополнительное представление о том, что означают нагрузки и оценки;
  • показывает, как каждый компонент не зависит ортогонально от других компонентов;
  • показывает, как алгоритм может обрабатывать недостающие данные.

Алгоритм последовательно извлекает каждый компонент, начиная с первого направления наибольшей дисперсии, а затем второго и т. д. NIPALS вычисляет один компонент за раз. Вычисленный первый эквивалентен t1t1, а также p1p1 векторов, которые были бы найдены из собственного значения или разложения по сингулярным значениям, может обрабатывать недостающие данные в XX. Он всегда сходится, но сходимость иногда может быть медленной. И также известен, как алгоритм мощности для вычисления собственных векторов и собственных значений и отлично работает для очень больших наборов данных. Google использовал этот алгоритм для ранних версий своей поисковой системы.

Алгоритм NIPALS показан на фото ниже.

Оценки коэффициента матрицы Т затем вычисляется как T=XW и в частичной мере коэффициентов регрессии квадратов B из Y на X, вычисляются, как B = WQ. Альтернативный метод оценки для частей регрессии частичных наименьших квадратов можно описать следующим образом.

Метод главных компонентов - это инструмент для определения основных осей дисперсии в наборе данных и позволяет легко исследовать ключевые переменные данных. Правильно примененный метод является одним из самых мощных в наборе инструментов анализа данных.

Метод главных компонент – это метод, который переводит большое количество связанных между собой (зависимых, коррелирующих) переменных в меньшее количество независимых переменных, так как большое количество переменных часто затрудняет анализ и интерпретацию информации. Строго говоря, этот метод не относится к факторному анализу, хотя и имеет с ним много общего. Специфическим является, во-первых, то, что в ходе вычислительных процедур одновременно получают все главные компоненты и их число первоначально равно числу исходных переменных; во-вторых, постулируется возможность полного разложения дисперсии всех исходных переменных, т.е. ее полное объяснение через латентные факторы (обобщенные признаки).

Например, представим, что мы провели исследование, в котором измерили у студентов интеллект по тесту Векслера, тесту Айзенка, тесту Равена, а также успеваемость по социальной, когнитивной и общей психологии. Вполне возможно, что показатели различных тестов на интеллект будут коррелировать между собой, так как они, в конце концов, измеряют одну характеристику испытуемого – его интеллектуальные способности, хотя и по-разному. Если переменных в исследовании слишком много (x 1 , x 2 , …, x p ) , а некоторые из них взаимосвязаны, то у исследователя иногда возникает желание уменьшить сложность данных, сократив количество переменных. Для этого и служит метод главных компонент, который создает несколько новых переменных y 1 , y 2 , …, y p , каждая из которых является линейной комбинацией первоначальных переменных x 1 , x 2 , …, x p :

y 1 =a 11 x 1 +a 12 x 2 +…+a 1p x p

y 2 =a 21 x 1 +a 22 x 2 +…+a 2p x p

(1)

y p =a p1 x 1 +a p2 x 2 +…+a pp x p

Переменные y 1 , y 2 , …, y p называются главными компонентами или факторами. Таким образом, фактор – это искусственный статистический показатель, возникающий в результате специальных преобразований корреляционной матрицы . Процедура извлечения факторов называется факторизацией матрицы. В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, определяемые в результате факторизации, как правило, не равноценны по своему значению.

Коэффициенты a ij , определяющие новую переменную, выбираются таким образом, чтобы новые переменные (главные компоненты, факторы) описывали максимальное количество вариативности данных и не коррелировали между собой. Часто полезно представить коэффициенты a ij таким образом, чтобы они представляли собой коэффициент корреляции между исходной переменной и новой переменной (фактором). Это достигается умножением a ij на стандартное отклонение фактора. В большинстве статистических пакетов так и делается (в программе STATISTICA тоже). Коэффициенты a ij Обычно они представляются в виде таблицы, где факторы располагаются в виде столбцов, а переменные в виде строк:

Такая таблица называется таблицей (матрицей) факторных нагрузок. Числа, приведенные в ней, являются коэффициентами a ij .Число 0,86 означает, что корреляция между первым фактором и значением по тесту Векслера равна 0,86. Чем выше факторная нагрузка по абсолютной величине, тем сильнее связь переменной с фактором.

Главные компоненты

5.1 Методы множественной регрессии и канонической корреляции предполагают разбиение имеющегося набора признаков на две части. Однако, далеко не всегда такое разбиение может быть объективно хорошо обоснованным, в связи с чем возникает необходимость в таких подходах к анализу взаимосвязей показателей, которые предполагали бы рассмотрение вектора признаков как единого целого. Разумеется, при реализации подобных подходов в этой батарее признаков может быть обнаружена определенная неоднородность, когда объективно выявятся несколько групп переменных. Для признаков из одной такой группы взаимные корреляции будут гораздо выше по сравнению с сочетаниями показателей из разных групп. Однако, эта группировка будет опираться на результаты объективного анализа данных, а - не на априорные произвольные соображения исследователя.

5.2 При изучении корреляционных связей внутри некоторого единого набора m признаков


X "= X 1 X 2 X 3 ... X m

можно воспользоваться тем же самым способом, который применялся в множественном регрессионном анализе и методе канонических корреляций - получением новых переменных, вариация которых полно отражает существование многомерных корреляций.

Целью рассмотрения внутригрупповых связей единого набора признаков является определение и наглядное представление объективно существующих основных направлений соотносительной вариации этих переменных. Поэтому, для этих целей можно ввести некие новые переменные Y i , находимые как линейные комбинации исходного набора признаков X

Y 1 = b 1 "X = b 11 X 1 + b 12 X 2 + b 13 X 3 + ... + b 1m X m

Y 2 = b 2 "X = b 21 X 1 + b 22 X 2 + b 23 X 3 + ... + b 2m X m

Y 3 = b 3 "X = b 31 X 1 + b 32 X 2 + b 33 X 3 + ... + b 3m X m (5.1)

... ... ... ... ... ... ...

Y m = b m "X = b m1 X 1 + b m2 X 2 + b m3 X 3 + ... + b m m X m

и обладающие рядом желательных свойств. Пусть для определенности число новых признаков равно числу исходных показателей (m).

Одним из таких желательных оптимальных свойств может быть взаимная некор-релированность новых переменных, то есть диагональный вид их ковариационной матрицы

S y1 2 0 0 ... 0

0 s y2 2 0 ... 0

S y = 0 0 s y3 2 ... 0 , (5.2)

... ... ... ... ...

0 0 0 … s ym 2

где s yi 2 - дисперсия i-го нового признака Y i . Некоррелированность новых переменных кроме своего очевидного удобства имеет важное свойство - каждый новый признак Y i будет учитывать только свою независимую часть информации об изменчивости и коррелированности исходных показателей X.

Вторым необходимым свойством новых признаков является упорядоченный учет вариации исходных показателей. Так, пусть первая новая переменная Y 1 будет учитывать максимальную долю суммарной вариации признаков X. Это, как мы позже увидим, равносильно требованию того, чтобы Y 1 имела бы максимально возможную дисперсию s y1 2 . С учетом равенства (1.17) это условие может быть записано в виде

s y1 2 = b 1 "Sb 1 = max , (5.3)

где S - ковариационная матрица исходных признаков X, b 1 - вектор, включающий коэффициенты b 11 , b 12 , b 13 , ..., b 1m при помощи которых, по значениям X 1 , X 2 , X 3 , ..., X m можно получить значение Y 1 .

Пусть вторая новая переменная Y 2 описывает максимальную часть того компонента суммарной вариации, который остался после учета наибольшей его доли в изменчивости первого нового признака Y 1 . Для достижения этого необходимо выполнение условия

s y2 2 = b 2 "Sb 2 = max , (5.4)

при нулевой связи Y 1 с Y 2 , (т.е. r y1y2 = 0) и при s y1 2 > s y2 2 .

Аналогичным образом, третий новый признак Y 3 должен описывать третью по степени важности часть вариации исходных признаков, для чего его дисперсия должна быть также максимальной

s y3 2 = b 3 "Sb 3 = max , (5.5)

при условиях, что Y 3 нескоррелирован с первыми двумя новыми признаками Y 1 и Y 2 (т.е. r y1y3 = 0, r y2y3 = 0) и s y1 2 > s y2 > s y3 2 .

Таким образом, для дисперсий всех новых переменных характерна упорядоченность по величине

s y1 2 > s y2 2 > s y3 2 > ... > s y m 2 . (5.6)

5.3 Векторы из формулы (5.1) b 1 , b 2 , b 3 , ..., b m , при помощи которых должен осу-ществляться переход к новым переменным Y i , могут быть записаны в виде матрицы


B = b 1 b 2 b 3 ... b m . (5.7)

Переход от набора исходных признаков X к набору новых переменных Y может быть представлен в виде матричной формулы

Y = B" X , (5.8)

а получение ковариационной матрицы новых признаков и достижение условия (5.2) некоррелированности новых переменных в соответствии с формулой (1.19) может быть представлено в виде

B"SB = S y , (5.9)

где ковариационная матрица новых переменных S y в силу их некоррелированности имеет диагональную форму. Из теории матриц (раздел А.25 Приложения А) известно, что, полу-чив для некоторой симметрической матрицы A собственные векторы u i и числа l i и обра-

зовав из них матрицы U и L , можно в соответствии с формулой (А.31) получить результат

U"AU = L ,

где L - диагональная матрица, включающая собственные числа симметрической матрицы A . Нетрудно видеть, что последнее равенство полностью совпадает с формулой (5.9). Поэтому, можно сделать следующий вывод. Желательные свойства новых переменных Y можно обеспечить, если векторы b 1 , b 2 , b 3 , ..., b m , при помощи которых должен осуществляться переход к этим переменным, будут собственными векторами ковариационной матрицы исходных признаков S . Тогда дисперсии новых признаков s yi 2 окажутся собственными числами

s y1 2 = l 1 , s y2 2 = l 2 , s y3 2 = l 3 , ... , s ym 2 = l m (5.10)

Новые переменные, переход к которым по формулам (5.1) и (5.8) осуществляется при помощи собственных векторов ковариационной матрицы исходных признаков, называются главными компонентами. В связи с тем, что число собственных векторов ковариационной матрицы в общем случае равно m - числу исходных признаков для этой матрицы, количество главных компонент также равно m.

В соответствии с теорией матриц для нахождения собственных чисел и векторов ковариационной матрицы следует решить уравнение

(S - l i I )b i = 0 . (5.11)

Это уравнение имеет решение, если выполняется условие равенства нулю определителя

½S - l i I ½ = 0 . (5.12)

Это условие по существу также оказывается уравнением, корнями которого являются все собственные числа l 1 , l 2 , l 3 , ..., l m ковариационной матрицы одновременно совпадающие с дисперсиями главных компонент. После получения этих чисел, для каждого i-го из них по уравнению (5.11) можно получить соответствующий собственный вектор b i . На практике для вычисления собственных чисел и векторов используются специальные итерационные процедуры (Приложение В).

Все собственные векторы можно записать в виде матрицы B , которая будет ортонормированной матрицей, так что (раздел А.24 Приложения А) для нее выполняется

B"B = BB" = I . (5.13)

Последнее означает, что для любой пары собственных векторов справедливо b i "b j = 0, а для любого такого вектора соблюдается равенство b i "b i = 1.

5.4 Проиллюстрируем получение главных компонент для простейшего случая двух исходных признаков X 1 и X 2 . Ковариационная матрица для этого набора равна

где s 1 и s 2 - средние квадратические отклонения признаков X 1 и X 2 , а r - коэффициент корреляции между ними. Тогда условие (5.12) можно записать в виде

S 1 2 - l i rs 1 s 2

rs 1 s 2 s 2 2 - l i

Рисунок 5.1 .Геометрический смысл главных компонент

Раскрывая определитель, можно получить уравнение

l 2 - l(s 1 2 + s 2 2) + s 1 2 s 2 2 (1 - r 2) = 0 ,

решая которое, можно получить два корня l 1 и l 2 . Уравнение (5.11) может быть также записано в виде


s 1 2 - l i r s 1 s 2 b i1 = 0

r s 1 s 2 s 2 2 - l i b i2 0

Подставляя в это уравнение l 1 , получим линейную систему

(s 1 2 - l 1) b 11 + rs 1 s 2 b 12 = 0

rs 1 s 2 b 11 + (s 2 2 - l 1)b 12 = 0 ,

решением которой являются элементы первого собственного вектора b 11 и b 12 . После аналогичной подстановки второго корня l 2 найдем элементы второго собственного вектора b 21 и b 22 .

5.5 Выясним геометрический смысл главных компонент. Наглядно это можно сделать лишь для простейшего случая двух признаков X 1 и X 2 . Пусть для них характерно двумерное нормальное распределение с положительным значением коэффициента корреляции. Если все индивидуальные наблюдения нанести на плоскость, образованную осями признаков, то соответствующие им точки расположатся внутри некоторого корреляционного эллипса (рис.5.1). Новые признаки Y 1 и Y 2 также могут быть изображены на этой же плоскости в виде новых осей. По смыслу метода для первой главной компоненты Y 1 , учитывающей максимально возможную суммарную дисперсию признаков X 1 и X 2 , должен достигаться максимум ее дисперсии. Это означает, что для Y 1 следует найти та-

кую ось, чтобы ширина распределения ее значений была бы наибольшей. Очевидно, что это будет достигаться, если эта ось совпадет по направлению с наибольшей осью корреляционного эллипса. Действительно, если мы спроецируем все соответствующие индивидуальным наблюдениям точки на эту координату, то получим нормальное распределение с максимально возможным размахом и наибольшей дисперсией. Это будет распределение индивидуальных значений первой главной компоненты Y 1 .

Ось, соответствующая второй главной компоненте Y 2 , должна быть проведена перпендикулярно к первой оси, так как это следует из условия некоррелированности главных компонент. Действительно, в этом случае мы получим новую систему координат с осями Y 1 и Y 2 , совпадающими по направлению с осями корреляционного эллипса. Можно видеть, что корреляционный эллипс при его рассмотрении в новой системе координат демонстрирует некоррелированность индивидуальных значений Y 1 и Y 2 , тогда как для величин исходных признаков X 1 и X 2 корреляция наблюдалась.

Переход от осей, связанных с исходными признаками X 1 и X 2 , к новой системе координат, ориентированной на главные компоненты Y 1 и Y 2 , равносилен повороту старых осей на некоторый угол j. Его величина может быть найдена по формуле

Tg 2j = . (5.14)

Переход от значений признаков X 1 и X 2 к главным компонентам может быть осуществлен в соответствии с результатами аналитической геометрии в виде

Y 1 = X 1 cos j + X 2 sin j

Y 2 = - X 1 sin j + X 2 cos j .

Этот же результат можно записать в матричном виде

Y 1 = cos j sin j X 1 и Y 2 = -sin j cos j X 1 ,

который точно соответствует преобразованию Y 1 = b 1 "X и Y 2 = b 2 "X . Иными словами,

= B" . (5.15)

Таким образом, матрица собственных векторов может также трактоваться как включающая тригонометрические функции угла поворота, который следует осуществить для перехода от системы координат, связанной с исходными признаками, к новым осям, опирающимся на главные компоненты.

Если мы имеем m исходных признаков X 1 , X 2 , X 3 , ..., X m , то наблюдения, состав-ляющие рассматриваемую выборку, расположатся внутри некоторого m-мерного корреляционного эллипсоида. Тогда ось первой главной компоненты совпадет по направлению с наибольшей осью этого эллипсоида, ось второй главной компоненты - со второй осью этого эллипсоида и т.д. Переход от первоначальной системы координат, связанной с осями признаков X 1 , X 2 , X 3 , ..., X m к новым осям главных компонент окажется равносильным осуществлению нескольких поворотов старых осей на углы j 1 , j 2 , j 3 , ..., а матрица перехода B от набора X к системе главных компонент Y , состоящая из собственных век-

торов ковариационной матрицы, включает в себя тригонометрические функции углов новых координатных осей со старыми осями исходных признаков.

5.6 В соответствии со свойствами собственных чисел и векторов следы ковариа-ционных матриц исходных признаков и главных компонент - равны. Иными словами

tr S = tr S y = tr L (5.16)

s 11 + s 22 + ... + s mm = l 1 + l 2 + ... + l m ,

т.е. сумма собственных чисел ковариационной матрицы равна сумме дисперсий всех исходных признаков. Поэтому, можно говорить о некоторой суммарной величине дисперсии исходных признаков равной tr S , и учитываемой системой собственных чисел.

То обстоятельство, что первая главная компонента имеет максимальную дисперсию, равную l 1 , автоматически означает, что она описывает и максимальную долю суммарной вариации исходных признаков tr S . Аналогично, вторая главная компонента имеет вторую по величине дисперсию l 2 , что соответствует второй по величине учитываемой доле суммарной вариации исходных признаков и т.д.

Для каждой главной компоненты можно определить долю суммарной величины изменчивости исходных признаков, которую она описывает

5.7 Очевидно, представление о суммарной вариации набора исходных признаков X 1 , X 2 , X 3 , ..., X m , измеряемой величиной tr S , имеет смысл только в том случае, когда все эти признаки измерены в одинаковых единицах. В противном случае придется складывать дисперсии, разных признаков, одни из которых будут выражены в квадратах миллиметров, другие - в квадратах килограммов, третьи – в квадратах радиан или градусов и т.д. Этого затруднения легко избежать, если от именованных значений признаков X ij перейти к их нормированным величинам z ij = (X ij - M i)./ S i где M i и S i - средняя арифметическая величина и среднее квадратическое отклонение i-го признака. Нормированные признаки z имеют нулевые средние, единичные дисперсии и не связаны с какими-либо единицами измерения. Ковариационная матрица исходных признаков S превратится в корреляционную матрицу R .

Все сказанное о главных компонентах, находимых для ковариационной матрицы, остается справедливым и для матрицы R . Здесь точно также можно, опираясь на собственные векторы корреляционной матрицы b 1 , b 2 , b 3 , ..., b m , перейти от исходных признаков z i к главным компонентам y 1 , y 2 , y 3 , ..., y m

y 1 = b 1 "z

y 2 = b 2 "z

y 3 = b 3 "z

y m = b m "z .

Это преобразование можно также записать в компактном виде

y = B"z ,

Рисунок 5.2 . Геометрический смысл главных компонент для двух нормированных признаков z 1 и z 2

где y - вектор значений главных компонент, B - матрица, включающая собственные векторы, z - вектор исходных нормированных признаков. Справедливым оказывается и равенство

B"RB = ... ... … , (5.18)

где l 1 , l 2 , l 3 , ..., l m - собственные числа корреляционной матрицы.

Результаты, получающиеся при анализе корреляционной матрицы, отличаются от аналогичных результатов для матрицы ковариационной. Во-первых, теперь можно рассматривать признаки, измеренные в разных единицах. Во-вторых, собственные векторы и числа, найденные для матриц R и S , также различны. В-третьих, главные компоненты, определенные по корреляционной матрице и опирающиеся на нормированные значения признаков z, оказываются центрироваными - т.е. имеющими нулевые средние величины.

К сожалению, определив собственные векторы и числа для корреляционной матрицы, перейти от них к аналогичным векторами и числам ковариационной матрицы - невозможно. На практике обычно используются главные компоненты, опирающиеся на корреляционную матрицу, как более универсальные.

5.8 Рассмотрим геометрический смысл главных компонент, определенных по корреляционной матрице. Наглядным здесь оказывается случай двух признаков z 1 и z 2 . Система координат, связанная с этими нормированными признаками, имеет нулевую точку, размещенную в центре графика (рис.5.2). Центральная точка корреляционного эллипса,

включающего все индивидуальные наблюдения, совпадет с центром системы координат. Очевидно, что ось первой главной компоненты, имеющая максимальную вариацию, совпадет с наибольшей осью корреляционного эллипса, а координата второй главной компоненты будет сориентирована по второй оси этого эллипса.

Переход от системы координат, связанной с исходными признаками z 1 и z 2 к новым осям главных компонент равносилен повороту первых осей на некоторый угол j. Дисперсии нормированных признаков равны 1 и по формуле (5.14) можно найти величину угла поворота j равную 45 o . Тогда матрица собственных векторов, которую можно определить через тригонометрические функции этого угла по формуле (5.15), будет равна

Cos j sin j 1 1 1

B " = = .

Sin j cos j (2) 1/2 -1 1

Значения собственных чисел для двумерного случая также несложно найти. Условие (5.12) окажется вида

что соответствует уравнению

l 2 - 2l + 1 - r 2 = 0 ,

которое имеет два корня

l 1 = 1 + r (5.19)

Таким образом, главные компоненты корреляционной матрицы для двух нормированных признаков могут быть найдены по очень простым формулам

Y 1 = (z 1 + z 2) (5.20)

Y 2 = (z 1 - z 2)

Их средние арифметические величины равны нулю, а средние квадратические отклонения имеют значения

s y1 = (l 1) 1/2 = (1 + r) 1/2

s y2 = (l 2) 1/2 = (1 - r) 1/2

5.9 В соответствии со свойствами собственных чисел и векторов следы корреляционной матрицы исходных признаков и матрицы собственных чисел - равны. Суммарная вариация m нормированных признаков равна m. Иными словами

tr R = m = tr L (5.21)

l 1 + l 2 + l 3 + ... + l m = m .

Тогда доля суммарной вариации исходных признаков, описываемая i-ой главной компонентой равна

Можно также ввести понятие P cn - доли суммарной вариации исходных признаков, описываемой первыми n главными компонентами,

n l 1 + l 2 + ... + l n

P cn = S P i = . (5.23)

То обстоятельство, что для собственных чисел наблюдается упорядоченность вида l 1 > l 2 > > l 3 > ... > l m , означает, что аналогичные соотношения будут свойственны и долям, описываемой главными компонентами вариации

P 1 > P 2 > P 3 > ... > P m . (5.24)

Свойство (5.24) влечет за собой специфический вид зависимости накопленной доли P сn от n (рис.5.3). В данном случае первые три главные компоненты описывают основную часть изменчивости признаков. Это означает, что часто немногие первые главные компоненты могут совместно учитывать до 80 - 90% суммарной вариации признаков, тогда как каждая последующая главная компонента будет увеличивать эту долю весьма незначительно. Тогда для дальнейшего рассмотрения и интерпретации можно использовать только эти немногие первые главные компоненты с уверенностью, что именно они описывают наиболее важные закономерности внутригрупповой изменчивости и коррелированности

Рисунок 5.3. Зависимость доли суммарной вариации признаков P cn , описываемой n первыми главными компонентами, от величины n. Число признаков m = 9

Рисунок 5.4. К определению конструкции критерия отсеивания главных компонент

признаков. Благодаря этому, число информативных новых переменных, с которыми следует работать, может быть уменьшено в 2 - 3 раза. Таким образом, главные компоненты имеют еще одно важное и полезное свойство - они значительно упрощают описание вариации исходных признаков и делают его более компактным. Такое уменьшение числа переменных всегда желательно, но оно связано с некоторыми искажениями взаимного расположения точек, соответствующих отдельным наблюдениям, в пространстве немногих первых главных компонент по сравнению с m-мерным пространством исходных признаков. Эти искажения возникают из-за попытки втиснуть пространство признаков в пространство первых главных компонент. Однако, в математической статистике доказывается, что из всех методов, позволяющих значительно уменьшить число переменных, переход к главным компонентам приводит к наименьшим искажениям структуры наблюдений связанных с этим уменьшением.

5.10 Важным вопросом анализа главных компонент является проблема определения их количества для дальнейшего рассмотрения. Очевидно, что увеличение числа главных компонент повышает накопленную долю учитываемой изменчивости P cn и приближает ее к 1. Одновременно, компактность получаемого описания уменьшается. Выбор того количества главных компонент, которое одновременно обеспечивает и полноту и компактность описания может базироваться на разных критериях, применяемых на практике. Перечислим наиболее распространенные из них.

Первый критерий основан на том соображении, что количество учитываемых главных компонент должно обеспечивать достаточную информативную полноту описания. Иными словами, рассматриваемые главные компоненты должны описывать большую часть суммарной изменчивости исходных признаков: до 75 - 90%. Выбор конкретного уровня накопленной доли P cn остается субъективным и зависящим как от мнения исследователя, так и от решаемой задачи.

Другой аналогичный критерий (критерий Кайзера) позволяет включать в рассмотрение главные компоненты с собственными числами большими 1. Он основан на том соображении, что 1 - это дисперсия одного нормированного исходного признака. Поэто-

му, включение в дальнейшее рассмотрение всех главных компонент с собственными числами большими 1 означает что мы рассматриваем только те новые переменные, которые имеют дисперсии не меньше чем у одного исходного признака. Критерий Кайзера весьма распространен и его использование заложено во многие пакеты программ статистической обработки данных, когда требуется задать минимальную величину учитываемого собственного числа, и по умолчанию часто принимается значение равное 1.

Несколько лучше теоретически обоснован критерий отсеивания Кеттела. Его применение основано на рассмотрении графика, на котором нанесены значения всех собственных чисел в порядке их убывания (рис.5.4). Критерий Кеттела основан на том эффекте, что нанесенная на график последовательность величин полученных собственных чисел обычно дает вогнутую линию. Несколько первых собственных чисел обнаруживают непрямолинейное уменьшение своего уровня. Однако, начиная с некоторого собственного числа, уменьшение этого уровня становится примерно прямолинейным и довольно пологим. Включение главных компонент в рассмотрение завершается той из них, собственное число которой начинает прямолинейный пологий участок графика. Так, на рисунке 5.4 в соответствие с критерием Кеттела в рассмотрение следует включить только первые три главные компоненты, потому что третье собственное число находится в самом начале прямолинейного пологого участка графика.

Критерий Кеттела основан на следующем. Если рассматривать данные по m признакам, искусственно полученные из таблицы нормально распределенных случайных чисел, то для них корреляции между признаками будут носить совершенно случайный характер и будут близкими к 0. При нахождении здесь главных компонент можно будет обнаружить постепенное уменьшение величины их собственных чисел, имеющее прямолинейной характер. Иными словами, прямолинейное уменьшение собственных чисел может свидетельствовать об отсутствии в соответствующей им информации о коррелированности признаков неслучайных связей.

5.11 При интерпретации главных компонент чаще всего используются собственные векторы, представленные в виде так называемых нагрузок - коэффициентов корреляции исходных признаков с главными компонентами. Собственные векторы b i , удовлетворяющие равенству (5.18), получаются в нормированном виде, так что b i "b i = 1. Это означает, что сумма квадратов элементов каждого собственного вектора равна 1. Собственные векторы, элементы которых являются нагрузками, могут быть легко найдены по формуле

a i = (l i) 1/2 b i . (5.25)

Иными словами, домножением нормированной формы собственного вектора на корень квадратный его собственного числа, можно получить набор нагрузок исходных признаков на соответствующую главную компоненту. Для векторов нагрузок справедливым оказывается равенство a i "a i = l i , означающее, что сумма квадратов нагрузок на i-ю главную компоненту равна i-му собственному числу. Компьютерные программы обычно выводят собственные векторы именно в виде нагрузок. При необходимости получения этих векторов в нормированном виде b i это можно сделать по простой формуле b i = a i / (l i) 1/2 .

5.12 Математические свойства собственных чисел и векторов таковы, что в соответствии с разделом А.25 Приложения А исходная корреляционная матрица R может быть представлена в виде R = BLB" , что также можно записать как

R = l 1 b 1 b 1 " + l 2 b 2 b 2 " + l 3 b 3 b 3 " + ... + l m b m b m " . (5.26)

Следует заметить, что любой из членов l i b i b i " , соответствующий i-й главной компоненте, является квадратной матрицей

L i b i1 2 l i b i1 b i2 l i b i1 b i3 … l i b i1 b im

l i b i b i " = l i b i1 b i2 l i b i2 2 l i b i2 b i3 ... l i b i2 b im . (5.27)

... ... ... ... ...

l i b i1 b im l i b i2 b im l i b i3 b im ... l i b im 2

Здесь b ij - элемент i-го собственного вектора у j-го исходного признака. Любой диагональный член такой матрицы l i b ij 2 есть некоторая доля вариации j-го признака, описываемая i-й главной компонентой. Тогда дисперсия любого j-го признака может быть представлена в виде

1 = l 1 b 1j 2 + l 2 b 2j 2 + l 3 b 3j 2 + ... + l m b mj 2 , (5.28)

означающем ее разложение по вкладам, зависящим от всех главных компонент.

Аналогично, любой внедиагональный член l i b ij b ik матрицы (5.27) является некоторой частью коэффициента корреляции r jk j-го и k-го признаков, учитываемой i-й главной компонентой. Тогда можно выписать разложение этого коэффициента в виде суммы

r jk = l 1 b 1j b 1k + l 2 b 2j b 2k + ... + l m b mj b mk , (5.29)

вкладов в него всех m главных компонент.

Таким образом, из формул (5.28) и (5.29) можно наглядно видеть, что каждая главная компонента описывает определенную часть дисперсии каждого исходного признака и коэффициента корреляции каждого их сочетания.

С учетом, того, что элементы нормированной формы собственных векторов b ij связаны с нагрузками a ij простым соотношением (5.25), разложение (5.26) может быть выписано и через собственные векторы нагрузок R = AA" , что также можно представить как

R = a 1 a 1 " + a 2 a 2 " + a 3 a 3 " + ... + a m a m " , (5.30)

т.е. как сумму вкладов каждой из m главных компонент. Каждый из этих вкладов a i a i " можно записать в виде матрицы

A i1 2 a i1 a i2 a i1 a i3 ... a i1 a im

a i1 a i2 a i2 2 a i2 a i3 ... a i2 a im

a i a i " = a i1 a i3 a i2 a i3 a i3 2 ... a i3 a im , (5.31)

... ... ... ... ...

a i1 a im a i2 a im a i3 a im ... a im 2

на диагоналях которой размещены a ij 2 - вклады в дисперсию j-го исходного признака, а внедиагональные элементы a ij a ik - есть аналогичные вклады в коэффициент корреляции r jk j-го и k-го признаков.

В стремлении предельно точно описать исследуемую область аналитики часто отбирают большое число независимых переменных (p). В этом случае может возникнуть серьезная ошибка: несколько описывающих переменных могут характеризовать одну и ту же сторону зависимой переменной и, как следствие, высоко коррелировать между собой. Мультиколлинеарность независимых переменных серьезно искажает результаты исследования, поэтому от нее следует избавляться.

Метод главных компонент (как упрощенная модель факторного анализа, поскольку при этом методе не используются индивидуальные факторы, описывающие только одну переменную x i) позволяет объединить влияние высоко коррелированных переменных в один фактор, характеризующий зависимую переменную с одной единственной стороны. В результате анализа, осуществленного по методу главных компонент, мы добьемся сжатия информации до необходимых размеров, описания зависимой переменной m (m

Для начала необходимо решить, сколько факторов необходимо выделить в данном исследовании. В рамках метода главных компонент первый главный фактор описывает наибольших процент дисперсии независимых переменных, далее – по убывающей. Таким образом, каждая следующая главная компонента, выделенная последовательно, объясняет все меньшую долю изменчивости факторов x i . Задача исследователя состоит в том, чтобы определить, когда изменчивость становится действительно малой и случайной. Другими словами – сколько главных компонент необходимо выбрать для дальнейшего анализа.

Существует несколько методов рационального выделения необходимого числа факторов. Наиболее используемый из них – критерий Кайзера. Согласно этому критерию, отбираются только те факторы, собственные значения которых больше 1. Таким образом, фактор, который не объясняет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, опускается.



Проанализируем Таблицу 19, построенную в SPSS:

Таблица 19. Полная объясненная дисперсия

Компонента Начальные собственные значения Суммы квадратов нагрузок вращения
Итого % Дисперсии Кумулятивный % Итого % Дисперсии Кумулятивный %
dimension0 5,442 90,700 90,700 3,315 55,246 55,246
,457 7,616 98,316 2,304 38,396 93,641
,082 1,372 99,688 ,360 6,005 99,646
,009 ,153 99,841 ,011 ,176 99,823
,007 ,115 99,956 ,006 ,107 99,930
,003 ,044 100,000 ,004 ,070 100,000
Метод выделения: Анализ главных компонент.

Как видно из Таблицы 19, в данном исследовании переменные x i высоко коррелирут между собой (это также выявлено ранее и видно из Таблицы 5 «Парные коэффициенты корреляции»), а следовательно, характеризуют зависимую переменную Y практически с одной стороны: изначально первая главная компонента объясняет 90,7 % дисперсии x i , и только собственное значение, соответствующее первой главной компоненте, больше 1. Конечно, это является недостатком отбора данных, однако в процессе самого отбора этот недостаток не был очевиден.

Анализ в пакете SPSS позволяет самостоятельно выбрать число главных компонент. Выберем число 6 – равное количеству независимых переменных. Второй столбец Таблицы 19 показывает суммы квадратов нагрузок вращения, именно по этим результатам и сделаем вывод о числе факторов. Собственные значения, соответствующие первым двум главным компонентам, больше 1 (55,246% и 38,396% соответственно), поэтому, согласно методу Кайзера, выделим 2 наиболее значимые главные компоненты.

Второй метод выделения необходимого числа факторов – критерий «каменистой осыпи». Согласно этому методу, собственные значения представляются в виде простого графика, и выбирается такое место на графике, где убывание собственных значений слева направо максимально замедляется:

Рисунок 3. Критерий "каменистой осыпи"

Как видно на Рисунке 3, убывание собственных значений замедляется уже со второй компоненты, однако постоянная скорость убывания (очень маленькая) начинается лишь с третьей компоненты. Следовательно, для дальнейшего анализа будут отобраны первые две главные компоненты. Это умозаключение согласуется с выводом, полученным при использовании метода Кайзера. Таким образом, окончательно выбираются первые две последовательно полученные главные компоненты.

После выделения главных компонент, которые будут использоваться в дальнейшем анализе, необходимо определить корреляцию исходных переменных x i c полученными факторами и, исходя из этого, дать названия компонентам. Для анализа воспользуемся матрицей факторных нагрузок А, элементы которой являются коэффициентами корреляции факторов с исходными независимыми переменными:

Таблица 20. Матрица факторных нагрузок

Матрица компонент a
Компонента
X1 ,956 -,273 ,084 ,037 -,049 ,015
X2 ,986 -,138 ,035 -,080 ,006 ,013
X3 ,963 -,260 ,034 ,031 ,060 -,010
X4 ,977 ,203 ,052 -,009 -,023 -,040
X5 ,966 ,016 -,258 ,008 -,008 ,002
X6 ,861 ,504 ,060 ,018 ,016 ,023
Метод выделения: Анализ методом главных компонент.
a. Извлеченных компонент: 6

В данном случае интерпретация коэффициентов корреляции затруднена, следовательно, довольно сложно дать названия первым двум главным компонентам. Поэтому далее воспользуемся методом ортогонального поворота системы координат Варимакс, целью которого является поворот факторов так, чтобы выбрать простейшую для интерпретации факторную структуру:

Таблица 21. Коэффициенты интерпретации

Матрица повернутых компонент a
Компонента
X1 ,911 ,384 ,137 -,021 ,055 ,015
X2 ,841 ,498 ,190 ,097 ,000 ,007
X3 ,900 ,390 ,183 -,016 -,058 -,002
X4 ,622 ,761 ,174 ,022 ,009 ,060
X5 ,678 ,564 ,472 ,007 ,001 ,005
X6 ,348 ,927 ,139 ,001 -,004 -,016
Метод выделения: Анализ методом главных компонент. Метод вращения: Варимакс с нормализацией Кайзера.
a. Вращение сошлось за 4 итераций.

Из Таблицы 21 видно, что первая главная компонента больше всего связана с переменными x1, x2, x3; а вторая – с переменными x4, x5, x6. Таким образом, можно сделать вывод, что объем инвестиций в основные средства в регионе (переменная Y) зависит от двух факторов:

- объема собственных и заемных средств, поступивших в предприятия региона за период (первая компонента, z1);

- а также от интенсивности вложений предприятий региона в финансовые активы и количества иностранного капитала в регионе (вторая компонента, z2).

Рисунок 4. Диаграмма рассеивания

Данная диаграмма демонстрирует неутешительные результаты. Еще в самом начале исследования мы старались подобрать данные так, чтобы результирующая переменная Y была распределена нормально, и нам практически это удалось. Законы распределения независимых переменных были достаточно далеки от нормального, однако мы старались максимально приблизить их к нормальному закону (соответствующим образом подобрать данные). Рисунок 4 показывает, что первоначальная гипотеза о близости закона распределения независимых переменных к нормальному закону не подтверждается: форма облака должна напоминать эллипс, в центре объекты должны быть расположены более густо, нежели чем по краям. Стоит заметить, что сделать многомерную выборку, в которой все переменные распределены по нормальному закону – задача, выполнимая с огромным трудом (более того, не всегда имеющая решение). Однако к этой цели нужно стремиться: тогда результаты анализа будут более значимыми и понятными при интерпретации. К сожалению, в нашем случае, когда проделана большая часть работы по анализу собранных данных, менять выборку достаточно затруднительно. Но далее, в последующих работах, стоит более серьезно подходить в выборке независимых переменных и максимально приближать закон их распределения к нормальному.

Последним этапом анализа методом главных компонент является построение уравнения регрессии на главные компоненты (в данном случае – на первую и вторую главные компоненты).

При помощи SPSS рассчитаем параметры регрессионной модели:

Таблица 22. Параметры уравнения регресии на главные компоненты

Модель Нестандартизованные коэффициенты Стандартизованные коэффициенты t Знч.
B Стд. Ошибка Бета
(Константа) 47414,184 1354,505 35,005 ,001
Z1 26940,937 1366,763 ,916 19,711 ,001
Z2 6267,159 1366,763 ,213 4,585 ,001

Уравнение регрессии примет вид:

y=47 414,184 + 0,916*z1+0,213*z2,

(b0) (b1) (b2)

т. о. b0 =47 414,184 показывает точку пересечения прямой регрессии с осью результирующего показателя;

b1= 0,916 – при увеличении значения фактора z1 на 1 ожидаемое среднее значение суммы объема инвестиций в основные средства увеличится на 0,916;

b2= 0,213 – при увеличении значения фактора z2 на 1 ожидаемое среднее значение суммы объема инвестиций в основные средства увеличится на 0,213.

В данном случае значение tкр («альфа»=0,001, «ню»=53) = 3,46 меньше tнабл для всех коэффициентов «бета». Следовательно, все коэффициенты значимы.

Таблица 24. Качество регрессионной модели на главные компоненты

Модель R R-квадрат Скорректированный R-квадрат Стд. ошибка оценки
dimension0 ,941 a ,885 ,881 10136,18468
a. Предикторы: (конст) Z1, Z2
b. Зависимая переменная: Y

В Таблице 24 отражены показатели, которые характеризуют качество построенной модели, а именно: R – множественный к-т корреляции – говорит о том, какая доля дисперсии Y объясняется вариацией Z; R^2 – к-т детерминации – показывает долю объяснённой дисперсии отклонений Y от её среднего значения. Стандартная ошибка оценки характеризует ошибку построенной модели. Сравним эти показатели с аналогичными показателями степенной регрессионной модели (ее качество оказалось выше качества линейной модели, поэтому сравниваем именно со степенной):

Таблица 25. Качество степенной регрессионной модели

Так, множественный к-т корреляции R и к-т детерминации R^2 в степенной модели несколько выше, чем в модели главных компонент. Кроме того, стандартная ошибка модели главных компонент НАМНОГО выше, чем в степенной модели. Поэтому качество степенной регрессионной модели выше, чем регрессионной модели, построенной на главных компонентах.

Проведем верификацию регрессионной модели главных компонент, т. е. проанализируем ее значимость. Проверим гипотезу о незначимости модели, рассчитаем F(набл.) = 204,784 (рассчитано в SPSS), F(крит) (0,001; 2; 53)=7,76. F(набл)>F(крит), следовательно, гипотеза о незначимости модели отвергается. Модель значима.

Итак, в результате проведения компонентного анализа, было выяснено, что из отобранных независимых переменных x i можно выделить 2 главные компоненты – z1 и z2, причем на z1 в большей степени влияют переменные x1, x2, x3, а на z2 – x4, x5, x6. Уравнение регрессии, построенное на главных компонентах, оказалось значимым, хотя и уступает по качеству степенному уравнению регрессии. Согласно уравнению регрессии на главные компоненты, Y положительно зависит как от Z1, так и от Z2. Однако изначальная мультиколлинеарность переменных xi и то, что они не распределены по нормальному закону распределения, может искажать результаты построенной модели и делать ее менее значимой.

Кластерный анализ

Следующим этапом данного исследования является кластерный анализ. Задачей кластерного анализа является разбиение выбранных регионов (n=56) на сравнительно небольшое число групп (кластеров) на основе их естественной близости относительно значений переменных x i . При проведении кластерного анализа мы предполагаем, что геометрическая близость двух или нескольких точек в пространстве означает физическую близость соответствующих объектов, их однородность (в нашем случае - однородность регионов по показателям, влияющим на инвестиции в основные средства).

На первой стадии кластерного анализа необходимо определиться с оптимальным числом выделяемых кластеров. Для этого необходимо провести иерархическую кластеризацию – последовательное объединение объектов в кластеры до тех пор, пока не останется два больших кластера, объединяющиеся в один на максимальном расстоянии друг от друга. Результат иерархического анализа (вывод об оптимальном количестве кластеров) зависит от способа расчета расстояния между кластерами. Таким образом, протестируем различные методы и сделаем соответствующие выводы.

Метод «ближнего соседа»

Если расстояние между отдельными объектами мы рассчитываем единым способом – как простое евклидово расстояние – расстояние между кластерами вычисляется разными методами. Согласно методу «ближайшего соседа», расстояние между кластерами соответствует минимальному расстоянию между двумя объектами разных кластеров.

Анализ в пакете SPSS проходит следующим образом. Сначала рассчитывается матрица расстояний между всеми объектами, а затем, на основе матрицы расстояний, объекты последовательно объединяются в кластеры (для каждого шага матрица составляется заново). Шаги последовательного объединения представлены в таблице:

Таблица 26. Шаги агломерации. Метод «ближайшего соседа»

Этап Кластер объединен с Коэффициенты Следующий этап
Кластер 1 Кластер 2 Кластер 1 Кластер 2
,003
,004
,004
,005
,005
,005
,005
,006
,007
,007
,009
,010
,010
,010
,010
,011
,012
,012
,012
,012
,012
,013
,014
,014
,014
,014
,015
,015
,016
,017
,018
,018
,019
,019
,020
,021
,021
,022
,024
,025
,027
,030
,033
,034
,042
,052
,074
,101
,103
,126
,163
,198
,208
,583
1,072

Как видно из Таблицы 26, на первом этапе объединились элементы 7 и 8, т. к. расстояние между ними было минимальным – 0,003. Далее расстояние между объединенными объектами увеличивается. По таблице также можно сделать вывод об оптимальном числе кластеров. Для этого нужно посмотреть, после какого шага происходит резкий скачок в величине расстояния, и вычесть номер этой агломерации из числа исследуемых объектов. В нашем случае: (56-53)=3 – оптимальное число кластеров.

Рисунок 5. Дендрограмма. Метод "ближайшего соседа"

Аналогичный вывод об оптимальном количестве кластеров можно сделать и глядя на дендрограмму (Рис. 5): следует выделить 3 кластера, причем в первый кластер войдут объекты под номерами 1-54 (всего 54 объекта), а во второй и третий кластеры – по одному объекту (под номерами 55 и 56 соответственно). Данный результат говорит о том, что первые 54 региона относительно однородны по показателям, влияющим на инвестиции в основные средства, в то время как объекты под номерами 55 (Республика Дагестан) и 56 (Новосибирская область) значительно выделяются на общем фоне. Стоит заметить, что данные субъекты имеют самые большие объемы инвестиций в основные средства среди всех отобранных регионов. Этот факт еще раз доказывает высокую зависимость результирующей переменной (объема инвестиций) от выбранных независимых переменных.

Аналогичные рассуждения проводятся для других методов расчета расстояния между кластерами.

Метод «дальнего соседа»

Таблица 27. Шаги агломерации. Метод "дальнего соседа"

Этап Кластер объединен с Коэффициенты Этап первого появления кластера Следующий этап
Кластер 1 Кластер 2 Кластер 1 Кластер 2
,003
,004
,004
,005
,005
,005
,005
,007
,009
,010
,010
,011
,011
,012
,012
,014
,014
,014
,017
,017
,018
,018
,019
,021
,022
,026
,026
,027
,034
,035
,035
,037
,037
,042
,044
,046
,063
,077
,082
,101
,105
,117
,126
,134
,142
,187
,265
,269
,275
,439
,504
,794
,902
1,673
2,449

При методе «дальнего соседа» расстояние между кластерами рассчитывается как максимальное расстояние между двумя объектами в двух разных кластерах. Согласно Таблице 27, оптимальное число кластеров равно (56-53)=3.

Рисунок 6. Дендрограмма. Метод "дальнего соседа"

Согласно дендрограмме, оптимальным решением также будет выделение 3 кластеров: в первый кластер войдут регионы под номерами 1-50 (50 регионов), во второй – под номерами 51-55 (5 регионов), в третий – последний регион под номером 56.

Метод «центра тяжести»

При методе «центра тяжести» за расстояние между кластерами принимается евклидово расстояние между «центрами тяжести» кластеров – средними арифметическими их показателей x i .

Рисунок 7. Дендрограмма. Метод "центра тяжести"

На Рисунке 7 видно, что оптимальное число кластеров следующее: 1 кластер – 1-47 объекты; 2 кластер – 48-54 объекты (всего 6); 3 кластер – 55 объект; 4 кластер – 56 объект.

Принцип «средней связи»

В данном случае расстояние между кластерами равно среднему значению расстояний между всеми возможными парами наблюдений, причем одно наблюдение берется из одного кластера, а второе – соответственно, из другого.

Анализ таблицы шагов агломерации показал, что оптимальное количество кластеров равно (56-52)=4. Сравним этот вывод с выводом, полученным при анализе дендрограммы. На Рисунке 8 видно, что в 1 кластер войдут объекты под номерами 1-50, во 2 кластер – объекты 51-54 (4 объекта), в 3 кластер – 55 регион, в 4 кластер – 56 регион.

Рисунок 8. Дендрограмма. Метод "средней связи"