Многомерный статистический анализ. Введение в многомерный статистический анализ - калинина

По эконометрике

Многомерный статистический анализ


В многомерном статистическом анализе выборка состоит из элементов многомерного пространства. Отсюда и название этого раздела эконометрических методов. Из многих задач многомерного статистического анализа рассмотрим две - восстановления зависимости и классификации.

Оценивание линейной прогностической функции

Начнем с задачи точечного и доверительного оценивания линейной прогностической функции одной переменной.

Исходные данные – набор n пар чисел (t k , x k), k = 1,2,…,n, где t k – независимая переменная (например, время), а x k – зависимая (например, индекс инфляции, курс доллара США, объем месячного производства или размер дневной выручки торговой точки). Предполагается, что переменные связаны зависимостью

x k = a (t k - t ср)+ b + e k , k = 1,2,…,n,

где a и b – параметры, неизвестные статистику и подлежащие оцениванию, а e k – погрешности, искажающие зависимость. Среднее арифметическое моментов времени

t ср = (t 1 + t 2 +…+t n) / n

введено в модель для облегчения дальнейших выкладок.

Обычно оценивают параметры a и b линейной зависимости методом наименьших квадратов. Затем восстановленную зависимость используют для точечного и интервального прогнозирования.

Как известно, метод наименьших квадратов был разработан великим немецким математиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшей функции, приближающей линейным образом зависимость x от t, следует рассмотреть функцию двух переменных


Оценки метода наименьших квадратов - это такие значения a* и b*, при которых функция f(a,b) достигает минимума по всем значениям аргументов.

Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b) по аргументам a и b, приравнять их 0, затем из полученных уравнений найти оценки: Имеем:

Преобразуем правые части полученных соотношений. Вынесем за знак суммы общие множители 2 и (-1). Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим, что каждое слагаемое разбивается на три. Во втором выражении также каждое слагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы. Имеем:


Приравняем частные производные 0. Тогда в полученных уравнениях можно сократить множитель (-2). Поскольку

(1)

уравнения приобретают вид

Следовательно, оценки метода наименьших квадратов имеют вид

(2)

В силу соотношения (1) оценку а* можно записать в более симметричном виде:

Эту оценку нетрудно преобразовать и к виду

Следовательно, восстановленная функция, с помощью которой можно прогнозировать и интерполировать, имеет вид

x*(t) = a*(t - t ср)+ b*.

Обратим внимание на то, что использование t ср в последней формуле ничуть не ограничивает ее общность. Сравним с моделью вида

x k = c t k + d + e k , k = 1,2,…,n.

Ясно, что

Аналогичным образом связаны оценки параметров:

Для получения оценок параметров и прогностической формулы нет необходимости обращаться к какой-либо вероятностной модели. Однако для того, чтобы изучать погрешности оценок параметров и восстановленной функции, т.е. строить доверительные интервалы для a*, b* и x*(t), подобная модель необходима.

Непараметрическая вероятностная модель. Пусть значения независимой переменной t детерминированы, а погрешности e k , k = 1,2,…,n, - независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и дисперсией

неизвестной статистику.

В дальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ) теории вероятностей для величин e k , k = 1,2,…,n (с весами), поэтому для выполнения ее условий необходимо предположить, например, что погрешности e k , k = 1,2,…,n, финитны или имеют конечный третий абсолютный момент. Однако заострять внимание на этих внутриматематических "условиях регулярности" нет необходимости.

Асимптотические распределения оценок параметров. Из формулы (2) следует, что

(5)

Согласно ЦПТ оценка b* имеет асимптотически нормальное распределение с математическим ожиданием b и дисперсией

оценка которой приводится ниже.

Из формул (2) и (5) вытекает, что

Последнее слагаемое во втором соотношении при суммировании по i обращается в 0, поэтому из формул (2-4) следует, что

(6)

Формула (6) показывает, что оценка

является асимптотически нормальной с математическим ожиданием и дисперсией

Отметим, что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6) мало сравнительно со всей суммой, т.е.


Из формул (5) и (6) и исходных предположений о погрешностях вытекает также несмещенность оценок параметров.

Несмещенность и асимптотическая нормальность оценок метода наименьших квадратов позволяют легко указывать для них асимптотические доверительные границы (аналогично границам в предыдущей главе) и проверять статистические гипотезы, например, о равенстве определенным значениям, прежде всего 0. Предоставляем читателю возможность выписать формулы для расчета доверительных границ и сформулировать правила проверки упомянутых гипотез.

Асимптотическое распределение прогностической функции. Из формул (5) и (6) следует, что

т.е. рассматриваемая оценка прогностической функции является несмещенной. Поэтому

При этом, поскольку погрешности независимы в совокупности и

, то

Таким образом,

Из предисловия автора
Глава 1. Введение
1.1. Многомерное нормальное распределение как модель
1.2. Общий обзор многомерных методов
Литература
Глава 2. Многомерное нормальное распределение
2.1. Введение
2.2. Понятия, связанные с многомерными распределениями
2.3. Многомерное нормальное распределение
2.4. Распределение линейной комбинации нормально распределенных величин; независимость величин; частные распределения
2.5. Условные распределения и множественный коэффициент корреляции
2.6. Характеристическая функция; моменты
Литература
Задачи
Глава 3. Оценка вектора среднего значения и ковариационной матрицы
3.1. Введение
3.2. Оценки наибольшего правдоподобия для вектора среднего значения и ковариационной матрицы
3.3. Распределение вектора выборочного среднего; заключение о среднем значении, когда ковариационная матрица известна
Литература
Задачи
Глава 4. Распределения и использование выборочных коэффициентов корреляции
4.1. Введение
4.2. Коэффициент корреляции двумерной выборки
4.3. Частные коэффициенты корреляции
4.4. Множественный коэффициент корреляции
Литература
Задачи
Глава 5. Обобщенная T2-статистика
5.1. Введение
5.2. Обобщенная T2-статистика и ее распределение
5.3. Применения T2-статистики
5.4. Распределение T2-статистики при наличии конкурирующих гипотез; функция мощности
5.5. Некоторые оптимальные свойства критерия Т2
5.6. Многомерная проблема Беренса - Фишера
Литература
Задачи
Глава 6. Классификация наблюдений
6.1. Проблема классификации
6.2. Принципы правильной классификации
6.3. Методы классификации наблюдений в случае двух генеральных совокупностей с известным распределением вероятностей
6.4. Классификация наблюдений в случае двух генеральных совокупностей, имеющих известные многомерные нормальные распределения
6.5. Классификация наблюдений в случае двух многомерных нормальных генеральных совокупностей, параметры которых оцениваются по выборке
6.6. Классификация наблюдений в случае нескольких генеральных совокупностей
6.7. Классификация наблюдений в случае нескольких многомерных нормальных совокупностей
6.8. Пример классификации в случае нескольких многомерных нормальных генеральных совокупностей
Литература
Задачи
Глава 7. Распределение выборочной ковариационной матрицы и выборочной обобщенной дисперсии
7.1. Введение
7.2. Распределение Уишарта
7.3. Некоторые свойства распределения Уишарта
7.4. Теорема Кохрена
7.5. Обобщенная дисперсия
7.6. Распределение множества коэффициентов корреляции в случае диагональной ковариационной матрицы совокупности
Литература
Задачи
Глава 8. Проверка общих линейных гипотез. Дисперсионный анализ
8.1. Введение
8.2. Оценки параметров многомерной линейной регрессии
8.3. Критерии отношения правдоподобия для проверки линейных гипотез о коэффициентах регрессии
8.4. Моменты отношения правдоподобия в случае, когда справедлива нулевая гипотеза
8.5. Некоторые распределения величин U
8.6. Асимптотическое разложение распределения отношения правдоподобия
8.7. Проверка гипотез о матрицах коэффициентов регрессии и доверительные области
8.8. Проверка гипотезы о равенстве средних значений нормальных распределений с общей ковариационной матрицей
8.9. Обобщенный дисперсионный анализ
8.10. Другие критерии для проверки линейной гипотезы
8.11. Каноническая форма
Литература
Задачи
Глава 9. Проверка гипотезы о независимости множеств случайных величин
9.1. Введение
9.2. Отношение правдоподобия как критерий для проверки гипотезы о независимости множеств случайных величин
9.3. Моменты отношения правдоподобия при условии, что справедлива нулевая гипотеза
9.4. Некоторые распределения отношения правдоподобия
9.5. Асимптотическое разложение распределения величины h (отношения правдоподобия)
9.6. Пример
9.7. Случай двух множеств случайных величин
Литература
Задачи
Глава 10. Проверка гипотез о равенстве ковариационных матриц и о равенстве одновременно векторов среднего значения и ковариационных матриц
10.1 Введение
10.2 Критерии проверки гипотез о равенстве нескольких ковариационных матриц
10.3. Критерии проверки гипотезы об эквивалентности нескольких нормальных совокупностей
10.4. Моменты отношения правдоподобия
10.5. Асимптотические разложения функций распределения величин V1 и V
10.6. Случай двух генеральных совокупностей
10.7. Проверка гипотезы о том, что ковариационная матрица пропорциональна заданной матрице. Критерий сферичности
10.8. Проверка гипотезы о том, что ковариационная матрица равна данной матрице
10.9. Проверка гипотезы о том, что вектор среднего значения и ковариационная матрица соответственно равны данному вектору и данной матрице
Литература
Задачи
Глава 11. Главные компоненты
11.1. Введение
11.2. Определение главных компонент совокупности
11.3. Оценки наибольшего правдоподобия для главных компонент и их дисперсий
11.4. Вычисление оценок наибольшего правдоподобия для главных компонент
11.5. Пример
Литература
Задачи
Глава 12. Канонические корреляции и канонические величины
12.1. Введение
12.2. Канонические корреляции и канонические величины генеральной совокупности
12.3. Оценка канонических корреляций и канонических величин
12.4. Способ вычислений
12.5. Пример
Литература
Задачи
Глава 13. Распределение некоторых характеристических корней и векторов, не зависящих от параметров
13.1. Введение
13.2. Случай двух матриц Уишарта
13.3. Случай одной невырожденной матрицы Уишарта
13.4. Канонические корреляции
Литература
Задачи
Глава 14. Обзор некоторых других работ по многомерному анализу
14.1. Введение
14.2 Проверка гипотез о ранге и оценка линейных ограничений на коэффициенты регрессии. Канонические корреляции и канонические величины
14.3. Нецентральное распределение Уишарта
14.4. Распределение некоторых характеристических корней и векторов, зависящих от параметров
14.5. Асимптотическое распределение некоторых характеристических корней и векторов
14.6. Главные компоненты
14.7. Факторный анализ
14.8. Стохастические уравнения
14.9. Анализ временных рядов
Литература
Приложение. Теория матриц
1. Определение матриц. Действия над матрицами
2. Характеристические корни и векторы
3. Разбиение векторов и матриц на блоки
4. Некоторые результаты
5. Метод сокращения Дулиттла и метод сгущения по оси для решения систем линейных уравнений
Литература
Предметный указатель

МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ

Раздел математич. статистики, посвященный математич. методам построения оптимальных планов сбора, систематизации и обработки многомерных статистич. данных, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака и предназначенным для получения научных и практич. выводов. Под многомерным признаком понимается р-мерный показателей (признаков, переменных) среди к-рых могут быть: количественные, т. е. скалярно измеряющие в определенной шкале проявления изучаемого свойства объекта, п о-рядковые (или ординальные), т. е. позволяющие упорядочивать анализируемые объекты по степени проявления в них изучаемого свойства; и классификационные (или номинальные), т. е. позволяющие разбивать исследуемую совокупность объектов на не поддающиеся упорядочиванию однородные (по анализируемому свойству) классы. Результаты измерения этих показателей

на каждом из побъектов исследуемой совокупности образуют многомерных наблюдений, или исходный массив многомерных данных для проведения М. с. а. Значительная часть М. с. а. обслуживает ситуации, в к-рых исследуемый многомерный признак интерпретируется как многомерная и соответственно последовательность многомерных наблюдений (1) - как из генеральной совокупности. В этом случае выбор методов обработки исходных статистич. данных и анализ их свойств производится на основе тех или иных допущений относительно природы многомерного (совместного) закона распределения вероятностей

Многомерный статистический анализ многомерных распределений и их основных характеристик охватывает лишь ситуации, в к-рых обрабатываемые наблюдения (1) имеют вероятностную природу, т. е. интерпретируются как выборка из соответствующей генеральной совокупности. К основным задачам этого подраздела относятся: статистич. оценивание исследуемых многомерных распределений, их основных числовых характеристик и параметров; исследование свойств используемых статистич. оценок; исследование распределений вероятностей для ряда статистик, с помощью к-рых строятся статистич. критерии проверки различных гипотез о вероятностной природе анализируемых многомерных данных. Основные результаты относятся к частному случаю, когда исследуемый признак подчинен многомерному нормальному закону распределения функция плотности к-рого задается соотношением

где - вектор математич. ожиданий компонент случайной величины , т. е.- ковариационная матрица случайного вектора , т. е.- ковариации компонент вектора (рассматривается невырожденный случай, когда ; в противном случае, т. е. при ранге , все результаты остаются справедливыми, но применительно к подпространству меньшей размерности , в к-рой оказывается сосредоточенным исследуемого случайного вектора ).

Так, если (1) - последовательность независимых наблюдений, образующих случайную выборку из то оценками максимального правдоподобия для параметров и , участвующих в (2), являются соответственно статистики (см. , )

причем случайный вектор подчиняется р-мерному нормальному закону и не зависит от , а совместное распределение элементов матрицы описывается т. н. распределением Уиша р-т а (см. ), к-рого

В рамках этой же схемы исследованы распределения и моменты таких выборочных характеристик многомерной случайной величины, как коэффициенты парной, частной и множественной корреляции, обобщенная (т. е. ), обобщенная -статистике Хотеллинга (см. ). В частности (см. ), если определить в качестве выборочной ковариационной матрицы подправленную "на несмещенность" оценку , а именно:

то случайной величины стремится к при , а случайные величины

подчиняются F-распределениям с числами степеней свободы соответственно (р, п-р) и (р, п 1 +п 2 -р-1). В соотношении (7) п 1 и n 2 - объемы двух независимых выборок вида (1), извлеченных из одной и той же генеральной совокупности - оценки вида (3) и (4)-(5), построенные по i-й выборке, а

Общая выборочная ковариационная , построенная по оценкам и

Многомерный статистический анализ характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет в себе понятия и результаты, обслуживающие такие методы и модели М. с. а., как множественная , многомерный дисперсионный анализ и ковариационный анализ, факторный анализ и метод главных компонент, анализ канонич. корреляций. Результаты, составляющие содержание этого подраздела, могут быть условно разделены на два основных типа.

1) Построение наилучших (в определенном смысле) статистич. оценок для параметров упомянутых моделей и анализ их свойств (точности, а в вероятностной постановке - законов их распределения, доверительных: областей и т. д.). Так, пусть исследуемый многомерный признак интерпретируется как векторная случайная , подчиненная р-мерному нормальному распределению , и расчленен на два подвектора--столбца и размерности qи р-qсоответственно. Это определяет и соответствующее расчленение вектора математич. ожиданий , теоретической и выборочной ковариационных матриц , а именно:

Тогда (см. , ) подвектора (при условии, что второй подвектор принял фиксированное значение ) будет также нормальным ). При этом оценками максимального правдоподобия. для матриц регрессионных коэффициентов и ковариацин этой классической многомерной модели множественной регрессии

будут взаимно независимые статистики соответственно

здесь распределение оценки подчинено нормальному закону , а оценки п - закону Уишарта с параметрами и (элементы ковариационной матрицы выражаются в терминах элементов матрицы ).

Основные результаты по построению оценок параметров и исследованию их свойств в моделях факторного" анализа, главных компонент и канонич. корреляций относятся к анализу вероятностно-статистич. свойств собственных (характеристических) значений и векторов различных выборочных ковариационных матриц.

В схемах, не укладывающихся в рамки классич. нормальной модели и тем более в рамки какой-либо вероятностной модели, основные результаты относятся к построению алгоритмов (и исследованию их свойств) вычисления оценок параметров, наилучших с точки зрения нек-poro экзогенно заданного функционала качества (пли адекватности) модели.

2) Построение статистич. критериев для проверки различных гипотез о структуре исследуемых взаимосвязей. В рамках многомерной нормальной модели (последовательности наблюдений вида (1) интерпретируются как случайные выборки из соответствующих многомерных нормальных генеральных совокупностей) построены, напр., статистич. критерии для проверки следующих гипотез.

I. Гипотезы о равенстве вектора математич. ожиданий исследуемых показателей заданному конкретному вектору ; проверяется с помощью -статистики Хотеллинга с подстановкой в формулу (6)

II. Гипотезы о равенстве векторов математич. ожиданий в двух генеральных совокупностях (с одинаковыми, но неизвестными ковариационными матрицами), представленных двумя выборками; проверяется с помощью статистики (см. ).

III. Гипотезы о равенстве векторов математич. ожиданий в нескольких генеральных совокупностях (с одинаковыми, но неизвестными ковариационными матрицами), представленных своими выборками; проверяется с помощью статистики

в к-рой есть i-е р-мерное наблюдение в выборке объема , представляющей j-ю генеральную совокупность, а и - оценки вида (3), построенные соответственно отдельно по каждой из выборок и по объединенной выборке объема

IV. Гипотезы об эквивалентности нескольких нормальных генеральных совокупностей, представленных своими выборками проверяется с помощью статистики

в к-рой - оценка вида (4), построенная отдельно по наблюдениям j- йвыборки, j=1, 2, ... , k.

V. Гипотезы о взаимной независимости подвекторов-столбцов размерностей соответственно на к-рые расчленен исходный р-мерный вектор исследуемых показателей проверяется с помощью статистики

в к-рой и - выборочные ковариационные матрицы вида (4) для всего вектора и для его подвектора x (i) соответственно.

Многомерный статистический анализ геометрической структуры исследуемой совокупности многомерных наблюдений объединяет в себе понятия и результаты таких моделей и схем, как дискриминантный анализ, смеси вероятностных распределений, кластер-анализ и таксономия, многомерное шкалирование. Узловым во всех этих схемах является понятие расстояния (меры близости, меры сходства) между анализируемыми элементами. При этом анализируемыми могут быть как реальные объекты, на каждом из к-рых фиксируются значения показателей ,- тогда геометрич. образом i-го обследованного объекта будет точка в соответствующем р-мерном пространстве, так и сами показатели - тогда геометрич. образом l-го показателя будет точка в соответствующем n-мерном пространстве.

Методы и результаты дискриминантного анализа (см. , , ) направлены на следующей задачи. Известно о существовании определенного числа генеральных совокупностей и у исследователя имеется по одной выборке из каждой совокупности ("обучающие выборки"). Требуется построить основанное на имеющихся обучающих выборках наилучшее в определенном смысле классифицирующее правило, позволяющее приписать нек-рый новый элемент (наблюдение ) к своей генеральной совокупности в ситуации, когда исследователю заранее не известно, к какой из совокупностей этот элемент принадлежит. Обычно под классифицирующим правилом понимается последовательность действий: по вычислению скалярной функции от исследуемых показателей, по значениям к-рой принимается решение об отнесении элемента к одному из классов (построение дискриминантной функции); по упорядочению самих показателей по степени их информативности с точки зрения правильного отнесения элементов к классам; по вычислению соответствующих вероятностей ошибочной классификации.

Задача анализа смесей распределений вероятностей (см. ) чаще всего (но не всегда) возникает также в связи с исследованием "геометрической структуры" рассматриваемой совокупности. При этом понятие r-го однородного класса формализуется с помощью генеральной совокупности, описываемой нек-рым (как правило, унимодальным) законом распределения так что распределение общей генеральной совокупности, из к-рой извлечена выборка (1), описывается смесью распределений вида где p r - априорная вероятность (удельный элементов) r-го класса в общей генеральной совокупности. Задача состоит в "хорошем" статистич. оценивании (по выборке ) неизвестных параметров а иногда и к. Это, в частности, позволяет свести задачу классификации элементов к схеме дискриминантного анализа, хотя в данном случае отсутствовали обучающие выборки.

Методы и результаты кластер-анализа (классификации, таксономии, распознавании образов "без учителя", см. , , ) направлены на решение следующей задачи. Геометрич. анализируемой совокупности элементов задана либо координатами соответствующих точек (т. е. матрицей ... , п), либо набором геометрич. характеристик их взаимного расположения, напр, матрицей попарных расстояний . Требуется разбить исследуемую совокупность элементов на сравнительно небольшое (заранее известное или нет) классов так, чтобы элементы одного класса находились на небольшом расстоянии друг от друга, в то время как разные классы были бы по возможности достаточно взаимоудалены один от другого и не разбивались бы на столь же удаленные друг от друга части.

Задача многомерного шкалирования (см. ) относится к ситуации, когда исследуемая совокупность элементов задана с помощью матрицы попарных расстояний и заключается в приписывании каждому из элементов заданного числа (р)координат таким образом, чтобы структура попарных взаимных расстояний между элементами, измеренных с помощью этих вспомогательных координат, в среднем наименее отличались бы от заданной. Следует заметить, что основные результаты и методы кластер-анализа и многомерного шкалирования развиваются обычно без каких-либо допущении о вероятностной природе исходных данных.

Прикладное назначение многомерного статистического анализа состоит в основном в обслуживании следующих трех проблем.

Проблема статистического исследования зависимостей между анализируемыми показателями. Предполагая, что исследуемый набор статистически регистрируемых показателей xразбит, исходя из содержательного смысла этих показателей и окончательных целей исследования, на q-мернын подвектор предсказываемых (зависимых) переменных и (р-q)-мерный подвектор предсказывающих (независимых) переменных, можно сказать, что проблема состоит в определении на основании выборки (1) такой q-мерной векторной функции из класса допустимых решений F, к-рая давала бы наилучшую, в определенном смысле, аппроксимацию поведения подвектора показателей . В зависимости от конкретного вида функционала качества аппроксимации и природы,анализируемых показателей приходят к тем или иным схемам множественной регрессии, дисперсионного, ковариационного или конфлюентного анализа.

Проблема классификации элементов (объектов или показателей) в общей (нестрогой) постановке заключается в том, чтобы всю анализируемую совокупность элементов, статистически представленную в виде матрицы или матрицы разбить на сравнительно небольшое число однородных, в определенном смысле, групп . В зависимости от природы априорной информации и конкретного вида функционала, задающего критерий качества классификации, приходят к тем или иным схемам дискриминантного анализа, кластер-анализа (таксономии, распознавания образов "без учителя"), расщепления смесей распределений.

Проблема снижения размерности исследуемого факторного пространства и отбора наиболее информативных показателей заключается в определении такого набора сравнительно небольшого числа показателен найденного в классе допустимых преобразований исходных показателей на к-ром достигается верхняя нек-рой экзогенно заданной меры информативности m-мерной системы признаков (см. ). Конкретизация функционала, задающего меру автоинформативности (т. е. нацеленное на максимальное сохранение информации, содержащейся в статистич. массиве (1) относительно самих исходных признаков), приводит, в частности, к различным схемам факторного анализа и главных компонент, к методам экстремальной группировки признаков. Функционалы, задающие меру внешней информативности, т. е. нацеленные на извлечение из (1) максимальной информации относительно нек-рых других, не содержащихся непосредственно в ж, показателен или явлений, приводят к различным методам отбора наиболее информативных показателей в схемах статистич. исследования зависимостей и дискриминантного анализа.

Основной математический инструментарий М. с. а. составляют специальные методы теории систем линейных уравнений и теории матриц (методы решения простой и обобщенной задачи о собственных значениях и векторах; простое обращение и псевдообращение матриц; процедуры диагонализации матриц и т. д.) и нек-рые оптимизационные алгоритмы (методы покоординатного спуска, сопряженных градиентов, ветвей и границ, различные версии случайного поиска и стохастич. аппроксимации и т. д.).

Лит. : Андерсон Т., Введение в многомерный статистический анализ, пер. с англ., М., 1963; Кендалл М. Дж.., Стьюарт А., Многомерный статистический анализ и временные ряды, пер. с англ., М., 1976; Большев Л. Н., "Bull. Int. Stat. Inst.", 1969, № 43, p. 425-41; Wishаrt .J., "Biometrika", 1928, v. 20A, p. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2, p. 360-78; [в] Кruskal J. В., "Psychometrika", 1964, v. 29, p. 1-27; Айвазян С. А., Бежаева 3. И., . Староверов О. В., Классификация многомерных наблюдений, М., 1974.

С. А. Айвазян.


Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .

Справочник технического переводчика

Раздел статистики математической (см.), посвященный математич. методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого многомерного признака (см.) и предназначенным для получения научн. и практич.… …

В широком смысле раздел математической статистики (См. Математическая статистика), объединяющий методы изучения статистических данных, относящихся к объектам, которые характеризуются несколькими качественными или количественными… … Большая советская энциклопедия

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ - раздел математической статистики, предназначенный для анализа связей между тремя и более переменными. Можно условно выделить три основных класса задач А.М.С. Это исследование структуры связей между переменными и снижение размерности пространства … Социология: Энциклопедия

АНАЛИЗ КОВАРИАЦИОННЫЙ - – сово­купность методов математич. статистики, отно­сящихся к анализу моделей зависимости среднего значения нек рой случайной величины Y от набора неколичественных факторов F и одновременно от набора количественных факторов X. По отношению к Y… … Российская социологическая энциклопедия

Раздел математич. статистики, содержанием к рого является разработка и исследование статистич. методов решения следующей задачи различения (дискриминации): основываясь на результатах наблюдений, определить, какой из нескольких возможных… … Математическая энциклопедия, Орлова Ирина Владленовна, Концевая Наталья Валерьевна, Турундаевский Виктор Борисович. Книга посвящена многомерному статистическому анализу (МСА) и организации вычислений по МСА. Для реализации методов многомерной статистики используется программаобработки статистической…


Встречаются такие ситуации, в которых случайная изменчивость была представлена одной-двумя случайными пе­ременными, признаками.

Например, при исследовании статистической совокупности людей нас интересуют рост и вес. В этой ситуации, сколько бы людей в статистиче­ской совокупности ни было, мы всегда можем построить диаграмму рассея­ния и увидеть всю картину в целом. Однако если признаков три, например, добавляется признак - возраст человека, тогда диаграмма рассеяния долж­на быть построена в трехмерном пространстве. Представить совокупность точек в трехмерном пространстве уже довольно затруднительно.

В реально­сти на практике каждое наблюдение представляется не одним-двумя-тремя числами, а некоторым заметным набором чисел, которые описывают де­сятки признаков. В этой ситуации для построения диаграммы рассеяния потребовалось бы рассматривать многомерные пространства.

Раздел статистики, посвященный исследованиям экспе­риментов с многомерными наблюдениями, называется многомерным стати­стическим анализом.

Измерение сразу нескольких признаков (свойств объекта) в одном экс­перименте в общем более естественно, чем измерение какого-либо одного, двух. Поэтому потенциально многомерный статистический анализ имеет широкое поле для применения.

К многомерному статистическому анализу относят следую­щие разделы:

Факторный анализ;

Дискриминантный анализ;

Кластерный анализ;

Многомерное шкалирование;

Методы контроля качества.

Факторный анализ

При исследовании сложных объектов и систем (например, в психологии, биологии, социологии и т. д.) величины (факторы), определяющие свойства этих объектов, очень часто невозможно измерить непосредственно, а ино­гда неизвестно даже их число и содержательный смысл. Но для измерения могут быть доступны иные величины, так или иначе зависящие от инте­ресующих факторов. При этом когда влияние неизвестного интересующего нас фактора проявляется в нескольких измеряемых признаках, эти призна­ки могут обнаруживать тесную связь между собой и общее число факторов может быть гораздо меньше, чем число измеряемых переменных.

Для обнаружения факторов, влияющих на измеряемые переменные, ис­пользуются методы факторного анализа.

Примером применения факторного анализа может служить изучение свойств личности на основе психологических тестов. Свойства личности не поддаются прямому измерению, о них можно судить только по поведе­нию человека или характеру ответов на те или иные вопросы. Для объяс­нения результатов опытов их подвергают факторному анализу, который и позволяет выявить те личностные свойства, которые оказывают влияние на поведение испытуемых индивидуумов.


В основе различных моделей факторного анализа лежит следующая ги­потеза: наблюдаемые или измеряемые параметры являются лишь косвенны­ми характеристиками изучаемого объекта или явления, в действительности существуют внутренние (скрытые, латентные, не наблюдаемые непосред­ственно) параметры и свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято на­зывать факторами.

Задачей факторного анализа является представление наблюдаемых параметров в виде линейных комбинаций факторов и, быть может, некоторых дополнительных, несущественных возмущений.

Первый этап факторного анализа, как правило, – это выбор новых признаков, которые являются линейными комбинациями прежних и «вби­рают» в себя большую часть общей изменчивости наблюдаемых данных, а потому передают большую часть информации, заключенной в первоначаль­ных наблюдениях. Обычно это осуществляется с помощью метода главных компонент, хотя иногда используют и другие приемы (метод максимального правдоподобия).

Метод главных компонент сводится к выбору новой ортогональной си­стемы координат в пространстве наблюдений. В качестве первой главной компоненты избирают направление, вдоль которого массив наблюдений имеет наибольший разброс, выбор каждой последующей главной компонен­ты происходит так, чтобы разброс наблюдений был максимальным и чтобы эта главная компонента была ортогональна другим главным компонентам, выбранным ранее. Однако факторы, полученные методом главных компо­нент, обычно не поддаются достаточно наглядной интерпретации. Поэтому следующий шаг факторного анализа - преобразование, вращение факторов для облегчения интерпретации.

Дискриминантный анализ

Пусть имеется совокупность объектов, разбитая на несколько групп, и для каждого объекта можно определить, к какой группе он относится. Для каждого объекта имеются измерения нескольких количественных характе­ристик. Необходимо найти способ, как на основании этих характеристик можно узнать группу, к которой относится объект. Это позволит указывать группы, к которым относятся новые объекты той же совокупности. Для решения поставленной задачи применяются методы дискриминантного анализа.

Дискриминантный анализ - это раздел статистики, содержанием которого является разработка методов решения задач различения (дискриминации) объектов наблюдения по определенным признакам.

Рассмотрим некоторые примеры.

Дискриминантный анализ оказывается удобным при обработке ре­зультатов тестирования отдельных лиц, когда дело касается приема на ту или иную должность. В этом случае необходимо всех кандида­тов разделить на две группы: «подходит» и «не подходит».

Использование дискриминантного анализа возможно банковской ад­министрацией для оценки финансового состояния дел клиентов при выдаче им кредита. Банк по ряду признаков классифицирует их на надежных и ненадежных.

Дискриминантный анализ может быть привлечен в качестве метода разбиения совокупности предприятий на несколько однородных групп по значениям каких-либо показателей производственно-хозяйствен­ной деятельности.

Методы дискриминантного анализа позволяют строить функции изме­ряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминантных призна­ков) было немного. В этом случае результаты анализа легче содержательно толковать.

Благодаря своей простоте особую роль играет линейный дискриминант­ный анализ, в котором классифицирующие признаки выбираются как ли­нейные функции от первичных признаков.

Кластерный анализ

Методы кластерного анализа позволяют разбить изучаемую совокуп­ность объектов на группы «схожих» объектов, называемых кластерами.

Слово кластер английского происхождения - cluster переводится как кисть, пучок, группа, рой, скопление.

Кластерный анализ решает следующие задачи:

Проводит классификацию объектов с учетом всех тех признаков, которые характеризуют объект. Сама возможность классификации продвигает нас к более углубленному пониманию рассматриваемой совокупности и объектов, входящих в нее;

Ставит задачу проверки наличия априорно заданной структуры или классификации в имеющейся совокупности. Такая проверка дает воз­можность воспользоваться стандартной гипотетико-дедуктивной схе­мой научных исследований.

Большинство методов кластеризации (иерархической группы) являются агломеративными (объединительными) - они начинают с создания эле­ментарных кластеров, каждый из которых состоит ровно из одного исходно­го наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один.

Момент остановки этого процесса может задаваться исследователем (на­пример, указанием требуемого числа кластеров или максимального рассто­яния, при котором достигнуто объединение).

Графическое изображение процесса объединения кластеров может быть получено с помощью дендрограммы - дерева объединения кластеров.

Рассмотрим следующий пример. Проведем классификацию пяти предприятий, каждое из которых характеризуется тремя переменными:

х 1 – среднегодовая стоимость основных производственных фондов, млрд руб.;

х 2 – материальные затраты на 1 руб. произведенной продукции, коп.;

х 3 – объем произведенной продукции, млрд руб.

Похожие статьи

© 2024 liveps.ru. Домашние задания и готовые задачи по химии и биологии.