Analiza statistică multivariată. Introducere în Analiza Statistică Multivariată - Kalinina

Econometrie

Analiza statistică multivariată


În analiza statistică multivariată, eșantionul este format din elemente ale unui spațiu multidimensional. De aici și numele acestei secțiuni de metode econometrice. Dintre numeroasele probleme ale analizei statistice multivariate, vom lua în considerare două - recuperarea dependenței și clasificarea.

Estimarea funcției predictive liniare

Să începem cu problema estimării punctuale și de încredere a unei funcții predictive liniare a unei variabile.

Date inițiale - un set de n perechi de numere (t k, x k), k = 1,2,...,n, unde t k este o variabilă independentă (de exemplu, timpul) și x k este o variabilă dependentă (de exemplu , indicele de inflație, cursul de schimb al dolarului american, volumul de producție lunar sau valoarea veniturilor zilnice ale unui punct de vânzare cu amănuntul). Se presupune că variabilele sunt legate prin dependență

x k = a (t k - t avg)+ b + e k , k = 1,2,…,n,

unde a și b sunt parametri necunoscuți de statistician și supuși estimării, iar e k sunt erori care distorsionează dependența. Media aritmetică a punctelor de timp

t av = (t 1 + t 2 +…+t n) / n

introduse în model pentru a facilita calculele ulterioare.

De obicei, parametrii a și b ai unei relații liniare sunt estimați folosind metoda celor mai mici pătrate. Apoi, dependența restaurată este utilizată pentru prognoza punctului și intervalului.

După cum se știe, metoda celor mai mici pătrate a fost dezvoltată de marele matematician german K. Gauss în 1794. Conform acestei metode, pentru a calcula cea mai bună funcție care aproximează liniar dependența lui x de t, ar trebui să se ia în considerare o funcție a două variabile


Estimările celor mai mici pătrate sunt acele valori ale lui a* și b* la care funcția f(a,b) atinge un minim peste toate valorile argumentelor.

Pentru a găsi aceste estimări, trebuie să calculați derivatele parțiale ale funcției f(a,b) în raport cu argumentele a și b, să le echivalați cu 0, apoi să găsiți estimările din ecuațiile rezultate: Avem:

Să transformăm părțile din dreapta ale relațiilor rezultate. Să scoatem factorii comuni 2 și (-1) ca semn de sumă. Atunci să ne uităm la termeni. Să deschidem parantezele din prima expresie și să aflăm că fiecare termen este împărțit în trei. În a doua expresie, fiecare termen este și suma a trei. Aceasta înseamnă că fiecare sumă este împărțită în trei sume. Avem:


Să echivalăm derivatele parțiale cu 0. Apoi în ecuațiile rezultate putem reduce factorul (-2). Din moment ce

(1)

ecuațiile iau forma

Prin urmare, estimările celor mai mici pătrate au forma

(2)

În virtutea relației (1), estimarea a* poate fi scrisă într-o formă mai simetrică:

Această estimare poate fi ușor transformată în formular

Prin urmare, funcția reconstruită, care poate fi folosită pentru a prezice și a interpola, are forma

x*(t) = a*(t - t av)+ b*.

Să fim atenți la faptul că utilizarea lui t cf în ultima formulă nu limitează în niciun fel generalitatea acesteia. Comparați cu un model de formular

x k = c t k + d + e k , k = 1,2,…,n.

Este clar că

Estimările parametrilor sunt legate într-un mod similar:

Nu este nevoie să ne referim la niciun model probabilistic pentru a obține estimări ale parametrilor și o formulă predictivă. Totuși, pentru a studia erorile în estimările parametrilor și a funcției reconstruite, i.e. construiți intervale de încredere pentru a*, b* și x*(t), un astfel de model este necesar.

Model probabilistic neparametric. Fie valorile variabilei independente t să fie deterministe, iar erorile e k , k = 1,2,...,n, variabile aleatoare independente distribuite identic cu zero așteptări matematice si varianta

statistici necunoscute.

În viitor, vom folosi în mod repetat Teorema Centrală Limită (CLT) a teoriei probabilităților pentru mărimile e k , k = 1,2,...,n (cu ponderi), prin urmare, pentru a-și îndeplini condițiile este necesar să presupunem, pt. exemplu, că erorile e k , k = 1,2 ,…,n, sunt finite sau au un moment absolut al treilea finit. Cu toate acestea, nu este nevoie să ne concentrăm asupra acestor „condiții de regularitate” intra-matematice.

Distribuții asimptotice ale estimărilor parametrilor. Din formula (2) rezultă că

(5)

Conform CLT, estimarea b* are o distribuție normală asimptotic cu așteptarea matematică b și varianță

a cărui evaluare este dată mai jos.

Din formulele (2) și (5) rezultă că

Ultimul termen din a doua relație atunci când este însumat peste i se transformă în 0, prin urmare din formulele (2-4) rezultă că

(6)

Formula (6) arată că estimarea

este asimptotic normal cu așteptări și variații matematice

Rețineți că normalitatea multidimensională există atunci când fiecare termen din formula (6) este mic în comparație cu întreaga sumă, i.e.


Formulele (5) și (6) și ipotezele inițiale despre erori implică, de asemenea, că estimările parametrilor sunt nepărtinitoare.

Nepărtinirea și normalitatea asimptotică a estimărilor celor mai mici pătrate facilitează specificarea limitelor de încredere asimptotice pentru acestea (asemănătoare cu limitele din capitolul anterior) și testarea ipotezelor statistice, de exemplu, despre egalitatea la anumite valori, în primul rând 0. Oferim cititorului cu posibilitatea de a scrie formule de calcul a limitelor de încredere și de a formula reguli de testare a ipotezelor menționate.

Distribuția asimptotică a funcției predictive. Din formulele (5) și (6) rezultă că

aceste. estimarea considerată a funcției predictive este imparțială. De aceea

Mai mult, deoarece erorile sunt independente în agregat și

, Asta

Astfel,

Din prefața autorului
Capitolul 1. Introducere
1.1. Distribuția normală multivariată ca model
1.2. Prezentare generală a metodelor multivariate
Literatură
Capitolul 2. Distribuția normală multivariată
2.1. Introducere
2.2. Concepte legate de distribuțiile multivariate
2.3. Distribuție normală multivariată
2.4. Distribuția unei combinații liniare de valori distribuite normal; independența cantităților; distributii private
2.5. Distribuții condiționate și coeficient de corelație multiplă
2.6. Funcția caracteristică; momente
Literatură
Sarcini
Capitolul 3: Estimarea vectorului mediu și a matricei de covarianță
3.1. Introducere
3.2. Estimări de maximă probabilitate pentru vectorul mediu și matricea de covarianță
3.3. Distribuția vectorială medie a eșantionului; inferență despre medie atunci când matricea de covarianță este cunoscută
Literatură
Sarcini
Capitolul 4: Distribuțiile și utilizarea coeficienților de corelație ale eșantionului
4.1. Introducere
4.2. Coeficientul de corelație al eșantionului bivariat
4.3. Coeficienți de corelație parțială
4.4. Coeficient de corelație multiplă
Literatură
Sarcini
Capitolul 5. Statistici T2 generalizate
5.1. Introducere
5.2. Statistica generalizată T2 și distribuția lor
5.3. Aplicații ale statisticii T2
5.4. Distribuția statisticilor T2 în prezența ipotezelor concurente; functie de putere
5.5. Câteva proprietăți optime ale criteriului T2
5.6. Problemă multidimensională Behrens-Fisher
Literatură
Sarcini
Capitolul 6. Clasificarea observaţiilor
6.1. Problema de clasificare
6.2. Principii de clasificare corectă
6.3. Metode de clasificare a observațiilor în cazul a două populații cu distribuție de probabilitate cunoscută
6.4. Clasificarea observațiilor în cazul a două populații cu distribuții normale multivariate cunoscute
6.5. Clasificarea observațiilor în cazul a două populații normale multivariate, ai căror parametri sunt estimați din eșantion
6.6. Clasificarea observaţiilor în cazul mai multor populaţii generale
6.7. Clasificarea observațiilor în cazul mai multor populații normale multivariate
6.8. Un exemplu de clasificare în cazul mai multor populații normale multivariate
Literatură
Sarcini
Capitolul 7. Distribuția matricei de covarianță a eșantionului și a varianței generalizate a eșantionului
7.1. Introducere
7.2. Distribuție Wishart
7.3. Unele proprietăți ale distribuției Wishart
7.4. teorema lui Cochran
7.5. Varianta generalizata
7.6. Distribuția unui set de coeficienți de corelație în cazul unei matrice de covarianță diagonală a populației
Literatură
Sarcini
Capitolul 8. Testarea ipotezelor lineare generale. Analiza varianței
8.1. Introducere
8.2. Estimări ale parametrilor de regresie liniară multivariată
8.3. Teste ale raportului de probabilitate pentru testarea ipotezelor liniare despre coeficienții de regresie
8.4. Momente ale raportului de probabilitate în cazul în care ipoteza nulă este adevărată
8.5. Unele distribuții ale valorilor U
8.6. Expansiunea asimptotică a distribuției raportului de probabilitate
8.7. Testarea ipotezelor despre matricele coeficienților de regresie și regiunile de încredere
8.8. Testarea ipotezei despre egalitatea valorilor medii ale distribuțiilor normale cu o matrice de covarianță generală
8.9. ANOVA generalizată
8.10. Alte criterii de testare a ipotezei liniare
8.11. Forma canonică
Literatură
Sarcini
Capitolul 9. Testarea ipotezei despre independenţa mulţimilor de variabile aleatoare
9.1. Introducere
9.2. Raportul de probabilitate ca criteriu de testare a ipotezei despre independența seturilor de variabile aleatoare
9.3. Momente ale raportului de probabilitate cu condiția ca ipoteza nulă să fie adevărată
9.4. Unele distribuții ale raportului de probabilitate
9.5. Expansiunea asimptotică a distribuției lui h (raporturile de probabilitate)
9.6. Exemplu
9.7. Cazul a două seturi de variabile aleatoare
Literatură
Sarcini
Capitolul 10. Testarea ipotezelor despre egalitatea matricelor de covarianță și egalitatea ambelor vectori medii și a matricelor de covarianță
10.1 Introducere
10.2 Criterii de testare a ipotezelor despre egalitatea mai multor matrice de covarianță
10.3. Criterii de testare a ipotezei echivalenței mai multor populații normale
10.4. Momente ale raportului de probabilitate
10.5. Expansiuni asimptotice ale funcțiilor de distribuție ale mărimilor V1 și V
10.6. Cazul a două populații
10.7. Testarea ipotezei că matricea de covarianță este proporțională cu o matrice dată. Criteriul de sfericitate
10.8. Testarea ipotezei că matricea de covarianță este egală cu matricea dată
10.9. Testarea ipotezei că vectorul mediu și matricea de covarianță sunt, respectiv, egale acest vectorși această matrice
Literatură
Sarcini
Capitolul 11. Componentele principale
11.1. Introducere
11.2. Determinarea principalelor componente ale populaţiei
11.3. Estimări de maximă probabilitate pentru componentele principale și variațiile acestora
11.4. Calcularea estimărilor de probabilitate maximă pentru componentele principale
11.5. Exemplu
Literatură
Sarcini
Capitolul 12. Corelații canonice și mărimi canonice
12.1. Introducere
12.2. Corelații canonice și mărimi canonice populatie
12.3. Estimarea corelațiilor canonice și a mărimilor canonice
12.4. Metoda de calcul
12.5. Exemplu
Literatură
Sarcini
Capitolul 13. Distribuția unor rădăcini și vectori caracteristici independent de parametri
13.1. Introducere
13.2. Cazul a două matrice Wishart
13.3. Cazul unei matrice Wishart non-singular
13.4. Corelații canonice
Literatură
Sarcini
Capitolul 14. Revizuirea altor lucrări despre analiza multivariata
14.1. Introducere
14.2 Testarea ipotezelor despre rang și evaluarea restricțiilor liniare asupra coeficienților de regresie. Corelații canonice și mărimi canonice
14.3. Distribuție Wishart noncentrală
14.4. Distribuția unor rădăcini și vectori caracteristici în funcție de parametri
14.5. Distribuția asimptotică a unor rădăcini și vectori caracteristici
14.6. Componentele principale
14.7. Analiza factorială
14.8. Ecuații stocastice
14.9. Analiza serii temporale
Literatură
Aplicație. Teoria matricelor
1. Definirea matricelor. Acțiuni asupra matricelor
2. Rădăcini și vectori caracteristici
3. Partiționarea vectorilor și matricelor în blocuri
4. Câteva rezultate
5. Metoda de reducere Doolittle și metoda de îngroșare a axelor pentru rezolvarea sistemelor ecuații liniare
Literatură
Index de subiect

ANALIZA STATISTICĂ MULTIVARIATĂ

Secțiunea de matematică statistică, dedicată matematicii. metode de construire a planurilor optime de colectare, sistematizare și prelucrare a statisticilor multivariate. date care vizează identificarea naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate și destinate obținerii de date științifice și practice. concluzii. O trăsătură multidimensională este înțeleasă ca indicatori p-dimensionali (semne, variabile), printre care se pot număra: cantitativi, adică măsurarea scalar la o anumită scară a manifestărilor proprietății studiate a unui obiect, ordinal (sau ordinal), adică permițând aranjarea. obiectele analizate după gradul de manifestare a proprietății studiate în ele; și clasificarea (sau nominală), adică făcând posibilă împărțirea setului studiat de obiecte în clase omogene (în funcție de proprietatea analizată) care nu pot fi ordonate. Rezultatele măsurării acestor indicatori

pe fiecare dintre obiectele populației studiate se formează observații multidimensionale, sau matricea inițială de date multidimensionale pentru efectuarea MS. O. O parte semnificativă din M. s. O. servește situațiilor în care atributul multidimensional studiat este interpretat ca un multidimensional și, în consecință, o secvență de observații multidimensionale (1) - ca dintr-o populație generală.

În acest caz, alegerea metodelor de prelucrare a datelor statistice inițiale. datele și analiza proprietăților acestora se realizează pe baza anumitor ipoteze privind natura legii distribuției probabilităților multidimensionale (comunite).

Analiza statistică multivariată a distribuțiilor multivariate și a principalelor caracteristici ale acestora acoperă numai situațiile în care observațiile prelucrate (1) sunt de natură probabilistică, adică interpretate ca un eșantion din populația generală corespunzătoare. Obiectivele principale ale acestei subsecțiuni includ: statistice. evaluarea distribuțiilor multidimensionale studiate, a principalelor caracteristici numerice și parametri ai acestora; studiul proprietăților datelor statistice utilizate. note; studiul distribuțiilor de probabilitate pentru un număr de statistici, cu ajutorul cărora se construiesc statisticile. criterii de testare a diverselor ipoteze despre natura probabilistică a datelor multidimensionale analizate. Principalele rezultate se referă la cazul special când caracteristica studiată este supusă unei legi de distribuție normală multidimensională, a cărei funcție de densitate este dată de relația unde este vectorul matematic. componenta așteptărilor variabilă aleatoare este matricea de covarianță a unui vector aleator, adică covarianța componentelor vectorului (se consideră un caz nedegenerat când; în caz contrar, adică cu rang , toate rezultatele rămân valabile, dar în raport cu un subspațiu de dimensiune inferioară , în care se dovedește a fi un vector aleator concentrat în studiu).

Astfel, dacă (1) este o secvență de observații independente care formează un eșantion aleatoriu din atunci estimările de probabilitate maximă pentru parametri și care participă la (2) sunt, respectiv, statistici (vezi , )

iar vectorul aleatoriu se supune legii normale p-dimensionale și nu depinde de , iar distribuția comună a elementelor matricei este descrisă de așa-numitul. distribuția districtului Wisha (vezi), to-rogo

În cadrul aceleiași scheme, distribuțiile și momentele unor astfel de caracteristici ale eșantionului unei variabile aleatoare multivariate ca perechi, coeficienți de corelație parțială și multiplă, statistici generalizate (adică), generalizate -Hotelling (vezi). În special (vezi), dacă definim estimarea corectată „pentru nepărțire” ca matrice de covarianță a eșantionului, și anume:

apoi variabila aleatoare tinde spre când , și variabilele aleatoare

respectă distribuțiile F cu numere de grade de libertate, respectiv (p, p-p) și (p, n 1 + n 2-p-1). În raport (7) n 1și n 2 - volumele a două eșantioane independente de tip (1), extrase din aceeași populație generală - estimări de tip (3) și (4)-(5), construite din eșantionul i, și

Covarianța totală a eșantionului, construită din estimări și

Analiza statistică multidimensională a naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate combină conceptele și rezultatele care servesc astfel de metode și modele de SM. a., ca multiplu, multidimensional analiza varianțeiŞi analiza covarianței, analiza factorilorși analiza componentelor principale, analiza canonică. corelații. Rezultatele care compun conținutul acestei subsecțiuni pot fi împărțite în două tipuri principale.

1) Construirea celor mai bune (într-un anumit sens) date statistice. estimări pentru parametrii modelelor menționate și analiza proprietăților acestora (acuratețea, iar într-o formulare probabilistică - legile distribuției lor, regiunile de încredere etc.). Deci, caracteristica multidimensională studiată să fie interpretată ca un vector aleator, subordonat p-dimensionalului distributie normala, și este împărțit în doi subvectori - coloane și dimensiuni q și, respectiv, p-q. Aceasta determină matematic diviziunea corespunzătoare a vectorului. așteptări, matrice de covarianță teoretică și eșantion, și anume:

Apoi (vezi , ) subvectorul (cu condiția ca al doilea subvector să fi luat o valoare fixă) va fi și el normal). În acest caz, estimări de probabilitate maximă. pentru matricele de coeficienți de regresie și covariate ale acestui model multivariat clasic de regresie multiplă

vor exista statistici reciproc independente, respectiv

aici repartizarea evaluării este supusă legii normale , și estimează n - legea lui Wishart cu parametrii și (elementele matricei de covarianță sunt exprimate în termeni de elemente ale matricei).

Principalele rezultate privind construirea estimărilor parametrilor și studiul proprietăților acestora în modele de analiză factorială, componente principale și corelații canonice se referă la analiza proprietăților probabilistic-statistice ale valorilor proprii și ale vectorilor diferitelor matrice de covarianță eșantion.

În scheme care nu se încadrează în cadrul clasic. model normal, și mai ales în cadrul oricărui model probabilistic, principalele rezultate se referă la construirea de algoritmi (și studiul proprietăților acestora) pentru calcularea estimărilor parametrilor care sunt cele mai bune din punctul de vedere al unei anumite funcționalități date exogen. calitatea (sau adecvarea) modelului.

2) Construirea datelor statistice. criterii de testare a diverselor ipoteze despre structura relaţiilor studiate. În cadrul modelului normal multivariat (secvențele de observații de tip (1) sunt interpretate ca eșantioane aleatorii din populațiile normale multivariate corespunzătoare), de exemplu, statistici criterii de testare a următoarelor ipoteze.

I. Ipoteze despre egalitatea vectorului matematic. așteptările indicatorilor studiați față de un vector specific dat; verificat folosind statistici Hotelling cu înlocuire în formula (6)

II. Ipoteze despre egalitatea vectorilor matematici. așteptări în două populații (cu matrice de covarianță identice, dar necunoscute), reprezentate de două eșantioane; verificat folosind statistici (vezi).

III. Ipoteze despre egalitatea vectorilor matematici. așteptări în mai multe populații generale (cu matrice de covarianță identice, dar necunoscute) reprezentate de eșantioanele lor; verificate folosind statistici

în tăietură există i-a p-dimensională observație într-o dimensiune a eșantionului reprezentând al j-lea general populație și și sunt estimări ale formei (3), construite, respectiv, separat pentru fiecare dintre eșantioane și pentru eșantionul combinat de volum

IV. Ipotezele despre echivalența mai multor populații normale reprezentate de eșantioanele lor sunt testate folosind statistici

în tăietură - o estimare de tip (4), construită separat de observații j- isexemple, j=1, 2, ... , k.

V. Ipotezele despre independența reciprocă a subvectorilor-respectiv coloanelor de dimensiuni în care se împarte vectorul p-dimensional inițial al indicatorilor studiați, sunt verificate cu ajutorul statisticilor.

în care și sunt matrice de covarianță eșantion de forma (4) pentru întregul vector și pentru subvectorul său x(i) în consecință.

Analiza statistică multidimensională a structurii geometrice a setului studiat de observații multidimensionale combină conceptele și rezultatele unor astfel de modele și scheme precum analiza discriminanta, amestecuri de distribuții de probabilitate, analiză cluster și taxonomie, scalare multidimensională. Conceptul cheie în toate aceste scheme este conceptul de distanță (măsuri de proximitate, măsuri de similitudine) între elementele analizate. În acest caz, ele pot fi analizate ca obiecte reale, pe fiecare dintre acestea fiind înregistrate valorile indicatorilor - apoi geometrice. imaginea celui de-al i-lea obiect examinat va fi un punct în spațiul p-dimensional corespunzător, iar indicatorii înșiși - apoi geometrici. imaginea indicatorului l-lea va fi un punct în spațiul n-dimensional corespunzător.

Metodele și rezultatele analizei discriminante (vezi , , ) au ca scop următoarea sarcină. Se știe că există un anumit număr de populații, iar cercetătorul are câte un eșantion din fiecare populație („training samples”). Se cere să se construiască, pe baza eșantioanelor de pregătire disponibile, cea mai bună regulă de clasificare, într-un anumit sens, care să permită atribuirea unui anumit element nou (observare) populației sale generale într-o situație în care cercetătorul nu știe dinainte. căreia populaţie îi aparţine acest element. De obicei, o regulă de clasificare este înțeleasă ca o succesiune de acțiuni: prin calcularea unei funcții scalare a indicatorilor studiați, pe baza valorilor tăieturii, se ia decizia de a atribui un element uneia dintre clase (construcție de o funcție discriminantă); prin ordonarea indicatorilor înșiși în funcție de gradul conținutului lor informațional din punctul de vedere al atribuirii corecte a elementelor pe clase; prin calcularea probabilităţilor de clasificare greşită corespunzătoare.

Sarcina de a analiza amestecurile de distribuții de probabilitate (vezi) cel mai adesea (dar nu întotdeauna) apare și în legătură cu studiul „structurii geometrice” a populației luate în considerare. În acest caz, conceptul de clasa a r-a omogenă este formalizat folosind o populație generală descrisă de o anumită lege de distribuție (de obicei unimodală), astfel încât distribuția populației generale, din care se extrage eșantionul (1), este descrisă de un amestec de distribuții de forma în care p r - probabilitatea a priori (elementele specifice) clasei a r-a în populația generală. Provocarea este statisticile „bune”. estimarea (din eşantion) parametri necunoscuţi şi uneori La. Acest lucru, în special, ne permite să reducem sarcina de clasificare a elementelor la o schemă de analiză discriminantă, deși în acest caz nu au existat mostre de antrenament.

Metodele și rezultatele analizei cluster (clasificare, taxonomie, recunoaștere nesupravegheată a modelelor, vezi , , ) au ca scop rezolvarea următoarei probleme. Geometric setul de elemente analizat este dat fie de coordonatele punctelor corespunzătoare (adică de matricea ..., n) , sau un set de geometrice caracteristicile acestora poziție relativă, de exemplu, o matrice de distanțe în perechi. Este necesar să se împartă setul studiat de elemente în clase relativ mici (cunoscute anterior sau nu), astfel încât elementele unei clase să fie situate la o distanță mică unele de altele, în timp ce diferitele clase ar fi, dacă este posibil, suficient de îndepărtate reciproc de unele de altele și nu ar fi împărțite în astfel de părți care sunt îndepărtate unele de altele.

Problema scalării multidimensionale (vezi) se referă la situația în care mulțimea elementelor studiate este specificată folosind o matrice de distanțe pe perechi și constă în atribuirea fiecăruia dintre elemente a unui număr dat de coordonate (p) în așa fel încât structura distanțelor reciproce în perechi între elemente măsurate folosind aceste coordonate auxiliare, în medie, ar diferi cel mai puțin de cea dată. Trebuie remarcat faptul că principalele rezultate și metode de analiză a clusterelor și scalare multidimensională sunt de obicei dezvoltate fără ipoteze cu privire la natura probabilistică a datelor sursă.

Scopul aplicat al analizei statistice multivariate este, în principal, de a servi următoarele trei probleme.

Problema studiului statistic al dependenţelor dintre indicatorii analizaţi. Presupunând că setul studiat de indicatori x înregistrați statistic este împărțit, pe baza semnificației semnificative a acestor indicatori și a obiectivelor finale ale studiului, într-un subvector q-dimensional de variabile prezise (dependente) și un subvector (p-q)-dimensional de variabile predictive (independente), putem spune că problema este de a determina, pe baza probei (1), o astfel de funcție vectorială q-dimensională din clasa soluțiilor admisibile F, marginea ar oferi cea mai bună aproximare, într-un anumit sens, a comportamentului subvectorului indicatorilor. În funcție de tipul specific de funcțional, calitatea aproximării și natura indicatorilor analizați ajung la una sau alta schemă de analiză de regresie multiplă, varianță, covarianță sau confluență.

Problema clasificării elementelor (obiectelor sau indicatorilor) într-o formulare generală (nestrict) constă în împărțirea întregului set de elemente analizate, prezentate statistic sub forma unei matrice sau matrice, într-un număr relativ mic de omogene, într-un anumit sens, grupuri. În funcție de natura informațiilor a priori și de tipul specific de funcțional care stabilește criteriul de calitate a clasificării, se ajunge la una sau la alta schemă de analiză discriminantă, analiză cluster (taxonomie, recunoaștere a modelelor „nesupravegheată”) și împărțirea amestecurilor de distribuții. .

Problema reducerii dimensiunii spațiului factorilor studiat și a selectării celor mai informativi indicatori constă în determinarea unui astfel de set dintr-un număr relativ mic de indicatori regăsiți în clasa transformărilor admisibile ale indicatorilor inițiali. pe care se realizează un anumit roi superior al unei măsurători date exogen a conținutului informațional al sistemului m-dimensional de caracteristici (vezi). Specificarea funcționalității care specifică măsura autoinformativității (adică, care vizează maximizarea conservării informațiilor conținute în tabloul statistic (1) în raport cu caracteristicile originale în sine), conduce, în special, la diverse scheme de analiză factorială și principală. componente, la metode de grupare extremă a caracteristicilor. Funcționalele care definesc măsura conținutului informațional extern, adică, care vizează extragerea din (1) maximum de informații cu privire la anumite altele care nu sunt direct conținute în indicatori sau fenomene, conduc la diverse metode selectarea celor mai informativi indicatori din schemele statistice. cercetarea dependenței și analiza discriminantă.

Instrumente matematice de bază ale MS. O. constituie metode speciale ale teoriei sistemelor de ecuații liniare și teoria matricelor (metode de rezolvare a problemelor simple și generalizate de valori proprii și vectori; inversarea simplă și pseudoinversia matricelor; procedee de diagonalizare pentru matrice etc.) și anumiți algoritmi de optimizare (metode). de coborare în coordonate, gradienți conjugați, ramuri și limite, diferite versiuni ale căutării aleatorii și aproximării stocastice etc.).

Lit.: Anderson T., Introducere în analiza statistică multivariată, trad. din engleză, M., 1963; Kendall M.J., Stewart A., Multivariate statistical analysis and time series, trad. din engleză, M., 1976; Bolşev L.N., „Bull. Int. Stat. Inst.”, 1969, nr. 43, p. 425-41; Wishart .J., „Biometrika”, 1928, v. 20A, p. 32-52: Hotelling H., „Ann. Math. Stat.”, 1931, v. 2, p. 360-78; [c] Kruskal J. V., „Psychometrika”, 1964, v. 29, p. 1-27; Ayvazyan S. A., Bezhaeva Z. I., . Staroverov O.V., Clasificarea observațiilor multidimensionale, M., 1974.

S.A. Ayvazyan.


Enciclopedie matematică. - M.: Enciclopedia Sovietică.

I. M. Vinogradov.

1977-1985.

Ghidul tehnic al traducătorului Secțiunea de statistică matematică (vezi), dedicată matematicii. metode care vizează identificarea naturii și structurii relațiilor dintre componentele trăsăturii multidimensionale studiate (vezi) și destinate obținerii științifice. si practic......

Într-un sens larg, o secțiune de statistici matematice (Vezi Statistica matematică), care combină metode de studiere a datelor statistice legate de obiecte care sunt caracterizate prin mai multe calitative sau cantitative... ... Marea Enciclopedie Sovietică ANALIZA STATISTICĂ MULTIVARIATĂ

- o secțiune de statistici matematice concepută pentru a analiza relațiile dintre trei sau mai multe variabile. Putem distinge în mod condiționat trei clase principale de probleme A.M.S. Acesta este un studiu al structurii relațiilor dintre variabile și al reducerii dimensiunii spațiului... Sociologie: Enciclopedie ANALIZA COVARIANȚEI

Secțiunea de matematică statistici, al cărei conținut este dezvoltarea și cercetarea statisticii. metode de rezolvare a următoarei probleme de discriminare: pe baza rezultatelor observațiilor, determinați care dintre mai multe posibile... ... Enciclopedia matematică, Orlova Irina Vladlenovna, Kontsevaya Natalya Valerievna, Turundaevsky Viktor Borisovich. Cartea este dedicată analizei statistice multivariate (MSA) și organizării calculelor folosind MSA. Pentru a implementa metode de statistică multivariată, se utilizează un program de procesare statistică...


Există situații în care variabilitatea aleatoare a fost reprezentată de una sau două variabile aleatoare, semne.

De exemplu, atunci când studiem o populație statistică de oameni, ne interesează înălțimea și greutatea. În această situație, indiferent cât de mulți oameni sunt în populația statistică, putem oricând să desenăm un scatterplot și să vedem întreaga imagine. Cu toate acestea, dacă există trei atribute, de exemplu, se adaugă vârsta unei persoane, atunci graficul de dispersie trebuie construit în spațiu tridimensional. Este deja destul de dificil să ne imaginăm o colecție de puncte în spațiul tridimensional.

În realitate, în practică, fiecare observație este reprezentată nu de unul, două sau trei numere, ci de un set vizibil de numere care descriu zeci de caracteristici. În această situație, construirea unui grafic de dispersie ar necesita luarea în considerare a spațiilor multidimensionale.

Ramura statisticii care se ocupa cu studiul experimentelor cu observatii multivariate se numeste analiza statistica multivariata.

Măsurarea mai multor semne (proprietăți ale unui obiect) simultan într-un experiment este în general mai naturală decât măsurarea doar a unuia sau a două. Prin urmare, analiza statistică potențial multivariată are o gamă largă de aplicații.

Analiza statistică multivariată include următoarele secțiuni:

Analiza factorială;

Analiză discriminantă;

Analiza clusterelor;

Scalare multidimensională;

Metode de control al calității.

Analiza factorială

Când se studiază obiecte și sisteme complexe (de exemplu, în psihologie, biologie, sociologie etc.), cantitățile (factorii) care determină proprietățile acestor obiecte de foarte multe ori nu pot fi măsurate direct și uneori chiar și numărul și semnificația lor nu sunt cunoscute. . Dar alte cantități pot fi disponibile pentru măsurare, în funcție într-un fel sau altul de factorii de interes. Mai mult, atunci când influența unui factor necunoscut care ne interesează se manifestă în mai multe semne măsurate, aceste semne pot dezvălui legătură strânsăîntre ele și numărul total de factori poate fi mult mai mic decât numărul de variabile măsurate.

Metodele de analiză factorială sunt utilizate pentru a descoperi factorii care influențează variabilele măsurate.

Un exemplu de aplicare a analizei factorilor este studiul trăsăturilor de personalitate pe baza teste psihologice. Proprietățile personalității nu pot fi măsurate direct, ele pot fi judecate doar după comportamentul unei persoane sau natura răspunsurilor sale la anumite întrebări. Pentru a explica rezultatele experimentelor, acestea sunt supuse unei analize factoriale, care ne permite să identificăm acele proprietăți personale care influențează comportamentul indivizilor testați.


Diverse modele de analiză factorială se bazează pe următoarea ipoteză: parametrii observați sau măsurați sunt doar caracteristici indirecte ale obiectului sau fenomenului studiat, există în realitate interne (ascunse,); latent, neobservabile direct) parametri și proprietăți, al căror număr este mic și care determină valorile parametrilor observați. Acești parametri interni sunt de obicei numiți factori.

Sarcina analizei factoriloreste reprezentarea parametrilor observați sub formă de combinații liniare de factori și, poate, unele perturbări suplimentare, neimportante.

Prima etapă a analizei factorilor, de regulă, este selectarea de noi caracteristici, care sunt combinații liniare ale celor anterioare și „absorb” cea mai mare parte a variabilității totale a datelor observate și, prin urmare, transmit cea mai mare parte a informațiilor conținute în observatii originale. Acest lucru se face de obicei folosind metoda componentelor principale, deși uneori se folosesc alte tehnici (metoda maximă probabilitate).

Metoda componentei principale se reduce la alegerea unui nou sistem de coordonate ortogonale în spațiul de observație. Direcția de-a lungul căreia matricea de observații are cea mai mare împrăștiere este aleasă ca primă componentă principală, fiecare componentă principală ulterioară este selectată astfel încât împrăștierea observațiilor să fie maximă și ca această componentă principală să fie ortogonală cu celelalte componente principale selectate mai devreme. Cu toate acestea, factorii obținuți prin metoda componentei principale, de obicei, nu pot fi interpretați suficient de clar. Prin urmare, următorul pas în analiza factorială este transformarea, rotația factorilor pentru a facilita interpretarea.

Analiza discriminantă

Să existe o colecție de obiecte împărțită în mai multe grupuri și pentru fiecare obiect este posibil să se determine cărui grup îi aparține. Pentru fiecare obiect există măsurători cu mai multe caracteristici cantitative. Este necesar să găsim o modalitate de a afla, pe baza acestor caracteristici, grupul căruia îi aparține obiectul. Acest lucru vă va permite să indicați grupurile cărora le aparțin obiectele noi din aceeași colecție. Pentru a rezolva problema, ei folosesc metode de analiză discriminantă.

Analiza discriminantă- Aceasta este o ramură a statisticii, al cărei conținut este dezvoltarea unor metode de rezolvare a problemelor de discriminare (discriminare) a obiectelor de observație în funcție de anumite caracteristici.

Să ne uităm la câteva exemple.

Analiza discriminantă este utilă în procesarea rezultatelor testelor persoanelor fizice atunci când vine vorba de angajare pentru un anumit post. În acest caz, este necesar să se împartă toți candidații în două grupuri: „potriviți” și „nepotriviți”.

Utilizarea analizei discriminante este posibilă de către administrația bancară pentru evaluare starea financiara afacerile clienților la acordarea unui împrumut. Banca le clasifică în fiabile și nesigure pe baza unui număr de criterii.

Analiza discriminantă poate fi folosită ca metodă de împărțire a unui set de întreprinderi în mai multe grupuri omogeneîn funcție de valorile oricăror indicatori de producție și activitate economică.

Metodele de analiză discriminantă fac posibilă construirea de funcții ale caracteristicilor măsurate, ale căror valori explică împărțirea obiectelor în grupuri. Este de dorit ca aceste funcții (caracteristici discriminante) nu era mult. În acest caz, rezultatele analizei sunt mai ușor de interpretat în mod semnificativ.

Datorită simplității sale, analiza discriminantă liniară joacă un rol special, în care caracteristicile de clasificare sunt selectate ca funcții liniare ale caracteristicilor primare.

Analiza clusterelor

Metodele de analiză a clusterelor fac posibilă împărțirea setului studiat de obiecte în grupuri de obiecte „similare” numite clustere.

Cuvânt cluster Origine engleză - cluster se traduce ca perie, ciorchine, grupare, roi, ciorchine.

Analiza cluster rezolvă următoarele probleme:

Clasifică obiectele ținând cont de toate trăsăturile care caracterizează obiectul. Însăși posibilitatea clasificării ne mută către o înțelegere mai profundă a totalității luate în considerare și a obiectelor incluse în ea;

Stabilește sarcina de a verifica prezența unei structuri sau clasificări date a priori în populația existentă. Un astfel de test face posibilă utilizarea schemei ipotetico-deductive standard a cercetării științifice.

Cele mai multe metode de grupare (grup ierarhic) sunt aglomerativ(fuziune) - încep prin a crea clustere elementare, fiecare dintre ele constând dintr-o observație inițială (un punct), iar la fiecare pas ulterior cele două clustere cele mai apropiate sunt combinate într-una singură.

Momentul opririi acestui proces poate fi stabilit de către cercetător (de exemplu, prin specificarea numărului necesar de clustere sau a distanței maxime la care se realizează unirea).

O reprezentare grafică a procesului de fuziune a clusterului poate fi obținută folosind dendrograme- arbore de îmbinare a clusterelor.

Luați în considerare următorul exemplu. Să clasificăm cinci întreprinderi, fiecare dintre acestea fiind caracterizată de trei variabile:

x 1– costul mediu anual al activelor fixe de producție, miliarde de ruble;

x 2– costuri materiale pentru 1 rub. produse manufacturate, copeici;

x 3– volumul produselor produse, miliarde de ruble.

Articole înrudite

2024 liveps.ru. Teme și probleme gata făcute în chimie și biologie.