Daudzfaktoru statistiskā analīze. Ievads daudzfaktoru statistiskajā analīzē - Kaļiņina

Ekonometrija

Daudzfaktoru statistiskā analīze


Daudzfaktoru statistiskajā analīzē paraugs sastāv no daudzdimensiju telpas elementiem. Līdz ar to arī šīs ekonometrisko metožu sadaļas nosaukums. No daudzajām daudzfaktoru statistiskās analīzes problēmām mēs apskatīsim divas - atkarības atgūšanu un klasifikāciju.

Lineārais novērtējums prognostiskā funkcija

Sāksim ar viena mainīgā lineāras prognozēšanas funkcijas punktu un ticamības novērtējuma problēmu.

Sākotnējie dati – n skaitļu pāru kopa (t k, x k), k = 1,2,...,n, kur t k ir neatkarīgs mainīgais (piemēram, laiks), un x k ir atkarīgs mainīgais (piemēram, , inflācijas indekss, ASV dolāra kurss, mēneša produkcijas apjoms vai mazumtirdzniecības vietas ikdienas ieņēmumu apjoms). Tiek pieņemts, ka mainīgie ir saistīti ar atkarību

x k = a (t k - t vid.)+ b + e k , k = 1,2,…,n,

kur a un b ir parametri, kas nav zināmi statistikai un ir pakļauti aplēsēm, un e k ir kļūdas, kas izkropļo atkarību. Laika punktu vidējais aritmētiskais

t av = (t 1 + t 2 +…+t n) / n

iekļauts modelī, lai atvieglotu turpmākus aprēķinus.

Parasti lineārās attiecības parametrus a un b novērtē, izmantojot mazāko kvadrātu metodi. Tad atjaunotā atkarība tiek izmantota punktu un intervālu prognozēšanai.

Kā zināms, mazāko kvadrātu metodi 1794. gadā izstrādāja izcilais vācu matemātiķis K. Gauss. Saskaņā ar šo metodi, lai aprēķinātu labāko funkciju, kas lineāri tuvina x atkarību no t, jāņem vērā divu mainīgo funkcija.


Mazāko kvadrātu aplēses ir tās a* un b* vērtības, pie kurām funkcija f(a,b) sasniedz minimumu pār visām argumentu vērtībām.

Lai atrastu šos aprēķinus, ir jāaprēķina funkcijas f(a,b) daļējie atvasinājumi attiecībā pret argumentiem a un b, jāpielīdzina 0, pēc tam jāatrod aplēses no iegūtajiem vienādojumiem: Mums ir:

Pārveidosim iegūto attiecību labās puses. Kā summas zīmi izņemsim kopējos faktorus 2 un (-1). Tad apskatīsim noteikumus. Atvērsim iekavas pirmajā izteiksmē un konstatēsim, ka katrs termins ir sadalīts trīs. Otrajā izteiksmē katrs termins ir arī trīs summa. Tas nozīmē, ka katra summa ir sadalīta trīs summās. Mums ir:


Pielīdzināsim daļējos atvasinājumus 0. Tad iegūtajos vienādojumos varam samazināt koeficientu (-2). Tāpēc ka

(1)

vienādojumi iegūst formu

Tāpēc mazāko kvadrātu aplēsēm ir forma

(2)

Izmantojot sakarību (1), novērtējumu a* var uzrakstīt simetriskāk:

Šo tāmi var viegli pārveidot formā

Tāpēc rekonstruētajai funkcijai, ko var izmantot, lai prognozētu un interpolētu, ir forma

x*(t) = a*(t - t av)+ b*.

Pievērsīsim uzmanību tam, ka t cf izmantošana pēdējā formulā nekādi neierobežo tā vispārīgumu. Salīdziniet ar veidlapas modeli

x k = c t k + d + e k , k = 1,2,…,n.

Tas ir skaidrs

Parametru aprēķini ir saistīti līdzīgā veidā:

Nav nepieciešams atsaukties uz kādu varbūtības modeli, lai iegūtu parametru aplēses un paredzamo formulu. Taču, lai izpētītu kļūdas parametru aplēsēs un rekonstruēto funkciju, t.i. izveidot ticamības intervālus a*, b* un x*(t), šāds modelis ir nepieciešams.

Neparametrisks varbūtības modelis. Lai neatkarīgā mainīgā t vērtības ir deterministiskas, un kļūdas e k , k = 1,2,...,n ir neatkarīgi identiski sadalīti gadījuma lielumi ar nulli matemātiskās cerības un dispersiju

nezināma statistika.

Nākotnē atkārtoti izmantosim varbūtības teorijas Centrālo robežu teorēmu (CLT) lielumiem e k , k = 1,2,...,n (ar svariem), tāpēc, lai izpildītu tās nosacījumus, ir jāpieņem, ka Piemēram, kļūdas e k , k = 1.2 ,…,n ir ierobežotas vai tām ir noteikts trešais absolūtais moments. Tomēr nav jākoncentrējas uz šiem iekšmatemātikas "likumības nosacījumiem".

Parametru aplēšu asimptotiskie sadalījumi. No formulas (2) izriet, ka

(5)

Saskaņā ar CLT aplēsei b* ir asimptotiski normāls sadalījums ar matemātisko cerību b un dispersiju

kuru novērtējums sniegts tālāk.

No (2) un (5) formulām izriet, ka

Pēdējais vārds otrajā relācijā, summējot virs i, pārvēršas par 0, tāpēc no formulām (2-4) izriet, ka

(6)

Formula (6) parāda, ka aplēse

ir asimptotiski normāls ar matemātisko gaidu un dispersiju

Ņemiet vērā, ka daudzdimensiju normalitāte pastāv, ja katrs formulas (6) termins ir mazs, salīdzinot ar visu summu, t.i.


Formula (5) un (6) un sākotnējie pieņēmumi par kļūdām arī nozīmē, ka parametru aplēses ir objektīvas.

Mazāko kvadrātu aprēķinu neobjektīvums un asimptotiskā normalitāte ļauj viegli noteikt tiem asimptotiskās ticamības robežas (līdzīgi iepriekšējā nodaļā noteiktajām robežām) un pārbaudīt statistiskās hipotēzes, piemēram, par vienādību ar noteiktām vērtībām, galvenokārt 0. Mēs sniedzam lasītājam ar iespēju pierakstīt formulas ticamības robežu aprēķināšanai un formulēt noteikumus minēto hipotēžu pārbaudei.

Prognozējošās funkcijas asimptotiskais sadalījums. No (5) un (6) formulām izriet, ka

tie. aprēķinātais paredzamās funkcijas novērtējums ir objektīvs. Tāpēc

Turklāt, tā kā kļūdas ir neatkarīgas kopumā un

, Tas

Tādējādi

No autora priekšvārda
1. nodaļa. Ievads
1.1. Daudzfaktoru normālais sadalījums kā modelis
1.2. Vispārīgs daudzfaktoru metožu pārskats
Literatūra
2. nodaļa. Daudzfaktoru normālais sadalījums
2.1. Ievads
2.2. Ar daudzfaktoru sadalījumiem saistītie jēdzieni
2.3. Daudzfaktoru normālais sadalījums
2.4. Normāli sadalītu vērtību lineāras kombinācijas sadalījums; daudzumu neatkarība; privātās izplatīšanas
2.5. Nosacītie sadalījumi un daudzkārtējās korelācijas koeficients
2.6. Raksturīga funkcija; mirkļi
Literatūra
Uzdevumi
3. nodaļa: Vidējā vektora un kovariācijas matricas novērtēšana
3.1. Ievads
3.2. Vidējā vektora un kovariācijas matricas maksimālās varbūtības aplēses
3.3. Izlases vidējais vektoru sadalījums; secinājums par vidējo, kad ir zināma kovariācijas matrica
Literatūra
Uzdevumi
4. nodaļa: Izlases korelācijas koeficientu sadalījums un izmantošana
4.1. Ievads
4.2. Divfaktoru izlases korelācijas koeficients
4.3. Daļējās korelācijas koeficienti
4.4. Daudzkārtējs korelācijas koeficients
Literatūra
Uzdevumi
5. nodaļa. Vispārējā T2 statistika
5.1. Ievads
5.2. Vispārināta T2 statistika un to sadalījums
5.3. T2 statistikas pielietojumi
5.4. T2 statistikas sadalījums konkurējošu hipotēžu klātbūtnē; jaudas funkcija
5.5. Dažas T2 kritērija optimālās īpašības
5.6. Daudzdimensionāla Bērensa-Fišera problēma
Literatūra
Uzdevumi
6. nodaļa. Novērojumu klasifikācija
6.1. Klasifikācijas problēma
6.2. Pareizas klasifikācijas principi
6.3. Metodes novērojumu klasificēšanai divu populāciju gadījumā ar zināmu varbūtības sadalījumu
6.4. Novērojumu klasifikācija divu populāciju gadījumā, kurām ir zināms daudzfaktoru normālais sadalījums
6.5. Novērojumu klasifikācija divu daudzfaktoru normālo populāciju gadījumā, kuru parametri tiek novērtēti no izlases
6.6. Novērojumu klasifikācija vairāku vispārīgu populāciju gadījumā
6.7. Novērojumu klasifikācija vairāku daudzfaktoru normālo populāciju gadījumā
6.8. Klasifikācijas piemērs vairāku daudzfaktoru normālu populāciju gadījumā
Literatūra
Uzdevumi
7. nodaļa. Izlases kovariācijas matricas un izlases vispārinātās dispersijas sadalījums
7.1. Ievads
7.2. Wishart izplatīšana
7.3. Dažas Wishart izplatīšanas īpašības
7.4. Kohrena teorēma
7.5. Ģeneralizēta dispersija
7.6. Korelācijas koeficientu kopas sadalījums diagonālās populācijas kovariācijas matricas gadījumā
Literatūra
Uzdevumi
8. nodaļa. Vispārējo lineāro hipotēžu pārbaude. Dispersijas analīze
8.1. Ievads
8.2. Daudzfaktoru lineārās regresijas parametru aplēses
8.3. Iespējamības koeficientu testi lineāro hipotēžu pārbaudei par regresijas koeficientiem
8.4. Iespējamības koeficienta momenti gadījumā, ja nulles hipotēze ir patiesa
8.5. Daži U vērtību sadalījumi
8.6. Asimptotiskā varbūtības koeficienta sadalījuma izplešanās
8.7. Hipotēžu pārbaude par regresijas koeficientu matricām un ticamības reģioniem
8.8. Pārbaudīt hipotēzi par normālo sadalījumu vidējo vērtību vienādību ar vispārējo kovariācijas matricu
8.9. Vispārināta ANOVA
8.10. Citi lineārās hipotēzes pārbaudes kritēriji
8.11. Kanoniskā forma
Literatūra
Uzdevumi
9. nodaļa. Hipotēzes par gadījuma lielumu kopu neatkarību pārbaude
9.1. Ievads
9.2. Varbūtības koeficients kā kritērijs, lai pārbaudītu hipotēzi par nejaušo mainīgo kopu neatkarību
9.3. Iespējamības koeficienta momenti ar nosacījumu, ka nulles hipotēze ir patiesa
9.4. Daži varbūtības koeficientu sadalījumi
9.5. Asimptotiska h sadalījuma izplešanās (iespējamības koeficienti)
9.6. Piemērs
9.7. Divu gadījuma lielumu kopu gadījums
Literatūra
Uzdevumi
10. nodaļa. Hipotēžu pārbaude par kovariācijas matricu vienādību un gan vidējo vektoru, gan kovariācijas matricu vienādību
10.1. Ievads
10.2. Kritēriji hipotēžu pārbaudei par vairāku kovariācijas matricu vienādību
10.3. Vairāku normālu populāciju līdzvērtības hipotēzes pārbaudes kritēriji
10.4. Varbūtības koeficienta momenti
10.5. Lielumu V1 un V sadalījuma funkciju asimptotiskie izvērsumi
10.6. Divu populāciju gadījums
10.7. Pārbaudot hipotēzi, ka kovariācijas matrica ir proporcionāla noteiktai matricai. Sfēriskuma kritērijs
10.8. Pārbaudot hipotēzi, ka kovariācijas matrica ir vienāda ar doto matricu
10.9. Pārbaudot hipotēzi, ka vidējais vektors un kovariācijas matrica ir attiecīgi vienādas šis vektors un šī matrica
Literatūra
Uzdevumi
11. nodaļa. Galvenās sastāvdaļas
11.1. Ievads
11.2. Populācijas galveno komponentu noteikšana
11.3. Galveno komponentu un to dispersiju maksimālās varbūtības aplēses
11.4. Galveno komponentu maksimālās iespējamības aprēķinu aprēķināšana
11.5. Piemērs
Literatūra
Uzdevumi
12. nodaļa. Kanoniskās korelācijas un kanoniskie lielumi
12.1. Ievads
12.2. Kanoniskās korelācijas un kanoniskie lielumi populācija
12.3. Kanonisko korelāciju un kanonisko lielumu novērtēšana
12.4. Aprēķina metode
12.5. Piemērs
Literatūra
Uzdevumi
13. nodaļa. Dažu raksturīgo sakņu un vektoru sadalījums neatkarīgi no parametriem
13.1. Ievads
13.2. Divu Visharta matricu gadījums
13.3. Vienas nevienskaitļa Visharta matricas gadījums
13.4. Kanoniskās korelācijas
Literatūra
Uzdevumi
14. nodaļa. Dažu citu darbu apskats par daudzfaktoru analīzi
14.1. Ievads
14.2. Hipotēžu pārbaude par rangu un regresijas koeficientu lineāro ierobežojumu novērtēšana. Kanoniskās korelācijas un kanoniskie lielumi
14.3. Necentrālā Wishart izplatīšana
14.4. Dažu raksturīgo sakņu un vektoru sadalījums atkarībā no parametriem
14.5. Dažu raksturīgu sakņu un vektoru asimptotiskais sadalījums
14.6. Galvenās sastāvdaļas
14.7. Faktoru analīze
14.8. Stohastiskie vienādojumi
14.9. Laika rindu analīze
Literatūra
Pieteikums. Matricas teorija
1. Matricu definīcija. Darbības uz matricām
2. Raksturīgās saknes un vektori
3. Vektoru un matricu sadalīšana blokos
4. Daži rezultāti
5. Dūlita reducēšanas metode un asu biezināšanas metode sistēmu risināšanai lineārie vienādojumi
Literatūra
Priekšmeta rādītājs

DAUDZVARIĀTU STATISTISKĀ ANALĪZE

Matemātikas sadaļa statistika, kas veltīta matemātikai. metodes optimālu plānu veidošanai daudzfaktoru statistikas vākšanai, sistematizēšanai un apstrādei. dati, kuru mērķis ir identificēt pētāmās daudzdimensiju pazīmes komponentu attiecību raksturu un struktūru un kas paredzēti zinātniskas un praktiskas informācijas iegūšanai. secinājumus. Ar daudzdimensionālu pazīmi saprot p-dimensiju rādītājus (zīmes, mainīgie), starp kuriem var būt: kvantitatīvi, t.i. skalāri mēra noteiktā mērogā objekta pētāmās īpašības izpausmes, ordināls (vai kārtas), t.i., ļauj sakārtot. analizējamos objektus atbilstoši pētītās īpašības izpausmes pakāpei tajos; un klasifikācija (vai nominālā), t.i., dodot iespēju pētāmo objektu kopu sadalīt viendabīgās (pēc analizējamās īpašības) klasēs, kuras nevar sakārtot. Šo rādītāju mērīšanas rezultāti

uz katra no pētāmās populācijas objektiem tie veido daudzdimensionālus novērojumus vai sākotnējo daudzdimensiju datu masīvu MS veikšanai. A. Ievērojama daļa M. s. A. kalpo situācijām, kurās pētāmais daudzdimensiju atribūts tiek interpretēts kā daudzdimensionāls un attiecīgi daudzdimensionālu novērojumu secība (1) - kā no vispārējās populācijas. Šajā gadījumā sākotnējo statistikas datu apstrādes metožu izvēle. dati un to īpašību analīze tiek veikta, pamatojoties uz noteiktiem pieņēmumiem par daudzdimensionālā (kopīgā) varbūtības sadalījuma likuma būtību.

Daudzfaktoru sadalījumu un to galveno raksturlielumu daudzfaktoru statistiskā analīze aptver tikai situācijas, kurās apstrādātajiem novērojumiem (1) ir varbūtības raksturs, tas ir, tie tiek interpretēti kā izlase no atbilstošās vispārējās kopas. Šīs apakšiedaļas galvenie mērķi ir: statistika. pētāmo daudzdimensiju sadalījumu, to galveno skaitlisko raksturlielumu un parametru novērtējums; izmantoto statistikas datu īpašību izpēte. pakāpes; iespējamības sadalījumu izpēte virknei statistikas datu, ar kuras palīdzību tiek veidota statistika. kritēriji dažādu hipotēžu pārbaudei par analizēto daudzdimensiju datu varbūtības raksturu. Galvenie rezultāti attiecas uz īpašo gadījumu, kad pētāmais raksturlielums ir pakļauts daudzdimensionālam normālā sadalījuma likumam, kura blīvuma funkciju nosaka sakarība

kur ir vektora matemātika. gaidu komponents nejaušais mainīgais, t.i. ir nejauša vektora kovariācijas matrica, t.i., vektora komponentu kovariācija (nedeģenerēts gadījums tiek ņemts vērā, kad; pretējā gadījumā, t.i., ar rangu , visi rezultāti paliek spēkā, bet attiecībā uz apakštelpu ar zemāku dimensiju , kurā tas izrādās koncentrēts pētāmais nejaušības vektors).

Tādējādi, ja (1) ir neatkarīgu novērojumu secība, kas veido nejaušu izlasi, tad parametru maksimālās varbūtības aplēses, kas piedalās (2), ir attiecīgi statistika (sk., )

un nejaušais vektors pakļaujas p-dimensijas normāllikumam un nav atkarīgs no , un matricas elementu kopīgo sadalījumu apraksta t.s. Wisha rajona izplatība (sk.), to-rogo

Tās pašas shēmas ietvaros daudzfaktoru gadījuma lieluma tādu izlases raksturlielumu sadalījumi un momenti kā pāru, daļējās un daudzkārtējās korelācijas koeficienti, vispārināta (t.i.), vispārināta -Viesnīcu statistika (sk.). Jo īpaši (sk.), ja mēs definējam aprēķinu, kas koriģēts “neobjektivitātes dēļ”, kā izlases kovariācijas matricu, proti:

tad nejaušais mainīgais mēdz kad , un nejaušie mainīgie

ievērot F sadalījumu ar brīvības pakāpju skaitļiem, attiecīgi (p, p-p) un (p, n 1 + n 2-p-1). Proporcionāli (7) n 1 un n 2 — divu neatkarīgu 1. tipa paraugu tilpumi, kas iegūti no vienas un tās pašas vispārējās kopas — 3. un 4.–5. tipa aplēses, kas veidotas no i-tā parauga, un

Kopējā izlases kovariācija, kas veidota no aplēsēm un

Daudzdimensiju statistiskā analīze par sakarību raksturu un struktūru starp pētāmās daudzdimensiju pazīmes komponentiem apvieno jēdzienus un rezultātus, kas kalpo šādām MS metodēm un modeļiem. a., kā daudzkārtējs, daudzdimensionāls dispersijas analīze Un kovariācijas analīze, faktoru analīze un galveno komponentu analīze, kanoniskā analīze. korelācijas. Rezultātus, kas veido šīs apakšnodaļas saturu, var iedalīt divos galvenajos veidos.

1) Labāko (zināmā nozīmē) statistikas datu konstruēšana. minēto modeļu parametru aplēses un to īpašību analīze (precizitāte, un varbūtības formulējumā - to sadalījuma likumi, ticamības apgabali utt.). Tātad pētāmo daudzdimensiju pazīmi interpretēsim kā nejaušu vektoru, kas pakļauts p-dimensiju normālajam sadalījumam un sadalām divos apakšvektoros - attiecīgi kolonnās un dimensijās q un p-q. Tas matemātiski nosaka atbilstošo vektora dalījumu. gaidas, teorētiskās un izlases kovariācijas matricas, proti:

Tad (sk. , ) apakšvektors (ar nosacījumu, ka otrais apakšvektors ir ieguvis fiksētu vērtību) arī būs normāls). Šajā gadījumā tiek aprēķināta maksimālā iespējamība. šī klasiskā daudzfaktoru daudzkārtējās regresijas modeļa regresijas koeficientu un kovariātu matricām

attiecīgi būs savstarpēji neatkarīga statistika

šeit novērtējuma sadale ir pakļauta parastajam likumam , un novērtējumi n - Visharta likums ar parametriem un (kovariācijas matricas elementi ir izteikti matricas elementu izteiksmē).

Galvenie rezultāti par parametru aplēšu konstruēšanu un to īpašību izpēti faktoru analīzes modeļos, galveno komponentu un kanonisko korelāciju modeļos ir saistīti ar dažādu paraugu kovariācijas matricu īpašvērtību un vektoru varbūtības-statistisko īpašību analīzi.

Shēmās, kas neietilpst klasiskajā ietvarā. parastā modeļa, un it īpaši jebkura varbūtības modeļa ietvaros, galvenie rezultāti attiecas uz algoritmu konstruēšanu (un to īpašību izpēti), lai aprēķinātu parametru aplēses, kas ir vislabākās no noteiktas eksogēnas funkcijas viedokļa. modeļa kvalitāte (vai atbilstība).

2) Statistikas datu konstruēšana. kritēriji dažādu hipotēžu pārbaudei par pētāmo attiecību struktūru. Daudzfaktoru normālā modeļa ietvaros (1. tipa novērojumu secības tiek interpretētas kā nejaušas izlases no atbilstošām daudzfaktoru normālām populācijām), piemēram, statistiskās kritērijus šādu hipotēžu pārbaudei.

I. Hipotēzes par matemātikas vektora vienādību. pētāmo rādītāju cerības uz noteiktu konkrētu vektoru; pārbaudīts, izmantojot viesnīcu statistiku ar aizstāšanu ar formulu (6)

II. Matemātiskās hipotēzes par vektoru vienādību. gaidas divās populācijās (ar identiskām, bet nezināmām kovariācijas matricām), kuras attēlo divas izlases; pārbaudīts, izmantojot statistiku (sk.).

III. Matemātiskās hipotēzes par vektoru vienādību. gaidas vairākās vispārējās populācijās (ar identiskām, bet nezināmām kovariācijas matricām), kuras attēlo to paraugi; pārbaudīts, izmantojot statistiku

griezumā ir i-tā p-dimensija novērojums izlases lielumā, kas pārstāv j. ģenerālis populācija, un ir formas (3) aprēķini, kas veidoti attiecīgi katram paraugam un apvienotajam tilpuma paraugam.

IV. Izmantojot statistiku, tiek pārbaudītas hipotēzes par vairāku normālu populāciju līdzvērtību, ko pārstāv to paraugi

griezumā - (4) tipa novērtējums, kas veidots atsevišķi no novērojumiem j- paraugi, j=1, 2, ... , k.

V. Izmantojot statistiku, tiek pārbaudītas hipotēzes par apakšvektoru-dimensiju kolonnu savstarpējo neatkarību.

kurā un ir parauga kovariācijas matricas formā (4) visam vektoram un tā apakšvektoram x i) attiecīgi.

Pētītā daudzdimensiju novērojumu kopas ģeometriskās struktūras daudzdimensiju statistiskā analīze apvieno tādu modeļu un shēmu jēdzienus un rezultātus kā diskriminācijas analīze, varbūtību sadalījumu maisījumi, klasteru analīze un taksonomija, daudzdimensiju mērogošana. Galvenais jēdziens visās šajās shēmās ir attāluma (tuvuma mēri, līdzības mēri) jēdziens starp analizētajiem elementiem. Šajā gadījumā tos var analizēt kā reālus objektus, uz kuriem katram tiek reģistrētas rādītāju vērtības - pēc tam ģeometriskas. i-tā apskatāmā objekta attēls būs punkts attiecīgajā p-dimensiju telpā, bet paši rādītāji - tad ģeometriski. l-tā indikatora attēls būs punkts attiecīgajā n-dimensiju telpā.

Diskriminantu analīzes metodes un rezultāti (sk. , , ) ir vērsti uz šādu uzdevumu. Ir zināms, ka pastāv noteikts skaits populāciju, un pētniekam ir viens paraugs no katras populācijas ("apmācības paraugi"). Nepieciešams, pamatojoties uz pieejamajiem apmācības paraugiem, izveidot savā ziņā labāko klasifikācijas noteikumu, kas ļauj piešķirt noteiktu jaunu elementu (novērojumu) tās kopējai populācijai situācijā, kad pētnieks iepriekš nezina. kurai populācijai šis elements pieder. Parasti klasifikācijas noteikums tiek saprasts kā darbību secība: aprēķinot pētāmo rādītāju skalāro funkciju, pamatojoties uz griezuma vērtībām, tiek pieņemts lēmums piešķirt elementu vienai no klasēm (konstrukcija diskriminējoša funkcija); sakārtojot pašus rādītājus pēc to informācijas satura pakāpes no pareizas elementu piešķiršanas klasēm viedokļa; aprēķinot atbilstošās nepareizās klasifikācijas varbūtības.

Uzdevums analizēt varbūtības sadalījumu maisījumus (sk.) visbiežāk (bet ne vienmēr) rodas arī saistībā ar aplūkojamās populācijas “ģeometriskās struktūras” izpēti. Šajā gadījumā r-tās homogēnās klases jēdziens tiek formalizēts, izmantojot vispārējo populāciju, ko apraksta noteikts (parasti unimodāls) sadalījuma likums, lai vispārējās populācijas sadalījumu, no kuras tiek iegūts paraugs (1), apraksta ar: formas sadalījumu sajaukums, kur p r - r-tās klases a priori varbūtība (specifiski elementi) vispārējā populācijā. Izaicinājums ir "laba" statistika. novērtējot (no izlases) nezināmus parametrus un dažreiz Uz. Tas jo īpaši ļauj mums reducēt elementu klasificēšanas uzdevumu uz diskriminējošas analīzes shēmu, lai gan šajā gadījumā nebija mācību paraugu.

Klasteru analīzes metodes un rezultāti (klasifikācija, taksonomija, nekontrolēta modeļu atpazīšana, sk. , , ) ir vērsti uz šādas problēmas risināšanu. Ģeometriski analizētā elementu kopa tiek dota vai nu ar atbilstošo punktu koordinātām (t.i., matrica ..., n) , vai ģeometrisko to īpašības relatīvā pozīcija, piemēram, pāru attālumu matrica. Nepieciešams pētāmo elementu kopu sadalīt salīdzinoši mazās (iepriekš zināmās vai nepazīstamās) klasēs tā, lai vienas klases elementi atrastos nelielā attālumā viens no otra, savukārt dažādas klases, ja iespējams, būtu pietiekami savstarpēji attālinātas no. viens otru un nebūtu sadalīti tādās daļās, kas atrodas tālu viena no otras.

Daudzdimensiju mērogošanas problēma (sk.) attiecas uz situāciju, kad pētāmo elementu kopa tiek precizēta, izmantojot pāru attālumu matricu un sastāv no tā, ka katram no elementiem tiek piešķirts noteikts (p) koordinātu skaits tā, lai elementu pāru savstarpējo attālumu struktūra, kas mērīta, izmantojot šīs palīgkoordinātas, vidēji vismazāk atšķirtos no dotās. Jāatzīmē, ka galvenie klasteru analīzes un daudzdimensiju mērogošanas rezultāti un metodes parasti tiek izstrādātas bez jebkādiem pieņēmumiem par avota datu varbūtības raksturu.

Daudzfaktoru statistiskās analīzes izmantotais mērķis galvenokārt ir risināt šādas trīs problēmas.

Analizēto rādītāju atkarību statistiskās izpētes problēma. Pieņemot, ka pētītā statistiski reģistrēto rādītāju kopa x ir sadalīta, pamatojoties uz šo rādītāju jēgpilno nozīmi un pētījuma gala mērķiem, prognozējamo (atkarīgo) mainīgo q dimensijas apakšvektorā un (p-q) dimensijas apakšvektorā. prognozējošiem (neatkarīgiem) mainīgajiem, mēs varam teikt, ka problēma ir, pamatojoties uz paraugu (1), noteikt šādu q-dimensiju vektora funkciju no pieļaujamo risinājumu klases F, mala noteiktā nozīmē sniegtu vislabāko rādītāju apakšvektora uzvedības tuvinājumu. Atkarībā no konkrētā funkcionālā veida, aproksimācijas kvalitāte un analizējamo rādītāju raksturs nonāk vienā vai citā daudzkārtējās regresijas, dispersijas, kovariācijas vai saplūšanas analīzes shēmā.

Elementu (objektu vai indikatoru) klasificēšanas problēma vispārīgā (nestingrā) formulējumā ir sadalīt visu analizēto elementu kopu, kas statistiski parādīta matricas vai matricas veidā, salīdzinoši nelielā skaitā viendabīgo. noteikta jēga, grupas. Atkarībā no aprioriskās informācijas rakstura un specifiskā funkcionālā veida, kas nosaka klasifikācijas kvalitātes kritēriju, nonāk pie vienas vai otras diskriminantu analīzes, klasteru analīzes (taksonomijas, “nepārraudzītas” modeļu atpazīšanas) un sadalījumu maisījumu sadalīšanas shēmas. .

Pētāmās faktoru telpas dimensijas samazināšanas un informatīvāko rādītāju atlases problēma ir noteikt tādu relatīvi neliela rādītāju kopu, kas atrodama sākotnējo rādītāju pieļaujamo transformāciju klasē. uz kuriem tiek sasniegts m-dimensiju pazīmju sistēmas eksogēni dotā informācijas satura mēra augšējais noteiktais bars (sk.). Funkcijas norādīšana, kas nosaka autoinformativitātes mēru (t.i., kuras mērķis ir maksimāli palielināt statistikas masīvā (1) esošās informācijas saglabāšanu attiecībā pret pašām sākotnējām pazīmēm), jo īpaši noved pie dažādām faktoru analīzes shēmām un principiem. komponentiem, līdz pazīmju ekstrēmas grupēšanas metodēm. Funkcijas, kas nosaka ārējās informācijas satura mērauklu, t.i., kuru mērķis ir iegūt no (1) maksimālu informāciju par dažām citām, kas nav tieši ietvertas rādītājos vai parādībās, noved pie dažādas metodes informatīvāko rādītāju atlase statistikas shēmās. atkarības izpēte un diskriminantu analīze.

MS matemātiskie pamatrīki. A. veido īpašas lineāro vienādojumu sistēmu teorijas un matricu teorijas metodes (metodes vienkāršu un vispārinātu īpašvērtību un vektoru problēmu risināšanai; vienkārša matricu inversija un pseidoinversija; matricu diagonalizācijas procedūras utt.) un noteikti optimizācijas algoritmi (metodes) koordinātu nolaišanās, konjugācijas gradienti, atzari un robežas, dažādas nejaušās meklēšanas un stohastiskās aproksimācijas versijas utt.).

Lit.: Andersons T., Ievads daudzfaktoru statistiskajā analīzē, trans. no angļu val., M., 1963; Kendall M.J., Stewart A., Daudzfaktoru statistiskā analīze un laika rindas, trans. no angļu val., M., 1976; Boļševs L.N., "Bull. Int. Stat. Inst.", 1969, Nr. 43, lpp. 425-41; Wishart .J., "Biometrika", 1928, v. 20A, 1. lpp. 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2. lpp. 360-78; [c] Kruskal J. V., "Psihometrika", 1964, v. 29. lpp. 1-27; Ayvazyan S. A., Bezhaeva Z. I., . Staroverovs O.V., Daudzdimensiju novērojumu klasifikācija, M., 1974.

S.A. Ayvazyan.


Matemātiskā enciklopēdija. - M.: Padomju enciklopēdija. I. M. Vinogradovs. 1977-1985.

Tehniskā tulkotāja rokasgrāmata

Matemātiskās statistikas sadaļa (sk.), kas veltīta matemātikai. metodes, kuru mērķis ir identificēt attiecību raksturu un struktūru starp pētāmās daudzdimensionālās pazīmes komponentiem (sk.) un kuru mērķis ir iegūt zinātnisku. un praktiski......

Plašā nozīmē matemātiskās statistikas sadaļa (Skat. Matemātiskā statistika), kurā apvienotas metodes statistikas datu izpētei, kas saistīti ar objektiem, kuriem raksturīgi vairāki kvalitatīvi vai kvantitatīvi... ... Lielā padomju enciklopēdija

DAUDZVARIĀTU STATISTISKĀ ANALĪZE- matemātiskās statistikas sadaļa, kas paredzēta, lai analizētu attiecības starp trim vai vairākiem mainīgajiem. Mēs nosacīti varam izdalīt trīs galvenās A.M.S problēmu klases. Šis ir pētījums par attiecību struktūru starp mainīgajiem un telpas dimensijas samazināšanu... Socioloģija: enciklopēdija

KOVARIANCES ANALĪZE- – matemātisko metožu kopums. statistika, kas saistīta ar noteikta gadījuma lieluma Y vidējās vērtības atkarības modeļu analīzi no nekvantitatīvo faktoru kopas F un vienlaikus no kvantitatīvo faktoru kopas X. Attiecībā uz Y... . .. Krievu socioloģiskā enciklopēdija

Matemātikas sadaļa statistika, kuras saturs ir statistikas izstrāde un izpēte. metodes šādas diskriminācijas problēmas risināšanai: pamatojoties uz novērojumu rezultātiem, nosakiet, kurš no vairākiem iespējamiem... ... Matemātiskā enciklopēdija, Orlova Irina Vladlenovna, Kontsevaya Natalya Valerievna, Turundaevsky Viktor Borisovich. Grāmata ir veltīta daudzfaktoru statistiskajai analīzei (MSA) un aprēķinu organizēšanai, izmantojot MSA. Lai ieviestu daudzfaktoru statistikas metodes, tiek izmantota statistikas apstrādes programma...


Ir situācijas, kurās nejaušības mainīgums tika attēlots ar vienu vai diviem nejaušiem mainīgajiem, zīmēm.

Piemēram, pētot statistisko cilvēku populāciju, mūs interesē augums un svars. Šajā situācijā neatkarīgi no tā, cik cilvēku ir statistiskajā populācijā, mēs vienmēr varam uzzīmēt izkliedes diagrammu un redzēt kopainu. Taču, ja ir trīs atribūti, piemēram, pieskaita personas vecumu, tad izkliedes diagramma jākonstruē trīsdimensiju telpā. Jau tagad ir diezgan grūti iedomāties punktu kopumu trīsdimensiju telpā.

Patiesībā praksē katrs novērojums tiek attēlots nevis ar vienu, diviem vai trim cipariem, bet gan ar kādu pamanāmu skaitļu kopu, kas raksturo desmitiem pazīmju. Šādā situācijā, lai izveidotu izkliedes diagrammu, būtu jāņem vērā daudzdimensiju telpas.

Statistikas nozari, kas nodarbojas ar eksperimentu izpēti ar daudzfaktoru novērojumiem, sauc par daudzfaktoru statistisko analīzi.

Vairāku zīmju (objekta īpašību) mērīšana vienlaikus vienā eksperimentā parasti ir dabiskāka nekā tikai vienas vai divu izmērīšana. Tāpēc potenciāli daudzfaktoru statistiskajai analīzei ir plašs lietojumu klāsts.

Daudzfaktoru statistiskā analīze ietver šādas sadaļas:

Faktoru analīze;

Diskriminanta analīze;

Klasteru analīze;

Daudzdimensiju mērogošana;

Kvalitātes kontroles metodes.

Faktoru analīze

Pētot sarežģītus objektus un sistēmas (piemēram, psiholoģijā, bioloģijā, socioloģijā u.c.), lielumus (faktorus), kas nosaka šo objektu īpašības, ļoti bieži nevar tieši izmērīt, un dažreiz pat nav zināms to skaits un jēgpilnā nozīme. . Bet mērījumiem var būt pieejami arī citi lielumi, kas vienā vai otrā veidā ir atkarīgi no interesējošajiem faktoriem. Turklāt, ja mums interesējoša nezināma faktora ietekme izpaužas vairākās izmērītās zīmēs, šīs pazīmes var atklāt ciešs savienojums faktoru kopskaits var būt daudz mazāks par izmērīto mainīgo lielumu skaitu.

Faktoru analīzes metodes tiek izmantotas, lai atklātu faktorus, kas ietekmē izmērītos mainīgos.

Faktoranalīzes pielietošanas piemērs ir personības iezīmju izpēte, pamatojoties uz psiholoģiskie testi. Personības īpašības nevar tieši izmērīt; tās var novērtēt tikai pēc cilvēka uzvedības vai viņa atbilžu rakstura uz noteiktiem jautājumiem. Lai izskaidrotu eksperimentu rezultātus, tiem tiek veikta faktoru analīze, kas ļauj identificēt tās personiskās īpašības, kas ietekmē pārbaudāmo personu uzvedību.


Dažādi faktoru analīzes modeļi ir balstīti uz sekojošu hipotēzi: novērotie vai izmērītie parametri ir tikai netieši pētāmā objekta vai parādības raksturlielumi, ir iekšējie (slēptie, latentais, nav tieši novērojami) parametri un īpašības, kuru skaits ir neliels un kas nosaka novērojamo parametru vērtības. Šos iekšējos parametrus parasti sauc par faktoriem.

Faktoranalīzes uzdevumsir novēroto parametru attēlojums lineāru faktoru kombināciju veidā un, iespējams, daži papildu, nesvarīgi traucējumi.

Pirmais faktoru analīzes posms, kā likums, ir jaunu pazīmju atlase, kas ir iepriekšējo lineāras kombinācijas un “absorbē” lielāko daļu no novēroto datu kopējās variabilitātes, tādējādi nododot lielāko daļu informācijas, kas ietverta oriģinālie novērojumi. Tas parasti tiek darīts, izmantojot galvenās sastāvdaļas metode, lai gan dažreiz tiek izmantoti citi paņēmieni (maksimālās varbūtības metode).

Galvenā komponenta metode ir jaunas ortogonālās koordinātu sistēmas izvēle novērošanas telpā. Virziens, pa kuru novērojumu masīvam ir vislielākā izkliede, tiek izvēlēts kā pirmā galvenā sastāvdaļa, katra nākamā galvenā komponente tiek izvēlēta tā, lai novērojumu izkliede būtu maksimāla un šī galvenā komponente būtu ortogonāla pārējām iepriekš izvēlētajām galvenajām sastāvdaļām. Tomēr faktorus, kas iegūti ar galveno komponentu metodi, parasti nevar pietiekami skaidri interpretēt. Tāpēc nākamais solis faktoru analīzē ir transformācija, faktoru rotācija, lai atvieglotu interpretāciju.

Diskriminantu analīze

Lai ir objektu kolekcija, kas sadalīta vairākās grupās, un katram objektam ir iespējams noteikt, kurai grupai tas pieder. Katram objektam ir vairāku kvantitatīvo raksturlielumu mērījumi. Ir jāatrod veids, kā, pamatojoties uz šīm pazīmēm, noskaidrot grupu, kurai objekts pieder. Tas ļaus norādīt grupas, kurām pieder jaunas vienas kolekcijas objekti. Lai atrisinātu problēmu, viņi izmanto diskriminantu analīzes metodes.

Diskriminantu analīze- Šī ir statistikas nozare, kuras saturs ir novērošanas objektu diskriminācijas (diskriminācijas) problēmu risināšanas metožu izstrāde pēc noteiktām pazīmēm.

Apskatīsim dažus piemērus.

Diskriminējošā analīze ir noderīga, lai apstrādātu personu pārbaudes rezultātus, kad runa ir par pieņemšanu darbā konkrētam amatam. Šajā gadījumā visi kandidāti ir jāsadala divās grupās: “piemērots” un “nepiemērots”.

Banku administrācija, lai novērtētu, var izmantot diskriminantu analīzi finansiālais stāvoklis klientu lietas, izsniedzot aizdevumu. Banka tos klasificē uzticamos un neuzticamos, pamatojoties uz vairākiem kritērijiem.

Diskriminanta analīzi var izmantot kā metodi uzņēmumu kopas sadalīšanai vairākos viendabīgas grupas saskaņā ar jebkuru ražošanas un saimnieciskās darbības rādītāju vērtībām.

Diskriminējošās analīzes metodes ļauj konstruēt izmērīto raksturlielumu funkcijas, kuru vērtības izskaidro objektu sadalījumu grupās. Vēlams, lai šīs funkcijas (diskriminējošas pazīmes) bija mazliet. Šajā gadījumā analīzes rezultātus ir vieglāk interpretēt jēgpilni.

Vienkāršības dēļ īpaša loma ir lineārajai diskriminantu analīzei, kurā klasifikācijas pazīmes tiek atlasītas kā primāro pazīmju lineārās funkcijas.

Klasteru analīze

Klasteru analīzes metodes ļauj sadalīt pētīto objektu kopu “līdzīgu” objektu grupās, ko sauc par klasteriem.

Vārds klasteris Angļu izcelsme - cluster tulko kā birste, ķekars, grupa, bars, kopa.

Klasteru analīze atrisina šādas problēmas:

Klasificē objektus, ņemot vērā visas objektu raksturojošās pazīmes. Pati klasifikācijas iespēja virza mūs uz aplūkojamā kopuma un tajā ietverto objektu padziļinātāku izpratni;

Iestata uzdevumu pārbaudīt a priori dotas struktūras vai klasifikācijas esamību esošajā populācijā. Šāds tests ļauj izmantot zinātnisko pētījumu standarta hipotētiski-deduktīvo shēmu.

Lielākā daļa klasterizācijas (hierarhisko grupu) metožu ir aglomeratīvs(apvienošanās) - tie sākas ar elementāru kopu izveidošanu, no kuriem katrs sastāv tieši no viena sākotnējā novērojuma (viena punkta), un katrā nākamajā solī divi tuvākie klasteri tiek apvienoti vienā.

Brīdi šī procesa apturēšanai var iestatīt pētnieks (piemēram, norādot nepieciešamo klasteru skaitu vai maksimālo attālumu, kādā tiek sasniegta savienība).

Klasteru apvienošanas procesa grafisku attēlojumu var iegūt, izmantojot dendrogrammas- kopu saplūšanas koks.

Apsveriet šādu piemēru. Klasificēsim piecus uzņēmumus, no kuriem katru raksturo trīs mainīgie:

x 1– ražošanas pamatlīdzekļu vidējās gada izmaksas, miljardi rubļu;

x 2– materiālu izmaksas par 1 rubli. saražotā produkcija, kapeikas;

x 3– saražotās produkcijas apjoms, miljardi rubļu.

Līdzīgi raksti

2024 liveps.ru. Mājas darbi un gatavās problēmas ķīmijā un bioloģijā.