Acasă - Laptop-uri
Matricea factorilor. ÎN

Analiza factorială este o ramură a statisticii matematice. Scopurile sale, ca și scopul altor ramuri ale statisticii matematice, sunt de a dezvolta modele, concepte și metode care să permită analiza și interpretarea rețelelor de date experimentale sau observate, indiferent de forma lor fizică.

Una dintre cele mai tipice forme de reprezentare a datelor experimentale este o matrice, ale cărei coloane corespund diverșilor parametri, proprietăți, teste etc., iar rândurile corespund unor obiecte, fenomene, moduri individuale descrise de un set de valori specifice parametrilor. În practică, dimensiunile matricei se dovedesc a fi destul de mari: de exemplu, numărul de rânduri ale acestei matrice poate varia de la câteva zeci la câteva sute de mii (de exemplu, în anchetele sociologice), iar numărul de coloane - de la unu până la două până la câteva sute. Analiza directă, „vizuală” a matricelor de această dimensiune este imposibilă, prin urmare, în statistica matematică, au apărut multe abordări și metode menite să „comprima” informațiile inițiale conținute în matrice la o dimensiune gestionabilă, pentru a extrage cele mai „esențiale” din informațiile inițiale, eliminând „secundarul”, „aleatoriu”.

Atunci când se analizează datele prezentate sub formă de matrice, apar două tipuri de probleme. Sarcinile de primul tip au ca scop obținerea unei „descriere scurtă” a distribuției obiectelor, iar sarcinile de al doilea tip au ca scop identificarea relațiilor dintre parametri.

Trebuie avut în vedere că principalul stimulent pentru apariția acestor sarcini constă nu numai și nu atât în ​​dorința de a codifica pe scurt o gamă largă de numere, ci într-o împrejurare mult mai fundamentală de natură metodologică: odată ce a fost posibil să se descrie pe scurt o gamă largă de numere, atunci se poate crede că a fost dezvăluit un anumit model obiectiv care a determinat posibilitatea unei scurte descrieri; dar căutarea modelelor obiective este scopul principal pentru care, de regulă, sunt colectate date.

Abordările și metodele menționate pentru prelucrarea matricelor de date diferă prin tipul de problemă de prelucrare a datelor pe care intenționează să o rezolve și în matricele de ce dimensiune sunt aplicabile.

În ceea ce privește problema unei scurte descrieri a conexiunilor dintre parametrii cu un număr mediu al acestor parametri, în acest caz matricea de corelație corespunzătoare conține câteva zeci sau sute de numere și în sine nu poate servi încă ca o „descriere scurtă” a conexiunile existente între parametri, dar ar trebui cu aceasta în scopul prelucrării ulterioare.

Analiza factorială este tocmai un set de modele și metode menite să „comprima” informațiile conținute în matricea de corelație. La baza diferitelor modele de analiză factorială se află următoarea ipoteză: parametrii observați sau măsurați sunt doar caracteristici indirecte ale obiectului sau fenomenului studiat, dar de fapt există parametri sau proprietăți interni (ascunși, nu observabili direct), al căror număr. este mic și care determină valorile parametrilor observați. Acești parametri interni sunt de obicei numiți factori. Sarcina analizei factorilor este de a prezenta parametrii observați sub formă de combinații liniare de factori și, poate, unele cantități suplimentare, „neesențiale” - „interferență”. Faptul remarcabil este că, deși factorii în sine nu sunt cunoscuți, se poate obține o astfel de descompunere și, în plus, se pot determina astfel de factori, adică. pentru fiecare obiect pot fi indicate valorile fiecărui factor.

Analiza factorială, indiferent de metodele folosite, începe cu prelucrarea unui tabel de intercorelații obținute pe un set de teste, cunoscut sub numele de matrice de corelație, și se termină cu obținerea unei matrice factoriale, adică. un tabel care arată greutatea sau încărcarea fiecărui factor pentru fiecare test. Tabelul 1 este o matrice ipotetică de factori care conține doar doi factori.

Factorii sunt enumerați în rândul de sus al tabelului de la cel mai semnificativ la cel mai puțin semnificativ, iar ponderile lor în fiecare dintre cele 10 teste sunt date în coloanele corespunzătoare.

Tabelul 1

Matricea factorilor ipotetici

Axele de coordonate. Se obișnuiește să se reprezinte geometric factorii sub formă de axe de coordonate, în raport cu care fiecare test poate fi reprezentat ca punct. Orez. 1 explică această procedură. În acest grafic, fiecare dintre cele 10 teste prezentate în tabelul 1 este afișat ca punct relativ la doi factori care corespund axelor I și II. Astfel, testul 1 este reprezentat de un punct cu coordonatele 0,74 de-a lungul axei I și 0,54 de-a lungul axei II. Punctele reprezentând cele 9 teste rămase sunt reprezentate într-un mod similar, folosind valorile greutății din tabel. 1.

Trebuie remarcat faptul că poziția axelor de coordonate nu este fixată de date. Tabelul de corelație inițial determină doar poziția testelor (adică punctele din Fig. 1) relativ unul față de celălalt. Aceleași puncte pot fi trasate pe un plan cu orice poziție a axelor de coordonate. Din acest motiv, atunci când se efectuează analiza factorială, este obișnuit să se rotească axele până când se obține afișajul cel mai adecvat și ușor de interpretat.

Orez. 1. Afișarea factorilor ipotetici care arată ponderile celor doi factori de grup pentru fiecare dintre cele 10 teste.

În fig. 1, axele I" și II" obținute după rotație sunt prezentate prin linii punctate. Această rotație este efectuată în conformitate cu criteriile propuse de Thurstone diversitate pozitivă și structură simplă. Primul implică rotirea axelor într-o poziție în care toate greutățile negative semnificative sunt eliminate. Majoritatea psihologilor consideră că încărcările negative ale factorilor sunt inadecvate din punct de vedere logic pentru testele de aptitudini, deoarece astfel de încărcări înseamnă că cu cât scorul unui individ la un anumit factor este mai mare, cu atât scorul său este mai scăzut la testul corespunzător. Criteriul de structură simplă înseamnă în esență că fiecare test ar trebui să se încarce pe cât mai puțini factori posibil.

Îndeplinirea ambelor criterii produce factori care pot fi interpretați cel mai ușor și fără ambiguitate. Dacă un test are o încărcare mare pentru un factor și nicio încărcare semnificativă pentru alți factori, putem afla ceva despre natura acelui factor examinând conținutul acest test. În schimb, dacă un test are încărcări medii sau scăzute pe șase factori, atunci ne va spune puțin despre natura oricăruia dintre ei.

În fig. 1 arată clar că după rotirea axelor de coordonate, toate testele verbale (1-5) sunt situate de-a lungul sau foarte aproape de axa I”, iar testele numerice (6-10) sunt strâns grupate în jurul axei II”. Noile încărcări ale factorilor, măsurate în raport cu axele rotite, sunt date în tabel. 2. Factorizați încărcările în tabel. 2 nu au valori negative, cu excepția valorilor neglijabile care sunt în mod clar atribuibile erorilor de eșantionare. Toate testele verbale au încărcări mari pe factorul I" și practic încărcări zero pe factorul II." Testele numerice, dimpotrivă, au sarcini mari pe factorul II" și încărcări neglijabile pe factorul I." Astfel, rotirea axelor de coordonate a simplificat foarte mult identificarea și denumirea ambilor factori, precum și descrierea compoziției factorilor a fiecărui test. În practică, numărul de factori se dovedește adesea a fi mai mult de doi, ceea ce, desigur, îi complică reprezentare geometricăŞi analiza statistica, dar nu modifică esența procedurii luate în considerare.

Tabelul 2

Matricea factorilor după rotație

Unii cercetători sunt ghidați de modelul teoretic ca principiu de rotație a axei. În plus, se ia în considerare invarianța sau confirmarea acelorași factori în studii efectuate independent, dar comparabile.

Interpretarea factorilor. După ce am primit o soluție factorială (sau, mai simplu, o matrice factorială) după procedura de rotație, putem trece la interpretarea și denumirea factorilor. Această etapă a muncii necesită mai degrabă intuiție psihologică decât pregătire statistică. Pentru a înțelege natura unui anumit factor, nu avem de ales decât să studiem testele care au încărcări mari asupra acestui factor și să încercăm să descoperim procesele psihologice comune acestora. Cu cât există mai multe teste cu încărcări mari pentru un anumit factor, cu atât este mai ușor să-i dezvălui natura. De la masă 2, de exemplu, este imediat clar că factorul I" este verbal, iar factorul II" este numeric. Date în tabel. Încărcările cu 2 factori reflectă, de asemenea, corelația fiecărui test cu factorul.

Dacă analiza factorială este făcută corect, mai degrabă decât să fii mulțumit de setările implicite („fățișări mici”, așa cum metodologii numesc în derizoriu setul standard de gentleman), metoda preferată de extracție a factorilor este fie probabilitatea maximă, fie cele mai mici pătrate generalizate. Aici ne pot aștepta probleme: procedura produce un mesaj de eroare: matricea de corelație nu este pozitivă definitivă. Ce înseamnă asta, de ce se întâmplă și cum să rezolvi problema?
Cert este că în procesul de factorizare procedura caută așa-numitul matrice inversăîn raport cu corelaţia. Există o analogie aici cu numerele reale obișnuite: înmulțind un număr cu inversul său, ar trebui să obținem unul (de exemplu, 4 și 0,25). Cu toate acestea, pentru unele numere nu există inverse - zero nu poate fi înmulțit cu ceva care va avea ca rezultat unul. Este aceeași poveste cu matricele. O matrice înmulțită cu inversul său dă matricea de identitate (cele sunt pe diagonală și toate celelalte valori sunt zero). Cu toate acestea, pentru unele matrice nu există inverse, ceea ce înseamnă că devine imposibilă efectuarea unei analize factoriale pentru astfel de cazuri. Descoperi acest fapt se poate face folosind un număr special numit determinant. Dacă tinde spre zero sau este negativ pentru matrice, atunci ne confruntăm cu o problemă.
Care sunt motivele acestei situații? Cel mai adesea apare din cauza existenței dependență liniarăîntre variabile. Sună ciudat, deoarece tocmai aceste dependențe le căutăm folosind metode multidimensionale. Cu toate acestea, în cazul în care astfel de dependențe încetează să fie probabiliste și devin strict deterministe, algoritmii de analiză multidimensională eșuează. Luați în considerare următorul exemplu. Să avem următorul set de date:
lista de date gratuită / V1 până la V3. începe datele. 1 2 3 2 1 2 3 5 4 4 4 5 5 3 1 date finale. calculați V4 = V1 + V2 + V3.
Ultima variabilă este suma exactă a primelor trei. Când apare această situație într-un studiu real? Când includem scorurile brute pentru subteste și testul în ansamblu în setul de variabile; când numărul de variabile este mult mai mare decât numărul de subiecţi (mai ales dacă variabilele sunt foarte corelate sau au un set limitat de valori). În acest caz, relațiile liniare precise pot apărea întâmplător. Dependențele sunt adesea un artefact al procedurii de măsurare - de exemplu, dacă se calculează procentele din cadrul observațiilor (de exemplu, procentul de afirmații de un anumit tip), se utilizează o metodă de clasare sau distribuția unei sume constante, se introduc unele restricții asupra alegerea alternativelor etc. După cum puteți vedea, acestea sunt situații destul de comune.
Dacă, atunci când efectuați analiza factorială în SPSS a matricei de mai sus, comandați ieșirea determinantului și a matricei de corelație inversă, pachetul va raporta o problemă.
Cum se identifică un grup de variabile care creează multicoliniaritate? Se pare că vechea metodă bună a componentelor principale, în ciuda dependenței liniare, continuă să funcționeze și produce ceva. Dacă vedeți că comunitățile unora dintre variabile se apropie de 0,90-0,99, iar valorile proprii ale unor factori devin foarte mici (sau chiar negative), acesta nu este un semn bun. În plus, comandă o rotație varimax și vezi ce grup de variabile a ajuns cu prietenul suspectat că are o legătură criminală. De obicei, sarcina sa asupra acestui factor este neobișnuit de mare (0,99, de exemplu). Dacă acest set de variabile este mic, eterogen ca conținut, este exclusă posibilitatea dependenței liniare artefactuale, iar eșantionul este suficient de mare, atunci descoperirea unei astfel de relații poate fi considerată un rezultat la fel de valoros. Puteți roti un astfel de grup în analiza de regresie: faceți ca variabila care a arătat cea mai mare sarcină să fie dependentă și încercați pe toate celelalte ca predictori. R, adică coeficientul de corelație multiplă ar trebui să fie în acest caz egal cu 1. Dacă relația liniară este foarte neglijată, atunci regresia va arunca în tăcere alți predictori, uitați-vă cu atenție la ceea ce lipsește. Comandând suplimentar o ieșire de diagnosticare multicoliniaritate, puteți găsi în cele din urmă setul nefericit care formează o relație liniară exactă.
Și, în sfârșit, există câteva alte motive mai mici pentru care matricea de corelație nu este definitivă pozitivă. Aceasta este, în primul rând, prezența unui număr mare de non-răspunsuri. Uneori, pentru a valorifica la maximum informațiile disponibile, cercetătorul dispune prelucrarea lacunelor în perechi. Ca rezultat, rezultatul poate fi o matrice de conexiune atât de „ilogică”, încât modelul de analiză factorială nu o va putea gestiona. În al doilea rând, dacă alegeți să factorizați o matrice de corelație raportată în literatură, puteți întâlni impactul negativ al rotunjirii numerelor.

ETAPE ALE ANALIZEI FACTORILOR DE PERFORMANCE

Există nouă etape de analiză factorială. Pentru claritate, prezentăm aceste etape într-o diagramă, apoi le oferim o scurtă descriere.

Etapele efectuării analizei factoriale sunt prezentate în Fig.

Orez.

FORMULAREA PROBLEMEI SI CONSTRUIREA MATRIEI DE CORELATIE

Formularea problemei. Este necesar să se definească clar obiectivele analizei factoriale. Variabilele supuse analizei factoriale sunt stabilite pe baza cercetărilor anterioare, a considerațiilor teoretice sau la discreția cercetătorului. Este necesar ca variabilele să fie măsurate în termeni de interval sau relativ scară. Experiența arată că dimensiunea eșantionului ar trebui să fie de patru până la cinci ori mai mare decât numărul de variabile.

Construirea unei matrice de corelație. Analiza se bazează pe o matrice de corelație între variabile. Fezabilitatea efectuării analizei factoriale este determinată de prezența corelațiilor între variabile. Dacă corelațiile dintre toate variabilele sunt mici, atunci analiza factorială este inutilă. Variabilele care sunt foarte corelate tind să fie puternic corelate cu același factor sau factori.

Există mai multe statistici pentru a testa fezabilitatea utilizării unui model factorial. Folosind testul de sfericitate al lui Bartlett, este testată ipoteza nulă că nu există o corelație între variabilele din populație. Aceasta înseamnă că ceea ce este luat în considerare este afirmația că matricea de corelație a populației este o matrice de identitate în care toate elementele diagonale sunt egale cu unul și toate celelalte sunt egale cu zero. Testul de sfericitate se bazează pe conversia determinantului matricei de corelație într-o statistică chi-pătrat. Dacă valoarea statistică este mare, ipoteza nulă este respinsă. Dacă ipoteza nulă nu este respinsă, atunci efectuarea analizei factorilor nu este adecvată. O altă statistică utilă este testul Kaiser-Meyer-Olkin (KMO) de adecvare a eșantionării. Acest coeficient compară valorile coeficienților de corelație observați cu valorile coeficienților de corelație parțială. Valorile mici ale statisticii KMO indică faptul că corelațiile dintre perechile de variabile nu pot fi explicate prin alte variabile, ceea ce înseamnă că utilizarea analizei factoriale este inadecvată.

Următorul exemplu se bazează pe date fictive legate de studiul satisfacției cu viața. Să presupunem că chestionarul a fost trimis la 100 de adulți selectați aleatoriu. Chestionarul conținea 10 itemi menționați pentru a măsura satisfacția la locul de muncă, satisfacția față de hobby-uri, satisfacția față de viața de acasă și satisfacția generală în alte domenii ale vieții. Răspunsurile la itemi au fost introduse într-un computer și scalate astfel încât media tuturor itemilor să fie de aproximativ 100.

Rezultatele au fost plasate în fișierul de date Factor.sta. Puteți deschide acest fișier folosind opțiunea File - Open; Cel mai probabil, acest fișier de date se află în directorul /Examples/Datasets. Mai jos este o listă a variabilelor din acest fișier (pentru a obține o listă, selectați Toate specificațiile variabilelor din meniul Date).

Scopul analizei . Scopul analizei este de a studia relațiile dintre satisfacție în diverse domenii de activitate. În special, este de dorit să se studieze problema numărului de factori care se „ascund” în spatele diferitelor domenii de activitate și semnificația acestora.

Selectarea analizei. Selectați Analiza factorială din meniul Analiză - Analiză exploratorie multivariată pentru a afișa panoul de lansare al modulului Analiză factorială. Faceți clic pe butonul Variabile de pe platforma de lansare (vezi mai jos) și selectați toate cele 10 variabile din acest fișier.



Alte optiuni . Această casetă de dialog conține tot ce aveți nevoie pentru a efectua analiza factorilor standard. A primi scurtă prezentare generală Pentru alte comenzi disponibile din platforma de lansare, puteți selecta o matrice de corelare ca fișier de intrare (folosind câmpul Fișier de date). În câmpul Eliminare PD, puteți selecta rând cu rând, eliminarea perechi sau imputarea medie pentru datele lipsă.

Setați metoda de extracție a factorilor. Acum apăsați butonul OK pentru a trece la următorul caseta de dialog cu numele Precizați metoda de extracție a factorilor. Folosind această casetă de dialog, puteți vizualiza statistici descriptive, puteți efectua mai multe analiza regresiei, selectați o metodă de extracție a factorilor, selectați numărul maxim de factori, valorile proprii minime, precum și alte acțiuni legate de specificul metodelor de extracție a factorilor. Acum să mergem la fila Descriptive.



Vedeți statistici descriptive. Acum faceți clic pe butonul View corr./average/std.deviation. în această fereastră pentru a deschide fereastra Vizualizare statistici descriptive.



Acum puteți vizualiza statisticile descriptive grafic sau folosind tabelele cu rezultate.

Calculul matricei de corelație. Faceți clic pe butonul Corelații din fila Avansat pentru a afișa un tabel cu rezultate cu corelații.



Toate corelațiile din acest tabel de rezultate sunt pozitive, iar unele corelații sunt de amploare semnificativă. De exemplu, variabilele Hobby_1 și Miscel_1 sunt corelate la nivelul 0,90. Unele corelații (de exemplu, corelațiile dintre satisfacția la locul de muncă și satisfacția acasă) par relativ mici. Se pare că matricea are o structură distinctă.

Metoda de selecție. Acum faceți clic pe Anulare în caseta de dialog Vizualizare statistici descriptive pentru a reveni la caseta de dialog Specificați metoda de extragere a factorilor. Puteți alege dintre mai multe metode de extracție în fila Avansat (consultați fila Avansat din caseta de dialog Specificați metoda de extracție a factorilor pentru o descriere a fiecărei metode, precum și Prezentare generală introductivă pentru o descriere a metodei componentelor principale și a metodei factorilor principali ). În acest exemplu, metoda implicită este Componente principale, câmp Max. număr de factori conține valoarea 10 (numărul maxim de factori din acest exemplu) și câmpul Min. proprii valoarea conține 0 (valoarea minimă pentru această comandă).



Pentru a continua analiza, faceți clic pe OK.

Vedeți rezultatele. Puteți vizualiza rezultatele analizei factoriale în caseta de dialog Rezultate analiză factorială. Mai întâi, selectați fila Varianta explicată.



Afișarea valorilor proprii . Scopul valorilor proprii și utilitatea lor pentru utilizator pentru a decide câți factori să rețină (interpretați) au fost descrise în Prezentare generală introductivă. Acum faceți clic pe butonul Valori proprii pentru a obține un tabel cu valori proprii, procentaj din variația totală, valori proprii acumulate și procente acumulate.


După cum se poate observa din tabel, valoarea proprie pentru primul factor este 6,118369; aceste. proporția de varianță explicată de primul factor este de aproximativ 61,2%. Rețineți că aceste valori se întâmplă să fie ușor comparabile aici, deoarece sunt analizate 10 variabile și, prin urmare, suma tuturor valorilor proprii se dovedește a fi egală cu 10. Al doilea factor include aproximativ 18% din varianță. Alți factori nu conțin mai mult de 5%varianta totala.Selectarea numărului de factori. Secțiunea Prezentare generală introductivă descrie pe scurt modul în care valorile proprii rezultate pot fi utilizate pentru a decide câți factori să rețină în model. Conform criteriului lui Kaiser (Kaiser, 1960), ar trebui să rețineți factori cu valori proprii mai mari decât 1. Din tabelul de mai sus, reiese că criteriul are ca rezultat selecția a doi factori.

Criteriul Scree . Acum faceți clic pe butonul Scree Plot pentru a obține o diagramă a valorilor proprii în scopul aplicării criteriului scree al lui Cattell (Cattell, 1966). Graficul de mai jos a fost completat cu segmente de linie care conectează valorile proprii adiacente pentru a face criteriul mai vizual. Cattell susține, pe baza metodei Monte Carlo, că punctul în care scăderea continuă a valorilor proprii încetinește și dincolo de care nivelul valorilor proprii rămase reflectă doar „zgomot” aleatoriu. În graficul de mai jos, acest punct poate corespunde unui factor de 2 sau 3 (după cum este indicat de săgeți). Prin urmare, încercați ambele soluții și vedeți care oferă o imagine mai adecvată.



Acum să ne uităm la încărcările factorilor.

Încărcările factoriale . După cum este descris în secțiunea Prezentare generală introductivă, încărcările factorilor pot fi interpretate ca corelații între factori și variabile. Prin urmare, ele reprezintă cel mai mult informatii importante, pe care se bazează interpretarea factorilor. Să ne uităm mai întâi la încărcările factorilor (nerotate) pentru toți cei zece factori. În fila Încărcări din caseta de dialog Rezultate analiză factorială, în câmpul Rotație factor, setați valoarea fără rotație și faceți clic pe butonul Încărcări factori pentru a afișa tabelul de încărcare.



Amintiți-vă că selecția factorilor a avut loc în așa fel încât factorii ulterioare au inclus din ce în ce mai puțină variație (vezi secțiunea Revizuire introductivă). Prin urmare, nu este surprinzător că primul factor are cea mai mare încărcare. Rețineți că semnele încărcărilor factorilor sunt semnificative doar pentru a indica faptul că variabilele cu încărcări opuse asupra aceluiași factor interacționează cu acel factor în moduri opuse. Cu toate acestea, puteți înmulți toate încărcările din coloană cu -1 și inversați semnele. În toate celelalte privințe, rezultatele vor rămâne neschimbate.

Rotația soluției factorilor. După cum este descris în secțiunea Prezentare generală introductivă, orientarea reală a factorilor în spațiul factorilor este arbitrară și orice rotație a factorilor reproduce corelații, precum și alte rotații. Prin urmare, pare natural să se rotească factorii în așa fel încât să se selecteze structura factorilor cea mai ușor de interpretat. De fapt, termenul structură simplă a fost creat și definit de Thurstone (1947) în primul rând pentru a descrie condițiile în care factorii au încărcări mari asupra unor variabile și încărcări scăzute asupra altora și când există mai multe încărcări încrucișate mari, i.e. există mai multe variabile cu încărcări semnificative pe mai mult de un factor. Cea mai standard metoda de rotatie computationala pentru obtinerea unei structuri simple este metoda de rotatie varimax propusa de Kaiser (1958). Alte metode propuse de Harman (1967) sunt metodele quartimax, biquartimax și equimax (vezi Harman, 1967).

Selectarea rotației . Mai întâi luați în considerare numărul de factori pe care doriți să-i lăsați pentru rotație și interpretare. Anterior s-a decis că cel mai plauzibil și mai acceptabil număr de factori este doi, dar pe baza criteriului șapelului s-a decis să se ia în considerare și o soluție cu trei factori. Faceți clic pe butonul Anulare pentru a reveni la caseta de dialog Set the factor extraction method și modificați câmpul Maximum number of factors din fila Rapid de la 10 la 3, apoi faceți clic pe butonul OK pentru a continua analiza.

Acum să efectuăm rotația folosind metoda varimax. În fila Încărcări din caseta de dialog Rezultate analiză factorială, în câmpul Rotație factor, setați Varimax-ul valorii inițiale.



Faceți clic pe butonul Încărcări de factori pentru a afișa rezultatele încărcărilor de factori rezultate în tabel.


Afișarea soluției prin rotirea celor trei factori. Tabelul arată încărcări semnificative pe primul factor pentru toate variabilele, cu excepția celor legate de acasă. Factorul 2 are încărcări destul de semnificative pentru toate variabilele, cu excepția celor legate de satisfacția în muncă. Factorul 3 are o singură încărcare semnificativă pentru variabila Home_1. Faptul că o singură variabilă se încarcă foarte mult pe cel de-al treilea factor ne face să ne întrebăm dacă rezultatul ar putea fi la fel de bun fără al treilea factor?

Revizuirea soluției atunci când se rotesc doi factori . Faceți clic din nou pe butonul Anulare din caseta de dialog Rezultate analiză factorială pentru a reveni la caseta de dialog Specificați metoda de extracție a factorilor. Modificați câmpul Număr maxim de factori din fila Rapidă de la 3 la 2 și faceți clic pe OK pentru a accesa caseta de dialog Rezultate analiză factorială. În fila Loadings, în câmpul Factor rotation, setați valoarea Varimax a celor originale și faceți clic pe butonul Factor loadings.


Factorul 1, după cum se poate observa din tabel, are cele mai mari încărcări pentru variabilele legate de satisfacția în muncă. Are cele mai mici încărcări pentru variabilele legate de satisfacția acasă. Alte sarcini iau valori intermediare. Factorul 2 are cele mai mari încărcări pentru variabilele legate de satisfacția la domiciliu, cele mai mici încărcări pentru satisfacția la locul de muncă și încărcările medii pentru variabilele rămase.

Interpretarea soluției pentru rotația cu doi factori . Este posibil să se interpreteze acest model? Se pare că cei doi factori sunt cel mai bine identificați ca factor de satisfacție în muncă (Factorul 1) și factorul de satisfacție cu viața de acasă (Factorul 2). Satisfacția față de hobby-urile cuiva și diverse alte aspecte ale vieții pare să aibă legătură cu ambii factori. Acest model sugerează în anumite privințe că satisfacția față de muncă și viața de acasă din acest eșantion pot fi independente una de cealaltă, dar ambele contribuie la satisfacția față de hobby-uri și alte aspecte ale vieții.

Diagrama unei soluții bazată pe rotația a doi factori . Pentru a obține o diagramă de dispersie a doi factori, faceți clic pe butonul grafic de încărcare 2M din fila Încărcări din caseta de dialog Rezultatele analizei factorilor. Diagrama de mai jos arată pur și simplu două încărcări pentru fiecare variabilă. Rețineți că graficul de dispersie ilustrează bine doi factori independenți și 4 variabile (Hobby_1, Hobby_2, Miscel_1, Miscel_2) cu încărcări încrucișate.



Acum să vedem cât de bine poate fi reprodusă matricea de covarianță observată printr-o soluție cu doi factori.

Matrice de corelație replicată și reziduală. Faceți clic pe butonul Corelații reproduse și reziduale din fila Varianta explicată pentru a obține două tabele cu matricea de corelație reprodusă și matricea corelațiilor reziduale (corelații observate minus reproduse).



Intrările din tabelul de corelații reziduale pot fi interpretate ca „suma” corelațiilor care nu pot fi explicate de cei doi factori rezultați. Desigur, elementele diagonale ale matricei conțin abaterea standard pentru care acești factori nu pot fi contabilizați, care este egală cu rădăcina pătrată a unu minus comunitățile respective pentru cei doi factori (reamintim că comunitatea unei variabile este varianța care poate fi explicat prin numărul de factori selectați). Dacă te uiți îndeaproape la această matrice, poți vedea că practic nu există corelații reziduale mai mari de 0,1 sau mai mici de -0,1 (de fapt, doar un număr mic dintre ele sunt aproape de această valoare). Adăugați la aceasta că primii doi factori reprezintă aproximativ 79% din varianța totală (a se vedea procentul acumulat de valori proprii în tabelul cu rezultate).

„Secretul” unui exemplu de succes . Exemplul pe care tocmai l-ați studiat produce de fapt o soluție la problema cu doi factori care este aproape de ideală. Reprezintă cea mai mare parte a varianței, are o interpretare rezonabilă și reproduce o matrice de corelație cu abateri moderate (corelații reziduale). În realitate, datele reale rareori oferă o soluție atât de simplă și, în realitate, acest set de date fictiv a fost generat folosind un generator de numere aleatorii cu distributie normala disponibile în sistem. În mod special, în date au fost „introduși” doi factori ortogonali (independenți), conform cărora s-au generat corelații între variabile. Acest exemplu de analiză factorială reproduce cei doi factori așa cum au fost (adică, factorul de satisfacție în muncă și factorul de satisfacție cu viața de acasă). Astfel, dacă un fenomen (și nu date artificiale, ca în exemplu), conținea acești doi factori, atunci, izolându-i, puteai afla ceva despre structura ascunsă sau latentă a fenomenului.

Alte rezultate . Înainte de a face o concluzie finală, facem comentarii scurte asupra altor rezultate.

Elemente comune . Pentru a obține generalitățile soluției, faceți clic pe butonul Generalități din fila Varianta explicată din caseta de dialog Rezultate analiză factorială. Reamintim că comunitatea unei variabile este proporția de varianță care poate fi reprodusă având în vedere un anumit număr de factori. Rotația spațiului factorilor nu afectează amploarea generalității. Comunitățile foarte scăzute pentru una sau două variabile (din multe din analiză) pot indica faptul că acele variabile nu sunt foarte bine explicate de model.

Coeficienți de valoare. Coeficienții factorilor pot fi utilizați pentru a calcula valorile factorilor pentru fiecare observație. Coeficienții înșiși sunt de obicei de puțin interes, dar valorile factorilor sunt utile pentru analize ulterioare. Pentru a afișa coeficienții, faceți clic pe butonul Coeficienți al valorilor factorilor din fila Valori din caseta de dialog Rezultate analiză factorială.

Valorile factorilor. Valorile factorilor pot fi considerate ca fiind valorile curente pentru fiecare respondent chestionat (adică pentru fiecare observație din tabelul de date original). Butonul Valori factorilor din fila Valori din caseta de dialog Rezultate analiză factorială vă permite să calculați valorile factorilor. Aceste valori pot fi salvate pentru mai târziu făcând clic pe butonul Salvare valori.

Comentariu final. Analiza factorială nu este o procedură simplă. Oricine folosește în mod constant analiza factorială cu multe (de ex. 50 sau mai multe) variabile, s-ar putea vedea multe exemple de „comportament patologic”, cum ar fi: valori proprii negative și soluții neinterpretabile, matrici speciale etc. Dacă sunteți interesat să utilizați analiza factorială pentru a determina sau determina factorii semnificativi ai unui număr mare de variabile, ar trebui să studiați cu atenție unele ghid detaliat(de exemplu, cartea lui Harman (Harman, 1968)). Astfel, deoarece multe decizii critice în analiza factorilor sunt de natură subiectivă (numărul de factori, metoda de rotație, interpretarea încărcărilor), fiți pregătiți că este necesară o anumită experiență înainte de a vă simți încrezător în ea. Modulul de analiză factorială a fost conceput special pentru a facilita utilizatorului comutarea interactivă între diferite numere de factori, rotații etc., astfel încât diferite soluții să poată fi testate și comparate.

Acest exemplu este preluat din sistem de ajutor PPP STATISTICA de la StatSoft

Ecuații de bază

Anterior, aproape toate manualele și monografiile de analiză factorială ofereau o explicație despre modul de efectuare a calculelor de bază „manual” sau folosind un dispozitiv de calcul simplu (o mașină de adăugare sau un calculator). Astăzi, datorită complexității și volumului mare de calcule necesare pentru a construi o matrice de relații, a izola factorii și a le roti, probabil că nu a mai rămas o singură persoană care să nu folosească calculatoare puterniceși programe aferente.

Prin urmare, ne vom concentra pe ce matrice (seturi de date) cele mai semnificative pot fi obținute din analiza factorială, modul în care acestea se relaționează între ele și cum pot fi utilizate pentru a interpreta datele. Toate calculele necesare pot fi făcute folosind oricare program de calculator(cum ar fi SPSS sau STADIA).

ÎN masă 1 Este oferită o listă cu cele mai importante matrice pentru metodele componentelor principale și analiza factorială. Această listă conține în principal matrici de relații (între variabile, între factori, între variabile și factori), valori standardizate (pentru variabile și pentru factori), ponderi de regresie (pentru calcularea valorilor factorilor folosind valori pentru variabile), precum precum și matrice de mapări factoriale ale relațiilor dintre factori și variabile după rotația oblică. ÎN masă 1 De asemenea, sunt date matrice de valori proprii și vectorii proprii corespunzători. Valorile proprii (valorile proprii) și vectorii proprii sunt descrise datorită importanței lor pentru identificarea factorilor, utilizarea unui număr mare de termeni speciali în acest sens și legătura strânsă dintre valorile proprii și variația în cercetarea statistică.

Tabelul 1

Matricele utilizate cel mai frecvent în analiza factorială

Desemnare Nume Dimensiune Descriere
R Matricea relațiilor p x p Relații între variabile
D Matrice de date nestandardizate N x p Date primare - valori de observație nestandardizate pentru variabilele primare
Z Matricea de date standardizată N x p Valori standardizate de observare pentru variabilele primare
F Matricea valorilor factorilor Nx f Valori standardizate de observare pe factori
O Matricea de încărcare a factorilor Matricea de cartografiere a factorilor p x f Coeficienți de regresie pentru factori comuni, presupunând că variabilele observate sunt o combinație liniară de factori. În cazul rotaţiei ortogonale – relaţii dintre variabile şi factori
ÎN Matricea coeficientului valorii factorilor p x f Coeficienți de regresie pentru calcularea valorilor factorilor folosind valori variabile
S Matricea structurală p x f Relațiile dintre variabile și factori
F Matricea de corelație factorială f x f Corelații între factori
L Matrice de valori proprii (diagonală) f x f Valori proprii (rădăcini caracteristice, latente); fiecărui factor îi corespunde o singură valoare
V Matricea vectorului propriu f x f Vectori proprii (caracteristici); fiecărei valori proprii îi corespunde un vector propriu

Nota. Când se specifică dimensiunea, este dat numărul de rânduri x numărul de coloane: r- numărul de variabile, N- numărul de observații, f- numărul de factori sau componente. Dacă matricea relaţiilor R nu este degenerat și are rang egal p, atunci chiar iese în evidență r valori proprii și vectori proprii, nu f. Cu toate acestea, ele sunt doar de interes f dintre ei. Prin urmare, restul p-f nu sunt prezentate.

La matrice SŞi F Se aplică doar rotația oblică, în rest - rotație ortogonală și oblică.

Setul de date pregătit pentru analiza factorială este alcătuit din rezultatele măsurătorilor (sondajului) unui număr mare de subiecți (respondenți) pe anumite scale (variabile). ÎN masă 2 este prezentată o matrice de date care poate fi considerată condiționat pentru a satisface cerințele analizei factoriale.

Cinci respondenți care au contactat o agenție de turism pentru a cumpăra un bilet către o stațiune de pe litoral au fost întrebați despre importanța pentru ei a patru condiții (variabile) pentru alegerea unei destinații de vacanță de vară. Aceste condiții variabile au fost: costul călătoriei, confortul complexului, temperatura aerului, temperatura apei. Cu cât, din punctul de vedere al intimatului, aceasta sau cutare condiție avea pentru el mai semnificativă, cu atât îi atribuia mai multă importanță. Sarcina cercetării a fost de a studia modelul relațiilor dintre variabile și de a identifica motivele care stau la baza care determină alegerea stațiunii. (Desigur, exemplul este extrem de simplificat în scopuri ilustrative și educaționale și nu trebuie luat în serios în ceea ce privește conținutul.)

Matricea relatiilor ( masă 2) a fost calculată ca o corelație. Acordați atenție structurii relațiilor din ea, evidențiate prin verticală și linii orizontale. Corelațiile ridicate din cadranele din stânga sus și din dreapta jos arată că evaluările pentru costul călătoriei și confortul complexului sunt interdependente, la fel ca și evaluările pentru temperatura aerului și temperatura apei. Celelalte două cadrane arată că temperatura aerului și confortul complexului sunt interconectate, la fel ca și confortul complexului și temperatura apei.

Să încercăm acum, folosind analiza factorială, să detectăm această structură de corelații, care este ușor vizibilă cu ochiul liber într-o matrice de corelație mică (într-o matrice mare acest lucru este foarte greu de realizat).

Tabelul 2

Date pentru analiza factorială (Exemplu de tutorial)

Turiştii Variabile
Costul călătoriei Nivel de confort Temperatura aerului Temperatura apei
T1
T2
T3
T4
T5

Matricea de corelație

Costul călătoriei Nivel de confort Temperatura aerului Temperatura apei
Costul călătoriei 1,000 -0,953 -0,055 -0,130
Nivel de confort -0,953 1,000 -,091 -0,036
Temperatura aerului -0,055 -0,091 1,000 0,990
Temperatura apei -0,130 -0,036 0,990 1,000

Factorizarea

O teoremă importantă din algebra matriceală afirmă că matricele care îndeplinesc anumite condiții pot fi diagonalizate, i.e. transformată într-o matrice cu numere pe diagonala principală și zerouri în toate celelalte poziții. Matricele de relații sunt în mod specific de tipul matricelor diagonalizabile. Transformarea se realizează după formula:

aceste. Diagonalizarea matricei R se realizează prin înmulțirea mai întâi (în stânga) cu matricea transpusă V, notată V', iar apoi (în dreapta) cu matricea V însăși.

Coloanele din matricea V sunt numite vectori proprii, iar valorile de pe diagonala principală a matricei L sunt numite valori proprii. Primul vector propriu corespunde primei valori proprii și așa mai departe. (pentru mai multe detalii, vezi Anexa 1).

Deoarece exemplul de mai sus ia în considerare patru variabile, obținem patru valori proprii cu vectorii proprii corespunzători. Dar, deoarece scopul analizei factorilor este de a generaliza matricea de relații prin cât mai puțini factori posibil și fiecare valoare proprie corespunde diferiților factori potențiali, de obicei sunt luați în considerare doar factorii cu valori proprii mari. Cu o soluție de factori „bună”, matricea de relații calculate obținută folosind acest set limitat de factori dublează practic matricea de relații.

În exemplul nostru, când nu sunt impuse restricții asupra numărului de factori, valorile proprii 2.02, 1.94, .04 și .00 sunt calculate pentru fiecare dintre cei patru factori posibili. Numai pentru primii doi factori valorile proprii sunt suficient de mari pentru a face obiectul unei analize suplimentare. Prin urmare, doar primii doi factori sunt reselectați. Au valori proprii de 2,00 și, respectiv, 1,91, așa cum este indicat în tabel. 3. Folosind ecuația (6) și inserând valorile din exemplul dat, obținem:

(Toate valorile calculate de computer sunt aceleași; calculele manuale pot diferi din cauza inexactităților de rotunjire.)

Înmulțirea matricei de vectori proprii din stânga cu transpunerea acesteia dă matricea de identitate E (cu unii pe diagonala principală și restul zerouri). Prin urmare, putem spune că transformarea matricei de relații conform formulei (6) nu o schimbă în sine, ci doar o transformă într-o formă mai convenabilă pentru analiză:

De exemplu:

Tabelul 3

Vectori proprii și valorile proprii corespunzătoare pentru exemplul tutorial considerat

Vectorul propriu 1 Vectorul propriu 2
-.283 .651
.177 -.685
.658 .252
.675 .207
Valoare proprie 1 Valoare proprie 2
2.00 1.91

Deoarece matricea de corelație este diagonalizabilă, i se poate aplica algebra matriceală a vectorilor proprii și a valorilor proprii pentru a obține rezultatele analizei factoriale (vezi Anexa 1). Dacă o matrice este diagonalizabilă, atunci toate informațiile esențiale despre structura factorilor sunt conținute în forma sa diagonală. În analiza factorială, valorile proprii corespund varianței explicate de factori. Factorul cu cea mai mare valoare proprie explică cea mai mare varianță și așa mai departe, până când ajungeți la factori cu valori proprii mici sau negative, care de obicei nu sunt incluși în analiză. Calculele valorilor proprii și vectorilor proprii necesită foarte multă muncă, iar capacitatea de a le calcula nu este o necesitate absolută pentru ca un psiholog să stăpânească analiza factorilor în scopurile sale practice. Cu toate acestea, familiaritatea cu această procedură nu va strica, așa că în Anexa 1 dăm ca exemplu calculul valorilor proprii și al vectorilor proprii pe o matrice mică.

Pentru a găsi valori proprii matrice pătratăр x р este necesar să se găsească rădăcinile unui polinom de gradul p, iar să se găsească vectorii proprii, să se rezolve p ecuații cu p necunoscute cu restricții laturi suplimentare, ceea ce pentru p>3 se face rar manual. Odată ce vectorii proprii și valorile proprii sunt găsite, restul analizei factorilor (sau analizei componentelor principale) devine mai mult sau mai puțin clar (vezi ecuațiile 8-11).

Ecuația (6) poate fi prezentată ca: R=V’LV, (8)

aceste. matricea de relații poate fi considerată ca produsul a trei matrice - matricea valorilor proprii, matricea vectorilor proprii corespunzători și matricea transpusă acesteia.

După transformare, matricea de valori proprii L poate fi reprezentată după cum urmează:

și prin urmare: R=VÖLÖL V’ (10)

sau (care este același): R=(VÖL)(ÖL V’)

Să notăm: A=(VÖL) și A’=(ÖL V’), apoi R=AA’ (11)

aceste. matricea de relații poate fi reprezentată și ca produsul a două matrici, fiecare dintre acestea fiind o combinație de vectori proprii și rădăcini pătrate ale valorilor proprii.

Ecuația (11) este adesea numită ecuația fundamentală a analizei factoriale. Exprimă afirmația că matricea de relații este produsul dintre matricea încărcărilor factorilor (A) și transpunerea acesteia.

Ecuațiile (10) și (11) arată, de asemenea, că o parte semnificativă a calculelor din analiza factorială și metodele componentelor principale constă în determinarea valorilor proprii și vectorilor proprii. Odată ce acestea sunt cunoscute, matricea factorului de pre-rotație este obținută prin multiplicare directă a matricei:

În exemplul nostru:

Matricea de încărcare a factorilor este o matrice de relații (interpretate ca coeficienți de corelație) între factori și variabile. Prima coloană este corelația dintre primul factor și fiecare variabilă pe rând: costul călătoriei (-.400), confortul complexului (.251), temperatura aerului (.932), temperatura apei (. 956). A doua coloană este corelația dintre al doilea factor și fiecare variabilă: costul călătoriei (.900), confortul complexului (-.947), temperatura aerului (.348), temperatura apei (.286). Un factor este interpretat pe baza variabilelor care sunt foarte asociate cu acesta (adică au încărcări mari asupra acestuia). Astfel, primul factor este în principal „climatic” (temperatura aerului și a apei), în timp ce al doilea este „economic” (costul călătoriei și confortul complexului).

Atunci când interpretați acești factori, ar trebui să acordați atenție faptului că variabilele cu încărcări mari asupra primului factor (temperatura aerului și temperatura apei) sunt interrelatate pozitiv, în timp ce variabilele cu încărcări mari asupra celui de-al doilea factor (costul biletului și confortul complexului) sunt interconectate negativ (nu vă puteți aștepta la mult confort de la o stațiune ieftină). Primul factor se numește unipolar (toate variabilele sunt grupate la un pol), iar al doilea se numește bipolar (variabilele sunt împărțite în două grupe care sunt opuse în sens - doi poli). Variabilele cu încărcări de factori cu semnul „plus” formează un pol pozitiv, iar cele cu semnul „minus” formează un pol negativ. În același timp, denumirile polilor „pozitiv” și „negativ” la interpretarea factorului nu au sensul evaluativ de „rău” și „bun”. Semnul este ales aleatoriu în timpul calculelor. Înlocuirea tuturor semnelor cu semne opuse (toate plusurile cu minusuri și toate minusurile cu plusuri) nu schimbă soluția. Analiza semnelor este necesară doar pentru identificarea grupurilor (ceea ce se opune la ce). Cu același succes, un pol poate fi numit dreapta, celălalt stânga. În exemplul nostru, costul variabil al călătoriei a fost pe polul pozitiv (dreapta) i s-a opus confortul variabil al complexului pe polul negativ (stânga). Și acest factor poate fi interpretat (numit) ca „Economie și confort”. Respondenții pentru care problema economisirii este semnificativă au fost din dreapta - au primit valori ale factorilor cu semnul „plus”. Atunci când aleg o stațiune, se concentrează mai mult pe ieftinitatea acesteia și mai puțin pe confort. Respondenții care nu economisesc în vacanță (prețul unei călătorii nu îi deranjează prea mult) și care doresc să se relaxeze în primul rând în condiții confortabile au fost din stânga - au primit valori ale factorilor cu semnul „minus”.

Cu toate acestea, trebuie reținut că toate variabilele sunt corelate semnificativ cu ambii factori. Ca parte a acestui lucru exemplu simplu interpretarea este evidentă, dar în cazul datelor reale nu este atât de simplă. În mod obișnuit, un factor este mai ușor de interpretat dacă doar o mică parte a variabilelor este foarte corelată cu acesta, iar restul nu.

Rotație ortogonală

Rotația se aplică de obicei după extracția factorilor pentru a maximiza corelațiile ridicate și pentru a le minimiza pe cele scăzute. Există numeroase metode de rotație, dar cea mai frecvent utilizată este rotația varimax, care este o procedură de maximizare a varianței. Această rotație maximizează varianța încărcărilor factorilor, făcând încărcările mari mai mari și încărcările scăzute mai mici în fiecare zi factor. Acest obiectiv este atins folosind matrice de transformare L:

A înainte de viraj L = A după viraj,

aceste. matricea de încărcare a factorului de pre-rotație este înmulțită cu matricea de transformare pentru a produce matricea de încărcare a factorului de post-rotație. În exemplul nostru:

Comparați matricele înainte și după rotație. Rețineți că matricea după rotație are încărcări de factori scăzute mai mici și încărcări de factori mari mai mari decât matricea înainte de rotație. Diferența accentuată în încărcări facilitează interpretarea factorului și permite selectarea fără ambiguitate a variabilelor care sunt puternic interdependente cu acesta.

Elementele matricei de transformare au o interpretare geometrică specială:

Matricea de transformare este o matrice de sinusuri și cosinusuri ale unghiului ψ prin care se realizează rotația. (De aici și denumirea transformării - rotație, deoarece din punct de vedere geometric, axele se rotesc în jurul originii spațiului factor.) În exemplul nostru, acest unghi este de aproximativ 19 grade: cos19° = .946 și sin19° = .325. Din punct de vedere geometric, aceasta corespunde unei rotații a axelor factorilor cu 19 grade în jurul originii. (Vezi mai jos pentru mai multe despre aspectele geometrice ale rotației.)



 


Citire:



Ce să faci dacă evoluezi offline

Ce să faci dacă evoluezi offline

În cele din urmă, ea a vizitat piața de jocuri pe computer, luminând-o cu lumina monștrilor extratereștri și a armelor high-tech. Desigur, un astfel de neobișnuit...

Testarea procesorului pentru supraîncălzire

Testarea procesorului pentru supraîncălzire

Trebuie să monitorizați în mod constant temperatura procesorului sau a plăcii video, deoarece dacă se supraîncălzi, computerul pur și simplu nu va porni. Pe aceasta...

Ce sunt serviciile publice Yesia

Ce sunt serviciile publice Yesia

Au dispărut vremurile în care primirea serviciilor de stat sau municipale nu era posibilă fără o vizită personală la executiv...

Poziția capetelor pe antenă

Poziția capetelor pe antenă

Articolul dezvăluie principalele metode de determinare a azimutului folosind o busolă magnetică și locurile de utilizare posibilă a acestuia. Utilizare...

imagine-alimentare RSS