Начало - лаптопи
Факторна матрица. IN

Факторният анализ е клон на математическата статистика. Неговите цели, подобно на целта на други клонове на математическата статистика, са да се разработят модели, концепции и методи, които позволяват да се анализират и интерпретират масиви от експериментални или наблюдавани данни, независимо от тяхната физическа форма.

Една от най-типичните форми за представяне на експериментални данни е матрица, чиито колони съответстват на различни параметри, свойства, тестове и т.н., а редовете съответстват на отделни обекти, явления, режими, описани от набор от специфични стойности на параметри. На практика размерите на матрицата се оказват доста големи: например броят на редовете на тази матрица може да варира от няколко десетки до няколкостотин хиляди (например при социологически проучвания), а броят на колоните - от един до два до няколкостотин. Директен, „визуален“ анализ на матрици с такъв размер е невъзможен, следователно в математическата статистика се появиха много подходи и методи, предназначени да „компресират“ първоначалната информация, съдържаща се в матрицата, до управляем размер, за да извлекат най-„същественото“ от първоначалната информация, изхвърляйки „вторичната“, „случайната“.

При анализиране на данни, представени в матрична форма, възникват два вида проблеми. Задачите от първия тип са насочени към получаване на „кратко описание“ на разпределението на обектите, а задачите от втория тип са насочени към идентифициране на връзки между параметри.

Трябва да се има предвид, че основният стимул за появата на тези задачи се крие не само и не толкова в желанието за кратко кодиране на голям масив от числа, а в много по-фундаментално обстоятелство от методологическо естество: някога беше е възможно да се опише накратко голям набор от числа, тогава може да се вярва, че е разкрит определен обективен модел, който определя възможността за кратко описание; но търсенето на обективни модели е основната цел, за която по правило се събират данни.

Споменатите подходи и методи за обработка на матрици на данни се различават по вида на проблема за обработка на данни, който са предназначени да решат, и по матриците с какъв размер са приложими.

Що се отнася до проблема за кратко описание на връзките между параметрите със среден брой на тези параметри, в този случай съответната корелационна матрица съдържа няколко десетки или стотици числа и сама по себе си все още не може да служи като „кратко описание“ на съществуващи връзки между параметрите, но трябва с това с цел по-нататъшна обработка.

Факторният анализ е именно набор от модели и методи, предназначени да „компресират“ информацията, съдържаща се в корелационната матрица. В основата на различни модели на факторен анализ е следната хипотеза: наблюдаваните или измерените параметри са само косвени характеристики на обекта или явлението, което се изследва, но всъщност има вътрешни (скрити, не пряко наблюдавани) параметри или свойства, чийто брой е малък и които определят стойностите на наблюдаваните параметри. Тези вътрешни параметри обикновено се наричат ​​фактори. Задачата на факторния анализ е да представи наблюдаваните параметри под формата на линейни комбинации от фактори и, може би, някои допълнителни, „несъществени“ величини - „намеса“. Забележителният факт е, че въпреки че самите фактори не са известни, такова разлагане може да се получи и освен това такива фактори могат да бъдат определени, т.е. за всеки обект могат да бъдат посочени стойностите на всеки фактор.

Факторният анализ, независимо от използваните методи, започва с обработка на таблица с интеркорелации, получени при набор от тестове, известна като корелационна матрица, и завършва с получаване на факторна матрица, т.е. таблица, показваща теглото или натоварването на всеки фактор за всеки тест. Таблица 1 е хипотетична факторна матрица, съдържаща само два фактора.

Факторите са изброени в горния ред на таблицата от най-значими до най-малко значими и техните тегла във всеки от 10-те теста са дадени в съответните колони.

Таблица 1

Хипотетична факторна матрица

Координатни оси.Обичайно е факторите да се представят геометрично под формата на координатни оси, спрямо които всеки тест може да бъде изобразен като точка. ориз. 1 обяснява тази процедура. В тази графика всеки от 10-те теста, дадени в таблица 1, се показва като точка спрямо два фактора, които съответстват на оси I и II. Така тест 1 е представен от точка с координати 0,74 по ос I и 0,54 по ос II. Точките, представляващи останалите 9 теста, се нанасят по подобен начин, като се използват стойностите на теглото от таблицата. 1.

Трябва да се отбележи, че позицията на координатните оси не е фиксирана от данни. Първоначалната корелационна таблица определя само позицията на тестовете (т.е. точките на фиг. 1) един спрямо друг.Същите точки могат да бъдат нанесени на равнина с произволно положение на координатните оси. Поради тази причина, когато се провежда факторен анализ, е обичайно осите да се въртят, докато се получи най-подходящото и лесно интерпретирано изображение.

ориз. 1. Показване на хипотетичен фактор, показващ теглата на двата групови фактора за всеки от 10-те теста.

На фиг. 1 получените след въртене оси I" и II" са показани с пунктирани линии. Тази ротация се извършва в съответствие с критериите, предложени от Thurstone положително разнообразие и проста структура.Първият включва завъртане на осите до позиция, в която всички значими отрицателни тегла са елиминирани. Повечето психолози смятат отрицателните факторни натоварвания за логически неподходящи за тестове за способности, тъй като такива натоварвания означават, че колкото по-висок е резултатът на индивида по определен фактор, толкова по-нисък е резултатът му на съответния тест. Опростеният проектен критерий по същество означава, че всеки тест трябва да зарежда възможно най-малко фактори.

Изпълнението на двата критерия произвежда фактори, които могат да бъдат тълкувани най-лесно и недвусмислено. Ако даден тест има голямо натоварване на един фактор и няма значително натоварване на други фактори, можем да научим нещо за природата на този фактор, като изследваме съдържанието този тест. Обратно, ако един тест има средни или ниски натоварвания на шест фактора, тогава той ще ни каже малко за природата на който и да е от тях.

На фиг. 1 ясно показва, че след завъртане на координатните оси всички вербални тестове (1-5) са разположени по протежение на или много близо до ос I", а числените тестове (6-10) са тясно групирани около ос II". Новите факторни натоварвания, измерени спрямо завъртяните оси, са показани в табл. 2. Факторни натоварвания в табл. 2 нямат отрицателни стойности, с изключение на незначителни стойности, които ясно се дължат на грешки при вземане на проби. Всички вербални тестове имат високо натоварване на фактор I" и практически нулево натоварване на фактор II." Числените тестове, напротив, имат високо натоварване на фактор II" и незначително натоварване на фактор I." По този начин въртенето на координатните оси значително опрости идентифицирането и наименуването на двата фактора, както и описанието на факторния състав на всеки тест. На практика броят на факторите често се оказва повече от два, което, разбира се, ги усложнява геометрично представянеИ статистически анализ, но не променя същността на разглежданата процедура.

Таблица 2

Факторна матрица след ротация

Някои изследователи се ръководят от теоретичния модел като принцип на въртене на оста. Освен това се взема предвид инвариантността или потвърждението на едни и същи фактори в независимо проведени, но сравними проучвания.

Тълкуване на факторите.След като получим факторно решение (или по-просто факторна матрица) след процедурата на ротация, можем да пристъпим към тълкуване и наименуване на факторите. Този етап от работата изисква по-скоро психологическа интуиция, отколкото статистическо обучение. За да разберем естеството на определен фактор, нямаме друг избор, освен да изучаваме тестове, които имат високо натоварване върху този фактор и да се опитаме да открием общите за тях психологически процеси. Колкото повече тестове има с високи натоварвания на даден фактор, толкова по-лесно се разкрива същността му. От масата 2, например, веднага става ясно, че фактор I" е словесен, а фактор II" е числов. Дадено в табл. 2 факторни натоварвания също отразяват корелацията на всеки тест с фактора.

Ако факторният анализ е направен правилно, вместо да се задоволява с настройките по подразбиране („малки моменти“, както методолозите подигравателно наричат ​​стандартния джентълменски набор), предпочитаният метод за извличане на фактор е или максималната вероятност, или обобщените най-малки квадрати. Тук може да ни очакват проблеми: процедурата извежда съобщение за грешка: корелационната матрица не е положително определена. Какво означава това, защо се случва и как да се справим с проблема?
Факт е, че в процеса на факторизация процедурата търси т.нар обратна матрицавъв връзка с корелацията. Тук има аналогия с обичайните реални числа: като умножим число по обратното му, трябва да получим едно (например 4 и 0,25). За някои числа обаче няма обратни - нулата не може да се умножи по нещо, което ще доведе до едно. С матриците е същата история. Матрица, умножена по нейната обратна, дава матрицата на идентичност (тези са по диагонала и всички други стойности са нула). Въпреки това, за някои матрици няма обратни, което означава, че става невъзможно да се извърши факторен анализ за такива случаи. Разберете този фактможе да се направи с помощта на специално число, наречено детерминанта. Ако клони към нула или е отрицателен за матрицата, тогава сме изправени пред проблем.
Какви са причините за това положение? Най-често възниква поради съществуването линейна зависимостмежду променливите. Звучи странно, тъй като точно такива зависимости търсим с помощта на многомерни методи. Въпреки това, в случай, че такива зависимости престанат да бъдат вероятностни и станат строго детерминирани, многомерните алгоритми за анализ се провалят. Помислете за следния пример. Нека имаме следния набор от данни:
списък с данни безплатно / V1 до V3. започнете данни. 1 2 3 2 1 2 3 5 4 4 4 5 5 3 1 крайни данни. изчислете V4 = V1 + V2 + V3.
Последната променлива е точната сума от първите три. Кога възниква тази ситуация в реално проучване? Когато включим сурови резултати за подтестове и теста като цяло в набора от променливи; когато броят на променливите е много по-голям от броя на субектите (особено ако променливите са силно корелирани или имат ограничен набор от стойности). В този случай точни линейни зависимости могат да възникнат случайно. Зависимостите често са артефакт на процедурата за измерване - например, ако се изчисляват проценти в рамките на наблюденията (да речем, процентът на твърдения от определен тип), използва се методът за класиране или разпределение на постоянна сума, въвеждат се някои ограничения върху изборът на алтернативи и др. Както можете да видите, това са доста често срещани ситуации.
Ако, когато извършвате факторен анализ в SPSS на горния масив, наредите изхода на детерминантата и обратната корелационна матрица, пакетът ще докладва за проблем.
Как да идентифицираме група променливи, които създават мултиколинеарност? Оказва се, че добрият стар метод на главните компоненти, въпреки линейната зависимост, продължава да работи и произвежда нещо. Ако видите, че общностите на някои от променливите се доближават до 0,90-0,99 и собствените стойности на някои фактори стават много малки (или дори отрицателни), това не е добър знак. В допълнение, поръчайте ротация на varimax и вижте коя група променливи се е оказала при приятеля, заподозрян в престъпна връзка. Обикновено натоварването му върху този фактор е необичайно голямо (0,99, например). Ако този набор от променливи е малък, разнороден по съдържание, възможността за изкуствена линейна зависимост е изключена и извадката е достатъчно голяма, тогава откриването на такава връзка може да се счита за също толкова ценен резултат. Можете да завъртите такава група в регресионния анализ: направете променливата, която е показала най-голямо натоварване, зависима и опитайте всички останали като предиктори. R, т.е. коефициентът на множествена корелация в този случай трябва да бъде равен на 1. Ако линейната връзка е много пренебрегната, тогава регресията тихо ще изхвърли някои други предиктори, погледнете внимателно какво липсва. Като допълнително поръчате изход за диагностика на мултиколинеарност, в крайна сметка можете да намерите злополучния набор, който формира точна линейна връзка.
И накрая, има няколко други по-малки причини, поради които корелационната матрица не е положително определена. Това е, на първо място, наличието на голям брой неотговори. Понякога, за да се възползва максимално от наличната информация, изследователят поръчва обработка на празнини по двойки. В резултат на това резултатът може да бъде толкова „нелогична“ матрица на връзката, че моделът на факторния анализ няма да може да се справи с нея. Второ, ако изберете да факторизирате корелационна матрица, описана в литературата, може да срещнете отрицателното въздействие на закръгляването на числата.

СТЪПКИ ЗА ИЗПЪЛНЕНИЕ НА ФАКТОРЕН АНАЛИЗ

Има девет етапа на факторния анализ. За по-голяма яснота представяме тези етапи в диаграма и след това ги описваме накратко.

Етапите на извършване на факторния анализ са показани на фиг.

ориз.

ФОРМУЛИРАНЕ НА ПРОБЛЕМА И КОНСТРУКЦИЯ НА КОРЕЛАЦИОННАТА МАТРИЦА

Формулиране на проблема.Необходимо е ясно да се дефинират целите на факторния анализ. Променливите, подлежащи на факторен анализ, се задават въз основа на минали изследвания, теоретични изчисления или по преценка на изследователя. Необходимо е променливите да се измерват по отношение на интервалили роднинамащаб. Опитът показва, че размерът на извадката трябва да бъде четири до пет пъти по-голям от броя на променливите.

Изграждане на корелационна матрица.Анализът се основава на корелационна матрица между променливите. Възможността за извършване на факторен анализ се определя от наличието на корелации между променливите. Ако корелациите между всички променливи са малки, тогава факторният анализ е безполезен. Променливите, които са силно корелирани, обикновено са силно корелирани със същия фактор или фактори.

Има няколко статистически данни за тестване на осъществимостта на използването на факторен модел. Използвайки теста на Бартлет за сферичност, се тества нулевата хипотеза, че няма корелация между променливите в популацията. Това означава, че това, което се разглежда, е твърдението, че корелационната матрица на населението е матрица на идентичност, в която всички диагонални елементи са равни на единица, а всички останали са равни на нула. Тестът за сферичност се основава на преобразуване на детерминантата на корелационната матрица в хи-квадрат статистика. Ако статистическата стойност е голяма, нулевата хипотеза се отхвърля. Ако нулевата хипотеза не е отхвърлена, тогава извършването на факторен анализ не е подходящо. Друга полезна статистика е тестът на Кайзер-Майер-Олкин (KMO) за адекватност на извадката. Този коефициент сравнява стойностите на наблюдаваните коефициенти на корелация със стойностите на частичните коефициенти на корелация. Малките стойности на статистиката на KMO показват, че корелациите между двойки променливи не могат да бъдат обяснени с други променливи, което означава, че използването на факторен анализ е неподходящо.

Следващият пример се основава на фиктивни данни, свързани с изследването на удовлетвореността от живота. Да предположим, че въпросникът е изпратен на 100 произволно избрани възрастни. Въпросникът съдържа 10 точки, предназначени да измерват удовлетворението от работата, удовлетворението от хобита, удовлетворението от домашния живот и цялостното удовлетворение в други области на живота. Отговорите на елементите бяха въведени в компютър и мащабирани, така че средната стойност на всички елементи беше приблизително 100.

Резултатите бяха поставени във файла с данни Factor.sta. Можете да отворите този файл с помощта на опцията File - Open; Най-вероятно този файл с данни се намира в директорията /Examples/Datasets. По-долу е даден списък на променливите в този файл (за да получите списък, изберете Всички спецификации на променливи от менюто Данни).

Цел на анализа . Целта на анализа е да се изследват взаимовръзките между удовлетвореността в различни области на дейност. По-специално, желателно е да се проучи въпросът за броя на факторите, „скрити“ зад различни области на дейност и тяхното значение.

Избор на анализ. Изберете Факторен анализ от менюто Анализ - Многовариантен проучвателен анализ, за ​​да се покаже стартовият панел на модула Факторен анализ. Щракнете върху бутона Променливи на панела за стартиране (вижте по-долу) и изберете всичките 10 променливи в този файл.



Други опции . Този диалогов прозорец съдържа всичко необходимо за извършване на стандартен факторен анализ. Да получаваш кратък прегледЗа други команди, налични от панела за стартиране, можете да изберете корелационна матрица като входен файл (като използвате полето Файл с данни). В полето Премахване на PD можете да изберете ред по ред, елиминиране по двойки или вменяване на средна стойност за липсващи данни.

Задайте метода за извличане на фактор. Сега натиснете бутона OK, за да преминете към следващия диалогов прозорецс името Посочете метода за извличане на фактор. С помощта на този диалогов прозорец можете да преглеждате описателна статистика, да изпълнявате множество регресионен анализ, избор на метод за извличане на фактори, избор на максимален брой фактори, минимални собствени стойности, както и други действия, свързани със спецификата на методите за извличане на фактори. Сега нека отидем в раздела Описателен.



Вижте описателна статистика. Сега щракнете върху бутона View corr./average/std.deviation. в този прозорец, за да отворите прозореца Преглед на описателна статистика.



Вече можете да преглеждате описателни статистики графично или като използвате таблици с резултати.

Изчисляване на корелационната матрица. Щракнете върху бутона Корелации в раздела Разширени, за да покажете таблица с резултати с корелации.



Всички корелации в тази таблица с резултати са положителни, а някои корелации са със значителна величина. Например, променливите Hobby_1 и Miscel_1 са корелирани на ниво 0,90. Някои корелации (например корелации между удовлетворението на работа и удовлетворението у дома) изглеждат относително малки. Изглежда, че матрицата има някаква различна структура.

Метод на избор. Сега щракнете върху Отказ в диалоговия прозорец Преглед на описателна статистика, за да се върнете към диалоговия прозорец Указване на метода за извличане на фактор. Можете да избирате от няколко метода за извличане в раздела Разширени (вижте раздела Разширени на диалоговия прозорец Указване на метода за извличане на фактор за описание на всеки метод, както и Уводния преглед за описание на метода на основните компоненти и метода на основните фактори ). В този пример методът по подразбиране е Основни компоненти, Максимално поле. брой фактори съдържа стойността 10 (максималния брой фактори в този пример) и полето Min. собствени стойността съдържа 0 (минималната стойност за тази команда).



За да продължите анализа, щракнете върху OK.

Вижте резултатите. Можете да видите резултатите от факторния анализ в диалоговия прозорец Резултати от факторния анализ. Първо изберете раздела Variance Explained.



Показване на собствени стойности . Целта на собствените стойности и тяхната полезност за потребителя при вземането на решение колко фактора да се запазят (тълкуват) са описани в Уводния преглед. Сега щракнете върху бутона Собствени стойности, за да получите таблица със собствени стойности, процент от общата дисперсия, натрупани собствени стойности и натрупани проценти.


Както може да се види от таблицата, собствената стойност за първия фактор е 6.118369; тези. пропорцията на дисперсията, обяснена от първия фактор, е приблизително 61,2%. Имайте предвид, че тези стойности се оказват лесно сравними тук, тъй като се анализират 10 променливи и следователно сумата от всички собствени стойности се оказва равна на 10. Вторият фактор включва около 18% от дисперсията. Други фактори съдържат не повече от 5%обща дисперсия.Избор на броя на факторите. Разделът за уводен преглед накратко описва как получените собствени стойности могат да се използват, за да се реши колко фактора да се запазят в модела. Според критерия на Кайзер (Kaiser, 1960), трябва да запазите фактори със собствени стойности, по-големи от 1. От таблицата по-горе изглежда, че критерият води до избор на два фактора.

Сипеен критерий . Сега щракнете върху бутона Scree Plot, за да получите диаграма на собствените стойности за целите на прилагане на критерия за сипеи на Cattell (Cattell, 1966). Графиката по-долу е допълнена с линейни сегменти, свързващи съседни собствени стойности, за да направи критерия по-визуален. Кател твърди, въз основа на метода Монте Карло, че точката, в която непрекъснатият спад на собствените стойности се забавя и отвъд която нивото на останалите собствени стойности отразява само произволен „шум“. В графиката по-долу тази точка може да съответства на коефициент 2 или 3 (както е показано със стрелките). Затова опитайте и двете решения и вижте кое дава по-адекватна картина.



Сега нека да разгледаме факторните натоварвания.

Факторни натоварвания . Както е описано в раздела Уводен преглед, факторните натоварвания могат да се тълкуват като корелации между фактори и променливи. Следователно те представляват най важна информация, на които се базира интерпретацията на факторите. Нека първо да разгледаме (незавъртените) факторни натоварвания за всичките десет фактора. В раздела Натоварвания на диалоговия прозорец Резултати от анализа на факторите, в полето Ротация на фактора, задайте стойността без ротация и щракнете върху бутона Натоварвания на фактора, за да се покаже таблицата на натоварването.



Припомнете си, че изборът на фактори се извършва по такъв начин, че последващите фактори включват все по-малко и по-малко отклонение (вижте раздела за уводен преглед). Ето защо не е изненадващо, че първият фактор има най-голямо натоварване. Обърнете внимание, че знаците за факторни натоварвания са значими само за да покажат, че променливи с противоположни натоварвания на един и същ фактор взаимодействат с този фактор по противоположни начини. Можете обаче да умножите всички натоварвания в колоната по -1 и да обърнете знаците. Във всички останали аспекти резултатите ще останат непроменени.

Завъртане на факторното решение. Както е описано в раздела Уводен преглед, действителната ориентация на факторите във факторното пространство е произволна и всяка факторна ротация възпроизвежда корелации, както и други ротации. Следователно изглежда естествено да се ротират факторите по такъв начин, че да се избере най-лесната факторна структура за тълкуване. Всъщност терминът проста структурае измислен и дефиниран от Thurstone (1947) предимно за описание на условия, при които факторите имат високи натоварвания върху някои променливи и ниски натоварвания върху други, и когато има няколко големи кръстосани натоварвания, т.е. има няколко променливи със значителни натоварвания върху повече от един фактор. Най-стандартният изчислителен ротационен метод за получаване на проста структура е методът на варимакс ротация, предложен от Kaiser (1958). Други методи, предложени от Харман (1967), са методите на квартимакс, биквартимакс и еквимакс (виж Харман, 1967).

Избор на ротация . Първо помислете за броя на факторите, които искате да оставите за ротация и интерпретация. Преди това беше решено, че най-правдоподобният и приемлив брой фактори са два, но въз основа на критерия за сипеи беше решено да се разгледа и решение с три фактора. Щракнете върху бутона Отказ, за ​​да се върнете към диалоговия прозорец Задаване на метода за извличане на фактор и променете полето Максимален брой фактори в раздела Бързо от 10 на 3, след което щракнете върху бутона OK, за да продължите анализа.

Сега нека извършим завъртането с помощта на метода varimax. В раздела Натоварвания на диалоговия прозорец Резултати от анализ на фактора, в полето Ротация на фактора, задайте Varimax на първоначалната стойност.



Щракнете върху бутона Факторни зареждания, за да покажете резултатите от получените факторни зареждания в таблицата.


Показване на решението чрез завъртане на трите фактора. Таблицата показва значителни натоварвания на първия фактор за всички променливи, с изключение на тези, свързани с дома. Фактор 2 има доста значителни натоварвания за всички променливи, с изключение на тези, свързани с удовлетворението от работата. Фактор 3 има само едно значително натоварване на променливата Home_1. Фактът, че само една променлива натоварва силно третия фактор, кара човек да се чуди дали резултатът може да бъде също толкова добър без третия фактор?

Преглед на решението при ротация на два фактора . Щракнете отново върху бутона Отказ в диалоговия прозорец Резултати от факторен анализ, за ​​да се върнете към диалоговия прозорец Указване на метода за извличане на фактор. Променете полето Максимален брой фактори в раздела Бързо от 3 на 2 и щракнете върху OK, за да отидете в диалоговия прозорец Резултати от факторния анализ. В раздела Loadings, в полето Factor rotation, задайте Varimax на първоначалната стойност и щракнете върху бутона Factor loadings.


Фактор 1, както се вижда от таблицата, има най-високи натоварвания за променливи, свързани с удовлетворението от работата. Той има най-малки натоварвания за променливи, свързани с удовлетворението от дома. Други товари приемат междинни стойности. Фактор 2 има най-високи натоварвания за променливи, свързани с удовлетворението у дома, най-ниски натоварвания за удовлетворение на работа и средни натоварвания за останалите променливи.

Интерпретация на решението за двуфакторна ротация . Възможно ли е да се тълкува този модел? Изглежда, че двата фактора са най-добре идентифицирани като фактор за удовлетворение от работата (фактор 1) и фактор за удовлетворение от домашния живот (фактор 2). Удовлетворението от хобитата и различни други аспекти на живота изглежда е свързано и с двата фактора. Този модел предполага по някакъв начин, че удовлетворението от работата и домашния живот в тази извадка може да са независими едно от друго, но и двете допринасят за удовлетворението от хобита и други аспекти на живота.

Диаграма на решение, базирано на ротация на два фактора . За да получите диаграма на разсейване на два фактора, щракнете върху бутона 2M loading plot в раздела Loadings на диалоговия прозорец Резултати от факторния анализ. Показаната по-долу диаграма просто показва две зареждания за всяка променлива. Имайте предвид, че диаграмата на разсейване добре илюстрира два независими фактора и 4 променливи (Hobby_1, Hobby_2, Miscel_1, Miscel_2) с кръстосано натоварване.



Сега нека видим колко добре наблюдаваната ковариационна матрица може да бъде възпроизведена от двуфакторно решение.

Репликирана и остатъчна корелационна матрица. Щракнете върху бутона Възпроизведени и остатъчни корелации в раздела Обяснена вариация, за да получите две таблици с възпроизведената корелационна матрица и матрицата на остатъчните корелации (наблюдавани минус възпроизведени корелации).



Записите в таблицата с остатъчни корелации могат да се тълкуват като „сума“ от корелации, които не могат да бъдат отчетени от двата резултатни фактора. Разбира се, диагоналните елементи на матрицата съдържат стандартното отклонение, за което тези фактори не могат да бъдат отчетени, което е равно на корен квадратен от едно минус съответните общности за двата фактора (припомнете си, че общността на една променлива е дисперсията което може да се обясни с избрания брой фактори). Ако се вгледате внимателно в тази матрица, можете да видите, че практически няма остатъчни корелации, по-големи от 0,1 или по-малки от -0,1 (всъщност само малък брой от тях са близки до тази стойност). Добавете към това, че първите два фактора представляват около 79% от общата дисперсия (вижте натрупания % от собствените стойности в таблицата с резултати).

„Тайната“ на успешния пример . Примерът, който току-що проучихте, всъщност дава решение на двуфакторния проблем, което е близко до идеалното. Той отчита по-голямата част от дисперсията, има разумна интерпретация и възпроизвежда корелационна матрица с умерени отклонения (остатъчни корелации). В действителност реалните данни рядко дават толкова просто решение и в действителност този фиктивен набор от данни е генериран с помощта на генератор на произволни числа с нормално разпределениеналични в системата. По специален начин в данните бяха „въведени“ два ортогонални (независими) фактора, според които се генерираха корелации между променливите. Този пример за факторен анализ възпроизвежда двата фактора такива, каквито са били (т.е. факторът за удовлетворение от работата и факторът за удовлетворение от домашния живот). По този начин, ако едно явление (а не изкуствени данни, както в примера) съдържа тези два фактора, тогава, като ги изолирате, можете да научите нещо за скритата или латентна структура на феномена.

Други резултати . Преди да направим окончателно заключение, даваме кратки коментари за други резултати.

Общи черти . За да получите обобщенията на решението, щракнете върху бутона Общи положения в раздела Обяснена вариация на диалоговия прозорец Резултати от факторния анализ. Спомнете си, че общността на една променлива е пропорцията на дисперсията, която може да бъде възпроизведена при даден брой фактори. Завъртането на факторното пространство не влияе на големината на общността. Много ниските общности за една или две променливи (от многото в анализа) може да показват, че тези променливи не са много добре обяснени от модела.

Стойностни коефициенти. Факторните коефициенти могат да се използват за изчисляване на факторни стойности за всяко наблюдение. Самите коефициенти обикновено не представляват голям интерес, но стойностите на факторите са полезни за по-нататъшен анализ. За да покажете коефициентите, щракнете върху бутона Коефициенти на факторни стойности в раздела Стойности на диалоговия прозорец Резултати от факторен анализ.

Факторни стойности. Стойностите на факторите могат да се разглеждат като текущите стойности за всеки анкетиран респондент (т.е. за всяко наблюдение в оригиналната таблица с данни). Бутонът Стойности на факторите в раздела Стойности на диалоговия прозорец Резултати от факторния анализ ви позволява да изчислявате стойностите на факторите. Тези стойности могат да бъдат запазени за по-късно, като щракнете върху бутона Запазване на стойностите.

Последен коментар. Факторният анализ не е проста процедура. Всеки, който постоянно използва факторен анализс много (например 50 или повече) променливи, може да видите много примери за "патологично поведение", като например: отрицателни собствени стойности и неинтерпретируеми решения, специални матрици и др. Ако се интересувате от използването на факторен анализ за определяне или определяне на значимите фактори на голям брой променливи, трябва внимателно да проучите някои подробно ръководство(напр. книгата на Харман (Harman, 1968)). По този начин, тъй като много критични решения във факторния анализ са субективни по природа (брой фактори, метод на ротация, тълкуване на натоварванията), бъдете подготвени, че е необходим известен опит, преди да се почувствате уверени в него. Модулът за анализ на факторите е проектиран специално, за да улесни потребителя да превключва интерактивно между различен брой фактори, ротации и т.н., така че различни решения да могат да бъдат тествани и сравнявани.

Този пример е взет от помощна системаПЧП STATISTICAот StatSoft

Основни уравнения

Преди това почти всички учебници и монографии по факторен анализ предоставяха обяснение как да се извършват основни изчисления „ръчно“ или с помощта на просто изчислително устройство (сумираща машина или калкулатор). Днес, поради сложността и големия обем на изчисленията, необходими за изграждане на матрица от връзки, изолиране на факторите и ротирането им, вероятно не е останал нито един човек, който да не използва мощни компютрии свързани програми.

Затова ще се съсредоточим върху това кои най-значими матрици (набори от данни) могат да бъдат получени от факторен анализ, как те са свързани една с друга и как могат да се използват за интерпретиране на данните. Всички необходими изчисления могат да бъдат направени с помощта на всеки компютърна програма(като SPSS или STADIA).

IN маса 1Предоставен е списък на най-важните матрици за методите на главните компоненти и факторния анализ. Този списък съдържа главно матрици на връзки (между променливи, между фактори, между променливи и фактори), стандартизирани стойности (за променливи и за фактори), регресионни тегла (за изчисляване на стойности на факторите, използващи стойности за променливи), като както и матрици на факторни картографии на връзки между фактори и променливи след наклонена ротация. IN маса 1също са дадени матрици на собствени стойности и съответните им собствени вектори. Собствените стойности (собствените стойности) и собствените вектори са описани поради тяхното значение за идентифициране на фактори, използването на голям брой специални термини в това отношение и тясната връзка между собствените стойности и дисперсията в статистическите изследвания.

Таблица 1

Матрици, използвани най-често във факторния анализ

Наименование Име Размер Описание
Р Матрица на взаимоотношенията p x p Връзки между променливи
г Нестандартизирана матрица на данни N x p Първични данни - нестандартизирани стойности на наблюдение за първични променливи
З Стандартизирана матрица на данни N x p Стандартизирани стойности за наблюдение за първични променливи
Е Матрица от факторни стойности Nx f Стандартизирани стойности на наблюдение по фактори
А Матрица за зареждане на фактор Матрица за картографиране на фактор p x f Коефициенти на регресия за общи фактори, като се приеме, че наблюдаваните променливи са линейна комбинация от фактори. В случай на ортогонална ротация - връзки между променливи и фактори
IN Матрица от коефициенти на факторни стойности p x f Коефициенти на регресия за изчисляване на стойностите на факторите с помощта на променливи стойности
С Структурна матрица p x f Връзки между променливи и фактори
Е Факторна корелационна матрица fх f Корелации между факторите
Л Матрица на собствените стойности (диагонал) fх f Собствени стойности (характерни, латентни корени); всеки фактор съответства на една собствена стойност
V Матрица на собствения вектор fх f Собствени (характерни) вектори; всяка собствена стойност съответства на един собствен вектор

Забележка.При посочване на размера се дава броя на редовете х броя на колоните: r- брой променливи, Н- брой наблюдения, f- брой фактори или компоненти. Ако матрицата на отношенията Рне е изродено и има равен ранг п,тогава всъщност се откроява rсобствени стойности и собствени вектори, не f. Те обаче представляват само интерес fот тях. Следователно останалите п-фне са показани.

Към матрици СИ ЕПрилага се само наклонено завъртане, за останалите - ортогонално и наклонено завъртане.

Наборът от данни, подготвен за факторен анализ, се състои от резултатите от измервания (проучване) на голям брой субекти (респонденти) по определени скали (променливи). IN маса 2представен е масив от данни, който условно може да се приеме, че отговаря на изискванията на факторния анализ.

Петима респонденти, които са се свързали с туристическа агенция за закупуване на билет до морски курорт, са запитани за значението за тях на четири условия (променливи) за избор на дестинация за лятна почивка. Тези променливи условия бяха: цената на пътуването, комфортът на комплекса, температурата на въздуха, температурата на водата. Колкото по-значимо е от гледна точка на респондента това или онова състояние за него, толкова по-голямо значение му придава той. Изследователската задача беше да се проучи моделът на връзките между променливите и да се идентифицират основните причини, които определят избора на курорт. (Примерът, разбира се, е изключително опростен за илюстративни и образователни цели и не трябва да се приема на сериозно по отношение на съдържанието.)

Матрица на отношенията ( маса 2) се изчислява като корелация. Обърнете внимание на структурата на връзките в него, подчертана от вертикални и хоризонтални линии. Високите корелации в горния ляв и долния десен квадрант показват, че оценките за цената на обиколката и комфорта на комплекса са взаимосвързани, както и оценките за температурата на въздуха и водата. Другите два квадранта показват, че температурата на въздуха и комфортът на комплекса са взаимосвързани, както комфортът на комплекса и температурата на водата.

Нека сега се опитаме, използвайки факторен анализ, да открием тази структура от корелации, която е лесно видима с просто око в малка корелационна матрица (в голяма матрица това е много трудно да се направи).

Таблица 2

Данни за факторен анализ (примерен урок)

туристи Променливи
Цена на пътуването Ниво на комфорт Температура на въздуха Температура на водата
T1
Т2
Т3
Т4
Т5

Корелационна матрица

Цена на пътуването Ниво на комфорт Температура на въздуха Температура на водата
Цена на пътуването 1,000 -0,953 -0,055 -0,130
Ниво на комфорт -0,953 1,000 -,091 -0,036
Температура на въздуха -0,055 -0,091 1,000 0,990
Температура на водата -0,130 -0,036 0,990 1,000

Разлагане на множители

Важна теорема от алгебрата на матриците гласи, че матрици, които отговарят на определени условия, могат да бъдат диагонализирани, т.е. се трансформира в матрица с числа на главния диагонал и нули на всички останали позиции. Матриците на релациите са конкретно от типа диагонализирани матрици. Трансформацията се извършва по формулата:

тези. Диагонализацията на матрицата R се извършва, като първо тя се умножи (вляво) по транспонираната матрица V, обозначена с V’, а след това (вдясно) по самата матрица V.

Колоните в матрицата V се наричат ​​собствени вектори, а стойностите на главния диагонал на матрицата L се наричат ​​собствени стойности. Първият собствен вектор съответства на първата собствена стойност и т.н. (за повече подробности вижте Приложение 1).

Тъй като примерът по-горе разглежда четири променливи, ние получаваме четири собствени стойности със съответните им собствени вектори. Но тъй като целта на факторния анализ е да обобщи матрицата на връзките чрез възможно най-малко фактори и всяка собствена стойност съответства на различни потенциални фактори, обикновено се вземат предвид само фактори с големи собствени стойности. С „добро“ факторно решение, матрицата на изчислените връзки, получени с помощта на този ограничен набор от фактори, практически дублира матрицата на връзките.

В нашия пример, когато няма ограничения върху броя на факторите, собствените стойности 2.02, 1.94, .04 и .00 се изчисляват за всеки от четирите възможни фактора. Само за първите два фактора собствените стойности са достатъчно големи, за да бъдат обект на по-нататъшно разглеждане. Следователно само първите два фактора се избират повторно. Те имат собствени стойности съответно 2,00 и 1,91, както е посочено в таблицата. 3. Използвайки уравнение (6) и вмъквайки стойностите от дадения пример, получаваме:

(Всички компютърно изчислени стойности са еднакви; ръчните изчисления може да се различават поради неточности в закръгляването.)

Умножаването на матрицата на собствените вектори отляво по нейното транспониране дава матрицата на идентичност E (с единици на главния диагонал и останалите нули). Следователно можем да кажем, че преобразуването на матрицата на връзката по формула (6) не променя самата нея, а само я трансформира във форма, по-удобна за анализ:

Например:

Таблица 3

Собствени вектори и съответните собствени стойности за разглеждания пример за урок

Собствен вектор 1 Собствен вектор 2
-.283 .651
.177 -.685
.658 .252
.675 .207
Собствена стойност 1 Собствена стойност 2
2.00 1.91

Тъй като корелационната матрица може да се диагонализира, алгебрата на матрицата на собствените вектори и собствените стойности може да се приложи към нея, за да се получат резултатите от факторния анализ (вижте Приложение 1). Ако една матрица може да се диагонализира, тогава цялата съществена информация за факторната структура се съдържа в нейната диагонална форма. При факторния анализ собствените стойности съответстват на дисперсията, обяснена от факторите. Факторът с най-голяма собствена стойност обяснява най-голямата дисперсия и така нататък, докато стигнете до фактори с малки или отрицателни собствени стойности, които обикновено не се включват в анализа. Изчисленията на собствените стойности и собствените вектори са много трудоемки и способността да ги изчислявате не е абсолютна необходимост за психолога, който овладява факторния анализ за своите практически цели. Запознаването с тази процедура обаче няма да навреди, така че в Приложение 1 даваме като пример изчисляването на собствените стойности и собствените вектори на малка матрица.

За намиране на собствени стойности квадратна матрица p x p е необходимо да се намерят корените на полином от степен p, а за да се намерят собствените вектори, е необходимо да се решат p уравнения с p неизвестни с допълнителни странични ограничения, което за p>3 рядко се прави ръчно. След като собствените вектори и собствените стойности бъдат намерени, останалата част от факторния анализ (или анализа на главните компоненти) става повече или по-малко ясна (вижте уравнения 8-11).

Уравнение (6) може да бъде представено като: R=V’LV, (8)

тези. матрицата на връзката може да се разглежда като произведение на три матрици - матрицата на собствените стойности, матрицата на съответните собствени вектори и матрицата, транспонирана към нея.

След трансформацията матрицата на собствените стойности L може да бъде представена по следния начин:

и следователно: R=VÖLÖL V’ (10)

или (което е същото): R=(VÖL)(ÖL V’)

Нека означим: A=(VÖL) и A’=(ÖL V’), тогава R=AA’ (11)

тези. матрицата на връзката може също да бъде представена като произведение на две матрици, всяка от които е комбинация от собствени вектори и квадратни корени от собствени стойности.

Уравнение (11) често се нарича основно уравнение на факторния анализ. Той изразява твърдението, че матрицата на връзката е продукт на матрицата на факторните натоварвания (A) и нейното транспониране.

Уравнения (10) и (11) също показват, че значителна част от изчисленията във факторния анализ и методите на главните компоненти се състоят от определяне на собствени стойности и собствени вектори. След като те са известни, матрицата на фактора преди ротация се получава чрез директно умножение на матрицата:

В нашия пример:

Матрицата на факторното натоварване е матрица от връзки (интерпретирани като корелационни коефициенти) между фактори и променливи. Първата колона е корелацията между първия фактор и всяка променлива поред: цената на пътуването (-.400), комфорта на комплекса (.251), температурата на въздуха (.932), температурата на водата (. 956). Втората колона е корелацията между втория фактор и всяка променлива: пътни разходи (.900), комфорт на комплекса (-.947), температура на въздуха (.348), температура на водата (.286). Факторът се интерпретира въз основа на променливи, които са силно свързани с него (т.е. имат голямо натоварване върху него). Така първият фактор е предимно „климатичен“ (температура на въздуха и водата), докато вторият е „икономически“ (цената на пътуването и комфорта на комплекса).

Когато интерпретирате тези фактори, трябва да обърнете внимание на факта, че променливите с високо натоварване на първия фактор (температура на въздуха и температура на водата) са положително свързани, докато променливите с високо натоварване на втория фактор (цена на билета и комфорт на комплекса) са отрицателно взаимно свързани (Не можете да очаквате много комфорт от евтин курорт). Първият фактор се нарича униполярен (всички променливи са групирани на един полюс), а вторият се нарича биполярен (променливите са разделени на две групи, които са противоположни по значение – два полюса). Променливите с факторни натоварвания със знак "плюс" образуват положителен полюс, а тези със знак "минус" образуват отрицателен полюс. В същото време имената на полюсите „положителен” и „отрицателен” при интерпретиране на фактора нямат оценъчно значение на „лошо” и „добро”. Изборът на знак става на случаен принцип по време на изчисленията. Замяната на всички знаци с противоположни (всички плюсове с минуси и всички минуси с плюсове) не променя решението. Анализът на знаците е необходим само за идентифициране на групи (какво се противопоставя на какво). Със същия успех единият полюс може да се нарече десен, другият ляв. В нашия пример променливата цена на пътуването беше на положителния (десния) полюс; противопоставяше се променливият комфорт на комплекса на отрицателния (ляв) полюс. И този фактор може да се интерпретира (нарече) като „Икономичност и Комфорт“. Анкетираните, за които проблемът със спестяването е значителен, бяха отдясно - те получиха факторни стойности със знак „плюс“. Когато избират курорт, те се фокусират повече върху неговата евтиност и по-малко върху комфорта. Анкетираните, които не спестяват от ваканция (цената на пътуването не ги притеснява много) и които искат да се отпуснат предимно в комфортни условия, бяха отляво - те получиха факторни стойности със знак „минус“.

Все пак трябва да се има предвид, че всички променливи са значително корелирани и с двата фактора. Като част от това прост примертълкуването е очевидно, но в случай на реални данни не е толкова просто. Обикновено даден фактор е по-лесен за тълкуване, ако само малка част от променливите са силно свързани с него, а останалите не са.

Ортогонално въртене

Ротацията обикновено се прилага след извличане на фактор, за да се максимизират високите корелации и да се минимизират ниските. Има многобройни методи за ротация, но най-често използваният е варимакс ротация, която е процедура за максимизиране на дисперсията. Тази ротация максимизира дисперсията на факторните натоварвания, като прави високите натоварвания по-високи и ниските натоварвания по-ниски за всеки факторен ден. Тази цел се постига с помощта на трансформационни матрици L:

A преди завоя L = A след завоя,

тези. матрицата на натоварване на фактора преди ротация се умножава по матрицата на трансформация, за да се получи матрицата на натоварване на фактора след ротация. В нашия пример:

Сравнете матриците преди и след ротация. Имайте предвид, че матрицата след завъртането има ниски факторни натоварвания по-ниски и високи факторни натоварвания по-високи от матрицата преди завъртането. Подчертаната разлика в натоварванията улеснява интерпретацията на фактора и позволява недвусмислен избор на променливи, които са тясно свързани с него.

Елементите на трансформационната матрица имат специална геометрична интерпретация:

Трансформационната матрица е матрица от синуси и косинуси на ъгъла ψ, през който се извършва въртенето. (Оттук и името на трансформацията - ротация, защото от геометрична гледна точка осите се въртят около началото на факторното пространство.) В нашия пример този ъгъл е приблизително 19 градуса: cos19° = .946 и sin19° = .325. Геометрично това съответства на завъртане на факторните оси с 19 градуса около началото. (Вижте по-долу за повече информация относно геометричните аспекти на въртенето.)



 


Прочетете:



Процес на рестартиране на браузъра Firefox

Процес на рестартиране на браузъра Firefox

Повечето проблеми с Firefox могат да бъдат коригирани, като следвате методите за отстраняване на неизправности, описани по-долу. Опитайте тези стъпки в ред. Ако някой не работи,...

Безплатно нулиране на нивата на мастилото в принтери Epson L100, L110, L210, L300, L350, L355, L550, L555, L800

Безплатно нулиране на нивата на мастилото в принтери Epson L100, L110, L210, L300, L350, L355, L550, L555, L800

Безплатно нулиране на нивото на мастилото за принтери Epson L110, L210, L300, L350, L355, L550, L555.

VK руската версия на моята страница

VK руската версия на моята страница

Инструкции за презареждане на контейнери с мастило и...

Форматиране на SD и microSD карти с памет: защо е необходимо и как да го направите

Форматиране на SD и microSD карти с памет: защо е необходимо и как да го направите

Социалната мрежа VKontakte моята страница днес е един от най-популярните интернет ресурси в света, да не говорим за Русия и Украйна. тя...

Бърза и безопасна помощна програма за форматиране на SD, SDHC и SDXC карти с памет.  Програмата поддържа и работа с други видове външни... feed-image