Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Analisi Statistica: Hotelling e la Ricerca delle Componenti Principali, Appunti di Metodologia E Tecniche Di Ricerca Sociale

Questo documento ripercorre il procedimento di hotelling degli anni '30 per estrarre le componenti principali da una matrice delle correlazioni. Il processo è importante per capire come si arriva a ottenere autovalori e vettori di pesi componenziali. Il documento include un esempio semplice e spiega come calcolare la varianza ceduta e la sottrazione elemento per elemento dalla matrice originale. Inoltre, vengono discusse le tecniche di rotazione e il concetto di struttura semplice. Il documento include anche un confronto tra analisi in componenti principali e analisi fattoriale.

Tipologia: Appunti

2009/2010

Caricato il 08/03/2010

antonio
antonio 🇮🇹

4.4

(3750)

708 documenti

1 / 11

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Analisi Statistica: Hotelling e la Ricerca delle Componenti Principali e più Appunti in PDF di Metodologia E Tecniche Di Ricerca Sociale solo su Docsity! 1 Metodologia e tecnica della ricerca sociale Prof. Giovanni Di Franco Lezione del 12 dicembre 2003 Per chiudere questo corso volevo farvi vedere, proprio come esempio, come ho applicato l’analisi delle componenti principali eseguendo tutti i calcoli a mano, quindi facendo tutti i vari passaggi che sono necessari per estrarre la componente principale. Questo procedimento era quello proposto negli anni ’30 da Hotelling (Analisi fattoriale e analisi in componenti principali, capitolo 4, pag. 115) e oggi non si usa più perché gli stessi risultati si ottengono più agevolmente tramite l’elaboratore; ma è importante ripercorrere tutti i passaggi perché ci fa capire come effettivamente da una matrice delle correlazioni arriviamo ad avere da un lato un autovalore e dall’altro un vettore di pesi componenziali. Tutto ciò che noi produciamo parte da una serie di calcoli che noi facciamo su una matrice delle correlazioni. Facciamo un esempio semplice, che prevede una matrice con sole cinque variabili e per facilitare i calcoli ho preso coefficienti con solo una cifra decimale (pag. 116) Tabella 4.4 – Matrice delle correlazioni fra cinque variabili V1 V2 V3 V4 V5 V1 1 .9 .3 .3 .4 V2 .9 1 .3 .3 .3 V3 .3 .3 .1 .4 .5 V4 .3 .3 .4 .1 .6 V5 .4 .3 .5 .6 .1 Totale 2,9 2,8 2,5 2,6 2,8 Il primo passaggio in che cosa consiste? Si sommano per colonna tutti i coefficienti di correlazione – come vedete questa matrice contiene anche il triangolo superiore, quindi ha tutti i coefficienti di correlazione speculari - ed i numeri che così abbiamo ottenuto costituiscono quello che chiamiamo il “primo vettore provvisorio” Ua1 . Ua1 : [2,9; 2,8; 2,5; 2,6; 2,8] Questo vettore deve essere normalizzato. Un vettore che cos’è? E’ un insieme di numeri che possono essere organizzati o per colonna: se sono organizzati per riga sono “vettori riga” se sono organizzati per colonna sono “vettori colonna”. Invece, una matrice è una organizzazione di numeri per riga e per colonna. Quindi, volendo, potremmo dire che il vettore è una matrice particolare perché avrà una sola riga o una sola colonna. La matrice, invece, ha righe e colonne diverse tra loro altrimenti non è più matrice. Quindi, intanto noi abbiamo cinque numeri che costituiscono i cinque elementi di quello che chiamiamo vettore di prova. Ora, questi cinque numeri devono essere normalizzati. Come si normalizzano? Calcolo prima la somma degli elementi di Ua1 al quadrato (che nel nostro esempio è 37,1); poi calcolo la radice quadrata di 37,1, che è 6,09; poi divido ciascun elemento per 6,09; ottengo così altri cinque nuovi valori.Questi nuovi valori (.48; .46; .41; .43; .46) sono gli elementi del primo vettore provvisorio normalizzato che chiamo Va1 . Questi sarebbero i primi pesi componenziali che però sono provvisori perché come si vedrà il procedimento interattivo si porterà avanti fino a che troveremo due vettori perfettamente uguali: quando avremo trovato due vettori perfettamente uguali ci fermiamo ed abbiamo trovato la prima componente principale. Quindi per il momento abbiamo 2 questi cinque elementi normalizzati del vettore; adesso bisogna definire un secondo vettore provvisorio Ua2. Per definire questo secondo vettore provvisorio dobbiamo moltiplicare ogni elemento del primo vettore provvisorio normalizzato per ogni elemento di ciascuna riga della matrice di correlazione R (quella che abbiamo visto all’inizio) ed otteniamo così i cinque nuovi elementi [1,32; 1,28; 1,09; 1,15; 1,26]. Dopo di che anche questi nuovi vettori provvisori andranno normalizzati seguendo il solito procedimento (somma dei quadrati degli elementi; radice quadrata della somma dei quadrati degli elementi; divisione di ciascun elemento per la radice quadrata della somma dei quadrati). Facendo tutti i calcoli, vediamo che la somma dei quadrati è 7,48; la radice quadrata di 7,48 è 2,73; ora dividiamo tutti gli elementi di Ua2 per 2,73 ed arriviamo così ad ottenere il secondo vettore provvisorio normalizzato Va2 [.48; .47; .40; .42; .46]. A questo punto abbiamo due vettori normalizzati e li confrontiamo: Va1 [.48; .46; .41; .43; .46] Va2 [.48; .47; .40; .42; .46] Come vedete, anche se abbiamo due elementi uguali, gli altri tre sono diversi: questo vuol dire che non possiamo interrompere il procedimento e che bisogna ripetere questo procedimento per ricostruire un terzo vettore provvisorio standardizzato. Ripetiamo così lo stesso identico procedimento usando gli elementi del secondo vettore standardizzato. Arriveremo così ad avere Va3 [.49; .47; .40; .42; .45]. Confrontiamo adesso il secondo vettore standardizzato con il terzo: Va2 [.48; .47; .40; .42; .46] Va3 [.49; .47; .40; .42; .45] anche in questo caso, vediamo che non è soddisfatto il criterio di convergenza (che richiede l’identità fra tutti gli elementi dei due vettori): occorre reiterare il procedimento per costruire un quarto vettore provvisorio (i calcoli saranno effettuati sugli elementi del terzo vettore standardizzato). Arriveremo al quarto vettore provvisorio standardizzato e lo confronteremo con il terzo: Va3 [.49; .47; .40; .42; .45] Va4 [.49; .47; .40; .42; .45] Questa volta si dice che abbiamo raggiunto la convergenza cioè ogni numero di ciascuno dei due vettori è uguale: quindi questi saranno gli elementi per fare i pesi componenziali della prima componente principale. Cioè: Va3 [.49; .47; .40; .42; .45] costituisce il primo vettore caratteristico (autovettore) della matrice; la radice quadrata della somma dei quadrati di Ua4 costituisce invece la prima radice caratteristica (o autovalore, simbolo λ) e, nel nostro esempio, è uguale a 2,74. Quindi, come vedete, l’autovalore e i pesi componenziali, sono praticamente la stessa cosa: uno è espresso in una scala, l’altro è espresso in un’altra scala perché noi normalizziamo i pesi componenziali usando l’autovalore e quindi la somma degli elementi al quadrato dei pesi componenziali è uguale all’autovalore. Quindi, il primo vettore caratteristico è la prima componente principale e i pesi componenziali delle variabili su di essa si ricavano moltiplicando i suo elementi per la radice quadrata dell’autovalore (cioè 1,66 che è la radice quadrata di 2,74). Questa è la prima soluzione: cioè abbiamo estratto la prima componente principale da quella matrice delle correlazioni; l’autovalore di questa prima componente è 2,74 e noi l’autovalore lo utilizziamo come “varianza riprodotta”. Dato che la matrice era fatta da cinque variabili, la varianza totale quanto è? 5. Di questi 5 di varianza totale, la prima componente ne riproduce 2,7 e quindi più 5 soluzione vera perché la soluzione vera sarebbe quella di poter controllare la correlazione da un punto di vista empirico e quindi avendo due vettori cooperanti tra di loro e poi vedendo quanto sono più o meno cooperanti. Queste tecniche ci dicono che due vettori sono più o meno cooperanti ma certamente noi non possiamo sostenere che si tratta di un risultato empirico in quanto dipende dalla decisione del ricercatore di aumentare o diminuire il valore del parametro. Per questo motivo, per molti diventa ridicolo il dover decidere se usare una rotazione obliqua oppure ortogonale. C’è da dire poi che quando si usano queste tecniche di rotazione, siccome ce ne sono molte e siccome ognuna produce un risultato diverso, diventa difficile anche stabilire quale tecnica di rotazione applicare ad una data soluzione di componenti o analisi fattoriale che sia. Allora io qui vi faccio vedere che cosa mi sono inventato io: propongo una tecnica completamente alternativa che è quella di non produrre con un’unica analisi due o più dimensioni – che è quello che normalmente invece si fa – ma di produrre con tante analisi diverse dimensioni diverse. Si tratta quindi di un procedimento che produce, estrae e memorizza nella matrice una dimensione per volta. Fatto ciò, dopo posso tranquillamente correlare gli indici e, senza decidere nulla, tranquillamente constatare quanto questi indici sono più o meno correlati. Questo ripeto scavalca completamente il problema di dover invece stabilire, senza in effetti sapere nulla, quanta correlazione rendere possibile tra due componenti principali. Come si è arrivati a questo tipo di soluzione? Innanzitutto è importante stabilire che cosa si intende per “struttura semplice”: l’abbiamo già detto ma l’abbiamo detto in maniera implicita (pag. 93). Quando noi produciamo una componente principale, noi poi dobbiamo dargli un nome; a noi farebbe comodo che dentro quella componente principale ci fossero poche variabili con pesi molto alti, non importa se positivi o negativi, e tutte le rimanenti variabili del paniere con pesi tendenzialmente vicini allo zero. In questa maniera noi potremmo imputare tranquillamente quelle variabili più importanti su quella componente e tutte le altre su componenti diverse. Thurstone, che è uno degli autori più importanti in quanto ha dato notevoli contributi allo sviluppo di questi strumenti, concepì l’idea di una “struttura semplice” di una componente o di un fattore. Peraltro, Thurstone si occupava quasi esclusivamente di analisi fattoriale ma il problema si presenta anche con le componenti principali perché anche li noi abbiamo dare una interpretazione alla componente principale: quindi il concetto di “struttura semplice” vale in entrambe i casi. Questo concetto di struttura semplice noi lo possiamo articolare in cinque diversi punti: 1) ciascun vettore riga (componente o fattore ruotato che sia) della matrice dei pesi ruotati dovrebbe presentare almeno un elemento nullo; 2) se ci sono n fattori (o componenti principali), ciascun vettore-colonna della matrice dei pesi ruotati dovrebbe presentare almeno n elementi nulli (dove n è il numero dei fattori o delle componenti principali); 3) in ogni coppia di vettori-colonna (componenti o fattori ruotati) delle matrice dei pesi dovrebbero esserci parecchie variabili con pesi nulli in uno e pesi non nulli nell’altro; 4) per ogni coppia di vettori-colonna (componenti o fattori ruotati) della matrice dei pesi componenziali ruotata un apprezzabile numero di variabili dovrebbe presentare pesi praticamente nulli in entrambi qualora vi siano più di quattro fattori/componenti principali; 5) per ogni coppia di vettori-colonna (componenti o fattori ruotati) della matrice solo un piccolo numero di variabili dovrebbe presentare pesi non tendenti a zero in entrambi i vettori. Facciamo subito un esempio. Qui abbiamo due casi limite e, ovviamente, sono dati fittizi. Tabella 4.1 – Una soluzione che soddisfa e una che non soddisfa il criterio della struttura semplice Pesi comp. 1 Pesi comp. 2 Pesi comp. 1 Pesi comp. 2 V1 .80 .00 V6 .40 .40 V2 .95 .00 V7 .60 .60 6 V3 .00 .75 V8 .30 .30 V4 .85 .00 V9 .25 .25 V5 .00 .80 V10 .50 .50 (pag. 102) Allora, abbiamo cinque variabili e due componenti principali e dobbiamo guardare a questa tabella come se fossero due tabelle separate. Iniziamo con il considerare solo la prima parte: vediamo come ci troviamo nella situazione ideale. Perché siamo nella situazione ideale? Perché per ogni variabile abbiamo un peso alto solo su una delle due e sull’altra un peso nullo: v1 satura solo sulla prima; v2 satura solo sulla seconda; v3 solo sulla seconda; v4 solo sulla prima; v5 solo sulla seconda. Quindi, non c’è dubbio che per interpretare la prima componente devo considerare quanto c’è in comune tra v1, v2 e v4; per interpretare la seconda componente mi concentrerò solo su v3 e v5. Questa è la situazione ideale. La seconda parte della tabella, invece, rappresenta la dimensione peggiore di tutti: per ciascuna variabile sulle due componenti abbiamo sempre lo stesso peso, quindi non c’è modo di dire v6, v7 e v8 le metto qui mentre v9 e v10 le metto da quest’altra parte. Quindi, avendo posto due casi limite, mi sono detto perchè non mi invento un indice che rilevi quanta semplicità c’è in una soluzione oppure in un’altra? Ho ragionato un po’ ed ho prodotto un indice che ho chiamato, in onore di Thurstone, ISS (Indice di Struttura Semplice). Questo è un indice che ci dice quanto la soluzione è vicina oppure lontana rispetto a ciò che dovrebbe essere una struttura semplice. Come si calcola? Si fa la sommatoria, per tutte le variabili, della differenza, in valore assoluto (quindi il peso sulla componente 1 della prima variabile meno il peso sulla componente 1 della seconda variabile). Questa differenza in valore assoluto viene normalizzata con la somma in valore assoluto dei due pesi, poi faccio tutti i calcoli e divido per “v” dove “v” è il numero delle variabili (formula a pag. 103). Normalizzato perchè? Perchè io volevo che l’indice variasse tra zero e 1 dove, 0 significava la totale mancanza di struttura semplice e 1 significava la totale presenza di struttura semplice. Ora, se vi volete divertire, applicate questa formuletta a queste matrici (tab. 4.1) e vedete che se la applicate alla prima matrice il risultato è 1, sulla seconda matrice il risultato è zero. Quando ho fatto questa cosa, mi sono divertito a fare un esperimento. Cioè, ho preso quattro matrici dei dati, quindi panieri con variabili diverse sia perchè alcune sono relative a variabili rilevate su individui sia perchè altre sono variabili rilevate su unità ecologiche, dopo di che, ho calcolato l’indice di struttura semplice prima sulla soluzione non rotata (quindi senza mettere nessun tipo di rotazione) e poi invece ho provato tutte le tecniche di rotazione che sono presenti sul programma SPSS ed ho visto, caso per caso, quanto la rotazione migliorasse oppure no (perchè in certi casi la peggiora pure) la semplicità della soluzione. Quindi, ad esempio, nella matrice relativa ad una ricerca fatta nel ‘72 (pag. 104) Tab. 4.2 – I valori dell’indice ISS ottenuti applicando le diverse tecniche di rotazione alle quattro matrici analizzate Nessuna rotazione Varimax Quartimax Oblimin1 Oblimin2 Promax1 Promax2 Promax3 Surita72 .45 .61 .61 .55 .55 .54 .46 .44 Ecotosco .46 .52 .50 .52 .50 .53 .51 .50 Surcomeu .41 .52 .54 .59 .60 .61 .60 .57 7 Ecolita .47 .42 .48 .45 .49 .47 .45 .44 Ecco, in questa matrice delle correlazioni, avendo estratto due componenti principali, vediamo che senza aver fatto nessuna rotazione, la semplicità della soluzione è uguale a .45: tenendo presente che l’indice varia da 0 a 1 (dove 0 sul dire massima lontananza dalla semplicità; 1 vuol dire massima semplicità), .45 significa che stiamo più o meno a metà strada. Applicando la tecnica di rotazione Varimax, vediamo che l’indice ISS è .61, quindi miglioriamo, grosso modo, di un 16% anche se ancora siamo ben lontani dal massimo della semplicità; con Quartimax abbiamo lo stesso risultato che con Varimax; con Oblimin1, Oblimin2, Promax1, Promax2, Promax3 abbiamo risultati peggiori rispetto ai risultati di Varimax e Oblimin ma migliori rispetto alla mancanza di rotazione anche se di pochissimo. Ricordiamo anche che Varimax e Quartimax sono tecniche di rotazione ortogonale; le altre sono tecniche di rotazione oblique cioè sono quelle che passano per le due componenti singole). Con le tecniche di rotazione obliqua, come vedete, addirittura la situazione peggiora rispetto alla soluzione non ruotata: in alcuni casi di meno, in altri decisamente di più. Relativamente al paniere di variabile della matrice Ecotosco (che è un file ecologico, relativo ai comuni della Toscana), senza rotazione otteniamo .46 e come vedete la situazione migliora di pochissimo sia che si applichi una tecnica di rotazione ortogonale sia che si tratti di una tecnica di rotazione obliqua (si passa da .46 ad un massimo di .53, con un incremento massimo del solo 7%). Un po’ diversa è la situazione per il terzo paniere di variabili della matrice Surcomeu (risultato di sondaggi individuali su un campione di cittadini della Comunità europea): da .41 (senza aver fatto alcuna rotazione) si vede chiaramente che le tecniche di rotazione obliqua danno un risultato migliore rispetto alle tecniche di rotazione ortogonali. Con ECOLITA , vediamo invece che la rotazione (sia ortogonale che obliqua non cambia un gran che rispetto al valore ottenuto senza rotazione). Allora, da queste osservazioni, io ho tratto alcune conclusioni: 1) che o si fa così – ma così non lo farà mai nessuno – oppure è meglio evitare di fare la rotazione. Perché? Perché, paradossalmente, la rotazione potrebbe peggiorare la semplicità della soluzione. 2) Visto che questi sono esempi di matrici tipiche della ricerca sociale, perché abbiamo o dati di sondaggio (quindi questionari, scale e compagnia bella) o dati aggregati: come vedete, che si faccia o che non si faccia la rotazione, comunque, non abbiamo mai una struttura semplice; non arriviamo mai, cioè, a valori dell’ISS vicini a 1. Di conseguenza noi ci dobbiamo aspettare sempre che ci sia un po’ di trasversalità tra una componente e l’altra componente. Cioè non abbiamo mai una componente che sia esattamente prodotto di risultati comunque ? di variabili. Questo aumenta la necessità di seguire il procedimento alternativo che proponiamo io e Marradi, cioè evitare di estrarre più di una componente alla volta: così facendo, affinando progressivamente quella dimensione, e poi producendo tante dimensioni quante ne interessano a noi, potremmo, senza fare alcun artificio, senza fare alcun salto mortale, potremmo poi automaticamente registrare una effettiva ponderazione empirica tra le componenti prodotte in questa maniera. E siccome, ripeto, sono sessanta anni che c’è gente che si spacca la testa per trovare come risolvere un problema del genere, la soluzione che proponiamo (che è più empirica che non tecnica) ha una sua validità. Questa invece è una matrice relativa sempre alle quattro variabili che abbiamo visto anche prima per prova, quando si trattava di correlazioni oblique: quindi, qui ci riporta qual è la correlazione prodotta dalle tecniche di rotazione oblique usate. 10 variabile che noi riteniamo indicatore di una proprietà, nel nostro esempio, indicatore di intelligenza, non sarà solo indicatore di intelligenza ma avrà una parte della sua varianza che è dovuta o ad altri fattori oppure anche alla varianza cosiddetta “erratica” (cioè ad una varianza accidentale). Quindi, per seguire gli assunti posti, noi non possiamo analizzare la matrice delle correlazioni empirica (cioè quella che utilizzeremmo se noi facessimo l’analisi in componenti principali) ma dobbiamo riuscire a separare per ciascuna variabile due quote di varianza: la prima quota la chiamiamo “varianza comune” (ed è la varianza che noi attribuiamo ai fattori e basta); l’altra quota di varianza per ciascuna viariabile, invece, la dovremmo escludere dall’analisi perché quella si chiama “varianza specifica” della variabile che non è interessata al fattore che ci interessa determinare. Ora, il problema è che non c’è modo di sapere come dividere la varianza di ciascuna variabile in queste due quote e quindi, l’unica cosa che si può fare è farne una stima. Ora, di stime se ne possono fare tante e, quindi, infatti, ci sono tante diverse tecniche di analisi fattoriale che sostanzialmente si distinguono l’una dall’altra proprio per come si stima la “varianza comune”. Quindi mentre abbiamo sostanzialmente un solo modo per fare l’analisi in componenti principali, ce ne sono diversi, almeno una decina, per fare l’analisi fattoriale (ovviamente, ciascuno parte da una stima, fatta in maniera diversa, di quella che abbiamo detto essere la viarianza comune). Anche qui il dibattito va avanti da almeno sessanta anni. Ma anche qui ci sono due cose paradossali. Intanto che nessuno si è mai posto il problema che un conto è la scienza “parlata” e un conto è la scienza applicata (naturalmente quanto parlo di scienza parlo di scienza empirica). Cioè c’è gente che ha discusso sessanta anni se era meglio fare un tipo di stima piuttosto che un altro e non gli è mai venuto in mente di controllare empiricamente che differenza c’è tra un modo e l’altro di fare la stima. C’è gente che parla da una vita di una cosa ma non ha mai lavorato empiricamente su quella cosa. Allora, io mi sono posto il problema di che cosa cambia se io cambio il tipo di tecnica di analisi fattoriale e, soprattutto, che cosa cambia se faccio un’analisi fattoriale o se faccio un’analisi in componenti principali. Anche qui vi faccio vedere il risultato di un esperimento che io ho fatto (pag. 146). Da un punto di vista pratico, è che entrambe le tecniche (in realtà non sono due perché da un lato abbiamo l’acp e dall’altro abbiamo setto o otto diversi modi di fare analisi fattoriale) - con la differenza di fondo che mentre l’acp elabora integralmente la matrice delle correlazioni, qualsiasi tecnica di analisi fattoriale fa una stima nella matrice delle correlazioni quindi non prende in considerazione la matrice in quanto tale ma sostituisce i valori empirici con valori stimati. Ora è chiaro che a seconda di quanto è grande questa matrice delle correlazioni si può ragionevolmente ipotizzare che più la matrice è grande più dovrebbe essere distante, come risultato, un risultato ottenuto con l’acp rispetto ad un risultato ottenuto con l’analisi fattoriale. Perché? Perché abbiamo introdotto una maggiore fonte di variazione. Quindi, ci siamo posti questo problema ed abbiamo individuato un insieme di matrici su cui fare l’esperimento. Partendo da una matrice molto piccola (5x5) abbiamo scelto matrici sempre più grandi (fino a 42x42) fino ad un numero massimo di 11 matrici: una 5x5, due 6x6, due 8x8, una 10x10, una 15x15, una 18x18, una 33x33, una 37x37, una 42x42. Quindi abbiamo valutato, cambiando tipo di matrice delle correlazioni, cosa succede se applico un’acp o se applico un’analisi fattoriale. A questo punto vediamo cosa è risultato. Naturalmente, in ciascuna di queste due analisi, abbiamo estratto o due componenti o due fattori, dopo di che, abbiamo correlato la prima componente con il primo fattore, la seconda componente con il secondo fattore. Guardate i risultati: nella matrice più grande, la correlazione tra la prima componente e il primo fattore è .97; la correlazione tra la seconda componente e il secondo fattore è uguale a .97; poi abbiamo anche una terza componente correlata con un terzo fattore uguale a .96. Cioè in tre casi su tre non c’è praticamente alcuna differenza tra la prima componente ed il primo fattore e così via per gli altri due. Anche nella matrice a 37 variabili anche qui abbiamo valori (.98, .98 e .96) che indicano che sostanzialmente non vi è alcuna differenza. Nella matrice 18x18, addirittura, la correlazione tra prima componente e primo fattore e seconda componente e secondo fattore è .99 il che vuol dire che sono la stessa cosa. Anche negli altri casi abbiamo sempre valori 11 superiori a (.95). C’è solo un caso in cui non abbiamo un valore così alto ed è nella matrice 33x33 perché c’è una forte correlazione tra la prima componente ed il primo fattore (.94) mentre scendono a valori molto bassi le correlazioni tra seconda componente/secondo fattore e terza componente/terzo fattore perché le variabili “riturel” e “trascen” sono state trattate preliminarmente in modo molto particolare (vedi capitolo 6, pag. 152 e segg.). C’è poi il caso della matrice più piccola, quella 5x5, dove abbiamo valori di .83 e .19: questi valori si spiegano con il fatto che essendo la matrice molto piccola, in realtà l’analisi fattoriale non riesce ad estrarre il secondo fattore perché dopo aver estratto il primo fattore c’è talmente tanta poca varianza che il secondo fattore non può considerarsi un fattore vero e proprio ma è quello che viene definito “scoria” (è un rumore di fondo piuttosto che un segnale); mentre tra le prime due c’è un valore non altissimo ma neanche tanto basse quanto il secondo. La morale di tutta questa storia qual è? E’ che dopo che per anni si è spaccato il capello in quattro e si è discusso, quando poi andiamo a vedere se si fa un acp oppure se si fa un’analisi fattoriale (certo, è chiaro che una minima differenza ci deve essere) ciò che costringe un’analisi fattoriale a partire (cioè il fatto di dover stimare una cosa che non si sa e che non si saprà mai, cioè quanta parte di quella variabile dipende dall’intelligenza di quel soggetto e non da altro) quindi, visto che nell’af bisogna fare questo tipo di stima (ma è una stima comunque arbitraria) mentre nell’acp no, quando dunque vado a vedere che differenza c’è nei risultati se uso l’af piuttosto che l’acp e mi accorgo che le differenze sono impercettibili (con, però, la semplicità dell’acp rispetto alle difficoltà dell’af) allora è chiaro che non si capisce il perché si debba usare l’af e non invece l’acp anche quando l’obiettivo dell’analista non è quello semplice di fare una sintesi – perché se è questo l’obiettivo applico subito e senza indugi l’acp – ma è quello classico dell’analisi fattoriale (cioè dire ricondurre un insieme di variabili ritenute manifestazioni di una o più proprietà latenti alle stesse proprietà latenti) anche in questo caso, visto che i risultati sono praticamente convergenti, tanto vale usare l’acp. Non c’è dunque motivo di fare un percorso irto di difficoltà quando c’è una tecnica più parsimoniosa, che non richiede assunti o stime e che comunque dà un risultato apprezzabile. E’ per questa ragione che gran parte del libro, dal capitolo 6 fino all’ultimo, dove solo facciamo esempi di come si applicano, per obiettivi che possono essere diversi. Ci sono essenzialmente due obiettivi che però sono importanti: il primo è come costruire un indice che rilevi una sola dimensione (nel capitolo 6 e nel capitolo 8). Il secondo obiettivo per cui si può usare altrettanto bene l’acp è esplorare la dimensionalità cioè quante dimensioni sono sottese ad una data matrice di correlazioni perché questo di norma è uno degli obiettivi che riguardano la ricerca sociale perché noi non abbiamo idea che vi siano dimensioni sottostanti ma non sappiamo in prima battuta stabilire quante sono: a questo scopo si può usare l’acp e quindi poi, una volta individuate le dimensioni, si può, volendo, procedere alla costruzione di tanti indici quante sono le dimensioni individuate. Di questa cosa, fra i capitoli 7 ed 8 si presentano esempi di questo genere. Quindi, la seconda parte del libro consiste, in realtà, di esercizi nel senso che presentano come si sono date risposte a domande di natura cognitiva e quasi sempre tutti questi esercizi sono svolti usando esclusivamente grafici o tabelle con pesi componenziali. Per il resto del libro non ci sono altri problemi. Se non ci sono domande finiamo così. Ci vediamo agli esami.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved