Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

G. Di Franco "Tecniche e modelli di analisi multivariata", riassunto completo, Sintesi del corso di Metodologia E Tecniche Di Ricerca Sociale

Riassunto completo e dettagliato del manuale di Giovanni Di Franco sulle tecniche e i modelli dell'analisi multivariata.

Tipologia: Sintesi del corso

2021/2022

Caricato il 20/01/2022

marica-tiberi
marica-tiberi 🇮🇹

4.7

(62)

22 documenti

1 / 16

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica G. Di Franco "Tecniche e modelli di analisi multivariata", riassunto completo e più Sintesi del corso in PDF di Metodologia E Tecniche Di Ricerca Sociale solo su Docsity! 1 1. INTRODUZIONE 1.1 “La nuova edizione di Tecniche e modelli di analisi multivariata” In Italia e nel resto del mondo è aumentato l’utilizzo di procedimenti di analisi multivariata nella produzione scientifica dei ricercatori di molte discipline delle scienze umane. Le ragioni di tale aumento sono dovute a diversi fattori. In primo luogo la forte influenza della cosiddetta scientometria, ossia quella disciplina che pretende di certificare la qualità di una pubblicazione ricorrendo a indicatori di natura biometrica. La seconda ragione della diffusione dei procedimenti di analisi multivariata è dovuta al crescente aumento di programmi informatici oggi disponibili sul mercato. Fra questi alcuni sono d’uso estremamente semplice poiché consentono all’utente di impostare un’analisi complessa scegliendo la routine di un programma di analisi dei dati, accettando così i comandi di default che sono stati impostati dai programmatori. Ricevuto questo input, il programma analizza in automatico i dati e fornisce i risultati dell’analisi. Un ricercatore che intende avvalersi di uno di questi strumenti di analisi dei dati deve porsi due problemi tra loro interconnessi: il primo è relativo alla comprensione degli strumenti concettuali, il secondo è riuscire a discriminare tra la vasta offerta nei diversi programmi informatici di analisi statistica dei dati che offrono le stesse procedure, quello o quelli che offrono i maggiori vantaggi in riferimento agli obiettivi e alle necessità di una particolare elaborazione. La semplificazione delle procedure che caratterizzano quasi tutti i programmi informatici illude molti utenti di essere in grado di usare l’analisi multivariata dei dati senza avere le conoscenze necessarie. Oltre che di competenze teoriche e metodologiche, occorrono capacità di concentrazione, pazienza nonché molto tempo a disposizione. Per tale ragione, la crescente semplicità dei programmi informatici può considerarsi un difetto piuttosto che un pregio. 2. PROGETTARE L’ANALISI MULTIVARIATA DEI DATI 2.1 “Definizione e funzioni dell’analisi multivariata” Possiamo definire l’analisi multivariata dei dati come un insieme di operazioni finalizzate al raggiungimento di almeno uno dei seguenti obiettivi: 1.esplorazione del fenomeno oggetto di studio; 2.la descrizione del fenomeno oggetto di studio; 3.la sintesi e la classificazione delle informazioni che riguardano l’oggetto di studio; 4.la spiegazione, l’interpretazione e la specificazione delle relazioni tra le variabili che sono ritenute rilevanti in connessione con il fenomeno oggetto di studio; 5.la previsione di stati futuri che riguardano il fenomeno oggetto di studio. L’ordine degli obiettivi non è casuale: essi sono disposti in modo ascendente rispetto a) al livello di complessità, b) dal grado di desiderabilità. L’eventuale mancato conseguimento degli obiettivi dipende dal livello di conoscenze teoriche, dal tipo di ipotesi di ricerca che si è in grado di formulare e dalle esperienze empiriche. Un’indagine progettata con finalità descrittivo-esplorative avrà ipotesi di ricerca poco formalizzate o addirittura implicite, ed i conseguenti obiettivi saranno l’esplorazione, la descrizione e la sintesi delle informazioni raccolte. Se invece l’indagine è di tipo esplicativo, saremo in grado di formulare ipotesi più complesse e l’analisi dei dati sarà volta a controllare la plausibilità delle relazioni fra le variabili specificate nelle ipotesi, la loro forza e generalizzabilità. Alcune discipline fisico-naturali sono caratterizzabili come sperimentali in quanto il loro strumento di indagine è l’esperimento controllato in laboratorio, nel quale il ricercatore ha la possibilità di: 1.isolare le variabili che gli interessano; 2.manipolare la variabile che assume come indipendente, facendola variare a suo piacimento; 2 3.osservare e misurare le variazioni che la variabile dipendente subisce per effetto delle variazioni prodotte dalla variabile indipendente. Per le scienze umane un simile procedimento non è applicabile, ma è possibile applicare un procedimento di tipo quasi-sperimentale costruendo due gruppi di individui, detti l’uno gruppo sperimentale e l’altro gruppo di controllo, e facendo agire la variabile indipendente solo sul primo gruppo. Le operazioni eseguibili sulle variabili dipendono dalla loro natura: se le variabili sono cardinali possiamo applicare tutte le procedure statistiche compatibili con questo livello, se le variabili sono categoriali, si devono applicare altri strumenti statistici. 2.2 “Le fasi dell’analisi multivariata” Conclusa la fase della costruzione dei dati, ossia la trasformazione delle informazioni in dati, il primo passo prevede la costruzione di una matrice dei dati (matrice casi per variabili), dove questi vengono organizzati disponendo per riga i casi e per colonna i loro stati sulle proprietà rilevate (variabili). I dati vengono di solito distinti in due tipi: a) dati primari: costruiti direttamente nell’ambito della ricerca; b) dati secondari: costruiti da un’altra fonte e acquisiti nell’ambito della ricerca con fini diversi da quelli per cui sono stati costruiti. Le unità di analisi più frequentemente in uso nella ricerca sociale sono: a) l’individuo; b) un gruppo; c) un aggregato territoriale. Per ciascuna proprietà la definizione operativa stabilisce un insieme di codici numerici che rappresentano i suoi stati nella matrice, trattandola così in una variabile. Fondamentalmente si individuano tre livelli di analisi dei dati: 1) livello monovariato; 2) livello bivariato; 3) livello multivariato. A livello multivariato si elaborano simultaneamente più di due variabili. In questo caso sono due gli obiettivi principali: a) l’esplorazione, la descrizione, la sintesi e la classificazione dei dati; b) l’individuazione di relazioni tra un insieme di variabili secondo determinati modelli teorici. Per la descrizione, esplorazione e sintesi dei dati, possiamo rappresentare gli n casi come uno sciame di n punti in uno spazio a p dimensioni. Se invece si ricorre all’analisi multivariata con intenti esplicativi, si cerca di controllare le ipotesi, formulate dal ricercatore, testandone la generalizzabilità dal campione alla popolazione di riferimento. Possiamo distinguere le procedure di analisi multivariata in tecniche e modelli, distinzione introdotta in Italia da Capecchi. Per la tecnica di analisi multivariata dei dati si intende un procedimento di elaborazione che permette il raggiungimento di un risultato che il più delle volte consiste in una classificazione o in una sintesi delle informazioni contenute nella matrice dei dati; per modello di analisi multivariata dei dati si intende, invece, un procedimento di elaborazione il cui risultato è una stima della bontà dell’adattamento di un modello teorico ai dati. 2.3 “Il linguaggio dell’analisi multivariata” Un altro importante aspetto da prendere in considerazione riguarda l’utilizzo, nel vocabolario dell’analisi dei dati, di due linguaggi diversi: il linguaggio teorico e il linguaggio statistico-matematico. La significatività statistica è una misura della differenza tra la distribuzione congiunta effettiva e quella attesa in caso di totale indipendenza tra le variabili. Attraverso un coefficiente di significatività statistica siamo in grado di sapere il livello di fiducia con il quale respingiamo l’assunto di indipendenza tra le due variabili. Nelle scienze umane il numero di variabili non rilevate e non controllate riduce l’utilità teorica del coefficiente di significatività, in quanto le differenze (o associazioni) che il coefficiente registra come significative possono essere dovute alle variabili esterne. Se nelle ricerche delle scienze umane non si riesce a coniugare la significatività statistica con quella 5 grandi categorie: -Le tecniche gerarchiche: producono una sequenza di partizioni in tipi secondo un ordine gerarchico fino ad un massimo di n-1 iterazioni. Esse procedono per aggregazioni successive a partire da un numero n di gruppi unitari fino ad arrivare ad un unico gruppo che aggrega tutti i casi, oppure per scissioni successive partendo da un unico gruppi per arrivare a n gruppi con un solo individuo. -Le tecniche non gerarchiche: conducono direttamente ad un’unica divisione degli n casi in k gruppi. Le tecniche gerarchiche presentando due vantaggi: 1. Danno una visione completa della struttura d’assieme dei casi in termini di coefficienti di distanze; 2. Non richiedono una scelta a priori del numero di gruppi da formare. D’altra parte, hanno lo svantaggio di non poter trattare grandi matrici dei dati, ma il vero limite è costituito dall’inscindibilità dei gruppi che si formano. Le tecniche non gerarchiche possono trattare matrici grandi ma presentano il problema di dover determinare a priori il numero di gruppi che si vuole costruire. 3.3 “Analisi discriminante” L’analisi discriminante lineare (ad) può essere considerata come un caso particolare dell’analisi in componenti principali. Nell’analisi lineare il punto di partenza è costituito da una classificazione dei casi nota. Nella matrice dei dati dev’essere quindi presente una variabile categoriale che classifica i casi in un certo numero di gruppi. Il compito dell’analisi discriminante è quello di descrivere questa classificazione dei casi. L’obiettivo generale dell’analisi discriminante consiste nell’identificare una o più combinazioni lineari di variabili in grado di discriminare nel modo migliore i gruppi. Per tale scopo si individuano delle funzioni discriminanti latenti costituite da combinazioni lineari delle p variabili cardinali inizialmente considerate. Nella prima fase dell’analisi discriminante si scelgono le variabili cardinali con le quali individuare le funzioni lineari discriminanti che, una volta individuate, devono essere interpretate. Nella fase successiva, si classificano i casi confrontandoli con i k gruppi noti per stabilire la percentuale di assegnazione corretta. Per l’individuazione delle funzioni discriminanti si possono usare diversi criteri: 1. Il criterio diretto: tutte le variabili sono introdotte inizialmente nell’analisi per essere poi progressivamente escluse se non superano il test di tolleranza; 2. Il criterio stepwise (passo-passo): le variabili sono introdotte una alla volta in base alla loro capacità di discriminazione. 3.4 “Tecniche di Scaling Multidimensionale” Le tecniche di scaling multidimensionale (sm) sono procedure finalizzate a collocare in uno spazio (di solito a due o tre dimensioni) un insieme di oggetti (gli items di una scala di atteggiamento) o di casi. Fra questi insiemi di oggetti o di casi è necessario calcolare delle misure di distanza o di dissimilarità, e tale procedura può essere applicata con variabili cardinali e ordinate. Possiamo dividere la procedura in due parti: nella prima sono indicate le operazioni per la costruzione di una matrice delle distanze fra le variabili o i casi inclusi nell’analisi, nella seconda parte possiamo lanciare la procedura di scaling indicando al programma la natura delle variabili sottoposte ad analisi. In sintesi, le tecniche di scaling multidimensionale sono un ibrido fra l’analisi in componenti principali e l’analisi dei gruppi. Dall’analisi in componenti principali riprendono il procedimento di estrazione delle dimensioni, dall’analisi dei gruppi riprendono il tipo di matrice utilizzata nell’analisi. 6 4. LE TECNICHE PER VARIABILI CATEGORIALI 4.1 “Analisi delle corrispondenze binarie” L’analisi delle corrispondenze semplici o binarie (d’ora in poi ac) è considerata una tecnica di analisi delle variabili categoriali che si colloca fra le tecniche di analisi non lineari (il termine non lineare si riferisce al fatto che è inconcepibile una relazione lineare fra le variabili categoriali). Buona parte dell’ac è stata sviluppata in Francia da Benzècri e dai suoi collaboratori che avevano chiamato tale tecnica ‘analisi fattoriale delle corrispondenze.’ Dal punto di vista tecnico, l’ac può essere considerata un caso particolare dell’analisi delle componenti principali applicata alle modalità delle variabili categoriali. L’unico requisito della procedura consiste nella presenza di valori positivi nelle celle di una tabella di contingenza. Il principale pregio dell’ac è consentire il trattamento multivariato di variabili categoriali senza dover ricorrere a trasformazioni artificiose; l’obiettivo è individuare uno spazio di poche dimensioni all’interno del quale collocare le modalità delle variabili inserite nell’analisi. L’obiettivo dell’ac consiste nell’analisi della dipendenza fra le modalità delle due variabili. A tale scopo si rappresentano le diverse modalità di una variabile in termini di somiglianza o diversità in funzione delle modalità dell’altra variabile. L’analisi della tabella di contingenza effettuata attraverso le distribuzioni di frequenza relative rende confrontabili le diverse modalità di una stessa variabile. La scelta di analizzare i profili come coordinate da considerare nello spazio a più dimensioni assegna a tutte le modalità di una variabile la stessa importanza. Queste saranno poi distinte considerando le rispettive masse. Ogni modalità presenta una massa pari alla propria frequenza relativa. Ad entrambi gli insiemi di profili si può applicare una riduzione secondo il procedimento delle componenti principali. L’ac individua un sotto-spazio ottimale (ossia ridotto) che consente di rappresentare a meglio le distanze tra i profili o fra i profili delle modalità e il profilo medio (baricentro). Dal punto di vista statistico, assume un significato importante la traccia (=la somma degli elementi che sono collocati sulla diagonale principale di una matrice quadrata) della matrice da diagonalizzare nell’equazione degli autovalori dell’ac. Tale traccia è pari al coefficiente phi quadrato che quantifica il grado di interdipendenza fra le due variabili categoriali. Per cui lo scopo dell’ac è di effettuare una scomposizione del valore del phi quadrato di Pearson presente fra le due variabili. Confrontando i singoli profili delle righe e delle colonne con i rispettivi profili marginali, è possibile rendersi conto delle diversità delle somiglianze all’interno dei due insiemi di modalità. Dopo aver calcolato i profili, si può calcolare la distanza tra i punti-riga e la distanza tra i punti-colonna: tale distanza è detta distanza del chi quadrato o distanza distributiva. Avendo definito le distanze, è possibile ottenere un grafico dei punti in uno spazio di dimensioni ridotte. Lo spazio migliore è quello che massimizza l’inerzia, cioè una misura della dispersione dell’insieme delle distanze calcolate fra i punti. L’inerzia corrisponde alla varianza riprodotta nell’analisi in componenti principali. Prima di procedere all’interpretazione dei fattori prodotti dall’analisi, si valuta la cosiddetta stabilità della soluzione. Un criterio che consente di determinarla è l’ammontare di inerzia riprodotta da tutte le dimensioni individuate. Nell’ac non esiste una regola generale, ma si può seguire uno dei 4 criteri: 1. Si può fissare a priori una data percentuale di riproduzione dell’inerzia; 2. Si può scegliere un numero fisso di fattori, a prescindere dalla percentuale di inerzia; 3. Si può calcolare la riproduzione media di ogni modalità attiva; 4. Si possono rappresentare graficamente gli autovalori rispetto all’ordine di estrazione (scree test). Nell’ac e nell’acm si possono dividere le variabili-modalità in attive, che concorrono direttamente alla formazione degli assi fattoriali, e supplementari o illustrative, che non contribuiscono alla formazione 7 dei fattori, ma sono utili per interpretare i fattori e per studiare legami di interdipendenza. Nelle operazioni di interpretazione dei fattori è utile introdurre e rappresentare casi e/o modalità supplementari. Obiettivo di tale introduzione è pervenire a una migliore interpretazione degli assi. L’interpretazione dei fattori prodotti, sia dall’ac sia dall’acm, viene effettuata utilizzando vari coefficienti statistici che forniscono informazioni complementari. Per l’interpretazione dei fattori estratti possono essere utilizzati i seguenti criteri: 1) il contributo assoluto di ciascuna modalità attiva: rappresenta la parte di inerzia del fattore dovuta alla modalità cui si riferisce. Con il contributo si valuta quanta influenza una modalità ha avuto nel determinare un certo fattore; 2)il coseno quadrato, detto anche contributo relativo o qualità della rappresentazione: è un valore che permette di valutare il contributo che un certo fattore F fornisce alla riproduzione della inerzia di ogni modalità attiva; 3)le coordinate fattoriali: possono avere segno positivo o negativo e stabiliscono la posizione delle modalità, sia attive sia illustrative, sugli assi. 4)i valori Test di ogni modalità attiva e illustrativa e controllano la significatività dell’associazione tra una modalità e un fattore. A volte i grafici possono essere l’unico elemento di valutazione dei risultati dell’ac. Quando le modalità sono troppo numerose, i grafici possono risultare di difficile lettura: in questi casi è necessario ricorrere alle tabelle che riportano i coefficienti statistici. Per l’interpretazione dei grafici valgono tali regole: se due o più modalità della stessa variabile appaiono vicine significa che presentano distribuzioni simili; se le due modalità vicine appartengono a variabili diverse significa che la frequenza presente nella cella all’intersezione tra riga e colonna è molto superiore a quella attesa; se due o più modalità di una stessa variabile appaiono lontane significa che presentano distribuzioni diverse. Nell’ac la prossimità tra modalità di variabili diverse non può essere interpretata come associazione; dev’essere valutata in relazione al baricentro. 4.2 “L’analisi delle corrispondenze multiple” L’analisi delle corrispondenze multiple (acm) consente l’analisi simultanea di un insieme di variabili categoriali, riducendole in un numero minore di dimensioni (fattori). La tecnica elabora una particolare tabella di contingenza multipla utilizzando la distanza del chi quadrato, e analizza le relazioni tra le righe e tra le colonne sia separatamente sia congiuntamente. Per ogni variabile categoriale si definisce un insieme di nuove variabili, dette variabili indicatrici o variabili-modalità, che possono assumere solo valori 0/1 (assenza/presenza). Con un’operazione di algebra delle matrici il programma di analisi produce un’altra matrice detta matrice di Burt o matrice delle corrispondenze multiple. A seguito viene analizzata la dispersione di ciascuna variabile-modalità rispetto ai profili marginali. Sono considerati tutti i profili di riga e di colonna e viene analizzata la dispersione dei profili intorno al baricentro. Queste operazioni si effettuano utilizzando la metrica del chi quadrato che misura la distanza tra due profili: questa proprietà è definita equivalenza distribuzionale. Obiettivo dell’acm è costruire poche dimensioni in grado di riprodurre la maggior parte dell’inerzia presente fra le variabili-modalità analizzate. Come per l’ac, anche per l’acm è possibile individuare due insiemi di variabili-modalità e di casi: le variabili-modalità e i casi attivi che concorrono alla formazione dei fattori, e le variabili-modalità e i casi illustrativi che possono essere utilizzati per arricchire l’interpretazione dei fattori. Una volta individuati i fattori, si possono rappresentare le variabili-modalità e/o i casi, sia attivi sia illustrativi, come punti proiettati all’interno di piani fattoriali tra di loro ortogonali. I fattori sono combinazioni delle variabili-modalità attive, ortogonali tra loro e riproducono il massimo della dispersione presente nella matrice di Burt. L’acm consente l’analisi grafica dei piani costituiti dagli assi fattoriali considerati a due a due. Su questi piani fattoriali si possono proiettare le variabili-modalità e/o i casi dei quali è possibili calcolare le 10 combinazioni lineari delle variabili cardinali originate. Il modello dell’analisi fattoriale scompone la varianza di ciascuna variabile in tre quote non correlate (indipendenti) fra loro: 1.la varianza comune con altre variabili nella matrice delle correlazioni: è la quota di varianza di una variabile che può essere riprodotta dai fattori comuni alle altre variabili che compaiono nell’analisi; 2.la varianza specifica di ciascuna variabile; 3.la varianza erratica: dipende da fattori accidentali. I parametri incogniti per impostare un’analisi fattoriale sono due: 1) il numero dei fattori comuni e 2) i valori delle comunalità di ciascuna variabile. Sotto ogni insieme di variabili strettamente correlate fra loro si inferisce la presenza di un fattore. Estratti questi fattori per ciascuna variabile vengono indicate le correlazioni con i fattori comuni ad esse (pesi fattoriali – factor loadings). Nell’analisi fattoriale, ogni variabile può essere espressa attraverso un’equazione lineare in cui compaiono i p fattori comuni e il fattore specifico: z1 = bi1F1+bi2F2+…+bipFp+b1U1 L’autovalore relativo ai fattori esprime la porzione di varianza riprodotta dal fattore; per l’analisi fattoriale la somma degli autovalori è uguale alla traccia della matrice delle correlazioni tra le variabili. La comunalità esprime la porzione di varianza riprodotta dai p fattori comuni. Perché le comunalità non sono note a priori, occorre farne una stima per poterle inserire nella diagonale. Le strategie per determinarle sono: a)fissare a priori il numero p dei fattori da estrarre e trovare valori di comunalità tali che la matrice delle correlazioni tra le variabili abbia rango uguale a p; b)fissare i valori delle comunalità in modo da ridurre il rango della matrice. Ci sono diversi criteri per determinare i valori delle comunalità che tendono a minimizzare il rango della matrice delle correlazioni; tra questi: a)il criterio iterativo di Thurstone; b)il criterio massimo r; c)il criterio R2; d)altri criteri iterativi. Le obiezioni che solitamente si muovo all’analisi fattoriale sono le seguenti: a)esistono infinite soluzioni matematiche equivalenti; b)spesso non c’è accordo su quali e quanti siano i fattori più importanti in un campo di applicazione; c)è difficile replicare i risultati dell’analisi fattoriale. Ma presenta anche alcuni vantaggi: 1.separare la varianza comune dalla varianza unica; 2.un fattore riproduce le correlazioni fra le variabili senza essere definito da esse completamente; in questo caso il vantaggio consiste nel poter controllare empiricamente le ipotesi. Bisogna prendere in considerazione anche il problema della collocazione dei fattori nello spazio fattoriale. Poiché non vi è alcuna garanzia che la prima collocazione dei fattori sia quella ottimale, si devono ruotare i fattori per cercarne la migliore collocazione. Tecniche di estrazione dei fattori nel programma di elaborazione statistica Spss per Windows: -Tecnica degli Assi principali: identica all’analisi delle corrispondenze principali, tranne per il fatto che le diagonali presentano valori inferiori a uno; -Tecnica dei Minimi quadrati non ponderati (ULS): per un numero di fattori che vengono fissati a priori, si produce una matrice fattoriale che minimizza la somma dei quadrati delle differenze tra la matrice delle correlazioni empiriche e la matrice delle correlazioni riprodotta dai fattori estratti; 11 -Tecnica dei Minimi quadrati generalizzati (GLS): il criterio è minimizzare la matrice delle correlazioni residue dopo l’estrazione di un dato numero di fattori. Dopo l’estrazione dei fattori, si valuta il grado di adattamento fra le correlazioni riprodotte e le correlazioni empiriche, esaminando le differenze quadratiche fra le due matrici; -Tecnica della Massima verosimiglianza (ML): si producono stime dei pesi fattoriali che risultano le più probabili nell’ipotesi che le variabili provengano da una popolazione distribuita normalmente; -Tecnica Alpha: le variabili immesse in un’analisi vengono considerate un campione dell’universo delle potenziali variabili. Si tende a massimizzare l’attendibilità dei fattori prodotti usando il coefficiente Alpha di Cronbach; -Tecnica Image: assume che le variabili siano un campione e scompone la varianza delle variabili in due parti: la prima dovuta ai fattori comuni, la seconda alle unicità delle variabili. 5.3 “Modelli di equazioni strutturali” I modelli di equazioni strutturali (mes) costituiscono un approccio multi-modello che integra e fa interagire diversi modelli di analisi multivariata. Essenzialmente, i mes coniugano e fanno interagire due tradizioni di analisi dei dati: 1. La tradizione relativa ai costrutti latenti (analisi fattoriale); 2. La tradizione dei modelli di equazioni strutturali (path analysis), definiti solo da variabili cardinali manifeste. Nell’ambito dei mes, i modelli sono concepiti stocasticamente e ad ogni equazione viene attributo un significato strutturale. I mes comprendono un modello di misurazione e un modello strutturale. Con il modello di misurazione si definisce attraverso quali variabili si giunge a rilevare le dimensioni latenti e se ne stima l’attendibilità e la validità; il modello strutturale specifica le relazioni di dipendenza tra le variabili e stima l’entità degli effetti e dei residui. In generale per definire il numero di dati di una matrice quadrata e simmetrica, si applica questa semplice formula: (n*n+1)/2, dove n è il numero delle variabili. Porre una matrice di varianze e covarianza alla base dei mes è compatibile con i due obiettivi principali: 1) analizzare i modelli di covarianza tra un insieme di variabili; 2) riprodurre con il modello specificato dal ricercatore la maggior parte delle loro varianze e covarianze. Nei mes le variabili si distinguono fra manifeste (anche dette osservate) e latenti. I costrutti latenti sono definiti nei mes attraverso i due modelli di misura: uno per i costrutti latenti esogeni e uno per i costrutti latenti endogeni. In genere nei mesi i costrutti latenti sono considerati delle proprietà continue ma anche i termini residuali (detti termini di errore), che sono associati sia alle variabili sia ai costrutti latenti endogeni. I mes disponibili su Lisrel consentono di distinguere fra due modelli di misura e un modello strutturale: con i modelli di misura si definiscono le variabili attraverso cui si stimano i costrutti latenti e la relativa attendibilità e validità; il modello strutturale specifica le relazioni di dipendenza solo fra i costrutti latenti. A partire da una matrice di varianze e covarianze, calcolata tra le sole variabili che indichiamo con S, si stimano tutti i parametri del modello attraverso i quali si produce una nuova matrice di covarianze che indichiamo con la lettera greca Sigma. La valutazione del modello consiste nel confronto tra la matrice empirica e la matrice riprodotta dal modello: S – Sigma. Bisogna distinguere quattro tipi di variabili prodotti dalle due dicotomie esogene/endogene e manifeste/latenti. Le variabili esogene manifeste sono rappresentate dalla lettera x, quelle endogene manifeste dalla lettera y; un costrutto latente esogeno si identifica con la letta greca ksi, mentre un costrutto latente endogeno si identifica con la lettera eta. Altre tre lettere dell’alfabeto greco identificano i termini residui o gli errori: epsilon, delta, zeta. Per rappresentare i diversi parametri strutturali si usano i seguenti simboli: 1. Lamba con y – per i legami che connettono le latenti endogene alle variabili endogene; 2. Lamba con x – per i legami dalle latenti esogene alle variabili esogene; 12 3. Beta – per i legami fra le latenti endogene; 4. Gamma – per i legami fra le latenti esogene e quelle endogene. Infine, altre quattro lettere dell’alfabeto rappresentano le varianze e le covarianze fra le esogene latenti e fra gli errori: 1. Phi – indica le varianze e le covarianze fra le latenti esogene; 2. Psi – indica le varianze e le covarianze fra gli errori delle latenti endogene; 3. Theta con Epsilon – le varianze e le covarianze degli errori delle variabili endogene manifeste; 4. Theta con Delta – le varianze e le covarianze degli errori delle variabili esogene manifeste. Ciascun simbolo presenta poi dei pedici che individuano o singole variabili o termini di errore o coefficienti relativi alle relazioni tra coppie di variabili. Fondamentalmente la specificazione del modello consiste nello stabilire quali sono i parametri da stimare di un modello, a seguito delle scelte del ricercatore effettua in base alla teoria di riferimento. Nel caso dei modelli recursivi, che non prevedono legami di retroazione fra le variabili, è piuttosto facile stabilire se un modello è identificato. Un modello si dice identificato se è possibile individuare un insieme univoco di soluzioni per i parametri incogniti del sistema di equazioni. Ci sono due requisiti necessari ma non sufficienti per l’identificazione di un modello strutturale recursivo: 1) i gradi di libertà del modello devono essere uguali a zero. Quando i parametri sono più numerosi dei dati, i gradi di libertà sono negativi e in questo caso si dice che il modello è sotto-identificato o indeterminabile; 2) a ciascun costrutto latente del modello deve essere assegnata una scala di valori. Nel procedimento di stima si segue una funzione (detta di adattamento) che dev’essere ottimizzata minimizzando la differenza fra la matrice empirica delle covarianze e la stessa matrice predetta dal momento specificato dal ricercatore. Quando il programma completa il procedimento di stima può avere inizio la fase di controllo delle ipotesi. Si analizzano le stime dei parametri del modello e si constata se sono coerenti con le ipotesi del modello. L’interpretazione delle stime dei parametri segue questi criteri: 1. I coefficienti strutturali sia standardizzati sia non standardizzati sono interpretati come i coefficienti di regressione parziali. Dividendo il valore di un coefficiente strutturale per il suo standard error si ottiene il cosiddetto valore T. 2. I coefficienti che rappresentano la varianza nella soluzione non standardizzata sono stime della varianza non riprodotta delle corrispondenti variabili endogene, espresse nella stessa unità di scala delle variabili. 3. Nella soluzione standardizzata, le varianze di tutte le variabili sono uguali a uno. La valutazione complessiva di un modello consiste nell’analisi del suo adattamento ai dati. Per effettuare questa operazione sono necessari dei valori statistici, detti indici di bontà dell’adattamento (goodness of fit). 6. I MODELLI PER VARIABILI CARDINALI 6.1 “I modelli log-lineari” I modelli log-lineari (mll) sono uno strumento per l’analisi multivariata delle variabili categoriali, generalmente presentate in tabelle di contingenza a due o più entrate. I mll trasformano le frequenze di cella di una tabella di contingenza calcolandone i rispettivi logaritmi naturali. Si dice logaritmo naturale (simbolo ln) di un numero l’esponente al quale si eleva la costante e=2,718 per ottenere quel numero. L’inverso della funzione logaritmica si dice antilogaritmo e consiste nell’elevazione a potenza della costante 2,718 per ottenere il numero di partenza. Chiameremo i logaritmi delle frequenze di cella di una tabella di contingenza log-frequenze. Il mll scompongono tali log-frequenze in parametri e ricostruiscono la tabella originaria. Queste operazioni compiute all’interno dei mll consentono: 15 6.3 “Regressione logistica con variabile dipendente politomica” Il modello di regressione logistica multidimensionale (rlm) può essere considerato un’estensione del modello binario. Come per la regressione logistica binaria, le variabili indipendenti possono essere sia categoriali (denominati ‘fattori’ sul programma Spss) sia cardinali (denominate ‘covariate’ su Spss). Un modo per valutare la bontà dell’adattamento del modello consiste nel considerare i coefficienti pseudo R quadrato. Tali coefficienti quasi sempre forniscono risultati di difficile interpretazione e non hanno la stessa efficacia del coefficiente R quadrato della regressione lineare multipla. Il contributo di una variabile indipendente è calcolato comparando il modello completo con il modello che omette la variabile di cui si valuta il contributo. 6.4 “Regressione logistica con variabile dipendente ordinale” Se le categorie della variabile dipendente sono ordinate, il ricercatore può ricorrere al modello di regressione logistica ordinale (rlo). In alcuni casi le variabili con categorie ordinate sono prodotte da strumenti quali le scale di atteggiamento e le scale di valutazione, di soddisfazione o di frequenza. Rispetto alle categoriali non ordinate, le categoriali ordinate presentano una maggiore informazione che esprime quanto una modalità sia più o meno in relazione con le altre. Nella regressione logistica binaria c’è una sola costante, un coefficiente b per ciascuna variabile cardinale indipendente e un coefficiente b per ciascuna categoria. La regressione logistica multinomiale calcola per ciascuna modalità della variabile dipendente una diversa costante e un diverso coefficiente b per ciascuna variabile indipendente. Infine, nella regressione ordinale, visto che la variabile dipendente può essere considerata una sorta di continuum latente, è possibile valutare come i casi si muovono lungo il continuum. Sono necessarie diverse costanti per determinare la posizione dei casi sulla scala; questo significa che ciascuna variabile indipendente esercita un effetto costante sulla variabile dipendente. 6.5 “Analisi della varianza a più vie” Con il termine analisi della varianza (av) si definisce un’ampia famiglia di modelli che confrontano le medie di una variabile cardinale in due o più sotto-campioni della stessa popolazione, definiti dalle categorie di una o più variabili categoriali. Il programma di analisi statistica Spss mette a disposizione tre diverse procedure per l’analisi della varianza: - oneway: che effettua l’av bivariata – si analizza la varianza di una variabile cardinale in k sotto campioni definiti dalle k modalità di una sola variabile categoriale; - anova: effettua l’av multipla – la varianza di una variabile cardinale si analizza rispetto a sotto campioni definiti rispetto a più variabili categoriali; - manova: effettua l’av multivariata in modelli che includono più variabili cardinali e più variabili categoriali. Nel modello della varianza a più vie si effettua una scomposizione della varianza della variabile cardinale in due componenti: 1. Una dovuta alla differenza tra le medie dei gruppi e la media generale calcolata sull’intera popolazione: questa componente si dice quota di varianza riprodotta; 2. Una componente residuale dovuta alle varianze dei casi nei vari sotto-campioni rispetto alle medie dei sotto-campioni relativi. Ricapitolando: l’av a più vie tiene conto simultaneamente di tutte le medie calcolate nei diversi gruppi per accertare la presenza di differenze statisticamente significative, e permette di scomporre la varianza della variabile cardinale tra le diverse variabili categoriali comprese nel modello. I confronti sono effettuati tra le varianze tra i gruppi e le varianze entro i gruppi; il test di significatività usato è la F di Fisher; l’uso del test F è subordinato ai seguenti vincoli: ogni gruppo deve poter essere considerato un campione casuale estratto in modo indipendente dalla stessa popolazione o popolazioni diverse, e ogni gruppo deve presentare la stessa varianza. 16
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved