Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Tecniche e modelli di analisi multivariata, Sintesi del corso di Sociologia

Riassunto manuale - Di Franco G., 2011, Tecniche e modelli di analisi multivariata. Milano, Franco Angeli;

Tipologia: Sintesi del corso

2019/2020

Caricato il 08/09/2020

Annex90
Annex90 🇮🇹

4.4

(41)

7 documenti

1 / 7

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Tecniche e modelli di analisi multivariata e più Sintesi del corso in PDF di Sociologia solo su Docsity! Tecniche e modelli di analisi multivariata - Libro #3 1) Introduzione. [Omissis] 2) Progettare l’analisi multivariata dei dati. 2.1 Definizione e funzioni dell’analisi multivariata. L’analisi multivariata dei dati è un insieme di operazioni che ha come scopo almeno uno dei seguenti obiettivi (in ordine di importanza): - esplorazione del fenomeno in oggetto; - descrizione del fenomeno in oggetto; - sintesi e classificazione delle informazioni; - spiegazione, interpretazione e specificazione delle relazioni tra variabili ritenute rilevanti; - previsione circa gli stati futuri del fenomeno. I principali problemi legati alla ricerca sociale ed alla relativa analisi dei dati sono la natura non sperimentale delle ricerche e la tipologia delle variabile che impone molti vincoli. 2.2 Le fasi dell’analisi multivariata. [ricalca libro 1] I livelli di analisi dei dati sono mono, bi e multi variato. Gli obiettivi dell’analisi multivariata sono l’esplorazione, descrizione, sintesi e classificazione dei dati e poi l’individuazione delle relazioni tra l’insieme delle variabili in base a determinati modelli teorici. Capecchi introduce la distinzione tra tecniche e modelli di analisi. Per tecniche di analisi multivariata si intende il procedimento di elaborazione che di regola consente di giungere ad una classificazione o sintesi delle informazioni contenute nella matrice dei dati. Per modello si intende il procedimento che consente la stima della bontà dell’adattamento del modello teorico ai dati, cioè a spiegare i dati e le relative relazioni tra variabili. Le tecniche si limitano ad investigare i dati esistenti, i modelli hanno lo scopo di inferire i risultati sull’intera popolazione di riferimento. 2.3 Il linguaggio dell’analisi multivariata. Alcuni chiarimenti circa le differenze tra il linguaggio teorico e quello statistico-matematico: significatività statistica vuol dire che l’associazione che si riscontra sulle variabili non è casuale e si misura come probabilità di fiducia circa il respingimento dell’ipotesi di indipendenza tra variabili. In sostanza si rende falsa l’ipotesi nulla per confermare l’alternativa (dipendenza). Nellle scienze umane non è sempre (quasi mai) possibile trattare le variabili a livello sperimentale ed isolarle completamente da fattori esterni, quindi scartare una ipotesi alternativa non esclude 1 eventuali altre ipotesi. Galtung suggerisce di sostituire per la ricerca sociale il termine significatività con quello di generalizzabiltà cioè inferibile all’intera popolazione. Gli accoppiamenti tra significatività (o meno) statistica e generalizzabilità (o meno) teorica portano a quattro risultati possibili dell’analisi. I due valori SI SI e NO NO non danno problemi mentre nel caso uno sia SI e uno NO ci troviamo nelle condizioni o che il risultato sia interessante dal punto di vista teorico ma non abbia i requisiti quantitativi minimi (0,05%) per esserlo anche statisticamente o che il campione sia talmente ampio da essere sicuramente rilevante statisticamente ma inutile a livello teorico (perché troppo ampio). Entrambi i criteri hanno le loro caratteristiche e sceglierne o escluderne uno può portare a perdite di informazioni erroneamente non ritenute importanti. 3) Le tecniche per variabili cardinali. Quattro tecniche di analisi multivariata compatibili con variabili cardinali e quasi-cardinali: - l’Analisi in Componenti Principali ACP; - l’Analisi dei Gruppi ADG (Cluster Analisys); - l’Analisi Discriminante AD; - le tecniche di Scaling Multidimensionale SM. Tutte queste tecniche sono finalizzate alla rappresentazione sintetica di un numero elevato di variabili mediante sintesi e semplificazione in un numero ridotto di nuovi componenti o fattori. 3.1 Analisi in Componenti Principali ACP. Consente di sintetizzare le informazioni raccolte in un numero elevato di variabili cardinali mediante un numero ristretto di nuove variabili dette componenti principali, che rappresentano un combinazione lineare delle variabili originali. La rappresentazione sintetica consiste nel ridurre la matrice A(c*v) [c = casi, v = variabili] in una nuova matrice B(c*p) [con p < v; p = variabili componenti principali]. Le variabili che abbiano una varianza in comune possono essere sostituite da un’unica variabile detta componente principale. Il punto di partenza è la costruzione di una matrice quadrata R(v*v) (matrici di varianza, covarianza, correlazione) e da questa si estraggono le componenti principali che sono vettori-colonna ottenuti mediante combinazioni lineari dei vettori originari. Adogni vettore colonna ottenuto detto autovettore sarà associato uno scalare detto auto valore che rappresenta la varianza totale rappresentata dalla nuova variabile componente principale. 2 Lo scopo è verificare la dipendenza delle modalità delle due variabili rispetto ad alcuni aspetto come la somiglianza (es. somiglianza tra testate giornalistiche). Nella AC e nell’ACM si possono dividere le variabili/modalità in attive cioè che concorrono a formare gli assi fattoriali e supplementari che non contribuiscono a formare i fattori pur essendo utili per studiare legami di interdipendenza. I fattori che vengono analizzati ed interpretati sia in AC che i ACM sono: - il contributo assoluto che indica quanto una singola modalità abbia contribuito a determinare quel fattore in rapporto alle altre modalità. La somma di tutti i contributi per ogni fattore è pari a 100; - il contributo relativo (coseno quadrato o qualità della rappresentazione) consente di valutare quanto contributo un fattore fornisca alla valutazione dell’inerzia di ogni modalità attiva; Maggiore è il contributo maggiormente la modalità contribuisce alla formazione dell’asse sul quale è ben rappresentata; - le coordinate fattoriali stabiliscono la posizione delle modalità rispetto agli assi in termini di distanza dal centro; - i valori Test di ogni modalità servono a controllare l’associazione tra modalità e fattore. In alternativa possono essere analizzati i grafici che forniscono rappresentazioni dei risultati dell’analisi. Se due o più modalità appaiono vicine allora hanno distribuzioni simili, se le modalità in questione appartengono a variabili diverse allora le frequenza in quelle corrispondente cella (riga x colonna) p superiore a quella attesa nell’ipotesi di indipendenza. Se due variabili sono lontane hanno distribuzioni diverse. Nella AC la vicinanza tra modalità di variabili diverse non può essere interpretata come associazione che va invece valutata rispetto al baricentro. 4.2 L’analisi delle corrispondenze multiple ACM. Può essere vista come una generalizzazione delle AC perché consente l’analisi di un insieme di varibili categoriali riducendole ad un numero minore di dimensioni dette fattori.L’ACM è particolarmente adatta alle analisi in campo sociale per le ricerche basate su questionario. Per ogni variabile categoriale si definisce un insieme di variabili indicatrici (variabili modalità) che assumono valori binari di assenza/presenza. Da queste deriva una matrice quadrata detta matrice di Burt o delle corrispondenze multiple ed è considerata una distribuzione multipla di frequenze speculare rispetto alla diagonale principale contenente le tabelle di contingenza che si ottengono incrociando le variabili a due a due. L’obiettivo è quello di ottenere poche dimensioni che riproducano la maggior parte dell’inerzia presente fra le variabili-modalità analizzate rispetto ad un numero di fattori ridotto rispetto alle 5 modalità originarie. Graficamente maggiore è la distanza di una punto (variabile) dall’asse e maggiore sarà il suo contributo alla formazione dell’asse stesso. Più sono vicine le variabili più sono interdipendenti. Uno dei difetti delle tecniche di scuola francese è la scarsa inferenziabilità dei dati che ne riduce l’affidabilità. 4.3 Analisi delle corrispondenze con scelta delle modalità attive. DA SOFTWARE 4.4 Analisi delle corrispondenze condizionate. DA SOFTWARE 4.5 Analisi delle corrispondenze lessicali ACL. Le variabili lessicali sono quelle le cui modalità sono composte da parole. Come ad esempio le risposte alle domande “aperte” che di solito si aggregano per gruppi semanticamente simili. Consiste nella trasformazione in numeri di “parole” 5) I modelli per variabili cardinali. I diversi modelli matematici utilizzati nelle scienze possono essere suddivisi in due tipologie: modelli finalizzati alla simulazione di processi e modelli finalizzati alla stima/previsione di valori futuri di variabili note (detti modelli di analisi dei dati). Il processi consiste prima nella costruzione del modello poi nella valutazione dello stesso mediante dati empirici confrontati con i dati attesi per valutarne la validità (adattamento ai dati) o l’eventuale rifiuto. 5.1 Regressione multipla lineare RML. Ha come obiettivo quello di riprodurre la varianza di una variabile cardinale dipendente come funzione di un certo numero di variabili cardinali indipendenti F(x1,x2,…xn). Nel caso di un modello RML costruito su un campione si pone poi il problema dell’inferenza dei dati sull’intera popolazione. In questo caso sarà possibile inferire i dati se vengono rispettati alcuni assunti: la relazione tra le variabili è lineare e solo le variabili X hanno influenza sulla funzione; le variabili sono state correttamente rilevate; non vi sono correlazioni tra le variabili indipendenti. Situazione che nella ricerca sociale è difficilmente confermabile al 100%. 5.2 Analisi fattoriale AF. L’analisi fattoriale è assimilabile alla ACP dove le componenti principali sono trasformazioni mediante combinazioni lineari delle variabili cardinali originarie. Nel modello AF si scompone la varianza di ogni variabile in tre quote indipendenti tra loro e precisamente: la varianza comune della variabile con le altre variabili nella matrice delle correlazioni, la varianza specifica di ogni variabile e la varianza erratica (accidentale). La varianza specifica e l’erratica non sono distinguibili e vengono definite unicità della variabile. 6 Le principali critiche che si muovono all’AF sono le infinite soluzioni matematiche equivalenti possibili, l’incertezza circa la scelta dei fattori più importanti e la difficoltà nel replicare i dati dell’AF. Nella ricerca sociale è preferibile l’utilizzo dell’ACP in quanto la AF è troppo legata alla soggettività del ricercatore. 5.3 Modelli di equazioni strutturali MES. I MES sono un approccio multi-modello nato negli anni 70 con un software che consentiva la stima dei coefficienti dell’analisi fattoriale basato sul metodo della massima verosimiglianza. Il funzionamento è una interazione dei modelli di analisi fattoriale con i modelli ricorsivi. 6) I modelli per variabili categoriali. Sono trasposizioni dei modelli di regressione lineare multipla applicati a variabili categoriali. 6.1 Modelli log-lineari MLL. Sono modelli che trasformano le frequenze di cella di una data tabella di contingenza calcolandone i logaritmi naturali. 6.2 Regressione logistica con variabile dipendente dicotomica. Sono modelli di recente successo legati all’analogia con la regressione lineare multipla. Sono molto difficili da applicare e richiedono da parte del ricercatore un elevato livello di preparazione statistico metodologica. 6.3 Regressione logistica con variabile dipendente politomica. E’ un’estensione del modello su variabile dicotomica. 6.4 Regressione logistica con variabile dipendente ordinale. E’ utilizzato nel caso in cui la variabile dipendente sia ordinata. 6.5 Analisi della varianza AV a più vie. Sono modelli che confrontano le medie di una variabile cardinale in due o più sottocampioni della stessa popolazione definiti dalle categorie di una o più variabili categoriali. 7
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved