Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Tecniche e modelli di analisi multivariata, Sbobinature di Metodologia E Tecniche Di Ricerca Sociale

Sbobinatura delle lezioni del prof. Di Franco delle tecniche e modelli di analisi multivariata

Tipologia: Sbobinature

2020/2021

Caricato il 22/04/2021

Gorian
Gorian 🇮🇹

4.8

(4)

18 documenti

Anteprima parziale del testo

Scarica Tecniche e modelli di analisi multivariata e più Sbobinature in PDF di Metodologia E Tecniche Di Ricerca Sociale solo su Docsity! Tecniche e modelli di analisi multivariata ANALISI MUTIVARIATA: si utilizza per l’analisi da tre variabili in su, essa si può definire come un insieme di operazioni finalizzate al raggiungimento di almeno uno di questi obiettivi: 1) Esplorazione del fenomeno oggetto di studio 2) Descrizione del fenomeno oggetto di studio 3) Sintesi/ classificazione delle informazioni che riguardano oggetto di studio 4) Spiegazione interpretazione e specificazione delle relazioni tra le variabili che si ritengono ipoteticamente connesse 5) Previsione di stati futuri che riguardano il fenomeno in oggetto (molto ambizioso) TECNICHE: sono un procedimento di elaborazione e di analisi finalizzata al raggiungimento di un obiettivo acronimo D.E.S; descrivere, esplorare, sintetizzare. Essi svolgono il lavoro dell'investigatore che cerca il colpevole hanno una funzione esplorativa descrittiva. (esempio) SCOPI E FUNZIONI DI TRE TECNICHE DI ANALISI MULTIVARIATA: A seconda delle variabili bisogna scegliere le procedure compatibili con quel tipo di variabile nell'analisi di dati; le procedure per le variabili cardinali sono più semplici di quelle per le categoriali, quando ho delle variabili cardinali e si studia la relazione non si parla di relazioni fra variabili ma la relazione fra le modalità di una e quelle di un’altra. Le variabili quasi- cardinali con la procedura di deflazione sono assimilati a variabili cardinali vere proprie 1) ANALISI IN COMPONENTI PRINCIPALI (ACP) 2) ANALISI DELLE CORRISPONDENZE MULTIPLE (ACM) 3) ANALISI DEI GRUPPI (ADG) ANALISI DELLE COMPONENTI PRINCIPALI (ACP): Si usa per le variabili cardinali e quasi cardinali, la matrice usata è la matrice delle correlazioni (per ciascuna coppia di variabili si calcola il coefficiente di correlazione lineare che esiste tra queste due variabili), per fare una sintesi è necessario che vi sia più o meno correlazione, se c'è correlazione vi è la varianza in comune per l’ACP e quota di varianza in comune fra le variabili. ( La combinazione lineare è una somma ponderata). La sintesi la si ottiene dalla matrice delle correlazioni estraendo un nuovo costrutto: le componenti principali; costrutto matematico che rappresenta una quota della varianza comune che c'è nella matrice delle correlazioni di partenza, le componenti sono combinazione lineari di tutte le variabili, usate si possono estrarre tante componenti quante sono le variabili immesse nell’analisi. La varianza totale sarà pari al numero di variabili estratte da una componente principale della prima variabile .L’ estrazione avviene da una componente alla volta ,la prima è quella che ha il maggior numero di varianza, la seconda è quella che estrae il maggior numero di varianza sottratta dalla prima parte estratta. • Ha senso fare questo tipo di analisi quando le correlazioni sono diverse da zero o non sono tutte uguali al valore massimo, in quanto l'obiettivo dell’ACP è quello di ridurre il numero di variabili tralasciando il superfluo. Si chiamano componenti principali perché fanno emergere la dimensione più importante della quota totale di partenza facendo perdere parte dell'informazione che possiamo considerare meno importante. * Le componenti principali sono nuove variabili, le posso chiamare variabili di secondo ordine in quanto sono frutto dell'elaborazione di altre variabili quelle di partenza. * È una scelta del ricercatore scegliere quale variabile usare. A seguito della procedura dal programma di analisi dei dati otteniamo dei risultati. Usiamo degli appositi coefficienti per controllare ACP: -AUTOVALORE: È un numero che si associa la componente principale estratta, rappresenta la quota di varianza riprodotta da ciascuna componente. ( λ = lambda) -COMUNALITA: È un coefficiente che riguarda le variabili è un valore che ci fa capire il costo della sintesi che abbiamo fatto, può variare tra 0 e 1 . E’ =0 quando estraggo le prime componenti principali e queste non riproducono la varianza; =1 quando si ha una riproduzione della varianza delle prime due componenti principali. -AUTOVETTORE: esprime quanta quota di varianza una variabile cede ad una componente. Considero i pesi più alti in valore assoluto su ciascuna componente e le variabili che hanno contribuito di più dandogli un punteggio componenziale, definendone la componente con un etichetta (posso usare la tecnica della *rotazione per trovare meglio quale nome dare a quella etichetta). Questi punteggi si calcolano per ciascun caso della matrice dei dati, il punteggio è rappresentato da un valore standardizzato con media= 0 e varianza e scarto quadratico medio =1. *ROTAZIONE: consiste in un cambiamento di posizione delle dimensioni estratte nella prima fase d’analisi, mantenendo fissa l’origine. Gli assi posso essere ruotati in qualsiasi posizione e ciascuna rotazione produce nuove saturazioni; quello che resta invariato è la distanza delle variabili dall’origine degli assi In conclusione all'analisi aggiungo nella matrice dei dati una nuova variabile che prende il nome di Indice (ce è una sintesi delle variabili di partenza) per ciascuna componente che si è deciso di conservare. I valori di queste variabili sono standardizzati ANALISI DELLE COMPONENTI MULTIPLE (ACM): Si usa per le variabili categoriali e la trasposizione della ACP per queste variabili, in questo caso i nuovi costrutti prendono il nome di fattori, la matrice usata è la matrice di Burt o anche detta matrice delle corrispondenze multiple (è una tabella di contingenza scomponibile in tabelle più semplici di contingenza dove i numeri inseriti sono frequenze assolute o frequenze congiunte), il numero di elementi sottoposti all'analisi è la somma delle modalità che ho selezionato per quella variabile categoriale semplice (MODALITÀ ATTIVE). FATTORI: costrutti della sintesi , ogni fattore rappresenta un combinazione di tutte le modalità attive. Si possono scegliere ed estrarre tanti fattori quante sono le modalità attive; le modalità illustrative possono essere usate per arricchire la descrizione di ciascun fattore prodotto dall'analisi fatta con le modalità attive. MODALITA’ ATTIVE: modalità che contribuiscono alla formazione dei fattori MODALITA’ ILLUSTRATIVE: non contribuiscono a formare il fattore. A differenza dell'analisi precedenti non potendo calcolare i coefficienti di correlazione lineare non posso utilizzare la tabella delle correlazioni. Bisogna decidere quanti fattori conservare, quelli che si utilizzano meglio nell’insieme delle relazioni esistenti tra le varie modalità delle variabili. I coefficiente dell’ACM sono: -se l'ammontare dei residui è statisticamente significativa (cioè non attribuibile agli effetti del caso) il modello non si adatta bene ai dati. Le differenze registrate dei valori sono tali da far pensare che c’è qualche variabile o effetto che noi stiamo trascurando. -se la somma dei residui non è statisticamente significativa gli effetti potrebbero essere dovuti al caso, in questo caso si dirà che il modello ha un buon adattamento ai dati empirici. Riproduce i valori della Y in modo più che accettabile. *Non si arriva mai una risposta definitiva alla domanda se il nostro modello è buono o se ce ne potrebbe sempre essere uno migliore.* • Come si valuta la Parsimonia del modello? - Si contano il numero di variabili indipendenti. ESEMPIO : Se abbiamo dei modelli, uno con 3 variabili indipendenti e uno con 4 variabili indipendenti il modello più parsimonioso è quello con minor numero di variabili. *Adattamento e parsimonia si devono bilanciare* 3 MODELLI: 1)MODELLO REGRESSIONE LINEARE MULTIPLA (RML): compatibile con le variabili cardinali o quasi cardinali 2)MODELLO LOG-LINEARE (MLL): compatibile con le variabili categoriali 3)MODELLO REGRESSIONE LOGISTICA (RL): compatibile con le variabili categoriali MODELLO REGRESSIONE LINEARE (RML): richiede una sola variabile cardinale dipendente e più di una variabile indipendente. Con questo modello si stimano i valori di Y usando solo i valori di X, questo significa che la variabile è funzione di altre variabili. Per capire se il modello si adatta (goodness of fit) bisogna valutare: -R2 : chiamato coefficiente di determinazione, -R2 aggiustato: è lo stesso coefficiente precedente ma tiene conto del numero delle variabili indipendenti. Ci dice quanta parte della varianza della variabile dipendente è riprodotta dall’ insieme delle variabili indipendenti. Varia tra 0 a 1. -Analisi della varianza: questa varianza si divide in due quote: la varianza riprodotta e la varianza residua. Si fa il rapporto tra le due varianze ottenendo la stessa conclusione con la quale arriviamo ad analizzare R2. L’analisi della varianza aggiunge un nuovo elemento, la quota riprodotta è imputabile o no agli effetti del caso , quindi dipende da quanto è grande il valore. Da quest’analisi stabiliamo se la quota prodotta sia o no statisticamente significativa. I coefficienti del modello sono non standardizzati: 1) Coefficiente parziale di regressione (b): questo coefficiente mi dice quanto cambia la variabile Y al cambiamento unitario della variabile X1 al netto delle altre variabili indipendenti. I coefficienti di regressione parziali non sono tra di loro confrontabili , bisogna allora trovare un modo per renderli classificabili, si passa allora alla versione standardizzata beta che è utile per capire la connessione tra una indipendente e la dipendente 2) Coefficiente di regressione parziale standardizzato (beta): mi dice quale variabile indipendente ha maggior influenza sulla variabile dipendente • L’analisi dei residui si calcola confrontando per ciascun caso il valore predetto dalla regressione con quello effettivo sulla dipendente. Caratteristica dei residui è media zero e distribuzione casuale. Se questo non avviene vuol dire che c’è qualche problema nella specificazione del modello cioè, nel modello manca qualche variabile che dovrebbe essere invece inserita. Devo capire quale variabile non ho inserito. MODELLI LOG-LINEARI (MLL): In una tabella di contingenza mettiamo sulle righe le modalità di una variabile e sulle colonne le modalità di un’altra variabile. Il prodotto fra le righe e le colonne danno le celle. I modelli log-lineari ci fanno analizzare in modo più semplice queste tabelle di contingenza multiple complesse. Questi modelli studiano la relazione fra modalità di una variabile rispetto alle modalità della seconda variabile. Non c’è una vera variabile indipendente, per ogni cella c’è una frequenza di cella che viene trasformata nel logaritmo naturale . Proprio per questo i logaritmi consentono di esprimere ciascuna log-frequenza come funzione lineare di un certo numero di effetti. Al cresce della dimensione della tabella aumentano i parametri . I coefficienti relativi agli effetti del modello sono: -Intercetta : è la distanza di una retta tra l’origine degli assi e il punto di intersezione tra la retta e l’asse delle ordinate - λ2 I : parametro di 1°ordine; indica una modalità della variabile a cui si riferisce, ma che corrisponde all’intercetta. Se λ =0 significa che quella modalità di quella variabile non altera alla definizione di quella frequenza. Se λ > 1 la prima modalità della variabile A ha frequenze maggiori della variabile B. - μ : corrisponde al termine noto dell’intercetto lineare, dipende dalla grandezza del valore. - λab II: parametro di 2° ordine; riguarda l’interazione fra la variabile A (modalità 1) e variabile B (modalità 1). •Questi modelli scompongono i logaritmi delle frequenze di ciascuna cella in un insieme di effetti, quantificandoli, così possiamo capire quali sono gli effetti più importanti nel determinare le frequenze di ciascuna cella di contingenza. • Bontà di adattamento: si confrontano i valori previsti dal modello* e quelli empirici della tabella di contingenza, poi si sottopongono al test di significatività statistica l’ammontare dei residui ( residui media zero e distribuiti in modo casuale) • Per vedere se c’è significatività: devo vedere il valore dei parametri standardizzati (Z= λ standardizzato).Si calcolano dalla stima divisa il suo errore standardizzato, se il valore Z >1,96 ( valore assoluto ) l’effetto è significativo, se non lo è quel valore potrebbe essere dovuto a caso. Per avere una funzione lineare mi occorrono i logaritmi che ci fanno esprimere ciascuna delle celle come somma di parametri. Logaritmo: esponente da dare alla base ottenere l’argomento, logaritmo naturale ln è l’esponente al quale si eleva la costante e=2,718 per ottenere un dato numero. Ci fanno trasformare: I° prodotti = in somme. I° rapporti= in differenza. Le potenze= in prodotti *Modello saturo: modello tautologico, dove riproduco in modo perfetto tutte le frequenze di cella, non ci sono residui, vi è zero parsimonia avendo usato tutte le informazioni che avevo. Ogni parametro che tolgo aumenta un grado di libertà. Più elimino parametri più guadagno gradi di libertà • L’analisi dei residui si calcola confrontando per ciascuna cella le frequenza empiriche con quelle attese dal modello. I residui devono avere media=0 ed essere distribuiti casualmente. Se c’è questa distribuzione il modello ha avuto un buon adattamento ai dati empirici viceversa se non c’è bisogna modificare il modello. •Odds: In statistica, con il termine inglese odds si intende il rapporto tra la probabilità di un evento e la probabilità che tale evento non accada, quindi la probabilità dell'evento complementare. Assume valore 1 quando le categorie di una variabile hanno le stesse frequenze. Varia tra 0 e ∞ •Odds ratio: è il rapporto di rapporto, divido il valore Odds condizionato di uno per quello dell’altro, varia tra 0 ed ∞, assume valore 1 quando fra le due variabili considerate vi è la massima dipendenza. MODELLO REGRESSIONE LOGISTICA: È una riformulazione dei modelli lob-lineari che tende a definire la variabile dipendete in modo più comodo, usa come variabile dipendete il logaritmo dell’odds calcolato fra le due modalità di una variabile categoriale dicotomica (quella su cui posso calcolare l’odds), e come variabile indipendente la variabile può essere di qualsiasi natura. •Bontà di adattamento: vi sono molti coefficienti( il rapporto di somiglianza, coefficiente di Wald, classification table, pseudo R2 di Cox ,Snell e Nagelkerke) ma il più chiaro è la classification table, per ciascun caso in base alle variabili indipendenti che ho inserito nel modello posso stimare un probabilità, dopodiché confronto il valore stimato con quello effettivo e capiscono quanti e quali casi sono stati correttamente previsti, più sono corrette le assegnazioni più il modello funziona. •PARSIMONIA: si valutano i gradi di libertà del modello, meno variabili sono inserito nel modello ho più libero è il grado di libertà. I coefficienti sono: -Coefficiente di regressione logistica (b): i cui valori si esprimono su una scala di logaritmi basati su una propensione (una probabilità), se ha valore 0 la variabile non ha influenza, se il valore è positivo allora aumenta la propensione a fare una cosa piuttosto che un'altra, se negativo è il contrario. (esempio. votare invece che astenersi) -Expo (b) antilogaritmo: si calcolano facendo l’antilogaritmo dei b e posso esprimerlo come se fosse un odds ration calcolato fra le due modalità della variabile indipendente. •Residui: non ci sono dei veri residui, possiamo però valutare la percentuale di previsioni scorrette. Meno sono meglio è.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved