Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Strumenti e modelli di analisi nella ricerca psicobiologica, Appunti di Statistica

Riassunto accurato di "statistica 2" unimore psicologia

Tipologia: Appunti

2018/2019

Caricato il 06/10/2019

giuseppe_fracasso1
giuseppe_fracasso1 🇮🇹

4.5

(83)

7 documenti

1 / 20

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Strumenti e modelli di analisi nella ricerca psicobiologica e più Appunti in PDF di Statistica solo su Docsity! STRUMENTI E MODELLI DI ANALISI DEI DATI NELLA RICERCA PSICOBIOLOGICA GUARDARE I DATI Cosa facciamo quando abbiamo un database da analizzare? Per prima cosa occorre un modo per guardare i dati raccolti che suggerisca che cosa c’è in essiimportante è la visualizzazione grafica dei dati: se grafichiamo i dati opportunamente possiamo avere un’idea delle caratteristiche essenziali del campione. Un BUON GRAFICO illustra in maniera chiara gli aspetti importati dei dati (non tutto, le caratteristiche più importanti), è adeguato al livello del pubblico (grafico semplice, divulgativo pubblico inesperto; grafico rigoroso, più informativopubblico esperto), adeguato al mezzo di presentazione (diapositive in conferenzegrafico semplice; articolo di rivista scientificagrafico più dettagliato), si ricorda facilmente (deve far ricordare l’informazione in maniera facile), facilita la comprensione dei risultati, dei dati (è efficace se presenta il problema da una prospettiva che facilita la comprensione). Un GRAFICO MEDIOCRE è difficile da interpretare, può essere involontariamente fuorviante, può contenere informazioni ridondanti o distraenti. Un GRAFICO PESSIMO è quasi impossibile da interpretare, è colmo di informazioni inutili (occorre essere essenziali: spiegazione semplice ma non troppo), distorce intenzionalmente i risultati, è inaccurato. Non bisogna usare il 3D quando il 2D è sufficiente (la tridimensionalità spesso è ridondante e rende difficile il confronto delle altezze), non bisogna inserire motivi non necessari nei bar plot, non bisogna usare etichette mal definite sugli assi, non si deve alterare la scala dell’asse delle y per far risaltare differenze trascurabili. Quando vediamo un grafico che non va conviene, se l’argomento e i dati sono per noi importanti, verificare che non ci siano errori. Grafici fondamentali Abbiamo l’ISTOGRAMMA, che permette di valutare a colpo d’occhio asimmetria (skewness: forma più spostata da una parte o dall’altra), multimodalità (moda: valori più frequentivedere se ci sono picchi, bimodalità…) e valori anomali (outliers); l’asse x è divisa in intervalli e l’altezza del rettangolo è la frequenza o il numero di casi che hanno quel valore. Abbiamo il BOX PLOT, che permette di visualizzare il campo di variazione dei dati (max/min), dove cade il 50% dei dati (scatola: IQR; secondo e terzo quartile), la mediana (linea che taglia la scatola), se la distribuzione è simmetrica (ampiezza dei quartili, presenza di outliers), la presenza di outliers. Abbiamo il DOT PLOT, utile quando vogliamo graficare tutti i dati se ne abbiamo pochi (nel boxplot è un riassunto). Abbiamo il BAR PLOT, spesso corredato dalle barre di errore (quanto sono dispersi i datigiudicare se c’è una differenza significativa tra le medie dei gruppi); il box plot dà però più informazioni. Abbiamo il LINE PLOT, utile quando abbiamo lo stesso gruppo di soggetti che partecipa a misurazioni ripetute, per vedere come varia un certo effetto nel tempo… Abbiamo infine lo SCATTER PLOT, utile per visualizzare la relazione tra due variabili continue (relazione di dipendenza statistica) e per verificare la presenza di valori anomali (possono essere anomali per la distribuzione congiunta). Graficare i dati Per costruire i grafici utilizzeremo il pacchetto ggplot2 (viene scaricato in automatico con il pacchetto tidyverse). Concetti fondamentali di ggplot2 sono: il grafico è costruito a strati (LAYERS); ogni strato contiene elementi grafici [GEOM: barre, punti, assi); ogni elemento grafico possiede proprietà estetiche (AES: colore, spessore delle linee) che possono essere definite per l’intero grafico o separatamente per ciascuno strato. Per costruire un grafico si crea un oggetto specificando le caratteristiche globali (dati e aes globali, in genere le variabili) e poi si sommano i vari livelli, ad esempio istogramma (geom_histogram), etichette (labs). Il comando facet_wrap (~ x) esegue diverse sfaccettature del grafico a seconda del valore di una variabile. Il grafico della densità è un istogramma smussato, interpolato per dare una visione più morbida dell’andamento della distribuzione. Il comando fill dice che il colore che riempie le curve smussate dev’essere selezionato in base al livello della variabiledue curve nello stesso grafico. Il comando alpha indica la trasparenza (1: completamente opaco; 0: completamente trasparente). Nel box plot la linea centrale indica la mediana, le estremità della scatola indicano il quartile superiore (75%) e inferiore (25%); i dati anomali (outliers) sono al di là (sopra e sotto) di 1.5 * IQR; le estremità dei baffi indicano il valore più alto e più basso prima del limite precedentemente citato. Nel bar plot l’altezza della barra indica la media e vengono aggiunte le barre di errore (dispersione: deviazione standard…). Il comando stat summary indica una grandezza statistica (media, barre di errore…). Con il comando position=dodge si pongono le barre una di fianco all’altra. Con uno scatter plot si può osservare la relazione tra due variabili. Il comando geom_smooth produce una linea che fitti i punti (banda grigia: banda di confidenza). Il comando color grafica i punti con un colore che dipende da una variabile. LA PROBABILITÀ DEI DATI OSSERVATI La distribuzione campionaria è la distribuzione dei valori medi misurati su tanti campioni. Il TEOREMA DEL LIMITE CENTRALE dice che se il campione è sufficientemente grande la distribuzione campionaria risulta approssimativamente normale qualunque sia la distribuzione della popolazione, che la media della distribuzione campionaria è pari alla media della popolazione (μ) e la deviazione standard è pari all’errore standard della media (). L’errore standard ci dice quanto sia affidabile la media del campione per stimare la media della popolazione. Stimare quanto affidabile funzione stat_function(fun=dnorm, args=list(mean=, sd=)); mean e sd devono essere quelle del campione e per rimuovere i dati mancanti usiamo la funzione na.rm=TRUE. Un altro modo per verificare la normalità è il grafico quantile-quantile: si graficano i quantili del campione contro i quantili della distribuzione normale corrispondente; la normalità è rappresentata da una linea retta, mentre una forma a S indica asimmetria della distribuzione; deflessioni verso l’alto o verso il basso indicano curtosi diverse da 0 (leptocurtosi [positiva: distribuzione appuntita e con code lunghe] e platicurtosi [negativa: distribuzione più piatta e con code corte]). Per rappresentare il q-q plot usiamo la funzione ggplot(mydata, aes(sample=x)) + stat_qq(). Per quantificare numericamente la normalità possiamo usare la funzione round(stat.desc(mydata$x, basic=TRUE, norm=TRUE), digits=3). Per campioni piccoli, kurt. 2SE/skew. 2SE > 1 indicano deviazioni significative dalla normalità; per campioni medi è bene alzare il criterio a > 1.29; per campioni grandi il criterio perde validità ed è bene osservare la forma della distribuzione e i valori stessi di curtosi e asimmetria. Possiamo anche usare il test di normalità di Shapiro-Wilk attraverso la funzione shapiro.test(mydata$x); p < 0.05 indica non normalità; il test tende a essere significativo per N grande: in questo caso occorre interpretarlo congiuntamente all’istogramma, al q-q plot e ai valori di asimmetria e curtosi. Se una variabile include valori da gruppi diversi occorre esaminare ciascun gruppo separatamente; utilizzando la funzione by(data=mydata$x, INDICES=mydata$fattore, FUN=stat.desc, basic=FALSE, norm=TRUE) applichiamo un certa funzione (stat.desc) a sottogruppi di dati identificati dai livelli di un fattore. Possiamo poi fare un istogramma per gruppi (facet_wrap) o un q-q plot per gruppi. Omogeneità della varianza Il concetto di base è che la varianza di una variabile non deve cambiare al mutare del valore di un’altra variabile (omoschedasticità): con diversi gruppi di soggetti la varianza deve essere simile per tutti i gruppi, mentre con due variabili continue (ad es. nelle correlazioni) la varianza dell’una deve rimanere più o meno costante lungo i valori dell’altra variabile. Per verificare l’omogeneità della varianza tra gruppi si usa il test di Levene; l’ipotesi nulla è che le varianze all’interno di gruppi diversi siano uguali: in pratica si esegue un’ANOVA a un fattore sui valori degli scarti calcolati per ciascun gruppo (differenze in modulo tra i valori del gruppo e la loro media). La funzione da utilizzare è with(mydata, leveneTest(variabile di interesse, variabile che definisce i gruppi). Un valore di p < 0.05 indica non omogeneità della varianza. Il test del rapporto tra varianze (o Fmax di Hartley) fornisce un utile controllo incrociato al test di Levene quando il campione è grande. In pratica si calcola il rapporto tra la varianza del gruppo con varianza maggiore e la varianza del gruppo con varianza minore; si può ritenere il test non significativo quando con N10 Fmax < 10, con N15-20 Fmax 5, con N > 30-60 Fmax < 3-2. Questo test richiede che i dati siano distribuiti normalmente per ciascun gruppo. Valori anomali e trasformazioni Se i dati sono giusti (errori corretti o rimossi) possiamo trattare i valori anomali (outliers) in vari modi: RIMOZIONE DEL CASO ANOMALO (se abbiamo validi motivi per credere che non provenga dalla popolazione considerata), TRASFORMAZIONE DEI DATI (in modo da ridurre l’asimmetria della distribuzione e quindi l’influenza del dato anomalo), SOSTITUZIONE DEL VALORE con uno più rappresentativo (ad es. 1 unità sopra il valore successivo nel set di dati o la media del campione più 2-3 SD). La strategia classica nel caso di non normalità e di eterogeneità della varianza è quella di applicare una funzione ai dati che li renda più conformi ai presupposti distribuzionali dei test che si vogliono eseguire. Le trasformazioni più comuni sono quella logaritmica (log(x); questa trasformazione comprime la coda destra della distribuzione, quindi rettifica asimmetrie positive e spesso anche varianze diseguali; se il campione contiene valori nulli o negativi occorre aggiungere una costante ai dati che li renda tutti positivi), quadratica (sqrt(x); questa trasformazione riduce maggiormente i valori più grandi rispetto a quelli più piccoli, quindi corregge asimmetrie positive e spesso varianze diseguali; se il campione contiene valori nulli o negativi occorre aggiungere una costante ai dati che li renda tutti positivi), reciproca (1 / x; questa trasformazione riduce anch'essa asimmetrie positive e varianze diseguali, ma la grandezza dei valori viene invertita [x grandi diventano 1 / x piccoli]: ciò si può evitare usando la trasformazione 1 / (max(x) – x)), inversa (max(x) - x o max(x) + 1 - x; questa trasformazione si usa preliminarmente alle trasformazioni precedenti nel caso di asimmetrie negative). La scelta di una trasformazione specifica si effettua in genere tramite tentativi per vedere quale funzioni meglio; se stiamo esaminando differenze tra variabili, occorre applicare la stessa trasformazione a tutte le variabili in gioco. Trasformando i dati, però, si possono introdurre altri problemi distribuzionali, si cambia l’ipotesi che si intende sottoporre a verifica (ad es. due medie aritmetiche diventano geometriche applicando una trasformazione logaritmica) e l’interpretazione dei dati può essere complicata. Per questi motivi si possono usare TEST NON PARAMETRICI o VERSIONI ROBUSTE dei test parametrici (non sono fortemente influenzate dalla violazione dei requisiti). Test robusti e bootstrapping Alcuni di questi test si basano sul concetto di media modificata, dove la media è calcolata dopo aver omesso una percentuale prefissata di valori dalle code della distribuzione (ad es. il 10%). Un concetto simile è quello di M-estimatore, dove la quantità di dati estremi da eliminare nel calcolo della media viene determinata sulla base dei dati stessi. La media modificata e l'M-estimatore forniscono anche una rappresentazione più fedele della tendenza centrale della distribuzione nel caso di asimmetria della stessa. Quando i nostri dati non sono normali e non abbiamo un campione grande a disposizione possiamo utilizzare il bootstrapping, che fornisce una soluzione elegante stimando le proprietà della distribuzione campionaria dai dati stessi. In pratica, il campione a disposizione viene trattato come una popolazione da cui estrarre ripetutamente con rimpiazzo un numero grande di campioni (bootstrap samples). Quindi la procedura del bootstrapping è la seguente: si preleva un numero molto grande di campioni di dimensione pari a quella dai dati stessi (con rimpiazzo); si calcola la grandezza statistica di interesse (ad es. la media) in ogni campione e si costruisce in tal modo la distribuzione campionaria; l'errore standard di tale grandezza viene stimato dalla deviazione standard della distribuzione campionaria; avendo l'errore standard, possiamo calcolare intervalli di confidenza e test di significatività. CORRELAZIONE Con la correlazione si stabilisce se esiste una relazione tra due variabili. È sempre utile fare uno scatter plot preliminare e i concetti fondamentali sono quelli di COVARIANZA e COEFFICIENTE DI CORRELAZIONE. Covarianza La varianza di una variabile rappresenta la tipica distanza al quadrato dei punti di una distribuzione dalla loro media. Si dice che due variabili covariano quando deviazioni dalla media dell’una corrispondono a simili deviazioni dalla media dell’altra. La covarianza è positiva quando le due variabili cambiano nella stessa direzione e negativa quando cambiano in direzione opposta. Il valore della covarianza dipende dalle unità di misura scelte per le variabilinon possiamo confrontare covarianze diverse in maniera oggettivain generale, per confrontare variabili differenti occorre esprimerle in unità di deviazioni standard, rendendole così anche adimensionali. Coefficiente di correlazione di Pearson Non è altro che la covarianza standardizzata: r=. r è compreso tra e indica direttamente le dimensioni dell’effetto con le seguenti soglie convenzionali: (effetto di piccole dimensione), (effetto di medie dimensioni) e (effetto di grandi dimensioni). Valori anomali possono distorcere r e i presupposti per il test di significatività di r sono la normalità delle variabili e l’omogeneità della varianza (la varianza di una variabile non deve cambiare significativamente al variare dell’altra variabile). La distribuzione campionaria di r non è normale, ma possiamo normalizzarla con la formula di Fisher trasformando r in zr o trasformando r in tr. È importante sottolineare che CORRELAZIONE NON SIGNIFICA CAUSALITÀ (le variazioni osservate nelle due variabili correlate possono essere determinate non dall’influenza diretta dell’una sull’altra, ma da una terza causa comune a entrambe); inoltre molte correlazioni sono spurie (altamente significative ma casuali); infine, anche nel caso di un’effettiva relazione causale tra le due variabili in esame, la correlazione non può stabilire se sia l’una a influenzare l’altra o viceversa. Quando si vogliono correlare diverse variabili a due a due si fa una matrice di correlazione. Il coefficiente di determinazione (R2: coefficiente di correlazione al quadrato) esprime la quantità di variabilità condivisa da due variabili, ossia quanta variabilità dell’una sia potenzialmente spiegabile dalla variabilità dell’altra. Varianti non parametriche Quando non sussistono i requisiti per il test di significatività sul coefficiente r di Pearson (ad es. la normalità) possiamo adottare uno dei seguenti metodi non parametrici: il COEFFICIENTE DI CORRELAZIONE DI SPEARMAN (ρ: si sostituiscono ai dati originali i loro ranghi e si calcola poi la correlazione di Pearson su quest’ultimi; ρ ha in genere un valore simile all’r di Pearson ed è interpretabile come dimensione dell’effetto; ρ2 rappresenta la proporzione di varianza nei ranghi condivisa dalle due variabili ed è spesso una buona approssimazione di R2), il COEFFICIENTE DI CORRELAZIONE DI KENDALL (τ: si basa sul conteggio del numero di coppie di punti “concordi” e “discordi”, dove una coppia di punti è detta concorde se la differenza tra i valori delle ascisse ha lo stesso segno della differenza tra i valori delle ordinate; se c'è una relazione monotonica tra le due variabili [quando una variabile aumenta/diminuisce lo fa anche l’altra] tutte le coppie sono concordi, mentre se le due variabili sono statisticamente indipendenti il numero di coppie concordi è circa pari a quello delle coppie discordi; dato il numero di coppie di punti possibili, ha un costo computazionale elevato per campioni molto grandiè preferibile al coefficiente di Spearman quando il campione è piccolo e contiene diversi valori con lo stesso rango; è una stima migliore della correlazione nella popolazione rispetto al coefficiente di Spearman [sebbene quest'ultimo sia più diffuso]; il τ di Kendall non è basato sulla formula di Pearsonha un valore in genere 66/75% più piccolo di r o ρ e ciò influenza la sua interpretazione in termini di dimensioni dell'effetto; τ2 non esprime la proporzione di varianza condivisa e dunque non è una grandezza utile) e il BOOTSRAPPING. Altre correlazioni Abbiamo la CORRELAZIONE PUNTO-BISERIALE (misura l'associazione statistica tra una variabile continua e una variabile dicotomica [ad es. maschio/femmina]; il coefficiente di correlazione punto-biseriale rpb si calcola esattamente come il coefficiente di Pearson e il suo valore di significatività è lo stesso di quello di un t-test per campioni indipendenti [assumendo eguali varianze nei due gruppi]; ha lo stesso significato di R2, ovvero la percentuale di varianza condivisa tra la variabile continua e quella dicotomica), la CORRELAZIONE BISERIALE (se la variabile dicotomica è stata resa tale mediante l'imposizione di una soglia, ma è intrinsecamente continua (ad Regressione multipla Con due predittori, fittare il modello equivale a trovare i punti del piano che minimizza la somma delle differenze al quadrato tra i dati osservati e il piano stesso. Con n variabili esplicative la forma generale del modello è : fittare il modello equivale a trovare i coefficienti dell'iperpiano (piano n- dimensionale) che minimizza la somma delle differenze al quadrato tra i dati osservati e l'iperpiano stesso. Si può anche dire che ciò equivale a trovare la combinazione lineare (somma delle variabili esplicative moltiplicate per il loro coefficientetrovare quei , , , tale che la somma sia massimamente correlata con Y) di predittori che ha la massima correlazione con la variabile dipendente. Il multiple R2 rappresenta il quadrato della correlazione tra la variabile dipendente Yi e i valori predetti dal modello , ossia la percentuale di varianza in Y spiegata dal modello (percentuale di varianza condivisa da Y e ). La sua effettiva utilità è tuttavia criticamente compromessa dal fatto che R2 aumenta sempre all'aumentare del numero di regressori nel modello, anche quando tali variabili non avrebbero un reale potere esplicativo nella popolazione; In altre parole, il valore di R2 risulta “gonfiato” (biased) rispetto a quello che si otterrebbe da un modello basato sulla intera popolazione, perché la procedura di fitting con un campione limitato tende comunque a spiegare in termini dei regressori anche quella variabilità nella Y dovuta al caso. Questa distorsione dell'R2 ottenuto da un modello basato su un campione limitato è tanto maggiore quanto più piccolo è il campione e quanto più numerose sono le variabili esplicative. L'adjusted R2 fornisce una misura della varianza spiegata dal modello corretta per il numero di regressori; rappresenta una stima non distorta (unbiased) per il valore di R2 che si otterrebbe se il modello venisse trattato sull’intera popolazione ed è utile anche per determinare un possibile overfitting del modello (modello “sovradattato”, ossia che minimizza troppo le differenze tra i dati e il modello e quindi comincia a fittare anche le variazioni casualiperdita di capacità predittiva [modello aggiustato bene sul campione ma che non riesce a generalizzare al di fuori di esso]). Modelli parsimoniosi e consigli per la costruzione dei modelli Esistono dei criteri matematici che permettono di stimare la bontà (fit) di un modello, penalizzando quelli con un maggior numero di variabili esplicative. Tra i più usati vi è il Criterio Informativo di Akaike (AIC): confrontando due modelli per lo stesso campione di dati, ma con un numero diverso di regressori, è considerato migliore quello con l'AIC minore. Occorre prestare particolare cura alla scelta delle variabili esplicative, basandosi su conoscenze acquisite da ricerche precedenti e sull’importanza teorica di tali variabili. Un approccio da evitare è quello di includere nel modello tutte le variabili a disposizione e sperare in un buon risultato: nella maggioranza dei casi si diminuisce solo la capacità predittiva del modello e la sua interpretabilità. Metodi di costruzione del modello Abbiamo il metodo SIMULTANEO (tutti i predittori entrano nel modello senza un ordine di inserimento; è la scelta spesso migliore), il metodo GERARCHICO (vengono inseriti prima i predittori basati su conoscenze teoriche pregresse e poi le nuove variabili), il metodo STEPWISE IN AVANTI (si parte da un modello che contiene la sola costante ; il computer cerca tra le variabili disponibili quella che ha la maggior correlazione con la variabile dipendente; se questo regressore migliora la capacità di predire la variabile dipendente, viene aggiunto al modello; il computer cerca un secondo predittore che abbia la maggior correlazione semi-parziale con la variabile dipendente, ossia che spieghi la maggior parte di varianza rimasta nella variabile dipendente dopo il fitting del primo regressore), il metodo STEPWISE ALL’INDIETRO (si parte da un modello che include tutti i predittori disponibili; il computer cerca la variabile la cui rimozione dal modello provoca la maggiore riduzione dell'AIC; rimossa questa variabile, il modello viene rivalutato; il processo si ripete fino a che la rimozione di una qualunque delle variabili rimaste provochi un aumento dell'AIC. Tale metodo è preferibile allo stepwise in avanti perché in quest'ultimo una variabile già presente nel modello può mascherare il potenziale esplicativo di un nuovo regressore), il metodo STEPWISE IN ENTRAMBE LE DIREZIONI (si parte come nel metodo stepwise in avanti; ogni volta che un predittore viene aggiunto al modello si esegue una regressione stepwise all'indietro sul nuovo modello per eliminare i predittori ridondanti; il processo si ferma quando qualunque aggiunta o rimozione di regressori provoca un aumento dell'AIC) e il metodo SU TUTTI I SOTTOSISTEMI (il problema con i metodi stepwise è che valutano il contributo di una variabile a un modello che contiene già altre variabili. Un approccio differente consiste nel valutare e confrontare i modelli costruiti usando tutte le possibili combinazioni dei predittori disponibili). Se esistono informazioni teoriche attendibili, dalla letteratura scientifica, sul ruolo predittivo di certe variabili sul fenomeno in esame è bene costruire un modello ragionevole basandosi su queste informazioni, includendo tutti i predittori rilevanti in ordine di importanza teorica; dopo questa analisi iniziale è bene ripetere la regressione escludendo le variabili che sono risultate ridondanti. In generale, minore è il numero di predittori meglio è, è bene prediligere le variabili con una solida base teorica e assicurarsi di avere un campione di dimensioni adeguate. Valutazione del modello: procedure diagnostiche Una volta costruito un modello basato sul campione a disposizione è importante stabilirne l’ACCURATEZZA (capacità di rappresentare i dati osservati) e la GENERALIZZABILITÀ (capacità di predire nuovi dati). Se un modello non è accurato difficilmente sarà generalizzabile, ma l'accuratezza non è garanzia di generalizzabilità (ad es. in caso di overfitting). L'accuratezza del modello dipende criticamente dalla presenza di casi anomali e casi influenti. Casi anomali Nella regressione, sono quelli che si discostano dall'andamento generale degli altri casi del campione. Gli outliers possono influenzare in maniera più o meno seria la stima dei coefficienti di regressione (ad es. pendenza e intercetta della retta), ma non sono comunque dati ben rappresentati dal modello. Possiamo cercare i casi che mostrano una grande differenza (residuo) rispetto al valore predetto dal modello; si usano i residui standardizzati, ottenuti dividendo il valore dei residui per una stima della loro deviazione standard. I residui standardizzati con valore assoluto > 3 devono destare sospetto, perché è molto improbabile che un valore così grande sia dovuto semplicemente al campionamento casuale; se più dell'1% dei casi ha un residuo standardizzato con valore assoluto > 2.5, il modello è inadeguato; se più del 5% dei casi ha un residuo standardizzato con valore assoluto > 2, il modello è inadeguato. Casi influenti Sono casi che influenzano in maniera estrema il modello, in quanto se venissero rimossi la stima dei coefficienti di regressione cambierebbe drasticamente. Un caso che ha una grande influenza può avere un residuo piccolo: è dunque bene esaminare entrambi. Diverse grandezze basate sui residui risultano utili all’identificazione dei casi influenti: ADJUSTED PREDICTED VALUE (valore predetto per il caso se questo fosse escluso dall'analisi; se un caso non esercita una grossa influenza sul modello, la differenza [DFFit] tra tale valore e quello predetto dal modello originale dovrebbe essere piccola), STUDENTIZED RESIDUAL (residuo relativo all'adjusted predicted value diviso per la sua deviazione standard; tale statistica segue la distribuzione del t di Student), DISTANZA DI COOK (misura della influenza globale di un caso sul modello, cioè sulla sua capacità di predire tutti i casi; valori > 1 sono considerati sospetti), HAT VALUES/LEVERAGE (valutano l'influenza del valore osservato della variabile dipendente sui valori predetti. Il valore medio di leverage è definito come (k + 1) / n, dove k è il numero dei predittori e n il numero di partecipanti. I valori di leverage vanno da 0 [influenza nulla] a 1 [influenza completa]. Sono casi sospetti quelli con una leverage maggiore di 2-3 volte la leverage media), COVARIANCE RATIO (è una misura dell'influenza di un caso sulla varianza dei coefficienti di regressione. Valori di CVR vicini a 1 indicano un’influenza trascurabile; se CVR i > 1 + [3(k + 1) / n] eliminare il caso i-esimo peggiorerà la previsione di qualche parametro del modello; se CVR i < 1 - [3(k + 1) / n] eliminare il caso i- esimo migliorerà la previsione di qualche parametro del modello). Infine, possiamo confrontare un modello fittato utilizzando tutti i dati del campione ed escludendo il caso da esaminare. La differenza nei valori dei coefficienti stimati è detta DFBeta e viene calcolata per ogni caso e per ciascun coefficiente, permettendo di identificare i casi con grande influenza sui parametri del modello. Lo scopo di tutte queste tecniche non dovrebbe essere quello di eliminare i dati che non tornano e ottenere risultati più accattivanti; se un caso è anomalo, ma ha una distanza di Cook < 1, non vi è necessità di rimuoverlo perché non ha un grosso effetto sull'analisi di regressione (anche se vale la pena investigare ulteriormente la questione). Valutazione del modello: generalizzabilità Valutata la qualità del modello nei termini della rilevanza delle variabili esplicative e dell'effetto di eventuali casi anomali e casi influenti, ciò che interessa davvero è la capacità di generalizzare i risultati al di là dello specifico campione raccolto. Per fare questo, occorre verificare che i presupposti statistici della regressione siano soddisfatti e che i risultati siano effettivamente generalizzabili tramite convalida incrociata (usare un sottoinsieme del campione o un nuovo campione). Presupposti statistici Perché i risultati di una regressione eseguita su un campione possano estendersi alla popolazione, devono essere soddisfatti diversi requisiti statistici: tipi di variabile (tutti i predittori devono essere quantitativi o categorici [con 2 categorie] e la variabile dipendente deve essere quantitativa, continua e non limitata), varianza (i predittori devono avere varianza non nulla), multicollinearità (non ci deve essere perfetta correlazione tra 2 o più predittori), variabili esterne (non ci devono essere variabili “nascoste”, non incluse nel modello, che correlano fortemente con qualcuno dei predittori), omoschedasticità (a ogni livello delle variabili esplicative i residui devono avere varianze simili [la dispersione nei residui non deve variare al variare del valore della variabile esplicativa]), errori indipendenti (i residui di due osservazioni qualsiasi devono essere indipendenti), normalità degli errori (i residui devono essere distribuiti con media nulla), indipendenza (i valori della variabile predetta devono provenire da entità/soggetti non in relazione tra loro), linearità (il modello è lineare perciò suppone che le relazioni indagate siano lineari). Se i requisiti statistici sono soddisfatti si dice che i coefficienti ottenuti dal modello di regressione sono non distorti (unbiased): in media, i risultati ottenuti sono gli stessi che si otterrebbero se il modello venisse applicato all'intera popolazione da cui è stato estratto il campione. Se non siamo sicuri che il modello sia effettivamente estendibile alla popolazione, possiamo verificare in modo diretto la sua capacità predittiva su un nuovo campione. In ogni caso, è sempre bene cercare di avere un campione di dimensioni adeguate, in maniera da ottenere un modello di regressione attendibile (minore è la dimensione più il modello è influenzato dalla variazioni casuali). Convalida incrociata del modello Possiamo innanzitutto valutare l'adjusted R2: un valore piccolo rispetto a R2 indica un forte restringimento (shrinkage) della varianza di Y spiegata dal modello se questo fosse stato ricavato dall'intera popolazione, e dunque una bassa generalizzabilità (modello troppo adattato ai dati specifici del campione). Oppure, possiamo dividere il campione in due in maniera casuale, calcolare l'equazione di regressione in entrambi i sottoinsiemi e confrontare i modelli ottenuti. Con i metodi stepwise è prassi comune applicare il modello ottenuto usando l'80% dei casi, al 20% dei casi rimanenti: si valuta la generalizzabilità del modello confrontando i valori di R2 e dei coefficienti nei due sottoinsiemi. Dimensioni del campione di regressione Il numero di soggetti necessario per rilevare un effetto dipendono dal livello di significatività () e generali, si creano dei valori rettificati per ciascuna variabile sottraendo tali differenze ai valori originali (i valori rettificati avranno come media la stessa media dei valori originali, ma come intervallo di confidenza quello appropriato per le differenze tra le due condizioni). Se le barre di errore non si sovrappongono la differenza tra le medie è significativa, ma in generale un disegno a misure ripetute ha un potere statistico di rilevare l’effetto di interesse maggiore di un disegno a gruppi i dipendenti, perché si rimuove la variabilità interindividuale (ogni soggetto è il controllo di se stesso). Il t-test Viene usato per valutare se le medie di due gruppi di dati siano significativamente differenti (o anche se la media di un singolo gruppo sia significativamente diversa da un valore specificato, tipicamente zero). Vi sono due tipi di t-test, la cui rispettiva applicabilità dipende del disegno sperimentale: independent-samples t-test (per campioni indipendenti: soggetti diversi nelle due condizioni) e paired-samples t-test (per campioni appaiati: misure ripetute, stessi soggetti nelle due condizioni). La logica del t-test è la seguente: raccogliamo due campioni di dati e calcoliamo le medie rispettive; tali medie differiranno di una certa quantità; se i due campioni provengono dalla stessa popolazione (ipotesi nulla) ci aspettiamo medie simili, perché la probabilità di ottenere differenze grandi è bassa (se le medie del campione sono distribuite normalmente i valori estremi per le differenze appartengono alle code della distribuzione e quindi hanno probabilità via via decrescente); quanto simili dipende dalla deviazione standard della popolazione, stimata dall'errore standard dei dati; se la differenza tra le medie osservate è grande rispetto all'errore standard, allora rifiutiamo l'ipotesi nulla e concludiamo che le medie sono significativamente differenti (cioè i due campioni provengono da popolazioni diverse). Il t-test si basa sulla t-statistic, che, come la maggior parte delle test statistics, esprime il rapporto tra la variabilità spiegata dal modello (effetto: differenza tra il valore osservato nei dati e il valore atteso sotto l'ipotesi nulla) e la variabilità non spiegata dal modello (errore: entità della variazione casuale da campione a campione, stimata dall'errore standard); più in specifico: , dove la differenza attesa tra le medie di popolazione sotto l'ipotesi nulla, cioè μA - μB, è tipicamente zero. Possiamo scrivere il modello statistico che rappresenta il confronto tra due medie come , dove G è una dummy variable con valore 0 per il gruppo A e 1 per il gruppo B, b0 è la media del gruppo A e b1 è la differenza tra la media del gruppo B e quella del gruppo A. Poiché il t-test è essenzialmente una regressione, si applicano gli stessi requisiti: normalità della distribuzione campionaria delle medie e, per il t-test a campioni appaiati, normalità della distribuzione campionaria delle differenze tra medie; scala di misura dati (almeno) a intervalli. Il t-test per campioni indipendenti richiede inoltre indipendenza dei valori nei due gruppi o condizioni e omogeneità della varianza nei due gruppi (in pratica questo requisito non è necessario se si usa la variante di Welch del test [di default in R] che produce risultati validi anche in caso di eteroschedasticità). t-test a campioni indipendenti Per campioni di dimensioni uguali , dove s2 è la varianza e n la numerosità del campione. Per campioni di dimensioni diverse . La dimensione dell’effetto è data da . Nella comunicazione dei risultati è bene includere le medie nei due gruppi con il loro errore standard (o intervallo di confidenza), seguite dal valore del t con i suoi gradi di libertà, la significatività della differenza tra le medie (p-value) e le dimensioni dell'effetto. t-test a misure ripetute Per campioni appaiati, la misura di interesse è la differenza tra i valori acquisiti nelle due condizioni sperimentali, e dunque la formula appropriata per la t-statistic è: , dove è la differenza media tra le due condizioni, μD è la differenza attesa dalla popolazione sotto l’ipotesi nulla (tipicamente uguale a 0) e SED è l’errore standard della media delle differenze. CONFRONTO DI PIÙ MEDIE INDIPENDENTI Volendo confrontare le medie di più di due gruppi, possiamo eseguire una serie di t-test. Se abbiamo scelto α = .05 come livello di significatività per ciascun t-test, ciò significa che la probabilità che i risultati non rappresentino un falso positivo è del 95%. Con 3 gruppi, ad esempio, vi sono tre confronti possibili: (A vs. B), (A vs. C) e (B vs. C). La probabilità che non vi sia alcun falso positivo tra di essi è 0.95 0.950.95 = 0.857; la probabilità di commettere almeno un falso positivo è dunque (1 - 0.857) = 0.143, ovvero del 14.3%. Il rischio complessivo di errori di tipo I sull'intero esperimento (family-wise error rate) è quasi triplicato. Con n gruppi il numero totale di confronti a coppie è dato dal coefficiente binomiale (k = 2): ; ad esempio, con 5 gruppi il numero totale di t-test possibili è 10 e il family-wise error rate è pari a (1 - 0.9510) = 0.40: abbiamo il 40% di probabilità di avere almeno un falso positivo tra i risultati dei test. L'analisi della varianza (ANOVA) è una procedura che permette di eseguire confronti tra più medie controllando efficacemente il family-wise error rate. L'ipotesi nulla testata dall'ANOVA è che le medie dei vari gruppi o condizioni siano tutte uguali tra loro. La F-statistic o F-ratio prodotta dall'ANOVA è ancora una volta il rapporto tra la varianza sistematica (spiegata dal modello) e quella non sistematica (errore). Un’ANOVA significativa indica soltanto che alcune medie sono tra loro differenti, ma non ci dice quali: in altre parole, l'ANOVA è un omnibus test, un test complessivo che ci dice se, per spiegare i dati, è più vantaggioso dividerli in gruppi rispetto a non farlo, ossia se i residui lasciati dal prendere come modello la media complessiva sono maggiori dei residui lasciati prendendo medie separate per ciascun gruppo. L’ANOVA come regressione La logica della regressione lineare con predittori categoriali a più di due categorie si applica direttamente all'ANOVA. Con n gruppi occorre definire n - 1 variabili di comodo che rappresentino altrettanti confronti di ciascun gruppo con un gruppo scelto come riferimento. In un’ANOVA specificata come modello di regressione utilizzando dummy variables (DV), il modello è dato da , dove b0 rappresenta la media di X per il gruppo di base (), b1 rappresenta la differenza - e b2 rappresenta a differenza - . I valori di F e p ci dicono se l'avere usato come modello medie diverse per ciascun gruppo ha portato a previsioni significativamente migliori per il valore della variabile dipendente, rispetto all'uso della sola media complessiva di tutti i gruppi (l’ipotesi nulla è che le medie dei gruppi siano uguali a questa media complessiva). La valutazione della bontà (fit) di un modello ANOVA si basa sul calcolo di tre tipi di devianze o scarti quadratici: la TOTAL SUM OF SQUARES (SST: devianza dei dati dalla media complessiva di tutti i dati), la RESIDUAL SUM OF SQUARES (SSR: devianza dei dati di ciascun gruppo dalle rispettive medie; è ciò che il modello non spiega, la differenza tra i dati e il modello) e la MODEL SUM OF SQUARES (SSM: devianza delle medie di ciascun gruppo dalla media complessiva), dove SSM = SST – SSR. Le test statistics esprimono il rapporto tra variabilità sistematica dei dati (cioè spiegata dal modello) e variabilità non sistematica (non spiegata dal modello); in particolare, la F-statistic (o F-ratio) è definita come il rapporto tra le mean squares del modello e dei residui, dove queste sono le sum of squares normalizzate per i rispettivi gradi di libertà: . Gli assunti sotto i quali la F-statistic è attendibile sono gli stessi di tutti i test parametrici basati sulla distribuzione normale: omogeneità della varianza tra gruppi, osservazioni indipendenti tra i diversi gruppi, variabili misurate almeno su scala a intervalli, normalità all'interno di ciascun gruppo (normalità dei residui). Se il numero di soggetti è lo stesso in ciascun gruppo l'ANOVA è piuttosto robusta per violazioni della normalità e omogeneità della varianza, ma se i requisiti non sono soddisfatti si possono usare i test robusti di Wilcox basati su trimmed mean, M-estimatore e bootstrapping, in caso di eteroschedasticità usare l'F di Welch, in caso di non normalità usare il test di Kruskal-Wallis (versione non parametrica dell’ANOVA per medie indipendenti), trasformare i dati. Contrasti pianificati Se l'ANOVA è significativa occorre individuare le differenze specifiche tra gruppi responsabili dell'effetto complessivo. Nello schema della regressione multipla otteniamo automaticamente t-test per le differenze tra gruppi corrispondenti ai coefficienti delle dummy variables. Tuttavia, eseguendo confronti statistici multipli, il rischio complessivo di falsi positivi aumenta: è necessaria una strategia per controllare il family-wise error rate di tipo I. Come facciamo a identificare i gruppi che mostrano medie differenti in maniera più dettagliata? Occorre eseguire confronti specifici tra gruppi, tramite CONTRASTI PIANIFICATI A PRIORI (scomposizione della varianza spiegata dal modello in componenti disgiunte) oppure tramite CONTRASTI POST-HOC (confronto di tutti i gruppi a due a due e applicazione di una correzione della significatività per il numero totale dei confronti). Per quanto riguarda i contrasti pianificati, la prima scomposizione della varianza è quella della varianza totale nei dati in varianza spiegata dal modello e varianza non spiegata dal modello; la seconda scomposizione è quella della varianza spiegata dal modello e corrisponde, nel nostro caso, al confronto tra i soggetti che hanno ricevuto il farmaco e quelli che hanno ricevuto il placebo (contrasto 1: confronto tra media dei due gruppi farmaco e media del gruppo placebo); la terza scomposizione confronta i gruppi a bassa e ad alta dose di farmaco (contrasto 2). In generale: se esiste un gruppo di controllo, il primo contrasto confronta quest'ultimo con l'insieme di tutti gli altri; ogni contrasto deve corrispondere alla divisione di un “blocco” di varianza; una volta che un gruppo è stato isolato in un contrasto non può venire riutilizzato in un altro contrasto. Se si procede in questo modo i contrasti risultano indipendenti e ne segue che IL NUMERO MASSIMO DI CONTASTI È SEMPRE K - 1, dove k è il numero dei gruppi. In pratica si creano regressori corrispondenti a confronti tra gruppi che non hanno valori limitati a 0 e 1 come le dummy variables, ma utilizzano “pesi” opportuni: i coefficienti corrispondenti nel modello di regressione rappresentano gli effetti di interesse. Si assegnano a un termine del confronto pesi positivi e all'altro pesi negativi; la somma dei pesi in un contrasto deve essere 0; se un gruppo non è coinvolto in un confronto gli si assegna peso 0; in un dato contrasto si assegnano ai gruppi in un termine del confronto un peso pari al numero dei gruppi nel termine opposto del confronto. Seguendo queste regole si ottengono contrasti indipendenti od ortogonali (il loro prodotto scalare è 0). Nel nostro esempio l’equazione di regressione è , dove b0 rappresenta la media complessiva, b1 rappresenta la differenza tra la media dei gruppi farmaco e la media del gruppo placebo (corretta per un fattore 1 / 3), e b2 rappresenta la differenza tra la media del gruppo ad alta dose e la media del gruppo a bassa dose (corretta per un fattore 1 / 2). I coefficienti di regressione rappresentano differenze tra medie, ma il valore di tali differenze è diviso per il numero di gruppi attivi nel contrasto (strategia utilizzata per controllare il family-wise error rate). Si possono usare i contrasti polinomiali per identificare, con gruppi con un ordinamento intrinseco, trend regolari nei dati andando da un gruppo sperimentale all’altro, di tipo LINEARE (la variabile dipendente cambia linearmente andando dal primo all’ultimo gruppo), QUADRATICO (la variabile dipendente ha 1 inversione di direzione andando dal primo all’ultimo gruppo), CUBICO (la variabile dipendente ha 2 inversioni di direzione andando dal primo all’ultimo gruppo), QUARTICO (la variabile dipendente ha 3 inversioni di direzione andando dal primo all’ultimo gruppo); i pesi nei contrasti polinomiali riflettono i trend modellizzati.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved