Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica - appunti terzo parziale, Sbobinature di Statistica

Sbobinature delle lezioni della professoressa Silvia Bacci riguardanti il terzo parziale del suo corso di Statistica

Tipologia: Sbobinature

2019/2020

In vendita dal 21/12/2021

chiarabucelli
chiarabucelli 🇮🇹

4.4

(18)

63 documenti

Anteprima parziale del testo

Scarica Statistica - appunti terzo parziale e più Sbobinature in PDF di Statistica solo su Docsity! STATISTICA - (terzo parziale) 17-19\11\2020 ASSOCIAZIONE TRA VARIABILI QUANTITATIVE Scatter plot (=grafico di dispersione): il grafico evidenzia l'associazione tra le variabili X e Y T QUAORANTE TI quadinuîe : (xi -)>0 (-j>o (ui-)< 0 (CREVESO (ur) (4-9) > a + (mu) (4) > quodhas® - + 1 5 L T quadrate ( A (ni 30)<0 D WR) DO Yi = <0 Ù x br gi-g) >O (za) coninaide Cily) Covarianza (y, x)= m a Jers® (xi — (I = ) cov(x,)) 2O =) assotiunione Mi indica come fm Din ps Yi fa E Vie Xed: variano insieme Ary ra le due variabili x e y sò =" ( Mij in = fe, - SI atta aTda Mi Ja Ni pb) To cov(X,y) <o > assotiaign ( titagha ho. Associazione, in questo caso, vuol dire anche dipendenza (X ed Sowo Discora)) lineare (=correlazione) tra x e y: » e dipendenza lineare positiva: la retta immaginaria che È (x ) Si nni . . ia ov(Xy))=0 = cai È passa attraverso i punti ha un coefficiente angolare ) CTAcer LNERRE positivo, un’inclinazione positiva Ya (o di coRRELATIONE) e dipendenza lineare negativa: la retta immaginaria che TT TTARA passa attraverso i punti ha un coefficiente angolare de negativo, un’inclinazione negativa DX Se x e y sono statisticamente indipendenti allora x e y sono anche incorrelate (=linearmente indipendenti) e di conseguenza la covarianza è uguale a 0 La covarianza non dice nulla sulla forza della relazione ——» coefficiente di correlazione di Pearson =4 € COV(X,Y) ©9)>0 > po DI SE xy D coils) 40 > 920 } O, 0, ( zo »Ù:0 = x co) ?Ì 7 Girl Ra MODELLO CLASSICO DI REGRESSIONE LINEARE SEMPLICE modello: concettualizzazione di un fenomeno reale classico: in riferimento alle ipotesi che stanno alla base del modello regressione: termine coniato da Galton (cugino di Darwin) che voleva studiare la relazione tra l'altezza dei figli adulti e dei genitori lineare: il modello è caratterizzato da una combinazione lineare dei parametri che lo compongono semplice: il modello è il più semplice possibile, ovvero si analizza la relazione esistente tra due sole variabili, la Yche assume il ruolo di variabile risposta o dipendente e la X che assume il ruolo di variabile esplicativa o indipendente Errore e= include entrambi i livelli di approssimazione e Primolivello di approssimazione: esistono altre variabili che possono avere un effetto sulla Y ma che sono impossibili da controllare e Secondo livello di approssimazione: la relazione tra Y e X è modellata in termini lineari 20\11\2020 Le ipotesi classiche sul modello :E(£,)=0 Vi VAR(6, ) =0? Wi -la varianza degli errori è uguale a una costante -il valore atteso degli e con i è uguale a zero COV (c, €; ) = E(c, “e; ) =0 #57 -la covarianza degli errori di 2 soggetti è uguale a zero di = + x di La parte deterministica del modello di regressione lineare Vcoade (quella che chiamiamo retta di regressione) mi serve per © E (€i) =0 spiegare come varia in media y al variare di x Y Questo implica che i punti effettivamente osservati, in È % x x) 5 (sa Pra HE generale, non stanno sulla retta perché abbiamo l'errore, = dt Pu +E(£) mentre i valori medi dei punti osservati per ogni livello di x = pa stanno sicuramente sulla retta x -|E } Xe) = dt O LA | I valori effettivamente osservati si disperdono intorno ai valori È medi, e di solito questa dispersione è di tipo normale media di Y & rappresenta il valore medio di y quando x è uguale a zero rappresenta la variazione subita dalla media di y quando x aumenta di una unità j =d+ px Equazione di previsione (la retta che stimo sarà diversa dalla retta vera) =» n n Questo è il residuo, che non è l’errore ma è solo una sua stima, e che è &3YV;|4+ Bx, la distanza di un punto dalla retta di previsione m_V m ( a Metodo dei minimi quadrati: tra tutte le possibili rette, la Zali Er, i pd pa di previsione è quella che rende minima | dei =“ Taù retta di previsione è quella che rende minima la somma dei RSS quadrati dei residui È L&-3)0-9) a=) - px Stimatore del coefficiente angolare della retta V(x; -x) Stimatore dell’intercetta della retta Il coefficiente di correlazione è il valore che assume la pendenza della retta di previsione quando le due variabili hanno deviazioni standard uguali Bontà d’adattamento: la retta stimata esprime il legame tra Y e X. Quindi, dato un certo xi, il corrispondente valore y risulta in parte determinato da xi ed in parte dall’errore ei Verificare l’esistenza di un certo livello di associazione tra X e Y NON è quindi condizione sufficiente per potersi esprimere a favore della causazione. Per poter interpretare adeguatamente i risultati è importante individuare correttamente quale variabile influenza l’altra (quale la causa, quale l’effetto) L'associazione è una condizione necessaria ma non sufficiente per avere relazione causa-effetto. Variabili controllate: per comprendere se e come X influenzi Y si utilizza la tecnica “del controllo”. Una variabile Z è detta controllata, quando la sua possibile influenza viene rimossa suddividendo il campione in gruppi per i quali il valore della variabile da controllare è costante. Si suddivide il campione in base a/ numero di modalità di Z e per ciascuno di essi si studia se e come X influenzi Y. 27\11\2020 Classificazione delle relazioni multivariate e Relazioni spurie: quando entrambi le variabili X ed Y dipendono da una terza variabile Z e quando la loro associazione scompare quando Z è controllata. È il caso classico di covariazione tra X ed Y in assenza di causazione e Relazioni concatenate (0 indirette): quando il legame tra X ed Y è mediato da una terza variabile Z, che viene detta variabile interveniente o mediatrice e Cause multiple: se una variabile Y ha più di una causa, si parla di cause multiple. Una variabile X può esercitare un effetto diretto su Y ma vi possono anche essere effetti indiretti dovuti alla presenza di variabili intervenienti e Variabili sopprimenti: vi sono casi in cui due variabili non mostrano alcuna associazione tra loro, fino a quando non viene considerata una terza variabile di controllo, la variabile sopprimente e Interazione statistica: se ilvero effetto del predittore X su Y si modifica al variare dei valori assunti da un altro predittore Z, allora si parla di interazione statistica tra X e Z nei loro effetti su Y. La relazione tra X e Y potrebbe anche cambiare di direzione per effetto di Z DA Xx vi i SMS x.y ir o | X.Y a | dr i 7 » x 01\12\2020 REGRESSIONE LINEARE MULTIPLA Multipla: si analizza la relazione esistente tra più variabili di cui una, la Y, assume il ruolo di variabile risposta o dipendente mentre le altre assumono il ruolo di variabili esplicative (predittive) o indipendenti Per conciliare le diversità riscontrate tra teoria e pratica: e Primolivello di approssimazione: esistono variabili che possono avere un effetto sulla Y ma che sono impossibili da controllare e Secondo livello di approssimazione: la relazione tra Y e le X è modellata in termini lineari Errore e include entrambi i livelli di approssimazione E(y [Xi X2,.- Da) = ; a : i Ty: di” Dt fame 4 Ppras E: 2E (LI fa a fa atei aaa + puri + &i E(E)-0 2) ; n n Var €) =3 2 a Bali a feti bf Qi ed 2 na covlei, €) = 0 se) CONTROLLO di E E; Ver L'E” de DI Xi Nel modello di regressione /ineare semplice ignoro, IGNofo L'EFFED in quello di regressione lineare multipla controllo DI Xa ® L’intercetta alfa è il valore che ci si attende per Y se tutte le X fossero uguali a zero e Ilcoefficiente beta 1 esprime la variazione di Y per incrementi unitari di X1, ferme restando le altre variabili che possono essere controllate (quindi a parte l'errore); analogamente beta 2 esprime la variazione di Y per incrementi unitari di X2, ferme restando le altre variabili Solo se X1 e X2 sono cause indipendenti di Y, l’effetto di X2 su Y non cambia tenendo sotto controllo X2 Ipotesi classiche sul modello di regressione multipla Le variabili esplicative sono tali che nessuna È % 3 0 è combinazione lineare delle altre le X, Xh,..., Xx sono tali che nessuna è combinazione -se XA=2X1+3X2-4X3 allora X4 è lineare delle altre; le X}, Xh,..., Xx sono variabili non stocastiche; combinazione lineare delle altre variabili E(£,)= 0 Vi In questo caso il modello non funziona 21 é i i isti vaR(e,)=0 ‘vi perché non riusciamo a distinguere se quello che succede alla Y è dovuto alla XA o alle COV(£,,5,)=E(£,-8,)=0 1#) altre variabili Analogamente al caso della regressione lineare semplice, l'equazione di previsione è quella che rende minima la somma dei quadrati dei residui I parametri da stimare sono: alfa (intercetta), sigma quadro (varianza degli errori), beta 1/2/3 fino a beta k Stima della varianza condizionata: si perdono k+1 gdl a causa dei vincoli legati alla stima dei parametri che definiscono il modello. Con k variabili esplicative, i parametri da stimare sono k+1 Scomposizione della variabilità totale: analogamente al caso della regressione lineare semplice possiamo scomporre l’indice di variabilità della Y. La variabilità totale della Y può essere scomposta in una parte attribuibile alle Xi e una parte attribuibile all'errore Coefficiente di determinazione multipla: la variabilità dovuta all’errore diviso la variabilità totale Mi indica, quindi, quanta parte della variabilità totale della Y viene spiegata dal modello di regressione, quindi dalle k variabili esplicative messe nel modello di regressione R?= 0: VX=0, quindi le variazioni della Y non sono dovute all’effetto delle variabili indipendenti R?= 1: VE=0, tutti gli errori sono zero, ovvero tra la Y e le Xi esiste una dipendenza lineare perfetta Può aumentare anche quando inserisco nel modello variabili che in realtà non contribuiscono in maniera significativa a spiegare la variabilità della Y 04\12\2020 Il coefficiente di determinazione multipla misura la riduzione proporzionale dell’errore che si commette impiegando l'equazione di previsione (=la retta di regressione) anziché y (=media campionaria di y) per prevedere y r. è il coefficiente di correlazione multipla, rappresenta la correlazione tra 0 <r. est] le y osservate e le y previste TC YyY I valori previsti non possono essere correlati negativamente con quelli osservati Regressione e inferenza: un’ipotesi aggiuntiva e le condizionate di Ya ciascun valore delle Xi seguono una distribuzione Normale <l x rt (I TC pi 4 so = È » Intervallo di confidenza per un generico te coefficiente di regressione parziale la + Tua i ì 7 A 4 20h 4 fi COS zi 4 Ei - Test d’ipotesi su B, 4} Bi L 3) Avere un f; uguale 0 diverso I Lm_leH 0 SE (È) so, da zero cambia molto di = d4 forti + Inferenza per l'insieme complessivo delle variabili esplicative Le variabili esplicative hanno nel loro complesso un effetto statisticamente significativo sulla variabile dipendente? Fdi Fisher: R?/k e [Ho :8,=B,=.=B=0 _ {Ho:Pxy30 (1-2?) [n-(k+1)] #r-(45 | |A: almeno un 8,#00 |H: Piy>0 F assume solo valori NON negativi, è asimmetrica a destra, la sua media è approssimativamente uguale a 1, grandi valori della statistica test forniscono evidenza contro HO, la sua forma esatta dipende da 2 parametri: e gdli= k (numero di variabili esplicative nel modello) e gdl2=n—(k+1) Multicollinearità: quando in un modello ci sono molte variabili esplicative e le correlazioni tra queste sono (molto) forti, capita spesso che l’inserimento di altri predittori nel modello non produca incrementi significativi in R°. Le difficoltà di ordine computazionale causate dalla multicollinearità sono meno stringenti quando si dispone di grandi campioni (idealmente, l'ampiezza campionaria dovrebbe essere almeno 10 volte il numero delle variabili esplicative) In presenza di questo in un modello con un elevato numero di predittori è possibile che nessuno (o pochi) di essi evidenzi stime dei coefficienti di regressione parziale statisticamente diversi da 0. Ciò nonostante, è possibile osservare un R° elevato, quindi un elevato valore per la statistica F. 10\12\2020 Interazione tra predittori e incasodiassenza di interazione tra due variabili: controllando per X2 si ottengono rette parallele (ovvero con intercetta differente) e in caso di presenza di interazione tra due variabili: controllando per X2 si ottengono rette di pendenza ed intercetta differenti .F gronda > f pelo Modelli a confronto — o = Rift Ho => Scelap il e modello completo: modello con tutti i predittori T= dl complità (comprese eventuali interazioni) e modello ridotto: modello solo con alcuni di questi (si * F pato > P quando. dice nidificato all’interno del modello completo) = Accolto ln > Set Lise Si Una riduzione relativamente elevata del termine d'errore nel passaggio dal ridotto al completo porta ad un elevato valore della statistica F e ad un piccolo p-value. Quindi ad un’evidenza contro HO che induce ad optare per il modello superiore (=completo) Coefficiente parziale I modelli di regressione multipla descrivono l’effetto di una variabile esplicativa sulla variabile risposta tenendo sotto controllo gli altri predittori. Come stabilire la forza di queste associazioni parziali?
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved