Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Lezione 6 metodi statistici, Dispense di Statistica

Lezione numero 6 metodi statistici

Tipologia: Dispense

2018/2019

Caricato il 27/12/2019

dip49619
dip49619 🇮🇹

4.4

(55)

106 documenti

Anteprima parziale del testo

Scarica Lezione 6 metodi statistici e più Dispense in PDF di Statistica solo su Docsity! M.G.Grassia Maria Gabriella Grassia Università degli studi di Napoli Federico II mgrassia@unina.it 1 Metodi Statistici per la Comunicazione 1 Laurea Magistrale Comunicazione pubblica, sociale e politica 5 Analisi delle relazioni tra due caratteri Capitolo a cura di M.G. Grassia, C.N. Lauro, M.Marino Rappresentazione congiunta di una coppia di fenomeni statistici: Distribuzioni doppie di frequenze Analisi delle relazioni tra due caratteri Misure di dipendenza Le relazioni fra variabili quantitative Le relazioni lineari Esempio di tabella a doppia entrata (mista): 𝑋 variabile qualitative 𝑌 variabile quantitativa Distribuzioni di frequenza doppia Tabella di contingenza – parte centrale Genere/Età 18 19 20 21 Totali di riga M 4 5 2 1 12 F 1 3 2 2 8 Totali di colonna 5 8 4 3 20 Tabella di contingenza – Totali di riga e Totali di colonna Genere/Età 18 19 20 21 Totali di riga M 4 5 2 1 12 F 1 3 2 2 8 Totali di colonna 5 8 4 3 20 Distribuzioni marginali Se si uniscono le modalità della prima colonna (Maschio, Femmina) con i totali di riga (ultima colonna) si risale alla distribuzione di frequenza della variabile Genere. Se si uniscono le modalità della prima riga ( 18 anni, 19 anni, 20 anni e 21 anni) con i totali di colonna si risale alla distribuzione di frequenza della variabile Età. Queste due distribuzioni che si ricavano dalla distribuzione doppia sono chiamate distribuzioni marginali Tabella di contingenza – Distribuzione marginale di riga Genere/Età 18 19 20 21 Totali di riga M 4 5 2 1 12 F 1 3 2 2 8 5 8 4 3 20 Genere M 12 F 8 Totale 20 Tabella di contingenza – Distribuzione marginale di colonna Genere/Età 18 19 20 21 M 4 5 2 1 12 F 1 3 2 2 8 Totali di colonna 5 8 4 3 20 Età 18 5 19 8 20 4 21 3 Totale 20 Distribuzioni condizionate Se si considera una sola riga, oppure una sola colonna interna alla tabella, si ha una distribuzione condizionata. Ad esempio la seconda riga della tabella precedente rappresenta la distribuzione dell’Età condizionata all’essere Femmina (F). Se si considera la seconda colonna allora si ha la distribuzione del Genere condizionata all’Età di 19 anni. La distribuzione di un variabile 𝑋 condizionata ad una modalità della variabile 𝑌 viene indicata con il nome della variabile 𝑋 il simbolo | e la modalità della variabile che condiziona la distribuzione di 𝑋 Tabella a doppia entrata in simboli Distribuzioni di frequenza doppia Tabella di contingenza con frequenze congiunte relative– simboli X/Y y1 y2 … yj … yh Marginali di riga x1 f11 f12 … f1j … f1h f1. x2 f21 f22 .. f2j … f2h f2. … … … … … … … … xi fi1 fi2 … fij … fih fi. … … … … … … … … xk fk1 fk2 … fkj … fkh fk. Marginali di colonna f.1 f.2 … f.j … f.h 1 Distribuzioni condizionate in simboli Distribuzioni di frequenza condizionate Distribuzione di frequenza relativa di X condizionata alla modalità 𝒚𝒋 e Distribuzione di frequenza relativa di Y condizionata alla modalità 𝒙𝒊 X|yj Y|xi x1 𝑛1𝑗 𝑛.𝑗 y1 𝑛𝑖1 𝑛𝑖 . x2 𝑛2𝑗 𝑛.𝑗 y2 𝑛𝑖2 𝑛𝑖 . … … … … xi 𝑛𝑖𝑗 𝑛.𝑗 yj 𝑛𝑖𝑗 𝑛𝑖 . … … … … xk 𝑛𝑘𝑗 𝑛.𝑗 yh 𝑛𝑖ℎ 𝑛𝑖 . Totale 1 Totale 1 Distribuzione di frequenza percentuale di X condizionata alla modalità yj e Distribuzione di frequenza percentuale di Y condizionata alla modalità xi X|yj Y|xi x1 𝑛1𝑗 𝑛 .𝑗 x100 y1 𝑛𝑖1 𝑛𝑖 . x100 x2 𝑛2𝑗 𝑛 .𝑗 x100 y2 𝑛𝑖2 𝑛𝑖 . x100 … … … … xi 𝑛𝑖𝑗 𝑛 .𝑗 x100 yj 𝑛𝑖𝑗 𝑛𝑖 . x100 … … … … xk 𝑛𝑘𝑗 𝑛 .𝑗 x100 yh 𝑛𝑖ℎ 𝑛𝑖 . x100 Totale 100 Totale 100 profili riga e profili colonna Distribuzioni condizionate in simboli Distribuzioni di frequenza condizionate medico economico letterario Totale occupati (% totale) 18,97 20,39 21,44 60,80 stabilmente (% riga) 31,20 33,54 35,26 (% colonna) 53,82 89,05 51,23 occupati (% totale) 12,99 2,00 16,30 31,29 precariamente (% riga) 41,50 6,40 52,10 (% colonna) 36,84 8,75 38,95 (% totale) 3,29 0,50 4,11 7,90 non lavorano (% riga) 41,65 6,37 51,97 (% colonna) 9,34 2,20 9,81 Totale 35,25 22,90 41,85 100,00 Anno 1991 Gruppo di corsi di laurea Condizione occupazionale gruppo medico gruppo economico gruppo letterario Totale occupati stabilmente 6.816 7.328 7.705 21.849 occupati precariamente 4.666 720 5.858 11.244 non lavorano 1.183 181 1.476 2.840 Totale 12.665 8.229 15.039 35.933 100 100 100 Esempio tabella doppia: profili colonna Distribuzioni di frequenza doppia Analisi delle relazioni tra due variabili osservate 𝑋 e 𝑌 Che tipo di relazione supporre? Quale indice misura la relazione? Associazione tra variabili Che tipo di variabile? Che tipo di relazione supporre ? Associazione tra variabili La scelta dell’indice di associazione dipende dal tipo di relazione logica supponibile tra i due caratteri osservati Associazione tra variabili Indipendenza statistica = la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro Indipendenza in distribuzione Tutti i profili riga identici e uguali alla distribuzione marginale di colonna Tutti i profili colonna identici e uguali alla distribuzione marginale di riga Associazione tra variabili Indipendenza in distribuzione Tutti i profili riga identici e uguali alla distribuzione marginale di colonna Tutti i profili colonna identici e uguali alla distribuzione marginale di riga medico economico letterario Totale occupati (% totale) 18,97 20,39 21,44 60,80 stabilmente (% riga) 31,20 33,54 35,26 (% colonna) 53,82 89,05 51,23 occupati (% totale) 12,99 2,00 16,30 31,29 precariamente (% riga) 41,50 6,40 52,10 (% colonna) 36,84 8,75 38,95 (% totale) 3,29 0,50 4,11 7,90 non lavorano (% riga) 41,65 6,37 51,97 (% colonna) 9,34 2,20 9,81 Totale 35,25 22,90 41,85 100,00 100 100 100 𝑛𝑖𝑗 𝑛𝑖. ∗ 100 = 𝑛.𝑗 𝑁 ∗ 100 𝑛𝑖𝑗 𝑛𝑖. = 𝑛.𝑗 𝑁 𝑛𝑖𝑗 = 𝑛𝑖. 𝑛.𝑗 𝑁 Associazione tra variabili Indipendenza in distribuzione Tutti i profili riga identici e uguali alla distribuzione marginale di colonna Tutti i profili colonna identici e uguali alla distribuzione marginale di riga medico economico letterario Totale occupati (% totale) 18,97 20,39 21,44 60,80 stabilmente (% riga) 31,20 33,54 35,26 (% colonna) 53,82 89,05 51,23 occupati (% totale) 12,99 2,00 16,30 31,29 precariamente (% riga) 41,50 6,40 52,10 (% colonna) 36,84 8,75 38,95 (% totale) 3,29 0,50 4,11 7,90 non lavorano (% riga) 41,65 6,37 51,97 (% colonna) 9,34 2,20 9,81 Totale 35,25 22,90 41,85 100,00 𝑛𝑖𝑗 𝑛.𝑗 ∗ 100 = 𝑛𝑖. 𝑁 ∗ 100 𝑛𝑖𝑗 𝑛.𝑗 = 𝑛𝑖. 𝑁 In condizioni di indipendenza assoluta le distribuzioni condizionate di un carattere non mutano al variare delle modalità dell’altro carattere, e quindi, le frequenze teoriche sono uguali alle frequenze osservate. Se tale uguaglianza non è soddisfatta per tutti i valori di 𝑖 e 𝑗, si dice che i due caratteri sono connessi. La connessione risulta tanto più marcata quanto maggiori sono le differenze tra le frequenze osservate e le frequenze teoriche. 𝒄𝒊𝒋 = 𝒏𝒊𝒋– 𝒏𝒊𝒋 ∗ Se la connessione è positiva 𝒏𝒊𝒋 > 𝒏𝒊𝒋 ∗ Se la connessione è negativa 𝒏𝒊𝒋 < 𝒏𝒊𝒋 ∗ Indipendenza – dipendenza statistica (assoluta o in distribuzione) Associazione tra variabili Indipendenza – dipendenza statistica (assoluta o in distribuzione) Associazione tra variabili Indice del Chi quadrato ▪ Si considera una tabella a doppia entrata ▪ Si calcolano le contingenze ▪ Si calcolano i quadrati delle contingenze e si rapportano alla rispettiva frequenza teorica ▪ Si sommano le contingenze al quadrato rapportate alle frequenze teoriche 𝑐𝑖𝑗 = 𝑛𝑖𝑗 – 𝑛𝑖𝑗 ∗ 𝑐𝑖𝑗 2 𝑛𝑖𝑗 ∗ = (𝑛𝑖𝑗 – 𝑛𝑖𝑗 ∗)2 𝑛𝑖𝑗 ∗ 𝜒2 = 𝑖=1 ℎ 𝑗=1 𝑘 𝑐𝑖𝑗 2 𝑛𝑖𝑗 ∗ ≥ 0 L’indice del Chi-quadrato ✓ È uguale o maggiore di 0 ✓ Cresce al crescere di N ✓ Cresce al crescere delle modalità Indipendenza – dipendenza statistica (assoluta o in distribuzione) Associazione tra variabili Indice relativo (V di Cramer) Indice di contingenza quadratica: Indice V di Cramer: Φ2 = Τ𝜒2 𝑁 𝑉 = Φ2 min ℎ − 1 , 𝑘 − 1 - Varia tra 0 e 1 - Vale 0 nel caso di indipendenza. - Vale 1 se: • i due caratteri sono perfettamente associati e il numero di righe della tabella è uguale al numero di colonne (𝒌 = 𝒉); • X dipende perfettamente da Y ed il numero di righe della tabella è maggiore del numero di colonne (𝒌 > 𝒉) ; • Y dipende perfettamente da X ed il numero di righe della tabella è minore del numero di colonne (𝒌 < 𝒉). Supponiamo di avere una variabile quantitativa 𝑌 ed una variabile 𝑋 , che può essere sia di natura qualitativa che quantitativa, e di voler misurare quanto 𝑌 dipende in media da 𝑋 La 𝑌 risulta indipendente in media da 𝑋 se ogni distribuzione parziale di 𝑌 ha la medesima media, indipendentemente da X Associazione tra variabili Indipendenza – dipendenza in media Per ogni distribuzione condizionata di un carattere quantitativo 𝑌 da un carattere qualitativo o quantitativo 𝑋, si può calcolare: Associazione tra variabili Indipendenza – dipendenza in media • Media condizionata di 𝑌 ad una modalità di 𝑋 • Varianza condizionata 𝑌 ad una modalità di 𝑋 𝑀 𝑌|𝑋 = 𝑥𝑖 = 1 𝑛𝑖. 𝑖=1 ℎ 𝑦𝑖𝑛𝑖𝑗 𝑉 𝑌|𝑋 = 𝑥𝑖 = 1 𝑛𝑖. σ𝑖=1 ℎ 𝑦𝑖𝑛𝑖𝑗 −𝑀 2(𝑌|𝑋 = 𝑥𝑖) Un indice di dipendenza in media è il rapporto di correlazione di Pearson dato dalla radice quadrata del rapporto tra la Devianza in media di 𝒀 e la Devianza di 𝒀 Associazione tra variabili Rapporto di correlazione eta quadro Indipendenza – dipendenza in media 𝜂𝑌|𝑋 2 = σ𝑖=1 𝑘 )𝑀 𝑌|𝑋 = 𝑥𝑖 −𝑀(𝑌 2𝑛𝑖. σ𝑗=1 ℎ 𝑦𝑗 −𝑀 𝑌 2 𝑛.𝑗 𝜂𝑌|𝑋 2 = σ𝑖=1 𝑘 )𝑀 𝑌|𝑋 = 𝑥𝑖 −𝑀(𝑌 2𝑛𝑖. σ𝑖=1 𝑘 )𝑀 𝑌|𝑋 = 𝑥𝑖 −𝑀(𝑌 2𝑛𝑖. + σ𝑖=1 𝑘 σ𝑗=1 ℎ 𝑦𝑗 −𝑀 𝑌|𝑋 = 𝑥𝑖 2 𝑛𝑖𝑗 otaleDevianza t gruppi neiDevianza 1 otaleDevianza t gruppi ira Devianza t2 / −==XY Devianza tra i gruppi (between) + Devianza nei gruppi (within) Associazione tra variabili Variabili quantitative Un caso importante nello studio delle relazioni tra due variabili, si ha quando entrambe le variabili sono quantitative Se ci sono informazioni apriori che permettono di stabilire quale è l’antecedente logico e quale il conseguente, cioè si conosce il verso della dipendenza logica, allora si utilizza lo strumento della regressione Quando invece non è possibile sapere quale variabile dipende dall’altra, si utilizza la correlazione che è un indice simmetrico Associazione tra variabili Variabili quantitative Per introdurre la regressione e la correlazione partiamo da un esempio, rappresentando congiuntamente due variabili X e Y con un grafico che si chiama diagramma a dispersione (detto anche scatter) Ipotizziamo di aver misurato 8 studenti con un test di ingresso prima di iniziare l’anno scolastico e di voler studiare la sua relazione con il voto finale di matematica. Valori congiunti di X (test di ingresso) e Y (voto finale di matematica) di 8 studenti Test Voto Studente 1 12 8 Studente 2 10 7 Studente 3 14 8 Studente 4 9 5 Studente 5 9 6 Studente 6 13 9 Studente 7 11 7 Studente 8 8 5 Scatter tra la variabile test di ingresso (X) e voto finale (Y) Associazione tra variabili Variabili quantitative Per introdurre la regressione e la correlazione partiamo da un esempio, rappresentando congiuntamente due variabili X e Y con un grafico che si chiama diagramma a dispersione (detto anche scatter) Ipotizziamo di aver misurato 8 studenti con un test di ingresso prima di iniziare l’anno scolastico e di voler studiare la sua relazione con il voto finale di matematica. Valori congiunti di X (test di ingresso) e Y (voto finale di matematica) di 8 studenti Test Voto Studente 1 12 8 Studente 2 10 7 Studente 3 14 8 Studente 4 9 5 Studente 5 9 6 Studente 6 13 9 Studente 7 11 7 Studente 8 8 5 Scatter tra la variabile test di ingresso (X) e voto finale (Y) Associazione tra variabili Variabili quantitative - Codevianza La somma dei prodotti degli scarti è detta codevianza: 𝐶𝑜𝑑𝑒𝑣 (𝑋; 𝑌) = 𝑖=1 𝑁 𝑥𝑖 −𝑀 𝑋 (𝑦𝑖 −𝑀 𝑌 ) Se prevalgono i prodotti tra scarti di segno uguale, la codevianza sarà positiva; se prevalgono i prodotti tra scarti di segno opposto, allora la codevianza sarà negativa. Associazione tra variabili Variabili quantitative - Covarianza Dividendo per N (la numerosità del collettivo) si ottiene la covarianza: 𝐶𝑜𝑣(𝑋, 𝑌) = σ𝑖=1 𝑁 𝑥𝑖 −𝑀 𝑋 (𝑦𝑖 −𝑀 𝑌 ) 𝑁 La codevianza è anche definita come media del prodotto degli scarti Se 𝑋 ed 𝑌 sono indipendenti allora 𝐶𝑜𝑣 (𝑋, 𝑌) = 0 Viceversa non è vero Se 𝐶𝑜𝑣 (𝑋, 𝑌) = 0 c’è assenza di dipendenza lineare fra le due variabili, ma ciò non esclude che ci sia una relazione di altro tipo Associazione tra variabili Variabili quantitative - Correlazione Si dimostra che il valore massimo per la covarianza è pari al prodotto degli scarti quadratici medi delle singole variabili (ovvero la radice quadrata del prodotto delle Varianze): max 𝐶𝑜𝑣 (𝑋, 𝑌) = 𝑉𝑎𝑟(𝑋)𝑉𝑎𝑟(𝑌) = 𝜎𝑋𝜎𝑌 Rapportando la codevianza al suo massimo si ottiene il coefficiente 𝝆 (rho dalla lettera greca) di correlazione lineare di Bravais-Pearson 𝜌 = )𝐶𝑜𝑣(𝑋, 𝑌 𝜎𝑋𝜎𝑌 𝑜𝑝𝑝𝑢𝑟𝑒 𝜌 = )𝐶𝑜𝑑𝑒𝑣(𝑋, 𝑌 )𝐷𝑒𝑣(𝑋)𝐷𝑒𝑣(𝑌 Una variabile 𝒀 è funzione di 𝑿 se ad ogni valore di X corrisponde un unico valore di Y In tal caso esiste una relazione funzionale Una relazione funzionale lineare è Es: 𝑋 lunghezza del lato di un quadrato 𝑌 area del quadrato (𝑌 = 𝑋2) 𝑌 = 𝑎 + 𝑏𝑋 𝑌 = variabile dipendente 𝑋 = variabile indipendente 𝑎 = Y-intercetta (il valore di 𝑌 quando 𝑋 è pari a zero) 𝑏 = coefficiente angolare (l’incremento di 𝑌 per un incremento unitario di 𝑋) -10 0 10 20 30 40 50 0 50 100 Associazione tra variabili Modello di Regressione lineare semplice Modello matematico Una variabile 𝒀 è funzione di 𝑿 se ad ogni valore di X corrisponde un unico valore di Y In tal caso esiste una relazione funzionale Una relazione funzionale lineare è Es: 𝑋 lunghezza del lato di un quadrato 𝑌 area del quadrato (𝑌 = 𝑋2) 𝑌 = 𝑎 + 𝑏𝑋 𝑌 = variabile dipendente 𝑋 = variabile indipendente 𝑎 = Y-intercetta (il valore di 𝑌 quando 𝑋 è pari a zero) 𝑏 = coefficiente angolare (l’incremento di 𝑌 per un incremento unitario di 𝑋) -10 0 10 20 30 40 50 0 50 100 Associazione tra variabili Modello di Regressione lineare semplice Modello matematico Negli studi empirici la relazione che lega Y e X non può mai essere una relazione matematica esatta perché ad ogni valore di X non corrisponderà mai un unico valore di Y In tal caso si parla si relazione statistica Es: 𝑋 reddito procapite 𝑌 consumi familiari 𝑌 = 𝑓(𝑋) + 𝜀 )X(f Definisce il contributo della variabile esplicativa 𝑋 al valore della variabile di risposta E’ l’errore e giustifica la differenza tra il valore di 𝑌 per un valore fissato di 𝑋 e il corrispondente valore 𝑓(𝑋) 𝜀 Associazione tra variabili Modello di Regressione lineare semplice Relazione statistica Nella regressione lineare semplice 𝑓(𝑋) è una funzione lineare ✓ La funzione di regressione che viene individuata esprime la relazione di dipendenza in media della variabile 𝑌 dalla variabile 𝑋 ✓ Il valore medio dell’errore (𝜀) è nullo Metodo dei minimi quadrati- dimostrazione Derivando rispetto a ො𝑎 e ෠𝑏 e ponendo le derivate parziali uguali a zero, otteniamo la formula 𝜕𝐺 𝜕 ො𝑎0 = −2 1=1 𝑛 (𝑦𝑖 − ො𝑎 − ෠𝑏𝑥𝑖) = 0 𝜕𝐺 𝜕෠𝑏 = −2 1=1 𝑛 (𝑦𝑖 − ො𝑎 − ෠𝑏𝑥𝑖)𝑥𝑖 = 0 ො𝑎 = Codev(𝑋, 𝑌) 𝐷𝑒𝑣(𝑋) ෠𝑏 = 𝑀 𝑌 − ෠𝑏𝑀(𝑋) 𝐺 ො𝑎, ෠𝑏 = 𝑖=1 𝑛 (𝑦𝑖 − ො𝑎 − ෠𝑏𝑥𝑖) 2 = 𝑚𝑖𝑛 Associazione tra variabili Modello di Regressione lineare semplice Metodo dei minimi quadrati- dimostrazione Associazione tra variabili Modello di Regressione lineare semplice È possibile osservare che la retta, ottenuta con il metodo dei minimi quadrati, passa per il baricentro dei dati (𝑀(𝑋);𝑀(𝑌)) che il segno di ෠𝑏 è quello della codevianza fra le due variabili Ciò significa: • se c’è concordanza tra le due variabili, ෠𝑏 sarà maggiore di zero e la pendenza della retta sarà positiva • se c’è discordanza tra le due variabili, ෠𝑏 sarà minore di zero e la pendenza della retta sarà negativa • se la codevianza è nulla, ovvero in caso di indipendenza lineare tra le variabili, ෠𝑏 sarà uguale a zero e la retta sarà parallela all’asse delle ascisse Il metodo dei minimi quadrati produce una regressione lineare anche quando non ci sia una relazione lineare tra 𝑋 ed 𝑌 E’ importante, perciò, valutare la bontà di adattamento della retta alla nuvola dei punti Coefficiente di determinazione lineare 𝑅2 = 𝐶𝑜𝑑𝑒𝑣 𝑋, 𝑌 2 )𝐷𝑒𝑣 𝑋 𝐷𝑒𝑣 (𝑌 = 𝜌2 Associazione tra variabili Modello di Regressione lineare semplice Per capire tale coefficiente bisogna ricordare che : Tutta la variabilità di Y Dalla Regressione L’errore
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved