Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Metodi statistici per la ricerca sociale (L40), Appunti di Statistica Sociale

Un sommario delle lezioni di Metodi Statistici. Vengono trattati argomenti come la probabilità, il campionamento probabilistico e non probabilistico, la variabile casuale, la stima dei parametri e la verifica delle ipotesi. Vengono inoltre introdotte tavole di distribuzione normale standardizzata e la variabile casuale T di student. Il documento può essere utile come appunti o sintesi del corso per studenti universitari di corsi di Statistica o Matematica.

Tipologia: Appunti

2019/2020

In vendita dal 28/09/2022

Tilu
Tilu 🇮🇹

4.1

(24)

39 documenti

1 / 46

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Metodi statistici per la ricerca sociale (L40) e più Appunti in PDF di Statistica Sociale solo su Docsity! METODI STATISTICI Sommario Lezione 1................................................................................................................................................................. 4 Introduzione al corso........................................................................................................................................... 4 Breve legenda...................................................................................................................................................... 5 Probabilità........................................................................................................................................................... 5 Lezione 2................................................................................................................................................................. 5 Campionamento probabilistico........................................................................................................................... 5 Campionamento casuale semplice con reinserimento....................................................................................6 Campionamento casuale semplice senza reinserimento.................................................................................6 Campionamento stratificato............................................................................................................................ 6 Campionamento a grappoli............................................................................................................................. 7 Campionamento non probabilistico.................................................................................................................... 8 Campionamento per quote............................................................................................................................. 8 Campionamento a valanga.............................................................................................................................. 8 Campionamento per unità rappresentative..................................................................................................... 8 Variabile casuale.................................................................................................................................................. 8 Variabile casuale dicotomica........................................................................................................................... 9 Variabile casuale normale................................................................................................................................ 9 Lezione 3............................................................................................................................................................... 10 Tavola di distribuzione normale standardizzata (Z)...........................................................................................10 Esercizi........................................................................................................................................................... 10 Quartili nella normale standardizzata................................................................................................................ 12 Esercizi........................................................................................................................................................... 12 Lezione 4............................................................................................................................................................... 13 Stima dei parametri........................................................................................................................................... 13 Stima puntuale.............................................................................................................................................. 14 Stima intervallare.......................................................................................................................................... 14 Lezione 5............................................................................................................................................................... 18 Stima dei parametri........................................................................................................................................... 18 Ampiezza dell’intervallo di confidenza........................................................................................................... 18 Variabile casuale T di student............................................................................................................................ 18 Tavola della distribuzione T di student.......................................................................................................... 19 Verifica delle ipotesi.......................................................................................................................................... 23 Lezione 6............................................................................................................................................................... 24 Test di verifica delle ipotesi............................................................................................................................... 24 Altri esercizi................................................................................................................................................... 28 Lezione 7............................................................................................................................................................... 29 Distribuzione normale con varianza incognita................................................................................................... 29 Verifica delle ipotesi con variabile casuale binomiale........................................................................................32 Lezione 8............................................................................................................................................................... 34 Inferenza statistica con due popolazioni............................................................................................................ 34 Confronto tra due popolazioni Bernoulliane.................................................................................................. 34 Confronto tra due variabili casuali normali.................................................................................................... 36 Lezione 9............................................................................................................................................................... 38 Inferenza statistica con due popolazioni............................................................................................................ 38 Confronto tra due variabili casuali normali.................................................................................................... 38 Analisi della varianza......................................................................................................................................... 40 Devianza tra i gruppi...................................................................................................................................... 40 Devianza all’interno di ogni gruppo............................................................................................................... 41 Test F e tavole f di Fisher............................................................................................................................... 41 Lezione 10............................................................................................................................................................. 43 Inferenza statistica con due popolazioni tra loro dipendenti.............................................................................43 Test Chi Quadrato.............................................................................................................................................. 44 Lezione 1................................................................................................................................................................. 3 Introduzione al corso........................................................................................................................................... 3 Breve legenda..................................................................................................................................................... 3 Probabilità........................................................................................................................................................... 3 Lezione 2................................................................................................................................................................. 4 Campionamento probabilistico........................................................................................................................... 4 Campionamento casuale semplice con reinserimento....................................................................................4 Campionamento casuale semplice senza reinserimento.................................................................................4 Campionamento stratificato............................................................................................................................ 5 Campionamento a grappoli............................................................................................................................. 6 Campionamento non probabilistico.................................................................................................................... 6 Campionamento per quote............................................................................................................................. 6 Campionamento a valanga.............................................................................................................................. 6 Campionamento per unità rappresentative.................................................................................................... 7 Variabile casuale................................................................................................................................................. 7 Variabile casuale dicotomica........................................................................................................................... 7 Variabile casuale normale............................................................................................................................... 7 Lezione 3................................................................................................................................................................. 8 Tavola di distribuzione normale standardizzata (Z).............................................................................................8 Esercizi............................................................................................................................................................ 8 Quartili nella normale standardizzata................................................................................................................ 10 Esercizi.......................................................................................................................................................... 11 Lezione 4............................................................................................................................................................... 12 Stima dei parametri........................................................................................................................................... 12 Breve legenda In questa parte del corso vengono trattate prevalentemente variabili quantitative continue (o discrete) e variabili dicotomiche (che possono assumere solo 2 valori) → media aritmetica e media ponderata. Indice di posizione → Valore più o meno centrale più rappresentativo di tutti i valori osservati. Indice di variabilità → Cerca di vedere quanto le variabili osservate quanto sono lontane dal valore centrale. Tra queste ci sono la varianza e lo scarto quadratico medio. Probabilità Si parla di probabilità ogni qualvolta che c’è un evento (o prova) che si deve realizzare, di cui si conoscono a priori i possibili risultati; ciò che si valuta è la probabilità associata a ciascun risultato. In particolare, si intende un numero che può variare tra 0 e 1. Se il risultato ha probabilità 0 è un risultato nullo, tutti i numeri reali compresi tra 0 e 1 sono valori possibili per la probabilità e vengono chiamati “eventi certi”. 0≥ probabilità≤1 P (E )= ncasi favorevoli ncasi possibili E = lancio del dado P (E1 )= 1 6 P (Epari )= 3 6 P (En primo )= 4 6 Prove indipendenti → La realizzazione di una prova non influenza la realizzazione di un’altra prova; la probabilità che si verifichino le prove congiuntamente è il prodotto delle prove dei singoli eventi. es. Estrazioni del superenalotto (6 14 18 20 31 90) → sono più eventi svolti contemporaneamente, in cui ogni numero ha 1/90 di probabilità di essere estratto. P (E )=( 1 90 ) 6 Prove dipendenti → Due eventi sono tale se il verificarsi dell’uno influisce sul calcolo della probabilità del verificarsi dell’altro. es. Estrazioni del lotto → sono eventi dipendenti (in realtà condizionati), in quanto alla seconda estrazione non può uscire nuovamente lo stesso numero e si modifica la probabilità di estrazione. E= estrarre 90 alla prima estrazione ed estrarre 89 alla seconda estrazione P(E)=P (E90)×P(E90)∨(E90)= 1 90 × 1 89 Lezione 2 Campionamento probabilistico Piano di campionamento → Pianificazione delle operazioni per selezionare il campione. I campioni si distinguono tra probabilistici e non probabilistici. Si definiscono probabilistici quelli per cui ad ogni estrazione è nota la probabilità di essere estratti e necessitano di una conoscenza delle unità che compongono la N → Popolazione da cui si estrae il campione n → Ampiezza del campione x=μ→ Media σ 2→ Varianza Probabilità di un evento E popolazione. Esistono diversi modi di estrarre il campione → campionamento casuale semplice con reinserimento, campionamento casuale semplice senza reinserimento, campionamento sistematico, campionamento stratificato e campionamento a grappoli. Campionamento casuale semplice con reinserimento Immaginando di voler fare una rilevazione sugli studenti di Roma Tre e di avere una popolazione N di 10 persone in un’urna e di voler estrarre 3 campioni n, vengono estratti i nominativi di Mario, Giuseppe, Luca, i cui nomi vengono rimessi nell’urna e non viene modificata la composizione dell’urna. La probabilità di estrarre ogni nome è sempre di 1/10ad ogni estrazione. La probabilità di avere la terna estratta (Mario, Giuseppe, Luca) è uguale al prodotto delle probabilità. P (Mario ,Giuseppe ,Luca )= 1 10 × 1 10 × 1 10 = 1 1000 Questo tipo di campionamento si usa solo a livello teorico, in quanto a stessa estrazione può avvenire più volte. È semplice dal punto di vista dell’attuazione, ma è poco realistico → un nominativo può uscire più volte. Campionamento casuale semplice senza reinserimento Immaginando di avere la stessa situazione di prima, si estrae il primo nominativo (Mario), ma il nominativo non viene rimesso nell’urna. Alla seconda estrazione rimangono 9 palline ed esce Giuseppe e non si reinserisce il nominativo. Alla terza estrazione rimangono 8 palline ed esce Luca. P (Mario ,Giuseppe ,Luca )= 1 10 × 1 9 × 1 8 Non si può più parlare di eventi di estrazione indipendenti, ma di eventi condizionati e cambiano le probabilità delle terne. È il campionamento più comune da utilizzare, perché formato da unità statistiche diverse. Campionamento sistematico Si deve fare sempre riferimento ad un elenco di persone N. I membri del campione non vengono estratti in maniera casuale, ma vengono estratti dalla popolazione ad intervalli fissi e periodici. Il rilevatore decide qual è la frazione di campionamento K 2 ed estrae solo la prima unità, tra 1 e K. Dopodiché si sceglie la seconda unità facendo la somma tra la prima estratta e K, la terza facendo la somma tra la seconda unità estratta e K e così via. Immaginiamo di avere un elenco di 10 persone N, di voler trovare 3 unità n e di avere il passo di campionamento K pari a 4 → ciò significa che devo far entrare nel campione una persona ogni 4 posti. Dal punto di vista probabilistico equivale al secondo metodo di campionamento, ma necessita avere una lista (es. alfabetica) di nominativi. Campionamento stratificato Si utilizza quando ci sono delle variabili strutturali (= demografiche), che possono essere importanti per la formazione del campione. Questo tipo di campionamento si rivela particolarmente utile quando gli strati, 2 Detto anche passo di campionamento, è il numero di posizioni che vengono calcolate per individuare in successione le unità campionarie che andranno a costituire il campione sistematico. Oggettivamente si calcola facendo il rapporto tra N e n, se esce un numero con la virgola si sceglie il numero immediatamente più grande/piccolo. 3. La III unità è pari a 7+4=11; avendo preso in considerazione solo 10 persone, si estrae il numero 1 2. Si sceglie la II unità facendo 3+4=7, perciò, si estrae il numero 7 1. Si estrae un numero tra 1 e K, esce 3. Il primo campione parte dall’unità numero 3 N n A #3 B C #1 D E F G #2 H I L all'interno della popolazione, sono di numerosità molto diversa; stratificando la popolazione è possibile ottenere una adeguata copertura degli strati meno numerosi. La popolazione si divide in tante sub popolazioni N 3 → N1 ,N 2 ,…, N k. Da ciascuno strato si estrae un campione n1 , n2 ,… ,nk. Ai fini della stima, vergono poi riuniti i diversi campione per ottenere il campione globale. n=n1+n2+…+nk Immaginiamo di fare un’indagine che riguarda gli studenti iscritti al dipartimento di scienze della formazione. Il dipartimento ha come sub popolazioni i vari di corsi di laurea, tra cui lo strato di EDUnido, lo strato di SDF, lo strato di SERSS, etc... Per la selezione del campione si può scegliere un’allocazione non proporzionale allo strato, prendendo (in questo caso) 50 unità da ogni CDL, non dando alcun peso (numerosità) allo strato. Per estrarre le unità si utilizza un campionamento casuale semplice senza reinserimento o un campionamento sistematico. Strati N i ni EDUnido 500 50 EDUform 350 50 SFP 300 50 SED 250 50 SERSS 200 50 Tot 1600 250 Alternativamente si può scegliere di eseguire un’allocazione proporzionale allo strato, in cui si vede qual è il peso di ciascuno strato, calcolando la frequenza percentuale. Strati N i Pi ni ≌ EDUnido 500 31,25 78,12 78 EDUform 350 21,88 54,70 55 SFP 300 18,75 46,88 47 SED 250 15,62 39,05 39 SERSS 200 12,50 31,25 31 Tot 1600 100,00 250,00 250 Una volta calcolate le frequenze percentuali, si calcola la % di ogni CDL sul campione da estrarre (n = 250). Il problema che sorge riguarda i numeri decimali, perciò si fanno delle approssimazioni, che devono sempre dare come risultato il numero totale del campione. Si può stratificare ulteriormente ogni sub popolazione (es. di ogni CDL si può stratificare per genere e poi città di residenza). In generale, facendo riferimento alle stratificazioni al primo stadio, gli strati sono omogenei al loro interno ed eterogenei tra loro. Campionamento a grappoli Si applica quando si hanno poche informazioni sia sulla lista di persone, che sulle variabili strutturali. es. In una mappa di un quartiere di Roma, ci sono 12 stabili N. Non conosco le persone che abitano nei condomini, perché non ho la lista di chi ci abita. Quindi, estraendo il #3, prendo tutte le persone che abitano nei 3 Dette anche strati. 250× 18,75 100 =46,88 500 1600 ×100=31,25 Lezione 3 Tavola di distribuzione normale standardizzata (Z) La tavola di distribuzione normale standardizzata riporta l’area sottesa alla campana (che rappresenta la probabilità), a partire dall’ascissa 0 fino ad arrivare a +∞. Più ci si allontana dallo 0, più l’area si riduce. Nella tabella le ascisse sono tutte positive, in quanto la campana di Gauss è simmetrica. N.B. Quando si vuole trovare l’area che va verso -∞ le ascisse possono essere negative, ma le probabilità restano positive. La prima colonna indica la prima cifra decimale del valore Z da cui si vuole calcolare l’area, la prima riga indica la seconda cifra decimale. All’interno della tabella, nella casella corrispondente al valore Z, dato dall’incrocio tra la prima colonna e la prima riga, si trova il valore dell’area tra il valore Z e +∞. Esercizi X N (10,4 ) μ=10 σ 2 =4 P (X>12,5 ) P=( X−μ σ > 12,5−10 2 )=P(Z>1,25)→0,10565 –––––––––––––––––––––––––––––––––––––––––––––––––––– P (X<11,3 ) P=( X−μ σ < 11,3−10 2 )=P (Z<0,65 )→0,25785→1−0,25785=0,74215 ––––––––––––––––––––––––––––––––––––––––––––––––––––– P(X<7,7) P=( X−μ σ < 7,7−10 2 )=P (Z←1,15 )→0,12507 ––––––––––––––––––––––––––––––––––––––––––––––––––––– P(X>5,9) 1,25010 12,5 0,65011,310 107,7 0-1,15 P=( X−μ σ > 5,9−10 2 )=P (Z>−2,05 )→1−0,02018=0,97982 –––––––––––––––––––––––––––––––––––––––––––––––––––– P (10,7≤X ≥11,5 )=P(0,35≤ Z≥0,75) A0,35=0,36317 A0,75=0,22663 P (0,35≤X ≥0,75 )=0,36317−0,22663 –––––––––––––––––––––––––––––––––––––––––––––––––––– P (6,7<X<9,1 )=P(−1,65<Z←0,45) A1,65=0,04947 A0,45=0,32636 P (−1,65<Z←0,45 )=0,32636−0,04947=0,27689 –––––––––––––––––––––––––––––––––––––––––––––––––––– P (8,5≤X ≤11,7 )=P (−0,75≤ X≤0,85) A0,75=0,22663 A0,85=0,19766 P (−1,65<Z←0,45 )=1−(0,22663+0,19766) –––––––––––––––––––––––––––––––––––––––––––––––––––– Le tavole possono essere lette anche al contrario, ossia consultando le tavole per vedere quale sia il valore associato all’area (già nota). P (Z>z )=0,025 z=? -2,055,9 010 0,3510,7 10 11,5 0 0,75 -0,459,1 0-1,65106,7 0,85 -0,7511,78,5 10 0 0 1,95 z= 1,95 –––––––––––––––––––––––––––––––––––––––––––––––––––– P (Z<z )=0,88 z=? z=1−0,88=0,12→1,17/1,18 –––––––––––––––––––––––––––––––––––––––––––––––––––– P (Z>z )=0,75 z=1−0,75=0,25→−0,67 –––––––––––––––––––––––––––––––––––––––––––––––––––– P (Z<z )=0,15 z=−1,03 Quartili nella normale standardizzata q1 è un valore tale che l’area tra -∞ e q1 è 0,25; sarà sempre negativo. q3 È un valore tale che l’area q3 e +∞ è 0,25; sarà sempre positivo. Se non si standardizza e quindi si ha X N (μ ,σ2 ), con parametri μ=10 e σ 2 =4, quanto valgono i quartili 1, 3? Esercizi P(μ−σ<X<μ+σ ) P( μ−σ−μ σ <Z< μ+σ−μ σ )=P (−1<Z<1 )=1−(0,15866+0,15866)=0,68268 –––––––––––––––––––––––––––––––––––––––––––––––––––– 1,170 -0,67 0 -1,03 0 q3 z = q3 x −10 2 =0,67 q3 x =0,67×2+10=11,34 q1 z = q1 x −10 2 =−0,67 q1 x =(−0,67)×2+10=8,66 0 1 0 -1μ μ+σμ-σ Dalla popolazione Normale estraggo un campione, che è formato da tante variabili casuali Normali. So che la media è incognita e un modo per stimarla è quello di calcolare la media aritmetica. X= ∑ X i n N (μ , σ 2 n ) In statistica, si dimostra che anche la media ha una distribuzione N con media μ e varianza σ2/n. Poiché è una variabile casuale normale, posso fare anche la standardizzazione. Z= X−μ σ /√n N (0 ,1) Di questa normale standardizzata sappiamo che posso trovare delle probabilità e posso fare il ragionamento inverso a quello che abbiamo fatto finora → trovare le due ascisse (opposte) avendo prefissato un certo valore di alfa. Se entrambe le code hanno area α 2 , l’area tra −Z α 2 e Z α 2 è 1-α. P(Z α 2 ≤ x−μ σ /√n ≤Z α 2 )=1−α Si possono moltiplicare i termini della precedente disuguaglianza per σ /√n, poi sottraggo da tutti i termini x. Dalla stima puntuale si ottiene, così, un intervallo 10 in cui è contenuto il parametro incognito con il segno negativo. Per avere il parametro incognito con segno positivo, bisogna moltiplicare per -1. P[−Z α 2 σ √n ≤x−μ≤Z α 2 σ √n ]=1−α P[−x−Z α 2 σ √n ≤−μ≤−x+Z α 2 σ √n ]=1−α P[ x−Z α 2 σ √n ≤μ≤ x+Z α 2 σ √n ]=1−α Intervallo di confidenza → Si intende un intervallo delimitato da due limiti (inferiore e superiore), che abbia una definita probabilità (1- α) di contenere il vero parametro della popolazione. Il valore di α viene definito da noi in base al rischio che siamo disposti a correre. In termini teorici, si possono costruire infiniti intervalli di confidenza in una determinata popolazione, perché si hanno infiniti campioni. X N (μ ,σ2 ) σ 2 =16 n=25 x=18 α=0,05 10 Estremo inferiore ciò che sta prima del 1° ≤, estremo superiore ciò che sta dopo il secondo ≤. sqm 1−α Z α 2 è l’ascissa y calcolata in corrispondenza della probabilità Le code hanno un’ampiezza pari ad α/2 Per sapere il valore di Z α 2 bisogna prendere le tavole della normale standardizzata. Data la probabilità dello 0,025, le ascisse valgono 1,96 e -1,96. P[ x−Z α 2 σ √n ≤μ≤ x+Z α 2 σ √n ]=1−α P[18−1,96 4 √25 ≤ μ≤18+1,96 4 √25 ]=0,95 P [18−1,96×0,8≤ μ≤18+1,96×0,8 ]=0,95 P [18−1,56≤μ≤18+1,56 ]=0,95 P [16,44 ≤μ≤19,56 ]=0,95 –––––––––––––––––––––––––––––––––––––––––––––––––––– Nel caso il rischio fosse troppo elevato, si prende un valore di alfa più piccolo. Con un rischio minore, l’intervallo di confidenza aumenta (comprende più valori). X N (μ ,σ2 ) σ 2 =16 n=25 x=18 α=0,01 Z α 2 =2,57 P [18−2,57×0,8≤ μ≤18+2,57×0,8 ]=0,99 P [18−2,06≤μ≤18+2,06 ]=0,99 P [15,94 ≤μ≤20,06 ]=0,99 Alfa → Livello di significatività. –––––––––––––––––––––––––––––––––––––––––––––––––––– X N (μ ,σ2 ) σ 2 =16 n=25 x=18 α=0,10 Z α 2 =1,64 P [18−1,64×0,8≤ μ≤18+1,64 ×0,8 ]=0,90 Non si può sapere se il parametro è effettivamente 18, o è più grande/più piccolo; perciò, si costruisce una stima intervallare. In questo caso siamo disposti a rischiare il 5% su questa stima (si prendono sempre valori molto piccoli). α /2=0,025 α /2=0,005 P [18−1,31≤μ≤18+1,31 ]=0,90 P [16,69≤ μ≤19,31 ]=0,90 –––––––––––––––––––––––––––––––––––––––––––––––––––– X N (μ ,σ2 ) σ 2 =16 n=100 x=18 α=0,05 Z α 2 =1,96 P[18−1,96 4 √100 ≤μ≤18+1,96 4 √100 ]=0,95 P[18−1,96 4 10 ≤ μ≤18+1,96 4 10 ]=0,95 P [18−1,96×0,4 ≤μ≤18+1,96×0,4 ]=0,95 P [18−0,78≤μ≤18+0,78 ]=0,95 P [17,22≤μ≤18,78 ]=0,95 Con un campione maggiore e lo stesso livello di significatività, l’intervallo diminuisce, perché si hanno più informazioni e la precisione della stima migliora. C’è meno variabilità delle stime. –––––––––––––––––––––––––––––––––––––––––––––––––––– X N (μ ,σ2 ) σ 2 =36 n=25 x=18 α=0,05 Z α 2 =1,96 P[18−1,96 6 √25 ≤ μ≤18+1,96 6 25 ]=0,95 P[18−1,96 6 5 ≤μ≤18+1,96 6 5 ]=0,95 P [18−1,96×1,2≤μ≤18+1,96×1,2 ]=0,95 P [18−2,35≤μ≤18+2,35 ]=0,95 P [15,65≤ μ≤20,35 ]=0,95 Se nella popolazione c’è una maggiore variabilità, questa si riflette anche nelle stime e l’intervallo di confidenza risulta più ampio. α /2=0,025 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=25 x=10 σ̂ 2 =3,6 α=0,05 P=[10−2,769× 1,9 5 ≤ μ≤10+2,7969× 1,9 5 ]=0,95 P= [8,94 ≤μ≤11,06 ]=0,95 L=11,06−8,94=2,12 –––––––––––––––––––––––––––––––––––––––––––––––––––– A partire da una certa ampiezza campionaria, ossia quando i gradi di libertà tendono a più infinito n→+∞, i valori della T di student sono esattamente uguali a quelli della normale standardizzata. n=250 x=10 σ̂ 2 =3,6 α=0,05 P=[10−2,5763× 1,9 √250 ≤ μ≤10+2,5763× 1,9 √250 ]=0,95 P=[10−2,58× 1,9 15,8 ≤ μ≤10+2,58× 1,9 15,8 ]=0,95 P=[ x−z α 2 σ̂ √n ≤μ≤ x+ z α 2 σ̂ √n ]=1−α Altri esercizi Il contenuto di sapone liquido nelle confezioni da 250 ml (parametro), prodotte da un’azienda, ha una distribuzione normale con scarto quadratico medio 5 ml (parametro). In un campione di 12 confezioni, la media campionaria è risultata 247,3 ml (stima). Costruire un intervallo di confidenza per il contenuto medio di sapone liquido, al livello del 90%. n=12 μ̂=247,3 σ=5 α=0,10 P=[247,3−1,64× 5 √12 ≤ μ≤247,3+1,64× 5 √12 ]=0,90 P= [247,3−2,36≤μ≤247,3+2,36 ]=0,90 P= [244,64≤ μ≤249,36 ]=0,90 –––––––––––––––––––––––––––––––––––––––––––––––––––– Il fatturato mensile dei punti vendita di una catena di negozi di abbigliamento ha una distribuzione normale. In un campione di 20 punti vendita, la media campionaria del fatturato risulta 35 mila euro (stima) e lo scarto quadratico medio risulta 4.3 migliaia di euro (stima). Costruire un intervallo di confidenza per il fatturato medio dei punti vendita al livello del 95%. n=20 μ̂=35 σ̂=4,3 α=0,05 P=[35−2,09× 4,3 √20 ≤ μ≤3 5+2,09× 4,3 √20 ]=0,95 P= [35−2,09×0,97≤μ≤35+2,09×0,97 ]=0,95 P= [35−2,02≤ μ≤35+2,02 ]=0,95 P= [35−32,98≤μ≤37,02 ]=0,95 –––––––––––––––––––––––––––––––––––––––––––––––––––– L’ascissa viene calcolata su α=0,025, perché è α 2 I tempi di assemblaggio in una catena di montaggio hanno una distribuzione normale. In un campione di 14 osservazioni, la media campionaria è risultata 12.6 secondi e lo scarto quadratico medio è risultato 2.3 secondi. Costruire un intervallo di confidenza per il tempo medio di assemblaggio al livello del 99%. n=14 μ̂=12,6 σ̂=2,3 α=0,01 P=[12,6−3,01× 2,3 √14 ≤ μ≤12,6+3,01× 2,3 √14 ]=0,99 –––––––––––––––––––––––––––––––––––––––––––––––––––– Il contenuto di nicotina, in una particolare marca di sigarette, ha una distribuzione normale. In un campione di 18 sigarette, ha una distribuzione normale. In un campione di 18 sigarette, la media campionaria risulta 3,7 ml e lo scarto quadratico medio risulta 0,6 ml. Costruire un intervallo di confidenza al 90% per il contenuto di nicotina. n=18 μ̂=3,7 σ̂=0,6 α=0,10 P=[3,7−1,73× 0,6 √18 ≤ μ≤3,7+1,73× 0,6 √18 ]=0,90 –––––––––––––––––––––––––––––––––––––––––––––––––––– Intervallo di confidenza con variabile dicotomica X Bern(π) π̂= ∑ x i n n→∞ P=[ π̂−z α 2 √ π̂ (1− π̂ ) n ≤ π ≤ π̂+z α 2 √ π̂ (1− π̂ ) n ]=1−α –––––––––––––––––––––––––––––––––––––––––––––––––––– Si sperimenta un nuovo farmaco per l’emicrania. In un campione di 250 pazienti, 178 hanno dichiarato che il farmaco è efficace. Costruire un intervallo di confidenza per la proporzione della popolazione per la quale il farmaco è efficace, al livello del 95%. n=¿250 ∑ x i=178 α=0,05 α 2 =0,025 z α 2 =1,96 π̂= 178 250 =0,71 P=[0,71−1,96√ 0,71 (1−0,71 ) 250 ≤π ≤0,71+1,96√ 0,71 (1−0,71 ) 250 ]=0,95 P=[0,71−1,96√ 0,71×0,29 250 ≤π ≤0,71+1,96√ 0,71×0,29 250 ]=0,95 P=[0,71−1,96√ 0,20 250 ≤π ≤0,71+1,96√ 0,20 250 ]=0,95 P= [0,71−1,96√0,0008≤ π≤0,71+1,96√0,0008 ]=0,95 P= [0,71−1,96×0,03≤π ≤0,71+1,96×0,03 ]=0,95 P= [0,71−0,05≤π ≤0,71+0,05 ]=0,95 P= [0,66≤ π≤0,76 ]=0,95 –––––––––––––––––––––––––––––––––––––––––––––––––––– Poiché si tratta di variabili dicotomiche, in genere si costruisce l’intervallo di confidenza per la modalità che interessa (in questo caso l’efficacia del farmaco), ma si può costruire un intervallo di confidenza per l’altra modalità (in questo caso persone sui il farmaco è inefficace). 250−178=72 π̂= 72 250 =0,29 P=[0,29−1,96√ 0,29 (1−0,29 ) 250 ≤ π≤0,29+1,96√ 0,29 (1−0,29 ) 250 ]=0,95 P=[0,29−1,96√ 0,29 (0,71 ) 250 ≤π ≤0,29+1,96√ 0,29 (0,71 ) 250 ]=0,95 P= [0,29−0,05≤π ≤0,29+0,05 ]=0,95 P= [0,24−0,05≤π ≤0,34 ]=0,95 L=2 z α 2 √ π̂ (1− π̂ ) n Questa formula, nel piano di campionamento si utilizza mettendosi nella “situazione peggiore”, ossia quella in cui π̂=0,5=max che può raggiungere. Si utilizza per trovare n ,partendo dalla lunghezza e da un π̂ stimato a 0,5. L=2 z α 2 √ 0,5 (0,5 ) n → L=2 z α 2 0,5×0,5 √n → n=[ 2 z α 2 0,5×0,5 L ] 2 –––––––––––––––––––––––––––––––––––––––––––––––––––– L=0,04 n=[ 2×1,96×0,5×0,5 00,4 ] 2 =600,25≅ 601 Un altro modo è utilizzare i dati del campionamento pilota, che danno come risultato 0,71 e 0,29, per poi estendere il campionamento e trovare l’ampiezza campionaria ottimale. n=[ 2×1,96×0,71×0,29 00,4 ] 2 =407,15≅ 408 –––––––––––––––––––––––––––––––––––––––––––––––––––– Una catena di tavole calde vuole verificare qual è la percentuale di clienti che sono rimasti soddisfatti dalla qualità del cibo. In un campione di 500 clienti, 425 si dichiarano soddisfatti. Costruire un intervallo di confidenza per la proporzione dei clienti che sono soddisfatti, al livello del 98%. n=500∑ x i=425 α=0,02 α 2 =0,01 π̂= 425 500 =0,85 P=[0,85−2,33√ 0,85×0,15 500 ≤ π≤0,85+2,33√ 0,85×0,15 500 =0,98] {H 0: μ≤ μ0 H 1 : μ>μ0 x=10 σ=2 α=0,05 zα=1,64 {H 0: μ=7,5 H 1: μ>7,5 z= x−μ0 σ /√n = 10−7,5 2/√25 =6,25 z>zα⟹ RifiutoH 0 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=16 x=4 σ=1,5 α=0,05 zα=−1,64 {H0: μ=4 H 1: μ<4 z= 3,8−4 1,5/√16 =−0,54 z>−zα⟹ AccettoH 0 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=36 x=12,8 σ=3,1 α=0,05 ± zα=−1,96 {H0: μ=10 H1 : μ≠10 z= 12,8−10 3,1/√36 =5,38 z>z α 2 ⟹ RifiutoH0 –––––––––––––––––––––––––––––––––––––––––––––––––––– I rendimenti dei fondi obbligazionari, appartenenti ad una particolare categoria morningstar, hanno una distribuzione normale con sqm 2,9. Un esperto del mercato finanziario afferma che i rendimenti di tali titoli sono almeno pari a 4,2. In un campione di 22 fondi, il rendimento medio è pari a 4,05. Sottoporre a test l’affermazione dell’esperto al livello di significatività del 5%. H 1H 0 Ad un livello di significatività pari ad alfa, diciamo che la media è aumentata μzαμ0 α H1 H 0 −zαμ μ0 α H 0 H 1H1 z α 2 −z α 2 α 2 α 2 μ0 H 0H 1 n=22 x=4,05 σ=2,9 α=0,05 z¿−1,64 {H 0: μ≥4,2 H 1 : μ<4,2 z= 4,05−4,2 2,9/√22 =−0,24 z>−zα⟹ AccettoH 0, i rendimenti dei fondi obbligazionari, appartenenti ad una particolare categoria morningstar hanno un rendimento almeno pari a 4,2. –––––––––––––––––––––––––––––––––––––––––––––––––––– Una macchina riempie le scatole con una quantità di pasta X e ha una distribuzione normale. La media è pari a 500g di pasta in ogni confezione. In un campione di 100 pacchi di pasta, la media è risultata di 497,98. Sapendo che lo sqm è 2,87, verificare che l’ipotesi nulla che {H 0: μ=500 H 1 : μ≠500 . n=100 x=497,98 σ=2,87 α=0,01 α 2 =0,005 ± z α 2 =−2,57 {H 0: μ=500 H 1 : μ≠500 z= 497,98−500 2,87 /√100 =−6,96 z<−z α 2 ⟹ RifiutoH0, poiché il contenuto dei pacchi di pasta non è 500g come programmato. −z α 2 < x−μ0 σ /√n <z α 2 Analizzando ulteriormente il risultato del test in cui H1 è bidirezionale, si dimostra che c’è un rapporto molto stretto tra stima intervallare e la verifica delle ipotesi con H1 bidirezionale → le due tecniche di inferenza sono simili e perciò, equivalenti. Dunque, quando si ha un sistema d’ipotesi, si può verificare in 2 modi: Riprendendo l’esercizio precedente: α −zαμ μ0 H 0 H 1H 1 α 2 α 2 z α 2 −z α 2 μ0 Con un test statistico Con un intervallo di confidenza P[497,98−2,57 2,87 √100 <μ<497,98+2,57 2,87 √100 ]=0,01 P [ 497,25<μ<498,71 ]=0,01 μ≠500⟹ RifiutoH0 –––––––––––––––––––––––––––––––––––––––––––––––––––– Possiamo anche procedere anche senza prefissare alfa, stimandolo → calcolando l’area tra il valore del test e +∞; questa probabilità si chiama P-value 12. α̂→0⟹Rifiuto H0 α̂→1⟹ Accetto H0 Dobbiamo stare attenti a come si calcola il P-value nei vari sistemi d’ipotesi: {H0: μ≥4,2 H1 : μ<4,2 z=−0,24 α̂=P (Z←0,24 )=0,40 –––––––––––––––––––––––––––––––––––––––––––––––––––– {H 0: μ=500 H 1 : μ≠500 z=−6,96 α̂=2 P (Z←6,96 )→0 –––––––––––––––––––––––––––––––––––––––––––––––––––– z=0,58 α̂=2 P (Z>0,58 )=2×0,28096=0,56192 –––––––––––––––––––––––––––––––––––––––––––––––––––– z=−1,14 α̂=2 P (Z←1,14 )=2×0,1271 4=0,25428 12 O alfa stimato, o valore P. H 0H 0 H 1 H1 Nel caso in cui , quella che si considera è l’area nella coda destra, perciò . Nel caso in cui , quella che si considera è l’area nella coda sinistra, perciò . Nel caso in cui , se , il valore del P-value sarà . Nel caso in cui , se , il valore del P-value sarà . Il P-value tende a 0, poiché non è possibile trovare un’ascissa che vada oltre il 4. 0,025< α̂<0,01 14 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=15 t=1,6 0,1<α̂<0,05 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=19 t=−2,55 α̂=1−0,01 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=25 t=−0,6 α̂<1−0,25 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=33 t=−2,2 1−0,025< α̂<1−0,01 –––––––––––––––––––––––––––––––––––––––––––––––––––– n=150 t=2,1 α=0,01 {H 0: μ=μ0 H 1: μ>μ0 t α=2,32 –––––––––––––––––––––––––––––––––––––––––––––––––––– {H 0: μ=μ0 H 1: μ<μ0 α=0,01 t← tα →RH 0 t>−t α→AH0 α̂=P(T <t ) –––––––––––––––––––––––––––––––––––––––––––––––––––– Un produttore di cartucce per stampanti a getto di inchiostro afferma che con una cartuccia a colori è possibile stampare almeno 500 pagine. Si assume che la distribuzione del numero di pagine stampate sia approssimativamente normale. In un campione di 14 cartucce, il numero medio di pagine stampate risulta 479,3 con uno sqm pari a 18,7. Sottoporre a test, a livello di significatività del 10%, l’affermazione del produttore. {H 0: μ≥ μ0 H 1 : μ<μ0 n=14 x=479,3 σ̂=18,7 α=0,10 14 Sulle tavole di T student, bisogna cercare il valore prodotto dal test t sulla riga di n-1, se non c’è, il P value è compreso nel range dei valori immediatamente prima e dopo. Anche in questo caso se il campione è molto grande, non c’è differenza tra le tavole t di student e quella della normale standardizzata H 0H 1 α −t α H 0H 1 H 0H 1 t= 479,3−500 18,7/√14 =−4,15 t α=−1,3502 t← tα →RH 0, l’affermazione del produttore non è corretta, perché non si può affermare che una cartuccia del produttore possa stampare 500 pagine, con un livello di significatività del 10%. α̂=P(T <t ) α̂=P<0,005 –––––––––––––––––––––––––––––––––––––––––––––––––––– {H 0: μ=μ0 H 1 : μ≠μ0 −t α 2 < t<t α 2 →A H 0 t<−t α 2 , t ¿ t α 2 →RH0 –––––––––––––––––––––––––––––––––––––––––––––––––––– Un’azienda produce salatini per aperitivi. Sulla confezione è indicato un peso netto pari a 200g. Si assume che il peso netto medio abbia una distribuzione normale. In un campione di 18 confezioni, il peso netto risulta 197,3g e lo sqm risulta 7,9. Sottoporre a test, al livello di significatività del 5%, l’ipotesi che quanto affermato sulla confezione sia vero verso un’ipotesi alternativa in base alla quale il peso netto medio è inferiore a quanto dichiarato. {H 0: μ=200 H 1 : μ≠200 n=18 x=197,3 α̂=7,9 α=0,05 α 2 =0,025 t= 197,3−200 7,9/√18 =−1,45 ± t α 2 =±2,1098 −t α 2 < t<t α 2 →A H 0, perché il valore di t è compreso tra −t α 2 e t α 2 . α −t α H 1H 0H 1 −α 2 α 2 t α 2 −t α 2 H 1 H 0 H 1 −α 2 α 2 t α 2 −t α 2 P[197,3−2,11 7,9 √18 ≤μ≤197,3+2,11 7,9 √18 ]=0,95 P [193,37≤ μ≤201,23 ]=0,95 α̂=2 P(T← t) 0,1<α̂<0,2 Verifica delle ipotesi con variabile casuale binomiale Nella variabile Bernoulliana i sistemi di ipotesi non cambiano, si sostituisce solamente la media con il π. {H 0: π=π 0 H 1: π>π0 {H0: π=π 0 H 1: π<π0 {H 0: π=π 0 H 1 : π≠ π0 Anche nel test bisogna sostituire dei valori con il π: z= π̂−π0 √ π0(1−π 0) n Per quanto riguarda le regole di decisione, anch’esse non mutano. Stessa cosa per il P-value. Un dirigente di azienda che eroga servizi di pubblica utilità, con uffici dislocati su tutto il territorio nazionale, afferma che almeno il 90% degli uffici aperti al pubblico sono attrezzati per l’accesso delle persone disabili. In un campione di 230 uffici, 202 risultano attrezzati per l’accesso delle persone disabili. Verificare, al livello di significatività del 5%, l’affermazione del dirigente. {H0: π ≥0,90 H1 : π<0,90 n=230∑ x i=202 α=0,05 π̂= 202 230 =0,88 z= π̂−π0 √ π0(1−π 0) n = 0,88−0,90 √ 0,90(1−0,90) 230 =−1,17 zα=−1,64 Z>−zα→AH 0 α̂=(Z←1,17 )=0,121 –––––––––––––––––––––––––––––––––––––––––––––––––––– Un’azienda farmaceutica sostiene che un farmaco provoca effetti collaterali indesiderati in non oltre il 3% dei casi. In un campione di 380 pazienti, cui è stato somministrato il farmaco, 18 pazienti hanno subito effetti collaterali. Verificare, al livello di significatività dell’1%, l’affermazione dell’azienda farmaceutica. I valori ottenuti sono il doppio di 0,05 e 0,1 ; ; π̂= 15+12 200+100 = 27 300 =0,09 z= 0,075−0,12 √0,09(1−0,09)( 1 200 + 1 100 ) =−1,2838 −zα=−1,64 z>−zα→A H 0, poiché non vi è alcuna evidenza empirica che la macchina A produca pezzi meno difettosi della macchina B. α̂=P (Z<z )=0,10027 –––––––––––––––––––––––––––––––––––––––––––––––––––– Un ufficio studi di una certa assicurazione ha constatato che nella località A dove conta 25 automobili assicurate, vi sono stati 5 furti d’auto. Nella località B, a fronte di 45 auto assicurate, si sono verificati 8 furti di auto. L’ufficio studi può concludere che le due località siano ugualmente pericolose? In caso contrario, qual è la più pericolosa? n=25 ∑ x i=5 α=0,05 m=45 ∑ y j=8 {H0: π1−π2=0 H1 : π1−π2≠0 π̂1= 5 25 =0,2 π̂2= 8 45 =0,1178 π̂= 5+8 25+45 = 13 70 =0,1857 z= 0,2−0,1178 √0,1857(1−0,1857)( 1 25 + 1 45 ) =0,23 z α 2 =±1,96 −z α 2 < z<z α 2 →AH0, le due località sono ugualmente pericolose. α̂=2 P (Z>z )=0,81 P[ π̂1− π̂2−z α 2 √ π̂ (1− π̂ )( 1 n + 1 m )≤ π̂1− π̂2≤ π̂1− π̂2+z α 2 √ π̂ (1− π̂ )( 1 n + 1 m )]=1−α P[0,2−0,1178−1,96 √0,1857 (1−0,1857 )( 1 25 + 1 45 )≤ π̂1− π̂2≤…]=0,95 P [−0,10≤ π̂1− π̂2≤0,26 ]=0,95 Se avessimo dimostrato che c’è una maggiore pericolosità nella località A, gli estremi dell’intervallo di confidenza sarebbero stati entrambi positivi, in quanto π̂1 è maggiore di π̂2. Sarebbero stati entrambi negativi, se fosse risultato il contrario. –––––––––––––––––––––––––––––––––––––––––––––––––––– Un campione di 300 votanti nella regione A e i 200 nella regione B, ha mostrato che rispettivamente il 56% e il 48% è favorevole ad un certo candidato. Ad un livello di significatività dell’1%, dimostrare che il candidato è preferito nella regione A. n=300 π̂1=0,56 α=0,01 m=200 π̂2=0,48 {H0: π1−π2=0 H 1: π1−π2>0 π̂= 300×0,56+200×0,48 500 =0,528 z= 0,56−0,48 √0,528(1−0,528)( 1 300 + 1 200 ) =1,755 zα=2,32 z<zα→AH 0 α̂=P (Z>z )=0,04006 –––––––––––––––––––––––––––––––––––––––––––––––––––– Un campione di 300 votanti nella regione A e i 200 nella regione B, ha mostrato che rispettivamente il 56% e il 48% è favorevole ad un certo candidato. Ad un livello di significatività dell’1%, dimostrare che il candidato è preferito nella regione A, con uno scarto del 10%. n=300 π̂1=0,56 α=0,01 m=200 π̂2=0,48 {H0: π1−π2=δ0 H 1: π1−π2>δ0 {H 0: π1−π2=0,10 H 1: π1−π2>0,10 π̂= 300×0,56+200×0,48 500 =0,528 z= 0,56−0,48−0,10 √0,528(1−0,528)( 1 300 + 1 200 ) =−1 zα=2,32 z<zα→AH 0, poiché il candidato è preferito nella regione A con uno scarto del 10%. Confronto tra due variabili casuali normali Come nel confronto precedente, i sistemi possono essere scritti in due modi, il primo rappresenta il caso più semplice; il secondo rappresenta il caso più “complesso”, con più informazioni: {H 0: μx=μ y H 1: μx>μy {H 0: μx=μ y H 1: μx<μy {H 0: μx=μ y H 1 : μx ≠μ y {H 0: μx−μ y=δ 0 H1: μx−μ y>δ0 {H 0: μx−μ y=δ 0 H1: μx−μ y<δ0 {H 0: μx−μ y=δ 0 H 1 : μx−μ y≠δ 0 Ci sono delle ulteriori complicazioni date dalle situazioni in cui ci si trova con la varianza, che presenta 4 casi: Varianze note Sia nel caso in cui le varianze sono uguali, sia nel caso le varianze sono diverse 15, la formula del test z non cambia. Le regole di decisione sono sempre le stesse. La struttura della stima intervallare è molto simile a quelle del confronto tra due popolazioni dicotomiche. X N (μx , σ x 2 ) Y (μ y , σ y 2 ) z= x− y−δ0 √ σ x 2 n + σ y 2 m P[ x− y− zα 2 √ σ x 2 n + σ y 2 m ≤x− y≤ x− y+z α 2 √ σ x 2 n + σ y 2 m ]=1−α Ci sono due supermercati A e B, vogliamo confrontare per loro le vendite medie giornaliere. Uno studio precedente afferma che i due supermercati incassano in media la stessa somma. Sappiamo che la varianza delle vendite per il primo supermercato è di 3600€, mentre la varianza del secondo è di 3900€. Sono stati estratti due campioni, relativamente a 90 incassi e 30 incassi e abbiamo ottenuto una vendita media pari a 500€ e 600€ giornaliera. Vogliamo verificare che i dati ottenuti dallo studio precedente siano ancora validi, utilizzando un livello di significatività del 10%. {H 0: μx−μ y=0 H 1 : μx−μ y≠0 σ x 2 =3600 n=90 x=500 α=0,10 σ y 2 =3900 m=30 y=600 z= 500−600 √ 3600 90 + 3900 30 =−7,67 z α 2 =±1,64 Z<z→RH 0, in media i risultati non hanno lo stesso incasso. α̂=2 P (Z<z )=tende a0 15 Se le varianze sono uguali si definiscono omoschedastiche; al contrario, si definiscono eteroschedastiche. Varianze note Uguali Diverse Varianze incognite Uguali Diverse Lo 0 non è compreso nell’intervallo di confidenza, poiché abbiamo rifiutato l’ipotesi nulla. Il supermercato che guadagna di più è il secondo. ± t α, 4=±2,7764 −t α ,4<t<t α ,4→AH 0, poiché le due terapie non presentano differenze. P[20−40−2,7764√87,50( 1 3 + 1 3 )≤ x− y≤20−40+2,7764 √87,50 (1 3 + 1 3 )]=0,95 P [−41,05≤x− y≤1,05 ]=0,95 Analisi della varianza L’analisi della varianza 17 è un insieme di tecniche statistiche, facenti parte della statistica inferenziale, usata per confrontare le varianze tra le medie (o la media) di gruppi diversi. Come abbiamo visto nel testo precedente, è molto frequente negli esperimenti. Ad esempio, per studiare l'efficacia di diversi farmaci per il diabete, gli scienziati realizzano progetti per esplorare il rapporto tra il tipo di farmaco e il livello di zucchero che risulta essere presente nel sangue. La popolazione è un insieme di persone; la dividiamo in più gruppi k e ogni gruppo riceve una particolare medicina per un periodo di sperimentazione. Alla fine del periodo di sperimentazione, i livelli di glicemia vengono misurati per ogni singolo partecipante. Poi, per ogni gruppo, viene calcolato il livello medio di glicemia. L’analisi della varianza aiuta a confrontare queste medie di gruppo per scoprire se sono statisticamente diverse o se sono simili. L’ipotesi nulla è che le popolazioni sono normali, hanno la stessa varianza e sono tra loro indipendenti. Quello che si vuole verificare è se le medie sono tutte uguali, contro l’ipotesi alternativa per cui almeno una è differente dalle altre. {H 0: μx=μ y=…=μk H 1 :almeno1è≠ Devianza tra i gruppi Un motivo di variabilità è dovuto ad una differenza in media tra i gruppi, che viene indicata con Dev(Tra). Abbiamo degli studenti che sono stati inseriti in 3 attività extrascolastiche diverse: cinema, sport e feste. È stato rilevato il loro punteggio ad un test psicologico fatto in classe, i cui risultati sono: Studente Attività Cinema Sport Feste 1 10 5 5 2 4 0 10 3 12 20 6 4 2 6 52 5 12 2 12 6 7 8 30 7 45 12 52 8 1 25 2 9 25 0 25 10 12 12 4 Rispetto a queste attività extrascolastiche che hanno fatto verificare se vi è una differenza rispetto al punteggio medio ottenuto al test. k=3 x1 x2 x3 x=8,66 N 10 10 10 x i 13 9 4 σ̂ i 13,17 8,38 16,17 17 ANOVA, Analysis Of Variance. (x i−x ) 2 32,04 0,12 21,72 ∑ ni(x i−x)2→Dev (Tra )=53,88 18 Devianza all’interno di ogni gruppo Un altro motivo è dovuto ad una notevole variabilità all’interno di ogni gruppo, indicata con Dev(Entro). Riprendendo l’esercizio precedente: k=3 x1 x2 x3 x=8,66 N 10 10 10 x i 13 9 4 σ̂ i 13,17 8,38 16,17 σ̂ i 2 173,04 70,22 261,47 σ̂ i 2 ni−1 19,2 7,8 29,05 ∑ i σ̂ i 2 ni−1 →Dev (Entro )=56,05 19 Test F e tavole f di Fisher L’ipotesi è che se le medie sono uguali, le due devianze rilevate devono essere simili/vicine tra loro, altrimenti risulteranno molto differenti. Perciò, si costruisce uno schema di questo tipo: DEV GRADI DI LIBERTÀ S2 TRA k−1 Dev (Tra ) k−1 ENTRO n−k Dev (Entro ) n−k Il risultato dell’analisi della varianza è il test F, questo rapporto mostra la differenza tra la varianza tra i gruppi e la varianza all'interno del gruppo, che alla fine genera una cifra che permette di concludere che l'ipotesi nulla è supportata o rifiutata. Test F= S2Tra S2Entro Si fissa un valore di alfa e si cerca un valore soglia nelle tavole f di Fisher, in corrispondenza dell’alfa prefissato e dei gradi di libertà. Se tra i gruppi c'è una differenza significativa, l'ipotesi nulla non è supportata e il rapporto F sarà maggiore, dunque le regole di decisione saranno: Fα ,k−1 ,n−k= k−1 n−k F>Fα , k−1 , n−k→RH0 F<Fα , k−1 , n−k→ AH0 Dunque, riprendendo sempre l’esercizio precedente DEV GRADI DI LIBERTÀ S2 TRA 53,88 2 26,94 18 A parole sarebbe (media del 1° gruppo-med gen)2 + … + (media del k gruppo-med gen)2 19 A parole sarebbe la somma degli scarti tra le osservazioni del j-esimo gruppo e la media del j-esimo gruppo (num varianza). ENTRO 56,02 27 2,08 Test F= 26,94 2,08 =12,95 Fα ,k−1 ,n−k= 2 27 =3,35 F>Fα , k−1 , n−k→RH0, l’effetto del trattamento (aver sottoposto i ragazzi a corsi differenti) è visibile nelle medie dei sottogruppi, perché le popolazioni hanno medie differenti. –––––––––––––––––––––––––––––––––––––––––––––––––––– Bohrnstedt, Knoke: tassi di criminalità negli Stati Uniti d'America. DEV GRADI DI LIBERTÀ S2 TRA 19,41 4−1=3 6,47 ENTRO 60,79 50−4=46 1,32 Test F= 6,47 1,32 =4,90 α=0,01 4,31<Fα ,3,46<4,13 Dev (Entro) (x ij−x j) 2 Dev (Tra) (x i−x ) 2 σ k x n Per completare questa verifica, bisogna prendere il risultato del test e utilizzare le tavole del Chi Quadrato. Simile alla tavola della t di student, queste tavole hanno nella prima riga i valori di alfa e nella prima colonna i gradi di libertà. Questi ultimi sono dati dal prodotto tra h-1 (num delle modalità di riga – 1) e k-1 (num delle modalità di colonna – 1). χ2 > χ α, (h−1) ( k−1 ) 2 →RH 0 χ2 < χ α , (h−1) ( k−1 ) 2 →A H 0 Tattoo Epatite C Si No Tot Si 25 88 113 No 22 491 513 Totale 47 579 626 χ2 =∑ i=l k ∑ j=l h ¿¿¿¿ α=0,05 χα ,(h−1)(k−1) 2 =3,84 χ2 > χ α , (h−1) ( k−1 ) 2 →RH 0, X e Y non sono indipendenti α̂→0 bisogna cercare sulle tavole il valore corrispondente al risultato del test nei gradi di libertà stabiliti. –––––––––––––––––––––––––––––––––––––––––––––––––––– Il test Chi Quadrato si utilizza anche per verificare se c’è un’associazione tra una variabile casuale normale e una bernoulliana. Genere Età laureati triennale 21-24 24-27 27+ Tot M 20 25 30 75 F 24 15 10 49 Totale 44 40 40 124 Genere Età laureati triennale 21-24 24-27 27+ Tot M 26,6 24,2 24,2 75 F 17,4 15,8 15,8 49 Totale 44 40 40 124 α=0,01 113×47 626 Tattoo Epatite C Si No Tot Si 8,5 104,5 113 No 38,5 474,5 513 Totale 47 579 626 χα ,(h−1)(k−1) 2 =9,21 χ2 =7,87 χ2 < χ α , (h−1) ( k−1 ) 2 →A H 0, poiché sono statisticamente indipendenti. Un altro modo per utilizzare il Chi Quadrato è il caso di statistiche binomiali e multinomiali. Nel caso che andiamo a vedere, c’è una frequenza congiunta “insufficiente” e va perciò accorpata con altre classi di modalità, accorciando, dunque, la tabella: 20 Non infestati Poco infestati Tanto infestati Tot Mangiati dagli uccelli 1 10 37 48 Non mangiati dagli uccelli 49 35 9 93 Tot 50 45 46 141 Non/poco infestati Tanto infestati Tot Mangiati dagli uccelli 11 37 48 Non mangiati dagli uccelli 84 9 93 Tot 95 46 141 20 Attenzione, accorpando le classi si modificano i gradi di libertà.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved