Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Probabilità e inferenza statistica (II modulo), Esercizi di Statistica

Dispesa di statistica riguardante la teoria di Probabilità e inferenza statistica (II modulo) con esercizi

Tipologia: Esercizi

2023/2024

In vendita dal 13/06/2024

angela-g87
angela-g87 🇮🇹

6 documenti

1 / 87

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Probabilità e inferenza statistica (II modulo) e più Esercizi in PDF di Statistica solo su Docsity! STATISTICA – CONTENUTI DEL II MODULO ▪ Calcolo delle probabilità: concetti di base ▪ Variabili casuali ▪ Campionamento e distribuzioni campionarie ▪ Stima puntuale e intervallare ▪ Teoria dei test d’ipotesi ▪ Inferenza nel modello di regressione lineare (cenni) Statistica descrittiva (I modulo) Probabilità e inferenza statistica (II modulo) Descrizione di "una popolazione nota rispetto a una o più variabili: queste sono state sintetizzate, rappresentate e confrontate mediante strumenti statistici di natura numerica, tabellare o grafica; spesso l’analisi si è risolta nel quantificare i molteplici aspetti di una distribuzione di frequenza mediante uno o pochi indicatori sintetici." (D. Piccolo, Statistica per le decisioni, 2010) In questo modulo vogliamo affrontare problemi in cui, sulla base della conoscenza di alcuni elementi della popolazione (cioè sulla base di un campione), si vogliono trarre conclusioni su tutta la popolazione da cui questi elementi provengono. Un approccio rigoroso allo studio di questo tipo di problemi richiede l’uso del calcolo delle probabilità. Statistica descrittiva: affronta il problema diretto o deduttivo (generale → particolare). Da un insieme di unità (collettivo o popolazione) si osservano uno o più caratteri e si costruiscono tabelle, grafici, indicatori di sintesi. Probabilità: affronta il problema diretto o deduttivo (generale → particolare). Dopo aver definito una prova sulla popolazione di interesse, si crea una corrispondenza probabilistica tra i valori della popolazione e i risultati della prova. Dalla conoscenza «certa» della popolazione si deducono le probabilità dei possibili esiti di una prova soggetta a «incertezza». Statistica inferenziale: affronta il problema inverso o induttivo (particolare → generale). Si utilizzano i dati su un campione (un sottoinsieme della popolazione) per fare affermazioni sulla popolazione da cui proviene il campione. PROBABILITÀ A che cosa serve la probabilità Esempio di uno studio inferenziale: si vuole studiare l’efficacia di un vaccino. L’obiettivo finale è quello di capire se la somministrazione del vaccino abbia un effetto protettivo dalla malattia, in termini di immunizzazione e/o protezione da sintomatologia severa. Fasi: 1. Definizione della popolazione di riferimento (es. anziani 80-90 anni) 2. Estrazione di un campione casuale (varie tecniche probabilistiche, campione caso/controllo) 3. Raccolta e selezione delle informazioni sul campione (fattori di contesto, eventi avversi verificati, studio nel tempo della presenza di anticorpi, della probabilità di manifestare sintomi, di contrarre la malattia e in che modo; se si sono riscontrate differenze tra i due gruppi caso/controllo, queste sono attribuibili al caso oppure sono sistematiche e quindi attribuibili al vaccino?) 4. Adozione di una tecnica inferenziale per estendere i risultati dal campione alla popolazione (quale efficacia mi aspetto sulla popolazione? Con che livello di fiducia?) 5. Verifica della validità statistica della procedura La statistica inferenziale si basa sul concetto di incertezza e quindi lo studio della probabilità è necessario. Introduzione alla probabilità La probabilità è un concetto primitivo, cioè originario per l’essere umano perché innato e sempre presente nelle sue regole di comportamento (D. Piccolo, 2010). Pensiamo al lancio di un dado, al gioco d’azzardo, al rispondere in modo casuale ad una domanda vero/falso. Esistono proposizioni di cui possiamo dire con certezza se siano vere o false, ad esempio: “Napoleone è morto a S. Elena”, “Ieri a Rimini è piovuto”, etc. Esistono invece proposizioni incerte di cui ora non sappiamo dire se siano vere o false e la cui verità dipende dall’accadimento di un fatto. Dopo l’accadimento del fatto anche queste proposizioni diventeranno certamente vere o false. Es. lancio una moneta. Quale sarà l’esito? Esempi di proposizioni incerte: «il giorno di Natale a Rimini nevicherà» «lanciando un dado a sei facce ottengo 6» «la crescita del PIL il prossimo anno supererà il 2%» «il partito X prenderà il 20% dei voti alle prossime elezioni» Queste proposizioni vengono dette in gergo eventi. La probabilità rappresenta una misura dell’incertezza associata a un evento. La probabilità è dunque anche una misura perché associa al concetto primitivo una valutazione numerica (D. Piccolo, 2010) B: il campione contiene meno di 3 prodotti difettosi→evento non elementare C: il campione contiene 3 o più prodotti difettosi→evento non elementare ▪ Osservazioni? Conto n. pezzi ={0,1,2,3…..,30}Ω A B⊂ B e C sono disgiunti e unendoli si ottiene lo spazio campionario,ossia Ω B C=∩ ⊘ B C=∪ Ω Se B non si verifica sicuramente si verifica C,pertanto sono complementari Classi di eventi Ogni evento non-elementare costituisce un’aggregazione di eventi elementari. Un evento non-elementare si verifica se si verifica uno degli eventi elementari che lo compongono. Un evento è caratterizzato dal fatto che: ▪ può verificarsi o non verificarsi; ▪ prima di condurre la prova non sappiamo dire con certezza se si verificherà o no; ▪ dopo la prova è sicuramente vero o falso (verificato o non verificato). Esempio: lancio di un dado a sei facce. ▪ Gli eventi elementari associati a questa prova sono: {1, 2, 3, 4, 5, 6}. ▪ Prima di lanciare il dado, non sappiamo quale esito si realizzerà. ▪ Il nostro obiettivo è misurare l’incertezza con criteri scientifici: per questo usiamo la probabilità. Evento certo: evento che si sicuramente si verificherà, infatti comprende tutti i possibili risultati dell’esperimento. Si indica con Ω. Es. nel lancio di un dado: A = «esce un numero ≥ 1»; B = «esce un numero pari oppure dispari» P(Ω)=1 Evento impossibile: evento che non potrà mai verificarsi, si indica con (insieme vuoto). Es. nel lancio di un dado: A = «esce un numero > 6», B = «esce un numero multiplo di 7». P( )=0⊘ Eventi incompatibili o disgiunti Due eventi A e B si dicono incompatibili se non possono verificarsi congiuntamente. Se si verifica A, allora non si verifica B e viceversa. Es. nel lancio di un dado: A = «esce un numero ≤ 2» e B = «esce un numero multiplo di 3». N.B. Gli eventi elementari sono tra loro incompatibili. A B=∩ ⊘ P(A B)=0∩ Eventi compatibili Due eventi A e B si dicono compatibili se possono verificarsi contemporaneamente. Es. nel lancio di un dado: A =«esce un numero ≤ 2» e B = «esce un numero pari». Possiamo rappresentare gli eventi con i diagrammi di Eulero-Venn, utilizzati nella teoria degli insiemi. La negazione di un evento Dato un evento A, la sua negazione (detta anche complemento di A), è data𝐴 dall’evento «A non si verifica». A e (evento complementare di A) sono detti dunque eventi𝐴 complementari. Es. nel lancio di un dado: A = «esce un numero pari», = «esce un numero dispari».𝐴 Nella rappresentazione grafica, l’area colorata rappresenta .𝐴 A = ∪ 𝐴 Ω A = ∩ 𝐴 ⊘ Evento intersezione Dati due eventi A e B, la loro intersezione A B descrive l’evento «A e B si verificano∩ congiuntamente». Es. nel lancio di un dado: dati gli eventi A = «esce un numero pari», B = «esce un numero > 3», si ha che A B = «esce un numero pari e( ) > 3», quindi A B = {4, 6}.∩ ∩ ∩ Nella rappresentazione grafica, l’area colorata rappresenta A B.∩ A B∩ N. B. Se due eventi A e B sono incompatibili, A B =∩ ⊘ Eventi incompatibili - A=numero pari B=numero dispari A B =∩ ⊘ - A=numero 2 B=numero 5≤ > A B =∩ ⊘ Evento unione Dati due eventi A e B, la loro unione A B descrive l’evento «si verifica almeno uno degli∪ eventi, A o/oppure B» Es. nel lancio di un dado: dati gli eventi A = «esce un numero pari», B = «esce un numero > 3», si ha che A B = «esce un numero pari o > 3», quindi A B = {2, 4, 5, 6}.∪ ∪ Nella rappresentazione grafica, l’area colorata (qualsiasi sfumatura) rappresenta A B.∪ A B∪ N. B. L’unione di due eventi complementari restituisce sempre lo spazio campionario Ω, ossia A = Ω.∪ 𝐴 Algebra degli eventi L’algebra degli eventi si definisce come E = {E1, E2, …., Ep} e rappresenta l’insieme di tutti gli eventi definiti a partire dagli eventi elementari. L’algebra degli eventi è costituita da tutti i possibili sottoinsiemi di Ω, ossia l’insieme delle parti di Ω. L’algebra degli eventi serve per definire una «famiglia» di eventi a cui assegnare una probabilità. Esempio. Consideriamo un esperimento in cui gli eventi elementari sono «1», «2», «3». Lo spazio campionario sarà Ω = {1, 2, 3}. L’algebra degli eventi E conterrà gli eventi seguenti: {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, Ω={1, 2, 3}, . Nota: ▪ E è l’insieme delle parti di Ω ed è quindi formato da tutti i sottoinsiemi di Ω compreso se stesso e l’insieme vuoto . ▪ Se Ω è formato da k eventi elementari, allora l’insieme delle parti ha cardinalità pari a 2k ▪ Approfondimenti (vedi par 8.3 libro): l’algebra di Boole è una struttura matematica P(esce 1)+P(esce 2)+P(esce 3)+P(esce 3)+P(esce 4)+P(esce 5)+P(esce 6)=1 P(esce 1)=P P(esce 2)=2P P(esce 3)=3P P(esce 4)=4P P(esce 5)=5P P(esce 6)=6P p+2P+3P+4P+5P+6P=1 21P=1→P=1/21 P(1)=1/21 P(2)=2/21 P(3)=3/21 P(4)=4/21 P(5)=5/21 P(6)=6/21 Σ = 1 b) Qual è la probabilità di ottenere un multiplo di 3? P(multiplo di 3)-->P=(“3” )-->P(3)+P(6)=3/21+6/21=9/21∪ "6" c) Qual è la probabilità di ottenere un punteggio pari? E di ottenere un punteggio dispari? P(punteggio pari)-->P(“2” )-->P(2)+P(4)+P(6)=2/21+4/21+6/21=12/21∪ "4" ∪"6" P(punteggio dispari)-->P(“1” )-->P(1)+P(3)+P(5)=1/21+3/21+5/21=9/21∪ "3" ∪"5" A=n. pari =n. dispari𝐴 A =∪𝐴 Ω A =∩𝐴 ⊘ P(A =1∪𝐴) P(A =0∩𝐴) P(A) P( )=1-(A)𝐴 P( )=P(dispari)=1-12/21=9/21𝐴 d) Qual è la probabilità di ottenere un punteggio multiplo di 3 oppure pari? B=”multiplo 3” P(B)=9/21 C=”pari” P(C)=12/21 P(B o C)= P(B C)∪ Gli eventi sono compatibili,la probabilità dell’intersezione non è nulla Regola dell’addizione: P(B)+P(C)-P(B C)=9/21+12/21-P(“6”)=9/21+12/21-6/21=15/21∩ Definizione classica di probabilità La probabilità è data dal rapporto tra il numero di casi favorevoli all’evento e il numero dei casi possibili, purché essi siano tutti ugualmente possibili: P(A)=numero di casi favorevoli ad A —---------------------------------------- numero di casi possibili Un classico esempio è quello del lancio di un dado equilibrato (non truccato) in cui tutti gli eventi elementari {1}, {2}, {3}, {4}, {5}, {6} sono equiprobabili, ossia: P({1})= 1/6 P({2})= 1/6 P({3})= 1/6 P({4})= 1/6 P({5})= 1/6 P({6})= 1/6 La definizione classica di probabilità è limitata, infatti è sviluppata sotto l’ipotesi di equiprobabilità dei casi. Inoltre, il concetto di eventi equiprobabili ci porta a definire la probabilità ricorrendo al concetto di probabilità stesso (c’è un vizio logico!). Definizione frequentista di probabilità La definizione frequentista si basa sulla ripetibilità della prova: immaginiamo dunque di ripetere una prova, al limite, infinite volte (esempio: lancio una moneta un numero molto elevato di volte). Concetto di probabilità come frequenza relativa. Date n prove ripetute, la frequenza di ciascun evento A è data da: fr(A)= 𝑛 𝐴 𝑛 dove è il numero di volte in cui si è presentato A𝑛 𝐴 Quindi, la probabilità di un evento A si definisce come: P(A)= 𝑛 ∞ lim → 𝑛 𝐴 𝑛 Esempio. se lancio un numero infinito di volte una moneta equilibrata, mi aspetto che la frequenza relativa dell’evento «esce testa» sia 0.5 → P(«esce testa»)=0.5. Definizione soggettiva di probabilità La definizione soggettiva di probabilità (De Finetti, Savage) è basata sul principio o condizione di coerenza. (scommessa) P(A) è il prezzo che un individuo ritiene equo pagare per ricevere 1 se l’evento si verifica e 0 se non si verifica. Principio di coerenza: le probabilità degli eventi devono essere attribuite in modo che non sia possibile ottenere con un insieme di scommesse una vincita certa o una perdita certa. La definizione è detta «soggettiva» perché la probabilità coincide con la valutazione che l’individuo formula sulla base delle sue conoscenze sul grado di avverabilità di un evento. Se A si verifica: guadagno = 1 - P(A) Se A non si verifica: perdita = - P(A) Probabilità condizionata La probabilità condizionata serve per descrivere la probabilità di un certo evento A (evento condizionato), sapendo che un altro evento B (evento condizionante) si è verificato. Esempio: nel lancio di un dado, qual è la probabilità che sia uscito il numero «1», dato che so per certo che è stato estratto un numero «dispari»? Voglio quindi calcolare la probabilità dell’evento A = «esce 1», condizionatamente all’evento B = «esce un numero dispari»: P(A | B) che si legge «probabilità di A dato B». Dato che supponiamo che l’evento B si verifichi, lo spazio campionario Ω viene ristretto a B. B descrive quindi tutti gli esiti possibili e all’interno di B dobbiamo individuare la probabilità che l’evento A si verifichi. Nell’esempio del dado, B = «esce un numero dispari» = {1, 3, 5}. Questi sono i possibili esiti, perché abbiamo supposto che B si verifichi per certo. A = «esce 1» = {1} e costituisce uno dei tre possibili esiti (equiprobabili) di B. Quindi: P(A | B) = 1/3. Si definisce probabilità condizionata di A dato B il rapporto tra la probabilità congiunta di A e B e la probabilità dell’evento B, ossia Analogamente, la probabilità di B dato A sarà: P( B|A) = Nell’esempio del lancio di un dado: A = «esce 1»;B = «esce un numero dispari» P( A | B) = ? Applicando la definizione di probabilità condizionata avremo: P(B) = 1/2 A B = «esce 1», quindi P (A B) = P(A) = ⅙∩ ∪ Esempio. In un’urna ci sono 120 palline, di cui 80 sono rosse. È noto inoltre che l’urna contiene 60 palline rosse e (gli eventi valgono contemporaneamente) contrassegnate da un fiore. Estratta a caso una pallina dall’urna, qual è la probabilità che sia contrassegnata da un fiore dato che è rossa? Dati: A = «pallina rossa» B = «pallina contrassegnata da un fiore» Indipendenza tra eventi Due eventi si dicono indipendenti quando il fatto che uno si verifichi non altera la probabilità che si verifichi anche l’altro. Quindi, due eventi A e B si dicono indipendenti se il verificarsi di B non influenza la probabilità di A e il verificarsi di A non influenza la probabilità di B, ossia se P(A|B)=P(A) e P(B|A)=P(B) Seguendo inoltre il principio delle probabilità composte, si ricava la definizione seguente. Due eventi A e B sono indipendenti se e solo se: P (A ∩ B) = P A ∙ P(B) Quindi, per due eventi indipendenti, la probabilità congiunta può essere fattorizzata nel prodotto delle singole probabilità. Questa definizione può essere generalizzata anche al caso di una serie di eventi a due a due indipendenti , , ..., , quindi:𝐸 1 𝐸 2 𝐸 𝑛 𝑃(𝐸 1 ∩ 𝐸 2 ∩... 𝐸 𝑛 ) = 𝑃(𝐸 1 ) * 𝑃(𝐸 2 ) *... 𝑃(𝐸 𝑛 ) Esempio. Qual è la probabilità che lanciando tre volte una moneta bilanciata si ottenga tutte e tre le volte testa? → I lanci sono prove indipendenti (la moneta non ha memoria!), quindi = «esce testa al primo lancio»; = «esce testa al secondo lancio»;𝑇 1 𝑇 2 = «esce testa al terzo lancio»𝑇 3 P( ) = P( ) = P( ) = 1/2𝑇 1 𝑇 2 𝑇 3 P( ) = P( )* P( ) * P( ) = 1/8𝑇 1 ∩ 𝑇 2 ∩ 𝑇 3 𝑇 1 𝑇 2 𝑇 3 N.B. posso anche usare una notazione più leggera, es. T= esce testa in un lancio Esempio. Qual è la probabilità che esca testa al secondo lancio, sapendo che al primo lancio è uscita testa? P(T2|T1)=P(T2)=½ Esempio. In un’urna ci sono 100 palline, di cui 30 sono rosse e le rimanenti sono gialle. Qual è la probabilità che, estraendo due palline con reimmissione, entrambe siano rosse? R1= «esce una pallina rossa alla prima estrazione», R2= «esce una pallina rossa alla seconda estrazione», con P(R1)=P(R2)=30/100=0,3 P(R1 R2) = P(R1) * P(R2) = 0,3 * 0,3 = 0,09.∪ Esempio. In un’urna ci sono 100 palline, di cui 30 sono rosse e le rimanenti sono gialle. Qual è la probabilità che, estraendo due palline con reimmissione, una pallina sia rossa e l’altra sia gialla (senza considerare l’ordine di estrazione)? Come cambia il problema? R1= rossa 1° estrazione→ =gialla 1°estrazione𝑅1 R2= rossa 2° estrazione→ =gialla 2° estrazione𝑅2 P(R1 ) →P(R1)*P(R2)=0,3*0,7=0,21∩𝑅2 P( ) →P(R1)*P(R2)=0,3*0,7=0,21𝑅1∩ 𝑅2 =0,21+0,21=0,42=0 Esempio. In un’urna ci sono 100 palline, di cui 30 sono rosse e le rimanenti sono gialle. Qual è la probabilità che, estraendo due palline con reimmissione, una pallina sia rossa e l’altra sia gialla (senza considerare l’ordine di estrazione)? La probabilità di ottenere una pallina rossa e una gialla (ossia non rossa) nelle due estrazioni si può scrivere come segue: «probabilità di estrarre una pallina rossa alla prima estrazione e una gialla alla seconda oppure di estrarre una pallina gialla alla prima estrazione e una rossa alla seconda estrazione». ESERCIZIO 2 In un condominio ci sono 150 appartamenti di cui 70 nell’ala ovest(A), il resto nell’ala est.( )𝐴 È noto che - il 90% dei proprietari degli appartamenti dell’ala ovest sono favorevoli all’abbattimento di un pino(B); - 75 appartamenti sono situati nell’ala est e il proprietario è favorevole all’abbattimento del pino. Estratto a caso un appartamento, calcolare la probabilità che: a) l’appartamento sia situato nell’ala est; b) il proprietario sia favorevole all’abbattimento del pino, dato che l’appartamento è situato nell’ala est; c) il proprietario sia favorevole all’abbattimento del pino, dato che l’appartamento è situato nell’ala ovest. Dati: A=ovest =est𝐴 B=favorevole =non favorevole𝐵 P(A)=70/150=0,467 (B|A)=0,9 P( B)=75/150=0,5𝐴∩ a) l’appartamento sia situato nell’ala est; P( )=1-P(A)=1-0,467=0,533 oppure 80/150=0,533𝐴 b) il proprietario sia favorevole all’abbattimento del pino, dato che l’appartamento è situato nell’ala est; P(B| )= oppure 75/80=0,938𝐴 𝑃(𝐵∩𝐴) 𝑃(𝐴) = 0,533 0,467 = 0, 938 c) il proprietario sia favorevole all’abbattimento del pino, dato che l’appartamento è situato nell’ala ovest. P(B|A)=0,9 Tabella doppia di frequenze favorevole(B) Non favorevole( )𝐵 ovest(A) 63→70*0,9 7 70 est( )𝐴 75 5 80 138 12 150 Una variabile casuale continua può assumere tutti i valori compresi in un intervallo reale Esempio. Considero la prova che consiste nell’osservare il peso (in gr) dei pacchi di pasta prodotti da una macchina. Lo spazio campionario Ω è un insieme infinito non numerabile (contiene tutte i possibili pesi). La v.c. X «peso» è continua perché può assumere, almeno in teoria, qualsiasi valore reale in un intervallo, ad esempio [450 gr, 550 gr]. Ω discreto → v.c. discreta Ω continuo → v.c. discreta o continua Esempio. Considero la prova che consiste nell’osservare il peso (in gr) dei pacchi di pasta prodotti da una macchina. Lo spazio campionario Ω è un insieme infinito non numerabile (contiene tutte i possibili pesi). Posso definire una v.c. X «peso binario» discreta che può assumere valore = 1 se il peso è maggiore o uguale a 500 gr e = 0𝑥 1 𝑥 2 se il peso è inferiore a 500 gr. In sostanza si «discretizza» una v.c. continua. VARIABILI CASUALI DISCRETE Le v.c. discrete per definizione possono assumere quindi valori numerabili, magari un infinito numero di valori. Si usano per modellare fenomeni le cui osservazioni sono espresse in forma dicotomica/binaria/dummy (es. presenza o assenza di una certa caratteristica), oppure sono dati di conteggio (es. numero di individui aventi una certa caratteristica). Vedremo: ▪ Bernoulli →valori solo 0 o 1 ▪ Binomiale →descrive il n. di successi in prove Bernoulliane indipendenti (non vedremo: Uniforme discreta, Poisson presenti nel libro di testo) FUNZIONE DI PROBABILITÀ PER UNA V.C. D Funzione di probabilità per una v.c. discreta Indichiamo con P( ) o P( ) la probabilità che la v.c. assuma il valore .𝑋 = 𝑥 𝑖 𝑥 𝑖 𝑋 𝑥 𝑖 La funzione di probabilità di una variabile casuale discreta associa ad ognuno dei𝑋 possibili valori la corrispondente probabilità P( ).𝑥 𝑖 𝑋 = 𝑥 𝑖 La funzione di probabilità di una v.c. discreta soddisfa le seguenti proprietà: 0 P( )≤ 𝑥 𝑖 ≤ 1 *** nella sommatoria in i, intendiamo considerare tutti i valori che la v.c. può assumere. In altre parole, la somma avviene nel supporto di X.[S(X)] Queste proprietà sono coerenti con gli assiomi del calcolo delle probabilità. N.B. le frequenze relative hanno le stesse proprietà. Esempio:lancio di due dadi Nella prova del lancio di due dadi, definiamo la v.c. X = «somma dei punteggi». I valori che X può assumere sono i numeri interi fra 2 e 12: = 2, = 3, …, = 12.𝑥 1 𝑥 1 𝑥 11 La figura mostra la corrispondenza tra eventi di Ω e i valori di X. Gli eventi elementari sono 36 e sono equiprobabili, per cui ogni evento elementare avrà probabilità pari a 1/36 Costruiamo la distribuzione di probabilità per la v.c. X = «somma dei punteggi» nel lancio di due dadi. Soluzione 7=moda Funzione di ripartizione per una v.c. discreta In alcuni casi saremo interessati alla probabilità che una v.c. assuma un valore minore o uguale a un dato valore. In questo caso si devono calcolare delle probabilità cumulate. Funzione di ripartizione P(X )≤ 𝑥 Data una v.c. discreta X, la funzione che fa corrispondere ai valori x le probabilità cumulate P(X ≤ x) viene detta funzione di ripartizione, e sarà indicata con F(x). La funzione di ripartizione valutata in è:𝑥 𝑖 La funzione di ripartizione è l’analogo della distribuzione delle frequenze relative cumulate (vedi descrittiva), è lo stesso concetto applicato ad una v.c. Esempio:lancio di due dadi Costruiamo la funzione di ripartizione F(x) per la v.c. X = «somma dei punteggi» nel lancio di due dadi. Possiamo notare che la F(x) è una funzione a gradini ed è definita anche per valori diversi da quelli riportati nella tabella. Quanto vale F(x) per x=1? E per x=13? E quanto vale la distribuzione di probabilità P(x) invece per questi due valori? P(x=1)=0 P(x=13)=0 F(5)=P(x )=≤ 5 P(x=2)+P(x=3)+P(x=4)+P(x=5)= 1 36 + 2 36 + 3 36 + 4 36 = 10 36 ESERCIZIO 2 Sia X una variabile casuale con E(X) = 2 e V(X) = 0,8. Sia Y una variabile casuale legata ad X dalla relazione Y = 3X + 1. a) Quanto vale E(Y)? a=1 b) Quanto vale V(Y)? b=3 a) Quanto vale E(Y)? E(a+bX)=a+bE(X) E(y)=E(1+3X)=1+3*E(x)=1+3*2=7 b) Quanto vale V(Y)? V(a+bX)= V(X)𝑏2 V(y)=V(1+3x)= 32 * 𝑉(𝑥) = 9 * 0, 8 = 7, 2 DISTRIBUZIONE DI BERNOULLI Si consideri un esperimento casuale con due possibili esiti disgiuntivi (o uno o l’altro) ed esaustivi (uno dei due si verifica necessariamente) → esperimento di Bernoulli. In questa prova si è interessati a verificare se un certo evento si verificherà oppure no (es. lancio una moneta: esce testa oppure croce? Sostengo un esame: sarò promosso o bocciato? Concedo un prestito a un cliente: il cliente restituirà il prestito oppure no?). La v.c. generata da tale prova assume per convenzione il valore 1 nel caso in cui l’evento si verifichi (successo), 0 in caso contrario (insuccesso). Una v.c. di Bernoulli X Ber( ) assume il valore 1 con probabilità e il valore 0 con∼ π π probabilità 1- . La sua funzione di probabilità può essere espressa comeπ per x = 0, 1 e 0 ≤ ≤ 1.π E(X) ? V(X) ? X Ber( )-->si distribuisce come una v.c. di Bernoulli di parametro∼ π π successo→ =P(x=1)π insuccesso→1- =P(x=0)π 𝑃(𝑋 = 𝑥) = π𝑥(1 − π)1−𝑥 𝐸(𝑥) = π 𝑉(𝑥) = π(1 − π) X Ber( ) con funzione di probabilità∼ π 𝑃(𝑋 = 𝑥) = π𝑥(1 − π)1−𝑥 Se x=0→P(0)=1 − π Se x=1→P(1)=π Distribuzione di Bernoulli,caso =½π X Ber(0,5) =1-∼ π = 0, 5 π F(0)=0,5 F(1)=1 Distribuzione di Bernoulli,caso =1/3π P(x=1)=⅓ p(x=0)=⅔ DISTRIBUZIONE BINOMIALE Sia n = numero di prove bernoulliane, indipendenti e con la medesima probabilità di successo e sia = probabilità di successo in ciascuna prova. Una v.c. Binomiale X Bin( ) indica il numero di successi su n prove indipendenti con∼ π; 𝑛 stessa probabilità di successo . La sua funzione di probabilità può essere espressa come per x = 0, 1, 2,…, n e 0 ≤ ≤ 1. n=10; =0,5π π successo=”testa” x=0,1,2,....,10 La v.c. Binomiale di parametri ( ; n) corrisponde alla somma di n v.c. di Bernoulli diπ parametro che modellano n prove indipendenti. ● E(X) = nπ ● V(X) = n(1- ) Proprietà. Sia E(X) che V(X) crescono al crescere di n.π esempi; 5!=1*2*3*4*5 9!=1*2*3*4*5(5!)*6*7*8*9 *Coefficiente binomiale* Il coefficiente binomiale serve in generale per calcolare il numero di combinazioni semplici di n elementi in gruppi di dimensione k. Nel caso della distribuzione binomiale si indica con n x e corrisponde al numero di combinazioni possibili di x successi e (quindi n-x insuccessi) in n prove: Nel caso della distribuzione binomiale si indica con e corrisponde al numero di combinazioni possibili di x successi e (quindi n-x insuccessi) in n prove: Il simbolo x!, detto "x fattoriale", è definito per valori di x interi positivi e indica il prodotto dei numeri interi da 1 a x: x! = 1 * 2 * 3 * 4 … (x-1) * x Per definizione 0! = 1. Distribuzione binomiale, caso n = 10 e = 0,5π Proprietà: la distribuzione binomiale è simmetrica per = 0,5 rispetto al proprio valoreπ atteso, pari a n/2. Distribuzione binomiale, caso n = 10 e = 0,25π In questo caso non è pari a 0,5 e la distribuzione è asimmetrica.π Distribuzione binomiale, caso n = 100 e = 0,25π Proprietà: per n → ∞ la distribuzione binomiale tende in ogni caso a essere simmetrica rispetto al valore atteso (quindi, per ogni ).π Perché gli esperimenti binomiali sono importanti? Gli esperimenti binomiali ci permettono di cominciare a guardare al campionamento casuale come ad un esperimento aleatorio che può dare esiti diversi: ciascun campione può infatti presentare un diverso numero di successi (pensiamo all’esercizio 5). Abbiamo imparato a rispondere a domande del tipo: qual è la probabilità che su n individui campionati ne capitino x con la caratteristica che mi interessa? Su n individui campionati quanti me ne devo aspettare con la caratteristica d’interesse? Conoscere la probabilità dei vari esiti campionari è uno strumento fondamentale per l’inferenza statistica. Più avanti risponderemo a domande di tipo «inferenziale», ossia: non ho opinioni «a priori» sulla proporzione di individui con la caratteristica d’interesse in popolazione (proporzione di «successi» ), ma nel campione di n individui ho osservato x successi. Cosa posso concludere sul valore (parametro) di popolazione ? E’ ragionevole supporre che sia circa pari a x/n? Ricorda: problema diretto vs. inverso VARIABILI CASUALI CONTINUE Le v.c. continue per definizione possono assumere un numero infinito di valori reali( ). Siℝ usano per modellare fenomeni continui, come ad esempio errori di misura, parametri antropometrici, parametri biomedici, variabili economiche, variabili meteorologiche, variabili finanziarie. Vedremo: ▪ Normale o Gaussiana ▪ t di Student (non vedremo: Uniforme continua, Chi-quadrato, Fisher, Beta, Esponenziale, presenti nel libro di testo) Funzione di densità per una v.c. continua Consideriamo una v.c. continua che assume valori in un intervallo [m; n] dell’asse dei numeri reali ℝ. In [m; n] ci sono infiniti numeri reali: sia x uno di questi, cioè x [m; n]. La probabilità che si realizzi esattamente il valore x è uguale a 0 (è infinitesima) → piuttosto che assegnare probabilità ai singoli valori, possiamo assegnare probabilità a intervalli di valori. Una variabile casuale X è continua se esiste una funzione f(x), detta funzione di densità, tale che, per ogni intervallo reale, vale la seguente condizione: Dunque, l’area sottesa a f(x), corrispondente ad un dato intervallo [a; b], è uguale alla probabilità che X assuma un valore in [a; b]. N.B. P(a ≤ X ≤ b) = P( a < X < b) in quanto la probabilità associata ai due estremi dell’intervallo è «infinitesima». La funzione di densità di una v.c. continua soddisfa le seguenti proprietà (coerenti con gli assiomi del calcolo delle probabilità): Esempio:funzione di densità non costante Sia X una v.c. che può assumere tutti i valori nell’intervallo reale [0; 1] con probabilità descritta dalla seguente funzione di densità: 0 1 ∫ 𝑓(𝑥)𝑑𝑥 = 1 Nella figura si nota che la probabilità che X assuma un valore nell’intervallo [0,5; 0;7] è pari a 0,229 (area colorata). Nel 1846 lo scienziato francese Quetelet osserva che la stessa distribuzione di probabilità si adatta bene anche alla distribuzione osservata delle circonferenze toraciche di un collettivo molto ampio di soldati scozzesi. In tutti e tre i casi la distribuzione di probabilità che era stata incontrata era la distribuzione Normale. Molti fenomeni naturali sono ben approssimati da questa distribuzione: es. se misuriamo il peso degli individui di una popolazione omogenea (non sono presenti popolazioni con caratteristiche diverse) e ne facciamo l’istogramma, questo presenterà una forma grossomodo campanulare e simmetrica, ben approssimata dalla densità normale. Una v.c. Normale (o Gaussiana) ) è una v.c. continua che può assumere valori𝑋 ∼ 𝑁(µ; σ2) su tutto l’asse reale (-∞ < x < +∞ ) e ha funzione di densità Proprietà: ▪ dipende da due parametri conµ 𝑒 σ2 E(X) = e V(X) = ( è la deviazione standard)σ2 ▪ la sua f. densità ha una forma campanulare, unimodale e simmetrica rispetto al valore x = , in corrispondenza del quale la funzione raggiunge il suo massimoµ ▪ la mediana, la moda e la media (valore atteso) coincidono e sono pari a µ ▪ la sua f. densità presenta due flessi in corrispondenza di - e di +µ σ µ σ ▪ f(x) → 0 per x → ∞ ▪ come tutte le v.c. continue −∞ +∞ ∫ 𝑓(𝑥)𝑑𝑥 = 1 ▪ Il 68,26% dei valori sono compresi nell’intervallo µ ± σ ▪ Il 95,00% dei valori sono compresi nell’intervallo 1,96µ ± σ σ ▪ Il 95,45% dei valori sono compresi nell’intervallo 2µ ± σ σ ▪ Il 99,73% dei valori sono compresi nell’intervallo 3µ ± σ σ Distribuzione normale al variare del valore atteso σ = σ2 = 1 Distribuzione normale al variare della varianza Ulteriori proprietà: ▪ Ogni trasformazione lineare di una v.c. Normale è ancora una v.c. Normale. ▪ La somma di due v.c. Normali indipendenti è ancora una v.c. Normale con media e varianza pari, rispettivamente, alla somma delle medie e delle varianze delle due v.c. Normali. Grazie a tutte le sue proprietà, la Normale è in grado di descrivere con buona approssimazione il comportamento di un numero sorprendentemente elevato di fenomeni di natura molto diversa tra loro. La somma di un numero elevato di v.c. a media e varianza finite si distribuisce, al divergere del numero di addendi, in modo normale. Per questo motivo ▪ abbiamo la «convergenza» della Binomiale alla Normale; ▪ la Normale viene detta «curva degli errori» sperimentali; ▪ la Normale si adatta alla descrizione di una gran quantità di fenomeni che possono essere letti come somma di un certo numero di fenomeni «componenti». Distribuzione normale standard Se volessimo calcolare le probabilità che una v.c. assuma valori in un certo𝑋 ∼ 𝑁(µ 𝑒 σ2) intervallo, o la sua funzione di ripartizione F(x), dovremmo calcolare degli integrali piuttosto complicati → si ricorre alla standardizzazione per definire una v.c. Normale standard (o standardizzata), per la quale si dispone di tavole che permettono di calcolare le aree in corrispondenza di particolari intervalli di valori. Sia una v.c. Normale. La trasformazione è ancora una v.c.𝑋 ∼ 𝑁(µ 𝑒 σ2) 𝑍 = 𝑋−µ σ Normale con valore atteso nullo e varianza unitaria: ZN(0; 1) e si dice v.c. Normale standard. La funzione di densità di ZN(0; 1) sarà La funzione di densità f(z) di una Normale standard (sinistra) e la sua funzione di ripartizione (z) = P(Z ≤ z) (destra). Si nota che, se in generale per una Normale, il 95% dei valori sonoΦ compresi nell’intervallo 1,96, nella Normale standard il 95% dei valori è compreso traµ ± -1,96 e 1,96. La funzione di ripartizione (z) → (z)=F(z)=P(Z z) è tabulata per valori di z non negativi eΦ Φ ≤ sarà quindi utile per calcolare ogni tipologia di probabilità associata. Dalla proprietà di simmetria della Normale standard rispetto all’asse z = 0→E(z)=0, segue che Posso anche usare direttamente la regola: Φ(−0,4) = 1 − Φ(0,4) c) P(18 ≤ X ≤ 30) = P ( ≤ Z ≤ ) = P(−0,4 ≤ Z ≤ 2)18−20 5 30−20 5 = Φ(2) − Φ(−0,4) = Φ(2) − [1 − Φ(0,4)] = 0,9772 − (1 − 0,6554) = 0,9772 − 0,3446 = 0,6326 d) P(18 ≤ X ≤ 19) = P ( ≤ Z ≤ ) = P(−0,4 ≤ Z ≤ −0,2) = Φ(−0,2) − Φ(−0,4)18−20 5 19−20 5 = [1 − Φ(0,2)] − [1 − Φ(0,4)] = (1 − 0,5793) − (1 − 0,6554) = 0,4207 − 0,3446 = 0,0761 CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE Inferenza statistica Il momento inferenziale (ricorda: problema inverso, dal particolare al generale) riguarda due problemi distinti: ▪ valutazione numerica di un parametro (media, varianza, proporzione etc.) → problema di stima (puntuale o intervallare) ▪ valutazione di una certa affermazione su quel parametro → verifica di ipotesi Tutto questo si basa su tre elementi fondamentali: 1) campione 2) universo dei campioni 3) stimatore Popolazione e campione Una rilevazione statistica può essere di due tipi: ▪ rilevazione totale: considera tutte le unità della popolazione (censimento); ▪ rilevazione campionaria: considera un sottoinsieme ridotto di unità della popolazione, cioè un campione. La popolazione da cui viene estratto il campione può essere: ▪ finita, cioè costituita da un numero finito N di unità (es. il numero di aziende dell’Emilia-Romagna, gli investimenti annui di tutte le aziende di un paese; il numero di famiglie italiane); ▪ infinita (illimitata o virtuale), cioè composta da tutte le unità potenzialmente osservabili e non necessariamente già esistenti fisicamente (es. il numero di futuri acquirenti di un certo prodotto, i potenziali malati di una certa malattia, i membri di una certa specie animale o vegetale). Parametri di popolazione In una popolazione finita, i parametri della popolazione sono delle costanti che descrivono aspetti caratteristici della distribuzione del carattere X nella popolazione stessa. Due parametri tipici di una popolazione finita sono: N.B. N indica il numero di unità nella popolazione, mentre n la dimensione del campione. In una popolazione infinita, il carattere d’interesse può essere rappresentato da una variabile casuale X con una certa distribuzione di probabilità. I parametri descrivono quindi qualche aspetto della distribuzione della v.c. X. Due parametri tipici di una popolazione infinita sono quindi: ▪ Valore atteso μ = E(X) ▪ Varianza σ2 = 𝑉(𝑋) = 𝐸(𝑋 − 𝐸(𝑋))2 Le formule si distinguono nel caso in cui la v.c. X sia discreta o continua. ESEMPI Es. Considero la popolazione di bambini che gioca in un parco in un determinato giorno e osservo la statura (in cm), ottenendo i seguenti risultati: =110; =125; =140; =155;𝑥 1 𝑥 2 𝑥 3 𝑥 4 𝑥 5 =134. Si tratta di una popolazione finita, con N = 5, e X = «statura» è il carattere rilevato. Posso determinare, ad esempio, media e varianza: Es. Considero la popolazione di malati di una certa patologia. Da precedenti indagini, è noto che l’età dei malati segue una distribuzione Normale di parametri μ= 75 anni e = 25σ2 𝑎𝑛𝑛𝑖2 In questo caso si tratta di una popolazione infinita, dove X = «età» è una v.c. Normale X N(75; 25). Il valore atteso e la varianza sono dunque pari a∼ ▪ μ = E (X)= 75 ▪ = V (X) = 25σ2 Posso calcolare, ad esempio, P(X ≤ 75) = 0,5. Campionamento Un’indagine (rilevazione) campionaria consiste nell’estrazione e nello studio di un sottoinsieme di unità della popolazione (campione) al fine di ottenere informazioni concernenti alcuni parametri dell’intera popolazione. I vantaggi delle indagini campionarie sono i seguenti: -nelle popolazioni finite ▪ si riducono i costi ▪ si riducono i tempi di elaborazione dei dati ▪ si riducono gli errori di rilevazione dei caratteri - nelle popolazioni infinite ▪ l’analisi di un campione è l’unico strumento investigativo di cui possiamo disporre (la popolazione esiste solo come entità astratta) ▪ Per poter fare inferenza induttiva dai campioni, cioè trarre dalle caratteristiche di un campione le proprietà statistiche di un insieme di ordine superiore (popolazione finita o illimitata), è necessario che il campione sia rappresentativo della popolazione da cui proviene. ▪ Si ritiene rappresentativo un campione formato con criterio casuale: l’eventuale mancata conformità di tale insieme alla popolazione è effetto dell’errore di campionamento. ▪ L’errore campionario è attribuibile al fatto che ogni conclusione riguardante la popolazione è basata in realtà solo sull’osservazione di un suo sottoinsieme. Si possono distinguere due tipi di campioni stratificati: ▪ proporzionale: i gruppi saranno rappresentati nel campione con lo stesso peso che hanno nella popolazione; ▪ non proporzionale: le proporzioni campionarie dei vari strati non corrispondono a quelle della popolazione (utile quando si vuole rappresentare in modo numericamente rilevante uno strato poco rappresentato a livello di popolazione). Vantaggi del campionamento stratificato: ▪ stime più precise rispetto al campionamento casuale semplice, se gli strati sono ben scelti; ▪ possibilità di ottenere, oltre alla stima per l’intera popolazione, anche le stime per i singoli strati (sotto-popolazioni). Campionamento a grappoli ▪ Non sempre si dispone di una lista delle unità della popolazione. In questo caso i tipi di campioni visti prima non possono essere costruiti. Una valida alternativa è costituita dal campione a grappolo. ▪ Solitamente i campioni a grappoli si applicano quando si devono effettuare delle rilevazioni in determinate aree geografiche (città, province, e così via). ▪ Per la selezione di un campione a grappolo la popolazione deve essere suddivisa in un gran numero di grappoli come, ad es., i diversi isolati di una città. ▪ Si seleziona poi un campione casuale senza ripetizione di questi grappoli e si impiegano nello studio tutti i soggetti contenuti nei grappoli estratti. ▪ Una variante del campionamento a grappoli è il campionamento a due stadi. La differenza è che, nella fase finale della rilevazione, si va a selezionare un campione casuale delle unità appartenenti ai grappoli scelti, al posto di prenderle tutte. ▪ Poiché prima si estraggono i grappoli e poi le unità, la rilevazione prevede due momenti di campionamento, definiti stadi (estendibile al caso di più di due stadi). Campionamento a grappoli e a stadi ←1°stadio ←2°stadio ESEMPIO:CAMPIONE DI STUDENTI DI UNA LAUREA TRIENNALE Dimensione del campione La dimensione n del campione può essere determinata una volta fissati: ▪ piano di campionamento ▪ dimensione della popolazione ▪ grandezza dell’errore che si è disposti a tollerare ▪ grado di fiducia (95% o 99%) Se, invece, per esempio a causa di un budget limitato, vengono fissati: ▪ modalità di campionamento ▪ numerosità del campione possono essere calcolati gli errori massimi corrispondenti ai vari gradi di fiducia. CAMPIONAMENTO DA POPOLAZIONI FINITE Concetti e teoremi probabilistici Per introdurre il campionamento da popolazioni infinite, abbiamo bisogno di utilizzare alcuni concetti e teoremi di ambito probabilistico: ▪ Successione di variabili casuali ▪ Convergenza in distribuzione ▪ Teorema del Limite Centrale Una successione di variabili casuali … è una sequenza di variabili casuali la cui𝑥 1 , 𝑥 2 , 𝑥 3 ,.., 𝑥 𝑛 distribuzione può dipendere dal pedice delle variabili. Esempio.𝑋 1 ∼ 𝐵𝑖𝑛 1, π( ), 𝑋 2 ∼ 𝐵𝑖𝑛 2, π( ), 𝑋 3 ∼ 𝐵𝑖𝑛 3, π( ) È importante studiare la convergenza di una successione di variabili casuali, in particolare ci occupiamo della convergenza in distribuzione, che mette in relazione la funzione di ripartizione delle v.c. della successione con la funzione di ripartizione di una v.c. X. Una successione di variabili casuali con funzione di ripartizione𝑋 1 , 𝑋 2 , 𝑋 3,.. 𝐹 1 (𝑥),𝐹 2 (𝑥), 𝐹 3 (𝑥) ,...converge in distribuzione ad una v.c. X se, per tutti i punti in cui F(x) è continua, si ha: 𝑛 +∞ lim → 𝐹 𝑛 (𝑥) = 𝐹(𝑥) La convergenza in distribuzione è alla base del Teorema del Limite Centrale Nota bene Ricorda: data una v.c. X e le costanti a, b: e𝐸(𝑎 + 𝑏𝑋) = 𝑎 + 𝑏 𝐸(𝑋) 𝑉(𝑎 + 𝑏𝑋) = 𝑏2𝑉(𝑋) Inoltre: ▪ Data una v.c. doppia (X,Y), tra le due variabili c’è indipendenza se la loro distribuzione di probabilità congiunta può essere espressa nel prodotto delle distribuzioni marginali, quindi se: - P(x,y) = P(x)P(y) se v.c. discrete - f(x,y) = f(x)f(y) se v.c. continue Il concetto di indipendenza tra v.c. è estendibile a più di due variabili. ▪ Date n v.c. indipendenti e identicamente distribuite (i.i.d.) con valore atteso μ𝑋 1 , 𝑋 2 , 𝑋 3 ,.., 𝑋 𝑛 e varianza :σ2 ESEMPIO:CIRCUITI ELETTRONICI Consideriamo un’industria che produce circuiti elettronici. In questo caso è di interesse la qualità dei circuiti prodotti dall’apposito macchinario giacché il processo produttivo deve fornire prodotti di elevata precisione. La popolazione di riferimento è costituita dall’insieme di tutti i circuiti elettronici che questo è in grado di produrre nel lungo periodo, operando sempre nelle stesse condizioni. Viceversa il campione è dato da un numero n di circuiti elettronici estratti a caso fra quelli effettivamente prodotti. Ci interessa stabilire la conformità dei circuiti alle specifiche: per ogni circuito osservato siamo in grado di stabilire se esso è conforme oppure no. Indichiamo con X la v.c. esito dell’ispezione. I valori possibili sono: ▪ x = 0: circuito non conforme →difettoso=insuccesso ▪ x = 1: circuito conforme→non difettoso=successo Dunque abbiamo che 𝑋 ∼ 𝐵𝑒𝑟(π) P(X = 1) =π P(X = 0) = 1-π La probabilità che un circuito sia conforme (cioè ) è il parametro incognito che caratterizzaπ la distribuzione di X in popolazione. Non sappiamo quindi con che probabilità i circuiti prodotti dal macchinario saranno conformi → cerchiamo di accumulare informazioni estraendo un campione. Iniziamo ad estrarre un certo numero di unità n dalla popolazione. L’osservazione di un primo circuito (estrazione di una prima unità campionaria dalla popolazione) può essere descritta da una variabile casuale che può assumere valori 1𝑋 1 e 0 con probabilità P( = 1) = e P( = 0) = 1- → .𝑋 1 π 𝑋 1 𝑋 1 ∼ 𝐵𝑒𝑟(π) E’ facile notare che ha la stessa distribuzione di X in popolazione. Indichiamo con𝑋 1 𝑥 1 il valore osservato dell’esito del primo circuito: questo valore sarà 0 oppure 1. Analogamente, l’osservazione di un secondo circuito «genera» una nuova v.c. di𝑋 2 Bernoulli, , tale che P( = 1) = e P( = 0) = 1- → Ancora una volta, ha𝑋 2 ∼ 𝐵𝑒𝑟(π) 𝑋 2 π 𝑋 2 π 𝑋 2 la stessa distribuzione (Bernoulliana) della v.c. X in popolazione. In pratica noi osserveremo la realizzazione della v.c.𝑥 2 𝑋 2 . L’osservazione di n circuiti successivi può essere descritta dalle variabili casuali (o dalla variabile casuale multipla) , …, di cui osserveremo una realizzazione ,𝑋 1 , 𝑋 2 , 𝑋 3 𝑋 𝑛 𝑥 1 , 𝑥 2 , 𝑥 3 …, che chiamiamo campione. In questo caso il campione sarà costituito da una𝑥 𝑛 successione di 1 e 0, che indicherà circuiti conformi e non conformi. Se n = 1: abbiamo due possibili campioni Ω = {(0), (1)}. Avremo probabilità di osservare il campione contenente 1 (circuito conforme) e 1 - diπ π osservare il campione contenente 0 (circuito non conforme). Se n = 2: 𝑃(𝑥 1 = 0) * 𝑃(𝑥 2 = 1) (1 − π) * (1 − π) *𝑃(𝑥 1 = 0) 𝑃(𝑥 2 = 1) 𝑃(𝑥 1 = 1) * 𝑃(𝑥 2 = 1) *π π Se n > 2: osserveremo sequenze di 1 e 0 più lunghe, le combinazioni possibili diventano di più e quindi l’universo dei campioni avrà cardinalità maggiore. Statistiche campionarie Sia , …, un campione casuale di n osservazioni appartenente ad una certa𝑋 1 , 𝑋 2 , 𝑋 3 𝑋 𝑛 popolazione. Una statistica campionaria (o statistica) è una funzione a valori reali della n-pla campionaria , …,𝑋 1 , 𝑋 2 , 𝑋 3 𝑋 𝑛 Esempi di statistiche campionarie: Poiché una statistica campionaria è funzione di variabili casuali, anch’essa è una variabile casuale. In generale una statistica campionaria assume valori diversi a seconda del particolare campione estratto, quindi la probabilità che una statistica assuma un certo valore è pari alla probabilità complessiva di tutti i campioni per i quali si ottiene tale valore. Per questo motivo, la distribuzione di probabilità di una statistica viene chiamata distribuzione campionaria. Distribuzione della media campionaria Sia X una v.c. di interesse qualsiasi tale che e sia , …, un𝐸(𝑋) =µ 𝑉(𝑋) =σ2𝑋 1 , 𝑋 2 , 𝑋 3 𝑋 𝑛 campione casuale dalla popolazione X. Allora, e per ogni i = 1,…,n.𝐸(𝑋 𝑖 ) =µ 𝑉(𝑋 𝑖 ) =σ2 Sia = la media campionaria.𝑋 1 𝑛 𝑖=1 𝑛 ∑ 𝑋 𝑖 Il valore atteso della media campionaria è uguale alla media della popolazione, ossia: 𝐸(𝑋) =µ La varianza della media campionaria è uguale alla varianza della popolazione divisa per n, ossia: 𝑉(𝑋) = σ2 𝑛 Se la distribuzione della popolazione è Normale, cioè se , allora la distribuzione𝑋 ∼ 𝑁(µ; σ2) della media campionaria è ancora Normale: 𝑋 ∼ 𝑁 µ; σ2 𝑛( ) Sul piano concettuale, quando utilizziamo la v.c. Normale per descrivere un fenomeno, occorre tenere ben distinto che: ▪ consiste in un’ipotesi su come il carattere che stiamo studiando si distribuisce𝑋 ∼ 𝑁(µ; σ2) nella popolazione. Rappresenta una descrizione («formalizzata» in termini matematici) della variabilità naturale del fenomeno; ▪ riguarda invece la distribuzione dei risultati possibili di una statistica𝑋 ∼ 𝑁 µ; σ2 𝑛( ) campionaria (la media) rispetto all’insieme dei campioni che è possibile estrarre. Rappresenta una descrizione della variabilità dei risultati che si otterrebbero eseguendo ripetutamente il campionamento. Il calcolo della distribuzione esatta della media campionaria è relativamente semplice nel caso in cui la distribuzione della variabile X sia Normale (vedi slide precedente). La distribuzione esatta della media campionaria può essere ottenuta anche nel caso di campionamento Bernoulliano (non verrà discussa). Purtroppo, ad eccezione di alcuni casi particolari, la distribuzione esatta è difficile da determinare, ma possiamo ottenere facilmente una distribuzione approssimata grazie al Teorema del Limite Centrale → Sia la media campionaria di un campione di dimensione n𝑋 e a sua standardizzazione, applicando il Teorema del Limite Centrale avremo:(𝑋−µ) σ/ 𝑛 dove Z è una v.c. Normale standardizzata. Quindi, anche quando X non si distribuisce come una Normale nella popolazione di riferimento, per numerosità campionarie sufficientemente elevate, la distribuzione della media campionaria standardizzata è approssimativamente una Normale standard. Per campione sufficientemente grande si intende un campione formato da almeno n = 30 unità campionarie. Stimatore e stima Sia , , …, un campione casuale di n osservazioni appartenente ad una certa𝑋 1 𝑋 2 𝑋 𝑛 popolazione. Abbiamo già definito la statistica campionaria (o statistica) come una funzione a valori reali della n-pla campionaria X1 , X2 , …, Xn . Uno stimatore è una statistica, quindi una variabile casuale, utilizzata per stimare una determinata caratteristica θ della popolazione, e sarà indicato con T = t( , …, )𝑋 1 , 𝑋 2 , 𝑋 3 𝑋 𝑛 Il valore assunto da uno stimatore in corrispondenza di un particolare campione verrà detto stima e indicato con t = t( , …, )𝑥 1 , 𝑥 2 , 𝑥 3 𝑥 𝑛 La teoria dell’universo dei campioni ci permette di giudicare il comportamento di una particolare statistica campionaria (es. la media), analizzandone il comportamento su tutti i potenziali campioni estraibili dalla popolazione. Una qualsiasi statistica campionaria, funzione della dimensione n del campione, è uno stimatore, quantità campionaria destinata a fornire una valutazione adeguata di un dato parametro della popolazione. Lo stimatore potrà assumere vari valori al variare del campione. Il valore realizzato sul campione effettivamente osservato si chiama stima. ESEMPIO Osservo le seguenti realizzazioni campionarie provenienti da una certa popolazione: (2, 5, 3, 6, 4, 4, 1, 2, 2, 5) n=10 Il parametro di popolazione da stimare è θ = μ (media aritmetica). Proponiamo come stimatore la media aritmetica campionaria: =𝑋 1 10 𝑖=1 10 ∑ 𝑋 𝑖 Una stima è dunque: = 3,4→𝑥 2+5+3+6+4+4+1+2+2+5 10 Stima puntuale per μ La stima è quindi una realizzazione della v.c. T = t( , …, ) ossia dello stimatore.𝑋 1 , 𝑋 2 , 𝑋 3 𝑋 𝑛 Essendo una variabile casuale, uno stimatore ha una sua distribuzione campionaria la cui conoscenza permette di capire se lo stimatore prescelto produrrà con elevata probabilità stime «vicine» al valore vero del parametro. Lo stimatore è uno strumento teorico che permette di dare dei giudizi sulla bontà della stima. È necessario individuare lo stimatore più adeguato per stimare i parametri della popolazione e quindi studiare le proprietà degli stimatori Ricorda stimatori che useremo (in particolare la media campionaria) sono combinazioni lineari di variabili casuali. Ricordiamo che: Data una v.c. X e le costanti a, b: 𝐸(𝑎 + 𝑏𝑋) = 𝑎 + 𝑏𝐸(𝑋) 𝑒 𝑉(𝑎 + 𝑏𝑋) = 𝑏2𝑉(𝑋) Date n v.c. , , …, indipendenti e identicamente distribuite con valore atteso μ e𝑋 1 𝑋 2 𝑋 3 varianza :σ2 Proprietà degli stimatori In generale, per un problema di stima possiamo scegliere tra più stimatori alternativi. Esistono diversi metodi per la costruzione degli stimatori (es. minimi quadrati, massima verosimiglianza, etc…). Occorre quindi definire le proprietà che uno stimatore deve possedere per essere preferito agli altri. Le proprietà degli stimatori vengono distinte in: ▪ esatte o finite: sono definite per una dimensione campionaria n finita e prefissata; ▪ asintotiche: sono definite per una dimensione campionaria n che tende a infinito (si riferiscono quindi al comportamento degli stimatori al crescere della dimensione campionaria). Correttezza È la proprietà più intuitiva per uno stimatore. Uno stimatore T di un parametro θ è corretto se il suo valore atteso è uguale al valore del parametro incognito, quindi se E(T) = θ per tutti i possibili valori di θ. Non sappiamo dunque se la stima ottenuta sul singolo campione realizzato sia buona o meno: la correttezza consiste nel richiedere che questa stima sia almeno basata su una regola buona "in media". Nella figura si vede che è uno stimatore corretto, mentre non𝑇 1 𝑇 2 lo è (si dice quindi «distorto»). Distorsione Quando E(T) ≠ θ per qualche valore di θ, lo stimatore T si dice distorto. La distorsione di uno stimatore T di θ è uguale a B(T) = E(T) - θ Quindi, T è uno stimatore corretto solo se la sua distorsione (B = bias) è pari a zero. Esempio . Osserviamo un campione casuale semplice di n = 10 osservazioni provenienti da una popolazione con media incognita μ, che vogliamo stimare. Proponiamo i due stimatori: = ( + + … + ) /10 e = ( + + … + ) /5.𝑇 1 𝑋 1 𝑋 2 𝑋 10 𝑇 2 𝑋 1 𝑋 2 𝑋 10 Consistenza media quadratica In generale è auspicabile che all’aumentare della dimensione campionaria cresca il livello di informazione che uno stimatore fornisce sul parametro incognito θ. È quindi importante studiare il comportamento di uno stimatore al crescere della dimensione campionaria n. Sia uno stimatore di θ (il pedice n indica la dipendenza dello stimatore dalla𝑇 𝑛 numerosità campionaria). è consistente in media quadratica se𝑇 𝑛 Quindi uno stimatore è consistente in media quadratica se la sua varianza e la sua distorsione tendono a zero al crescere della dimensione campionaria → al crescere di n, la distribuzione campionaria di si addensa sempre di più attorno a θ.𝑇 𝑛 Si tratta dunque di una proprietà asintotica. Correttezza asintotica Sia uno stimatore di θ (il pedice n indica la dipendenza dello stimatore dalla numerosità𝑇 𝑛 campionaria). è asintoticamente corretto se𝑇 𝑛 per ogni possibile valore di θ. Poiché uno stimatore è consistente in media quadratica se sia la sua varianza sia la sua distorsione tendono a zero al crescere della dimensione campionaria, ne consegue che uno stimatore consistente in media quadratica sarà anche asintoticamente corretto. Si tratta di una proprietà asintotica. Stima puntuale della media di una popolazione Sia , , …, un campione casuale di dimensione n proveniente da una popolazione X𝑋 1 𝑋 2 𝑋 𝑛 con media μ = E(X) e varianza = V(X)σ2 Sia = →stimatore𝑋 1 𝑛 𝑖=1 𝑛 ∑ 𝑋 𝑖 Come noto, il valore atteso della media campionaria è uguale alla media della popolazione, ossia: E ( ) = μ→parametro incognito di popolazione𝑋 La varianza della media campionaria è uguale alla varianza della popolazione divisa per n, ossia: 𝑉(𝑋) = σ2 𝑛 Quindi: ▪ La media campionaria è uno stimatore corretto per μ, infatti: E = μ (qualunque𝑋 (𝑋) distribuzione abbia X in popolazione). ▪ L’errore quadratico medio di coincide con la varianza: MSE = V =𝑋 (𝑋) (𝑋) σ2 𝑛 ▪ La media campionaria è uno stimatore consistente per μ, infatti:𝑋 Inoltre, come già noto, se la distribuzione della popolazione è Normale, cioè se 𝑋 ∼ 𝑁 µ; σ2( ), allora la distribuzione della media campionaria è ancora Normale: Distribuzione della media campionaria per una popolazione X Normale con media = 3 eµ varianza 10 rispetto a tre diverse dimensioni campionarie → all’aumentare di n, laσ2 = distribuzione della media campionaria tende a concentrarsi attorno alla media di popolazione. Stima puntuale della proporzione in una popolazione Siamo interessati a stimare la proporzione di unità di una popolazione che presentano una certa caratteristica, ad esempio, la quota di votanti per un certo partito o la proporzione di clienti che acquisterà un certo prodotto finanziario. Per stimare la proporzione si ricorre alle proprietà già note della media campionaria, partendo però da una popolazione Bernoulliana. Esempio. Vogliamo stimare la proporzione di clienti che intende stipulare un mutuo prima casa nei prossimi 5 anni. Si estrae un campione casuale di 10 clienti, ottenendo i seguenti risultati: sì, no, sì, sì, sì, no, no, no, no, no. Possiamo modellare questo esperimento con una successione di variabili Bernoulliane, ponendo X = 1 «il cliente intende stipulare un mutuo» e X = 0 «il cliente non intende stipulare un mutuo». I nostri dati potranno quindi essere riscritti come: ( , , …, ) = (1, 0, 1, 1, 1, 0, 0, 0, 0, 0)𝑥 1 𝑥 2 𝑥 10 Intuitivamente, possiamo stimare la proporzione come «n. successi su n prove / n» quindi come «numero di clienti che intendono stipulare un mutuo sul totale dei clienti campionati», ossia: 4/10 = 0,4. In pratica, ho calcolato una media, ossia =𝑥 1 𝑛 𝑖=1 𝑛 ∑ 𝑥 𝑖 = 1 10 (1 + 0 + 1 + 1 + 1 + 0 + 0 + 0 + 0 + 0) = 0, 4 Questo calcolo è equivalente a: /n dove è il numero di successi su n prove.𝑛 1 𝑛 1 Consideriamo dunque un campione casuale X1 , X2 , …, Xn di dimensione n proveniente da una popolazione X Bernoulliana, con media E(X) = π e varianza V(X) = π (1 – π), dove π è la probabilità di successo. Il parametro che vogliamo stimare è proprio π che rappresenta, in popolazione, la proporzione incognita. Utilizziamo quindi lo stimatore media campionaria =𝑥 1 𝑛 𝑖=1 𝑛 ∑ 𝑥 𝑖 Come noto, il valore atteso della media campionaria è uguale alla media della popolazione, in questo caso : E( ) = π, per ogni 0 ≤ π ≤ 1𝑋 La varianza della media campionaria è uguale alla varianza della popolazione divisa per n, ossia:𝑉(𝑋) = π(1−π) 𝑛 Quindi, anche con una popolazione Bernoulliana: ▪ La media campionaria è uno stimatore corretto per π, infatti: E( ) = π𝑋 𝑋 ▪ L’errore quadratico medio di coincide con la varianza: MSE( )=𝑋 𝑋 𝑉(𝑋) = π(1−π) 𝑛 ▪ La media campionaria è uno stimatore consistente per π, infatti:𝑋 Stima puntuale della varianza in una popolazione Sia , , …, un campione casuale di dimensione n proveniente da una popolazione X𝑋 1 𝑋 2 𝑋 𝑛 qualsiasi con valore atteso E(X) = μ e varianza V(X) = . Vogliamo stimare la varianzaσ2 σ2 incognita di popolazione. Si propone lo stimatore denominato varianza campionaria corretta: dove = è la media campionaria. La corrispondente stima si indica con .𝑥 1 𝑛 𝑖=1 𝑛 ∑ 𝑥 𝑖 𝑠2 Perché non si propone lo stimatore «varianza campionaria» in cui si divide semplicemente per n e non per (n – 1)? Perché la varianza campionaria corretta ha delle proprietà migliori, infatti: ▪ La varianza campionaria corretta è uno stimatore corretto per ,infatti𝑠2 σ2 𝐸(𝑆2) = σ2, ∀ σ2 > 0 ▪ La varianza campionaria corretta è uno stimatore consistente per , infatti:𝑆2 σ2 (non vediamo esplicitamente la formula del MSE o della varianza dello 𝑛 +∞ lim → 𝑀𝑆𝐸(𝑆2 𝑛 ) = 0 stimatore, che coincidono) Sia , , …, un campione casuale di dimensione n proveniente da una popolazione in𝑋 1 𝑋 2 𝑋 𝑛 cui si il carattere X è una v.c. definita da una certa funzione di probabilità f(X; ) dipendente dal parametro incognito . Sia , , …, il corrispondente campione osservato.θ 𝑥 1 𝑥 2 𝑥 𝑛 L’obiettivo della stima intervallare è quello di determinare due statistiche campionarie: L1 = ( , , …, ) e = ( , , …, )𝐿 1 = 𝐿 1 𝑋 1 𝑋 2 𝑋 𝑛 𝐿 2 𝐿 2 𝑋 1 𝑋 2 𝑋 𝑛 tali che < per ogni possibile campione, e che l’intervallo [ , ] contenga il parametro𝐿 1 𝐿 2 𝐿 1 𝐿 2 con probabilità 1 - . N.B. Gli estremi dell’intervallo [ , ] sono v.c., quindi l’intervallo stesso𝐿 1 𝐿 2 viene detto intervallo casuale. L’intervallo casuale [ ( , , …, ), ( , , …, )] si definisce intervallo di𝐿 1 𝑋 1 𝑋 2 𝑋 𝑛 𝐿 2 𝑋 1 𝑋 2 𝑋 𝑛 confidenza (IC) di livello 1 - per un parametro se contiene con probabilità 1 - ilα α parametro incognito di popolazione, ossia se: P[ ( , , …, ) ( , , …, )] = 1 -𝐿 1 𝑋 1 𝑋 2 𝑋 𝑛 ≤ θ ≤ 𝐿 2 𝑋 1 𝑋 2 𝑋 𝑛 α Di norma, = 0,10 o 0,05 o 0,01 quindi 1 - = 0,90 o 0,95 o 0,99. Nella pratica si usa direα α «intervallo di confidenza al 100(1- )%» → es. un intervallo di confidenza al 95% è unα intervallo con livello di confidenza 0,95. ESEMPIO: COSTRUZIONE DI UN IC PER LAMEDIA Al fine di tenere sotto controllo la qualità del processo di produzione, un’azienda è interessata a conoscere con estrema precisione la lunghezza dei pezzi prodotti da un macchinario. A tal fine estrae casualmente 10 pezzi ottenendo le seguenti osservazioni: (10,18; 10,56; 10,86; 10,27; 11,03; 10,39; 10,92; 10,26; 10,52; 10,74). Si ipotizzi che la distribuzione della popolazione sia Normale con media incognita e varianza nota pari aµ σ2 0,1. Vogliamo costruire un intervallo di confidenza (IC) per .µ Che cosa sappiamo? ( ; 0,1), incognita; varianza nota = 0,1; n = 10.𝑋 ∼ 𝑁 µ µ σ2 Possiamo utilizzare lo stimatore media campionaria = per fornire una stima𝑋 1 𝑛 𝑖=1 𝑛 ∑ 𝑥 𝑖 puntuale della media, quindi: = 10,573. Ma come costruisco un IC per ?𝑥 µ Della media campionaria, sappiamo che ( ; ) ossia ( ; ) quindi:𝑋 ∼ 𝑁 µ σ2 𝑛 𝑋 ∼ 𝑁 µ 0,1 10 Dalla tavola della Normale standard, si può verificare che: Equivalentemente: La probabilità di estrarre un campione la cui media sia distante da meno di 0,196 è pari aµ 0,95: se costruiamo intervalli intorno alla media campionaria del tipo[ − 0,196; + 0,196] ,𝑋 𝑋 questi conterranno con probabilità 0,95. Quindi: P( − 0,196 ≤ μ ≤ + 0,196) = 0,95𝑋 𝑋 L’intervallo determinato da P ( − 0,196 ≤ μ ≤ + 0,196) = 0,95 è ancora un intervallo𝑋 𝑋 casuale, ed è proprio l’intervallo di confidenza ricercato. Quindi, prima dell’estrazione del campione, possiamo affermare che la probabilità che l’intervallo contenga il valore vero del parametro μ è 0,95. Una volta estratto il campione, si ottiene un intervallo stimato avente come estremi due valori numerici ben definiti (intervallo di confidenza stimato). Quindi, può essere interno o esterno a tale intervallo. Nella figura (immaginando di avere estratto 6 campioni) per esempio vediamo che cinque intervalli su sei contengono μ. Non ha più senso parlare di «probabilità» che sia contenuto nell’intervallo (l’esperimento è avvenuto). Dopo l’estrazione del campione, si parla di grado di fiducia o confidenza che l’intervallo stimato contenga effettivamente μ. In questo esempio, calcolato = 10,573, l’intervallo di confidenza stimato avrà come𝑥 estremi: − 1,96 ∙ 0,1 = 10,573 − 0,196 = 10,377𝑥 + 1,96 ∙ 0,1 = 10,573 + 0,196 = 10,769𝑥 Quindi, mi aspetto con un livello di confidenza (o di fiducia) del 95% che l’intervallo [10,377; 10,769] comprenda la lunghezza media incognita nella popolazione dei pezzi prodotti dal macchinario. Intervallo di confidenza per la media caso popolazione normale con varianza nota(I caso)σ2 Si assuma una popolazione Normale con varianza nota. Quindi: ( ; ) con nota.𝑋 ∼ 𝑁 µ σ2 σ2 Siamo interessati a fornire una stima intervallare per la media incognita di popolazione .µ Sappiamo che ( ; ) e dunque che .𝑋 ∼ 𝑁 µ σ2 𝑛 𝑍 = 𝑋−µ σ 𝑛 ∼ 𝑁(0; 1) Indichiamo con il quantile della Normale standardizzata tale che .𝑧 α/2 𝑃(𝑍 > 𝑧 α/2 ) = α/2 Per simmetria, si avrà anche . Quindi:𝑃(𝑍 − 𝑧 α/2 ) = α/2 Seguendo gli stessi passi dell’esempio precedente, si ricava che, dato un campione casuale , , …, estratto da una popolazione Normale con varianza nota, l’intervallo di𝑥 1 𝑥 2 𝑥 𝑛 confidenza per la media al livello (1 - ) sarà uguale a:α ESERCIZIO 1 Intervallo di confidenza per la media caso popolazione normale con varianza non nota(II caso)σ2 Si assuma una popolazione Normale con varianza non nota. Quindi: con e𝑋 ∼ 𝑁(µ; σ2) µ σ2 entrambi incogniti. Siamo interessati a fornire una stima intervallare per la media incognita di popolazione . Uno stimatore appropriato per è è la varianza campionaria corretta:σ2 Quindi, nel processo di standardizzazione della media campionaria, si sostituisce con conσ2 ossia con ottenendo un v.c. t di Student con (n - 1) gradi di libertà.𝑆2 σ 𝑆2 = 𝑆 Si dimostra infatti che Student (n-1). Indichiamo con il quantile della𝑇 = 𝑋−µ 𝑆 𝑛 ∼ 𝑡 α 2 ;𝑛 − 1 distribuzione t di Student con n – 1 gradi di libertà tale che =𝑃(𝑇 > 𝑡 α 2 ; 𝑛 − 1) α/2 Per simmetria, si avrà anche = . Quindi:𝑃(𝑇 < 𝑡 α 2 ; 𝑛 − 1) α/2 Si ricava quindi che, dato un campione casuale , , …, estratto da una popolazione𝑥 1 𝑥 2 𝑥 𝑛 Normale con varianza non nota, l’intervallo di confidenza per la media al livello (1 - ) sarൠα uguale a: Indicando con , , …, i dati osservati, l’intervallo di confidenza stimato sarà:𝑥 1 𝑥 2 𝑥 𝑛 Come individuare ? Si ricava dalla tavola della t di Student, fissati n - 1 (prima 𝑡 α 2 ;𝑛 − 1 colonna) e il valore di /2 corrispondente all’area della coda destra (prima riga). Ad esempio,α dato n = 20 e fissato 1 - = 0,95 si avrà: = 0,05 e /2 = 0,025. Quindi, il valore ricercatoα α α sarà = 𝑡 α 2 ;𝑛 − 1 𝑡 0,025;19 = 2, 0930 ESERCIZIO 2 Schema riassuntivo - IC per la media N.B. Per la costruzione di intervalli di confidenza per la media l’ipotesi di normalità non è necessaria se la dimensione del campione è elevata. Nel caso di grandi campioni, si usa sempre l’approssimazione alla Normale. Intervallo di confidenza per la proporzione caso grandi campioni Consideriamo un campione casuale , , …, di dimensione n proveniente da una𝑋 1 𝑋 2 𝑋 𝑛 popolazione X Bernoulliana, con media E(X) = π e varianza V(X) = π (1 – π), dove π è la probabilità di successo. Il parametro che vogliamo stimare è proprio π che rappresenta, in popolazione, la proporzione incognita. Come già noto, la stima puntuale viene effettuata ricorrendo allo stimatore media campionaria = con valore atteso E( )= π , per ogni 0 ≤ π ≤ 1 e𝑋 1 𝑛 𝑖=1 𝑛 ∑ 𝑋 𝑖 𝑋 varianza V( )=𝑋 π(1−π) 𝑛 Nel caso di grandi campioni, possiamo ricorrere all’approssimazione Normale, utilizzando il Teorema del Limite Centrale. Quindi, per n sufficientemente grande, la seguente variabile standardizzata tende a distribuirsi come una Normale standard Inoltre, poiché è uno stimatore consistente per π, anche lo stimatore (1 - ) tenderà a𝑋 𝑋 𝑋 π (1 – π). Quindi, sempre nel caso di grandi campioni, anche la seguente variabile tende a distribuirsi come una Normale standard: Z= Utilizzando la solita procedura per la costruzione dell’intervallo di confidenza, avremo: Ne consegue che l’intervallo di confidenza per la proporzione al livello (1 - ) potrà essereπ α approssimato come: Indicando con , , …, i dati osservati, l’intervallo di confidenza stimato sarà:𝑥 1 𝑥 2 𝑥 𝑛 ESERCIZIO 4 TEST PER LA VERIFICA DI IPOTESI Verifica di ipotesi La verifica statistica di ipotesi è una procedura in base alla quale, in funzione del campione osservato, si decide se rifiutare o meno un’ipotesi su un parametro incognito dellaθ popolazione di riferimento. Nei problemi di verifica delle ipotesi si procede: ▪ avanzando un’ipotesi su un parametro della distribuzione generatrice dei dati in popolazione (es: = 100, = 0,5 etc…);µ π ▪ decidendo, sulla base di un campione, se l’ipotesi formulata è «plausibile» oppure no. Per ipotesi statistica si intende una congettura su un parametro della popolazione. Attraverso la verifica di ipotesi possiamo rispondere a domande del tipo: ▪ un nuovo trattamento è efficace nell’abbassare la pressione sanguigna? ▪ il consumo medio delle famiglie italiane è rimasto costante rispetto a quello dell’anno precedente? ▪ una campagna pubblicitaria ha mostrato efficacia nello spostare le preferenze dei consumatori? ▪ il livello medio di concentrazione di polveri sottili in una data città è pari al livello tollerato stabilito per legge? L’ipotesi da sottoporre a verifica (ipotesi nulla) su un parametro incognito di popolazione viene indicata con ed è espressa come segue:𝐻 0 𝐻 0 : θ = θ 0 Essa implica che una qualunque differenza tra la stima nel campione e il valore θ 0 attribuito al parametro sia dovuta al solo errore di campionamento. Esistono due approcci differenti per affrontare la verifica di ipotesi: ▪ Teoria della significatività (R.A. Fisher): prevede il controllo dell’ipotesi nulla 𝐻 0 che può essere rifiutata o non rifiutata. ▪ Teoria dei test di ipotesi (Neyman e Pearson): contrappone all’ipotesi nulla 𝐻 0 un’ipotesi alternativa ; il rifiuto della prima implica necessariamente l’accettazione𝐻 1 della seconda (sarà la nostra impostazione). In entrambi le teorie il test statistico rappresenta il criterio di valutazione dell’ipotesi nulla e la statistica test rappresenta la v.c. che il test descrive nell’universo dei campioni. Sistema di ipotesi da sottoporre a verifica con tutte ipotesi semplici: 𝐻 0 : µ = µ 0 𝐻 1 : µ ≠ µ 0 ▪ L’errore che si commette rifiutando quando è vera, si dice errore di I tipo (o di I𝐻 0 specie). La probabilità di commettere un errore di I tipo viene indicata con ed esprime il rischio che siamo risposti a correre nel rifiutare quando è vera:𝐻 0 = P(rifiutare | è vera) = livello di significativitàα 𝐻 0 𝐻 0 ▪ Di conseguenza, 1 - (coefficiente di confidenza) sarà la probabilità di accettare H0α quando è vera, quindi di prendere una decisione corretta: 1 - = P(accettare | è vera)α 𝐻 0 𝐻 0 ▪ La probabilità viene fissata a priori prima di eseguire il test. Di solito, si pone piuttosto piccola, pari a 0,01 o 0,05. Si dice quindi che il livello di significatività è pari all’1% o al 5%α (più raro: 10%). Verifica di ipotesi:procedimento ▪ Si individua una v.c. nell’universo dei campioni, detta appunto statistica test. Ad esempio, per un test sulla media, si utilizzerà la v.c. media campionaria. ▪ La distribuzione della statistica test viene definita ipotizzando vera l’ipotesi nulla .𝐻 0 Si hanno quindi tutti i valori compatibili con e l’universo dei campioni ad essa𝐻 0 associato. ▪ Per decidere sulle sorti dell’ipotesi nulla si ragiona come segue: si rifiuta quando il𝐻 0 test cade nella regione di rifiuto, poiché è piccola la probabilità di ottenere un tale risultato solo a causa dell’errore di campionamento. ▪ La regola consiste dunque nel dubitare della completa casualità di un risultato che ha una probabilità molto piccola di avverarsi sotto , in tal caso il risultato campionario𝐻 0 si dice «significativo» della presenza di fattori non accidentali. ▪ Sulla base del ragionamento precedente su , la distribuzione della statistica test,α vera l’ipotesi nulla , viene suddivisa in due regioni: quella di rifiuto e quella di𝐻 0 accettazione di .𝐻 0 ▪ Si attribuisce una probabilità pari a alla regione di rifiuto di , mentre la restante𝐻 0 quota 1 - viene attribuita alla regione di accettazione. Quindi, alla regione di rifiutoα appartengono i valori della statistica test che presentano una probabilità molto bassa di verificarsi, mentre alla regione di accettazione quelli con probabilità più elevata. ▪ Esempio. Nella figura sottostante si fa un’ipotesi su un generico parametro specificandoθ un’alternativa unidirezionale. Si assume una distribuzione Normale per la statistica test → il valore indicato con che delimita le due aree è detto valore critico.𝑧 α Verifica di ipotesi:fasi 1) Definizione dell’ipotesi nulla (e della sua alternativa) 2) Scelta della statistica test 3) Determinazione della distribuzione della statistica test sotto l’ipotesi nulla 4) Calcolo della statistica test nel campione osservato 5) Confronto del valore trovato con il valore critico che definisce l’area di accettazione e quella di rifiuto ESEMPIO:bustine di zucchero Secondo il responsabile vendite dell’azienda Beta che produce bustine di zucchero, il peso medio delle bustine prodotte è pari a 10 gr con deviazione standard pari a 2 gr. Il direttore di un supermercato che acquista questo prodotto dall’azienda Beta ha controllato il peso di 60 bustine nell’ultimo mese, ottenendo un peso medio di 10,6 gr. Questo risultato è compatibile con la dichiarazione del responsabile dell’azienda Beta? Controllare al livello di significatività del 5%. 1) Definizione del sistema di ipotesi, dove è il peso delle bustine di zucchero in popolazione 2) Scelta della statistica test: ipotizziamo che X = peso delle bustine, abbia una distribuzione Normale con media incognita e varianza nota (quella dichiarata), ossia = 2 (radice dellaµ σ varianza). Utilizziamo la media campionaria: 3) Determinazione della statistica test sotto l’ipotesi nulla: Si fa riferimento alla Normale standardizzata perché abbiamo i valori tabulati, quindi la statistica test che useremo sarà: 4) Calcolo della statistica test nel campione osservato: 5) Confronto del valore trovato con il valore critico: l’ipotesi alternativa è bidirezionale, quindi viene ripartita nelle due code destra e sinistra (prova a fare il grafico!). In fondo alla tavola della Normale standard troviamo alcuni valori tipici di e i corrispondenti quantili Nel nostro caso avremo due valori critici (avendo una zona di rifiuto a destra e una a sinistra), ossia: = − = −1,96 e = = 1,96. Poiché il valore− 𝑧 𝑎 2 𝑧 0,025 𝑧 𝑎 2 𝑧 0,025 osservato 2,32 cade nella regione di rifiuto (> 1,96) si rifiuta l’ipotesi nulla al livello di significatività del 5%. Nel linguaggio della statistica si dice che la differenza osservata tra la media campionaria e la media teorica (μ0= 10) è «significativa» al livello = 0,05. Si usa direα anche che «il test è significativo al livello del 5%» intendendo, in questo esempio, che la media è significativamente diversa da 10 . Errori di I tipo e II tipo Come già ricordato, il test statistico è basato su un campione (soggetto quindi ad errore campionario). Non è possibile costruire una regola esente da errore, infatti rifiutare o accettare comporta inevitabilmente il rischio di commettere un errore.𝐻 0 Per risolvere l’esempio precedente, abbiamo fissato la probabilità dell’errore di I tipo .α ▪ Come già visto, l’errore che si commette rifiutando quando è vera, si dice errore di𝐻 0 I tipo (o di I specie) e la probabilità a esso associata è pari a: = P(rifiutare | è vera)α 𝐻 0 𝐻 0 ▪ Il coefficiente di confidenza (1 - ) è la probabilità di accettare quando è vera,α 𝐻 0 quindi di prendere una decisione corretta: 1 - = P(accettare | è vera) α 𝐻 0 𝐻 0 a)𝐻 0 : µ = 70 𝐻 1 : µ ≠ 70 Test sulla media Caso popolazione normale con varianza non notaσ2 Si assuma una popolazione Normale con varianza non nota. Quindi: con μ e𝑋 ∼ 𝑁(µ; σ2) σ2 entrambi incogniti. Siamo interessati a testare un’ipotesi sulla media incognita di popolazione .µ Si utilizza lo stimatore varianza campionaria corretta: • Si specifica l’ipotesi nulla semplice: : μ = . L’ipotesi alternativa segue i casi visti in𝐻 0 µ 0 precedenza. ▪ Nel caso di un piccolo campione, la statistica test sotto l’ipotesi nulla sarà: N.B. con t indichiamo la distribuzione t di Student. ▪ Con i dati campionari, si calcola il valore assunto dalla statistica test nel campione, ossia la sua realizzazione: Test sulla media Caso popolazione normale con varianza non notaσ2 ▪ Fissato il livello di significatività , occorre trovare il valore critico e definire la regione di rifiuto. La regione di rifiuto dipende dall’ipotesi alternativa, come segue: ▪ Il consiglio è di fare sempre il grafico disegnando l’area di rifiuto!!! ▪ Il test si risolve confrontando la realizzazione della statistica test con i valori critici: questo confronto consente di prendere la decisione finale. Nel caso di un grande campione, grazie al Teorema del Limite Centrale, si può ricorrere alla distribuzione Normale. Cosa cambia rispetto al caso di un piccolo campione? ▪ La statistica test sotto l’ipotesi nulla, grazie al Teorema del Limite Centrale, avrà una distribuzione approssimativamente Normale, come segue: ▪ La sua realizzazione sarà: ▪ A seconda dell’ipotesi alternativa, la regione di rifiuto sarà individuata come segue: Test sulla media Caso popolazione non normale,grandi campioni Immaginiamo di avere una popolazione non-Normale (e dunque una popolazione qualsiasi!), nel caso di grandi campioni. Siamo interessati a testare un’ipotesi sulla media incognita di popolazione . ▪ Si specifica l’ipotesi nulla semplice: : μ = . L’ipotesi alternativa segue i casi visti𝐻 0 µ 0 in precedenza. ▪ La statistica test sotto l’ipotesi nulla, grazie al Teorema del Limite Centrale, avrà una distribuzione approssimativamente Normale, come segue: ▪ La sua realizzazione sarà: ▪ A seconda dell’ipotesi alternativa, la regione di rifiuto sarà individuata come segue Test sulla proporzione Caso grandi campioni Consideriamo una popolazione X Bernoulliana, con media E(X) = π e varianza V(X) = π (1 – π), dove π è la probabilità di successo. Siamo interessati a testare un’ipotesi sulla proporzione incognita π in popolazione. Nel caso di grandi campioni, possiamo ricorrere all’approssimazione Normale, utilizzando il Teorema del Limite Centrale. Le fasi della verifica di ipotesi saranno le seguenti: ▪ Si specifica l’ipotesi nulla: : =𝐻 0 π π 0 ▪ A seconda del problema, si specifica l’ipotesi alternativa . Questi i casi possibili per𝐻 1 il sistema di ipotesi: Si sceglie la media campionaria come v.c. e si individua la statistica test sotto l’ipotesi nulla: N.B. A differenza degli IC, la varianza a denominatore è nota perché siamo sotto .𝐻 0 ▪ Con i dati campionari, si calcola il valore assunto dalla statistica test nel campione, ossia la sua realizzazione: ▪ Fissato il livello di significatività , occorre trovare il valore critico e definire la regione diα rifiuto. La regione di rifiuto dipende dall’ipotesi alternativa, come segue: ▪ Il test si risolve confrontando la realizzazione della statistica test con i valori critici: questo confronto consente di prendere la decisione finale.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved