Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica descrittiva e inferenziale, Dispense di Statistica

Statistica descrittiva: rilevazione dei fenomeni statistici; distribuzione dei caratteri statistici e loro rappresentazione grafica; indicatori di sintesi (medie, misure di variabilità e forma), analisi dell’associazione tra caratteri (indipendenza statistica e in media, regressione lineare e correlazione). Inferenza statistica: di teoria della probabilità; variabili casuali e distribuzioni di probabilità; campionamento e distribuzioni campionarie; stima puntuale e per intervallo; test statistic

Tipologia: Dispense

2019/2020

In vendita dal 01/10/2020

melissa__
melissa__ 🇮🇹

4.5

(14)

18 documenti

Anteprima parziale del testo

Scarica Statistica descrittiva e inferenziale e più Dispense in PDF di Statistica solo su Docsity! STATISTICA Prof: Rosalia Castellano | ECONOMIA E COMMERCIO | STATISTICA PER L’ECONOMIA| STATISTICA: METODOLOGIE PER LE SCIENZE ECONOMICHE E SOCIALI, BORRA, DI CIACCIO, III EDIZIONE, MCGRAW HILL 1 CAPITOLO 1 LA RILEVAZIONE DEI FENOMENI STATISTICI 1.1. INTRODUZIONE La statistica è un insieme di metodi che permettono di analizzare, attraverso la misura dei dati, la realtà economica, aziendale, sociale, biologica, che ci circonda. Essa è finalizzata, dunque, all’analisi quantitativa dei fenomeni collettivi. La statistica nasce laddove c’è variabilità di un fenomeno su un gruppo di individui osservato e si divide in: • Statistica descrittiva, la quale si occupa di studiare i risultati del fenomeno collettivo • Statistica inferenziale, o induttiva, che si occupa, invece, di generalizzare i risultati ottenuti su un campione, mettendone il risalto i legami tra i fatti e fenomeni, attraverso numerosi strumenti, tra cui la probabilità. Essa può anche essere definita come la scienza delle decisioni in condizioni di incertezza, le cui fasi principali sono: 1. Conoscenza dei collettivi 2. Sintesi delle informazioni 3. Analisi induttiva di tipo probabilistico. 1.2. CARATTERI, UNITA’ STATISTICHE E COLLETTIVO Si definisce unità statistica l’unità elementare sul quale si effettua un'osservazione. È, ad esempio, unità statistica ogni macchina prodotta da un fabbrica, ogni abitante di una data provincia, ogni alunno di una scuola. Si definisce carattere statistico l'informazione sul fenomeno che si vuole studiare, mentre le modalità sono le diverse intensità o i diversi attributi che un carattere può assumere. Un insieme finito di dati statistici tra loro omogenei per quanto riguarda una o più caratteristiche è definita popolazione statistica. Rappresenta una popolazione statistica, ad esempio, l'insieme degli alunni di una scuola, o l'insieme delle stature degli alunni di una certa classe. Un universo è una popolazione statistica composta da un numero infinito di elementi. Inoltre, il collettivo osservato comprende un sottoinsieme delle unità statistiche della popolazione, che viene chiamato campione. 1.3. CLASSIFICAZIONE DEI CARATTERI STATISTICI I caratteri statistici si classificano in: • Qualitativi (o mutuabili), se le modalità sono espresse da attributi; ad es. professione, titolo di studio ecc. 4 Le frequenze percentuali sono date dalle frequenze relative moltiplicate per cento. 𝑝𝑗 = 𝑓𝑗 ⋅ 100 La cui somma è invece uguale a 100: ∑ 𝑝𝑗 = 100 𝑛 𝑗=1 . 2.3. FREQUENZE CUMULATE Nel caso in cui le modalità del carattere in esame sono ordinate (ossia il carattere è qualitativo ordinato o quantitativo) è possibile considerare la frequenza con cui si presentano le modalità di ordine inferiore o uguale ad una certa modalità. Dato un carattere X con k modalità, ordinate in senso crescente, si distinguono: • Frequenze assolute cumulate: • Frequenze relative cumulate: 5 • Frequenze percentuali cumulate: 2.4. ISTOGRAMMI Gli istogrammi si utilizzano in presenza di una distribuzione che riguarda un carattere quantitativo continui. Si tratta di un grafico costituito da barre no distanziate, con basi uguali o diverse, dove ogni barra possiede un’area proporzionale alla corrispondente frequenza o quantità. Dato un carattere quantitativo continuo, si può suddividere il campo di variazione in classi della stessa altezza. In tal caso, ad ogni classe sarà associato un rettangolo avente per base l’intervallo dei valori della classe e come altezza la frequenza corrispondente. In questo modo si ottiene un istogramma a basi regolari. Nel caso di distribuzioni con classi di ampiezza diversa, poiché l’area del rettangolo deve essere proporzionale alla frequenza, l’altezza dovrà essere proporzionale al rapporto tra la frequenza da rappresentare e l’ampiezza della base. In un istogramma con classi di ampiezza diversa, l’altezza h del rettangolo corrispondente ad una classe viene chiamata densità e si ottiene come rapporto tra la frequenza e l’ampiezza della classe. Mentre la base è invece data dalla differenza degli estremi della classe. Densità di frequenza: è date dal rapporto fra le frequenze assolute e le ampiezze delle classi: 6 CAPITOLO 3 SINTESI DELLA DISTRIBUZIONE DI UN CARATTERE: LE MEDIE 3.1. INTRODUZIONE Dopo aver effettuato una raccolta di dati e dopo aver sistemato i dati ottenuti in tabelle statistiche è importante effettuare una sintesi sulle distribuzioni al fine di consentire la comparazione del fenomeno oggetto di studio con altri fenomeni dello stesso tipo o di tipo diverso per i quali abbia senso un confronto dei valori. Tuttavia, in alcuni casi può essere sufficiente riportare il valore di uno o più indici che evidenziano le caratteristiche essenziali della distribuzione del carattere. Tali indici possono essere rappresentati dalle: • medie analitiche, le quali vengono calcolate attraverso operazioni algebriche sui valori del carattere, che dovrà perciò essere di tipo quantitativo • medie di posizione, le quali individuano la posizione occupata da una particolare modalità e possono essere determinate anche su caratteri di tipo qualitativo. Tra le medie analitiche consideriamo la media aritmetica, la media geometrica, la trimmed mean; tra le medie di pozione, la mediana e la moda. 3.1. LA MEDIA ARITMETICA La media aritmetica di un insieme n di valori osservati x1, x2, …, xn di un carattere quantitativo X è pari alla somma dei valori osservati, divisa per il loro numero: ?̅? = 1 𝑛 (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛) = 1 𝑛 ∑ 𝑥𝑖 𝑛 𝑖=1 Tale formula non può essere utilizzata nel caso di una distribuzione di frequenza se il carattere quantitativo X è suddiviso in classi, in quanto non si conoscono con esattezza i valori osservarti, ma solo classi di appartenenza. Un’approssimazione alla media aritmetica può essere ottenuta considerando il valore centrale, definito come il valore che si ottiene dalla semisomma degli estremi della classe. Data la distribuzione di frequenze di un carattere quantitativo X suddiviso in k classi, possiamo approssimare la media aritmetica del carattere con la seguente espressione: ?̅? = 1 𝑛 ∑ 𝑐𝑗𝑛𝑗 𝑘 𝑗=1 9 valore non sia ben rappresentativo dell’insieme dei valori osservati. Un modo che consente di diminuire tale difetto è quello di effettuare il calcolo su valori centrali. La media così ottenuta viene detta trimmed mean. La trimmed mean al 50% di un carattere quantitativo è la media aritmetica del 50% dei valori più centrali di un insieme di osservazioni. In pratica, nel calcolo della trimmed mean non vengono considerati il 25% dei valori più piccoli e il 25% dei valori più grandi. 3.4. LA MEDIANA La mediana di un insieme di unità è quella modalità che bipartisce la serie o distribuzione di dati lasciando ugual numero di termini da un lato e dall’altro. Per la sua determinazione è necessario ordinare preliminarmente i dati. In sostanza la Mediana bipartisce la distribuzione in due sotto- distribuzioni: la prima a sinistra della Mediana (costituita dalla metà delle unità la cui modalità è minore o uguale alla Mediana) e la seconda a destra della Mediana (costituita dalla metà delle unità la cui modalità è maggiore o uguale alla Mediana). Tecnicamente si afferma che la mediana è il valore/modalità per il quale frequenza relativa cumulata vale 0,5. La mediana può essere calcolata per caratteri quantitativi e qualitativi ordinabili ma non per caratteri qualitativi sconnessi, poiché questi non possono essere ordinati. Il suo calcolo è differente a seconda che N sia pari o dispari e, anche, a seconda del tipo di distribuzione. Se le modalità sono raggruppate in classi, non si definisce un valore univoco, ma una classe mediana: 10 PROPRIETÀ DELLA MEDIANA 1) La mediana può sempre essere calcolata e perciò viene utilizzata ogni volta che non è possibile calcolare la media aritmetica. 2) La mediana è il valore che occupa la posizione centrale nell’elenco ordinato dei valori della serie o distribuzione e pertanto ha il vantaggio di non essere influenzato dai valori estremi che possono essere valori anomali (outliers). Per tale motivo è indicato come indice robusto. 3) La mediana gode di una importante proprietà definita Proprietà di minimo. Per tale proprietà, dopo aver definito la quantità 𝑥𝑖 − 𝑀𝑒 affermiamo che la somma degli scarti in valore assoluto dalla mediana è un minimo, cioè: 3.5. MODA La moda è una media di posizione che può essere calcolata per qualsiasi tipo di carattere, in particolare anche per i caratteri sconnessi. La moda è la modalità della distribuzione che si presenta con la massima frequenza (assoluta, relativa, cumulata). Se la distribuzione del carattere è suddivisa in classi, abbiamo al posto della moda, la classe modale, che è definita come la classe alla quale corrisponde la frequenza più alta, ovvero la classe che presenta la maggiore densità di frequenza. 3.6. QUARTILI I quartili sono quei valori che dividono la distribuzione ordinata in quattro parti di uguale numerosità. Li chiameremo 𝑄1, 𝑄2, 𝑄3, e diremo che: - il primo quartile contiene il 25% della distribuzione (e ne lascia dopo di sé il 75%) - il secondo quartile contiene il 50% (ne lascia dopo di sé il 50% e coincide con la mediana) - il terzo quartile contiene il 75% (e ne lascia dopo di sé il 25%). I quartili non possono essere calcolati per variabili qualitative sconnesse per lo stesso motivo per cui non può essere calcolata la mediana e cioè perché le modalità non sono suscettibili di alcun ordinamento. Se Nè divisibile per 4 naturalmente sarà pari, perciò: Se N non è divisibile per 4 allora avremo un resto che chiameremo hi e i quartili saranno i seguenti: Se la distribuzione di frequenze è suddivisa in classi non è possibile trovare l'esatto valore del quartile ma, come per la mediana, possiamo avvalerci di una sua appros. simazione. Consideriamo, per esempio, il primo quartile (e quindi il 25-esimo per. centile) che è il valore a sinistra del quale cade il 25% delle unità. Allora la formula approssimata è data da: 0,25 = Fo, - sesta) a (3.7.1) Qi = Io, ‘( Varo dove: lo, è l'estremo inferiore della classe dove cade il primo quartile; Fo;-1 è la frequenza relativa cumulata fino alla classe precedente a quella in cui cade il primo quartile; è la frequenza relativa cumulata fino alla classe che contiene il primo quartile; i è l'ampiezza della classe che contiene il primo quartile. Naturalmente, se vogliamo calcolare il terzo quartile, dobbiamo sostituire nella for- mula precedente 0,75 a 0,25 è considerare le frequenze e gli estremi in funzione della classe in cui cade 03. 11 14 aritmetica. Si definisce scostamento semplice medio dalla media aritmetica la quantità: Nel caso di distribuzioni di frequenze: Se invece consideriamo le differenze dalla mediana otteniamo lo scostamento semplice medio dalla mediana. Nel caso di distribuzioni di frequenze: 4.3. ALTRI INDICI DI VARIABILITA’ Gli intervalli di variabilità sono indici che si basano sul confronto di due valori caratteristici della distribuzione. Il più semplice da calcolare è il campo di variazione. Dato un insieme di n valori osservati x1, x2, …, xn ordinati in senso crescente, definiamo campo di variazione la differenza tra il più grande e il più piccolo di tali valori: 𝑅 = 𝑥𝑛 − 𝑥1 Il minimo del campo di variazione è 0 e si verifica solo se tutte le unità hanno lo stesso valore. È evidente che tale indice, basandosi solamente su 2 degli n valori osservati, è piuttosto approssimativo e pertanto si dice che non è robusto. Inoltre, può accadere che i valori estremi siano dei valori anormali conducendo così ad una misura della variabilità molto grossolana. L’unico pregio di tale indice è la semplicità di calcolo. Un intervallo di variazione alternativo a R è la differenza interquartile, W: Dato un insieme di n valori osservati x1, x2, …, xn, definiamo differenza interquartile la differenza tra il terzo e il primo quartile: 15 𝑊 = 𝑄3 − 𝑄1 Questo indice ci dice come si comporta il 50% centrale della distribuzione ed è certamente più robusto del precedente, poiché non è influenzato da valori anomali, infatti si eliminano le code della distribuzione. 4.4. LA CONCENTRAZIONE Un caso particolare della variabilità è la Concentrazione. La concentrazione è applicabile a tutti e soli i fenomeni cosiddetti trasferibili, ovvero i fenomeni per i quali è ipoteticamente possibile trasferire parte dell’ammontare globale da alcuni soggetti ed ipoteticamente dare ad altri fino al limite che uno possieda tutto l’ammontare del carattere e gli altri niente. Esempi di caratteri trasferibili sono il reddito, il numero di passeggeri di una compagnia aerea. Non sono invece trasferibili caratteri come il peso o l’altezza. La concentrazione si rappresenta attraverso: 1) un indice che misura il grado di concentrazione del carattere 2) una curva, chiamata curva di Lorenz, o spezzata di concentrazione. Per il calcolo della concentrazione occorre: 1. ordinare i valori in senso non decrescente: 𝑥1 ≤ 𝑥2 ≤. . . ≤ 𝑥𝑖 ≤. . . ≤ 𝑥𝑁 2. determinare la quantità di ammontare posseduto dalle i unità più povere 𝐴 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑖 3. determinare la corrispondente frazione di ammontare: 𝑄𝑖 = 𝐴𝑖 𝐴𝑛 4. determinare la frequenza relativa cumulata delle prime i unità: 𝐹𝑖 = 𝑖 𝑛 Si osservi che se 𝐹𝑖 = 𝑄𝑖 vuol dire che tutte le xi sono uguali tra loro. Si dice, allora, che vi è equidistribuzione. Un carattere quantitativo trasferibile X, con n valori osservati x1, x2, …, xn si dice equidistribuito se ognuna delle unità n possiede 1/n dell’ammontare complessivo: 𝐴 = ∑ 𝑥𝑖 𝑛 𝑖=1 Ossia per ogni 𝑖 si ha che: 16 𝑥𝑖 = 𝐴 𝑛 = 𝜇 Se invece tutte le 𝑄𝑖esclusa 𝑄𝑛che è necessariamente uguale ad 1, valgono 0, si è nel caso di massima concentrazione. La situazione di massima concentrazione si ha quando l’intero ammontare del carattere A è posseduto da una sola unità del collettivo, e cioè: 𝑥1 = 𝑥2 = ⋯ = 𝑥𝑛−1 = 0 e 𝑥𝑛 = 𝐴 19 In cui F0 e Q0 sono poste convenzionalmente uguali a 0. Mediante le coppie di valori Qi e Fi è possibile realizzare un interessante grafico. Consideriamo un piano cartesiano in cui l’asse delle scisse rappresenti i valori di Fi e l’asse delle ordinate i valori Qi. In questo modo, ogni coppia di valori è rappresentata da un punto sul piano. I punti limitrofi possono poi essere congiunti da segmenti tali da formare una curva, detta spezzata di concentrazione o curva di Lorenz. Nel grafico, inoltre, viene rappresentata la linea di equidistribuzione che è il segmento che congiunge il punto 0,0 e 1,1. Ogni punto situato su tale segmento ha la proprietà di avere le coordinate uguali, cioè 𝑄𝑖 = 𝐹𝑖per ogni i. 4.5. INDICI DI ASIMMETRIA Una distribuzione si dice asimmetrica se non è possibile individuare un asse che divida la distribuzione in due parti specularmente uguali. La nozione di simmetria ha quindi senso solo se il carattere è ordinabile. Una distribuzione di frequenze n1, n2, …, nk è simmetrica se n1=nk, n2=nk-1, nj= nj+1. Una distribuzione non simmetrica può mostrare asimmetria positiva o negativa, a seconda che siano più frequenti nella distribuzione le modalità più piccole o più grandi. 20 Un indice di asimmetria deve quindi essere capace di distinguere tra tre diverse situazioni: simmetria, asimmetria negativa e asimmetria positiva. Un indice molto noto utilizzato è quello che si basa sul momento centrato della media aritmetica di ordine 3, dato che: 𝑀3 = 1 𝑛 ∑(𝑥𝑖 𝑛 𝑖=1 − ?̅?)3 Elevando al cubo gli scostamenti dalla media, l’indice può assumere valori positivo o negativi a seconda che predominino gli scostamenti positivi o negativi. Se: • 𝑀3 > 0 si ha asimmetria positiva • 𝑀3 < 0 si ha asimmetria negativa • 𝑀3 = 0 è necessario, ma non sufficiente ad affermare che la distribuzione sia simmetrica Volendo considerare un indice che non dipende dall’unità di misura del carattere, consentendo il confronto tra distribuzioni di caratteri diversi, è possibile dividere 𝑀3per il cubo della deviazione standard, ottenendo l’indice β di Fisher: Indice di asimmetria β di Fisher: 𝛽 = 𝑀3 𝜎3 4.6. CURVA NORMALE E MISURA DELLA DISNORMALITA’ È necessario accennare come in natura esistano un infinito numero di popolazioni possibili. Da tempo si è notato che le misurazioni fatte in relazione alla gran parte dei fenomeni collettivi possono, in ultima analisi, essere ricondotte ad una sola distribuzione di frequenze, la cosiddetta distribuzione normale. La distribuzione normale è una distribuzione continua avente una forma simmetrica e campanulare. È possibile dimostrare che la maggior parte di distribuzioni empiriche, all’aumentare del numero di unità N, sono riconducibili ad una forma normale. si dimostra che l’espressione algebrica di questa curva dipende solamente dal numero di osservazioni N, dalla media µ e dallo scarto quadratico medio σ . Senza soffermarci sulla espressione matematica della curva, vale la pena osservare che, al variare dei tre elementi caratterizzanti della curva, essa varia parzialmente in forma e posizione. In particolare: - al variare della media µ , varia la posizione della curva sull’asse x; - al variare dello scarto quadratico medio σ , varia la forma della curva, che diviene più o meno aguzza; - al variare della numerosità N, varia l’area sotto la curva. 21 Infine, occorre specificare che non tutte le distribuzioni simmetriche sono normali. Le curve simmetriche hanno due caratteristiche: 1. sono sempre positive 2. presentano due punti di flesso. È poi possibile confrontare i grafici della distribuzione empiria (i cui grafici solitamente sono istogrammi o diagrammi i quali possono essere sostituiti da una curva continua) con quelli di una distribuzione normale. - Se la distribuzione empirica osservata presenta una maggiore frequenza delle classi centrali, una frequenza minore nelle classi intermedie e una frequenza maggiore nelle classi estreme, si dice che la curva è IPERNORMALE - Se invece la distribuzione empirica osservata presenta rispetto alla distribuzione normale una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore rispetto a quelle intermedie, si parla di curva IPONORMALE. 24 La colonna e la riga del totale (ultima riga e ultima colonna) sono dette distribuzioni marginali. Esse corrispondono esattamente alle distribuzioni di frequenze semplici relative ai due caratteri esaminati. In particolare, la colonna del totale è la distribuzione semplice del carattere X e il generico termine ni. indica la frequenza assoluta delle unità che presentano nel collettivo la modalità xi; analogamente, la riga del totale indica la distribuzione semplice del carattere Y e il generico termine n.j indica la frequenza assoluta delle unità che presentano nel collettivo la modalità yi. Le righe e le colonne interne alla tabella a doppia entrata identificano le cosiddette distribuzioni condizionate. Le frequenze congiunte nij di una tabella a doppia entrata presentano le seguenti proprietà: • 𝑛𝑖. = ∑ 𝑛𝑖𝑗 𝐾 𝑗=1 per i=1,…, H • 𝑛.𝑗 = ∑ 𝑛𝑖𝑗 𝐻 𝑖=1 per j=1,…,K • 𝑛 = ∑ ∑ 𝑛𝑖𝑗 = ∑ 𝑛𝑖. = ∑ 𝑛.𝑗 𝐾 𝑗=1 𝐻 𝐼=1 𝐾 𝐽=1 𝐻 𝑖=1 Come per le distribuzioni di frequenze semplici, anche in questo caso possiamo considerare le distribuzioni doppie di frequenze relative e percentuali, dove il generico elemento interno alla tabella a doppia entrata è espresso, rispettivamente da: 𝑓𝑖𝑗 = 𝑛𝑖𝑗 𝑛 e da 𝑝𝑖𝑗 = 𝑓𝑖𝑗 ∙ 100 25 Le distribuzioni marginali relative si ottengono dividendo le frequenze assolute marginali per il totale (moltiplicando per 100 si ottengono quelle percentuali) e corrispondono alle distribuzioni di frequenze semplici per i due caratteri. Le distribuzioni relative condizionate della X e della Y si ottengono, rispettivamente, rapportando le distribuzioni condizionate per i corrispondenti totali di riga o per i corrispondenti totali di colonna. Per ogni distribuzione condizionata di un carattere quantitativo si può calcolare la media aritmetica condizionata. La media aritmetica condizionata di un carattere quantitativo Y rispetto alla i-esima modalità di un carattere X è data da: Oltre alla media, da oggi distribuzione condizionata di un carattere quantitativo è possibile ricavare anche una varianza condizionata, che esprime la variabilità intorno alla propria media delle unità della distribuzione condizionata. La varianza condizionata di un carattere quantitativo Y rispetto alla i-esima modalità di un carattere X è data da: Se entrambi caratteri sono almeno di tipo ordinato è possibile definire le frequenze cumulate per la distribuzione doppia. 26 6.2. ANALISI DELL’ASSOCIAZIONE TRA DUE CARATTERI: DIPENDENZA, INDIPENDENZA, INTERDIPENDENZA La ricerca scientifica non si limita alla descrizione dei singoli fenomeni, ognuno considerato indipendentemente dagli altri. Essa si interessa anche, e soprattutto, dell’analisi delle relazioni che ognuno di essi può avere con gli altri. Mediante l’analisi statistica non si pretende di individuare leggi che definiscono i legami tra i fenomeni, ma più semplicemente di verificare l’esistenza o meno di regolarità nell’associazione fra le modalità dei caratteri osservati, si possono utilizzare due approcci: l’analisi della dipendenza, dove si studia come le modalità di un carattere dipendano da quelle di un altro carattere secondo un legame unidirezionale; o l’analisi dell’interdipendenza, in cui si assume che i caratteri abbiano tutti lo stesso ruolo e che i legami tra essi siano bidirezionali. Qualunque sia l’approccio scelto, l’indipendenza statistica, ovvero l’assenza di un qualsiasi legame tra i due caratteri può essere definita come segue. Tra due caratteri sussiste indipendenza statistica quando la conoscenza della modalità di uno dei due caratteri non migliora la “previsione” della modalità dell’altro. 6.3. STUDIO DEL’ASSOCIAZIONE TRA DUE CARATTERI IN UNA TABELLA DOPPIA DI FREQUENZE La tabella doppia di frequenze è lo strumento più idoneo per indagare sulle relazioni esistenti tra le modalità di due caratteri qualitativi o quantitativi suddivisi in classi. Considerando due caratteri, X e Y, il carattere X si dirà indipendente da Y se, qualunque sia la modalità con cui si manifesta un carattere Y, la distribuzione relativa condizionata di X non cambia. Dunque, nel caso di indipendenza, le frequenze relative delle distribuzioni condizionate della X rispetto alla Y devono essere tutte uguali fra loro e uguali alla distribuzione marginale relativa della X. D’altra parte, se X è indipendente da Y si può dimostrare che anche Y è indipendente da X. Quindi, due caratteri si dicono indipendenti se le distribuzioni relative condizionate di un carattere rispetto alle modalità dell’altro sono tra loro uguali. Ogni volta che in una tabella doppia di frequenze non si osserva indipendenza, si dirà che esiste dipendenza o interdipendenza tra i caratteri. Inoltre, la tabella di frequenze a doppia entrata relativa a due caratteri indipendenti deve presentare la seguente proprietà: se due caratteri sono indipendenti, la generica frequenza assoluta corrispondente alla i-esima modalità di X e alla j-esima modalità di Y deve essere uguale a: 𝑛𝑖𝑗 = 𝑛𝑖.𝑛.𝑗 𝑛 29 tra 1 e n, dove n è la numerosità del collettivo osservato. Gli indici preposti ad analizzare tali dati vengono detti indici di cograduazione tra graduatorie. Un indice molto noto in tale contesto è l’indice rho (𝝆𝒔) di Spearman. Per calcolare tale indice è necessario innanzitutto ordinare gli individui in senso decrescente per ognuno dei de carattere e associare ad ogni individuo il corrispondente rango, ovvero la posizione in graduatoria ottenuta dall’individuo dopo aver riordinato le unità. Alle unità che presentano uguale modalità viene attribuito il rango dato dalla media dei ranghi che queste avrebbero altrimenti avuto. L’indice di associazione rho di Spearman è definito come: 𝜌𝑠 = 1 − 6 ∑ 𝑑𝑖 2𝑛 𝑖=1 𝑛(𝑛2 − 1) Dove con di si indica la differenza tra i ranghi per la i-esima unità. Il risultato di tale indice è compreso tra [−1, 1] ed è possibile distinguere diversi casi: • −1 ≤ 𝜌𝑠 ≤ 1: nuemero puro, non risulta influenzato dall’unità di misura • 0 ≤ 𝜌𝑠 ≤ 1: cograduazione, vi è concordanza tra le graduatorie dei due caratteri • 𝜌𝑠 = 1: quando le unità presentano lo stesso rango in entrambe le graduatorie • 𝜌𝑠 = −1: se i ranghi sono in perfetta discordanza • 𝜌𝑠 = 0: se le due graduatorie non mostrano alcuna associazione. 6.6. MISURA DELLA DIPENDENZA DI UN CARATTERE QUANTITATIVO DA UN CARATTERE QUALITATIVO O QUANTITATIVO DISCRETO Quando almeno uno dei due caratteri è quantitativo è possibile usare altri indici che sfruttino le informazioni aggiuntive provenienti dalla variabile quantitativa. Supponiamo che fra i due caratteri si abbia: X = variabile quantitativa Y = variabile qualitativa . In questo caso si valuta se ed in quale misura le medie del carattere quantitativo X, variano al variare delle modalità del carattere qualitativo Y. L’analisi della dipendenza può essere condotta confrontando le distribuzioni condizionate del carattere Y in corrispondenza delle diverse modalità del carattere X. Ognuna di queste distribuzioni può essere sintetizzata attraverso la corrispondente media e varianza condizionata. 30 In cui Ai è l’insieme degli indici per cui si verifica X=xi. In generale, queste statistiche varieranno al variare delle modalità del carattere X e risulteranno diverse dalla media e dalla varianza della distribuzione marginale del carattere Y. Quindi, diremo che Y è indipendente da X se la distribuzione della variabile Y, condizionatamente alle modalità della X, non varia. Confrontando i valori medi delle distribuzioni condizionate di Y, si dirà che Y è indipendente in media da X se tutte le medie condizionate di Y sono fra loro uguali e uguali quindi anche alla media marginale. Cioè, un carattere quantitativo Y è indipendente in media da X se: Una proprietà delle medie condizionate consiste nel fatto che la media aritmetica delle medie condizionate Y dato X è uguale alla medie della distribuzione marginale di Y, ossia: Va specificato che, se entrambi i caratteri sono quantitativi, si può considerare sia l’indipendenza in media di Y da X, sia viceversa, ma è opportuno precisare che l’indipendenza in media non è reciproca, cioè non vuol dire che se X è indipendente da Y, allora anche Y sarà indipendente da X. È poi possibile calcolare anche la varianza delle medie condizionate tramite la seguente formula: E inoltre si può esprimere la media delle varianze condizionate come: SCOMPOSIZIONE DELLA VARIANZA La variabilità complessiva di un carattere Y rispetto ad un carattere X può essere scomposta nel seguente modo: In sostanza, la varianza della variabile Y può essere espressa come somma di due termini: la varianza delle medie condizionate e la media delle varianze condizionate. Il primo termine viene detto anche varianza spiegata e rappresenta la parte di variabilità totale riprodotta dalle medie condizionate. Il secondo termine viene anche detto varianza residua e 31 misura la variabilità delle distribuzioni condizionate rispetto alle proprie medie. Considerando la scomposizione della varianza, si può introdurre il seguente indice relativo di dipendenza in media. Il rapporto di correlazione 𝜂𝑌 𝑋⁄ 2 è definito come il rapporto tra la varianza spiegata e a varianza totale, ovvero: Il risultato di tale indice è compreso tra [0,1]: • 0 ≤ 𝜂𝑌 𝑋⁄ 2 ≤ 1: caso generico di dipendenza in media • 𝜂𝑌 𝑋⁄ 2 = 1: se ad ogni valore di X corrisponde un solo valore di Y, ossia dipendenza perfetta; →la varianza residua è nulla • 𝜂𝑌 𝑋⁄ 2 = 0: se tutte le medie condizionate sono uguali tra loro e uguali alla media marginale, ossia indipendenza in media; →la varianza spiegata è nulla. 6.7. MISURA DELL’INTERDIPENDENZA TRA DUE CARATTERI QUANTITATIVI Un caso di grande rilevanza nelle applicazioni riguarda l’analisi dell’associazione tra due caratteri quantitativi. In particolare, consideriamo le variabili scarto: 𝑋𝑖 𝑆 = 𝑋 − ?̅? 𝑌𝑖 𝑆 = 𝑌 − ?̅? Ottenute come differenza tra i valori della X e della Y dalla loro media. Consideriamo il loro prodotto 𝑋𝑖 𝑆𝑌𝑖 𝑆 = (𝑋 − ?̅?)(𝑌 − ?̅?) otterremo: • Scostamenti concordi, o entrambi positivi o entrambi negativi • Scostamenti discordi, ad es. XS positivo e YS negativo. Dunque, i due caratteri presentano concordanza, se la maggior parte degli scostamenti sono concordi; al contrario, si parla di discordanza se la maggior parte degli scostamenti sono discordi. Un indice simmetrico che misura la concordanza o la discordanza tra due caratteri qualitativi è la covarianza. La covarianza tra due caratteri quantitativi è definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie: 34 • Dati due eventi A e B, la loro unione 𝐴 ∪ 𝐵 è data dall’evento “almeno uno degli eventi A e B si verifica”. L’unione e l’intersezione si possono estendere ad un numero finito o numerabile di eventi. L’insieme di tutti i possibili eventi elementari 𝜔𝑖 è detto spazio campionario e viene indicato con il simbolo Ω. È opportuno definire due eventi particolarmente rilevanti. • L’evento impossibile è l’evento che non può mai verificarsi e può essere definito come l’intersezione fra un qualsiasi evento e la sua negazione: 𝐴 ∩ 𝐴̅ = 𝐵 ∩ ?̅? = ⋯ = ∅ • L’evento certo, ossia l’evento che si verifica sempre in quanto comprende tutti i possibili risultati dell’esperimento. Può essere definito come la negazione dell’evento impossibile. Due eventi A e B si dicono incompatibili se non possono verificarsi contemporaneamente. Inoltre, in base all’operazione di unione si può definire la relazione di inclusione tra eventi: 𝐴 ∪ 𝐵 = 𝐴 → 𝐵∁𝐴 Dove il simbolo → significa “implica”, cioè se l’unione di A e B coincide con A, è ovvio che l’evento B è totalmente contenuto in A. 8.3. I POSTULATI La probabilità è una funzione di insieme che associa ad ogni evento 𝐸𝑖 ∈ E un numero reale. La probabilità sarà quindi indicata con: 𝑃(𝐸𝑖) Tramite i postulati è poi possibile introdurre alcune proprietà assiomatiche. Siano A e B due eventi qualsiasi appartenente all’insieme degli eventi: POSTULATO 2: 𝑃(𝐴) ≥ 0 POSTULATO 3: 𝑃(Ω) = 1 POSTULATO 4: 𝐴 ∩ 𝐵 = ∅ → 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) Utilizzando i postulati sinora introdotti, è possibile dimostrare il seguente teorema. In una prova, dati due eventi qualsiasi A e B, si ha: 𝑃(𝐴 ∪ 𝐵) = 𝑃(𝐴) + 𝑃(𝐵) − 𝑃(𝐴 ∩ 𝐵) Dal sistema dei postulati in questione sono inoltre deducibili varie proprietà, tra le quali: 35 8.4. MISURA DELLA PROBABILITA’ NELL’APPROCCIO CLASSICISTICO DEFINZIONE CLASSICA DI PROBABILITA’ La probabilità è data dal rapporto tra il numero dei casi favorevoli all’evento e il numero dei casi possibili purché essi siano tutti ugualmente possibili. 𝑃(𝐸) = 𝑛. 𝑑𝑖 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑛. 𝑑𝑖 𝑐𝑎𝑠𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖 8.5. PROBABILITA’ CONDIZIONATE E INDIPENDENZA In alcune situazioni si vuole valutare la probabilità di un certo evento sapendo che si è già verificato un evento ad esso collegato. Supponiamo di avere due eventi A e B, tra loro collegati e supponiamo di sapere che l’evento B si sia già verificato. Ora vogliamo conoscere la probabilità di A. In simboli, vogliamo conoscere la probabilità di A condizionatamente al verificarsi di B: 𝑃(𝐴|𝐵) Che si legge “probabilità condizionata di A dato B”. Applicando la definizione classica di probabilità si ha quindi che 𝑃(𝐴|𝐵) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐵) 36 Si definisce probabilità condizionata di A dato B il rapporto tra la probabilità dell’evento 𝐴 ∩ 𝐵 e la probabilità dell’evento B, con 𝑃(𝐵) > 0. Con la stessa logica si ottiene che 𝑃(𝐵|𝐴) = 𝑃(𝐴 ∩ 𝐵) 𝑃(𝐴) Se 𝑃(𝐴) > 0. Moltiplicando entrambi i membri per 𝑃(𝐵) si ottiene: 𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵) ∙ 𝑃(𝐴|𝐵) Dalla definizione di probabilità condizionata discende una proprietà che viene chiamata Principio delle Probabilità composte. In base al principio delle probabilità composte possiamo introdurre il concetto di indipendenza tra eventi. Due eventi A e B si dicono indipendenti se il verificarsi di B non influenza la probabilità di A e il verificarsi di A non influenza la probabilità di B, ossia se: 8.6. DEFINIZIONE FREQUENTISTA DI PROBABILITA’ La concezione frequentista si basa sulla ripetibilità della prova. Gli esiti della prova, ossia glie eventi che di volta in volta si presentano, non saranno sempre gli stessi. Se si eseguono n ripetizione della stessa prova sarà interessante osservare la frequenza con cui si presentano i singoli eventi elementari. Indicando con 𝑛𝐴 il numero di prove nelle quali si è verificato A, la frequenza relativa di A è data da: 𝑓𝑟(𝐴) = 𝑛𝐴 𝑛 39 2. lim 𝑥→−∞ 𝐹(𝑋) = 0 lim 𝑥→+∞ 𝐹(𝑋) = 1 3. 𝐹(𝑋) è continua a destra, ossia 𝐹(𝑥0). 9.3. VARIABILI CASUALI CONTINUE Una variabile casuale continua può assumere tutti i valori di un intervallo reale. Per tale motivo, non sarebbe possibile associare una misura di probabilità a ciascuno degli infiniti valori che tale variabile può assumere. Piuttosto che assegnare una misura di probabilità ai singoli valori, possiamo in questo caso assegnare una misura di probabilità a tutti i possibili intervalli sull’asse reale. A tale scopo si introduce la funzione di densità della v.c.. Si definisce funzione di densità della v.c. continua X la funzione matematica 𝐹(𝑋) per cui l’area sottesa alla funzione, corrispondente ad un certo intervallo, è uguale alla probabilità che X assuma un valore in quell’intervallo. Quindi, in termini più formali la funzione di densità soddisfa, per ogni intervallo reale, la seguente condizione: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(𝑥)𝑑𝑥 𝑏 𝑎 La funzione di densità gode di importanti proprietà: 1. Una funzione di densità non può mai assumere valori negativi, ossia 𝑓(𝑥) ≥ 0; ciò assicura che la probabilità che X cada in un qualsiasi intervallo sia non-negativa. 2. L’area totale sottesa alla funzione è uguale a 1, ossia: ∫ 𝑓(𝑥)𝑑𝑥 = 1 +∞ −∞ 3. La probabilità che la v.c. X assuma un particolare valore dell’intervallo è zero. Ciò è dovuto al fatto che un singolo valore corrisponde ad un intervallo di ampiezza zero, quindi la corrispondente area è anch’essa zero. Questo, per esempio, implica che non ha influenza l’inclusione, nel calcolo della probabilità, degli estremi dell’intervallo, ossia: 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝑃(𝑎 < 𝑋 < 𝑏) La definizione di funzione di ripartizione per una v.c. continua è simile a quella vista nel caso discreto. Ossia, data una v.c. continua X, la funzione che fa corrispondere ai valori x le probabilità cumulate 𝑃(𝑋 ≤ 𝑥) viene detta funzione di ripartizione e indicata con: 𝐹(𝑥) = 𝑃(𝑋 ≤ 𝑥) = ∫ 𝑓(𝜔)𝑑𝜔 𝑥 −∞ 40 9.4. VALORE ATTESO E VARIANZA DI UNA VARIABILE CASUALE Spesso è necessaria una descrizione più sintetica che, tramite pochi valori, ci permetta di cogliere le caratteristiche essenziali della distribuzione. Possiamo quindi essere interessati a conoscere il valore medio che una variabile casuale assume in un gran numero di prove. Tale valore viene anche chiamato valore atteso o speranza matematica. Il valore medio o atteso di una v.c. X, indicato con 𝐸(𝑋) è definito come: 𝜇 = 𝐸(𝑋) = ∑ 𝑥𝑖𝑃(𝑥𝑖) per le v.c. discete 𝑖 𝜇 = 𝐸(𝑋) = ∫ 𝑓(𝑥)𝑑𝑥 per le v.c. continue +∞ −∞ La varianza 𝑉(𝑋) di una variabile casuale X è definita da: La varianza misura la differenza quadratica tra i possibili valori della v.c. e il suo valore atteso, con pesi dati dalle probabilità di osservare tali valori. La varianza è in effetti il valore atteso della v.c. e si può anche scrivere come: 𝑉(𝑋) = 𝐸{[𝑋 − 𝐸(𝑋)]2} Oppure 𝑉(𝑋) = 𝐸(𝑋)2 − [𝐸(𝑋)]2 La varianza risulta nulla se X assume probabilità 1 in corrispondenza a un solo valore e probabilità zero altrove, mentre è tanto più elevata quanto più alta è la dispersione intorno al valore atteso. La radice quadrata della varianza di una v.c. X prende il nome di scostamento quadratico medio o deviazione standard di X ed è indicata con: 𝑆𝐷(𝑋) = √𝑉(𝑋) 9.5. DISTRIBUZIONI DI PROBABIBILITA’ PER V.C. DISCRETE 9.5.1.DISTRIBUZIONE DI BERNOULLI La variabile aleatoria con distribuzione di Bernoulli è, forse, la più semplice, ma anche una delle più importanti. Consideriamo una prova nella quale è solo possibile verificare se un certo evento si 41 è verificato o meno. La v.c. generata da tale prova assumerà, per convenzione 1 se l’evento si è verificato e il valore 0 in caso contrario. Una v.c. di Bernoulli indicata con 𝑋~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜋) può assumere il valore 1 con probabilità π e il valore 0 con probabilità 1-π; la sua funzione di probabilità è espressa come: 𝑃(𝑋 = 𝑥) = 𝜋𝑥(1 − 𝜋)1−𝑥 per x=0,1 La media è data da: 𝜇 = 𝐸(𝑋) = 𝜋 La varianza è data da: 𝑉(𝑋) = 𝜋(1 − 𝜋) Tutte le prove che producono solo due possibili risultati generano v.c. di Bernoulli. 9.5.2. DISTRIBUZIONE BINOMIALE La distribuzione Binomiale può essere ottenuta considerando la somma si v.c. di Bernoulli, indipendenti e identicamente distribuite. Consideriamo una prova che può avere solo due possibili risultati: successo e insuccesso. Il risultato di tale prova può essere descritto da una v.c. di Bernoulli che assume valore 1 per successo e valore 0 per insuccesso. Chiamiamo inoltre π la probabilità di successo in una prova. Supponiamo di effettuare n prove, indipendenti le une dalle altre e nelle stesse identiche condizioni. Chiamiamo poi X1 il risultato della prima prova, X2 il risultato della seconda e così via. Ora, poiché ogni Xi può assumere il valore 0, oppure il valore 1, è chiaro che la v.c. X assuma X corrispondente al numero di Xi uguali ad 1. In altre parole, la v.c. X rappresenta il numero di successi in n prove indipendenti ripetute nelle stesse condizioni, ossia la somma di n v.c. di Bernoulli indipendenti e identicamente distribuite, quindi con stesso parametro π. Dunque, una v.c. Binomiale, indicata con 𝑋~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙𝑒(𝜋, 𝑛), rappresenta il numero di successi che si presentano in una sequenza di n sottoprove di Bernoulli indipendenti nelle quali è costante la probabilità di successo π. La funzione di probabilità Binomiale è definita come: 𝑃(𝑥) = ( 𝑛 𝑥 ) 𝜋𝑥(1 − 𝜋)𝑛−𝑥 Per 𝑥 = 0,1,2, … , 𝑛 e 0 < 𝜋 < 1. In tal caso, la media di tale distribuzione è: 𝐸(𝑋) = 𝑛𝜋 La varianza: 44 9.6.2. DISTRIBUZIONE t DI STUDENT La v.c. t di Student somiglia per molti aspetti alla v.c. Normale standardizzata, in quanto è continua e definita su tutto l’asse reale e ha una funzione di densità di forma campanu lare e simmetrica intorno all’asse T=0. La funzione di densità dipende da un unico parametro (n-1), chiamato gradi di libertà, che è un intero positivo ed è la seguente: 9.7. TEOREMA DEL LIMITE CENTRALE Il teorema del limite centrale afferma che la somma di un gran numero di v.c. tutte con la stessa distribuzione tende ad avere una distribuzione normale. L'importanza di ciò sta nel fatto che siamo in grado di ottenere stime della probabilità che riguardano la somma di v.c. indipendenti e identicamente distribuite, a prescindere da quale sia la distribuzione di ciascuna. 45 CAPITOLO 10 CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE 10.1. POPOLAZIONE E PARAMETRI DELLA POPOLAZIONE L’inferenza statistica è l’insieme di tecniche statistiche che consentono, sulla base dei risultati relativi ad una parte della popolazione (campione), di trarre conclusioni la cui validità può essere estesa a tutta la popolazione, anche se in termini probabilistici. In altre parole, tramite i metodi di campionamento statistico è possibile trarre conclusioni non certe sul valore di particolari parametri e/o sulla validità di specifiche ipotesi. 10.2. POPOLAZIONE E PARAMETRI DELLA POPOLAZIONE Una distinzione di base è quella tra popolazione finita e popolazione infinita. Un popolazione finita è un insieme costituito da N unità, come per esempio l’insieme di tutte le famiglie di una città, l’insieme di tutte le aziende di un paese. Dato un carattere X osservato su tutta la popolazione, con valori x1, x2, …, xN, si possono calcolare i parametri della popolazione, ossia delle costanti che descrivono aspetti caratteristici della distribuzione del carattere nella popolazione stessa. I due principali parametri utilizzati per descrivere una popolazione finita sono: Utilizziamo simboli diversi per la media e la varianza a seconda che ci riferiamo alla popolazione o a un campione; indichiamo con μ e 𝜎2 la media e la varianza nella popolazione, mentre con ?̅? e 𝑆2indichiamo la media e la varianza campionarie. Inoltre, si indica con 𝑁 il numero di unità della popolazione e con 𝑛 il numero di unità del campione. La popolazione infinita è invece composta da un numero molto elevato di unità, ossia da tutte le unità parzialmente osservabili e non necessariamente già esistenti fisicamente. Nelle popolazioni infinite, il carattere di interesse può essere rappresentato da una variabile casuale X con una certa distribuzione di probabilità. In questo caso, quindi, è consuetudine indicare con “popolazione X” la variabile casuale X. Se la variabile casuale X è discreta e presenta K valori distinti, x1, x2, …, xK, denoteremo con 𝑝(𝑥𝑗) = 𝑃(𝑋 = 𝑥𝑗), j=1,2, …,K, la sua determinazione di probabilità. Se la v.c. è continua, la sua funzione di densità sarà indicata con 𝑓(𝑥). Anche per una popolazione infinta i due principali parametri sono la media e la varianza: 46 10.3. IL CAMPIONAMENTO DA POPOLAZIONE FINITE Se il nostro scopo è quello di ottenere informazioni sulla popolazione di interesse e non possiamo effettuare un’indagine totale, allora, lo strumento più adatto è l’indagine campionaria. Un’indagine campionaria consiste nell’estrazione e nello studio di un campione id unità della popolazione al fine di ottenere informazioni concernenti alcuni parametri dell’intera popolazione. l’indagine campionaria presenta differenze importanti a seconda che si tratti di popolazione finita o popolazione infinita. Una popolazione finita può essere studiata in modo esaustivo enumerando e osservando tutte le unità statistiche che la compongono. Tale procedura prende il nome di indagine totale o censimento e consiste essenzialmente nell’osservare il valore assunto dal carattere di interesse X in ciascuna delle 𝑁 unità della popolazione. In molti casi, è preferibile osservare solamente una parte della popolazione, cioè un sottoinsieme, detto campione. Il numero di unità campionarie che compongono il campione è detto dimensione campionaria. Il rapporto tra la dimensione campionaria 𝑛 quella della popolazione 𝑁 viene chiamato frazione di campionamento. L'elemento cruciale nella definizione del campione è dato dalla regola di selezione, ossia dalla procedura con la quale le unità sono estratte della popolazione. Per definire una regola di selezione probabilistica si deve individuare: • L’insieme Ω, detto spazio campionario, formato da tutti i possibili campioni estraibili con una stessa tecnica da una popolazione • La probabilità di ogni campione c in Ω di essere estratto. In questo contesto, gli eventi elementari che costituiscono lo spazio campionario sono i singoli campioni c. 49 10.4. IL CAMPIONAMENTO DA POPOLAZIONI INFINITE 10.5. STATISTICHE CAMPIONARIE E DISTRIBUZIONI CAMPIONARIE Sia 𝑋1, 𝑋2, … , 𝑋𝑛 un campione casuale di n osservazioni appartenenti ad una popolazione finita o infinita. Una statistica campionaria è una funzione a valori reali delle osservazioni campionarie 𝑋1, 𝑋2, … , 𝑋𝑛. Statistiche di uso comune sono: In generale, una statistica 𝑡(𝑋1, 𝑋2, … , 𝑋𝑛) assume valori diversi a seconda del particolare campione estratto, quindi la probabilità che una statistica assuma un certo valore, 𝑡(𝑋1, 𝑋2, … , 𝑋𝑛), è pari alla probabilità complessiva di tutti i campioni per i quali si ottiene tale valore. Per questo motivo la distribuzione di probabilità di una statistica viene chiamata distribuzione campionaria. 10.6. LA DISTRIBUZIONE DELLA MEDIA CAMPIONARIA NELLE POPOLAZIONE INFINITE Tra le statistiche più frequentemente utilizzate, la media campionaria ricopre un ruolo particolare dovuto alle sue proprietà campionarie. Il valore atteso e la varianza della media campionaria ?̅? possono essere facilmente calcolati per tutte le popolazioni infinite e per qualsiasi dimensione campionaria. Sia 𝑋 la variabile casuale di interesse e siano μ e 𝜎2 rispettivamente la media e la varianza della popolazione. Sia, inoltre (𝑋1, 𝑋2, … , 𝑋𝑛) un campione casuale di dimensione n estratto dalla popolazione 𝑋. Sappiamo che esso è formato da n variabili casuali indipendenti e identicamente distribuite con 𝐸(𝑋𝑖) = 𝜇 e 𝑉𝑎𝑟(𝑋𝑖) = 𝜎 2 per ogni 𝑖 = 1,2, … , 𝑛. Sotto tali condizioni si ha: Il valore atteso della media campionaria è uguale alla media della popolazione, ossia: 50 𝐸(?̅?) = 𝜇 La varianza della media campionaria è uguale alla varianza della popolazione per la dimensione campionaria, ossia: 𝑉𝑎𝑟(?̅?) = 𝜎2 𝑛 L’importanza dei risultati è data dal fatto che essi valgono qualunque sia la distribuzione della popolazione X e per qualsiasi dimensione campionaria. Attraverso il teorema del limite centrale, infatti, si dimostra che, qualsiasi sia la popolazione considerata, la distribuzione della media campionaria tende alla distribuzione Normale all’aumentare della dimensione campionaria n. 10.7. LA DISTRIBUZIONE DELLA MEDIA CAMPIONARIA NELLE POPOLAZIONI FINITE Siano 𝑋1, 𝑋2, … , 𝑋𝑛 un campione casuale semplice senza ripetizione, ?̅? la media campionaria, μ e 𝜎2 rispettivamente la media e la varianza della popolazione. Si ha: 51 Se la dimensione campionaria n è sufficientemente ampia ma allo stesso tempo molto più piccola della numerosità N della popolazione, allora la distribuzione campionaria della ?̅? può essere approssimata con una distribuzione Normale con media μ e varianza 54 𝑀𝑆𝐸(𝑇1) < 𝑀𝑆𝐸(𝑇2) Per tutti i possibili valori di θ. L’errore quadratico medio di uno stimatore può anche essere espresso come somma di due termini: la varianza dello stimatore e il quadrato della distorsione: 𝑀𝑆𝐸(𝑇) = 𝑉𝑎𝑟(𝑇) + 𝐵(𝑇)2 Dove 𝑉𝑎𝑟(𝑇) = 𝐸[(𝑇 − 𝐸(𝑇)2] è la varianza di T. La distorsione di uno stimatore corretto è nulla e quindi l’errore quadratico medio di uno stimatore di questo tipo coincide con la sua varianza. Quindi, se lo stimatore è corretto, allora: 𝑀𝑆𝐸(𝑇) = 𝑉𝑎𝑟(𝑇) Per tutti i possibili valori di θ. Quindi, se si restringe la scelta alla sola classi di stimatori corretti, il criterio dell’errore quadratico medio porta a preferire quello con variabilità più bassa. Dati due stimatori corretti 𝑇1 e 𝑇2 si dirà che 𝑇1 è più efficiente di 𝑇2 se e solo se 𝑉𝑎𝑟(𝑇1) < 𝑉𝑎𝑟(𝑇2) Per tutti i possibili valori di θ. 11.5. STIMATORI CONSISTENTI E ASINTOTICAMENTE CORRETTI Una tra le principali proprietà asintotiche è la consistenza. In prima approssimazione, possiamo dire che uno stimatore è consistente se la sua precisione aumenta al crescere della numerosità campionaria. Si può facilmente intuire che l’informazione desuma da un campione dipende dalla dimensione campionaria, ossia dal numero di unità statistiche. Di conseguenza, l’informazione desunta dallo stimatore circa un parametro ignoto della popolazione dovrebbe aumentare la crescere della MSE(T)=Var(T)+B(T), ma ricordiamo che se lo stimatore è corretto la distorsione (B(T)) vale 0 55 numerosità campionaria. In un certo senso, la proprietà di consistenza stabilisce che all’aumentare dell’informazione contenuta dal campione (ossia all’aumentare della sua numerosità) cresce la precisione dello stimatore. Formalmente, uno stimatore 𝑇𝑛 di un parametro θ, dove n indica la dipendenza dello stimatore dalla numerosità campionaria, è consistente se il suo errore quadratico medio tende a zero al tendere a più infinito della numerosità campionaria. Lo stimatore 𝑇𝑛 è consistente in media quadratica se È chiaro che 𝑀𝑆𝐸(𝑇𝑛) tende a zero se e solo se sia la varianza sia la distorsione tendono a zero all’aumentare della numerosità campionaria. In simboli: Il significato della consistenza in media quadratica risulta evidente se si considera che lim 𝑛→+∞ 𝑀𝑆𝐸(𝑇𝑛) = 0 implica che, al crescere di n, la distribuzione campionaria di 𝑇𝑛 si addensa sempre di più intorno a θ, ossia tende a concentrare tutta la massa di probabilità in un intervallo di ampiezza infinitesima attorno al parametro θ. Se lo stimatore 𝑇𝑛 è corretto, esso è consistente se e solo se la sua varianza tende a zero quando la numerosità campionaria tende a 𝑛 → ∞; Uno stimatore corretto 𝑇𝑛 è consistente in media quadratica se e solo se 𝑙𝑖𝑚 𝑛→+∞ 𝑉𝑎𝑟(𝑇𝑛) = 0 In circostanze di elevata numerosità campionaria, alcuni stimatori distorti possono stimare il parametro sostanzialmente al pari degli stimatori corretti. In altre parole, il valore atteso di uno stimatore distorto può, al crescere della dimensione campionaria, tendere al vero valore del parametro. Uno stimatore 𝑇𝑛 di un parametro θ è asintoticamente corretto se lim 𝑛→+∞ 𝐸(𝑇𝑛) = 𝜃 Per ogni possibile valore di θ. Dunque, uno stimatore consistente in media quadratica è anche asintoticamente corretto. 56 11.6. STIMA PUNTUALE DELLA MEDIA DI UNA POPOLAZIONE Tra i parametri che possono interessare uno statistico, un ruolo chiave è svolto dalla media. Sia data una popolazione X, con media 𝜇 = 𝐸(𝑋) e varianza 𝜎2 = 𝑉𝑎𝑟(𝑋). Consideriamo inoltre un campione casuale 𝑋1, 𝑋2, … , 𝑋𝑛 di dimensione n e sia: la media campionaria. Dalla relazione 𝐸(?̅?) = 𝜇 segue che: la media campionaria è uno stimatore corretto della media della popolazione. È importante evidenziare che tale risultato vale qualunque sia il tipo di distribuzione della popolazione. Data la correttezza della media campionaria, l’errore quadratico medio coincide con la varianza (perché ricordiamo che la distorsione B(T) è nulla in caso di stimatore corretto); si ha quindi: Da tale espressione possiamo inoltre verificare che la media campionaria è uno stimatore consistente della media della popolazione. Infatti, indicando con 𝑋𝑛̅̅̅̅ la dipendenza dello stimatore dalla numerosità campionaria, si ottiene che: Se la X è distribuita secondo una Normale con media μ e varianza 𝜎2, allora anche la distribuzione della media campionaria si distribuirà secondo una normale con media μ e varianza 𝜎2/𝑛. 59 CAPITOLO 12 STIMA PER INTERVALLO 12.1. INTRODUZIONE La procedura inferenziale, che va sotto il nome di stima puntuale, consiste nell’utilizzare le osservazioni di un campione casuale per ottenere una stima del parametro ignoto tramite un singolo valore numerico. Tale approccio possiede, però, un punto di debolezza dovuto al fatto che la stima ottenuta sul campione potrebbe differire in modo significativo dal valore del parametro incognito. In molti casi perciò si preferisce considerare, oltre alla singola stima puntuale, anche un intervallo di stime plausibili al quale sia associato un fissato livello di “affidabilità”. In sostanza, si vuole determinare un intervallo di valori intorno alla stima puntuale che ci aspettiamo contenga, con un certo livello di fiducia, il valore del parametro incognito. 12.2. STIMA PER INTERVALLO Conoscendo la distribuzione campionaria dello stimatore T del parametro incognito θ è possibile costruire un intervallo di valori intorno alla stima puntuale che si ritiene possa contenere, con un certo livello di fiducia, il valore del parametro incognito. Tale intervallo sarà chiamato intervallo di confidenza. Sia X un carattere distribuito nella popolazione secondo una legge di probabilità dipendente da un parametro ignoto θ. Sia inoltre 𝑋1, 𝑋2, … , 𝑋𝑛 un campione casuale di dimensione n estratto dalla popolazione. Va specificato che 𝑋1, 𝑋2, … , 𝑋𝑛 sono n variabili casuali indipendenti con distribuzione identica a quella della popolazione X. Consideriamo ora due statistiche campionarie (ossia due funzioni delle osservazioni campionarie): 𝐿1 = 𝐿1(𝑋1, 𝑋2, … , 𝑋𝑛) e 𝐿2 = 𝐿2(𝑋1, 𝑋2, … , 𝑋𝑛) tali che 𝐿1 ≤ 𝐿2 per ogni possibile campione. Possiamo quindi considerare l’intervallo [𝐿1(𝑋1, 𝑋2, … , 𝑋𝑛); 𝐿2(𝑋1, 𝑋2, … , 𝑋𝑛)] caratterizzato dal fatto che i suoi estremi sono variabili casuali e per tale motivo viene detto intervallo casuale. L’intervallo casuale 𝐿1(𝑋1, 𝑋2, … , 𝑋𝑛); 𝐿2(𝑋1, 𝑋2, … , 𝑋𝑛)] si definisce intervallo di confidenza di livello 1 − 𝛼 per un parametro θ se contiene con probabilità 1 − 𝛼 il parametro incognito θ della popolazione. In simboli: 𝑃[𝐿1(𝑋1, 𝑋2, … , 𝑋𝑛) ≤ 𝜃 ≤ 𝐿2(𝑋1, 𝑋2, … , 𝑋𝑛)] = 1 − 𝛼 I valori di α comunemente utilizzati sono 0,05 e 0,01 che conducono a livelli di confidenza (ossia 1 − 𝛼) uguali a 0,95 e 0,99. L’intervallo numerico [𝐼1, 𝐼2] = 𝐿1(𝑋1, 𝑋2, … , 𝑋𝑛); 𝐿2(𝑋1, 𝑋2, … , 𝑋𝑛)]èuna realizzazione 60 dell’intervallo casuale [𝐿1, 𝐿2], ottenuta in corrispondenza del campione osservato e viene quindi chiamato intervallo di confidenza stimato. Vi sono poi diverse analogie tra la nozione di stimatore per intervallo e quella di stimatore puntuale. In primo luogo, una misura dell’accuratezza di uno stimatore puntuale è data dall’errore quadratico medio: minore è il valore dell’errore quadratico medio, maggiore è la probabilità che lo stimatore assuma valori prossimi al parametro ignoto. Con qualche semplificazione possiamo considerare anche il livello di confidenza come una misura dell’accuratezza dello stimatore per intervallo. Infatti, il livello di confidenza indica proprio la misura dell’attendibilità che si associa alla stima. Maggiore è il livello di confidenza e maggiore è la probabilità che l’intervallo contenga il parametro. È opportuno a questo punto effettuare alcune considerazioni: 1. Non è corretto dire che il parametro θ cada all’interno dell’intervallo, ma è possibile affermare che si ha fiducia, espressa dal valore 1 − 𝛼, che il parametro θ cada entro i limiti indicati. 2. Si può solo affermare che il valore incognito θ può essere, con probabilità 1 − 𝛼, compreso nell’intervallo [𝐿1, 𝐿2]. 3. Di conseguenza, il valore θ potrebbe anche essere, con probabilità α, un valore esterno a tale intervallo. 4. Al crescere di n per gli stimatori corretti aumenta la precisione delle stime campionarie, per cui a parità di α gli estremi dell’intervallo di confidenza si restringono. 12.3. INTERVALLO DI CONFIDENZA PER LA MEDIA (𝜎2𝑁𝑂𝑇𝑂) Supponiamo di dover costruire intervalli di confidenza per la media μ di una popolazione Normale con varianza nota 𝜎2. Sappiamo che ?̅?~𝑁(𝜇; 𝜎2 𝑛 ) e, di conseguenza, la variabile casuale standardizzata 𝑍 = ?̅? − 𝜇 𝜎/√𝑛 si distribuisce come una Normale 𝑁(0; 1). Indichiamo con 𝑧𝑎/2 il numero reale tale che 𝑃(𝑍 > 𝑧𝑎 2⁄ ) = 𝛼/2. Per la simmetria della distribuzione Normale, segue che 𝑃(𝑍 < −𝑧𝑎 2⁄ ) = 𝛼/2 e quindi: 𝑃(−𝑧𝑎 2⁄ ≤ 𝑍 ≤ 𝑧𝑎 2⁄ ) = 1 − 𝛼 (i valori di 𝑧𝑎 2⁄ si possono ottenere facilmente consultano le tavole della distribuzione Normale standardizzata). Quindi si ha: 61 𝑃 (−𝑧𝑎 2⁄ ≤ ?̅? − 𝜇 𝜎/√𝑛 ≤ 𝑧𝑎 2⁄ ) = 1 − 𝛼 Da cui Queste relazioni mostrano quanto segue. Dato un campione casuale 𝑋1, 𝑋2, … , 𝑋𝑛 estratto da una distribuzione Normale con media μ e varianza 𝜎2 nota, lo stimatore intervallo di confidenza per la media della popolazione al livello 1 − 𝛼 è: In questo caso, l’intervallo trovato è simmetrico rispetto al valore di ?̅? e possiede ampiezza minima tra tutti i possibili intervalli [𝑧1, 𝑧2] tali che 𝑃(𝑧1 ≤ 𝑍 ≤ 𝑧2) = 1 − 𝛼. Se 𝑥1, 𝑥2, … , 𝑥𝑛 indicano i dati osservati, allora l’intervallo di confidenza stimato è: L’intervallo di confidenza ha una lunghezza pari a 2𝑧𝑎/2 ∙ ( 𝜎 √𝑛 ) che dipende da tre elementi: la dimensione campionaria (n), il livello di confidenza (1 − 𝛼) e il valore della varianza della popolazione 𝜎2. Si può notare che: • A parità di dimensione, il livello di confidenza e varianza, la lunghezza non dipende dal campione che è stato estratto. • L’aumento della numerosità campionaria (n) comporta una riduzione dell’ampiezza dell’intervallo e quindi una stima intervallare più precisa. • D’altra parte, a parità di dimensione campionaria, un aumento del livello di confidenza (ossia una riduzione di α) porta ad una aumento del valore 𝑧𝑎/2 e, conseguentemente, dell’ampiezza dell’intervallo. 12.4. INTERVALLO DI CONFIDENZA PER LA MEDIA (𝜎2𝐼𝐺𝑁𝑂𝑇𝑂) Sia X una variabile distribuita secondo una Normale con parametri μ e 𝜎2 entrambi ignoti. Il procedimento per ottenere un intervallo di confidenza per μ, a partire da un campione casuale di dimensione n, è del tutto analogo a quello descritto nel paragrafo precedente. Si è visto che nel 64 Tende a distribuirsi secondo una Normale standardizzata. Osserviamo che in questo caso la varianza e, di conseguenza, gli estremi dell’intervallo dipendono dal parametro incognito π. Infatti: Tuttavia, all’aumentare della dimensione campionaria, poiché ?̅? è uno stimatore consistente di π, anche lo stimatore ?̅?(1 − ?̅?) tenderà alla quantità 𝜋(1 − 𝜋). Pertanto, la distribuzione della variabile casuale: Si può approssimare con una Normale standardizzata, ottenendo il seguente risultato: Per una dimensione campionaria abbastanza elevate, uno stimatore sufficientemente accurato dell’intervallo di confidenza per la proporzione π al livello 1 − 𝛼 è dato da: Come regola pratica, si può assumere che l’approssimazione Normale è adeguata quando si verificano entrambe le condizioni 𝑛𝜋 ≥ 5 e 𝑛(1 − 𝜋) ≥ 5. Tale regola tiene conto del fatto che per valori di π vicini a 0,5 la distribuzione Binomiale è simmetrica e tende più velocemente alla Normale al crescere di n. 12.6. INTERVALLO DI CONFIDENZA PER LA VARIANZA Consideriamo il caso di una popolazione Normale con media μ e varianza𝜎2 entrambe ignote. Per costruire un intervallo di confidenza per la varianza possiamo partire da un opportuno stimatore e dalla conoscenza della sua distribuzione campionaria. Consideriamo quindi la varianza campionaria corretta 𝑆2 come stimatore della varianza della popolazione. Si dimostra che la variabile casuale (𝑛 − 1)𝑆2/𝜎2è distribuita secondo una variabile casuale Chi-quadrato 𝑛 − 1 gradi di libertà. 65 Indichiamo con 𝜒2𝑎 2⁄ il numero reale tale che 𝑃 (𝜒 2 > 𝜒2𝑎 2⁄ ) = 𝑎 2⁄ e con 𝜒 2 1−𝑎 2⁄ il numero reale tale che 𝑃 (𝜒2 > 𝜒21−𝑎 2⁄ ) = 1 − (𝑎 2)⁄ . Data una popolazione Normale con media μ e varianza 𝜎2, entrambe ignote, lo stimatore intervallo di confidenza per la varianza della popolazione al livello 1 − 𝑎 è: Si noti che la distribuzione Chi-quadrato è una variabile casuale continua definita sul semiasse positivo; è asimmetrica a destra e la sua forma dipende dal numero di gradi di libertà. Essa tende alla simmetria quando il numero dei gradi di libertà sono molto elevati. 12.7. DETERMINAZIONE DELLA NUMEROSITA’ CAMPINARIA Considerano la stima per intervallo della media della popolazione abbiamo mostrato che la lunghezza dell’intervallo di confidenza dipende, oltre che dalla varianza della popolazione 𝜎2 e dal livello di confidenza 1 − 𝑎, anche dalla numerosità campionaria 𝑛. Inoltre, la semi-lunghezza 66 dell’intervallo costituisce una misura inversa della precisione della stima; infatti, quanto minore è la semi-lunghezza, tanto maggiore è la precisione della stima intervallare. Tuttavia, talvolta si vuole determinare in anticipo la dimensione campionaria necessaria ad assicurare una certa precisione. Consideriamo in primo luogo il caso in cui X è distribuito nella popolazione secondo un Normale con media μ e varianza 𝜎2. Dalla formula Si può ricavare la dimensione campionaria necessaria ad assicurare che la semi-lunghezza dell’intervallo non superi un certo valore 𝛿, si ha infatti: 𝛿 = 𝑧𝑎 2⁄ ( 𝜎 √𝑛 ) ossia √𝑛 = 𝑧𝑎 2⁄ ( 𝜎 𝛿 ) ed elevando entrambi i membri al quadrato si ottiene: 𝑛 = (𝑧𝑎 2⁄ (( 𝜎 𝛿 ) 2 Se il valore ottenuto non è un numero intero si prenderà come dimensione campionaria il primo numero intero superiore a tale valore. Quando non è nota la distribuzione della popolazione, oppure la popolazione ha distribuzione Normale, ma non è nota la varianza, si può far riferimento alla formula Per utilizzare tale formula è necessario che la numerosità campionaria non sia troppo piccola; una condizione che garantisce un’adeguata approssimazione è 𝑛 > 120. Inoltre, per calcolare la numerosità del campione, una stima della varianza della popolazione, 𝑠2, dovrà essere nota già prima di procedere all’estrazione del campione. La dimensione campionaria sarà determinata quindi dalla seguente formula: 𝑛 = (𝑧𝑎 2⁄ (( 𝑠 𝛿 ) 2 69 13.4. GLI ERRORI DEL PRIMO E DEL SECONDO TIPO Il valore di α rappresenta la probabilità di osservare valori della statistica test interni alla zona di rifiuto quando l’ipotesi nulla è vera. In altri termini, α è la probabilità che siamo disposti ad accettare di commettere un errore rifiutando l’ipotesi nulla. Nell’eseguire un test statistico si possono distinguere due tipi di errori, gli errori del primo tipo e gli errori del secondo tipo. • Si commette un errore del primo tipo (α) quando si rifiuta l’ipotesi nulla mentre questa è vera • Si commette un errore del secondo tipo (β) quando si accetta, o meglio quando non si rifiuta l’ipotesi nulla mentre questa è falsa. È dunque possibile individuare diverse proprietà: • α è la probabilità di commettere un errore del primo tipo ed è anche il livello di significatività del test. Tale valore viene fissato dal ricercatore prima di effettuare il test ed esprime il rischio che siamo disposti a commettere di rifiutare l'ipotesi nulla, quando questa è vera. Una volta specificata l'ipotesi alternativa e il valore di α, è automaticamente definita la ragione di rifiuto e i valori critici • 1-α, ossia il complemento a 1 della probabilità di commettere un errore del primo tipo, viene chiamato coefficiente di confidenza del test e corrisponde alla probabilità di accettare l’ipotesi nulla quando questa è vera. • β è la probabilità di commettere un errore del secondo tipo, ossia di accettare l’ipotesi nulla quando questa è falsa. Tale valore non è fissato a priori, ma dipende dal valore di α. 70 • 1-β, ossia il complemento ad 1 della probabilità di commettere un errore del secondo tipo, viene chiamato potenza del test e corrisponde alla probabilità di rifiutare l’ipotesi nulla quando questa è falsa. È nostro interesse fare in modo che tale valore sia più elevato possibile. In generale, tra α e β sussiste una relazione inversa, in quanto, minore è il valore di α, maggiore è il valore di β. Infatti, più piccola è la zona di rifiuto, minore è la probabilità di commettere un errore del secondo tipo. Per sincerarsi di ciò, basta spostare di zα (nella figura): spostandolo a sinistra, aumenta il valore di α e diminuisce quello di β; spostandolo a destra, diminuisce il valore di α e aumenta quello di β. 13.5. LA FUNZIONE DI POTENZA Nel paragrafo precedente, abbiamo visto che se consideriamo un’ipotesi alternativa semplice del tipo: 𝐻1: 𝜃 = 𝜃1, il complemento ad 1 della probabilità di secondo tipi, 1-β, è chiamato potenza del test. La potenza corrisponde alla probabilità di rifiutare H0 quando questa è falsa ed è nostro interesse che questa probabilità sia più elevata possibile. Se, però, l’ipotesi alternativa è composta, non abbiamo più un singolo valore di β, e quindi un singolo valore per la potenza del test, bensì una funzione del tipo 𝜋(𝜃), detta funzione di potenza del test. Si chiama funzione di potenza del test la funzione che descrive la probabilità di rifiutare H0, al variare di θ. 71 13.6. CONNESSIONE TRA INTERVALLO DI CONFIDENZA E TEST Vi è un legame importante tra intervalli di confidenza e test di ipotesi che permette anche di costruire test a partire da intervalli di confidenza appropriati. Consideriamo il problema di verifica di ipotesi bidirezionale su una media 𝐻0: 𝜇 = 𝜇0 contro 𝐻1: 𝜇 ≠ 𝜇0. Fissato il livello di significatività del test α, se la popolazione è Normale con varianza nota si può utilizzare la statistica test: 𝑍 = ?̅? − 𝜇0 𝜎/√𝑛 Mentre i valori critici saranno dati da -zα/2 e zα/2. In altri termini, perché H0 sia accettata, occorre che si verifichi la seguente condizione: Ossia che 𝜇0 sia compreso nel seguente intervallo Tale espressione definisce gli stessi estremi visti nella definizione di un intervallo di confidenza con livelli di significatività (1-α). In sostanza, se 𝜇0 è compreso nell’intervallo di confidenza per μ a livello (1-α), accetteremo H0, altrimenti questa verrà rifiutata. 74 Come in precedenza, queste ragioni di rifiuto possono essere espresse direttamente in termini di media campionaria. Per esempio, quando 𝐻1: 𝜇 > 𝜇0, la regione di rifiuto è definita da: 14.1.3. TEST PER LA MEDIA DI UNA POPOLAZIONE NON- NORMALE Se l’assunzione di Normalità nella distribuzione non è valida, quando la dimensione campionaria è sufficientemente grande, è possibile utilizzare un test basato su una statistica la cui distribuzione è indipendente dalla distribuzione iniziale della popolazione, quando la dimensione del campione tende ad infinito. In particolare, sotto alcune condizione di regolarità, si ha che sotto 𝐻0 vale il seguente risultato. Al tendere di n ad infinito, la statistica test ?̅? − 𝜇0 𝑆 √𝑛⁄ tende a distribuirsi come una Normale standardizzata. Quindi, per verificare l’ipotesi sulla media si può utilizzare tale statistica con le stesse regioni di rifiuto viste per la 𝑍 = ?̅?−𝜇0 𝜎/√𝑛 . Ovviamente, l’approssimazione migliora all’aumentare della numerosità campionaria e può essere considerata adeguata per 𝑛 ≥ 120. 14.1.4. COME STABILIRE LA DIMENSIONE CAMPIONARIA Finora la dimensione campionaria n è sempre stata considerata come una quantità fissata. Tuttavia, può essere d’interesse fissare n in modo tale che il test raggiunga una certa potenza sotto una specifica ipotesi alternativa. Si tratta dunque di determinare il valore di n in corrispondenza di un valore obiettivo degli errori α e β (o della potenza 1 − 𝛽). La procedura per la determinazione della numerosità prevede i seguenti passi: 1. Specificare la probabilità dell’errore di prima specie α 2. Specificare il valore di 𝜇1 e il corrispondente valore di β 3. Selezionare una stima iniziale di 𝜎 75 4. Calcolare la numerosità campionaria. Sia Z una v.c. Normale standardizzata e indichiamo con: 𝑧𝑎 il valore per cui 𝑃(𝑍 ≥ 𝑧𝑎) = 𝑎 𝑧𝛽 il valore per cui 𝑃(𝑍 ≥ 𝑧𝛽) = 𝛽, ossia 𝑃(𝑍 < 𝑧𝛽) = 1 − 𝛽. L’espressione per il calcolo della dimensione campionaria è: Per comprendere tali formule, osserviamo la seguente figura: possiamo ottenere la distanza tra 𝜇0 e c come: 76 14.2. TEST PER UNA PROPORZIONE Consideriamo la situazione in cui X è una variabile casuale dicotomica che può assumere i valori tra 0 e 1 e che segue una distribuzione bernoulliana con parametro π (0 < 𝜋 < 1), cioè 𝑋~𝐵𝑒𝑟𝑛𝑜𝑢𝑙𝑙𝑖(𝜋). In questo caso, possiamo essere interessati alla verifica di uno dei seguenti sistemi di ipotesi: Per verificare queste ipotesi si può utilizzare la seguente statistica test: 𝑍 = ?̅? − 𝜋0 √𝜋0(1 − 𝜋0)/𝑛 All’aumentare di n e sotto l’ipotesi nulla tale statistica tende a distribuirsi approssimativamente come una Normale standardizzata. La bontà dell’approssimazione, garantita dal teorema del limite centrale, dipende da n e da 𝜋0; migliora per valori crescenti di n all’avvicinarsi di 𝜋0 a 0,5. Come regola indicativa, la numerosità può considerarsi adeguata quando 𝑛𝜋0 ≥ 5 e 𝑛(1 − 𝜋0) ≥ 5. Se questa condizione è soddisfatta, utilizzando la statistica test appena descritta, si ottengono, in corrispondenza delle diverse ipotesi alternative, le seguenti ragioni di rifiuto: 14.3. TEST PER LA VARIANZA DELLA POPOLAZIONE Per quanto riguarda la varianza di una popolazione, possiamo considerare i seguenti sistemi di ipotesi: Quando 𝑋~𝑁(𝜇; 𝜎2) e μ ignota, si può utilizzare come statistica test il seguente rapporto: 79 POPOLAZIONI QUALSIASI E GRANDI CAMPIONI Quando la numerosità dei due campioni è sufficientemente elevata, possiamo sostituire 𝜎1 2 e 𝜎2 2 con i corrispondenti stimatori corretti e usare la statistica test: Che, sotto 𝐻0, si distribuisce asintoticamente come una distribuzione Normale standardizzata, qualunque siano le due popolazione. In genere, l’approssimazione è adeguata quando entrambi 𝑛1 e 𝑛2 sono maggiori di 120. In questo caso, le ragioni di rifiuto sono le stesse viste per la statistica test: 14.4.2. TEST SUL RAPPORTO TRA DUE VARIANZE Ipotizziamo che 𝑋1 e 𝑋2 abbiano distribuzione Normale 𝑋1~𝑁(𝜇1, 𝜎1 2) e 𝑋2~𝑁(𝜇2, 𝜎2 2), dove 𝜎1 2 e 𝜎2 2 sono i parametri di interesse. Le ipotesi che saranno considerate sono le seguenti: 80 Quindi il test per l’uguaglianza delle varianze viene ricondotto ad un test per il rapporto delle varianze: quanto più vicine sono le due varianze tra loro, tanto più vicino a 1 è il rapporto in questione. La statistica test che si può utilizzare per verificare tali ipotesi è: 𝐹𝑛,𝑚 = 𝑆1 2 𝑆2 2 14.4.3. TEST PER LA DIFFERENZA TRA DUE PROPROZIONI ni abbiano distribuzione Bernoullian ae Assumiamo che entrambe le popolazio O liono verificare le seguenti ipotesi. Mpa rametri rispettivamente x; e 2. Si VOB! contro Hi 7 > contro Hi <a contro HT #7 1. Hof = #2 2. How = 2 3. Hof = #2 che possono anche essere espresse sulla base del parametro 7p=7- 7; 1. Hoirp=0 contro Hitp>0 2. Hp:rp=0 contro Hirp<0 3. Ho:tp=0 contro Hirp#0 e ni, sono sufficientemente elevate, possiamo Quando le numerosità campionarie ni della statistica test: verificare le suddette ipotesi attraverso l’uso X- X. 122 (14.5.5) dove X, è lo stimatore congiunto di x, cioè n n + 1 23 3 > X,= xX:+ x; |a mX+mX, p > ò = DIL tal " i mu + il in ‘e com Sotto l'ipotesi nulla Ho, la statistica test si distribuisce approssimativament enti fe una disiribuzione Normale standardizzata e di co nza si hanno le 508 ioni d di li N dard d nsegue Ipotesi alternativa Regione di rifiuto Hi 21> m Hi m< mm Hi m# 1 ma (1 -)/ fe (14) x 81 84 variare di X. La variabile casuale ε riassume invece il grado di incertezza rispetto alla vera relazione tra la X e la Y e giustifica la differenza tra il valore osservato di Y per un valore fissato di X e il valore medio corrispondente a 𝑓(𝑥). Per questa ragione ε è chiamato errore. Dunque, in una relazione statistica vi è una componente deterministica, rappresentata dalla 𝑓(𝑥), e una componente stocastica, rappresentata dalla variabile casuale ε. Comunque, 𝑓(𝑥) ed ε non possono essere osservati e tutto quello che abbiamo a disposizione è un campione su cui sono state osservate le due variabili, ossia n coppie di valori (𝑥1, 𝑦1), (𝑥2, 𝑦2) … (𝑥𝑛 , 𝑦𝑛). L’analisi della regressione è una tecnica il cui scopo è appunto quello di stimare la funzione di regressione e la grandezza dell’errore ε. 16.3. SPECIFICAZIONE DEL MODELLO DI REGRESSIONE Il più semplice modello di regressione è il modello di regressione lineare semplice. In esso si assume che la funzione di regressione 𝑓(𝑥) sia lineare, cioè che 𝑓(𝑋) = 𝛽0 + 𝛽1𝑋, in cui 𝛽0 e 𝛽1 siano valori incogniti da stimare. Questi corrispondono, rispettivamente all’intercetta e al coefficiente angolare di una retta sul piano e sono chiamati coefficienti di regressione. Il modello di regressione lineare si dice semplice quando si considera una sola variabile esplicativa. La forza del modello lineare semplice dipende dal fatto che una funzione di regressione non lineare, ma abbastanza regolare, può essere spesso approssimata tramite una retta. Le assunzioni del modelli di regressione lineare semplice si riferiscono al processo che generale le n coppie di dati disponibili (𝑥1, 𝑦1), (𝑥2, 𝑦2) … (𝑥𝑛, 𝑦𝑛) e sono le seguenti: Assunzione 1: la prima assunzione implica che tra le possibili funzioni 𝑓(𝑥) che possono descrivere il legame tra la variabile dipendente e la variabile esplicativa, si è scelta la funzione lineare. 𝑌 = 𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖 Assunzione 2: le 𝜀𝑖 è una variabili casuali indipendenti con valore atteso nullo 𝐸(𝜀𝑖) = 0 e varianza costante 𝑉(𝜀𝑖) = 𝜎 2 per ogni 𝑖 = 1, … , 𝑛, indipendentemente dal valore della X. La condizione di varianza costante viene detta ipotesi di omoschedasticità: per ogni valore fissato di X, la Y possiede sempre lo stesso grado di variabilità. Poiché 𝜎2 è la media delle deviazioni al quadrato di tutti i possibili valori di 𝜀𝑖 dalla propria media ed essendo quest’ultima nulla, si ottiene che 𝜎2 è una misura della grandezza di 𝜀𝑖. Assunzione 3: i valori 𝑥𝑖 della variabile esplicativa X sono noti senza errore. Poiché 𝜀𝑖 è una variabile casuale, anche la variabile dipendente Y, somma di una componente determinista e di una stocastica, è una variabile casuale. Ora, per ogni 𝑥𝑖, 𝛽0 + 𝛽1𝑥𝑖 è una costante e 𝐸(𝜀𝑖) = 0; da ciò discende che il valore atteso di 𝑌𝑖 condizionato al valore 𝑋 = 𝑥𝑖 è: 𝐸(𝑌𝑖|𝑋 = 𝑥𝑖) = 𝐸(𝛽0 + 𝛽1𝑥𝑖 + 𝜀𝑖) = 𝛽0 + 𝛽1𝑥𝑖 + 𝐸(𝜀𝑖) = 𝛽0 + 𝛽1𝑥𝑖 85 Mentre la varianza di 𝑌𝑖 è 𝑉(𝑌𝑖) = 𝑉(𝜀𝑖) = 𝜎 2. L’indipendza delle v.c. 𝜀𝑖 implica inoltre anche l’indipendenza delle 𝑌𝑖. Quindi, la formluazione quivalente del modello di regressione lineare che riassume le tre assunzione è la seguente: le osservazioni 𝑦𝑖 sono realizzazioni di variab ili casuali indipendenti con valore atteso 𝛽0 + 𝛽1𝑥𝑖 e varianza comune 𝜎 2. 16.4. STIMA PUNTUALE DEI COEFFICIENTI DI REGRESSIONE Occorre a questo punto definire un metodo di stima dei coefficienti di regressione. Poiché abbiamo assunto l’esistenza di una relazione lineare tra la X e la Y e che l’errore ha media nulla e varianza costante, risulta ovvio che la retta di regressione debba passare attraverso la nuvola dei punti, avvicinandosi il più possibile a essi. In altri termini, occorre individuare una retta che per ogni 𝑥𝑖 restituisca un valore di 𝑌𝑖 prossimo ai valori osservati 𝑦𝑖. Chiamiamo 𝑦1̂ = 𝛽0̂ + 𝛽1̂𝑥𝑖 il valore di Y fornito dalla retta stimata in corrispondenza di 𝑥𝑖, dove 𝛽0̂ e 𝛽1̂ sono le stime dei coefficienti di regressione. Il problema conciste nell’individuare i coefficienti di regressione in modo tale che i valori stimati 𝑦1̂, 𝑦2̂, … , 𝑦?̂? siano il più possibile vicini ai valori osservati 𝑦1, 𝑦2, … , 𝑦𝑛. Diremo che una retta ha un migliore adattamento (o accostamento) ai dati osservati se, fissati i valori dei coefficienti di regressione, complessivamente gli scarti (𝑦𝑖 − 𝑦?̂?) = (𝑦𝑖 − 𝛽?̂? − 𝛽1̂𝑥𝑖) sono più piccoli. Per valutare complessivamente gli scarti risulta comodo utilizzare la somma delle differenze al quadrato che sta alla base del modello di stima dei minimi quadrati. Il metodo di stima dei minimi quadrati consiste nel ricercate le stime di 𝛽0 e 𝛽1 che rendono minima la funzione di perdita. Chiameremo residuo i-esimo, e lo indicheremo con ê𝑖, la differenza tra il valore osservato 𝑦𝑖 e il valore fornito dalla regressione ?̂?𝑖 ê𝑖 = 𝑦𝑖 − ?̂?𝑖 Per individuare i valori di 𝛽0 e 𝛽1che renoìdno minima la funzione di perdita 𝐺(𝛽0, 𝛽1), occorre calcolare le derivate parziali di tale funzione rispetto a 𝛽0 e 𝛽1 e porle uguali a zero. Dopo alcuni passaggi e semplicifcazioni si ottiengno le stime dei coefficienti di regressione. Le stime dei minimi quadrati dei coefficienti di regressione sono date da: 86 In cui ?̅? e ?̅? sono rispettivamente le medie campionarie di X e Y. Poiché il numeratore di 𝛽1̂ è n volte la covarianza campionaria, mentre il denominatore è n volte la varianza campionaria non corretta della X, la stima 𝛽1̂ può anche essere espressa come: 16.5. LA DECOMPOSIZIONE DELLA VARIANZA TOTALE E IL COEFFICIENTE DI DETERMINAZIONE Le stime dei minimi quadrati dei coefficienti di regressione possiedono un’importante proprietà che consente di valutare le capacità previste del modello stimato, si può dimostrare che i valori stimati soddisfino la seguente relazione: ∑ (𝑦𝑖 − ?̅?) 2 = ∑( 𝑛 𝑖=1 ?̂?𝑖 − ?̅?) 2 + ∑ ê𝑖 2 𝑛 𝑖=1 𝑛 𝑖=1 Tale relazione va sotto il nome di decomposizione della varianza totale. • Il termine a sinistra dell’uguaglianza è la devianza della variabile dipendente Y, detta Somma Totale dei Quadrati (SQT) ed è la somma dei quadrati delle differenze dei valori osservati 𝑦𝑖 dalla loro media ?̅?. 𝑆𝑄𝑇 = ∑ (𝑦𝑖 − ?̅?) 2 𝑛 𝑖=1 • Il primo termine a destra dell’uguaglianza è detto Somma dei Quadrati della Regressione (SQR) e rappresenta la somma dei quadrati delle differenze dei valori stimati ?̂?𝑖 dalla ?̅?. 𝑆𝑄𝑅 = ∑( 𝑛 𝑖=1 ?̂?𝑖 − ?̅?) 2 • Il secondo termine a destra dell’uguaglianza è detto Somma dei Quadrati degli Errori (SQE) ed è la somma dei quadrati delle differenze tra i valori osservati 𝑦𝑖 e i valori stimati 𝑦1̂ = 𝛽0̂ + 𝛽1̂𝑥𝑖 ∑ ê𝑖 2 𝑛 𝑖=1 89 che indicheremo con 𝐵0 e 𝐵1. In maniera analoga, la stima di 𝐸(𝑌𝑖|𝑥𝑖), ossia ?̂?𝑖, varierà a seconda del campione estratto, generando la v.c. stimatore della risposta media ?̂?𝑖. È importante a questo punto considerare quali proprietà possiedono tali stimatori. Sostituendo nella al posto dei valori 𝑦𝑖 e ?̅?, le corrispondenti variabili casuali 𝑌𝑖 e ?̅?, otteniamo l’espressione degli stimatori minimi quadrati 𝐵0 e 𝐵1. PROPRIETÀ DEGLI STIMATORI DEI MINIMI QUADRATI 1. 𝐵0 e 𝐵1 sono stimatori corretti di 𝛽0 e 𝛽1, ossia 𝐸(𝐵0) = 𝛽0 e 𝐸(𝐵1) = 𝛽1. 2. Nella classe degli stimatori corretti di 𝛽0 e 𝛽1 che sono funzioni lineari delle 𝑌𝑖, gli stimatori dei minimi quadrati sono i piùefficienti, cioè sono quelli che hanno minima varianza per qualsiasi valore dei parametro (Gauss-Markov). 3. La varianza e la covarianza degli stimatori dei minimi quadrati sono dati da: PROPRIETÀ DELLO STIMATORE ?̂?𝑖 1. Lo stimatore ?̂?𝑖 è corretto, ossia 𝐸(?̂?𝑖) = 𝛽0 + 𝛽1𝑥𝑖 . 2. La varianza è: Una misura della variabilità degli stimatori dei coefficienti di regressione e della risposta media è data dagli errori standard, ossia dalle radici quadrate di 𝑉(𝐵0), 𝑉(𝐵1) e 𝑉(?̂?𝑖) indicate da 𝜎(𝐵0) = 90 √𝑉(𝐵0), 𝜎(𝐵1) = √𝑉(𝐵1) e 𝜎(?̂?𝑖) = √𝑉(?̂?𝑖). Tuttavia, gli errori standard dipendono dalla quantità ignota 𝜎2 = 𝑉(𝑌𝑖) = 𝑉(𝜀𝑖). In pratica, si sostituirà al parametro 𝜎2 una sua stima, ottenendo gli stimatori 𝑠(𝐵0), 𝑠(𝐵1) e 𝑠(?̂?𝑖). È a questo punto utile introdurre uno stimatore della varianza dei residui ê𝑖. In effetti, dato che possiamo considerare il residuo ê𝑖 come una stima dell’errore 𝜀𝑖, è ragionevole che la varianza dei residui ê𝑖 sia un buon stimatore della varianza 𝜎 2e degli errori 𝜀𝑖. Lo stimatore corretto della varianza dei residui è: 𝑠2 = ∑ ê𝑖 2𝑛 𝑖=1 𝑛 − 2 La radice quadrata di 𝑠2 è una misura della variabilità degli scostamenti dei valori osservati da quelli previsti dal modello. Per tale ragione viene chiamato errore standard di regressione.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved