Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Metodi statistici, Appunti di Statistica

appunti statistica

Tipologia: Appunti

2009/2010

Caricato il 26/11/2010

el_machico
el_machico 🇮🇹

1

(1)

4 documenti

Anteprima parziale del testo

Scarica Metodi statistici e più Appunti in PDF di Statistica solo su Docsity! Appunti di Probabilità e Statistica Riccardo Ricci Università di Firenze, Facoltà di Scienze M.F.N. Corso di Laurea in Scienze Biologiche Anno Accademico 2003-2004 29 ottobre 2004 2 Capitolo 1 Statistica descrittiva Lo scopo della statistica descrittiva è quello condensare una grande quantità di dati in modo da conciliare al meglio due richieste antitetiche: da un lato la completezza di una descrizione dettagliata, dall’altro la semplicità di una descrizione sintetica. A questo scopo sono state sviluppate molte tecniche sia per quanto riguarda l’ac- quisizione dei dati, sia per quanto riguarda la presentazione dei dati stessi. Una corretta acquisizione dei dati è fondamentale per la correttezza delle deduzioni che da tali dati vengono fatte. Il processo di acquisizione dei dati dipende fortemente dal tipo di dati e dal contesto generale dell’indagine. Per uscire dal vago, un conto è fare una statistica sulle preferenze politiche dei diciottenni, un altro è fare una statistica sulle caratteris- tiche fisiche delle marmotte delle Alpi. E’ quindi chiaro che ogni disciplina, ovvero ogni tipo di dati da raccogliere, avrà bisogno di tecniche particolari per l’aquisizione. Esistono però alcune somiglianze “strutturali” che accomunano i differenti tipi di statistiche. Si può quindi tentare una classificazione dei dati, indipendentemente dal loro sig- nificato “concreto” facendo attenzione a certe caratteristiche, che potremo definire “grammaticali”, comuni a vari tipi di dati, che riassumiamo nelle seguenti parole chi- ave: 1. Popolazione; 2. Individuo, 3. Variabile; 4. Frequenza; 5. Distribuzione. Cerchiamo di chiarire tramite un esempio questi concetti chiave della statistica. Consideriamo, nello schedario di un ospedale, le schede cliniche dei ricoverati: ogni scheda contiene un certo numero di informazioni sul paziente: nome e cognome, età, data del ricovero, patologia principale, pressione sanguigna e temperatura corporea misurate con una data periodicità (p.e. due misure di ognuna al giorno), varie terapie somministrate, etc. A partire da queste schede è possibile ricavare delle informazioni, non solo sul sin- golo paziente, ma anche sull’insieme dei ricoverati. Questo tipo di informazioni non sono destinate a curare un malato particolare ma a fare, per esempio, scelte generali 5 6 CAPITOLO 1. STATISTICA DESCRITTIVA sulla “politica ospedaliera” (tipo e quantità di medicinali da acquistare, ...) o a stu- diare una forma di patologia e le strategie di cura (successo di una terapia, tempi di guarigione o di sopravvivenza, etc.) Vediamo chi sono, nel nostro esempio, popolazione, individuo, etc. 1) Per popolazione si intende l’insieme di tutti i possibili oggetti dell’indagine sta- tistica. Lo stesso nome statistica deriva da Stato e ha origine dai censimenti romani. Per estensione quindi si dà il nome di popolazione a tutto ciò che, in un indagine statistica, ha lo stesso ruolo della popolazione propriamente detta in un censimento. Nel nostro esempio la popolazione è lo schedario dell’ospedale, o per meglio dire la raccolta di tutte le schede cliniche. 2) Un individuo è un qualsiasi “oggetto” della popolazione. Nel nostro esempio un “individuo” è una singola scheda (in “rappresentanza” del paziente). 3) Una variabile è una qualsiasi caratteristica di ogni individuo della popolazione (p.e. l’età del paziente come risulta dalla scheda) soggetta a possibili variazioni da individuo a individuo. Dal punto di vista matematico una variabile è una funzione definita sulla popolazione che associa a ogni individuo uno tra tutti i possibili valori della caratteristica in esame. Per chiarire, a ogni scheda clinica posso associare il peso del paziente così come riportato dalla scheda. In questo caso, la variabile “peso” associerà a ogni scheda (p.e. “Mario Rossi, n.23423”) un numero (p.e. 75 Kg, che sarà il“peso del degente Mario Rossi, n.23423”). Qui è bene introdurre una distinzione fondamentale tra i tipi di variabili che si possano incontrare in statistica. Sempre con riferimento al nostro esempio posso con- siderare, per esempio, le seguenti variabili: i) il peso; ii) il numero di ricoveri precedenti; iii) gruppo sanguigno; iv) il titolo di studio del paziente. Nel caso del peso siamo di fronte a quella che viene detta una variabile numerica continua cioè una variabile il cui valore è un numero che può assumere un qualsiasi valore in un certo intervallo (questo significa che se p.e Mario Rossi pesa 73.4 Kg e Giovanni Bianchi 73.8 Kg, può esistere un sign. Giuseppe Verdi che pesa 73.6 Kg). Nel caso ii) siamo di fronte a una variabile numerica discreta, cioè una variabile che può assumere solo valori che sono numeri naturali (0, 1, 2, 3, ....). Nei casi iii) e iv) parleremo di variabile nominale o categoriale in quanto i valori as- sunti dalle due variabili sono dei nomi (A, B, AB, 0 nel primo caso licenza elementare, licenza media, diploma, laurea nel nel secondo). Anche in questo caso però esiste una differenza. Nel secondo caso i valori possibili si presentano naturalmente ordinati: non posso essere laureato se non ho una licenza di scuola media. In questo caso si parla di variabili ordinali. Nel caso dei gruppi sanguigni non ci sono ordinamenti “oggettivi” naturali (anche se, a volte, è possibile ordinarli secondo un qualche criterio, p.e. un donatore di gruppo 0 è “più utile” di un donatore del gruppo A) Nel seguito avremo a che fare soprattutto con variabili numeriche. Ciò non perché esse siano più “interessanti” di quelle nominali, ma in quanto le variabili numeriche permettono (e richiedono) una più ricca analisi dei dati. 7 Per il momento abbiamo solo introdotto alcune distinzioni tra possibili dati, ma non abbiamo detto ancora niente su come condensare le informazioni. Il primo e fondamentale metodo è quello che consiste nel contare gli individui a seconda del valore assunto dalla variabile in esame. Per esempio nel caso dei “ricoveri precedenti”, conterò quanti hanno già subito 0 ricoveri, quanti 1 ricovero, quanti 2 ricoveri, etc. Supponiamo che dalla popolazione esaminata ottenga, p.e i seguenti dati Numero di individui nella popolazione (ovvero numero di schede ospedaliere) = 50 Numero di individui con nessun ricovero = 5 Numero di individui con un ricovero = 19 Numero di individui con due ricoveri = 19 Numero di individui con tre ricoveri = 5 Numero di individui con quattro ricoveri = 5 Numero di individui con più di quattro ricoveri = 0 Posso riassumere questi dati in una tabella Numero di ricoveri freq. assoluta freq. % freq. cumul. cum. % 0 5 10 5 10 1 19 38 24 48 2 19 38 43 86 3 5 10 48 96 4 2 4 50 100 ≥5 0 0 50 100 La tabella è stata costruita associando a ogni possibile valore (o a insiemi di possi- bili valori come nell’ultima riga, ≥ 5) il numero di individui della popolazione sui quali la variabile in esame assume quel valore. Questi numeri sono detti frequenze del val- ore, distinguendo tra frequenze assolute e frequenze percentuali (ovvero normalizzate a un totale di 100). Nelle due restanti colonne sono riportate le frequenze cumulative ovvero, per ogni valore x della variabile, la somma delle frequenze corrispondenti ai valori minori o uguali a x. Questo ragruppamento ha senso solo se i valori della variabile possono essere ordinati: se un paziente è gis̀tato ricoverato 2 volte, è necessariamente stato ricoverato almeno una volta. La funzione che a ogni valore di una variabile associa la sua frequenza (in genere normalizzata a 1, ovvero la frequenza divisa per la numerosità della popolazione) prende il nome di distribuzione della variabile. La funzione che associa a ogni valore la frequenza cumulativa viene detta distribuzione cumulativa. Nota: si osservi che la distribuzione cumulativa è una funzione sempre non-decrescente e che si può ricostruire la distribuzione a partire dalla distribuzione cumulativa le dif- ferenza tra la frequanze cumulativa associata a una categoria e quella associata alla categoria immediatamente precedente. Un particolare trattamento va riservato alle variabili continue. In questo caso non è possibile raggruppare i dati secondo le frequenze dei possibili valori della variabile, in quanto questi valori sono infiniti. Inoltre, se la variabile è veramente continua, ovvero può essere misurata con infinita precisione, ci aspettiamo che nessuno dei possibili valori sia assunto più di una volta (p.e. nessuno peserà “esattamente” quanto un altra persona). In questo caso quindi si ricorre a una “discretizzazione” della variabile prima di effettuare il conteggio dei dati. Ovvero si considerano al posto di singoli valori della 10 CAPITOLO 1. STATISTICA DESCRITTIVA e quindi per percorrere 100 Km con le due vetture ho bisogno di 2*(numero di Kilo- metri)/(percorrenza media)=2*100/13.333 Litri = 15 Litri, che la giusta risposta1. L’esempio tipico in cui la “giusta” media è la media geometrica è quello delle percentuali. Supponiamo di misurare l’inflazione su scala annua, e che in tre anni successivi si abbiano rispettivamente tassi di inflazione del 2.5%, 2%, 1.5% rispetti- vamente. E’ corretto dire che l’inflazione media su questi tre anni è stata del 3% (la media aritmetica dei tre dati)? La risposta è no. Infatti, se così fosse il prezzo di un bene “medio” (ovvero di un bene ideale il cui prezzo sia cresciuto esattamente come l’inflazione) il cui prezzo iniziale era p sarebbe, dopo tre anni, p ∗ (1.02) ∗ (1.02) ∗ (1.02) = p ∗ 1.061208. Ma quello che avviene è che dopo un anno il prezzo è diventa- to p1 = p ∗ (1.025); alla fine del secondo anno il prezzo è aumentato del 2%, quindi ’è passato da p1 (il prezzo all’inizio del secondo anno) a p2 = p1 ∗ (1.02). Analogamente alla fine del terzo anno il prezzo p3 = p2 ∗ (1.015). Quindi alla fine dei tre anni, il prezzo sale da p a p ∗ (1.025) ∗ (1.02) ∗ (1.015) = p ∗ 1.0611825. Questo risultato si ottiene utilizzando la media geometrica MG = ((1.025) ∗ (1.02) ∗ (1.015))1/3 = 1.01999 (circa), avendo ovviamente p ∗ MG ∗ MG ∗ MG = p ∗ 1.0611825. La differenza è minima ma non trascurabile quando si tratti di grandi cifre come i bilanci statali. Si noti anche che questo “errore” è analogo a quello, più grave, che consiste nel sommare i tassi di inflazione annui, dicendo quindi nel nos- tro esempio che nel complesso dei tre anni l’inflazione è stata del (2.5+2+1.5)%=6% contro un’inflazione vera del 6.11825%; tuttavia in questo caso si dà una “sottostima” dell’inflazione, mentre la media aritmetica dà sempre una “sovrastima” dell’inflazione vera2). Una generalizzazione della definizione di media aritmetica è quella che si ottiene “pesando” gli individui in modo diverso. Per restare nel nostro esempio, alcuni corsi di laurea gli esami dei primi anni vengono pesati meno di quelli successivi (era il casi di alcuni vecchi corsi di laurea in ingegneria dove, al momento della media i 10 esami del primo biennio venivano considerati, nel fare la media aritmetica con i restanti 22 esami, come un solo esame in cui lo studente avesse preso un voto pari alla media aritmetica dei voti ottenuti nel biennio). Da un punto di vista matematico questo significa scegliere N numeri maggiori o uguali a zero, fi, i = 1, ..., N , e modificare la definizione di (1.1) nel modo seguente: x = 1 ∑N i=1 fi N∑ i=0 fixi (1.2) detta media pesata. Questa volta si sono sommati non i valori xi ma i prodotti di questi valori per i loro “pesi” fi, inoltre non si è diviso per il numero degli individui N ma per il “peso totale” dato dalla somma degli fi; così facendo la definizione di media pesata non varia se tutti i pesi vengono moltiplicati per uno stesso numero, o, in altre parole, è indipendente dall’unità di misura scelta per i pesi (si noti la somiglianza di questa definizione con la definizione di baricentro di N punti pesanti). La media aritmetica è un caso particolare di media pesata, quando tutti i pesi siano uguali (ovvero fi non dipenda da i). 1Non a caso il consumo di un automobile nelle specifiche tecniche è indicato con la misura Litri per 100 Km ovvero di quanti litri ho bisogno per percorrere una distanza di 100 Km; in questo caso il consumo medio è effettivamente dato dalla media aritmetica dei consumi. 2Questo è dovuto a un “principio di massimo”: il prodotto di N numeri che variano mantenando fissa la loro somma, è massimo quando i numeri sono uguali tra loro 11 Esercizio: Determinare i pesi fi nel caso sopra descritto della media finale adottata nel corso di laurea in ingegneria. La media pesata si usa in particolare per determinare la media aritmetica a partire da una distribuzione assegnata. Supponiamo di conoscere la distribuzione di una vari- abile , ovvero il numero di individui della popolazione sui quali la variabile assume un determinato valore. Abbiamo quindi l’insieme dei valori possibili, xi, k = 1, ..., n, che supponiamo in numero finito, e le frequenze rispettive fi: definiamo allora la media della variabile (diremo anche la media della distribuzione) tramite la formula x = 1 ∑n i=0 fi n∑ i=0 fixi (1.3) Il risultato coincide con la media aritmetica fatta direttamente su tutta la popolazione. Infatti calcolando direttamente quest’ultima avremo (x1 + ... + x1 f1volte + x2 + ... + x2 f2volte + ........ + xn + ... + xn) fnvolte /NP dove NP = f1 + f2 + ... + fn è il numero di individui della popolazione. Si noti che si ottene lo stesso valore sia che le fi siano le frequenze assolute sia che siano le frequenze relative. Questo consente, nel caso siano note le frequenze relative, di calcolare la media anche senza conoscere la numerosità della popolazione. 1.0.2 Moda e Mediana Altri importanti indicatori che si utilizzano per sintetizzare la distribuzione di una variabile sono la mediana e la moda. La moda può essere definita per la distribuzione di una variabile categoriale, ed è data dal valore con maggiore frequenza. Nel caso che il profilo della distribuzione presenti due (o più ) massimi (di frequenze paragonabili) si parla allora di distribuzione bimodale (o tri-modale, etc.). La mediana è definita invece per una variabile numerica x come quel valore M tale che x < M per metà degli individui della popolazione (e ovviamente x > M per l’altra metà). Al contrario della media aritmetica, questi due indicatori sono in genere affet- ti da una certa indeterminatezza nella definizione e non si prestano a elaboarazioni matematiche. Però, in alcuni casi, danno un informazione più significativa della media aritmetica. Una generalizzazione della mediana è il percentile. Si dice n-esimo percentile il valore che lascia alla sua sinistra una percentuale dell’n% degli individui della (analoga- mente si parla di quantili se invece delle percentuali si usano frazioni normalizzate a uno, i.e. 25-esimo percentile=quantile di ordine 1/4). La specificazione di un ragionev- ole numero di percentili (p.e. per intervalli del 20%) dà una buona idea della forma della distribuzione. 1.0.3 Varianza Una caratteristica importante di una distribuzione è, oltre alla sua “tendenza cedntrale” che abbiamo rappresentato tramite la media aritmetica (o in alternativa, tramite la mediana) è la sua più o meno grande “dispersione”. Per dispersione si intende lo sparpagliamento dei dati su valori distanti dal valore centrale di riferimento (la media). 12 CAPITOLO 1. STATISTICA DESCRITTIVA Una misura della “dispersione” di una distribuzione deve essere quindi costruita a partire dalle quantità xi−x. Ovviamente se sommiamo su i le quantità xi−x otteniamo una quantità nulla poiché le quantità positive sono cancellate da quelle negative, proprio per la definizione di media aritmetica (fare il calcolo!). Potremmo sommare i valori assoluti |xi − x|, e così facendo otteremmo un indicatore sensato di dispersione, ma assai poco maneggevole a causa delle sue poche proprietà algebriche. Un indicatore con i requisiti richiesti e con buone caratteristiche algebriche è dato invece dalla varianza. Essa si ottiene sommando i quadrati degli scarti dalla media, ovvero essa è definita dalla formula V = 1 N N∑ i=1 (xi − x)2 (1.4) ovvero la si ottiene sommando per tutti gli elementi della popolazione i quadrati delle differenze tra il valore della variabile e la sua media aritmetica. Nel caso si parta dalla distribuzione fi allora la varianza è data da V = 1 ∑n i=1 fi n∑ i=0 fi(xi − x)2 (1.5) La varianza è quindi sempre positiva e si annulla se e solo se tutti i valori della varabile x coincidono con la sua media, in altri termini, se la “variabile” è una costante su tutti gli individui della popolazione. A posto della varianza si usa spesso indicare il valore della sua radice quadrata, s.d. = √ V , detta deviazione standard. Il calcolo della varianza è facilitato dal cosiddetto teorema di König che dice che V = 1 ∑n i=1 fi n∑ i=0 fix 2 i − x2 (1.6) che si può leggere dicendo che la varianza è la media (aritmetica) dei quadrati meno il quadrato della media. Ovviamente partendo da (1.4) otteniamo V = 1 N N∑ i=1 x2i − x2 (1.7) La verifica della (1.7) è elementare ma richiede un po’ di abitudine nella manipo- lazione dei simboli di somma: il primo passo consiste nello sviluppare il quadrato nella (1.4), ottenendo V = 1 N N∑ i=1 (x2i − 2xix + x2) = 1 N N∑ i=1 x2i − 2x 1 N N∑ i=0 xi + 1 N N∑ i=1 x2 Le ultime due somme sono rispettivamente la definizione della media aritmetica (molti- plicata per N ) e la somma di N termini tutti uguali al quadrato della media, e quindi V = 1 N N∑ i=0 x2i − 2x x + x2 ovvero la (1.7). Capitolo 2 Calcolo Combinatorio 2.1 I principi del conteggio Il calcolo combinatorio è l’insieme delle tecniche che permettono di contare efficiente- mente il numero di possibili scelte, combinazioni allineamenti etc. di oggetti scelti da insiemi con un numero finito di elementi. I principi base hanno l’aria di banalità, ma presto le cose si fanno piuttosto dif- ficili, quindi è bene prestare attenzione alla progressione delle tecniche che verranno introdotte. Principio dell’addizione Se un oggetto può essere scelto in p modi da un insieme A e in q modi da un insieme B, disgiunto da A, allora esso può essere scelto in p + q modi diversi. Questo è equivalente a dire che se due insiemi disgiunti hanno cardinalità finita (cioè contengono un numero finito di elementi) allora la loro unione contiene un nu- mero di elementi pari alla somma degli elementi dei due insiemi. Questo principio si generalizza nel modo ovvio a un numero finito qualsiasi di insiemi (a due a due dis- giunti, e con un numero finito di elementi ciascuno1), ed è il principio base di cio che comunemente si intende per contare. Un po’ meno ovvio è il seguente Principio della moltiplicazione Se A è un insieme di q oggetti e B un insieme di p oggetti, allora l’insieme delle coppie ordinate (a, b) con a ∈ A e b ∈ B contiene p× q elementi Cosa abbia a che fare questo principio con la moltiplicazione è spiegato dalla sua formulazione equivalente: Se si può scegliere in p modi diversi un primo oggetto, e per ognuna di queste scelte, si può scegliere in q modi diversi il secondo oggetto, allora il numero di tutte le scelte possibili di questa coppia di oggetti è p × q Anche in questo caso la generalizzazione a un numero arbitrario (finito) di insiemi è immediata ma val la pena enunciarla espicitamente: Principio della moltiplicazione (seconda formulazione) Se un oggetto si forma facen- do una successione di k scelte tali che ci siano n1 possibilità per la prima scelta, n2 1Val la pena di notare che questo principio, come pure il successivo, è falso nel caso di insiemi infiniti: p.e. l’unione dei numeri pari e dei numeri dispari ha lo “stesso numero di elementi” sia dei pari che dei dispari; e per quanto è del principio seguente, i razionali sono “tanti quanto” gli interi 15 16 CAPITOLO 2. per la seconda, ... , nk possibilità per la k-esima scelta, allora il numero complessivo di oggetti che si possono formare è dato dal prodotto n1n2...nk Questo principio ci consente di calcolare tutte le situazioni di interesse nelle appli- cazioni. Il problema che ci si pone nella pratica del calcolo è che non sempre è chiaro quale sia la successione di scelte e quale, per ogni scelta, l’insieme da cui scegliere. Per esemplificare vediamo di fare il conto di quanti elementi contenga l’insieme delle parti di un insieme A (da ora in poi non ripeteremo più l’aggettivo finito, ma esso sarà sempre sottinteso). Ricordiamo che l’insieme delle parti è l’insieme i cui elementi sono tutti i sottoinsiemi di A (compreso A medesimo e l’insieme vuoto). Per fare il nostro conteggio dobbiamo riformulare nei termini del principio della moltiplicazione “come si costruisce un sottoinsieme” di A. Supponiamo di aver ordi- nato gli elementi di A: ora per ogni elemento nella successione degli elementi di A così ordinati, decidiamo se questo elemento appartiene al sottoinsieme oppure no. Quindi effettuiamo una serie di n scelte, dove n = |A| è la cardinalità di A, e ogni volta pos- siamo scegliere in due modi, ovvero uno dei due elementi dell’insieme {SI, NO} (se scegliemo sempre NO otteniamo l’insieme vuoto, sempre SI l’insieme A). Quindi il totale delle delle nostre possibili scelte, ovvero la cardinalità dell’insieme delle parti di A, è dato dal prodotto di 2 n volte, ovvero 2n. E’ per questo che spesso si indica l’insieme delle parti di A con il simbolo 2A. Esercizio: Calcolare il numero di colonne differenti che si possono giocare al totocal- cio. Per ognuna delle tredici partite dobbiamo scegliere un risultato tra i tre possibili {1, 2, X}, quindi le colonne sono 313 = 1.594.320. Esercizio: Calcolare in quanti modi diversi di possono mettere 3 palline distinguibili (p.e. una blu, una bianca e una rossa) in tre scatole distinguibili (p.e. U1, U2 e U3). L’insistenza sull’aggettivo “distinguibili” significa che consideriamo diverse p.e. il caso in cui la pallina blu è in U1, quella bianca in U2 e quella rossa in U3 dal caso in cui la pallina bianca è in U1, quella blu in U2 e quella rossa in U3. In questo caso il conteggio è identico al caso delle colonne del totocalcio anche se forse è meno intuitivo. Infatti il ruolo delle partite è ora tenuto dalle palline mentre il ruole dei risultati {1, 2, X} dalle urne. Il conteggio avviene in questo modo: per ogni pallina dobbiamo scegliere in quale urna vogliamo metterela. Quindi otteniamo 33 = 27 possibili casi. I numeri scelti sono volutamente ingannevoli, in quanto abbiamo lo stesso numero di palline e di scatole: ma in quanti modi possibili si possono mettere k palline in n scatole? Definizione: Quando da una scelta all’altra non cambia l’insieme delle possibili scelte ed è quindi possibile ripetere anche una scelta già fatta si dice che abbiamo a che fare con disposizioni con ripetizione. Esempi di applicazione dello stesso principio della moltiplicazione, ma con numero delle possibili scelte che varia da scelta a scelta è dato dai seguenti esempi. Esercizio: In un ristorante c’è un menu a prezzo fisso composto da antipasto, primo, secondo, dolce. Il menu propone al cliente la scelta tra 2 antipasti, 3 primi, 2 secondi e 4 dolci. Quanti pranzi diversi si possono scelgliere con questo menu? Esercizio: Quanti sono i numeri dispari di quattro cifre? In questo caso si deve far attenzione perché le cifre della decina e della centinaia possono essere numeri qualsiasi 2.1. I PRINCIPI DEL CONTEGGIO 17 tra 0 e 9, quindi 10 possibilità, mentre per le migliaia non si può scegliere lo 0 e per le unità la scelta è ristretta ai numeri dispari 1, 3, 5, 7, 9, si ha quindi 9×10×10×5 = 4500 numeri dispari. E quanti sono i numeri dispari con quattro cifre diverse tra loro? (attenzione qui il problema è complicato dal fatto che la scelta di una cifra condiziona la scelta delle altre.) Definizione: Per disposizioni senza ripetizione di k tra n oggetti, si intende i possibili esiti del processo di scelta di k oggetti in un insieme di n, n ≥ k, senza poter scegliere più di una volta uno stesso elemento. La distinzione tra queste due forme di disposizione diventa più chiara se la rifrasi- amo in termini di estrazioni. Se estraiamo un numero da un urna, come nel gioco della tombola, e dopo og- ni estrazione il numero estratto viene rimesso nell’urna, il numero delle cinquine si calcola come nel caso della schedina del totocalcio, e si hanno 905 risultati possibili (anche qui si tiene conto dell’ordine in cui i numeri sono estratti, per cui la cinquina {3, 34, 21, 18, 76} deve considerarsi diversa, p.e., dalla cinquina {34, 3, 21, 18, 76}) . Se invece effettuiamo una serie di estrazioni senza reinserire i numeri estratti, il numero estratto alla k-esima estrazione non può ovviamente essere uno di quelli es- tratti nelle estrazioni precedenti. Se quindi vogliamo contare quante sono le possibili cinquine (ordinate!) che si possono ottenere su una ruota nell’estrazioni del lotto, dob- biamo tener conto che il primo numero può essere estratto tra 90 numeri diversi, il secondo tra 89 e così via. Abbiamo quindi 90 × 89 × 88 × 87 × 86 = 5.273.912.160 possibili cinquine ordinate. In generale una successione di k estrazioni da un insieme di n oggetti senza rein- serimento abbiamo n × (n − 1) × .... × (n − k + 1) esiti possibili. 2.1.1 Permutazioni e combinazioni Un modo molto efficiente per effettuare questo tipo di conteggi è quello di che utilizza il concetto di permutazione. Consideriamo l’insieme In dei numeri interi compresi tra 1 e n. Definizione Una permutazione è una qualsiasi applicazione invertibile di In in sé. In modo meno astratto, una permutazione è un qualsiasi ordinamento di n oggetti, in rapporto a un ordinamento “base” scelto arbitrariamente. Il conteggio di tutte le possibili permutazioni è analogo a quello delle delle dispo- sizioni senza ripetizione, di cui la permutazione è il caso particolare di disposizione senza ripetizione di “n tra n oggetti”. Indichiamo con α la permuazione: abbiamo n possibili valori per α(1) (in altre parole n possibili scelte del nuovo primo elemento dell’ordinamento), poi n − 1 per α(2) in quanto α(2) 6= α(1), e così via fino ad arrivare ad α(n) che è determinato dalle scelte precedenti (quindi una sola possibile scelta). Applicando il principio della moltiplicazione abbiamo quindi n × (n − 1) × .... × 2 × 1 possibili permutazioni. Il numero n × (n − 1) × .... × 2 × 1 si indica con il simbolo n! (leggi n fattoriale). E’ facile rendersi conto che tutte le permutazioni sono in corrispondenza biunivoca con le matrici n × n i cui elementi sono o 1 o 0 e in cui le somme per righe e per colonne sono sempre uguale a 1 (il che implica che c’è un solo 1 in ogni riga e in ogni colonna). Basta infatti fare il prodotto righe per colonne di una tale matrice con il 20 CAPITOLO 2. Capitolo 3 Probabilità 3.1 Introduzione Il calcolo delle probabilità è uno strumento essenziale per la statistica. Esso dà una risposta a quello che possiamo considerare come il problema inverso di quello della statistica inferenziale. Mentre la statistica cerca di determinare tramite la conoscenza dei risultati di un esperimento (o più esperimenti) quali siano le caratteristiche della popolazione su cui l’esperimento è stato eseguito, nel calcolo delle probabilità si as- sume che tutte le caratteristiche della popolazione siano note (senza preoccuparsi del come ciò sia possibile) e si vuole calcolare a priori la “probabilità” che un esperimento abbia un determinato risultato. Come per tutti i concetti fondamentali è impossibile definire cosa si intenda per probabilità senza far ricorso a un idea intuitiva del concetto stesso. Cercheremo qui di illustrare con alcuni esempi cosa si intende per probabilità e, soprattuttto, estrarre da questi esempi le “regole del gioco” (una volta chiarite queste regole potremo enunciare la definizione assiomatica di probabilità che sarà utile per lo sviluppo del calcolo). Il calcolo della probabilità trae le sue origini dal gioco dei dadi e quindi possiamo iniziare dal problema del “lancio di un dado”. Ho usato le virgolette perché la prima cosa da fare è definire bene, quando si abbia a che fare con un problema di probabi- lità, il contesto. Dando per noto cosa sia un dado (con facce numerate da 1 a 6), per “lancio di un dado” si intende che il dado venga lanciato in aria con sufficiente impulso e rotazione, si attenda che cada a terra su una superficie orizzontale, e che si fermi con una sua faccia adagiata al suolo. Il risultato del lancio sarà il numero che si legge sulla faccia opposta a quella al suolo. Perché una descrizione tanto prolissa di una cosa che tutti sanno? Perché prima di procedere a calcolare delle probabilità è necessario chiarire alcune cose: • l’esperimento deve essere casuale, o aleatorio, nel senso che non si possa preved- erne con certezza il risultato in anticipo (chi sarebbe disposto a scommettere su un “lancio” del dado che avvenga prendendo un dado, ponendolo a 3 mm dal suolo con la faccia numero 6 rivolta verso l’alto e facendolo cadere da fermo?); • deve essere chiaro quale sia lo spazio campionario S soggiacente, ovvero l’in- sieme di tutti i possibili esiti dell’esperimento (nel nostro caso abbiamo S = {1, 2, 3, 4, 5, 6}). Chiameremo evento elementare ogni singolo elemento di S. 21 22 CAPITOLO 3. PROBABILITÀ Chiameremo poi evento ogni sottoinsieme E dello spazio campionario. Diremo che un evento si è verificato, o realizzato, quando il risultato dell’esperimento (che è un evento elementare) è un elemento di E. Per esempio, nel lancio del dado ho l’evento E = {il numero uscito è pari}, ovvero E = {2, 4, 6}, che si verifica se il risultato del lancio è 2 oppure 4 oppure 6. Gli eventi, in quanto sottoinsiemi, ereditano tutte le operazioni definite dalla teoria elementare degli insiemi. Avremo quindi, dati due eventi E1 e E2, l’evento unione E1 ∪ E2, che è formato da tutti gli eventi elementari che appartengono ad almeno uno dei due sottoinsiemi, e l’evento intersezione E1 ∩ E2, formato dagli eventi che appartengono a entrambi i sottoinsiemi. Diremo che due eventi E1 e E2 sono mutuamente esclusivi, o incompatibili, se E1 ∩ E2 = ∅, ovvero se non hanno eventi elementari in comune (nota quindi che il realizzarsi di E1 esclude che si verifichi, contemporaneamente, E2 e viceversa, in particolare due eventi elementari (distinti) sono sempre incompatibili). Infine, dato un evento E, chiameremo evento complementare, che indicheremo con E, l’insieme degli elementi di S che non appartengono a E. Ovviamente E ∩ E = ∅ e E ∪ E = S. Possiamo ora dare una definizione formale (assiomatica) di che cosa si intende per probabilità matematica. Dato uno spazio campionario S, sia P una funzione definita sugli eventi di S a valori reali, ovvero una legge che a ogni evento E associa un numero P (E) , con le seguenti proprietà: (i) 0 ≤ P (E) ≤ 1 (ii) P (S) = 1 (iii) per ogni coppia di eventi E1 e E2 incompatibili, si ha P (E1 ∪ E2) = P (E1) + P (E2) Il numero P (E) si dice la probabilità dell’evento E. Commentiamo un po’ questa definizione interpretando la probabilità come il grado di fiducia che noi assegnamo al verificarsi o meno di un certo evento. La proprietà (i) dice semplicemente che la probabilità è un numero non negati- vo che va da zero (nessuna fiducia sul verificarsi dell’evento) a 1 (completa fiducia che l’evento si realizzi). Nel linguaggio comune è più usuale esprimersi in termini di percentuali per cui il nostro valore 1 diviene il 100%. La seconda proprietà ci dice che l’evento formato da tutti i possibili eventi ele- mentari ha probabilità 1. Ma S deve per forza verificarsi poiché è l’insieme di tutti i possibili risultati, ovvero è un evento certo (e il solo evento certo). In altri termini la (ii) ci dice che se siamo sicuri che un evento si realizzi la sua probabilità deve essere 1 (come vedremo più avanti, il viceversa non è necessariamente vero se S ha infiniti elementi). Infine la (iii) ci dice che se E1 ed E2 non hanno eventi elementari in comune, allora la probabilità che si verifichi almeno uno dei due eventi è la somma delle singole probabilità. Nell’esempio del lancio del dado, se p.e. E1 = {1, 2} e E2 = {3, 4}, allora la probabilità che si verifichi E1 ∪ E2 = {1, 2, 3, 4} è la somma delle probabilità P (E1) e P (E2). Nel caso che S sia formato da infiniti elementi, questa proprietà è sostituita da 3.3. PROBABILITÀ CONDIZIONATA 25 Questa formula si “legge” così : prima si sommano tutte le probabità degli insiemi E1, ..., En. In questo modo, come nel caso di due soli insiemi, abbiamo contato due volte gli eventi elementari che appartengano all’intersezione di due eventi diversi; dob- biamo quindi togliere queste probabilità. Così facendo però abbiamo tolto due volte (al- meno) la probabilità di un evento elemtare che appartiene all’intersezione di tre eventi diversi e quindi dobbiamo sommare le probabilità delle intersezione a tre a tre di eventi diversi. E così via. In definitiva bisogna sommare le probabilità di tutte le intersezioni di un numero dispari di eventi diversi (anche le “intersezioni” di un solo evento) e togliere quelle di tutte le intersezioni id un numero pari di eventi diversi. 3.3 Probabilità condizionata Supponiamo di essere interessati al realizzarsi di un evento A. Qualcuno compie un esperimento e ci dice che si è realizzato l’evento B. Cosa possiamo dire ora sul fatto che A si sia realizzato, sapendo che B si è realizzato? Così enunciata, al questione può sembrare piuttosto cervellotica. Si tratta tuttavia di un caso comunissimo nelle applicazioni del “ragionamento probabilistico”. Si pensi a quanto avviene in ambito giudiziario: si vuol sapere se “Caino ha ucciso Abele” (evento A); nelle nostre indagini scopriamo che “sotto le unghie di Abele ci sono capelli biondi” (evento B, supponiamo che Caino sia biondo e Abele bruno). Come cambia il nostro pregiudizio sulla innocenza (o colpevolezza) di Caino alla luce dell’evento B ? Ovviamente se A e B sono eventi incompatibili, A non può essersi realizzato in contemporanea con B, quindi la probabilità che assegneremo al realizzarsi di A con- dizionatamente alla realizzazione di B sarà 0. Se invece A = B (o, più in generale, B ⊂ A) siamo certi che A si è realizzato, quindi la sua probabilità condizionata a B sarà 1. Attenzione a non commettere un errore grossolano: il realizzarsi di B implica che A si è realizzato solo se tutti gli elementi di B sono contenuti in A e non il viceversa. (Questo è un punto importante e non si deve proseguire se non è chiaro! quando dici- amo che “si è realizzato l’evento B” intendiemo che il risultato dell’esperimento è un evento elementare e contenuto in B: se B è un sottoinsieme di A allora e appartiene anche ad A e quindi “A si è realizzato. Viceversa se A ⊂ B allora B può realizzarsi anche senza che si realizzi A: basta che l’evento elementare e sia un elemento di B che non appartiene ad A.) Quello che segue può essere omesso in un prime lettura e si può passare diretta- mente alla definione di probabilità condizionata. Formalizziamo quanto abbiamo detto finora: vogliamo definire una nuova funzione di pro- babilità, che indicheremo con P (A|B) e chiameremo probabilità condizionata dell’evento A rispetto all’evento B (quando non possa insorgere confusione diremo semplicemente probabi- lità condizionata di A). Ovviamente P (A|B) deve soddisfare agli assiomi (i), (ii), (iii) di una funzione di probabilità. Inoltre abbiamo visto che deve valere: P (A|B) = 0, se A ∩ B = ∅, e anche P (A|B) = 1, se B ⊂ A. Ma cosa succede se A e B non sono incompatibili e A non contiene B? Osserviamo che basta decidere cosa succede per i sottoinsiemi di B. Infatti, dato un evento qualsiasi A, lo possiamo scomporre nei due eventi incompatibili A1 = A ∩ B e A2 = A ∩ B. 26 CAPITOLO 3. PROBABILITÀ Poiché A2 è incompatibile con B, P (A2|B) = 0, e avremo P (A|B) = P (A1|B) + P (A2|B) = P (A1|B). Supponiamo quindi che C e D siano entrambi sottoinsiemi di B. Vogliamo legare le “nuove” probabilità P (C|B) e P (D|B) alle “vecchie” probabilità P (C) e P (D) (dette in questo caso probabilità a priori) che gli eventi hanno prima di sapere che si è verificato l’evento B. Questo legame non discende dagli assiomi e dalle richieste finora fatte sulla probabilità condizionata e quindi è frutto di una scelta “arbitraria”, che deve solo essere coerente (cioè deve soddisfare alle richieste degli assiomi di una funzione di probabilità). D’altra parte questa scelta dovrà essere legittimata dalla sua capacità di “funzionare” nelle applicazioni. C’è comunque un argomento che ci guida nella scelta: se sappiamo solo che B si è realizzato, non abbiamo nessuna indicazione su quale evento elementare di B si sia realizzato (a meno che B non sia fatto di un solo elemento). Quindi, se C e D sono entrambi sottoinsiemi di B, non abbiamo nessun motivo per “preferire” C a D rispetto alla nostra valutazione a priori. Questo equivale a dire che il rapporto tra le nuove probabilità (quelle condizionate a B) e quelle a priori non è cambiato, ovvero P (C|B) P (D|B) = P (C) P (D) . Possiamo riscrivere questa relazione come P (C|B) P (C) = P (D|B) P (D) , ovvero, per ogni sottoinsieme E di B vogliamo che sia costante il rapporto P (E|B)/P (E). In particolare, poiché B è un sottoinsieme di B stesso, dobbiamo avere P (E|B) P (E) = P (B|B) P (B) , ∀E ⊂ B. Possiamo ora concludere ricordando che P (B|B) = 1, da cui otteniamo P (E|B)/P (E) = 1/P (B), per ogni E ⊂ B. Definiamo quindi la probabilità condizionata in accordo con quanto detto. Definizione Sia B tale che P (B) > 0, si dice probabilità condizionata di un evento A rispetto all’evento B il numero P (A|B) = P (A ∩ B) P (B) . (3.3) (Ovviamente le considerazioni fatte sopra perdono di senso qualora P (B) = 0. Questo va d’accordo con l’intuizione: se si verifica un evento che aveva probabilità nulla, allora “può succedere di tutto”.) Resta da verificare che questa definizione soddisfa effettivamente agli assiomi di probabilità: la verifica è lasciata al lettore. Per esemplificare questa definizione torniamo al caso del dado. Scommettiamo che il risultato del lancio sia un numero pari, evento A = {2, 4, 6}. Nell’ipotesi di dado non truccato, quindi la probabilià di vincere la scommessa è di 1/2 (o 50%). Ora qualcuno lancia il dado (senza che noi lo possiamo vedere) e ci dice che il numero uscito è maggiore o uguale a 4, evento B = {4, 5, 6}. Cosa posso dire sulla probabilità di aver vinto la scommessa? Ora il realizzarsi dell’evento A è più probabile che a priori. Infatti nell’insieme B ci sono due numeri pari su tre, contro i tre su sei dello spazio campionario originale. In accordo la probabilità dell’evento “è uscito un numero pari” 3.4. EVENTI INDIPENDENTI 27 deve passare da 1/2 a 2/3. D’altra parte, l’intersezione tra A e B è formata da due numeri e quindi ha una probabilità a priori di 2/6 = 1/3. Applicando la formula per la probabilità condizionata otteniamo P (A|B) = 1/3 1/2 = 2/3. Nota: Nel caso di uno spazio campionario finito e di eventi tutti equiprobabili, è facile verificare che la (3.3) discende dalla regola casi favorevoli casi possibili applicata agli eventi contenuti nel “nuovo” spazio campionario B In alcuni casi può convenire leggere al contrario la formula precedente e utilizzarla per calcolare la probabilità dell’intersezione di due eventi, una volta nota la probabi- lità condizionata di uno rispetto all’altro. Per esempio se conosciamo la probabilità dell’evento B e la probabilità condizionata di A su B, otteniamo P (A ∩ B) = P (B)P (A|B), mentre se conosciamo la probabilità dell’evento A e la probabilità condizionata di B su A, otteniamo P (A ∩ B) = P (A)P (B|A). 3.4 Eventi indipendenti Un concetto molto importante per le applicazioni statistiche della probabilità è quello di eventi indipendenti. Due eventi A e B si dicono indipendenti quando la conoscenza del verificarsi di uno dei due non ci dà alcuna informazione sul verificarsi dell’altro. Vediamo ancora il caso del lancio del dado: l’evento A è “il numero uscito è divisibile per tre” e l’evento B è “il numero uscito è pari”, i.e. A = {3, 6}, B = {2, 4, 6}, sono due eventi indipendenti. Abbiamo, a priori, P (A) = 1/3 e P (B) = 1/2. Supponiamo ora di sapere che l’evento A si è verificato. Qual’è la probabilità di B condizionata al verificarsi di A? Affinché anche B sia verificato deve essersi verificato l’evento ele- mentare e = 6 che è A∩B. Questo evento ha probabilità 1/2 di verificarsi se sappiamo che A si è verificato (controllare tramite la formula della probabilità condizionata). Ma 1/2 era la probabilità “a priori” di B, quindi non ho avuto alcuna variazione della mia “fiducia” sul verificarsi di B. Viceversa se sappiamo che B si è verificato, abbiamo P (A|B) = P (A ∩ B)/P (B) = (1/6)/(1/2) = 1/3 = P (A). Possiamo quindi definire due eventi indipendenti se si verifica una delle due re- lazioni seguenti P (A|B) = P (A) o P (B|A) = P (B). (nota che la congiunzione “o” è non-esclusiva, infatti in questo caso, lo si dimostri per esercizio, queste due condizioni solo equivalenti e quindi una della due è vera se e solo se è vera anche l’altra) Alternativamente possiamo prendere come definizioni di eventi indipendenti la seguente: Due eventi A e B si dicono indipendenti se P (A ∩ B) = P (A)P (B) ovvero se la probabilità che siano entrambi realizzati è il prodotto delle singole proba- bilità. 30 CAPITOLO 3. PROBABILITÀ di esito positivo sia rispetto alla condizione di essere malato, (1 − β), sia a quella di essere sano, α. Di conseguenza, applicando la (3.5), otteniamo P (essere malato | risultare positivo) = (1 − β)P (M) (1 − β)P (M) + αP (S) . La (3.6) ha conseguenze importanti. Se l’incidenza della malattia è bassa, i.e. P (M) è piccola, anche un test molto efficiente, cioè con piccole α e β, dà una risposta appar- entemente (ma solo apparentemente) paradossale: dopo un test positivo può essere più probabile essere sani che ammalati! (provare con α = β = 0.05 e una percentuale di malati dell’uno per mille; la probabilità di essere malato per un individuo scelto a caso che risulti positivo al test è minore del 2%). Questa conclusione può apparire paradossale e desta sempre una certa perplessa diffidenza da parte dei medici nei “trucchi della matematica”. In effetti la situazione che abbiamo presentato è quella che si presenterebbe in un ipotetico “screening” casuale della popolazione su base, p.e., nazionale. Nella pratica medica corrente, il medico decide di sottoporre a un test un suo paziente solo se ha un qualche sospetto che questi si trovi nelle condizioni “favorevoli” alla malattia (le cosidette popolazioni a rischio). In questo caso la probabilità a priori che il paziente sia malato, ovvero P (M), è ben superiore all’incidenza della malattia su tutta la popolazione nazionale come riportata dalle statistiche. E’ bene osservare che, qualsiasi sia P (M), se il test risulta positi- vo, la probabilità a posteriori P (essere malato | risultare positivo) è più grande della probabilità a priori P (M). 3.7 Appendice Per “visualizzare” le leggi del calcolo delle probabilità ci si può aiutare con uno schema simile a quello dei “diagrammi di Venn” nella teoria degli insiemi. Disegnamo una regione R su di un foglio e scegliamo l’unità di misura in modo che l’area della regione sia uguale a una unità di superficie, Area(R) = 1. Suddividiamo R in tante regioni ek, k = 1, ..., N e pensiamo a queste regioni del piano come i nostri eventi elementari. Gli eventi E saranno quindi quelle sotto-regioni di R formate da unioni di sotto-regioni ek. Assegnamo come probabilità di un evento elemenetare ei l’area della regione ei stessa. Si verifica facilmente che questa definizione soddisfa agli assioni di probabilità. E’ opportuno rivedere tutti i concetti e le regole presentate in questo capitolo alla luce di questo esempio, usando le comuni proprietà dell’area delle figure piane. Capitolo 4 Variabili aleatorie 4.1 Variabili aleatorie discrete Una variabile aleatoria è una funzione a valori reali X definita su uno spazio cam- pionario S, X : S → R. A ogni esperimento otteniamo quindi un numero, X(e), che è il valore che la variabile aleatoria assume sul risultato dell’esperimento, l’evento elementare e. Possiamo quindi considerare l’insieme di tutti i valori possibili (detto il range della variabile aleatoria) come un nuovo spazio campionario e assegnare una probabilità ai possibili valori della variabile aleatoria: a ogni valore x nel range del- la variabile aleatoria X , assegnamo la probabilità che X assuma il valore x. Questo valore è dato dalla probabilità P (E) dell’evento E = {e ∈ S|X(e) = x} ovvero la retroimmagine di x tramite X . Otteniamo così , al posto dello spazio campionario S, che in genere è assai com- plesso, un semplice spazio campionario formato da un insieme di numeri. Il mag- giore vantaggio di questa sostituzione è che molte variabili aleatorie, definite su spazi campionari anche molto diversi tra loro, danno luogo a una stessa “distribuzione” di probabilità sull’asse reale. Denoteremo con lettere romane maiuscole le variabili aleatorie e con lettere romane minuscole i valori assunti da una variabile aleatoria. Con P (X = x) indicheremo la probabilità che la variabile aleatoria X assuma il valore x. Una variabile aleatoria si dirà discreta se essa può assumere solo un numero finito o numerabile di valori. In questo caso a ogni valore x sarà associato il numero f(x) := P (X = x). La funzione f si dice funzione di probabilità o funzione di densità di probabilità. Essa si estende a tutti i valori reali, ponendo il suo valore uguale a 0 al di fuori dei valori che può assumere X . La funzione f soddisfa la condizione di normalizzazione ∑ x f(x) = 1 dove la somma è estesa a tutti i possibili valori assunti da X , che ci dice che la probabilità che X assuma almeno uno dei valori possibili è 1 . Si definisce funzione di distribuzione cumulativa, o semplicemente funzione di distribuzione della variabile aleatoria X , la funzione definita da F (x) := P (X ≤ x). (4.1) F quindi rappresenta la probabilità che la variabile aleatoria X assuma un qualunque valore minore o uguale a x. La funzione di distribuzione gode della seguenti proprietà : (i) F (x) è una funzione non decrescente di x; 31 32 CAPITOLO 4. VARIABILI ALEATORIE (ii) limx→+∞ F (x) = 1; (iii) limx→−∞ F (x) = 0; (iv) F è continua a destra, ovvero limx→x+ 0 F (x) = F (x0) , per ogni x0 ∈ R; Le proprietà (ii) e (iii) sono “ovvie”: esse ci dicono semplicemente che la proba- bilità di assumere un qualsiasi valore è 1 e quella di non assumere alcun valore è 0. Anche la (i) è semplice da spiegare: poiché se y > x si ha {e ∈ S|X(e) ≤ x} ⊂ {e ∈ S|X(e) ≤ y}, ne segue che P (X ≤ x) ≤ P (X ≤ y). La proprietà (iv) ci dice che la F può ammettere delle discontinuità solo del tipo lim x → x−0 F (x) < F (x0); in questo caso la differenza tra il limite da sinistra e F (x0) è il valore di f(x0). Tramite la funzione di distribuzione è possibile esprimere tutte la quantità riguardan- ti la probabilità di X . Per esempio P (a < X ≤ b) = F (b) − F (a) , per ogni a < b, P (X < b) = lim x→b− F (x) , (si noti che il limite è fatto da sinistra). In particolare P (X = b) = F (b) − lim x→b− F (x). Infine la probabilità P (x > a) = 1 − F (a) è detta probabilità di coda. Uno dei maggiori vantaggi dell’uso della funzione di distribuzione è che permette un trattamento unificato del caso delle variabili aleatorie discrete e di quelle continue, come vedremo tra poco. Vediamo un esempio di variabile aleatoria discreta. Consideriamo una sequenza di 5 lanci di una moneta non truccata. Lo spazio campionario è ora formato da tutte le stringhe di lunghezza 5 di simboli T o C (testa, croce), che contiene 25 = 32 ele- menti. Se siamo interessati a sapere quante teste escono in una successione di 5 lanci (indipendentemente dall’ordine di uscita) possiamo definire una variabile aleatoria X che conta le teste in ogni singola sequenza. Dunque la X ha per range l’insieme for- mato dai numeri {0, 1, 2, 3, 4, 5}, rispettivamente nessuna testa, una testa, etc. A questi valori corrispondono uno o più elementi dello spazio campionario, retroimmagine del valore tramite la X . Per esempio, X = 0 ha per retroimmagine la sola sequenza C, C, C, C, C mentre X = 1 ha per retroimmagine le cinque sequenze T, C, C, C, C C, T, C, C, C C, C, T, C, C C, C, C, T, C C, C, C, C, T Le probabilità da assegnare a ogni singolo valore della variabile aleatoria si contano dividendo i casi favorevoli per i casi possibili, quindi P (X = 0) = 132 , P (X = 1) = 5 32 , P (X = 2) = 10 32 , P (X = 3) = 10 32 , P (X = 4) = 5 32 , P (X = 5) = 1 32 . La funzione di distribuzione è quindi data da F (x) = 0, x < 0, F (x) = 132 , 0 ≤ x < 1, F (x) = 632 , 2 ≤ x < 3, F (x) = 1632 , 3 ≤ x < 4, F (x) = 2632 , 4 ≤ x < 5, F (x) = 3132 , 4 ≤ x < 5 e infine F (x) = 3232 = 1, x ≥ 5 . Si noti che in corrispondenza dei valori del range la F è discontinua da sinistra. 4.4. FUNZIONI DI VARIABILI ALEATORIE 35 sibile calcolare g(x) per ogni valore x che può essere assunto da X . Per esempio, qualsiasi sia la variabile aleatoria X possiamo sempre definire la varibile aleatoria Y = exp(X), ma possiamo definire Y = ln(X) solo se la variabile aleatoria X assume soltanto valori positivi. Una volta che ci si sia accertati della possibilità di definire Y , si pone il problema di calcolarne la funzione di distribuzione FY e la funzione di densità fY a partire dalla conoscenza di g, FX e fX . Ricordiamo che, per definizione, FY (x) = P(Y ≤ x) ovvero F (x) è la probabilità che la variabile aleatoria Y assuma valori minori o uguali a x. Per come è definita la Y abbiamo quindi FY (x) = P(Y ≤ x) = P(g(X) ≤ x) = ∫ Gx fX(s) ds , dove l’integrale è esteso a tutto l’insieme Gx = {s ∈ R : g(s) ≤ x}. Per esempio, prendiamo g(x) = x2. Allora avremo che FY (x) = 0, per ogni x < 0 in quanto, qualunque sia il valore assunto dalla variabile aleatoria X , il suo quadrato sarà un numero maggiore o uguale a 0. Se invece vogliamo calcolare FY (2), dovremo tener conto che la Y assume un valore compreso nell’intervallo (0, 2) ogni qualvolta X assume un valore compreso tra − √ 2 e √ 2. Inoltre, poiché Y non può assumere valori negativi, FY (2) = P(Y ≤ 2) = P(0 ≤ Y ≤ 2). Di conseguenza abbiamo FY (2) = ∫ √ 2 − √ 2 fX(s) ds = FX( √ 2) − FX (− √ 2). Nota che non è detto che l’insieme Gx sia un intervallo. Prendiamo come esempio g(x) = −x2. In questo caso avremo “ovviamente” FY (x) = 1 per ogni x > 0 (perché ?) mentre se vogliamo calcolare FY (−2) dobbiamo calcolare l’integrale della funzione fX su tutto l’insieme in cui −x2 < 2, che in questo caso è fatto dall’unione degli intervalli (−∞,− √ 2) e ( √ 2,∞). Avremo quindi FY (−2) = ∫ − √ 2 −∞ fX(s) ds + ∫ ∞ √ 2 fX(s) ds = FX (− √ 2) + 1 − FX( √ 2). Inoltre è possibile che Gx abbia intersezione non vuota con l’insieme in cui fX si an- nulla. Per esempio, cosa succede del conto precedente se la X è una variabile aleatoria uniformemente distribuita nell’intervallo (−4, 7)? Nel caso che la funzione g sia strettamente monotona (assumeremo nel calcolo che segue che g sia anche derivabile e che g′ > 0) si può scrivere una formula generale per la funzione densità della variabile aleatoria Y . Infatti abbiamo FY (x) = P(g(X) ≤ x) = P(X ≤ g−1(x)) = ∫ g−1(x) −∞ fX(s) ds = ∫ x g(−∞) fX(g −1(z)) g′(g−1(z)) dz , (4.5) dove abbiamo effettuato il cambiamento di variabili z = g(s) e abbiamo indicato con g(−∞) il limite di g per x → −∞. La funzione fY (x) = fX(g −1(x)) g′(g−1(x)) (4.6) 36 CAPITOLO 4. VARIABILI ALEATORIE è quindi la funzione di densità della variabile Y (se g(−∞ > −∞ la fY si pone uguale a zero in (−∞, g(−∞))). Esercizio: cosa cambia se g′ < 0 ? Esercizio: usando la (4.6) trovare le funzioni di densità delle variabili aleatorie Y = αX + β e Y = arctg (X). 4.5 Valor medio di funzione di var. aleat. Se è piuttosto laborioso ricavare la funzione di di densità di una variabile aleatoria Y = g(X) in termini della funzione di densità della X , è invece molto semplice calcolarne il valor medio. Infatti vale la seguente formula E(Y ) = E(g(X)) = ∫ +∞ −∞ g(x)fX(x) dx. (4.7) La dimostrazione si ottiene con un po’ di calcolo dalla (4.6) E(Y ) = ∫ +∞ −∞ yfY (y) dy = ∫ +∞ −∞ y fX(g −1(y)) g′(g−1(y)) dy , (4.8) Operando ora il cambiamento di variabile y = g(x) nella (4.8) otteniamo immediata- mente la (4.7). Nel caso di una variabile discreta abbiamo invece E(g(y)) = ∑ x|f(x)>0 g(x)fX(x), (4.9) dove la somma è estesa a tutti i valori x del range di X (dove quindi la f(x) > 0). La (4.9) può comunque essere dimostrata direttamente come segue: fissato y abbi- amo che P (Y = y) è uguale alla probabilità che la X assuma un qualsiasi valore x tale g(x) = y ovvero x ∈ g−1(y), quindi P (Y = y) = ∑x∈g−1(y) P (X = x). Abbiamo quindi E(Y ) = ∑ y yP (Y = y) = ∑ y ∑ x∈g−1(y) yP (X = x) = ∑ y ∑ x∈g−1(y) g(x)fX (x) ma la doppia somma non è nient’altro che la somma su tutti gli x tali che P (X = x) > 0, e quindi otteniamo la (4.9). 4.6 Varianza di una variabile aleatoria Per ogni intero ≥ 1, la quantità E(Xn) è detta momento di ordine n-esimo della variabile aleatoria X . Essa può calacolarsi con la formula (4.7). Per n =, il momento coincide con il valor medio. Di più frequente sono i momenti centrali: per ogni m ≥ 2 definiamo il momento centrale di ordine m la quantità E[(X − µ)m], dove µ = E(X) è il valor medio. Di particolare importanza è il momento centrale del second’ordine, detto anche varianza e indicato generalmente con var(X) oppure con σ2: 4.6. VARIANZA DI UNA VARIABILE ALEATORIA 37 var(X) = σ2 = E[(X − E(X))2] = {∑ i(xi − µ)2P (X = xi) X variabile discreta∫ +∞ −∞ (x − µ)f (x) dx X variabile continua (4.10) La radice quadrata della varianza σ = √ var(X) viene detta deviazione standard della variabile aleatoria. Queste due quantità danno un’informazione sulla dispersione della varaibile aleatoria attorno al valor medio. Per il calcolo della varianza, in alternativa alla (4.10), si utilizza la seguente formula var(X) = E(X2) − (E(X))2, (4.11) che ci dice che il calcolo della varianza si effettua calcolando il valor medio della variabile aletoria X2 (il quadrato della X) e poi sottraendo il quadrato del valor medio di X . La dimostrazione della (4.11) è lasciata per esercizio. Diseguaglianza di Čebišev Se X è una variabile aleatoria di media µ e varianza σ2, allora per ogni ε > 0 si ha P (|X − µ| ≥ ε) ≤ σ 2 ε2 (4.12) La dimostrazione della (4.12) segue dalla diseguaglianza di Markov: se X è una varibile aleatoria che assume solo valori non negativi, allora per ogni a > 0 si ha P (X ≥ a) ≤ E(X) a . (4.13) Diamo la dimostrazione della (4.13) nel caso di una variabile aleatoria continua di densità f . Abbiamo E(x) = ∫ +∞ 0 xf(x) dx ≥ ∫ +∞ a xf(x) dx ≥ ∫ +∞ a af(x) dx = aP (X ≥ a) La dimostrazione (che lasciamo per esercizio) della (4.12) si ottiene applicando la (4.13) alla variabile aleatoria non negativa (X − µ)2 con a = ε2. La diseguaglianza di Čebišev può anche essere scritta, scegliendo ε = kσ con k > 0 P (|X − µ| ≥ kσ) ≤ 1 k2 . (4.14) che ci dice che la probabilità che la variabile aleatoria assuma valori che si scostano dalla media per piu di k volte la deviazione standard è minore di 1/k2. Osserviamo che la disuguaglianza di Čebišev permette di ottenere una maggio- razione della probabilità dalla sola conoscenza del valor medio e della varianza, che in molte applicazioni statistiche sono tutta la conoscenza (sotto forma di stime) che abbiamo della popolazione. 40 CAPITOLO 4. VARIABILI ALEATORIE dove δi,j = 1 se i = j e δi,j = 0 se i 6= j. Variabili indipendenti Due variabili aleatorie X e Y si dicono indipendenti se la fun- zione di densità congiunta f(x, y) si può esprimere come il prodotto di una funzione fX(x) della sola variabile x e una funzione fY (y) della sola y, f(x, y) = fX(x)fY (y). Confrontando con formula (4.18) per le densità marginali, le funzioni fX e fY sono le densità (marginali) delle variabili X e Y rispettivamente. E’ importante osservare che nel caso di variabili aleatorie indipendenti, oltre alla (4.19) vale la seguente formula per la varianza var(aX + bY ) = a2var(X) + b2var(Y ), (4.22) che in generale non è vera per una coppia di variabili aleatorie qualsiasi (in effetti la (4.22) è vera se e solo se cov(X, Y ) = 0). Anche la (4.22) si generalizza a un numero qualsiasi di variabili aleatorie indipendenti. Proposizione Se X1, X2, ..., XN sono N variabili aleatorie indipendenti con la stessa varianza σ2 abbiamo var ( X1 + X2 + ... + XN N ) = σ2 N , s.d. ( X1 + X2 + ... + XN N ) = σ√ N . (4.23) Dalla (4.23), abbiamo che la deviazione standard della media di N osservazioni indipendenti decresce come √ N al crescere del numero di osservazioni. 4.8 Teoremi sul limite Possiamo infine illustrare due teoremi fondamentali sia per l’interpretazione della prob- abilità sia per le applicazioni ai problemi di inferenza statistica. Il primo è la cosiddetta legge (debole) dei grandi numeri Teorema 4.1 (Legge dei grandi numeri) Sia X1, X2, ..., XN una successione di vari- abili aleatorie indipendenti con la stessa media µ e la stessa varianza σ2. Allora per ogni ε > 0, lim n→∞ P (∣ ∣ ∣ ∣ X1 + X2 + ... + XN N − µ ∣ ∣ ∣ ∣ < ε ) = 1. (4.24) Questo teorema fu stabilito per la prima volta, nel caso di una successione di variabili aleatorie che obbedivano tutte alla stessa distribuzione binomiale, da Jacob Bernoulli (1654-1705) e pubblicato nel suo trattato postumo Ars conjectandi (1713). Il teorema stabilisce che la media aritmetica di una successione di variabili aleatorie avente la stessa distribuzione, di qualunque tipo essa sia, converge, con probabilità 1, al valor medio della distribuzione. La dimostrazione segue facilmente dalla disuguaglianza di Čebišev (4.12) e dalla formula per la varianza (4.23). Abbiamo infatti P (∣ ∣ ∣ ∣ X1 + X2 + ... + XN N − µ ∣ ∣ ∣ ∣ ≥ ε ) = σ2 ε2N , che possiamo riscrivere P (∣ ∣ ∣ ∣ X1 + X2 + ... + XN N − µ ∣ ∣ ∣ ∣ < ε ) = 1 − σ 2 ε2N , (4.25) 4.9. COVARIANZA 41 da cui il teorema segue facilmente passando al limite N → ∞. Osserviamo che la (4.25) ci permette anche di valutare la velocità di convergenza a 1 della probabilità. Il secondo teorema, fondamentale per le applicazioni alla statistica, è il teorema centrale del limite Teorema 4.2 (Teorema centrale del limite) Sia X1, X2, ..., XN una successione di variabili aleatorie indipendenti con la stessa media µ e la stessa varianza σ2. Allora la distribuzione della variabile aleatoria X1 + X2 + ... + XN − Nµ σ √ N tende alla distribuzione normale standard per N → ∞. Ovvero, per ogni x ∈ R sia ha lim N→∞ P ( X1 + X2 + ... + XN − Nµ σ √ N ≤ x ) = 1√ 2π ∫ x −∞ e−t 2/2 dt. (4.26) Torneremo su questo teorema nel capitolo dedicato al campionamento. 4.9 Covarianza Il numero σXY = cov(X, Y ) := E [(X − E(X))(Y − E(Y ))] si dice covarianza tra X e Y . Vale inoltre una formula per il calcolo della covarianza, analoga alla (4.11) per il calcolo della varianza, cov(X, Y ) = E(XY ) − E(X)E(Y ), (4.27) in accordo con il fatto che cov(X, X) = var(X). La covarianza è considerata un indice della tendenza delle variabili X e Y a “variare assieme”, p.e. Y cresce se X cresce (in questo caso cov(X, Y ) > 0) o decresce (cov(X, Y ) < 0). Se le variabili X e Y sono indipendenti allora cov(X, Y ) = 0, ma l’inverso non è vero. Infatti bisogna essere un po’ prudenti nell’interpretare la covarianza come indice della dipendenza di una variabile aleatoria dall’altra. Vediamo con un esempio, che possiamo avere Y = g(X) ma cov(X, Y ) = 0. Basta prendere una variabile aleatoria X che assume, con ugual probabilità, i valori {−3,−2,−1, 0, 1, 2, 3} e Y = X 2. Questo esempio si generalizza a tutte quelle variabili aleatorie X che abbiano una funzione (o densità) di probabilità simmetrica rispetto al valor medio e con funzioni g pari rispetto a X − E(X). Il concetto di covarianza è in effetti legato alla variazione lineare della variabile aleatoria Y in funzione della variabile aleatoria X . Calcoliamo cov(X, Y ) nel caso in cui Y = αX + β. Ricordiamo che E(Y ) = αE(X) + β e var(Y ) = α2var(X). E’ inoltre immediato verificare che, in questo caso, E(XY ) = αE(X2)+βE(X) (fare il calcolo per esercizio). Introducendo queste relazioni in (4.27), e ricordando la (4.11), otteniamo cov(X, αX + β) = αvar(X), . (4.28) 42 CAPITOLO 4. VARIABILI ALEATORIE Accanto alla covarianza si introduce anche il numero ρ = cov(X, Y ) √ var(x)var(Y ) , (4.29) detto coefficiente di correlazione. Questo coefficiente, al contrario della covarianza, è indipendente dalla scala utilizzata per misurare i valori delle variabili aleatorie, e quindi offre una migliore misura del “legame” tra X e Y . Osserviamo che la covarianza soddisfa alla disequazione (cov(X, Y )) 2 ≤ var(X)var(Y ), (4.30) nota come disequaglianza di Cauchy-Schwarz. Il segno di uguale nella (4.30) vale se, e solo se, esistono tre costanti a, b, c, non tutte nulle, tali che P (aX + bY = c) = 1. In virtù della (4.30) si ha |ρ| ≤ 1. Confrontando con la (4.28), abbiamo che ρ = 1 o ρ = −1 se Y = αX + β con α > 0 o α < 0 rispettivamente. Un valore di |ρ| vicino a uno è quindi indice di una relazione lineare tra Y e X . Torneremo su questi concetti nel capitolo dedicato alla regressione lineare. 5.1. DISTRIBUZIONE BINOMIALE 45 e, tornando alla somma µ = n∑ k=1 n ((n − 1)! (k − 1)!(n − k)! p k (1 − p)n−k. (5.3) Ponendo h = k − 1 in (5.3) otteniamo µ = n p n−1∑ h=0 ((n − 1)! h!(n − 1 − h)! p h (1 − p)n−1−h. (5.4) dove abbiamo messo in evidenza il fattor comune np nella somma. Infine possiamo riconoscere nella somma lo sviluppo del binomio (p+(1−p))n−1 = 1, il che completa la dimostrazione. Per la varianza si può dimostrare che var(X) = npq = np(1 − p). Per completezza riportiamo la dimostrazione. Sfuttando la (4.11) dobbiamo mostrare che n∑ k=0 k2 ( n k ) pk (1 − p)n−k = (np)2 + np(1 − p). (5.5) Riscriviamo il primo membro della (5.5) come np n∑ k=1 k ( n − 1 k − 1 ) pk−1 (1 − p)n−1−(k−1). (5.6) e poniamo h = k − 1 nella (5.6) np n−1∑ h=0 (h + 1) ( n − 1 h ) ph (1 − p)n−1−h = np[p(n − 1) + 1]. (5.7) dove abbiamo applichiamo nella (5.7) la proprietà distributiva del prodotto rispetto alla la somma (h + 1), ottenendo così la somma di due sommatorie: la prima (quella con fattore h) che è il valor medio della varaibile aletoria Y che conta i successi su una serie di n − 1 lanci, l’altra (quella col fattore 1) che è il solito sviluppo del binomio di Newton per (p + (1 − p))n−1. Nel seguito, per indicare che una variabile aleatoria X che obbedisce a una dis- tribuzione binomiale su n prove con probabilità di successo p, scriveremo X ∼ B(n, p). Ricapitoliamo i risultati ottenuti nella seguente tabella X ∼ B(n, p) P (X = k) ( n k ) pk(1 − p)n−k = n! k!(n − k)!p k(1 − p)n−k µ = E(X) np σ2 = var(X) np(1 − p) Nota: E’ bene chiarire un punto: la distribuzione binomiale, così come l’abbiamo descritta, assume che la struttura dell’esperimento sia soggiacente sia nota, e, in parti- colare, sia nota la probabilità di successo p. A partire da questa conoscenza possiamo calcolare “a priori” qual’è la probabilità di k sucessi su n prove. 46 CAPITOLO 5. DISTRIBUZIONI DISCRETE Una serie di prove può essere usata invece per determinare “sperimentalmente” il valore della probabilità di successo p (p.e. nel caso si sospetti che una moneta sia truccata). Anche in questo caso dobbiamo comunque assumere alcune ipotesi: che le prove della serie siano indipendenti; che la probabilità di successo p (inognita) non cambi da una prova all’altra. Una volta assunte queste ipotesi, la variabile aleatoria che conta il numero dei sucessi segue una distribuzione binomiale con p incognita. La stima di p si può effettuare “a posteriori” tramite la stima del valor medio np ottenuta a partire dal valor medio campionario, come vedremo in seguito. Distribuzione multinomiale Conderiamo ora il caso in cui i risultati possibili di una prova in una successione di prove siano più di due. Effettuaiamo una successione di n prove indipendenti, dove le probabilità dei singoli esiti si mantengano costanti come nel caso delle prove di Bernoulli viste prime. Supponiamo che gli esiti possibili siano almeno tre, e concentriamo la nostra attenzione sui due primi possibili esiti della prova, e1 ed e2, con probabilità p1 e p2 rispettivamente. Indichiamo con X1 e con X2 il numero degli esiti uguali a e1 ed e2 rispettivamente. Consideriamo la variabile aleatoria vettoriale X = (X1, X2) che ha per range l’insieme delle coppie di numeri interi non negativi (x1, x2) tali che x1 + x2 ≤ n. La distribuzione congiunta della variabile vettoriale X è la distribuzione trinomiale di parametri n e (p1, p2) data da P (X1 = x1, X2 = x2) = n! x1!x2!(n − x1 − x2)! px11 p x2 2 (1 − p1 − p2)n−x1−x2 che soddisfa E(Xi) = npi, var(Xi) = npi(1−pi), i = 1, 2 (queste uguaglianze sono ovvie alla luce della distribuzione binomiale) e cov(X1, X2) = −np1p2. Il fatto che la covarianza sia negativa è giustificato dal fatto che, se si ottengono “molti” risultati e1, di conseguenza ci si aspettano “pochi” risultati e2. Distribuzione geometrica Una distribuzione legata alla binomiale, è la distribuzione geometrica che è quella a cui obbedisce la variabile aleatoria X che conta, in una successione di prove di Bernoulli indipendenti di probabilità p, il numero di fallimenti prima di ottenere il primo successo, p.e. se l’uscita di testa è il successo, la serie {C, C, T, C, T} ci dà X = 2. Si ha P (X = r) = p(1 − p)r, r = 0, 1, 2, ... e E(X) = 1−pp e var(X) = 1−p p2 . Distribuzione ipergeometrica Consideriamo un’urna con N1 palline bianche e N2 palline nere e poniamo X = {numero di palline bianche estratte}. Allora, in una successione di n estrazioni, la variabile X sarà distribuita secondo B(N, p), N = N1 + N2, p = N1/N , se, dopo ogni estrazione, la pallina estratta viene reintrodotta nell’urna; diremo in questo caso che abbiamo effettuato una serie di estrazioni con reintroduzione. Se, invece, effettuiamo le estrazioni senza reintroduzione, la distribuzione binomi- ale non può essere usata poiché la probabilità non è costante da una prova all’altra (e le prove non sono indipendenti tra loro). In questo caso la variabile X deve soddisfare la limitazione 0 ≤ X ≤ N1, in quanto non si possono avere più di N1 successi e n − N2 ≤ X , in quanto si possono avere al più N2 fallimenti (questa disequaglianza diventa significativa se ci sono più di N2 estrazioni). 5.2. DISTRIBUZIONE DI POISSON 47 Si può dimostrare che la variabile X obbedisce alla distribuzione ipergeometrica P (X = x) = ( Np x )( N(1 − p) n − x ) ( N n ) per ogni x tale che max(0, n − N(1 − p)) ≤ x ≤ min(n, Np). Si ha E(X) = np, var(X) = np(1 − p)(N − n) N − 1 . Se il numero N è molto grande rispetto a n allora la distribuzione ipergeometrica si confonde alla distribuzione binomiale (e ci tende nel senso delle distribuzioni se N → +∞). Ciò significa che nei campionamenti da popolazioni molto numerose, e con campi- oni poco numerosi rispetto alla numerosità della popolazione, si può utilizzare, al posto della distribuzione ipergeometrica, la distribuzione binomiale per la variabile che conta il numero di successi nel campione (questa approssimazione, o meglio, come vedremo, l’approssimazione tramite la distribuzione normale, è comunemente usata nelle appli- cazioni statistiche). Questo fatto non deve sorprendere: tornando al caso delle palline, se nell’urna ci sono, p.e., 20000 palline bianche e 30000 palline nere, l’estrazione di 10 palline non altera sensibilmente, qualunque sia l’esito delle estrazioni, la probabilità di estrarre una pallina bianca alla undicesima estrazione. 5.2 Distribuzione di Poisson Se il numero di prove n in una prova di Bernoulli è molto grande, ma la probabilità di successo p molto piccola (paragonabile a 1/n) allora la distribuzione binomiale è approssimata dalla distribuzione di Poisson. Questa distribuzione, oggi largamente usata per la descrizione dei problemi di ar- rivo (p.e. le code a un casello autostradale o a uno sportello postale), fu introdotta dal matematico francese S.D. Poisson (1781-1840). Una variabile aleatoria X si dice distribuita secondo Poisson con parametro m > 0 se la sua funzione di probabilità è data da P (X = x) = e−m mx x! , x = 0, 1, 2, ...., P (X = 0) altrimenti. (5.8) Scriveremo in questo caso X ∼ P(m). Osserviamo che la distribuzione di Poisson può essere ottenuta dalla seguente for- mula di ricorrenza P (X = 0) = e−m, P (X = x + 1) = P (X = x) m x + 1 . Il valore atteso E(X) di una distribuzione di Poisson è dato dal valore del parametro stesso e così pure la sua varianza µ = E(X) = m, σ2 = var(X) = m. (5.9) 50 CAPITOLO 5. DISTRIBUZIONI DISCRETE Figura 5.1: Figura 5.2: Capitolo 6 Distribuzioni continue 6.1 Distribuzione normale La distribuzione di gran lunga più importante nelle applicazioni è la cosiddetta dis- tribuzione normale o di Gauss in onore di K.F. Gauss (1777-1855). Essa compare in una molteplicità di occasioni. Da un lato essa descrive la distribuzione degli errori in un processo di misurazione sperimentale, ovvero come le misure effettivamente os- servate si scostino valore “vero” della quantità che si vuol misurare. Dall’altro essa fornisce un’utilissima approssiamazione sia della distribuzione binomiale sia di quella di Poisson. Infine, tramite il Teorema centrale del limite, essa compare come dis- tribuzione asintotica della media campionaria estratta da una popolazione di cui siano note valor medio e varianza, qualunque sia la distribuzione originaria da cui è estratto il campione. Una variabile aleatoria X è distribuita normalmente con valor medio µ e varianza σ2 > 0 quando X ha densità f(x) = 1 σ √ 2π exp ( − (x − µ) 2 2σ2 ) , x ∈ R, µ ∈ R, σ > 0. (6.1) Scriveremo X ∼ N (µ, σ2). Quando µ = 0 e σ = 1, la distribuzione si dirà nor- male standard. Indicheremo spesso con Z una variabile distribuita secondo la normale standard, Z ∼ N (0, 1). Il grafico della funzione f è simmetrico rispetto alla retta x = µ (il valor medio) che è anche l’unico punto di massimo della f . La curva ha due flessi in µ− σ e µ + σ. 6.1.1 Standardizzazione La distribuzione normale ha due parametri µ e σ. I valori di una variabile X dis- tribuita normalmente sono usualmente descritti in termini di quante volte la deviazione standard essi sono lontani dal valor medio. Si ha infatti che la probabilità che X sia contenuta in un intervallo centrato in µ e di ampiezza t volte la deviazione standard, ovvero P (µ − tσ ≤ X ≤ µ + tσ), non dipende da µ e σ ma solo da t. 51 52 CAPITOLO 6. DISTRIBUZIONI CONTINUE Per verificare questa proprietà basta ricorre al seguente cambiamento di variabili z = (x − µ)/σ. Se X ∼ N (µ, σ2) allora la variabile aleatoria Z = X − µ σ ∼ N (0, 1) (6.2) è distribuita secondo la normale standard e si ha ∫ µ+bσ µ+aσ 1 σ √ 2π exp ( − (x − µ) 2 2σ2 ) dx = ∫ b a 1√ 2π exp ( −z 2 2 ) dz. La standardizzazione è fondamentale nelle applicazioni in quanto consente di cal- colare quale sia la probabilità che una variabile normalmente distribuita assuma valori in un certo intervallo riccorrendo alle tavole per la distribuzione normale standard. Ricordiamo che la funzione di distribuzione per la normale standard è definta da F (z) = P (Z ≤ z) = ∫ z −∞ 1√ 2π exp ( −s 2 2 ) ds. (6.3) Questo funzione integrale non è esprimibile tramite combinazioni finite di funzioni elementari, quindi non è possibile eseguire il calcolo di F (z) con i metodi abituali del calcolo integrale. Quindi per sapere quanto valga F (z) per un dato z si ricorre a delle tavole che riportano il valore di F (z) (oppure di F (z) − 0.5 = P (0 ≤ Z ≤ z)) Queste stesse tabelle possono essere utilizzate per calcolare anche P (X ≤ x) quando X ∼ N (µ, σ2) attraverso la standardizzazione. Per chiarire il procedimento vediamo un semplice esempio. Supponiamo che X sia una variabile aleatoria distribuita normalmente, con valor medio µ = 3 e varianza σ2 = 4. Vogliamo sapere quanto vale la probabilità che X assuma valori nell’intervallo [1, 4] ovvero vogliamo calcolare P (1 ≤ X ≤ 4). Per prima cosa standardizziamo il problema: poiché X ∼ N (3, 4) la (6.2) ci dice che la variabile distribuita secondo la normale standard sarà Z = (X − 3)/2. (6.4) A questo punto dobbiamo trasformare la diseguaglianza 1 ≤ X ≤ 4 in una disguaglianza per Z. 1 − 3 ≤ X − 3 ≤ 4 − 3, ⇒ −1 ≤ X − 3 2 = Z ≤ 0.5, che ci dice che la X è compresa nell’intervallo [1, 4] se e solo se la Z è compresa nell’intervallo [−1, 0.5]. Quindi P (1 ≤ X ≤ 4) = P (−1 ≤ Z ≤ 0.5) = p Per valutare p = P (−1 ≤ Z ≤ 0.5) possiamo ora ricorre alle tavole. In un testo di statistica si può trovere una delle seguenti tre tavole 1. valori della funzione di distribuzione F (z) per z ≥ 0, ovvero i valori di P (Z ≤ z) per z ≥ 0 6.2. DISTRIBUZIONE ESPONENZIALE 55 la media aritmetica delle variabili è distribuita normalmente e ha la stessa media delle variabili Xi e varianza uguale a un N -esimo della varianza delle variabili Xi. Questa proprietà ha una generalizzazione di fondamentale importanza nelle appli- cazioni statistiche. Teorema 6.2 (Teorema Centrale del Limite) Sia X1, X2, ..., XN una successione di variabili aleatorie indipendenti con la stessa media µ e la stessa varianza σ. Allora la distribuzione della variabile aleatoria X = X1 + X2 + ... + XN N tende alla distribuzione normale con media µ e varianza σ2/N per N → ∞. In altre parole si ha, per ogni x ∈ R lim N→∞ P ( X1 + X2 + ... + XN − Nµ σ √ N ≤ x ) = 1√ 2π ∫ x −∞ e−t 2/2dt. (6.7) E’ fondamentale osservare che il teorema non richiede altro alle singole distribuzioni delle variabili aleatorie, a parte di avere la stessa media e la stessa varianza. La “bontà” dell’approssimazione, ovvero quanto grande debba essere N affinché si possa trascu- rare l’errore commesso sustituendo la distribuzione normale a quella della media atrit- metica, dipenderà tuttavia dalla forma delle distribuzioni (abbiamo visto che nel caso di distribuzioni normali non si commette alcun errore). Vedremo come si utilizza questo teorema nel capitolo dedicato ai compionamenti. 6.2 Distribuzione esponenziale La distribuzione esponenziale è una distribuzione continua legata ai processi di Pois- son. Quando abbiamo introdotto i processi di Poisson, abbiamo definito la distribuazione di Poisson che “conta” quanti eventi accadono in un dato intervallo temporale (o spaziale) di ampiezza t. Ricordiamo che la probabilità che in un processo di Poisson di velocità λ si verifichino k eventi nell’intervallo (T, T + t) è data da P (X = k) = e−λt(λt)k k! . da cui otteniamo che la probabilità che si verifichi almeno un evento in un intervallo (T, T + t) è P (X ≥ 1) = 1− P (X = 0) = 1 − e−λt. (6.8) L’ultimo termine nell’uguaglianza (6.8) è una funzione di t che possiamo considerare la probabilità di dover aspettare al più un tempo t prima che si verifici un nuovo evento. La funzione F (t) = { 1 − e−λt per t ≥ 0 0 per t < 0 (6.9) soddisfa le proprietà di una funzione di distribuzione con densità f(t) = { λe−λt per t ≥ 0 0 per t < 0 (6.10) 56 CAPITOLO 6. DISTRIBUZIONI CONTINUE e prende il nome di distribuzione esponenziale. La media e la varianza della distribuzione esponenziale sono date da µ = 1 λ , σ2 = 1 λ2 6.3 La distribuzione χ2 Una distribuzione di frequente impiego, come vedremo, nei test statistici è la dis- tribuzione χ2 (chi-quadro). Essa è strettamente legata alla distribuzione normale. Siano Xi, i = 1, ..., n variabili aleatorie indipendenti distribuite normalmente, Xi ∼ N (µi, σ2i ) e siano Zi = Xi−µi σi le corrispondenti variabili standardizzate. Consideriamo ora la nuova variabile aleatoria χ2n = n∑ i=1 Z2i ottenuta sommando i quadrati delle variabili aletorie Zi. Questa variabile, che ovvia- mente può assumere solo valori positivi, dà una misura dello scarto totale delle variabili aleatorie dalla loro media. Il pedice n serve per ricordare che abbiamo preso la som- ma di n variabili. Esso ha la funzione di parametro per la distribuzione della variabile aleatoria χ2n e viene detto grado di libertà della distribuzione. La funzione di densità per la distribuzione della χ2n si ricava abbastanza agevol- mente. Partiamo costruendo la funzione di distribuzione della χ2n: per x < 0 ovvia- mente avremo P (χ2n ≤ x) = 0. Vogliamo ora calcolare P (χ2n ≤ x), per ogni x > 0 ovvero P (χ2n ≤ x) = P ( n∑ i=1 Z2i ≤ x). Possiamo pensare alla ∑n i=1 Z 2 i come una funzione della variabile aleatoria vettori- ale (Z1, ..., Zn) che ha distribuzione nota poiché le variabili aleatorie Zi sono indipen- denti. Quindi per calcolare P (χ2n ≤ x) basta integrare la funzione di densità congiunta della variabile (Z1, ..., Zn) sulla ipersfera n dimensionale definita da ∑n i=1 Z 2 i ≤ x. Il risultato che si ottiene è che P (χ2n ≤ x) = 1 2n/2Γ(n/2) ∫ x 0 tn/2−1e−t/2dt, x ≥ 0, dove la Γ è la funzione gamma di Eulero. In ogni caso la conoscenza della funzione di densità ha un scarsa importanza. I valori di P (χ2n ≤ x) si ricavano da opportune tabelle (una per ogni grado di libertà). La media e varianza della distribuzione χ2n sono date da µ = n, σ2 = 2n Capitolo 7 Campionamenti Lo scopo principale della statistica induttiva è quello di stimare i parametri di una popo- lazione, o di sottoporre a esame delle ipotesi su di una popolazione, tramite l’osser- vazione di un numero ridotto di elementi della popolazione stessa: un campione. Un campione consiste in una collezione finita di osservazioni, ognuna delle quali rappresenta la realizzazione di una variabile aleatoria xi, i = 1, .., n. Per esempio, supponiamo di voler determinare l’altezza media dei giovani maschi italiani. Possiamo usare come campione le altezze misurate durante una visita di leva in qualche distretto militare italiano: l’altezza misurata per ogni recluta fornisce così la realizzazione di una variabile aletoria (l’altezza di un elemento scelto a caso dalla popolazione). L’insieme di queste osservazioni è il nostro campione. A partire da questi dati possiamo formare una quantità che pensiamo ci possa fornire qualche indicazione sul parametro che ci interessa stimare (nel nostro caso l’al- tezza media). Questa quantità si dice una statistica. Si tratta, ancora una volta, di una variabile aletoria, funzione delle n variabili aleatorie xi del nostro campione. Il problema che ci poniamo per primo è quello di definire, per i vari parametri della popolazione, quali siano le statistiche giuste per stimare questi parametri, e come queste statistiche siano distribuite (in quanto variabili aleatorie). La conoscenza della distribuzione delle statistiche ci permetterà di valutare la nostra fiducia sulla bontà della stima. Tornando all’esempio dell’altezza media, è abbastanza ovvio pensare che una buona stima dell’altezza media della popolazione sia fornita dall’altezza media del campione. Questa si misura come la media di una popolazione, facendo attenzione al modo in cui sono stati raggruppati i dati (se lo si è fatto). Questa statistica prende il nome di media campionaria e si indica con x. La sua realizzazione su un campione è data da: Media Campionaria : x = 1 n n∑ i=1 xi = 1 n c∑ j=1 xjfj , (7.1) dove la prima somma si estende a tutti gli elementi del campione, sommando tutte le singole realizzazioni xi delle variabili aleatorie xi, mentre la seconda somma si utilizza nel caso in cui i dati del campione siano stati raggruppati in c classi corrispondenti ai valori xj e con frequenze fj (nota che ∑c j=1 fj = n). Accanto alla media campionaria, consideriamo un’altra statistica utile nelle appli- 57 60 CAPITOLO 7. CAMPIONAMENTI In questo caso il teorema precedente ci offre un immediata regola di condotta. Infatti abbiamo che la variabile z = x − µ σ/ √ n (7.6) è distribuita secondo la normale standard (ovvero ha media nulla e varianza 1). A partire da questa osservazione è possibile fare delle previsioni su µ che sarà espresso da µ = x − σ√ n z, (7.7) ovvero il valore di µ è dato dal valore medio dei valori osservati più un errore aleatorio, di cui conosciamo la distribuzione di probabilità. 7.1.2 Popolazione normale, σ2 sconosciuta Cosa succede invece nel caso in cui non si conosca la varianza della popolazione sog- giacente, pur sapendo che essa è distribuita normalmente? In questo caso, ricordando che σ2 è il valore atteso della varianza campionaria, possiamo tentare di sostituire la varianza della popolazione con la varianza campionaria s2, e fare la stessa stessa trasformazione t = x − µ s/ √ n (7.8) ottenendo una nuova variabile aleatoria, che abbiamo indicato con t (nota che ora sia x che s sono variabili aleatorie, cioè il loro valore varia da campione a campione.) Questa nuova variabile aleatoria non è più distribuita secondo la normale, ma sec- ondo una legge di probabilità la cui funzione di distribuzione ha un grafico assai simile alla normale, ma più disperso. Per essere più precisi t segue una legge di probabilità che dipende da n, ovvero abbiamo una famiglia di distribuzioni, parametrizzata da n. La distribuzione a cui obbedisce la t prende il nome di t-di-Student con ν = (n − 1) gradi di libertà, indicata spesso con tν . Essa ha media nulla e varianza ν/(ν − 2) se ν ≥ 3. Per questa distribuzione esistono delle tavole (una per ogni grado di libertà). All’aumentare dei gradi di libertà, la distribuzione tν converge alla distribuzione normale standard e viene generalmete confusa con essa per ν > 30 (ovvero, per ν > 30 si utilizzano le tavole della normale standard al posto di quelle per la t per effettuare i calcoli.) 7.2 Popolazione non normale Cosa dobbiamo fare invece se l’ipotesi di normalità per la popolazione soggiacente non può essere considerata valida? Anche in questo caso dobbiamo distinguere il caso in cui sia nota la varianza della popolazione σ2 da quello in cui essa ci sia ignota. 7.2.1 Popolazione non normale, σ2 nota In questo caso possiamo far appello al Teorema centrale del limite che ci dice che la distribuzione della variabile aleatoria y = x − µ σ/ √ n 7.3. POPOLAZIONI FINITE 61 tende, in probabilità, alla normale standard per n → ∞, qualunque sia la distribuzione della popolazione soggiacente. La regola di comportamento che ne traiamo è che se “n è grande”, allora possiamo considerare y come se fosse realmente distribuita secondo la normale stantard, e fare i conti utilizzando le tabelle per z. Resta il problema pratico di decidere cosa significhi che “n è grande”. Questo dipende molto dalla forma della distribuzione soggiacente. Se la distribuzione da cui si fa il campionamento è simmetrica e unimodale oppure è una distribuzione uniforme su un intervallo finito, allora si ha un buon accordo per valori di n già relativamente piccoli (p.e. n = 10); in generale per n ≥ 30 si ha un buon accordo per qualsiasi tipo di distribuzione soggiacente, e si accetta nella pratica di considerare la variabile y come se fosse distribuita normalmente. 7.2.2 Popolazione non normale, σ2 sconosciuta Anche in questo caso vale una regola pratica simile alla precedente. Ci si comparta come nel caso della popolazione soggiacente normale assumendo che la variabile t = x − µ s/ √ n sia distribuita secondo la t di Student con ν = n − 1 gradi di libertà. Ciò è tanto più lecito qunto più n è grande. Al crescere di n (n > 30), si può approssimare a sua volta la t di Student con la normale standard e compartarsi, in pratica, come nel caso di σ2 nota, con la sola differenza che la standardizzazione si calcola usando la media campionaria. 7.3 Popolazioni finite Infine è bene ricordare che tutto quello che abbiamo detto fino ad ora presupponeva che le osservazioni fossero indipendenti. Questo accade nel caso di popolazioni (potenzial- mente) infinite, p.e. nel caso di misurazioni tramite uno strumento, purché un processo di osservazione non influenzi i successivi. Nel caso di una popolazione finita, l’ipotesi di indipendenza presuppone che dopo ogni osservazione la situazione sia riportato allo stato che la precedeva. Per esem- pio, se facciamo un sondaggio di mercato, l’ipotesi di indipendenza della osservazioni implica che una stessa persona possa essere intervistata più di una volta (in linea di principio anche n volte!) Questo ovviamente non corrisponde alla pratica reale, dove il sondaggio viene condotto “senza rimbussolamento”. Da un punto di vista pratico la differenza è inapprezzabile se la dimensione N della popolazione soggiacente è abbas- tanza grande (essendo il campione aleatorio, la probabilità di intervistare più di una volta anche solo una persona è piccola). In ogni caso, a questo problema si pone rimedio “correggendo” la varianza della media campionaria x moltiplicando σ2/n per il fattore correttivo (N − n)/(N − 1). In particolare la standardizzazione della variabile media campionaria diventa z = x − µ σ√ n √ N−n N−1 . (7.9) Notiamo che il fattore corretivo (N − n)/(N − 1) tende 1 quando N → ∞, e che è “praticamente” uguale a 1 se N è grande rispetto a n. 62 CAPITOLO 7. CAMPIONAMENTI 7.4 Distribuzione della varianza campionaria Anche per la varianza campionaria è possibile dare la distribuzione nel caso che la popolazione soggiacente sia una popolazione distribuita secondo la normale. In questo caso si può dimostrare che la variabile χ2n−1 = (n − 1)s2 σ2 (7.10) è distribuita secondo al distribuzione χ2 (chi-quadro) con n − 1 gradi di libertà. Un altro caso in cui è nota la distribuzione è quello del rapporto tra le varian- za campionarie di due campioni aleatori indipendenti di numerosità n1 e n2 tratti da due popolazioni distribuite normalmente. In questo caso la variabile s21/s 2 2 segue una distribuzione detta Fν1,ν2 di Fischer con due parametri (detti ancora gradi di libertà) ν1 = n1 − 1 e ν2 = n2 − 1. 7.5 Intervalli di confidenza Una volta note le distribuzioni di probabilità degli stimatori puntuali dei parametri di una popolazione, è possibile precisare la “bontà” della stima che un campionamento ci dà di un parametro incognito. Iniziamo con un esempio: supponiamo di voler stimare il valor medio µ di una popolazione che sappiamo già essere distribuita normalmente con varianza σ2 = 4. A tale scopo, effettuiamo un campionamento mediante n = 36 osservazioni in- dipendenti. Sappiamo che lo stimatore per la media µ della popolazione è la media campionaria delle nostre osservazioni, x. Avendo assunto che la popolazine sia distribuita normalmente e con varianza nota, la x è una variabile aleatoria distribuita normalmente, con valor medio µ e varianza σ2/n = 1/9. Supponiamo infine che dal nostro campionamento noi abbiamo ottenuto un valore x = 13.8 per la media campionaria. Come si usa questa informazione? A partire dai dati in nostro possesso possiamo costruire una “stima” di tipo prob- abilistico del parametro µ. Questo significa che possiamo determinare un intervallo (µ1, µ2) in modo che la media µ abbia una probabilità p (scelta a nostro piacimento) di essere compresa tra i valori µ1 e µ2, ovvero P (µ ∈ (µ1, µ2)) = p. Qualche osservazione: Per prima cosa osserviamo che l’intervallo non è univocamente determinato, in generale avremo infiniti intervalli che godono di questa proprietà. Per rendere univoca la scelta si adotta il criterio di scegliere l’intervallo in modo che le probablità che µ appartenga a uno due intervalli (−∞, µ1) o (µ2, +∞) siano entrambe (1 − p)/2. La seconda e più importante osservazione è che la stima non garantisce che il val- ore del parametro sia compreso tra i due valori µ1 e µ2, ma solo che c’è una certa probabilità che questo sia vero. Inoltre più grande scegliamo p, più grande risul- ta essere l’intevallo (µ1, µ2); in altri termini, la stima deve bilanciare due richieste “negativamente correlate”: la precisione (ovvero un intervallo (µ1, µ2) “piccolo”) e l”’affidabilità” della stima (cioè un valore elevato di p). Torniamo ora al nostro esempio e vediamo come si costruisce l’intervallo per la media. Capitolo 8 Test di ipotesi Una tecnica importante della statistica deduttiva è quella che va sotto il nome di Test di Ipotesi. Essa consiste nel porre a confronto un’ipotesi su una caratteristica di una popolazione con un insieme di dati sperimentali. L’ipotesi che si sceglie di mettere a confronto con l’esperimento prende tradizional- mente il nome di ipotesi nulla e viene indicata con la “sigla” H0. Essa si presenta in genere nella forma di una assegnazione del valore di un parametro di una distribuzione parametrica di forma nota. Questa ipotesi è messa a confronto con una possibile al- ternativa (che prende in nome di ipotesi alternativa e si indica tradizionalmente con la sigla H1). Vediamo un esempio: supponiamo di aver sviluppato una nuova tecnica di insemi- nazione artificiale. Vogliamo vedere se essa è più efficiente della tecnica attualmente in uso. L’enunciazione di questo problema sembra già chiara, tuttavia se vogliamo “fare dei calcoli” dobbiamo dare una struttura statistico-matematica più precisa al problema. Intanto come misuriamo l’efficienza della tecnica usata? Dobbiamo associare un numero a l’idea di efficienza: è abbastanza ovvio, in questo caso, che questo numero sia il rapporto tra il numero delle inseminazioni che hanno avuto successo e il numero totale delle inseminazioni effettuate. La vecchia tecnica ha quindi un tasso di successo p0 = successi tentativi che ci è noto dai dati storici in nostro possesso. Ovviamente il numero p0 è un dato sperimentale, soggetto a modificarsi se si fanno nuove inseminazioni con la vecchia tecnica, tuttavia a questo punto dobbiamo corsiderarlo come un dato “ogget- tivo” e interpretarlo come la probabilità che una ulteriore inseminazione (effettuata con la vecchia tecnica) abbia successo. In altre parole, adottiamo come modello probabilis- tico per i nostri esperimenti quello delle prove di Bernoulli con probabilità di successo p0. Tanto per fissare le idee supponiamo p0 = 0.3, ovvero una percentuale di successi del 30%. L’affermazione che la nuova tecnica è più efficiente si traduce nel dire che essa ha un tasso di successi p > p0. A questo punto si procede scegliendo come ipotesi nulla H0 che la nuova tecnica ha la stessa efficienza della vecchia e la raffrontiamo con l’ipotesi alternativa H1 che la nuova tecnica è più efficente (ovvero ha un tasso di successi p ≥ 0.3). Ora dobbiamo analizzare un campione di n inseminazioni condotte con la nuova tecnica. Dobbiamo supporre che questo campione sia un campione aleatorio: questo ci garantisce che il rapporto P = sn tra la variabile aleatoria s che conta il numero di successi ottenuti il numero n di tentativi effettuati è uno stimatore per il parametro p (nota che nella pratica questo è un punto delicatissimo specie nella pratica clinica; infatti i 65 66 CAPITOLO 8. TEST DI IPOTESI soggetti disposti alla sperimentazione con la nuova tecnica sono spesso quelli con i quali la vecchia tecnica ha fallito!). Lo stimatore che abbiamo scelto ha una distribuzione nota se assumiano vera l’ipote- si nulla. Infatti in questo caso la variabile aleatoria s che conta il numero di succes- si sulle n prove, è distribuita secondo una distribuzione binomiale con probabilità di successo p0. Il test di ipotesi si basa su questo fatto: se l’ipotesi nulla è vera, allora sarà “poco probabile” che s sia “molto più grande” di un dato valore s0. Se gli esperimenti mi dan- no un risultato s > s0, allora propendo a credere che l’ipotesi di partenza sia sbagliata, e la respingo a favore dell’ipotesi alternativa che p > p0. Dobbiamo decidere come fissare la soglia s0 che discrimina la decisione. Per far ciò è necessario stabilire quanto vogliamo “rischiare” prendendo la decisione: in al- tri termini dobbiamo stabilire un livello che noi riteniamo adeguato per la probabilità P (s > s0). Fissando un valore relativamente alto, p.e. P (s > s0) = 0.2 ovvero il venti percento, ci esponiamo al rischio di respingere l’ipotesi nulla (e quindi accettare, nel nostro esempio, il fatto che la nuova tecnica sia più efficace) con una probabilità del venti percento di sbagliare. Una scelta “conservatrice” sarà, quindi, quella di scegliere P ( s > s0) molto piccolo, p.e. l’uno percento. In questo caso ci si espone a un rischio sensibile di non ritenere più efficente la nuova tecnica anche se lo è veramente. Per pot- er quantificare questo rischio, ovvero per assegnare una probabilità anche a questo tipo di errore, occorre però specificare quanto “più efficiente” sia la nuova tecnica (ovvero bisogna fissare un probabilità di successo p1, p.e. p1 = 0.4, da confrontare con p0). Riassumiano quindi la “struttura” del test di ipotesi: 1. Si formula un ipotesi riguardo a una certa caratteristica di una variabile aleatoria definita sulla nostra popolazione, l’ipotesi nulla indicata con H0. Si individua inoltre l’ipotesi alternativa, indicata con H1, ovvero l’insieme dei casi che si possono verificare se non si verifica l’ipotesi nulla; 2. Si sceglie uno stimatatore x per valutare, tramite campionamento, il valore della caratteristica sotto esame; 3. Si determina quale distribuzione abbia la variabile aleatoria scelta come stima- tore, nel caso che l’ipotesi nulla sia vera; 4. Si decide un livello di errore α e si costruisce l’intervallo di confidenza A0 per lo stimatore, corrispondente al livello di errore scelto (si sceglie A0 in modo che P (x ∈ A0) = 1 − α); 5. Si effettua il campionamento; 6. Si confronta il valore ottenuto dal campione con l’intervallo di confidenza calco- lato; infine si accetta o si respinge l’ipotesi a seconda che il valore campionario appartenga o meno all’intervallo di confidenza A0. Da un punto di vista “interpretativo”, si privilegia piuttosto il respingere l’ipotesi rispetto all’accettarla. In accordo a questo modo di pensare si pone come ipotesi alternativa proprio quello che “vorremmo si realizzasse” (p.e. nel caso dell’inseminazione, un maggior tasso di sucessi), mentre si pone come ipotesi nulla la situazione che si “vorrebbe negare”. 67 Inoltre si tende a fissare un livello di errore “piccolo” (una scelta tipica è in livello di errore α del 5%). Questo significa che, se l’ipotesi nulla è vera, allora è picco- la la probabilità di ottenere valori al di fuori dell’intervallo di confidenza a causa di fluttazioni aleatorie del campionamento. Di conseguenza, se il valore calcolato nell’esperimento cade fuori dall’intervallo, allora è “più ragionevole” pensare che sia falsa l’ipotesi di partenza. Da questo punto di vista possiamo fissare un qualsiasi valore del livello di errore α ∈ (0, 1) e dire che l’ipotesi viene respinta al livello di errore α se il risultato del test cada fuori dell’intervallo di confidenza del (1−α)×100%, e dire invece che i dati non ci permettono di respingere l’ipotesi nulla (sempre al livello di errore α) se il risultato cade nell’intervallo di confidenza. Vediamo un altro esempio di test di ipotesi: Analizziamo la seguente situazione: il sindaco di una grande città è stato eletto con il 70% dei voti e vuole sapere come è composto il suo elettorato dal punto di vista del sesso. Si presuppone che non ci sia differenza in percentuale tra gli uomini e le donne che hanno votato per il sindaco, ovvero che il 70% degli elettori maschi e il 70% delle elettrici, abbiano votato per lui: Ipotesi H0. L’ipotesi alternativa in questo caso è che ci sia differenziazione sessuale del voto, quindi che le percentuali degli uomini che hanno votato per il sindaco sia diversa da quella delle donne: Ipotesi H1. La variabile aleatoria che sottoponiamo al test è la differenza r = r1 − r2 delle fre- quenze relative, nei campioni sottoposti al sondaggio, degli elettori del sindaco rispetti- vamente tra gli uomini (r1) e tra le donne (r2). L’ipotesi nulla corrisponde ad affermare che r = 0. L’ipotesi alternativa è semplicemente r 6= 0. Supponiamo di effettuare un sondaggio su un campione di 150 uomini e 90 donne che hanno votato. A ognuno viene chiesto se ha votato per il sindaco oppure no. Vediamo ora qual’è la distribuzione della variabile aleatoria r. Dobbiamo fare un’ipotesi “strutturale” sul campione: assumiamo, come al solito, che sia gli uomini che le donne intervistate siano stati scelti aleatoriamente. Se l’ipotesi H0 è vera, la probabilità che un singolo elettore, scelto a caso, sia un elettore che abbia votato per il sindaco è quindi 0.7 sia per gli uomini che per le donne. Il sondaggio è quindi una serie di estrazioni, senza reintroduzione in quanto non si intervista due volte una stessa persona. Poiché la popolazione soggiacente è “grande”, possiamo trascurare questa sottigliezza e considerare il processo di campionamento come una serie di Bernoulli con probabilità di successo p = 0.7 (per “successo” as- sumiamo che la persona intervistata abbia votato per il sindaco). Abbiamo così la distribuzione di probabilità delle due variabili aleatorie X1 e X2 che conta il numero di successi tra gli intervistati uomini e donne rispettivamente: entrambe sono distribuite secondo la distribuzione binomiale, con valor medio µ1 = 0.7× 150 e µ2 = 0.7 × 90 , e con varianza σ21 = 150(0.7)(0.3) e σ 2 2 = 90(0.7)(0.3) rispettivamente. Possiamo ancora semplificare osservando che il campione è sufficientemente nu- meroso da poter sostituire la distribuzione binomiale con la normale (di stessa media e varianza). Quindi approssimiamo sia X1 che X2 con due variabili aleatorie, che indichiamo ancora con X1 e X2, distribuite normalmente. Infine, ponendo r1 = X1/150 e r2 = X2/90 abbiamo che la variabile aleatoria r = r1 − r2 può essere considerata come la differenza di due variabili aleatorie distribuite normalmente, entrambe con valore atteso 0.7 e con varianze, rispettivamente 0.7× 0.3/150 e 0.7× 0.3/90. Quindi anche 70 CAPITOLO 8. TEST DI IPOTESI chiaro che il valore che abbiamo calcolato è la probabilità condizionata di A0 all’ipote- si r ∼ N (µ1, σ21), con µ1 = 0.2 e che diventa la probabilità di errore di secondo tipo quando la si moltiplica per la probabilità che il valor medio sia 0.2 quando è ve- ra H1. Poiché H1 consisteva nell’affermazione che il valor medio è 0.2, quest’ultima probabilità è uguale a 1, e quindi il valore che abbiamo calcolato è la probabilità β. Tutto ciò non è più vero se l’ipotesi H1 contiene più di un caso possibile (è cioè un ipotesi composita). In questo caso per calcolare β bisognerebbe assegnare una probabilità a ogni caso possibile di H1 (ovvero per ogni possibile valore del parametro µ1), cosa che non sappiamo fare. Le cose vanno ancora peggio se, come nel nostro esempio, l’ipotesi nulla è del tipo µ = µ0 e l’ipotesi alternativa è µ 6= µ0. In questo caso infatti potremmo assegnare una probabilità arbitrariamente vicina a 1 a un valore di µ1 arbitrariamente vicino a µ0 e, di conseguenza, ottenere un valore di β vicino quanto si vuole alla probabilità dell’intervallo di accettazione sotto l’ipotesi nulla, e quindi un β vicino quanto si vuole a 1 − α. Questa difficoltà proviene dal fatto che l’assunzione che µ = µ0 per l’ipotesi nulla, per quanto comoda per il calcolo, è “probabilisticamente” insensata se il parametro µ è una variabile continua, in quanto ha probabilità nulla di realizzarsi. Possiamo rimediare a questo in due modi. O assumendo anche per l’ipotesi nulla la forma di un ipotesi composita (tipo µ ∈ (µmin, µmax); oppure, conservando l’ipotesi nulla nella forma µ = µ0, introdurre un livello di “errore significativo”, a > 0, e sostituendo l’ipotesi alternativa µ 6= µ0 con l’ipotesi |µ − µ0| > a, ovvero che il parametro sia “sufficientemente diverso” da µ0. In questo caso si può calcolare la probabilità di errore del secondo tipo mettendosi nel “caso peggiore” ossia eseguendo il calcolo come nel caso di un ipotesi alternativa semplice (come abbiamo fatto nell’esempio) usando come valore quello (tra tutti i pos- sibili µ di H1) che rende massima la probabilità dell’insieme di accetazione A0 (nel caso di una distribuzione simmetrica e unimodale come la normale, si tratta di µ0 +a). 8.0.2 Il test chi-quadro Nella sezione precedente abbiamo visto le tecniche per effetuare test di ipotesi che riguardano il valore di un parametro sconosciuto per una distribuzione di forma nota. Questi test si applicano quindi a casi in cui si abbia una variabile aleatoria di tipo numerico e si sia deciso a priori il tipo di distribuzione a cui questa variabile obbedisce. In molti casi vogliamo mettere a confronto con i dati proprio la forma di una distribuzione: questo avviane in particolare quando si ha a che fare con dati di tipo categoriale, quindi non ci sia nessuna variabile aleatoria soggicente. In questo caso il test che si usa va sotto il nome di test χ2. Vediamo come si arriva a questo test: supponiamo di avere una serie di dati sper- imentali che possiamo suddividere in certo numero di classi C1, C2, ..., Ck. Per ogni classe abbiamo la frequenza dei dati sperimentali in quella classe, ovvero i numeri N1, N2, ..., Nk di dati cadono nella classi C1, C2, ..., Ck rispettivamente, e indichiamo con n la somma delle frequenze, N = N1 + ... + Nk. L’ipotesi che mettiamo a confronto con i dati è una distribuzione teorica di proba- bilità sulle categorie C1, C2, ..., Ck, ovvero una distribuzione dove p1, p2, ..., pk sono le probabilità per un dato di cadere nelle categorie C1, C2, ..., Ck rispettivamente. Dobbiamo assumere che le categorie siano esaustive per i nostri dati (i.e. un dato deve cadere in almeno una categoria) e mutualmente escusive (i.e. un dato può cadere in al più una categoria); in altre parole devono rapprentare una partizione dello spazio 71 campionario da cui provengono i dati. Di conseguenza le probabilità pi, i = 1, ..., k devono soddisfare la condizione di normalizzazione n∑ i=1 pi = 1. L’ipotesi H0 consiste quindi nell’assumere che i nostri dati vengano da un campi- onamento (aleatorio) di una popolazione divisa nelle nostre C1, ...., Ck categorie con probabilità p1, p2, ..., pk. Se l’ipotesi nulla è vera, il valore più probabile (sui nos- tri N esperimenti) di risultati nella categoria Ci è dato da Npi e il numero (Ni − Npi) 2/(Npi) rappresenta una misura dello scarto della frequenza osservata nel nos- tro esperimento (relativamente alla categoria Ci) rispetto alla frequenza “attesa”. La statistica data dalla somma di questi scarti per i = 1, ..., k, ovvero χ2 = k∑ i=1 (Ni − Npi)2 Npi prende il nome di chi-quadro di Pearson. Si assume che essa sia distribuita con una distribuzione χ2k−1 (chi-quadro con k − 1 gradi di libertà) il che è solo “approssima- tivamente vero”, ma dà risultati ragionevoli nelle applicazioni per n sufficientemente grande e con valori pi non troppo piccoli. Nella pratica si assume che per ogni i sia npi > 5. L’applicazione del test è semplice. Vediamo di esemplificarla con il più classico degli esempi, l’analisi degli esperimenti di G. Mendel sulle piante di piselli. Si tratta dell’osservazione di due coppie di caratteri che si escludono a vicenda: liscio-grinzoso e giallo-verde, i primi elemti della coppia essendo i caratteri dominanti. Usando le Leggi delle segregazione e dell’indipendenza (e l’ipotesi quantitativa che per entrambe le coppie il rapporto dominante:recessivo sia 3:1) si ottiene una distribuzione teorica delle coppie di caratteri sulla seconda generazione data da C1=liscio giallo p1=9/16 C2=liscio verde p2=3/16 C3=grinzoso giallo p3=3/16 C4=grinzoso verde p4=1/16 Nelle osservazioni condotte il numero di grani osservati era n = 556. Si ha quindi una distribuzione teorica di np1 = 312.75, np2 = np3 = 104.25 e np4 = 34.75. Il numero delle categorie è ovviamente k = 4. Le frequenze osservate da Mendel furono n1 = 315, n2 = 101, n3 = 108, n4 = 32 per un totale di 556 osservazioni. Abbiamo quindi χ2 = (2.25)2 312.75 + (3.25)2 104.25 + (3.75)2 104.25 + (2.75)2 34.75 = 0.47 Cosa ne facciamo di questo valore? Poiché abbiamo k = 4, il numero calcolato deve essere messo in relazione con la distribuzione χ23. Nella distribuzione χ 2 3 al valore 0.47 corrisponde un valore P (χ2 > 0.47) = 1 − .07456892 = .92543108. Secondo lo “schema generale” del test di ipotesi si deve: i) scegliere un ipotesi nulla; ii) determinare l’intervallo di accettazione della nostra ipotesi nulla; iii) confrontare il valore ottenuto dall’esperimento con l’intervallo di accettazione. L’ipotesi nulla è che le frequenze attese nella varie categorie siano date dal prodotto del numero di esperimenti (n) per la probabilità pi che il risultato dell’esperimento appartenga alla categoria Ci (questo è quanto abbiamo già fatto ne nostro esempio). 72 CAPITOLO 8. TEST DI IPOTESI L’intervallo di accettazione viene scelto generalmente nella forma (0, χ2crit) dove χ2crit è il valore per cui si ha P (χ 2 k−1 > χ 2 crit) = α, dove α è il livelo di errore che si è scelto. La scelta si fa utilizzando le tabelle dei valori critici. Nell’esempio, se scegliamo il solito livello di errore del 5%, otteniamo come valore critico χ2crit = 7.8147. Il valore calcolato era χ2 = 0.47 che è più piccolo (e di molto) del valore critico, quindi “non possiamo respingere” l’ipotesi che Mendel avesse ragione. Una possibile variante consiste nell’osservare che, se i dati sono veramente aleatori, anche un valore di χ2 molto piccolo è assai improbabile. Questo osservazione diventa importante quando non siamo noi che abbiamo realizzato gli esperimenti, ma stiamo “controllando” i risultati riportati da altri. In questo caso si può sospettare che un valore molto basso di χ2 sia il risultato non di esperimeti “reali” ma frutto di una (ingenua) falsificazione dei dati. Se si ha questo sospetto allora si può inglobare nell’intervallo di rifiuto dell’ipotesi nulla anche un intervallo della forma (0, χ2critmin) oltre all’inte- vallo (0, χ2critMax). i valori critici χ 2 critmin e χ 2 critMax si possono scegliere in modo che si abbia P (χ2k−1 < χ 2 critmin ) = α/2 e P (χ2k−1 > χ 2 critM ax ) = α/2, ovvero P (χ2critmin < χ 2 k−1 < χ 2 crit) = 1 − α. Nel nostro esempio, sempre prendendo un livello di errore del 5% otteniamo l’intervallo (0.2158, 9.3484). 9.1. LA REGRESSIONE LINEARE 75 si avvicina a 1 (ρ = ±1 quando i dati sono allineati lungo una retta, con ρ = 1 se i dati “crescono insieme”, ρ = −1 se y descresce quando x cresce). Per valori di |ρ| “discosti” da 1, la regressione lineare perde di senso, anche se ciò non esclude che tra i dati possa ancora sussistere una legame funzionale non lineare. 76 CAPITOLO 9. REGRESSIONE LINEARE Capitolo 10 Generazione di numeri casuali Un problema che si può porre quando si vogliano fare degli esperimenti “simulati”, ovvero delle ricostruzioni al computer delle fenomenologie di esperimenti, è quello di generare dei numeri che costituiscano delle realizzazioni di una varibile aleatoria con una prescritta distribuzione. Per esempio, se voglio “simulare” degli errori sperimentali dovuti a un apparecchio di misura, è ragionevole immaginare che l’errore sia distribuito normalmente, cioè la probabilità che l’errore sia compreso, p.e., tra −a e a sia data da 1 σ √ 2π ∫ a −a exp ( − (x − µ) 2 2σ2 ) dx (10.1) In genere i computer (o meglio i programmi come fogli elettronici, linguaggi di programmazione, etc.) offrono un “generatore” di numeri pseudo-casuali. Questo significa che il risultato di una serie di chiamate di un’opportuna funzione (p.e. la funzione RND() nel Basic, o la funzione CASUALE() nella versione italiana di Ex- cel) genera una successione di numeri dall’andamento “apparentemente casuale” (una precisa definizione di questo concetto è materia spinosissima!). Possiamo quindi pensare a questa funzione come a una variabile aletoria X . Le implementazioni che generalmente si trovano nei software sono concepite in modo che questa variabile sia uniformemente distribuita nell’intervallo [0, 1]. Questo vuol dire che il risultato di una chiamata della funzione RND() è un numero compreso tra 0 e 1 e ha “ugual probabilità” di cadere in un punto qualsiasi dell’intervallo. Come possiamo sfruttare questa funzione per generare dei numeri casuali che siano distribuiti in altro modo, p.e. secondo una distribuzione normale? Per dare una risposta a questo problema, riformuliamolo matematicamente: Problema: Sia data una variabile aleatoria X con funzione di distribuzione cumu- lativa FX(x) e una funzione F (y) monotona crescente e tale che lim z→−∞ F (z) = 0 ≤ F (y) ≤ lim z→∞ F (z) = 1 (queste sono le caratteristiche di un funzione di distribuzione cumulativa) trovare una funzione g in modo che la variabile aleatoria Y = g(X) abbia la funzione F come funzione di distribuzione cumulativa. La risoluzione del problema è data dalla funzione g(x) = F −1(FX (x)). Infatti, posto Y = F−1(FX (X)) si ha che P (Y ≤ y) = P (F−1(FX (X) ≤ y) = P (X ≤ F−1X (F (y))) che a sua volta è data da FX (F−1X (F (y))) = F (y). 77 80 CAPITOLO 10. GENERAZIONE DI NUMERI CASUALI Valori critici t-Student Valori critici della t-Student a(x) = P ({tn < −x} ∪ {tn > x}), Q(x) = P (−x < tn < x), F (x) = P (tn < x) Esempio: x tale che P (−x < t8 < x) = 95% è 2.306 n sono i gradi libertà a 0.5 0.2 0.1 0.05 0.02 0.01 0.001 Q 0.5 0.8 0.9 0.95 0.98 0.99 0.999 F 0.75 0.9 0.95 0.975 0.99 0.995 0.9995 n 1 1 3.0777 6.3137 12.706 31.821 63.656 636.58 2 0.8165 1.8856 2.92 4.3027 6.9645 9.925 31.6 3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8408 12.924 4 0.7407 1.5332 2.1318 2.7765 3.7469 4.6041 8.6101 5 0.7267 1.4759 2.015 2.5706 3.3649 4.0321 6.8685 6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074 5.9587 7 0.7111 1.4149 1.8946 2.3646 2.9979 3.4995 5.4081 8 0.7064 1.3968 1.8595 2.306 2.8965 3.3554 5.0414 9 0.7027 1.383 1.8331 2.2622 2.8214 3.2498 4.7809 10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693 4.5868 11 0.6974 1.3634 1.7959 2.201 2.7181 3.1058 4.4369 12 0.6955 1.3562 1.7823 2.1788 2.681 3.0545 4.3178 13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123 4.2209 14 0.6924 1.345 1.7613 2.1448 2.6245 2.9768 4.1403 15 0.6912 1.3406 1.7531 2.1315 2.6025 2.9467 4.0728 16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208 4.0149 17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982 3.9651 18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784 3.9217 19 0.6876 1.3277 1.7291 2.093 2.5395 2.8609 3.8833 20 0.687 1.3253 1.7247 2.086 2.528 2.8453 3.8496 21 0.6864 1.3232 1.7207 2.0796 2.5176 2.8314 3.8193 22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188 3.7922 23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073 3.7676 24 0.6848 1.3178 1.7109 2.0639 2.4922 2.797 3.7454 25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874 3.7251 26 0.684 1.315 1.7056 2.0555 2.4786 2.7787 3.7067 27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707 3.6895 28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633 3.6739 29 0.683 1.3114 1.6991 2.0452 2.462 2.7564 3.6595 30 0.6828 1.3104 1.6973 2.0423 2.4573 2.75 3.646 81 Valori critici χ2 Valori critici della distribuzione χ2 F (x) = P (χ2n < x), n gradi di libertà F 0.005 0.01 0.025 0.05 0.1 0.9 0.95 0.975 0.99 0.995 n 1 4E-05 0.0002 0.001 0.0039 0.0158 2.7055 3.8415 5.0239 6.6349 7.8794 2 0.01 0.0201 0.0506 0.1026 0.2107 4.6052 5.9915 7.3778 9.2104 10.597 3 0.0717 0.1148 0.2158 0.3518 0.5844 6.2514 7.8147 9.3484 11.345 12.838 4 0.207 0.2971 0.4844 0.7107 1.0636 7.7794 9.4877 11.143 13.277 14.86 5 0.4118 0.5543 0.8312 1.1455 1.6103 9.2363 11.07 12.832 15.086 16.75 6 0.6757 0.8721 1.2373 1.6354 2.2041 10.645 12.592 14.449 16.812 18.548 7 0.9893 1.239 1.6899 2.1673 2.8331 12.017 14.067 16.013 18.475 20.278 8 1.3444 1.6465 2.1797 2.7326 3.4895 13.362 15.507 17.535 20.09 21.955 9 1.7349 2.0879 2.7004 3.3251 4.1682 14.684 16.919 19.023 21.666 23.589 10 2.1558 2.5582 3.247 3.9403 4.8652 15.987 18.307 20.483 23.209 25.188 11 2.6032 3.0535 3.8157 4.5748 5.5778 17.275 19.675 21.92 24.725 26.757 12 3.0738 3.5706 4.4038 5.226 6.3038 18.549 21.026 23.337 26.217 28.3 13 3.565 4.1069 5.0087 5.8919 7.0415 19.812 22.362 24.736 27.688 29.819 14 4.0747 4.6604 5.6287 6.5706 7.7895 21.064 23.685 26.119 29.141 31.319 15 4.6009 5.2294 6.2621 7.2609 8.5468 22.307 24.996 27.488 30.578 32.801 16 5.1422 5.8122 6.9077 7.9616 9.3122 23.542 26.296 28.845 32 34.267 17 5.6973 6.4077 7.5642 8.6718 10.085 24.769 27.587 30.191 33.409 35.718 18 6.2648 7.0149 8.2307 9.3904 10.865 25.989 28.869 31.526 34.805 37.156 19 6.8439 7.6327 8.9065 10.117 11.651 27.204 30.144 32.852 36.191 38.582 20 7.4338 8.2604 9.5908 10.851 12.443 28.412 31.41 34.17 37.566 39.997 21 8.0336 8.8972 10.283 11.591 13.24 29.615 32.671 35.479 38.932 41.401 22 8.6427 9.5425 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796 23 9.2604 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181 24 9.8862 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.98 45.558 25 10.52 11.524 13.12 14.611 16.473 34.382 37.652 40.646 44.314 46.928 26 11.16 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.29 27 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645 28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.994 29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335 30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved