Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Distribuzioni di probabilità e statistica: esponenziale, normale, gamma e Chi-Quadro, Dispense di Probabilità e Statistica

Una descrizione dettagliata di alcune delle principali distribuzioni di probabilità, tra cui la distribuzione esponenziale, normale, gamma e chi-quadro. Vengono illustrate le loro proprietà e caratteristiche, come la densità di probabilità, la funzione di ripartizione e il coefficiente di correlazione. Vengono inoltre presentati alcuni teoremi e formule relative a queste distribuzioni, come il teorema della funzione caratteristica e la distribuzione t di student.

Tipologia: Dispense

2018/2019

Caricato il 19/09/2019

symonsg
symonsg 🇮🇹

5

(2)

9 documenti

1 / 108

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Distribuzioni di probabilità e statistica: esponenziale, normale, gamma e Chi-Quadro e più Dispense in PDF di Probabilità e Statistica solo su Docsity! Richiami sulla Cardinalità. Due insiemi A e B si dicono equipotenti (A ∼ B) se esiste una corrispondenza biunivoca tra A e B f : A → B (biunivoca). Due insiemi finiti sono equipotenti se e solo se hanno lo stesso numero di elementi. Esempio. Gli insiemi A = {1, 2, 3, 4, 5, 6} e B = {a, b, c, d, e, g} sono equipotenti. Un insieme A si dice numerabile (o ha cardinalità numerabile ) se è equipotente all’insieme N dei numeri naturali. Dato un insieme A infinito, è sempre possibile trovare un sottoinsieme proprio B ⊂ A tale che A ∼ B. Ad esempio, indicando con P l’insieme dei numeri pari, si ha P ∼ N, infatti la funzione f : N → P definita nel seguente modo f(n) = 2n, ∀n ∈ N, è biunivoca. Sia (a, b) un qualsiasi intervallo aperto nell’insieme dei 1 numeri reali R, con a < b. Si ha R ∼ (a, b). Ad esempio, per verificare che l’intervallo aperto (−π2 ,+ π 2) è equipotente ad R, basta osservare che la funzione f : (−π2 ,+ π 2) → R, definita da f(x) = tan(x) , è biunivoca. Un insieme A si dice che ha la potenza del continuo se A ∼ R. L’insieme I dei numeri irrazionali ha la potenza del continuo. Si può dimostrare che R non è numerabile. L’insieme Z dei numeri relativi e l’insieme Q dei numeri razionali sono numerabili. Per gli insiemi numerabili vale il seguente Teorema 1 L’unione di una successione di insiemi finiti o numerabili (eventualmente vuoti), a due a due disgiunti, è un insieme al più numerabile. 2 mente probabilità 1 anche ad eventi non certi. In generale E = ∅ ⇒ P (E) = 0 , P (E) = 0 ; E = ∅ . E = Ω ⇒ P (E) = 1 , P (E) = 1 ; E = Ω . Esempio. Supponiamo di voler assegnare la probabilità che un dispositivo D si guasti in un preciso istante di tempo t. Sia T il numero aleatorio che indica il tempo di durata del dispositivo e sia Et = (T = t), con t ∈ R+0 , l’evento ”D si guasta all’istante t”. L’insieme A = {Et : t ∈ R+0 } è costituito da eventi a 2 a 2 incompatibili ed ha la potenza del continuo. Come sappiamo, possiamo attribuire probabilità positiva al più ad un sottoinsieme numerabile di A, quindi ”per la quasi totalità” degli eventi di A, si ha P (Et) = 0, P (Ect ) = 1, ∀t ∈ R+0 . 5 Sia A = {E1, E2, . . . , En, . . .} una partizione numerabile di Ω, cioè EiEj = ∅ , ∀i 6= j , ∞∨ n=1 En = Ω . Se anche nel caso numerabile valesse la proprietà additiva, si avrebbe ∞∑ n=1 P (En) = P ( ∞∨ n=1 En) = P (Ω) = 1 . (2) In effetti, dalla condizione di coerenza segue (soltanto) ∞∑ n=1 P (En) ≤ 1. (3) 6 Infatti P ( ∨∞ n=1 En) = P [( ∨n k=1 Ek) ∨ ( An+1︷ ︸︸ ︷ ∞∨ k=n+1 Ek)] = = P [( ∨n k=1 Ek) ∨An+1) = P ( ∨n k=1 Ek) + P (An+1) ≥ ≥ ∑n k=1 P (Ek) . In conclusione 1 = P (Ω) = P ( ∞∨ n=1 En) ≥ n∑ k=1 P (Ek) , ∀n. Esistono quindi situazioni in cui la (2) è valida e situazioni in cui non lo è. Quando la (2) è valida si parla di σ−additività (o additività completa). Esempio (Scelta a caso di un numero naturale.) Ei=”Esce il numero i” X = numero scelto, X ∈ {1, 2, . . . , n, . . .}. 7 n.a. continui Numeri Aleatori Continui Sia A una partizione dell’evento certo Ω, con card(A) > card(N). Si può dimostrare che in questo caso non è possibile attribuire a tutti gli eventi di A probabilità positiva, ma al più ad un sottoinsieme B ⊂ A, con card(B) = card(N). In queste situazioni si possono presentare numeri aleatori che assumono valori in un insieme con car- dinalità del continuo. Un n. a. X di questo tipo può essere visto come una funzione X : Ω → R che ad ogni caso possibile ω ∈ Ω assegna un valore X(ω) = x ∈ R. Ad esempio: X può essere l’istante di tempo in cui si guasta un determinato dispositivo. In questo genere di applicazioni tipicamente i va- lori possibili di X sono (per ragioni di carattere matematico) tutti di probabilità nulla, cioè P (X = x) = 0 , ∀x . 10 n.a. continui Distribuzioni (assolutamente) continue. Un numero aleatorio X si dice continuo se (i) P (X = x) = 0,∀x ∈ R (non esistono probabilità concentrate, tutti gli eventi hanno probabilità nulla); (ii) esiste una funzione reale f ≥ 0 (non negativa) inte- grabile secondo Riemann, tale che per ogni sottoin- sieme A ⊆ R, misurabile secondo Peano-Jordan, si ha P (A) = P (X ∈ A) = ∫ A f(x)dx . La funzione f si chiama densità di probabilità del n.a. X. Osservazioni. Se A è un generico intervallo [a, b] (limitato o non), la (ii) diventa P (X ∈ [a, b]) = ∫ b a f(x)dx , 11 n.a. continui cioè P (X ∈ [a, b]) coincide con l’area sottesa al dia- gramma di f(x) nell’intervallo (a, b). In particolare se A = (−∞,+∞) otteniamo P (Ω) = P (X ∈ (−∞,+∞)) = ∫ +∞ −∞ f(x)dx = 1. (4) Cioè l’area totale sotto la curva è 1. Da un punto di vista meccanico la densità di pro- babilità si può interpretare come la densità di massa con cui una massa unitaria è diffusa sull’asse reale. Vediamo il legame che sussiste tra la densità di pro- babilità e la funzione di ripartizione. Data una densità di probabilità f(x), ricordando che F (x) = P (X ≤ x) = P (X ∈]−∞, x]), si ha F (x) = ∫ x −∞ f(t)dt cioè la f.d.r. calcolata in x rappresenta l’area sotto la curva da −∞ a x. 12 Distribuzione Uniforme Distribuzione Uniforme Un n.a. continuo X ha una distribuzione uniforme in un intervallo [a, b], in simboli X ∼ U([a, b]) , se ha la seguente densità di probabilità f(x) = { k > 0 se x ∈ [a, b], 0 altrove. La costante k si determina osservando che∫ +∞ −∞ f(x)dx = ∫ b a kdx = k(b− a) = 1 , da cui segue k = 1 b− a · Quindi, se X ∼ U([a, b]), si ha f(x) = { 1 b−a se x ∈ [a, b], 0 altrove. 15 Distribuzione Uniforme Dato un intervallo I = (c, d) contenuto in [a, b] si prova che la P (X ∈ I) dipende solo dall’ampiezza dell’intervallo. Infatti se l = d− c è l’ampiezza di I, si ottiene P (X ∈ I) = ∫ d c 1 b−adx = d−c b−a = l b−a · Pertanto dati due intervalli I, J contenuti in [a, b], rispettivamente di ampiezza l e λ, si ha P (X ∈ I) = P (X ∈ J) ⇔ l = λ. La funzione di ripartizione di X ∼ U([a, b]) è definita da F (x) = ∫ x −∞ f(t)dt =  0, se x < a, x−a b−a , se x ∈ [a, b], 1, se x > b. 16 Distribuzione Uniforme Esempio 1 Se X ∼ U([0, 1]), la densità di probabilità è data da f(x) = { 1, se x ∈ [0, 1], 0, altrove, e la f.d.r. diventa F (x) =  0, se x < 0, x, se x ∈ [0, 1], 1, se x > 1. Se consideriamo l’intervallo I = [12, 2 3], è facile verificare che P (I) = P (X ∈ I) = 23 − 1 2 = 1 6. Se inoltre consideriamo l’intervallo J = [12, 3 2] si ha P (J) = 1− 12 = 1 2 . 17 Previsione e Varianza per n.a. continui P(Y ), che risulta P(Y ) = P[h(X)] = ∫ +∞ −∞ h(x)f(x)dx. Ad esempio, se h(X) = X2, si ha P[h(X)] = P(X2). Se h(X) = (X −m)2, si ha P[h(X)] = P[(X −m)2] = σ2X . Linearità della previsione. Sia X un n.a. continuo. Consideriamo Y = cX + d. Allora P(Y ) = P(cX + d) = ∫ +∞ −∞ (cx + d)f(x)dx = = c ∫ +∞ −∞ xf(x)dx + d ∫ +∞ −∞ f(x)dx︸ ︷︷ ︸ =1 = cP(X) + d . Osservazione. Le disuguaglianze di Markov e Cebicev valgono anche per n.a. continui. Inoltre • min(X) ≤ P(X) ≤ max(X). 20 Distribuzione Esponenziale. Distribuzione Esponenziale. Un n.a. continuo X con densità di probabilità f(x) = { λe−λx se x ≥ 0, 0 se x < 0, λ ∈ R+ (5) si dice che ha distribuzione esponenziale di parametro λ e si indica con X ∼ Exp(λ). La distribuzione esponenziale viene utilizzata ad esempio quando X rappresenta • il tempo di durata di un dispositivo (non soggetto ad usura); • il tempo di attesa del verificarsi di un certo evento (arrivo di un cliente in una coda, arrivo di una telefonata). 21 Distribuzione Esponenziale. Figura 1: Esponenziale L’area sotto la curva y = f(x) al crescere del parametro λ si concentra sempre più verso l’origine. Ricordiamo che l’area totale sotto la curva è uguale a 1. Infatti∫ +∞ −∞ f(x) = ∫ +∞ 0 λe−λxdx = [−e−λx]+∞0 = 1 . 22 Distribuzione Esponenziale. mentre P(X2) = ∫ +∞ 0 x2λe−λxdx = · · · = 2 λ2 . Quindi la varianza e lo scarto sono rispettivamente V ar(X) = P(X2)− [P(X)]2 = 1 λ2 , σX = 1λ. Lo scarto quadratico medio coincide con la previsione. Nota: il calcolo diretto della previsione e della varianza di X si può evitare utilizzando la funzione Gamma (vedi distribuzione beta). Proprietà di Assenza di memoria. Un numero aleatorio continuo e non negativo X ha distribuzione esponenziale se e solo se vale la seguente proprietà (detta di assenza di memoria) P (X > x0 + x|X > x0) = P (X > x), ∀x0, x ∈ R+0 . (6) Se X rappresenta il tempo (aleatorio) fino al guasto di un dispositivo, la proprietà di assenza di memoria 25 Distribuzione Esponenziale. ha il seguente significato: supposto che il dispositivo non si guasti sino al tempo x0, la probabilità che non si guasti per un ulteriore tempo x è la stessa che il dispositivo non si guasti nell’intervallo [0, x]. Tale proprietà è valida per le apparecchiature che, du- rante il loro funzionamento, non sono soggette ad usura (o, più realisticamente, quando l’usura è trascurabile). dim.(⇒) Hp) X ∼ Exp(λ); Th) vale la (6). P (X > x0 + x|X > x0) = P (X>x0+x,X>x0)P (X>x0) = = P (X>x0+x)P (X>x0) = S(x0+x) S(x0) = e −λ(x0+x) e−λx0 = e−λx = = S(x) = P (X > x) . (⇐)Hp) vale la (6); Th) X ∼ Exp(λ). Da quanto visto nella precedente dimostrazione la pro- prietà di assenza di memoria si può scrivere anche come: S(x0 + x) S(x0) = S(x) , 26 Distribuzione Esponenziale. cioè S(x + x0) = S(x)S(x0) . Essendo la funzione di sopravvivenza definita come 1−F (x), con F (x) crescente, allora S(x) è positiva e decrescente e quindi S(x) > 0, S′(x) < 0, ∀x ∈ R. Osserviamo che S′(x+x0) S(x+x0) = S(x0)S ′(x) S(x0)S(x) = S ′(x) S(x) = −λ, λ > 0, quindi D[ln(S(x))] = S ′(x) S(x) = −λ ⇒ ln(S(x)) = −λx + k , allora S(x) = e−λxek . Essendo X un n.a. non negativo, si ha S(0) = 1, per cui ek = 1. Allora S(x) = e−λx , ovvero X ∼ Exp(λ). 27 Distribuzione Beta Si può dimostrare che ∫ 1 0 xr−1(1− x)s−1dx = Γ(r)Γ(s)Γ(r+s) , pertanto∫ +∞ −∞ Br,s(x)dx = ∫ 1 0 Γ(r+s) Γ(r)Γ(s)x r−1(1− x)s−1dx = = Γ(r)Γ(s)Γ(r+s) Γ(r+s) Γ(r)Γ(s) = 1. La previsione di X è data da P(X) = ∫ +∞ −∞ xBr,s(x)dx = ∫ 1 0 Γ(r+s) Γ(r)Γ(s)x r(1− x)s−1dx = = Γ(r+s)Γ(r)Γ(s) Γ(r+1)Γ(s) Γ(r+s+1) = Γ(r+s) Γ(r)Γ(s) (r)Γ(r)Γ(s) (r+s)Γ(r+s) = r r+s . In modo analogo si prova che P(X2) = r(r+1)(r+s)(r+s+1) , e quindi V ar(X) = P(X2)− [P(X)]2 = rs (r+s)2(r+s+1) . 30 Distribuzione Normale Distribuzione normale standard Un n.a. continuo X, con densità di probabilità f(x) = 1√ 2π e− x2 2 , x ∈ R , (9) si dice che ha distribuzione normale standard (di parametri 0,1) e si indica con X ∼ N0,1 = N . La densità f(x) si indica con N(x), mentre la funzione di ripartizione F (x) si indica con Φ(x). Di tale funzione non è possibile dare un’espressione, ma si possono cer- care soltanto alcuni valori riportati su apposite tavole. Alcune proprietà: 1. il diagramma della densità ha un andamento a for- ma di campana (con il massimo nell’origine e due flessi in x = −1, x = 1) ed è simmetrico rispetto all’asse y, cioè N(x) è una funzione pari (N(−x) = N(x)); 2. dalla simmetria di N(x), per ogni x ∈ R si ha 31 Distribuzione Normale Φ(−x) = 1− Φ(x), e quindi P (|X| ≤ x) = P (−x ≤ X ≤ x) = ∫ x −x N(t)dt = = Φ(x)− Φ(−x) = 2Φ(x)− 1 ; P (|X| > x) = 1− P (|X| ≤ x) = 2[1− Φ(x)] ; 3. in particolare Φ(1) ' 0.8413 , Φ(2) ' 0.9772 , Φ(3) ' 0.9987 , e quindi P (|X| ≤ 1) = 2Φ(1)− 1 ' 0.6826 ; P (|X| ≤ 2) = 2Φ(2)− 1 ' 0.9544 ; P (|X| ≤ 3) = 2Φ(3)− 1 ' 0.9974 . Si può verificare che P(X) = ∫ +∞ −∞ xN(x)dx = · · · = 0 , 32 Distribuzione Normale cioè la distribuzione diventa normale standard. Allora, tenendo conto che, se Y = X−mσ , si ha P(Y ) = 0, σY = 1, e che X = σY + m, si ottiene P(X) = P(σY +m) = m, σ2X = V ar(σY +m) = σ2 . Pertanto i parametri m,σ sono rispettivamente la pre- visione e lo scarto quadratico medio. Lo stesso risultato si può ottenere con calcoli diretti, verificando che P(X) = ∫ +∞ −∞ xNm,σ(x)dx = · · · = m , V ar(X) = ∫ +∞ −∞ (x−m)2Nm,σ(x)dx = · · · = σ2 . Se X ∼ Nm,σ, osservando che (X ≤ x) ⇐⇒ (X −m σ ≤ x−m σ ) , e che X −m σ ∼ N , 35 Distribuzione Normale si ottiene Φm,σ(x) = P (X ≤ x) = P (X−mσ ≤ x−m σ ) = Φ( x−m σ ) . Pertanto, utilizzando le tavole della distribuzione nor- male standard è possibile calcolare i valori di una distribuzione normale con parametri m,σ arbitrari. Inoltre, per ogni k > 0, si ha P (|X −m| ≤ kσ) = · · · = 2Φ(k)− 1 . Distribuzione Gamma Un numero aleatorio X, continuo e non negati- vo, si dice che ha una distribuzione Gamma con parametri (positivi) c, λ, che indichiamo con il simbolo X ∼ Gc,λ, se la densità di X è f(x) = Gc,λ(x) =  λc Γ(c) x c−1e−λx , x ≥ 0 , 0 , x < 0 . 36 Distribuzione Normale Si ha: IP (X) = ∫ +∞ 0 x λc Γ(c) xc−1e−λxdx = · · · = c λ . Inoltre IP (X2) = ∫ +∞ 0 x2 λc Γ(c) xc−1e−λxdx = · · · = c λ2 + c2 λ2 ; pertanto V ar(X) = IP (X2)− [IP (X)]2 = c λ2 . Osservazioni: (i)se c = 1 si ha G1,λ(x) =  λe −λx , x ≥ 0 , 0 , x < 0 ; ovvero, la distribuzione Gamma di parametri c = 1, λ è una distribuzione esponenziale di parametro λ; 37 Affidabilità e, più in generale, P (x + y < X ≤ x + y + ∆x |X > y) = = P (x < X ≤ x + ∆x) = F (x + ∆x)− F (x) = = (1− e−λ(x+∆x))− (1− e−λx) = = e−λx(1− e−λ∆x) , ∀x > 0 , y > 0 . (16) Se la distribuzione di X non è esponenziale le formule precedenti non valgono e, per fissati valori x, y, potrà risultare P (X > x + y |X > y) < P (X > x) , (17) oppure P (X > x + y |X > y) > P (X > x) , (18) o in casi particolari P (X > x + y |X > y) = P (X > x) . (19) 40 Affidabilità Se X rappresenta il tempo aleatorio fino al guasto di una data apparecchiatura, il fatto che vale la (14) cor- risponde all’assenza di usura, mentre la (17) e la (18) corrispondono rispettivamente al caso di usura positiva (invecchiamento dell’apparecchiatura) e di usura neg- ativa (ringiovanimento dell’apparecchiatura). Indicando con f(x) la densità di probabilità e con S(x) la funzione di sopravvivenza, se consideriamo l’evento condizionato (x < X ≤ x + ∆x |X > x), con ∆x abbastanza piccolo , si ha (sotto opportune condizioni) P (x < X ≤ x + ∆x |X > x) = P (x<X≤x+∆x)P (X>x) = = ∫ x+∆x x f(x)dx S(x) ' f(x)∆x S(x) = h(x)∆x . (20) La funzione non negativa h(x) = f(x)S(x) si chiama fun- zione di rischio (o intensità, o tasso di avaria) di X e, come abbiamo visto, permette di approssimare P (x < X ≤ x + ∆x |X > x) con h(x)∆x. Assegnare f(x) è equivalente ad assegnare h(x). 41 Affidabilità Infatti, data la densità f(x), si ha S(x) = ∫ +∞ x f(t)dt , h(x) = f(x)∫ +∞ x f(t)dt · Viceversa, data la funzione di rischio h(x), si ha h(x) = f(x) S(x) = −S ′(x) S(x) , e quindi S′(x) S(x) = DlnS(x) = −h(x) . Allora lnS(x) = − ∫ x 0 h(t)dt + c , dove c è una costante arbitraria. Ricordando che per un n.a. non negativo è S(0) = 1, si ha lnS(0) = c = 0 e quindi S(x) = e− ∫ x 0 h(t)dt , (21) da cui segue f(x) = h(x)S(x) = h(x)e− ∫ x 0 h(t)dt . (22) 42 Affidabilità Alcuni modelli particolari di funzioni di rischio sono: (a) h(x) = α + βx; (b) h(x) = cxβ . Nel caso (a) (modello lineare), essendo h(x) ≥ 0 , ∫ +∞ −∞ h(x)dx = +∞ , segue che le costanti α e β devono essere non negative ed almeno una positiva, cioè devono soddisfare le condizioni α ≥ 0 , β ≥ 0 , α + β > 0 . Pertanto, nel caso β > 0, h(x) è crescente, mentre nel caso β = 0, h(x) è costante e la corrispondente distribuzione è esponenziale di parametro α. Con il modello lineare, quindi, non si può rappresentare la situazione di usura negativa. Nel caso (b), dalle proprietà di h(x) segue intanto che dev’essere c > 0. Inoltre, non può essere β ≤ −1, 45 Affidabilità altrimenti, per ogni fissato x > 0, si avrebbe∫ x 0 ctβdt = +∞ , e quindi risulterebbe S(x) = e− ∫ x 0 ct βdt = 0 , ∀x > 0 . Pertanto, dev’essere β > −1 e possiamo distinguere tre casi: (i) − 1 < β < 0; (ii) β > 0; (iii) β = 0. Nel primo caso h(x) è decrescente e quindi siamo in presenza di usura negativa; nel secondo caso h(x) è crescente (usura positiva); nel terzo caso h(x) è costante (assenza di usura) e la distribuzione è espo- nenziale di parametro c. La distribuzione di probabilità corrispondente alla fun- zione di rischio h(x) = cxβ è detta distribuzione di Weibull ed ha la seguente densità f(x) = cxβe− ∫ x 0 ct βdt = cxβe− c β+1x β+1 . 46 Affidabilità Esercizio. Un sistema S è costituito da due dispositivi A e B in parallelo funzionanti simultaneamente (e quindi S funziona finchè almeno uno dei due dispositivi funziona). Siano X e Y i tempi aleatori di durata di A e B, rispettivamente, e supponiamo che le loro densità siano: f1(x) = e−x , x ≥ 0 , f2(y) = 2e−2y , y ≥ 0 , con f1(x) = f2(y) = 0 per x < 0, y < 0. Si supponga inoltre che valga la condizione P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y) , ∀ (x, y) . (i) calcolare la funzione di rischio h(z) del tempo aleatorio Z fino al guasto di S. (ii) è possibile calcolare, con i dati del problema, la probabilità che A si guasti prima di B? Soluzione. (i) ricordando che, per ogni λ > 0, x ≥ 0, si ha∫ x 0 λe−λtdt = 1− e−λx , 47 Affidabilità (ii) per quanto riguarda la seconda domanda, la risposta è si e no. Si ha p = P (X < Y ) = P [(X, Y ) ∈ {(x, y) : x < y}] = · · · = 1 3 . I dettagli saranno esaminati ampliando il discorso al caso di distribuzioni multiple (per vettori aleatori). 50 vettori aleatori Vettori Aleatori In molti esperimenti aleatori, indicando con Ω l’in- sieme dei possibili risultati, al generico risultato del- l’esperimento, ω ∈ Ω, sono associati n numeri reali x1, . . . , xn, con n ≥ 2, che costituiscono i valori di n numeri aleatori X1, . . . , Xn. Tali n. a. sono le componenti di un vettore aleatorio X = (X1, . . . , Xn), che può essere visto come una funzione definita su Ω a valori in Rn, cioè X : Ω −→ Rn ω −→ x = X(ω) . Due casi importanti da considerare sono i v. a. discreti e v.a. continui. Vettori aleatori discreti. Un vettore aleatorio X = (X1, X2, . . . , Xn) si dice discreto se esiste un insieme finito o numerabile C ⊂ Rn tale che • P (X = x) > 0 , ∀x ∈ C, • P (X = x) = 0 , ∀x /∈ C, 51 vettori aleatori dove, ponendo x = (x1, . . . , xn), l’evento (X = x) rappresenta l’evento (X1 = x1, X2 = x2, . . . , Xn = xn) . Vettori aleatori continui. Un vettore aleatorio X = (X1, X2, . . . , Xn) si dice continuo se • P (X = x) = 0 , ∀x ∈ Rn, • ∃f : Rn → R tale che (i) f(x) ≥ 0, ∀x ∈ Rn; (ii) ∀A ⊆ Rn, misurabile secondo Peano - Jordan, si ha P (X ∈ A) = P (A) = ∫ A f(x)dx = = ∫ · · · ∫ A f(x1, . . . , xn)dx1 · · · dxn . La funzione f(x) si chiama densità di probabilità con- giunta del v. a. X. 52 vettori aleatori Quindi, ∀xh ∈ Cx, si ha P (X = xh) = pxh = ∑ yk∈Cy P (X = xh, Y = yk) = = ∑ yk pxh,yk ; (distribuzione marginale di X). In modo analogo si ottiene P (Y = yk) = pyk = ∑ xh∈Cx P (X = xh, Y = yk) = = ∑ xh pxh,yk ; (distribuzione marginale di Y ). Distribuzioni marginali condizionate. pxh|yk = P (X = xh|Y = yk) = = P (X=xh,Y =yk)P (Y =yk) = congiunta︷ ︸︸ ︷ pxh,yk pyk︸︷︷︸ marginale . La distribuzione {pxh|yk , xh ∈ CX} si chiama di- stribuzione marginale di X condizionata all’evento (Y = yk). 55 vettori aleatori In maniera analoga, la distribuzione {pyk|xh , yk ∈ CY } si chiama distribuzione marginale di Y condizionata all’evento (X = xh), ovvero pyk|xh = P (Y = yk|X = xh) = = P (X=xh,Y =yk)P (X=xh) = congiunta︷ ︸︸ ︷ pxh,yk pxh︸︷︷︸ marginale . Dalle ultime relazioni, per il teorema delle probabilità composte, si ottiene: P (X = xh, Y = yk) = P (Y = yk|X = xh)P (X = xh) = = P (X = xh|Y = yk)P (Y = yk) , ovvero pxh,yk = pxh|yk · pyk = pyk|xhpxh. Osserviamo che, in generale, risulta pxh,yk 6= pxhpyk . 56 vettori aleatori Indipendenza stocastica. I numeri aleatori X, Y si dicono stocasticamente indipendenti (in breve, indipendenti) se, ∀ (xh, yk) , vale P (X = xh, Y = yk) = P (X = xh)P (Y = yk) , ovvero la distribuzione congiunta è data dal prodotto delle marginali pxh,yk = pxhpyk, ∀ (xh, yk). Quindi, se X, Y sono indipendenti, le distribuzioni condizionate coincidono con le marginali pxh|yk = pxh, pyk|xh = pyk . Esempio. Si lancia due volte un dado, definendo X = risultato del primo lancio; Y = risultato del secondo lancio. 57 vettori aleatori Z = X + Y . Osserviamo che, fissato n ∈ N, si ha P (Z = n) = P [ ∨n i=0(X = i, Y = n− i)] = = ∑n i=0 P (X = i, Y = n− i) = = ∑n i=0 e −λ1λ i 1 i! · e −λ2 λ n−i 2 (n−i)! = · · · = = e−(λ1+λ2)(λ1+λ2) n n! · Pertanto: Z ∼ P(λ1 + λ2). Inoltre, si può verificare che X|(Z = n) ∼ B(n, λ1λ1+λ2) , Y |(Z = n) ∼ B(n, λ2λ1+λ2) . Teorema. Se X ed Y sono indipendenti, si ha: Cov(X, Y ) = 0. Dim.: Supponiamo che, ∀ (xh, yk) ∈ C, sia P (X = xh, Y = yk) = P (X = xh)P (Y = yk) . 60 vettori aleatori Allora, segue P(XY ) = ∑ xh ∑ yk xhykpxh,yk = ∑ xh ∑ yk xhykpxhpyk = = ( ∑ xh xhpxh)( ∑ yk ykpyk) = P(X)P(Y ) , e quindi: Cov(X, Y ) = 0. Osserviamo che il viceversa non vale, come mostra il seguente controesempio. Esempio. Si consideri il seguente vettore aleatorio (X, Y ), con la distribuzione congiunta riportata nella tabella: Y \ X -1 0 1 -1 a / a 0 / b / 1 a / a Si ha C = {(−1,−1), (−1, 1), (0, 0), (1,−1), (1, 1)} , 61 vettori aleatori con P (X = 0, Y = 0) = b e P (X = x, Y = y) = a negli altri casi. Ovviamente, deve essere: 4a + b = 1 , a ≥ 0 , b ≥ 0 . Come si può verificare, si ha X ∈ {−1, 0, 1} , Y ∈ {−1, 0, 1} , XY ∈ {−1, 0, 1} , con P (X = −1) = P (Y = −1) = P (XY = −1) = 2a , P (X = 0) = P (Y = 0) = P (XY = 0) = b , P (X = 1) = P (Y = 1) = P (XY = 1) = 2a . Pertanto X, Y ed XY hanno la stessa distribuzione di probabilità. Inoltre P(X) = P(Y ) = P(XY ) = 0 , 62 vettori aleatori i n. a. si dicono stocasticamente indipendenti e in questo caso si ha f2(y|x) = f2(y) , ∀ y ; f1(x|y) = f1(x) , ∀x , cioè le densità condizionate coincidono con le densità marginali. Osserviamo che la relazione di indipendenza tra X e Y può essere definita anche richiedendo che valga F (x, y) = F1(x)F2(y) , ∀ (x, y) , cioè P (X ≤ x, Y ≤ y) = P (X ≤ x)P (Y ≤ y) , ∀ (x, y) . Come già visto nel caso discreto, si può dimostrare che, se X e Y sono indipendenti, segue che sono incorre- lati, mentre il viceversa non vale. Infatti, assumendo 65 vettori aleatori f(x, y) = f1(x)f2(y) , ∀ (x, y), si ottiene P(XY ) = ∫ +∞ −∞ ∫ +∞ −∞ xyf(x, y)dxdy = · · · = ( ∫ +∞ −∞ xf1(x)dx)( ∫ +∞ −∞ yf2(y)dy) = P(X)P(Y ) , e quindi Cov(X, Y ) = 0. Per mostrare attraverso un controesempio che il viceversa non vale, introduciamo la distribuzione uniforme su un insieme A ⊂ R2, limi- tato e misurabile. Si dice che (X, Y ) ha distribuzione uniforme su A, in simboli (X, Y ) ∼ U(A) , se la densità congiunta assume un valore costante k > 0 su A ed è nulla altrove. Imponendo la condizione∫ +∞ −∞ ∫ +∞ −∞ f(x, y)dxdy = 1 , ovvero ∫ ∫ A f(x, y)dxdy = 1 , si ottiene k = 1µ(A), dove µ(A) è l’area di A. 66 vettori aleatori Esempio. Supponiamo che (X, Y ) ∼ U(C) , dove C è il cerchio di raggio 1 e centro nell’origine. Allora f(x, y) = 1 π , (x, y) ∈ C , con f(x, y) = 0 altrove. Si dimostra che f1(x) = 2 π √ 1− x2 , x ∈ [−1, 1] , con f1(x) = 0 altrove. Inoltre f2(y) = 2 π √ 1− y2 , y ∈ [−1, 1] , con f2(y) = 0 altrove. Allora P(X) = P(Y ) = 0. Inoltre P(XY ) = ∫ ∫ C xyf(x, y)dxdy = · · · = 0 , pertanto X e Y sono incorrelati. D’altra parte f(x, y) 6= f1(x)f2(y), pertanto X e Y non sono indipendenti. 67 Rette di regressione Rette di regressione Dato un vettore aleatorio (X, Y ), cerchiamo una retta di equazione y = a + bx che meglio si adatti alla distribuzione di probabilità congiunta di (X, Y ), ovvero che risulti più vicina possibile a tale distribuzione. Da un certo punto di vista, si potrebbe pensare di voler stimare Y mediante una funzione lineare a+ bX, con i coefficienti a, b da determinare sulla base di un opportuno criterio. Un criterio ben noto in statistica è il metodo dei minimi quadrati che consiste nel cercare i valori a, b che rendono minima la previsione del numero aleatorio (Y − a − bX)2. La retta che si ottiene si chiama retta di regressione di Y su X. Considerando il caso continuo e ponendo P[(Y − a− bX)2] = g(a, b), se la densità congiunta è f(x, y), si ha (applicando la linearità della previsione) g(a, b) = ∫ ∫ R2(y − a− bx) 2f(x, y)dxdy = P(Y 2) + a2 + b2P(X2)− 2aP(Y )− 2bP(XY ) + 2abP(X). Uguagliando a zero le derivate parziali di g(a, b) rispet- to ad a, b (indicando con m1,m2, σ1, σ2 le previsioni e 70 Rette di regressione gli scarti standard di X e Y , e con ρ il coefficiente di correlazione) si ha  ∂g ∂a = 2a− 2m2 + 2bm1 = 0 , ∂g ∂b = 2b(m 2 1 + σ 2 1)− 2(m1m2 + ρσ1σ2) + 2am1 = 0 . Ricavando a dalla prima equazione (a = m2 − bm1) e risolvendo rispetto a b la seconda, si ottiene a = m2 − ρ σ2 σ1 m1 , b = ρ σ2 σ1 . Pertanto, l’equazione della retta di regressione di Y su X è data da y = m2 + ρ σ2 σ1 (x−m1) . Simmetricamente, l’equazione della retta di regressione di X su Y è x = m1 + ρ σ1 σ2 (y −m2) , 71 Rette di regressione che si può scrivere y = m2 + 1 ρ · σ2 σ1 (x−m1) . Le due rette si incontrano nel punto di coordinate (m1,m2) e, nel caso ρ = 0, sono perpendicolari e di equazioni: y = m2 , x = m1 . Se |ρ| = 1, le due rette coincidono ed hanno equazione (a seconda che sia ρ = 1 oppure ρ = −1) y = m2 ± σ2 σ1 (x−m1) . 72 Distribuzione normale multidimensionale Osserviamo che la matrice delle varianze-covarianze del vettore (X, Y ) è data da C2 = ( σ11 σ12 σ21 σ22 ) = ( σ21 ρσ1σ2 ρσ1σ2 σ 2 2 ) , e si ha detC2 = · · · = σ21σ22(1− ρ2) , C−12 = 1 detC2 ( σ22 −ρσ1σ2 −ρσ1σ2 σ21 ) . Allora, com’è possibile verificare, la densità congiunta si può rappresentare nella forma matriciale seguente f(x, y) = 1 2π √ detC2 e− 1 2A(x−m1,y−m2) , dove A(x−m1, y−m2) = (x−m1, y−m2)·C−12 · ( x−m1 y −m2 ) . In generale, dato un vettore aleatorio continuo X = (X1, . . . , Xn), sia Cn la matrice delle varianze- covarianze di X. Si dice che X ha una distribuzione 75 Distribuzione normale multidimensionale normale n−dimensionale se la densità congiunta è data da f(x1, . . . , xn) = 1 (2π) n 2 √ detCn e− 1 2A(x1−m1,...,xn−mn) , dove A(x1 −m1, . . . , xn −mn) = = (x1 −m1, . . . , xn −mn) · C−1n ·  x1 −m1· · · xn −mn  . La distribuzione normale n−dimensionale gode di proprietà simili a quella bidimensionale; in particolare Xi ∼ Nmi,σi , i = 1, . . . , n . Inoltre, se per ogni i 6= j si ha σij = 0, la matrice delle varianze-covarianze diventa diagonale e la den- sità congiunta coincide con il prodotto delle densità marginali, ovvero i numeri aleatori X1, . . . , Xn sono stocasticamente indipendenti. 76 Funzione caratteristica Funzione caratteristica La funzione caratteristica è uno strumento teorico utile sotto diversi aspetti per studiare la distribuzione di probabilità di numeri aleatori discreti e continui. Dato un numero aleatorio X, discreto o continuo, sia Y = eitX = cos(tX) + isen(tX), dove i è l’unità immaginaria e t è un fissato valore reale, e indichiamo con φX(t) la previsione di Y , che risulta essere una funzione di t. La funzione φX(t) si chiama funzione caratteristica di X. Nel caso discreto, posto P (X = xh) = ph, si ha φX(t) = ∑ h phe itxh , mentre nel caso continuo, indicando con f(x) la densità di X, si ha φX(t) = ∫ +∞ −∞ eitxf(x)dx . Alcune proprietà: 77 Funzione caratteristica ha φX(t) = ∫ +∞ −∞ eitx 1√ 2π e− x2 2 dx = · · · = e−t 2 2 . Come si vede, essendo reale, la funzione caratteri- stica di una distribuzione normale standard è anche pari. f) Se X ha una distribuzione normale di parametri m,σ, il n.a. Y = X−mσ ha una distribuzione normale standard e si ha φY (t) = e− t2 2 . Allora, osservando che X = σY + m, applicando la proprietà 3), con a = σ, b = m, si ottiene φX(t) = eimt− σ2t2 2 . g) Se X ha una distribuzione esponenziale di parametro λ, si ha φX(t) = ∫ +∞ 0 eitxλe−λxdx = · · · = λ λ− it · 80 Funzione caratteristica Calcolo dei momenti. Per ogni fissato intero k = 1, 2, . . ., la previsione di Xk, che indichiamo con m(k), si chiama momento di ordine k di X. Ricordiamo che, dato un numero aleatorio continuo X, con densità f(x), si ha φX(t) = ∫ +∞ −∞ eitxf(x)dx . Derivando rispetto alla variabile t, si ha φ′X(t) = ∫ +∞ −∞ ixeitxf(x)dx , φ′′X(t) = ∫ +∞ −∞ (ix)2eitxf(x)dx , ........................................ φ (k) X (t) = ∫ +∞ −∞ (ix)keitxf(x)dx . ........................................ Allora, se esistono i vari momenti di X, si ha φ′X(0) = i ∫ +∞ −∞ xf(x)dx = im(1) , 81 Funzione caratteristica φ′′X(0) = i 2 ∫ +∞ −∞ x2f(x)dx = i2m(2) , ........................................ φ (k) X (0) = i k ∫ +∞ −∞ xkf(x)dx = ikm(k) . ........................................ Pertanto, si ha m(k) = φ (k) X (0) ik . Un ragionamento analogo si può fare se X è un n.a. discreto. In molti casi, dovendo calcolare m(k), conviene sfruttare tale formula anzichè applicare la definizione m(k) = ∫ +∞ −∞ xkf(x)dx , nel caso continuo, oppure m(k) = ∑ n pnx k n , nel caso discreto. La proprietà più importante delle funzioni caratteri- stiche è la seguente: 82 Funzione caratteristica con m3 = am1 + bm2 , σ3 = √ a2σ21 + b2σ 2 2 . Pertanto Z ∼ Nm3,σ3. Si noti che, volendo evitare l’uso della funzione caratteristica, il calcolo della di- stribuzione di Z richiederebbe un ragionamento pro- babilistico molto più complicato. (→ integrale di convoluzione) 2. (Convergenza in legge) Data una successione di n.a. X1, . . . , Xn, . . ., siano F1, . . . , Fn, . . . e φ1, . . . , φn, . . . le corrispondenti successioni di funzioni di ripartizione e di funzioni caratteristiche. Allora, data una funzione di ripartizione F e la corrispondente funzione caratte- ristica φ, la successione F1, . . . , Fn, . . . converge ad F se e solo se la successione φ1, . . . , φn, . . . converge a φ. Tale risultato teorico permette di dimostrare il seguente teorema: Teorema limite centrale. Data una successione di numeri aleatori X1, . . . , Xn, . . ., indipendenti ed ugualmente di- 85 Funzione caratteristica stribuiti, con P(Xi) = m, Var(Xi) = σ2, si consideri la successione delle medie aritmetiche Y1 = X1 , Y2 = X1 + X2 2 , Yn = X1 + · · ·+ Xn n , . . . , e quella delle medie aritmetiche ridotte Z1, . . . , Zn. Ovviamente P(Yn) = m, Var(Yn) = σ 2 n e quindi Zn = Yn−mσ/√n . Indicando con Fi la funzione di ri- partizione di Zi, la successione F1, . . . , Fn, . . . con- verge alla funzione di ripartizione (di una distribuzione normale standard) Φ, ovvero si ha lim n→+∞ Fn(z) = lim n→+∞ P (Zn ≤ z) = = Φ(z) = ∫ z −∞ N(t)dt , ∀ z ∈ R . Il risultato precedente si ottiene dimostrando che la suc- cessione φ1, . . . , φn, . . . (di funzioni caratteristiche dei numeri aleatori Z1, . . . , Zn, . . .) converge alla funzione caratteristica (della distribuzione normale standard) φ(t) = e− t2 2 . 86 Funzione caratteristica Somme di numeri aleatori. Dato un vettore aleatorio continuo (X, Y ), con densità f(x, y), sia Z = X + Y , G(z) = P (Z ≤ z) , z ∈ R . Si ha G(z) = P (X + Y ≤ z) = ∫ +∞ −∞ dx ∫ z−x −∞ f(x, y)dy = = ∫ +∞ −∞ dx ∫ z −∞ f(x, t− x)dt = = ∫ z −∞ (∫ +∞ −∞ f(x, t− x)dx ) dt = ∫ z −∞ g(t)dt , dove g è la densità di Z data da g(z) = G′(z) = ∫ +∞ −∞ f(x, z − x)dx . 87 Inferenza statistica Inferenza statistica In molte applicazioni statistiche si studiano popo- lazioni in cui una o più caratteristiche numeriche sono incognite. Tali caratteristiche costituiscono quin- di un numero (o un vettore) aleatorio, che pos- siamo indicare con Θ, a cui viene assegnata (sul- la base dell’informazione iniziale) una distribuzione iniziale, in particolare una densità iniziale β(θ) nel caso continuo. Per ridurre l’incertezza sul parametro Θ si procede all’osservazione di un vettore (a priori aleato- rio) X = (X1, . . . , Xn) estratto dalla popolazione in oggetto. Fare inferenza su Θ significa applicare il pro- cedimento bayesiano, che consiste nel determinare la distribuzione finale di Θ condizionata al vettore os- servato x = (x1, . . . , xn), ovvero β(θ|x). Se, rife- rendoci al caso continuo, indichiamo con c(x, θ) la densità congiunta del vettore aleatorio (X,Θ) e con α(x|θ) = α(x1, . . . , xn|θ) la densità di X condizionata a un fissato valore θ di Θ, si ha c(x, θ) = β(θ)α(x|θ) = α(x)β(θ|x) . 90 Inferenza statistica Quindi (teorema di Bayes per vettori aleatori) β(θ|x) = c(x,θ)α(x) = β(θ)α(x|θ)∫ Θ c(x,θ)dθ = = β(θ)α(x1,...,xn|θ)∫ Θ β(θ)α(x1,...,xn|θ)dθ = k(x)β(θ)α(x|θ) , con k(x) = 1∫ Θ β(θ)α(x|θ)dθ · Una situazione tipica nelle applicazioni statistiche è quella in cui, per il vettore delle osservazioni (o mi- sure) X = (X1, . . . , Xn), valgono le seguenti proprie- tà: (i) indicando con fi(xi) la densità di Xi, si ha f1(·|θ) = · · · = fn(·|θ) = f(·|θ), ovvero per ogni fissato θ, i numeri aleatori X1, . . . , Xn sono ugual- mente distribuiti condizionatamente a θ; (ii) per ogni fissato θ, i numeri aleatori X1, . . . , Xn sono stocasticamente indipendenti condizionatamente a θ. 91 Inferenza statistica Da (i) e (ii) segue α(x1, . . . , xn|θ) = f1(x1|θ) · · · fn(xn|θ) = = f(x1|θ) · · · f(xn|θ) , e quindi β(θ|x1, . . . , xn) = k(x1, . . . , xn)β(θ)f(x1|θ) · · · f(xn|θ) , con k(x1, . . . , xn) = 1∫ Θ β(θ)f(x1|θ) · · · f(xn|θ)dθ · Quando valgono (i) e (ii) il vettore aleatorio X = (X1, . . . , Xn) si dice un campione casuale. La distribuzione finale di Θ (condizionata al vettore delle osservazioni x) può essere utilizzata per deter- minare un insieme A, ad esempio un intervallo [θ1, θ2] (possibilmente di lunghezza minima), tale che per un opportuno valore α risulti P (Θ ∈ A |x) = α. In par- ticolare, se vale P (θ1 ≤ Θ ≤ θ2 |x) = α l’intervallo 92 Inferenza statistica tende a 0 per n → +∞). In particolare, per n = 1, si ha β(θ|x1) = k(x1)β(θ)f(x1|θ) = = k(x1)Nm0,σ0(θ)Nθ,σ(x1) = = · · · = Nm1,σ1(θ) , con 1 σ21 = 1 σ20 + 1 σ2 , m1 = 1 σ20 ·mo + 1σ2 · x1 1 σ20 + 1 σ2 · (b) Campionamento da una popolazione binomiale con parametro p incognito. Si tratta del caso in cui una proporzione incognita p di individui di una data popolazione possiede una certa caratteristica. Indicando con Θ il parametro incognito p, si ha intanto Θ ∈ [0, 1]. L’obiettivo è quello di fare inferenza su Θ estraendo n individui dalla popo- lazione ed osservando quanti di essi possiedono la data 95 Inferenza statistica caratteristica. Possiamo considerare un campione ca- suale X = (X1, . . . , Xn), dove (Xi = 1) significa che l’i-mo individuo osservato possiede la data caratteri- stica, mentre (Xi = 0) significa che l’i-mo individuo osservato non possiede tale caratteristica. Pertanto P (Xi = 1 | θ) = fi(1 | θ) = θ , P (Xi = 0 | θ) = fi(0 | θ) = 1− θ , e quindi, osservando che fi(xi | θ) = θxi(1− θ)1−xi, si ha α(x1, . . . , xn|θ) = f1(x1|θ) · · · fn(xn|θ) = = f(x1|θ) · · · f(xn|θ) = · · · = θ ∑ i xi(1− θ)n− ∑ i xi . Se, come distribuzione iniziale di Θ si sceglie una distribuzione beta di parametri r0, s0, si può verificare che la distribuzione finale è ancora di tipo beta e, posto 96 Inferenza statistica∑ i xi = h, risulta β(θ|x1, . . . , xn) = k(x1, . . . , xn)Br0,s0(θ)θh(1− θ)n−h = = · · · = Brn,sn(θ) , (rn = r0 + h , sn = s0 + n− h) . (c) Campionamento da una popolazione esponenziale con parametro λ incognito. Supponiamo che la durata aleatoria fino al guasto di un certo tipo di dispositivi abbia una distribuzione espo- nenziale con parametro incognito, che indichiamo con Θ (anzichè λ). Sia (X1, . . . , Xn) il vettore aleatorio costituito dal- l’osservazione delle durate fino al guasto di n di tali dispositivi. Si ha Xi | θ ∼ f = Exp(θ) = G1,θ , i = 1, . . . , n ; f(x | θ) = θe−θx , x ≥ 0 ; f(x | θ) = 0 , x < 0 ; 97
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved