Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica: Inferenza e calcolo di probabilità, Dispense di Statistica

Una panoramica dettagliata sulla inferenza statistica, spiegando come i dati vengono generalizzati e utilizzati per fare previsioni. Vengono presentati concetti fondamentali come la popolazione, il campione, la variabilità, la media aritmetica, la media campionaria, la mediana, il coefficiente di variazione, la trasformazione dei dati, la covarianza, la distribuzione normale e il limite centrale. Vengono inoltre esposti i metodi per calcolare la probabilità di un evento, come la regola empirica e la funzione di densità normale.

Tipologia: Dispense

2022/2023

Caricato il 22/02/2024

gaia-cereda-2
gaia-cereda-2 🇮🇹

2 documenti

1 / 22

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Statistica: Inferenza e calcolo di probabilità e più Dispense in PDF di Statistica solo su Docsity! La Statistica èla scienza che studia i metodi di raccolta e di analisi dei dati . ↓ ↳ ha diverse finalità, quali i fare previsioni , l'analisi di fenomeni nel tempo . Trova la sua ragione nella variabilità dei dati : ogni carattere assume valori diversi nelle unità stat. ↳ risiede -> 2 misurazioni dello stesso oggetto ↓ misurazioni di oggetti diversi nei processi casuali Tipologie : · descrittiva : tramite metodi grafici e numerici sintetizza ed elabora i dati, evidenziandone le caratteristiche . · inferenziale : stima una particolare caratteristica e dall'analisi di un campione, generalizza il risultato alla collettivital Fasi del metodo statistico : 1. DISEGNO : come i dati si ottengono 2. DESCRIZIONE: Come vengono sintetizzati e rappresentati 3. INFERENZA : Come i dati vengono generalizzati e usati x fare previsioni Da Sapere : POPOLAZIONE : Insieme che interessa studiare unità statistica : singolo elemento della popolazione -> composta : famiglia , bosco -> semplice : persona , albero campione : sottoinsieme della popolazione di interesse -> casuale semplice : Ciascuna unità della popolazione ha la stessa opportunità di essere scelta. 2 sistematica : data una popolazione N ed un campione n , si definisce l'elemento y-esimo come il & si scelga un elemento casuale a compreso tra le jesimo e a questo si sommi y-esimo esempio: N = 5000 n = 100 = 0- 0 ↓ = 20 d2 = 50 Xz = 120 dati : risultato della misurazione variabile : caratteristica rilevata modalità : valori che la variabile assume parametro : carattere specifico della popolazione statistica : carattere specifica del campione. Possibili errori nella fase di disegno: ~ camplonari : conoscenza delle informazioni Limitata ad un sottoinsieme della popolazione -> non campionari: · la popolazione campionata non e quella di riferimento e elezioni USA: Trump- Clinton e i sondaggi favorivano lei... · le risposte non sono precise o sono false · mancano risposte Tipologie di variabili : · qualitative : misurano delle qualità -> NB. dicotomiche /o binarie) : hanno solo due modalità (sesso : M ,F) ↓ sconnesse (o ordinali) : modalità non ordinabili [ matricola , residenza , professione ...] ordinabili : cardinabili [ livelli di istruzione , soddisfazione] · Quantitative : misurano caratteristiche numeriche ↓ ↳ Discrete : risposte provenienti da un conteggio, c'è quindi un numero finito di valori [# figli , #stanze] continua : da una misurazione, è un insieme di modalità infinito, non numerabile [peso, l'altezza] Rappresentazione dei dati categorici (variabili qualitative) Tabulazione Tabella di distribuzione della frequente Freq. Relativa di una modalità (Wil si ottiene dividendo ciascuna secuenza per il totale di osservazioni . Wi = ni = NB. O LWi <1 K Ini N Ewi = 1 L=1 distribuzione di freq.& X livello di Istruzione ↳ utilizza x fare dei confronti Frea . Freq . Frea . LIV. Istruz assoluta relativa cumulata L . element. 2 2/ = 0, 25 25 % Frequenza cumulata : L . medie 4 4/8 = 0,50 75 % si ottiene sommando le frequente precedenti alle modalità interessata . maturital 0 % = 0 75 % NB. ha senso solo x valori ordinabili . laurea 2 218 = 0.25 100 % totale 8 1 DIAGRAMMI : le cui aree rappresentano le frequenze, slano assolute o relative ↓ & a barre 5000 - or Torta Cardiologia 12 % 4000 ↓ 3000...1000 emergenza 25 % M Chirurgia 53% cure Intensive 4 % E - maternità 6% - r o -> NB. le ascisse presentano delle variabili qualitative, che x essere pichiare si presentano con un distacco infatti se ne guarda solamente l'altezza (= freq .) Rappresentazione variabili quantitative NB. Usare la frequenza relativa non arrebbe senso x le poche modalità (ci sarebbero percentuali uguali ripetute) In Classi classe : Insiemi di frequenze che esistono x delle similitudini · si usano un numero compreso tra se 20 ↳ hanno solitamente un'ampiezza uguale, Intervalli, che non dovranno sovrapporsi data dal rapporto della differenza del valore maxemin , per il # Classi amp. Int = V. max-Vmin #Classi esempio : noti i dati 12, 13 , 17 , 21 , 24 , 24 , 26 , 27 , 27 , 30 , 32 , 35 , 37 , 38 , 41 , 43 , 44 , 46 , 53 , 58 campo di variazione = 58-12 = 46 intervallo Freq F . relat ·/ # Classi = 5 10 , meno di 20 3 0 , 15 15 ampiezza intervallo = 46/5 = 10 20 , meno di 30 G 0, 30 30 30, meno di 40 5 0 . 25 25 40 , meno di 50 4 0 , 20 20 50, meno di 60 2 0 , 10 10 totale 20 I 100 · MEDIA GEOMETRICA : Calcola il tasso di crescita medio . Valore che si ottiene facendo la radice n-esima (pari alla somma delle modalità osservate) del prodotto delle modalità Eg = * .xx = (xix ... x xn) n secondo un ordine di VARIABILITA' : (fornisce dati relativi alla dispersione o variabilità dei Valori) · CAMPO Di VARIAZIONE : la differenza tra il massimo e il minimo valore osservati. C possono avere amplezze diverse Maggiore è la variabilità dei dati rispetto al centro della distribuzione, maggiore sarà il campo di variazione Cv = X max-Xmin Ignora la distribuzione dei valori misurati, ma risulta essere molto sensibile agli outlier. · QUARTILI : dividono la sequenza ordinata di dati in 4 segmenti contenenti lo stesso numero diValori min max Q Il primo quartile ' il quartile separa approssimatamente il 25 % del dati più piccoli dai dati rimanenti 25 % 25% 25 % 25% a = 0.25 (n+1) *n = #valori Osservati a, 9293 A2 : concide con la mediana. A sx si avranno circa il 50% dei dati minori, mentre a dx si avrà circa Il 50% di dati maggiori max I Q3 ac = 0.5(n+ 1) ---- &2 93 = Separa Il 75% dei dati più piccoli rispetto al 25 % di dati più grandi. min ! Q 93 = 0.75(n+ 1) Capita di usare la differenza interquartile, per eliminare gli effetti degli outliers. ↓ ↳ elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati IGR= 9 3 - Q , · VARIANZA DELLA POPOLAZIONE : misura la variabilità della distribuzione rispetto al centro (che usa essere la media) si ottiene sommandoIl quadrato delle differenza di Ciascuna osservazione con la media , divisa per la dimensione della popolazione x Popolazione : == (xM media del quadrato i = 1 d della somma degli scarti N x Campione : = (xi - 1) n - 1 · DEVIAZIONE STANDARD O = misura la dispersione media attorno alla media, valore genericamente più usato. SCARTO QUADRATICO MEDIO di ↳ rispetto alla media Ha la stessa unità di misura dei dati originali, quindi consente di fare confronti ↓ e + piccola molto influenzata dagli outlier . x Popolazione : 6 = No = (xi-M come la mediana x la media aritmetica i en M N -> modalità i piccola = dati sono + vicini alla media - I M - grande = dati si discostano dalle medie -x Campione : s = s = [ (xi - x) i =M n - 1 · COEFFICENTE DI VARIAZIONE : misura la variabilità relativa rispetto alla media E' un numero puro , espresso In %, ma non ha un massimo. Consente confronti tra la variabilità di fenomeni: - Unità di misura non omogene In una popolazione di bambini c'è più variabilità nel peso o nell'altezza)i- con diverso ordine di grandezza considerando il peso, c'è più variabilità tra i neonati o tra gli adulti / d x popolazione : (V = 100% x campione : Co= S . 1 IMI esempio coeff . variazione azione A : azione B (VA= 5 . 100% =(55) x 100 % = 10 % = NB. nonostante la deviazione standard uguale prezzo scorso anno = 50$ prezzo anno precedente : 100 % L'azione B risulta meno variabile rispetto al suo prezzo. dev. Standard = 5 $ dev . Standard : 5 1 CVB = 5 . 100 % =(5) x 100%= 5 approssimazioni x dati raggrupati per classe : Valore centrale k /della classe valore cent· classe media frequenzamedia-M-mifi kbd dd Ne varianza = 62 (mi-ul fid approssima popolazione (non si sa come) X N La vera media Sottostima La vera varianza Disuguaglianza di CHEBUSHEV per ogni insieme di dati, indipendentemente dalla forma della distribuzione degli intervalli, quest'ultimi contengono una percentuale minima di osservazioni Per una popolazione con media M , scarto quadratico medio 8 e un valore , la percentuale di Osservazioni che appartengono all'intervallo (M-K ; M+ Ko) è data da almeno: ( - = ) 100 % kl - - / all'aumentare di K , aumentano REGOLA EMPIRICA i valori (almeno) interni all'intervallo K valore arbitrario applicabile solamente per grafici simmetrici (o campanulari) applicata a popolazioni di grandi dimensioni, essa fornisce una valutazione della percentuale approssimata di MIKO Osservazioni , Il cui scostamento , in più o in meno della media, e pari al massimo ad una , due o tre volte lo scarto quadratico medio. L rende valori qui precisi "Almeno" "Circa" K = X-Xi & 5 - kb =x x TRASFORMAZIONE DEI DATI : noti i valori M(0) &"s (s) -> moltiplico x un valore : cambio la scala -> addizione di una costante : di misura cM(X) io') Klow(s) M + a o o - 4 sono indifferenti perche' aumentando Shifto il valore della ogni dato, aumenta la media media Standardizzazione · indice comune che esamina la posizione di un dato relativamente alla media della distribuzione => valore standard che Indica il numero di deviazioni standard che separanoIl dato dalla media delle distribuzione sommo Il valore - M e divido per o contemporaneamente z = Xi M Il valore standardizzato può essere a - positivo : datoè superiore alla media - negativo : dato è Inferiore alla media - nullo : Concide con la media Per la regola empirica il valore max e min e dato da 13, valori superiori a 3 a Inferiori a 3 sono considerati anomali usata per confrontare distribuzioni con una media e dev. standard diversa . COVARIANZA: misura la relazione tra 2 variabili aventi la stessa unità Se : COV (X ,y) >0 2 allora la relazione è positiva , quindi c'è una proportionalità n CoV(x,gi = (x - (G) * (x Mx) (y) Mx) ↓ tra le variabili -> all'aumentare delle x , aumentano le y z i = 1 =- E = 1 valori concordanti ( ++, -- H - 1 N COV (x , y) 10 > la relazione risulta negativa , quindi le due variabili sono ↓ legale da un'inversa proporzionalità -> all'aum . di una , dec. l'altra Valori superiori valori discordanti ( + - , - + ( -> alla media Quando i valori hanno un indice nullo, allora i dati arranno una disposizione campanulare * baricentro NB. La covarianza dipende dall'unità di misura, questo rende la media y Covarianza un indice non adeguato per calcolare l'intensità della relazione lineare tra le 2 variabili Valori inferiori alla media media X COEFFICIENTE DI CORRELAZIONE LINEARE Fornisce sia la direzione , che l'intensità di relazione tra le 2 variabili x popolazione x Campione sia la covariaza che il coef. di correlazione hanno uguale segno. Essendo la Covarianza un valore che dipende dai dati presi in esame, f(x ,y) = (Ov(x ,y) = Oxy rxy = Covexig) = A ne segue come i valori massimi e minimi assumibili di conseguenza ne x5y Exey Sx Sy siano dipendenti. 2 Dividendo la covarianza per il prodotto degli scarti quadratici medi delle due variabili si & ottiene un valore mine max pari aI1 più il cf è vicino e + 1 , tanto più le osservazioni sono vicine ad una retta crescente vale il viceversa. Quando il Coef. Usulta nullo, significa che non c'è una relazione lineare (ma è possibile che esista un altro tipo di relazione) una regola pratica afferma l'esistenza di una relazione lineare se : IrkI Un -> Fa una sintesi delle Osservazioni, le quali potrebbero avere andamenti molto diversi Quando : rxy = = 1 la relazione è perfettamente uneare rxy = 0 nel complesso manca una relazione lineare, ma vi potrebbe essere una relazione non lineare e pure forte. ④ ① RELAZIONI LINEARI Approssima adeguatamente la relazione funzionale con un'equazione lineare : Bo = Intercetta B1 = Coef · angolare . e = residuo = distanza di cascun punto dalla rette . B, = AV - 1X Bo usa il metodo dei minimi quadrati : Seleziona la retto che meglio si adatta all'insieme di punti osservati ↓ la letta ottenuta prende il home di retta di degressione ed ha equazione: i = bo + b, x Le stime dei colf . by e be vengano calcolate minimizzando la somma dei quadrati residui covarianza ↓ pendenza = by = Sxy =r 4 COV(X ,4) = By . = Asx sa(x)sq(y) ↓ - r varianza di x Coef. Corelazione Lineare intercetta = bo = 5 - bi T delle ordinate ESEMPIO media di x = * = 23 , 5 mesi media di y = y = 79 . 85 cm varianza di x = Sx = 11 , 52 covarianza di xey : COV(x ,y) = 7, 57 by = 7, 57/11 , 52 = 0 , 635 bo = 79 , 85 - 23 , 5 x 0 , 635 = 64 , 93 -> Valore Indice della crescita media mensile Applicando la definizione di probabilità condizionata -> probabilità condizionata congiunta estrazione di un numero da 1 a 10 P(A(B) = PlanB) -> P(AnB) = P(A(B) P(B) A = [n'dispariy P(a) = /10 P(A(B) = 2/3 P(B) B= 14 <3) P(B) = 3/10& P(AIB) . P(B) = P(AMB) = P(BIA) P(A) A1B = 41, 3) P(ANB) = 2/10 P(BIA) = 2/5 P(BIA)= -> P(anB) = P(BIA). Pa PLAIB)P(B) = PLAMB) = P(BIA) PLA) &3 3110 = 2/10 = 45 3/10 103/30 = 2 /10 =/50 15 = 5 = 1/5 L'evento B NON modifica la probabilità che si verifichi A S - ↳ A x essendo Al B due eventi indipendenti segue : x X P(AIB) = PCA) x + B P(BIA) = P(B) LaY P(A1B) = P(a) P(B) Le frequente relative di una distribuzione osservata sono sempre interpretabili come probabilità. - Le probabilità congiunte e marginali si ottengono dividendo il valore per il totale . - Le condizionale si ottengono dividendo per la condizione data. Esempio acquisto effettivo acquisto pianificato SI B noi Totale 1. probabilità che il consumatore abbia pianificato ed effettivamente acquistato ! Si A 200 50 250 P(BIA) = 2001250 = 0,80 Le NB. Il calcolo torna anche se usale le percentuali P(A) = 250/1000 = 0, 25 no A 100 650 750 P(AMB) = 20011000 = 0. 20) P(BIA) = 012010 , 25 = 0 . 50 Totale 300 700 1000 2 . probabilità di un cliente che ha effettivamente acquistato , avesse pianificato ? P(A(B) = 2001300 = 0 ,67 Importante, per vedere l'indipendenza dei 2 inslemi deve valere ALMENO una condizione tra : · P(A(B) + P(A) · P(B(A) + P(B) · P(AMB) # P(A) P(B) Determinale la probabilità marginale, data una partizione B , Bc , B ..., Br e dato un evento A di cui si conoscono le probabilità degli elementi con gli elementi della partizione P(a) = Plans) = Plan (Bi UBU ... BK)) = Planbu(anBalU(anBk)) = P(ambi) + PlarBz) +... + PCarBa Usando le condizionale si ottieneG pla- P(A(Bi) P(BI) + P(AIB2) P(B2) +... + P(AlBu)P(Bk) PIAIBICPCBIl a la probabilità di A si ottiene come media pesata delle probabilità di A dato Bi, con pesi pari alle probabilità di Bi Esempio (dati della tab. precedente A = 4 acquisto pianificatod Bi = 4 acquisto effettuatod P(A) =DCAIBIDIBI- PAIBIPSe B2 = 1 acquisto non effettuatod = 0. 20+ 0,05 = 0,25 Formula di Bayes -> nota a priori la probabilità di B , seguono informazionidalla regola moltiplicativa della probabilità si ha: PlanB) = PCAIB) P(B) E P(BIAl P(A) sull'evento A , la formula di Bayes consente di aggiornare tali da cui si ottiene a probabilità alla luce che l'evento A si è verificato . La probabilità relativa a B diventa quindi una condizionate 6 P(BIA) = P(AIB) . P(B) di B dato A , PCBIA) detta probabilità a posteriori. P(A) P(A(B) = P(BIA) P(A) P(B) con P(A) e P(B) <0 CAPITOLO 5 - DISTRIBUZIONE DI PROBABILITÀ E VARIABILI ALEATORIE DISCRETE - supporto = Insieme delle modalità che può assumere · distribuzione di probabilità : come la probabilità si distribuisce su tali valori variabile aleatoria (o casuale) : assume valori numerici in corrispondenza ai risultati di un esperimento allatorio L NB. è importante distinguere una variabile aleatoria (lettere maiuscole) e le sue possibili realizzazioni (minuscole ↑ c tipologie - DISCRETA : assume al più un insieme numerabili di Valori ~ n' pezzi difettosi su un campione di tot pezzi estratti N Tipica dei conteggi,n'errori nelle scritte contabili di una società I I & - CONTINUA : assume qualsiasi valore, le cui realizzazioni risultano un'infinità più che numerabile, quindi non gli si può attribuire una probabilità ~ durata di un meeting N ai singoli valori. Tipica delle misurazioni,la percentuale di impurità del sottosudo - & ESEMPI di funzioni discrete: ES. I urna con 100 palline : supporto = 1 , 2 , 3 20 palline con 1) n ' 1 30 palline con il n . 2 probabilità - def. classica : Equiprobabilità (di essere estratte). Le probabilità coincidono con le freq. relative 50 palline conil n . 3 ↓ frequentista : se le estrazioni sono Indipendenti e avvengono in uguali condizioni, si usa la freq . relativa con cui quell'elemento si è presentato nelle prove effettuale ES. 2 - Lancio di 2 moneta - la prob. . che esc testa prob. Con i casi valori di x In cui si ottiene testa -> o · 1/4 = 0. 25 P(x) 0 , 5 - D 1 1 > 44 = 0 . 5 0, 25- > C s 114 = 0.25 N V V > X O I 2 La funzione di probabilità P(x) esprime la probabilità che la variabile aleatoria X assumaIl valore possibile x . P(x) = P(x = x) kxy proprietà a . 0 [P(x) < 1 b. I , p(x) = 1 La funzione di ripartizione (o cumulativa) è la prob. che Il valore aleatorio non superi un certo valore xo F(X0) = P(X = X 0) es. lancio di 2 monete valori di X freq. relat freq. Cumulate a. Esce testa almeno una volta : P(X11) = 0,75 O 0 .25 0/25 b. "testa almeno 2 volte P(X = 2) = 1 1 0, 5 0,75 2 0.25 I proprietà : relazione tra f. di ripartizione e di probabilità F(x) = P Si possono avere degli indici : - di posizione : Valore atteso - di variabilità: varianza e deviazione standard Il valore atteso , chiamato anche media e : E(N) = M = 2 x P(x) e la Somma dei risultati ottenuti pesati x la propria prob. Es - Roulette x = modalità possibili : 19 rossi , 18 heri , 2 verdi = 36 esiti possibili X = somma disponibile a seguito della puntata di 1 euro sul rosso o nero-verde e nessun ingresso P(x= 2) = 1938 P(x=0) = P (tutto Go che non è rosso)= /38 2 rosso -> raddoppio di quanto puntato E(x = 0 . 2%8 + 2 /38 = 0 ,9472 Il gioco è a favore del banco , la perdita altesa è di 9053 euro La varianza di una variabile aleatoria è la media ponderata dei quadrati di tutti i suoi possibili scarti dalla media (X-M) o Var(x) = E[CX-m9] = E (X-m) > P(x) * lo scarto quadratico medio 0 = dev(x) = Nar = 2(x -M) P(x) usato x confrontare la variabilità di distribuzioni di prob. diverse. La funzione di variabili aleatorie Sia X una variabile aleatoria discreta , con f . di probabilità PIX) e sla g(X) una qualunque funzione di X , allora il suo valore alteso e: E [g(x) = I g(x)P(x) ↓ ↳ probabilita Proprietà trasformata applicata sia X : a allora - alla modalita A = (a) = a e Varcal =0 4 semoltiplicato il valore atteso perin quando g(x) e variabile di Scala Iun numero finito a degenere cambiamento E(bX) : bE(x) lancio di una moneta Var/bX) = b var(X) Combinazione lineare di variabile aleatoria Sia X una variabile aleatoria con media Me varianza di e siano de B due costanti. sia Y x + BX una nuova variabile, ottenuta dalla combinazione lineare di X . Allora si ha : · media(My)= E(x + Bx) = c + BMx · varianza (64) = Var ( + BX) = Bo, ↳ Ex = (B)Ox DISTRIBUZIONE CONGIUNTA di 2 variabili aleatorie discrete esprime la probabilità che X assuma x , contemporaneamente aY , che assume il Valore y NB. NON e detto che le I variabili siano Indipendenti . fxy(x ,y) = P(x = x 14 = y) Esempio si consideri una popolazione di 1000 studenti universitari : x = 1 2 studente ha una maturità scentifica y=1 -> Studente ha passato Analisi 1 f. assoluta · f. relative P(X = x( Prob. marginali fx(x) = P(x = x) = =yfxy(x,y) P(y= 4) fy(y) = P(y = y) = 2x fxy(x ,4) ↓ Somma delle congiunte Prob. condizionata della variabile aleatoria U , esprimono la probabilità di Y condizionata ad uno specifico valore x di x fux (y(X) = P(y= y/X = x) fy(x(y(x) = fxy(x , y) fx(x) NB. Due variabili aleatorie Xe4 si dicono indipendenti se e solo se la loro distribuzione di probabilità congiunta e uguale al prodotto delle loro distribuzioni di prob. marginali : -> fxy(x,4) = fx (x). fy (4) Cio'vale per tutte le coppie di valori abc La Covarianza di due v .a Xey l'il valore atteso del prodotto dagli scarti dei rispettivi valori attesi & cor(x,4) = E [(X- -x) (4- My)] C v.a. Sono indipendenti se soloce Cor = 0 non vale il riceversa = Ziy(x - Mx)(4- My) fxy(X,4) = [224 xy fxy(X,y)) - MxM ESERCIZIO 5.74 b. Corarianza 0, 5 Mx = 2 x fx(x) = 1 . 0. 5 + 2 , 0 ,5 = 1,25 0,5 My = E 4 fy(y) = 1 . 0, 5 = 0, 5 0,5 0, 5 I Cov (x, 4) = [0. 1 . 0.5 + 0 . 2 . 0,25 + 1 . 1 . 0,15 + 1 .2 . 0,25] - /1,25 + 0,5) =0 2 Indipendenza ESERCIZIO X CapireUso delle tabelle 9 . VERSIONE DIRETTA : Noto En P(z(z0) = Tabella P(z c - E0) = 1 - P(z0) P(zocEczi) = P(z1)-P(zo) P(z> z0)= 1 - P(zo) P(z) - 20) = P(z0) x simmetria P(-z0(z (z) = P(zi) - (1 - P(zo) P(-z0(zc - Zi) = P(z1) - P(z0) x simmetria b. VERSIONE INVERSA : Ignoto Zn P(z<zo) = num > 0 , 5 uso tabella P(z)zo) = num (0, 5 x simmetria uso la tab. . P(zcz0) = num <0, 5 Zo = 1-num 2 P(z0) tab. P(z> z0) = num 20,5 x simm 20 = 1- num - P(z0) = tab ↳NB . quando il valore è compreso tra 2 numeri si prende il valore medio Standardizzazione Data una qualsiasi v . a. Con una generica MX e Ox si definisce fare tale trasformazione rende possibile utilizzare le tabelle. z = x nz x = z5x + Mx ↳ usata x i problemi inversi 1 . Si trovaIl valore nella tabella - trasformata inversa - x = 82 + Mx Trasformare la binomiale in normale n - prove indipendenti E(X) = np Var(X) = np(1- P)↑ - prob. di successo . ↓ solamente quando la varianza è maggiore di 9 e posso allora approssimare ad una Normale P(X(a) - P(val - P(71Nop Somma K-variabili aleatorie Differenza tra variabili aleatorie E(X- 4) = Mx - My - valore alteso ECX , + X2 +... + Xn) = Mx , + Mx2 +... + Mxn var(X- Y) = 04 + G E(N) = a + b, M + bz M2 ... + bn Mn var (x-1) =5+ 5y" - 2 & Es CoV(X ,4) - varianza Var (X, + X2 +... + Xn) = R , +Rit . + Ti in Corelazioni tra variabili aleatorie var (V) = b" 0 i + b> Di +... + br W = aX+ bY ↳ se le covariante tra le coppie sono 1 o allora si ne Mw = E(w) = E(aX+ by) = aMx + bMy Var (w1 = a04 +b04 + 2 ab COV(X,4) var(y) = bi 0+ b) Ec +... + ben' + 2 2 COV(X ,U) CAPITOLO 7 - DISTRIBUZIONE CAMPIONARIE statistica inferenziale - assume decisioni/conclusioni per una popolazione sulla base di dati campionari X- N(M , 8 ↓↓ non nota - = E = media campionaria consta din variabili campionarie : Xo , Xi , X2 .... Xn l particolari, perché sono Ild , ovvero indipendenti ed indenticamente distribuite 7 STATISTICA = variabile della media campionaria, ovvero una variabile in funzione di iid variabili E = xi I STIMATORE & = f (X . X2 , . .. . Xn) comb. Lineare x = 0 + 1 x, + + x2 +... + + X 2 di variabili ↳ E(xi) = M Vien campionarie E(K = 0+ 4 E(x,) +1 E(xz) +... + HE(xn = 1 M + 1 M ... + +M = n(tM Varianza invece è data da : varcie-(f)"varex.+ ... +(t) Var(Xu) + 2 ab EE Cor(X, 4) = O + +G ... +I = e ↳ db(x) = 50/N Standard error CAMPIONAMENTO > estrazione del campione dalla popolazione I CAMPIONE POPOLAZIONE - sottoinsieme della popolazione (parametri) -> numerosita' N , <N ~ Insieme di tutte le unità o individuali o ogg. di studio -> Numerosità N N L INTERFERENZA generalizzar i risultati di un campione sulla pepolazione La popolazione ha dei Parametri che caratterizzano la popolazione, ma non sono noti. ↓ usa lo stimatore solitamente , disponendo di un campione, lo stimator naturale della media della popolazione è la media campionaria. ESEMPIO: parametro:M media popolazione -> stimatore : X via della media compionaria stima: I valore della v .a nel campione Osservato una distribuzione campionaria è una distribuzione di tutti i possibili valori di una statistica attenuti da un campione della stessa ampiezza estratti dalla popol. ES. N= 4 v.a . = libri letti nell'ultimo mese Libri letti individuo f. ass . f. rel A & 0.25 Mx = 0,15 . 0 + 0,5 . 1 + 0. 25. . 3 = 1, 25 B I 0.5 0 = 1, 1875 C 1 D 3 0 , 25 TOT 4 1 si supponga di non essere a conoscenza di questi valori - estrazione di un Campione -Y casuale = tutte le unità si estraggono a caso · semplice = le unità estratte hanno uguale prob. di essere estratte · con ripetizioni = i Campioni possibili sono N" 4 = 16 = N senza ripetizioni = i campioni possibili sono n. U - 4 .3 = 12 I > ogni campione ha prob . di estrazione pari a 1/16 Mx = 0 . 0,0625 + 0,5 . 0,2500 +... = 11 25 Q = Var (X) = (0-1 , 25)". 0.0625 + (0.5 - 1 ,25)?. 0, 2500 +... + = 0 ,59375 5x = 0 , 77055 La media campionaria è uno stimatore delle media delle popolazione. ↓ che e' una v .a. produce una stima , quindi un numero . ↓ soggetto ad errori NB. " se sommati gli errori rendono un esito hulla . ↓ valore ignoto dato dalla differenza :-M Quando l'errore è nullo la stima si dice corretta o non distorta a = Il valore atteso cancide con il parametro, Cqualunque sia il suo valore) Anche se lo stimatore non è distorto, si può avere una preseza diIncertezza ↓ S quantifica : varianza di errore standard o errore della media camplonaria Ex può essere : direttamente prop: + Il carattere varia nella popolazione, tanto più la media è # per ogni campione inversamente prop.: grande è il campione, minore la media è diversa ogni campione NB. Se la media campionaria ha distribuzione normale allora: E-N(Mx ,o TH . LIMITE CENTRALE (TLC( dimostra come pern molto grandi la media campionaria · ha distribuzione approssimativamente Normale. - -> per valori di n grandi l'approssimazione e migliore - si considerano buoni(250 >30. . Esempio M = 8 8 = 3 n= 36 -> media camplonaria sia compresa tra 7,75 e 8.25. P(7 175 < X >5 .25) -P(Mz -8. 25 - M) = P( - 0,5 Lz20 ,5) = 0 , 38) 5/Nn Casi con dati di solo 2 modalità : probabilità di successo = p 4 proporzione di successo = p + x popolazioni finite lo stimatore naturale : proportione campionaria = = Accessi - P = F = Xi - coincide con la media campionaria n un valore non distorto vale : Mp = E(p) = p Up 0 = Var (P) = P(1-P) n - HE(x) + + E(xx + ... + HE(Xn) = 1 np = P =I Var(x) +... + ↓var(Xn) =Var(x op-Naripl=Te NB. è limitata superiormente La proporzione campionaria si può approssimare ad una normale quando: 4 (1-P) (94 L & USO 11 th valore centrale ampiezza simmetria del Campione della Bernulli Standardizzazione della prop. camplonaria zP : -valore alteso = -P err. Standard PP) mediaevarianaa H e · se il criterio per l'approssimazione alla Normale è soddisfatto vale : -N/p . PP) z - Noi media Var sol Bernulli (P) P P(1-P) -p Binomale (p, n) Up np(1-P) np(1=P) prop. camp. (P) P 4- P PCI-P) / n n X e 82 O T M 0'/n %/Nu CAPITOLO 10: VERIFICHE DI IPOTESI SU UNA SINGOLA POPOLAZIONE L'oggetto analizzato dall'interferenza statistica è un parametro, che definisce una quantità su una certa popolazione . ↓ 2 possibili azioni : STIMA : utilizza l'informazione campionaria x stimare un parametro incognito del modello scelto. TEST DELLE IPOTESI : Tramite l'informazione camplonaria decide l'esito (accettare o rifiutare) un'ipotesi relativa un parametro incognito -puntuale ( = < Un'ipotesi statistica l' un'affermazione relativa ad un parametro e può essere: unidirezionale (07, 0 201 d &> bidirezionale ( # > ha come oggetto di verifica l'ipotesi nulla a non ha la disuguaglianza Stretta , solamente , = una volta definita , si ha in automatico un'ipotesi alternativa. (Hi) de ↓ complementare di Ho nello spt . parametrico Le 2 i polesi sono : - esaustive : una delle due è necessariamente vera - mutamente esclusive : non possono essere vere contemporaneamente Il test di ipotesi permette di decidere se accettare o rifiutare l'ipotesi Ho sulla base di un campione casuale. ↓ suddivide lo Spz . Campionario in 2 sottoinsiemi "Sa= regione di accetazione · Hi ->SB = regione di rifiuto) regione critica Ho in1p minimizzare gli errori A Mo 4 +Bx M -stato di natura soglia accetto s crifuto rifiutiHoxH B -> meno grave fP ↳ valore critico e definisce le aree L X : Sx del Valore critico , sotto Ho rifiuto Hi x Hod + grave 1-B : Sx del valore critico , sotto Hi Xke + costosa B : dx del Valore critico , solto Hi nt POTENZA del TES 7 Ta NB. Inversamente proporzionale ad d . quindi maggior è la potenza , minore è la possibilità di compiere un errore di tipo I . prob. fare l'azione ↓ corretta z (1-2) x trovare il valore critico , si procede denstandardizzano il valor z (1-4). + o ↳ XL ottengo il valore soglia & I ↓ USOMxke Il la probabilità di commettere un errore di tipo I STATISTICA TEST valore deve contenere il Valore d - ↓ inversamente prop. a B. 2 minor e d , maggiore e B definisce le aree di rifiluto e quelle di accettazione valore soglia indica il Liv . significità del test fissato x rendere < + piccolo possibile. 2 Circa 0,01 0p 0 .05 -Actung! Se M, 30 allora si può usare il valore standardizzato xI TLC bilaterale unilaterali Actung! Consideri la porzione di rifiuta pari ad 212 N ~ /Hoe i - Ho la L prolezioni - & MH & -wa HI - 1 Te i1. !-zal2 0 Zal - RiR I R A A 19 Nota la s si procede definendo il: trovare : valore critico = 2 = P(1-2) -> tav. Normale ↓ può essere calcolato siam tav -student te guardare la tab X ottenere il valor camplonario : Ec = MOI Ed on · X poi la - zck = F - M. 32 = 1 - P(z standardizazione del valore campionario : zo = I - 10 - N(0, 1) 1-2- trovi ilpt. medio /Nn Calcoli ME ESERCIZIO SlideS. 1 . pt. medio/ME = num HO: M1368 X = 0105 -> Ex = 1 , 645 n= 25 Hi : M , > 368 sia X = 372 ,5 0= 15 a/2 = 1 - P(num) x = 2 <1 - P(num) -> 1 -x = metodo standardizzando : - ->statistica test : Zo : Io = 372 , 5 - 368 = 1 , 5 - 15/N5e Z - 0 1.5 1 , 645 1 , 645> 1, 5 2 accetta metodo valore campionario * = Mo + za %/N = 368 + 11 645. 15/NTS = 372 , 9352 confronta con = -> 372 , 935 372,5 : Si accetta . ESERCIZIO SLIDES 2 Ho : M = 368 E = 372,5 Hi : M + 368 n= 25 0 = 15 x = 0103 + 212 = 0,025 -> EcI2 = 1 ,96 </2 al zo = EM = 3725368 = 1, 5 e Compreso-1196 1 e se -- accettato & x - ME, F E = Mo + zak = 368 + 1 , 96 . 13/n3 = 373 , 87) compso = 368 - 1196. 15/553 = 362 , 12 traidvalor i Il p-value (o livello di significatività Osservato) è la probabilità, calcolata sotto Ho , di ottenere il valore della statistica test uguale o più estremo ( + vicino alle zona rifluto) di quello osservato (aka il valore campionario) Coda a Sx Bilaterale Coda Ho : M, Mo Hi : M > Mo Ho: M = Mo Hi MFMo Ho : MaMo & d : M Mo e Hi xH - -H - - Ma n -- i- N -I-i* - +6 El da d InEs t - zal O 72 Z si na 2x 212 misura su scala - supporto dei dati ↑ continua I P-value è un indice di sintesi dell'evidenza empirica contro Ho rispetto Hi . -> minore è' Il p-value , più facilmente rifiuti Ho - maggiore è Il p-value - più accetto Ho - -l Ho meno prob. di vedere valori peggiori i Ho + prob. di osservare valori pegglori del mio del Mio - RIFIUTO Ho zx Il p-value e a (prob. di commettere l'errore I) sono confrontabili xke valutati su un uguale distribuzione. Ho -> separa la fase di sintesi dell'evidenza empirica contro Ho soggettiva) - -& E dalla fase di scelta del liv . di significativita a (soggettivolI L · o (t > E p. - O p-value P-value > 2 : accetto Ho p-value < 2 : Rifiuto Ho -> caso In cui la varianzaè Ignota e sostituita con la deviazione standard campionaria (s) . Istatistica Rest = To - EM o l e sotto Ho con distribuzione t di Student e gall n-1 Proporzione campionaria si ha quando il carattere di interesse è dicotomico /X = 1 ha una caratt . x = 0 non ha quella caratt ↓ distribuzione di tipo Bernulli, con p: proporzione di successo p: X-Belpl n d - proporzione camplonaria = 4. Succetti 2 x = F n. campione I = In ⑭ quando il campione 2 abbastanza grande hp(1-P) > 9 x IL TLC si può approssimare alla Normale ~ sostituendo al vero p , uno da noi ipotizzato pe si ottiene una statistica test zo con distribuzione Normale standard p - P Ho ~ N(0, 1) 2 = P - Po P(1-P) n Po(1-PO) n Domande di statistica: 1) parlami della verifica di ipotesi 2)come si fa a decidere quale delle due ipotesi accettare? 3)l'approccio del p-value 4)cosa afferma la disuguaglianza di Chebychev? E la regola empirica? 5) che cos'è uno stimatore e quali sono le sue proprietà? 6) differenza tra la distribuzione di Bernoulli e la distribuzione binomiale, cos'hanno in comune? Qual è il loro supporto? 7)parlami degli intervalli di confidenza 8)che cos'è il livello di significatività? 9) parlami della relazione fra due variabili continue (fine capitolo 3) 10) quand'è che due eventi si dicono mutualmente esclusivi? 11) differenza tra il diagramma a barre e l'istogramma 12)parlami della distribuzione uniforme 13) definizione classica e frequentista della probabilità 14)che cos'è la mediana e il quartile 15)che cos'è una distribuzione campionaria? 16)parlami dell'errore di primo e secondo tipo 17) rappresentazione grafica del p-value 18) quand'è che due eventi si dicono indipendenti? 19)teorema di Bayes 20) spiega in che modo il livello di confidenza influisce sull'intervallo di confidenza 21) differenza tra stima e stimatore 22) combinazione lineare 23) com'è fatta e a cosa serve la covarianza? 24)che cosa mi descrive la covarianza? 25)quando due eventi si dicono collettivamente esaustivi? 26)perché si mette n-1 al denominatore della varianza campionaria 27)che cos'è la funzione di ripartizione 28) teorema del limite centrale -> prob., calcolata sotto Ho , di attenere il valore della stat . test uguale o estremo /alla regione di rifiuto) di quello Osservato -> Bernulli -> associa ad ogni campione un parametro da stimare e vari valori - campione -> valore osservato elt . ~ come i valori si discostano dal valore medio -> come variano le zvariab. contemp
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved