Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica Inferenza e Probabilità- teoria schematizzata e semplificata per capire, Schemi e mappe concettuali di Statistica

In riferimento a "A. Cerioli, M. A. Milioli, Introduzione all’inferenza statistica senza (troppo) sforzo, 2020" Schemi e sintesi per comprendere teoria e applicazioni pratiche

Tipologia: Schemi e mappe concettuali

2019/2020

In vendita dal 14/05/2020

preet0034
preet0034 🇮🇹

4.6

(46)

37 documenti

1 / 26

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Statistica Inferenza e Probabilità- teoria schematizzata e semplificata per capire e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity! 1 TEORIA DELLA PROBABILITA’ → Si risolve il problema diretto → dalla conoscenza della struttura della popolazione si deduce la probabile struttura del campione (dal generale al particolare) INFERENZA STATISTICA → si risolve il problema inverso → si descrive la struttura della popolazione a partire dal campione osservato (dal generale al particolare). Si risolve il problema concreto CALCOLO COMBINATORIO → Il calcolo combinatorio si occupa di come possiamo combinare fra loro più oggetti, secondo regole stabilite gli elementi di due o più insiemi o di uno stesso insieme. Il calcolo combinatorio in AMBITO INFERENZIALE ci aiuta a rispondere alla domanda: “in quanti modi si possono scegliere i campioni di dimensione n da una popolazione di una dimensione prefissata N, per un’indagine statistica”. INDICHIAMO CON: A: insieme finito di elementi; es. A = {a, b, c} n: numero di elementi nell’insieme A k: classe, numero delle componenti dell’insieme da “combinare” 1 < k < n Ogni gruppo differisce almeno, per: - Qualche elemento - Ordine in cui si susseguono gli elementi Il numero di disposizioni k può essere k>n 𝑫𝒏,𝒌 ∗ = 𝒏𝒌 Caso particolare di disposizioni semplici quando n = k 𝑷𝒏 = 𝑫𝒏,𝒏 = 𝒏 ∗ ሺ𝒏 − 𝟏ሻ ∗ … ∗ 𝟐 ∗ 𝟏 = 𝒏! 1! = 1 0! = 1 - Due qualunque combinazione di A della stessa classe, devono differire di almeno un elemento. - Elementi non ripetuti - Non ci sono gruppi in cui l’ordinamento è invertito 𝐂𝐧,𝐤 = 𝐃𝐧,𝐊 𝐏𝐤 = 𝐧! 𝐊! ∗ ሺ𝐧 − 𝐤!ሻ = ቀ 𝐧 𝐤 ቁ 2 ESPERIMENTO ALEATORIO: Quando non si conosce il risultato prima di farlo, è ogni fenomeno del mondo reale al quale associare una situazione di incertezza. Processo ripetibile, la singola esecuzione è detta PROVA, dà luogo ad un risultato non prevedibile a priori → da una PROVA si ottiene un RISULTATO ELEMENTARE Es. Lancio di una moneta ESPERIMENTO DETERMINISTICO: il risultato è prevedibile, ogni deviazione da esso è da imputare a mutamenti delle condizioni sperimentali o a errori di misurazione Es. grado di ebollizione acqua è 100° SPAZIO DEGLI EVENTI (elementari) (spazio campionario) 𝛀: Insieme dei possibili risultati, che possono essere un numero finito o un’infinità numerabile, di un esperimento aleatorio, detti EVENTI ELEMENTARI, definibili in anticipo e catalogabili in modo preciso: 𝐸1, 𝐸2, … , 𝐸𝑖 Es. 𝐸 = {𝐸1: 𝑡𝑒𝑠𝑡𝑎; 𝐸2: 𝑐𝑟𝑜𝑐𝑒} EVENTO (E): È l’insieme degli eventi elementari, nonché sottoinsieme dello spazio degli eventi. Ogni sottoinsieme di Ω è detto evento, dunque gli eventi elementari sono eventi raggruppati in E e Ω stesso è un evento. Un evento E si verifica quando il risultato dell’esperimento aleatorio è un evento elementare appartenente ad E. Ad ogni evento è associato un numero reale che è tanto maggiore quanto più è elevata la possibilità che si verifichi l'evento stesso: chiamiamo tale numero PROBABILITÀ DELL'EVENTO. La probabilità rappresenta una misura numerica della possibilità di realizzarsi di un evento. In un dato esperimento, l'evento A si verifica con la probabilità P(A) EVENTO CERTO 𝛀: Evento certo è l’evento aleatorio che definisce l’intero spazio campionario 𝛀. Es. Nel lancio di un dado, l’evento certo è la proposizione «esce un numero minore di 7» EVENTO CONTRARIO ?̅? (oppure EE): è il contrario, prende tutti i “risultati” al di fuori di E. EVENTO IMPOSSIBILE (insieme vuoto) Ø: un evento che non può accadere nella prova in questione, è associata una probabilità uguale a zero. Es. esperimento: lanciare una volta un dado Evento: ottenere un numero maggiore di 7 EVENTO ALEATORIO: se l'evento puo' verificarsi oppure no. Es. Esperimento: lancio una volta un dado Evento: esce il numero 1 Ad ogni evento è associato un numero che esprima la quantità di possibilità del verificarsi dell'evento stesso: P = P(E) → P indica la probabilità che si verifichi l'evento E. Es. se E è l'evento uscita del numero 1 nel lancio di un dado, avendo il dado 6 facce sarà → 𝑃 = 𝑃ሺ𝐸ሻ = 1 6 Dati due eventi: A e B: EVENTO UNIONE (evento somma) 𝑨 ∪ 𝑩 EVENTO INTERSEZIONE (evento prodotto) 𝑨 ∩ 𝑩 Quando i due eventi A e B si manifestano entrambi oppure quando si manifesta A oppure B UNIONE AREA ROSSA Quando si manifestano sia A che B Si manifestano insieme Non si manifestano insieme EVENTI COMPATIBILI Quando si possono manifestare insieme [(𝑃ሺ𝑨 ∩ 𝑩ሻ] EVENTI INCOMPATIBILI 5 6. EVENTI INDIPENDENTI Due eventi si dicono INDIPENDENTI STOCASTICAMENTE (in senso probabilistico), se il verificarsi dell’uno non influisce sulla probabilità dell’altro. 𝑷ሺ𝑬𝟐|𝑬𝟏ሻ = 𝑷ሺ𝑬𝟐ሻ Data la probabilità di 𝐸2 dato 𝐸1 = alla probabilità di 𝐸2 → 𝐸1 non influenza la probabilità (il verificarsi) di 𝐸2 a. Ne deriva un COROLLARIO → La probabilità dell’intersezione di due eventi stocasticamente indipendenti 𝐸1 e 𝐸2 è pari al prodotto delle singole probabilità dei singoli eventi: 𝑷ሺ𝑬𝟏 ∩ 𝑬𝟐ሻ = 𝑷ሺ𝑬𝟐|𝑬𝟏ሻሺ𝑬𝟏ሻ = 𝑷ሺ𝑬𝟐ሻ𝑷ሺ𝑬𝟏ሻ ((((Per capire)))) 7. TEOREMA DI BAYES (legato al concetto di probabilità condizionata) Si basa sulla teoria frequentista, e si basa su eventi tra loro indipendenti. Supponendo che un evento B dipenda da altri eventi 𝑨𝒊 (cause), permette di determinare la probabilità che si verifichi una delle cause sapendo che l’evento B è accaduto. Per esempio, data una produzione in serie di televisori in 3 differenti stabilimenti, estraendo un televisore difettoso, si vuole sapere da quale stabilimento è stato prodotto. Assegnando gli EVENTI: 𝐴𝑖 = {𝑠𝑡𝑎𝑏𝑖𝑙𝑖𝑚𝑒𝑛𝑡𝑖: 1,2,3} → cause 𝐵 = 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒 𝑑𝑖𝑓𝑒𝑡𝑡𝑜𝑠𝑜 → evento accaduto Il teorema di Bayes ci permette di capire la percentuale di probabilità in cui è avvenuto l’evento B. Quindi si calcola la probabilità di 𝐴𝑖 dato B → 𝑃ሺ𝐴𝑖|𝐵ሻ 6 𝑃ሺ𝐴𝑖|𝐵ሻ = 𝑃ሺ𝐵|𝐴𝑖ሻ𝑃ሺ𝐴𝑖ሻ ∑ 𝑃ሺ𝐵|𝐴𝑖ሻ𝑃ሺ𝐴𝑖ሻ 𝑛 𝑖=1 = 𝑟𝑖𝑠𝑢𝑙𝑡𝑎𝑡𝑜 ∗ 100 = ⋯ % INTERPRETAZIONE dato 𝑃ሺ𝐴3|𝐵ሻ = 0,444 “La probabilità che la TV estratta difettosa sia stata prodotta nello stabilimento 3, è del 44%” LE VARIABILI ALEATORIE Def. Quantità che assume valori diversi a seconda dei risultati di un esperimento aleatorio ossia a seconda del manifestarsi di EVENTI INCOMPATIBILI COMPLEMENTARI. È generata da un evento aleatorio e comporta la trasformazione degli eventi di uno spazio 𝛀 in punti sull’asse reale. V.A. DISCRETE: numero finito di valori (numero finito di punti campionari) o infinità numerabili; Si indica con X variabile aleatoria (v.a.), con xi realizzazioni della v.a. (valori assunti da X v.a.) a cui a essi sono associati a una probabilità 𝑷ሺ𝑿 = 𝒙𝒊ሻ = 𝒑𝒊 > 𝟎, tale che la SOMMA DI TUTTE LE 𝒑𝒊 = 𝟏 Es. Lancio di un dado v.a. 𝑿 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔} E1 uscita del punteggio 1 E2 uscita del punteggio 2 E3 uscita del punteggio 3 E4 uscita del punteggio 4 E5 uscita del punteggio 5 E6 uscita del punteggio 6 Le relative probabilità sono: 𝑝ሺ𝑥𝑖ሻ = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑐𝑎𝑠𝑖 𝑡𝑜𝑡𝑎𝑙𝑖 p1 = probabilità di uscita del punteggio 1 = 1/6 p2 = probabilità di uscita del punteggio 2 = 1/6 p3 = probabilità di uscita del punteggio 3 = 1/6 p4 = probabilità di uscita del punteggio 4 = 1/6 p5 = probabilità di uscita del punteggio 5 = 1/6 p6 = probabilità di uscita del punteggio 6 = 1/6 INTERPRETAZIONI p(X) = 1/6 la probabilità associata a che esca il numero 1, è 1/6. Del 16,7% circa. F(X) = 3/6 la probabilità che v.a. assuma un valore minore o uguale a 3 lanciando il dado una volta (1 prova), è di 3/6 ovvero del 50%. LA FUNZIONE DI RIPARTIZIONE: La funzione di ripartizione indica la probabilità che v.a. assuma valori ≤ 𝑥𝑖 considerato in quel punto (è la funzione cumulata delle 𝑝𝑖). Graficamente, è una funzione a “scalini”. Racchiude informazioni su un fenomeno riguardanti la sua distribuzione prima o dopo un certo punto. **NOTE → le 𝑥𝑖, al contrario di descrittiva che erano valori effettivamente osservabili e rappresentati da frequenza assoluta con cui si erano effettivamente manifestati; In caso di v.a., le 𝑥𝑖, sono valori che potenzialmente si possono DISCRETE CONTINUE p 𝟏 𝟔 1 2 3 4 5 6 X Xi pi(X) F(X) P(X≤xi) 1 1/6 1/6 2 1/6 2/6 3 1/6 3/6 4 1/6 4/6 5 1/6 5/6 6 1/6 1 1 7 verificare a seguito di un esperimento e le probabilità rappresentano la probabilità con cui questi valori possono manifestarsi. *LA FUNZIONE DI RIPARTIZIONE vs STATISTICA DESCRITTIVA: in probabilità considera le probabilità mentre in statistica descrittiva considera la frequenza relativa V.A. CONTINUE: • Può assumere tutti i valori di un intervallo [𝑎; 𝑏] (punti dell’intervallo sono infiniti) • La probabilità associata di un singolo valore = 0 • Probabilità di X associata ad un intervallo: 𝑎 ≤ 𝑋 ≤ 𝑏 • Per fare una previsione più fine per esprimere una probabilità, si utilizzano intervalli via, via più stretti LA FUNZIONE DI DENSITA’ di PROBABILITA’ f(x): l’istogramma è l’approssimazione discreta di una curva continua (suddivisa in infinite classi) definisce analiticamente come si distribuiscono i valori assunti da una v.a. continua. La funzione densità di probabilità è definita come la derivata della funzione di ripartizione: 𝑓ሺ𝑥ሻ = 𝑑 𝑑𝑥 𝐹ሺ𝑥ሻ LA FUNZIONE DI RIPARTIZIONE: Indica la somma di tutte le probabilità precedenti una probabilità data. Data la probabilità P(X≤b), considerando i valori fino a b, F(b) rappresenta che la v.a. X assuma valori ≤b. 𝐹ሺ𝑏ሻ = 𝑃ሺ𝑥 ≤ 𝑏ሻ = 𝒂𝒓𝒆𝒂 𝑑𝑎−∝ 𝑎 𝒃 la funzione di ripartizione è l'integrale della funzione densità di probabilità: 𝑓ሺ𝑥ሻ ≥ 0 → 𝐹ሺ𝑋ሻ = ∫ 𝑓ሺ𝑥ሻ𝑑𝑥 = 1 +∝ −∝ Per calcolare la probabilità di una v.a continua si considera sempre la probabilità come un’area associata ad un determinato intervallo, l’area, rappresenta la probabilità che la v.a. X assuma valori compresi tra a e b: 𝐴𝑅𝐸𝐴 = 𝑃ሺ𝑎 ≤ 𝑋 ≤ 𝑏ሻ = 𝐹ሺ𝑏ሻ − 𝐹ሺ𝑎ሻ **NOTE PRATICHE 1-F(x) è la probabilità contraria, per esempio i valori fuori dall’area prima del punto scelto F(a) è la probabilità che la v.a. assuma un valore minore od uguale ad a F(b) è la probabilità che la v.a. assuma un valore minore od uguale a b PARAMETRI DELLE V.A. • VALORE ATTESO (valore medio, media, speranza matematica) o V.a. Discreta → 𝐸ሺ𝑋ሻ = ∑ 𝑥𝑖𝑝𝑖𝑖 o V.a. Continua → ∫ 𝑥𝑖𝑓ሺ𝑥𝑖ሻ𝑑𝑥𝑖 +∞ −∞ 𝑓ሺ𝑥𝑖ሻ → 𝑓𝑢𝑛𝑧𝑖𝑜𝑛𝑒 𝑑𝑖 𝑑𝑒𝑛𝑠𝑖𝑡à TEOREMI, data c una costante: 1. 𝐸ሺ𝑋 + 𝑐ሻ = 𝐸ሺ𝑋ሻ + 𝑐 2. 𝐸ሺ𝑐𝑋ሻ = 𝑐𝐸ሺ𝑥ሻ 3. 𝐸ሺ𝑋 + 𝑌ሻ = 𝐸ሺ𝑋ሻ + 𝐸ሺ𝑌ሻ 10 la distribuzione è normale? Calcolo indice di CURTOSI (disnormalità), è un numero puro: 𝐾𝑢 = ∑ ሺ𝑥𝑖 − 𝜇ሻ 4𝑛𝑖 𝑛 𝑟 𝑖=1 𝜎4 = ∑ ሺ𝑥𝑖 − 𝜇ሻ 4𝑓𝑖 𝑟 𝑖=1 𝜎4 𝒗. 𝑎. 𝑁𝑂𝑅𝑀𝐴𝐿𝐸 𝑆𝑇𝐴𝑁𝐷𝐴𝑅𝐷𝐼𝑍𝑍𝐴𝑇𝐴 → 𝒁~𝑵ሺ0,1ሻ La v.a. Z si distribuisce come una NORMALE con media 0, varianza 1 𝐹𝑈𝑁𝑍𝐼𝑂𝑁𝐸 𝐷𝐼 𝑅𝐼𝑃𝐴𝑅𝑇𝐼𝑍𝐼𝑂𝑁𝐸 → Per calcolare la probabilità associata ad un intervallo si fa riferimento a una tavola della funzione di ripartizione della v.a. normale standardizzata per i valori di Z compresi tra -4 e +4 (vedi libro per tavola) PROCEDIMENTO CALCOLO PROBABILITA’ v.a. STANDARDIZZATA ad un intervallo ]𝒙𝟏; 𝒙𝟐] di una v.a. 𝑵൫𝝁, 𝝈 𝟐൯ PASSAGGIO DA VALORI ORIGINALI A STANDARD 1. Calcolo gli scostamenti standardizzati 𝑧1 = 𝑋1−𝜇 𝜎 e 𝑧2 = 𝑋2−𝜇 𝜎 2. Leggo i valori sulla tavola della funzione di ripartizione di 𝐹ሺ𝑧1ሻ e 𝐹ሺ𝑧2ሻ 3. La probabilità associata all’intervallo ]𝑧1; 𝑧2] → 𝐹ሺ𝑧2ሻ − 𝐹ሺ𝑧1ሻ → coincide con l’intervallo ]𝑥1; 𝑥2] **I valori di z fuori dalla tavola -4 e +4 → FUNZIONE DI RIPARTIZIONE = 0 ovvero la probabilità che si verifichi quell’evento è nulla DISTRIBUZIONE indici CAMPIONARI UNIVERSO STATISTICO = POPOLAZIONE: insieme N elementi (dimensione popolazione) sul quale siamo interessati a rilevare uno o più aspetti. Es. Studenti iscritti al corso di economia al 31/12/2018 rilevazione → età, voto maturità etc... CAMPIONE STATISTICO: sottoinsieme di n elementi (dimensione campione da popolazione) tratti da un universo statistico. Indagine campionaria rispetto all’indagine totale → SVANTAGGI: otteniamo risultati approssimati, quindi incerti → valutazione dei risultati in termini probabilistici SPAZIO DEI CAMPIONI 𝛀: Insieme dei possibili campioni di n elementi estraibili dall’universo. CRITERIO: due campioni sono diversi se: • Differiscono almeno per l’ordine • Differiscono almeno per un elemento Dato un ESPERIMENTO ALEATORIO (non conosciamo gli n elementi che ne faranno parte) → estrazione di numerosità n (dimensione campione) da un UNIVERSO di N unità CON REIMMISSIONE (Bernoulliana) – noi usiamo questo SENZA REIMMISSIONE (Estrazione in blocco) Prima dell’estrazione: v.a. indipendenti e con distribuzione uguale a quella dell’Universo v.a. non indipendenti e con distribuzione diversa a quella dell’Universo • Estraggo il 1° elemento dall’universo • Rimetto l’elemento estratto nell’universo …Procedo analogamente con le restanti estrazioni… • UNIVERSO = UNIVERSO (non cambia) • Estraggo il 1° elemento dall’universo • Non rimetto l’unità estratta • Estraggo il 2° elemento da ሺ𝑈𝑁𝐼𝑉𝐸𝑅𝑆𝑂 − 1°𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜 𝑒𝑠𝑡𝑟𝑎𝑡𝑡𝑜ሻ • UNIVERSO = N-n-1 Ku < 3 → v.a. IPONORMALE Ku = 3 → v.a. NORMALE Ku > 3 → v.a. IPERNORMALE v.a. di NORMALE STANDARDIZZATA Presenta le stesse caratteristiche della v.a. NORMALE, è stata calcolata partendo dal calcolo degli scostamenti standardizzati i quali sono caratterizzati da: M = 0 e VAR = 1 Standardizzata implica che non dipende dall'unità di misura della variabile. 11 Si tiene conto dell’ordine: Due campioni sono ≠ se differiscono almeno per l’ordine Due campioni sono ≠ se differiscono almeno per un elemento Quanti sono i possibili campioni estraibili dall’U? 𝑫𝒊𝒔𝒑𝒐𝒔𝒊𝒛𝒊𝒐𝒏𝒊 𝒄𝒐𝒏 𝒓𝒊𝒑𝒆𝒕𝒊𝒛𝒊𝒐𝒏𝒆 = ሺ𝑵ሻ𝒏 Quanti sono i possibili campioni estraibili dall’U? 𝑪𝒐𝒎𝒃𝒊𝒏𝒂𝒛𝒊𝒐𝒏𝒊 = ( 𝑵 𝒏 ) *note: • Schema più logico • Interesse a tener conto dell’ordine o meno (successione temporale) FORME DI DISTRIBUZIONE delle v.a. CAMPIONARIE (DEDUTTIVA: da UNIVERSO a CAMPIONE) → Conosco la POPOLAZIONE voglio dedurre cosa succede nel campione v.a. MEDIA CAMPIONARIA ?̅? Def. È la media dei campioni estratti da un Universo X, è definita come la media delle Xi v.a. 𝒙𝟏 + 𝒙𝟐 + ⋯ + 𝒙𝒏 identicamente distribuite e indipendenti → 𝜇 = 𝑀𝑒𝑑𝑖𝑎 𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜 ESTRAZIONE BEURNOLLIANA la v.a. ?̅? presenta la stessa distribuzione della X nell’universo (le 𝒇𝒊 = 𝒑𝒊) perché l’universo U non è cambiato. La variabilità di ?̅? (distribuzione medie campionarie) è meno variabile rispetto a quella di x (fenomeno rilevato nella popolazione) perché è divisa per n, tanto maggiore è n tanto minore sarà la variabilità di ?̅?; Variabilità di 𝒙 → 𝝈𝟐 Variabilità di ?̅? → 𝝈𝟐 𝒏 PARAMETRI • 𝑬ሺ?̅?ሻ = 𝝁 → il valore atteso della v.a. media campionaria è uguale alla media dell’universo • 𝑽𝑨𝑹ሺ?̅?ሻ = 𝛔𝟐 𝒏 • 𝛔ሺ?̅?ሻ = 𝛔 ξ𝒏 INTERPRETAZIONE dato 𝒑𝒊 = 𝟎, 𝟐𝟓 Se estraggo dalla popolazione un campione ai fini di stima della MEDIA ho una probabilità del 25% di ottenere una media parti a 20 ሺ𝒙ሻ̅̅ ̅̅ 1. FORMA DI DISTRIBUZIONE Quando la popolazione 𝑿 è NORMALE → 𝑋~𝑁ሺ𝜇, 𝜎2ሻ allora anche ?̅? è normale per qualunque valore di n (perché si conosce 𝜎2ሻ → ?̅?~𝑵 ቀ𝝁, 𝝈𝟐 𝒏 ቁ 2. FORMA DI DISTRIBUZIONE Quando la popolazione 𝑋 non è NORMALE e la forma è ignota. Si vuole analizzare la distribuzione della v.a. MEDIA CAMPIONARIA quando non si conosce la distribuzione di X: 12 a. TEOREMA CENTRALE DEL LIMITE: Quando n del campione è sufficientemente grande (>100), la distribuzione della media campionaria può essere approssimata dalla distribuzione normale → ?̅?~𝑵 ቀ𝝁, 𝝈𝟐 𝒏 ቁ *Nota se X non è troppo strano si può applicare anche per n=30/50/60 (se ad esempio è una curva ad U non si puo’ applicare) ESTRAZIONE IN BLOCCO (senza ripetizione) PARAMETRI • 𝑬ሺ?̅?ሻ = 𝝁 → il valore atteso della v.a. media campionaria è uguale alla media dell’universo • 𝑽𝑨𝑹ሺ?̅?ሻ = 𝛔𝟐 𝒏 ∙ 𝑵−𝒏 𝑵−𝟏 → si moltiplica per un fattore correttivo • 𝝈ሺ?̅?ሻ = √ 𝝈𝟐 𝒏 ∙ 𝑵−𝒏 𝑵−𝟏 *Note 𝐥𝐢𝐦 𝑵→∞ 𝑵−𝒏 𝑵−𝟏 = 𝟏 → Quando N è un numero molto grande (popolazione molto grande), implica che nei casi con/senza ripetizione ho gli stessi risultati. v.a. FREQUENZA RELATIVA CAMPIONARIA 𝑷 X è un fenomeno qualitativo DICOTOMICO (assume solo 2 valori) rilevabili su una popolazione finita o infinita → v.a. BERNOULLI 𝐴 = 𝑎𝑐𝑞𝑢𝑖𝑟𝑒𝑛𝑡𝑒 ?̅? = 𝑛𝑜𝑛 𝑎𝑐𝑞𝑢𝑖𝑟𝑒𝑛𝑡𝑒 SUCCESSO = “acquirente” FREQUENZA RELATIVA DEL CAMPIONE → Estraggo un campione con ripetizione, di numerosità 𝒏 = 𝟐 → 𝑵𝒏 = 𝟓𝟐 = 𝟐𝟓 Il numero di successi s si calcola da 0 a n numero di prove, e la v.a. P Frequenza Relativa assume modalità 𝒔 𝒏 , quindi può assumere modalità 0 2 , 1 2 , 2 2 . Calcolo le probabilità della v.a. P Frequenza Relativa Campionaria associata alle probabilità di successo osservato: Variabilità - elevata rispetto a 𝑋 Variabilità + elevata rispetto a ?̅? U = N = 5 𝑨 = 𝟐 ?̅? = 𝟑 𝝅 = 2 5 = 𝟎, 𝟒 → probabilità di successo 𝟏 − 𝝅 = 1 − 0,4 = 𝟎, 𝟔 → probabilità di insuccesso Per formule di BERNOULLI 𝑬ሺ𝑿ሻ = 𝝅 = 0,4 𝑽𝑨𝑹ሺ𝑿ሻ = 0,4 ∙ ሺ1 − 0,4ሻ = 0,4 ∙ 0,6 = 0,24 v.a. X = “numero di successi in un’estrazione di un elemento dalla popolazione" 0 successi ሺ?̅?; ?̅?ሻ 1 successo ሺ𝑨; ?̅?ሻ 𝒐 ሺ𝑨̅̅ ̅; 𝑨ሻ 2 successi ሺ𝑨; 𝑨ሻ 15 Esempio v.a. ?̅? → 𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑒 𝑑𝑒𝑙 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜 𝑖𝑔𝑛𝑜𝑡𝑜 → 𝜇 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒𝑙𝑙′𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑜 ?̅? 𝑠𝑡𝑖𝑚𝑎 𝑑𝑖 𝜇 → 𝑟𝑒𝑎𝑙𝑖𝑧𝑧𝑎𝑧𝑖𝑜𝑛𝑒 𝑑𝑖 𝑢𝑛𝑜 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑜 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑒 ሺ𝑠𝑡𝑖𝑚𝑎 𝑝𝑢𝑛𝑡𝑢𝑎𝑙𝑒ሻ Per regole generali: PROPRIETA’ STIMATORI: CORRETTO (correttezza) DISTORTO 𝑬ሺ𝑻ሻ = 𝜽 𝑬ሺ𝑻ሻ ≠ 𝜽 Se il valore atteso di T è uguale al corrispondente parametro dell’universo 𝜽 Il valore atteso di T non è uguale a 𝜽 Quindi 𝑬ሺ𝑻ሻ − 𝜽 → ERRORE SISTEMATICO (di campionamento) 𝑬ሺ?̅?ሻ = 𝝁 La media di tutte le medie campionarie calcolate su tutti i campioni di uno spazio campionario è uguale alla media dell’universo 𝑬ሺ𝑷ሻ = 𝝅 Stima di 𝝈𝟐 tramite lo stimatore 𝑺𝟐 Data la 𝝈𝟐 campionaria: 𝑆2 = ∑ ሺ𝑋𝑖− 𝑛 𝑖=! ?̅?ሻ 2 𝑛 ((formula di 𝜎2 𝑠𝑢 𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑟𝑖𝑐𝑒 𝑜𝑝𝑝𝑢𝑟𝑒 𝑠𝑥)) 𝑆2 è distorto poiché il suo VALORE ATTESO: 𝐸ሺ𝑆2ሻ = 𝑛 − 1 𝑛 𝜎2 ≠ 𝜎2 Quindi si utilizza lo STIMATORE CORRETTO di S ሺ𝝈𝟐ሻ: 𝒔𝒄𝒐𝒓𝒓 𝟐 = 𝟏 𝒏 − 𝟏 ∑ሺ𝒙𝒊 − ?̅?𝒊ሻ 𝟐 𝒏 𝒊=! = 𝒏 𝒏 − 𝟏 𝒔𝟐 Infatti, si verifica che: 𝑬൫𝑺𝒄𝒐𝒓𝒓 𝟐 ൯ = 𝝈𝟐 La media calcolata su tutti i campioni nello spazio delle varianze campionarie corrette è uguale alla varianza dell'universo SCELTA DELLO STIMATORE, si sceglie in base a: • Correttezza, Deve essere corretto ovvero deve rispettare le proprietà sopra citate • PRECISIONE → Tanto minore è la variabilità di uno stimatore, tanto maggiore la sua precisione. Se la variabilità è bassa i valori sono poco diversi tra loro si avvicinano quindi al valore incognito. STIMATORE ACCURATO: È uno stimatore corretto con bassa variabilità. • L'accuratezza costituisce il criterio principale per giudicare la validità di uno stimatore • si può tollerare una piccola distorsione se essa risulta compensata da un elevata precisione La misura più usata per rappresentare la STIMA della PRECISIONE di uno stimatore è l'ERRORE STANDARD, misura l’imprecisione dello stimatore, si utilizzano in particolare: 𝝈𝟐ሺ𝑻ሻ 𝝈ሺ𝑻ሻ • nel caso di MEDIA CAMPIONARIA, l'errore standard è dato da: 𝒔ሺ?̅?ሻ = √ 𝒔𝒄𝒐𝒓𝒓 𝟐 𝒏 = 𝒔𝒄𝒐𝒓𝒓 ξ𝒏 ((viene sostituita a 𝜎2 𝑙𝑎 𝑓𝑜𝑟𝑚𝑢𝑙𝑎 𝑐𝑜𝑟𝑟𝑒𝑡𝑡𝑎)) • nel caso di FREQUENZA RELATIVA CAMPIONARIA, errore standard è dato da: 𝒔ሺ𝑷ሻ = √ 𝒑ሺ𝟏 − 𝒑ሻ 𝒏 *Gli stimatori corretti per 𝜇 se la popolazione è distribuita 𝑁ሺ𝜇, 𝜎2ሻ, sono: ?̅? e la 𝑀𝑒𝑐𝑎𝑚𝑝 (Mediana Campionaria). Ovvero vale a dirsi che la media calcolata su tutte le medie campionarie/mediane dei campioni dello spazio sono uguali a la media dell’universo 𝜇. Ma la 𝑀𝑒𝑐𝑎𝑚𝑝 è meno accurata in quanto l’errore standard risulta maggiore rispetto all’errore standard della Media Campionaria. All’aumentare di n, lo stimatore è più preciso → l’errore standard tende a 0 all’aumentare di n Minore è ERRORE STANDARD (variabilità bassa) Più preciso è lo stimatore 16 …In sintesi… STIMA PUNTUALE STIMA PER INTERVALLO Parametro incognito stimato con un unico valore Parametro incognito è stimato con un intervallo di valori ESEMPIO stima tasso disoccupazione in una data regione = % disoccupati Il tasso di disoccupazione è compreso (con una probabilità elevata tipo del 95%) tra il 9% e il 14% VANTAGGI Semplicità Valutazione dell’incertezza (in termini di probabilità) associata alla stima → INTERVALLO DI CONFIDENZA SVANTAGGI Non conosciamo l’errore della stima STIMA PER INTERVALLO DI CONFIDENZA Def. Un intervallo di confidenza di livello 1 − α è un intervallo che contiene il vero, ma ignoto, valore del parametro dell'universo (es. 𝜇) con 𝑷𝑹𝑶𝑩𝑨𝑩𝑰𝑳𝑰𝑻À ሺ𝑪𝑶𝑵𝑭𝑰𝑫𝑬𝑵𝒁𝑨ሻ 𝑨𝑺𝑺𝑶𝑪𝑰𝑨𝑻𝑨 𝑷𝑹𝑬𝑭𝑰𝑺𝑺𝑨𝑻𝑨 𝒆 𝑨𝑳𝑻𝑨 = 𝟏 − 𝜶 𝛂 = 𝟏 − ሺ𝑪𝑶𝑵𝑭𝑰𝑫𝑬𝑵𝒁𝑨ሻ𝐏𝐑𝐎𝐁𝐀𝐁𝐈𝐋𝐈𝐓𝐀′𝑨𝑺𝑺𝑶𝑪𝑰𝑨𝑻𝑨 Quanta incertezza è associata ad una stima puntuale di un parametro della popolazione? FORMULA GENERALE DI UN INTERVALLO DI CONFIDENZA Si parte dalla stima campionaria, media campionaria ?̅?, del parametro di interesse, 𝝁 : ±𝒛 ቀ 𝜶 𝟐 ቁ ∙ 𝒔ሺ?̅?ሻ Si costruisce un intervallo simmetrico rispetto 𝝁 aggiungendo o togliendo una quantità che è pari al prodotto delle due componenti. • ±𝑧 ቀ 𝛼 2 ቁ → Distribuzione campionaria dello stimatore • 𝑠ሺ?̅?ሻ → errore standard dello stimatore, rappresenta la precisione dello stimatore che siamo utilizzato STIMA PER INTERVALLO DELLA MEDIA DELL’UNIVERSO 𝝁 per GRANDI CAMPIONI n>100 → TCL - 𝜇 → media universo ignota (parametro) - ?̅? → media campionaria (stimatore) Se il campione grande si può ricorrere al TEOREMA CENTRALE DEL LIMITE ?̅?~𝑵 (𝝁, 𝛔𝟐 𝒏 ) → 𝒁ሺ?̅?ሻ = ?̅? − 𝝁 √𝛔 𝟐 𝒏 ~𝑵ሺ𝟎, 𝟏ሻ Z dello stimatore 𝐗 Essendo il campione grande ha una distribuzione approssimata normale standardizzata con μ = 0 e VAR = 1 𝒁 ቀ 𝜶 𝟐 ቁ tale che 0 < 𝛼 < 1 → è Il percentile della v.a. NORMALE STANDARDIZZATA 𝑁ሺ0,1ሻ tale per cui la FUNZIONE di RIPARTIZIONE ha probabilità di osservare valori ≤ 𝒛 ቀ 𝜶 𝟐 ቁ → 𝑭 [−𝒛 ቀ 𝜶 𝟐 ቁ] = 𝜶 𝟐 , sulla tavola della funzione di ripartizione devo cercare il valore che più si avvicina ad 𝜶 𝟐 per calcolare i valori degli estremi (ovvero il ?̅? ± 𝒛 ቀ 𝜶 𝟐 ቁ ∙ 𝒔ሺ?̅?ሻ IMPOSTAZIONE INDUTTIVA (dal campione all’universo) → 𝜇 𝑒 𝜎2 ignote Es la probabilità che estraendo dall’universo 200 dipendenti, la retribuzione media campionaria ?̅? sia compresa tra 1792 e 1897 è del 95% IMPOSTAZIONE DEDUTTIVA (dall’universo al campione) → 𝜇 𝑒 𝜎2 note con valori simmetrici a 𝜇 Es la probabilità che 𝜇 la retribuzione media dell’universo sia compresa nell’intervallo 1792 e 1897 è del 95% CARATTERISTICHE ?̅?: • 𝑬ሺ?̅?ሻ = 𝝁 • 𝑽𝑨𝑹ሺ?̅?ሻ = 𝛔𝟐 𝒏 FORMULA 𝒛 = 𝒙 − 𝑴 𝝈 17 valore di z) ±𝒛 ቀ 𝜶 𝟐 ቁ (per simmetria sono uguali con segno opposto) in cui 𝒁ሺ?̅?ሻ possa essere confidente di 𝟏 − 𝜶 e probabilità di errore 𝜶 . Quindi la probabilità che 𝒁ሺ?̅?ሻ (una v.a. con distribuzione N(0,1)) assuma valori compresi nell’intervallo: [−𝒁 ቀ 𝜶 𝟐 ቁ ; +𝒁 ቀ 𝜶 𝟐 ቁ] → è uguale a 𝟏 − 𝜶 𝑷 {?̅? − 𝒛 ቀ 𝜶 𝟐 ቁ ∙ 𝒔ሺ?̅?ሻ ≤ 𝝁 ≤ ?̅? + 𝒛 ቀ 𝜶 𝟐 ቁ ∙ 𝒔ሺ?̅?ሻ } = 𝟏 − 𝜶 INTERPRETAZIONE: Ho confidenza 𝟏 − 𝜶 che 𝝁 sia compreso nell’intervallo ?̅? ± 𝒛 ቀ 𝜶 𝟐 ቁ ∙ 𝒔ሺ?̅?ሻ, con probabilità 𝜶 di sbagliare. PROCEDIMENTO IN BREVE n>100: 1. Definisco la forma di distribuzione, per TCL → ?̅?~𝑵 ቀ𝝁, 𝛔𝟐 𝒏 ቁ → 𝒁ሺ?̅?ሻ = ?̅?−𝝁 𝝈ሺ?̅?ሻ ~𝑵ሺ𝟎, 𝟏ሻ 2. Stimo il valore di 𝝈𝟐 dell’universo perché è ignoto (se non ce l’ho dato) con lo stimatore corretto 𝑺𝒄𝒐𝒓𝒓 𝟐 la sua equivalente sotto radice è 𝑺𝒄𝒐𝒓𝒓 a. In caso 𝝈𝟐 è dato, ricordarsi di utilizzare la formula √ 𝝈𝟐 𝒏 della ?̅? per il calcolo degli estremi al posto di 𝒔ሺ?̅?ሻ 3. Ricavo 𝜶, che è la probabilità di sbagliare, dal livello di confidenza 𝟏 − 𝜶 (solitamente i più usati sono 0,99 con 𝑧 = ±2,58 e 0,95 𝑧 = ±2,58 corrispondenti valori della probabilità (confidenza) associata in FUNZIONE DI RIPARTIZIONE) 4. Ricavo i valori di ±𝑧 ቀ 𝛼 2 ቁ da tavole (quindi cerco il valore più vicino ad esempio a 0,95) e ricavo z 5. Calcolo l’intervallo di confidenza per PICCOLI CAMPIONI n<100 HP: L'universo si distribuisce → 𝑿~𝑵൫𝝁, 𝝈𝟐൯ → processo AUTOMATIZZATO, SOTTO CONTROLLO, IN SERIE - 𝝈𝟐 è NOTO → ERRORE STANDARD in Z per stima di 𝝈: ?̅?~𝑵 (𝝁, 𝛔𝟐 𝒏 ) → 𝒁ሺ?̅?ሻ = ?̅? − 𝝁 √𝛔 𝟐 𝒏 ~𝑵ሺ𝟎, 𝟏ሻ Utilizzo sempre la variabile aleatoria scostamento standardizzato, ma nel calcolo dell'intervallo di confidenza al posto dell'errore standard calcolo la varianza con formula della media campionaria: 𝑷 {?̅? − 𝒛 ቀ 𝜶 𝟐 ቁ ∙ √ 𝝈𝟐 𝒏 ≤ 𝝁 ≤ ?̅? ± 𝒛 ቀ 𝜶 𝟐 ቁ ∙ √ 𝝈𝟐 𝒏 } = 𝟏 − 𝜶 - 𝝈𝟐 NON NOTO → t Student: Si ricorre all’utilizzo della t di Student 𝝈ሺ?̅?ሻ è stimato con l’ERRORE STANDARD: 𝒛 = 𝒙 − 𝑴 𝝈 → 𝒁ሺ?̅?ሻ = ?̅? − 𝝁 𝝈ሺ?̅?ሻ → 𝒔𝒐𝒔𝒕𝒊𝒕𝒖𝒊𝒔𝒄𝒐 → ?̅? − 𝝁 √𝒔𝒄𝒐𝒓𝒓 𝟐 𝒏 ~𝒕ሺ𝒈: 𝒏 − 𝟏ሻ La media campionaria si distribuisce come una t di Student con n-1 gradi di libertà F ( ) F ( ) ?̅? ± [𝒕 ቀ 𝜶 𝟐 ቁ ; 𝒈] ∙ 𝒔ሺ?̅?ሻ CARATTERISTICHE ?̅?: • 𝑬ሺ?̅?ሻ = 𝝁 • 𝑽𝑨𝑹ሺ?̅?ሻ = 𝛔𝟐 𝒏 FORMULA 𝒛 = 𝒙 − 𝑴 𝝈 20 P-VALUE È il livello di significatività 𝛼 osservato, è la probabilità di osservare i valori più estremi della statistica test osservata nel campione 𝑡𝑜𝑏𝑠 quando 𝐻0 è vera (v.a. 𝑇 = 𝑡𝑜𝑏𝑠) Quando 𝐻0 è vera (𝜃 = 𝜃0ሻ: 1. 𝐻1 UNILATERALE DX: 𝑭ሺ−𝒛ሺ𝜶ሻሻ 𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑃{𝑇 𝑡𝑜𝑏𝑠, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } 2. 𝐻1 UNILATERALE SX: 𝑭ሺ𝒛ሺ𝜶ሻሻ 𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑃{𝑇 ≤ 𝑡𝑜𝑏𝑠, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } 3. 𝐻1 BILATERALE: 𝟐 ∙ 𝑭ሺ−𝒛ሺ𝜶ሻሻ 𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑃{𝑇 |𝑡𝑜𝑏𝑠|, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } + 𝑃{𝑇 ≤ |𝑡𝑜𝑏𝑠|, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } Es Prova di esame 10 quesiti a quiz con 4 possibili risposte ogni quesito, solo 1 è corretta. Si vuole verificare se uno studente risponde a caso oppure è preparato Prova esame: esperimento aleatorio X = numero di risposte esatte → v.a. di Bernoulli prima che venga effettuata la prova di esame; “GIUSTA = SUCCESSO”, “SBAGLIATA = INSUCCESSO” Se lo studente risponde a caso, quante sono le possibilità di successo? 𝜋 = 1 4 = 0,25 = 25% Effettuo il test → risponde ai 10 quesiti (ripeto l’esperimento 10 volte) • 𝑿~𝑩ሺ𝟏𝟎, 𝟎, 𝟐𝟓ሻ → risposte a caso • 𝑬ሺ𝑿ሻ = 𝒏 ∙ 𝝅 = 𝟐, 𝟓 → ci aspettiamo che uno studente che risponde a caso le risposte esatte siano solo 2 o 3, quindi riteniamo lo studente preparato se risponde a più di 2,5 domande esatte; • 𝑽𝑨𝑹ሺ𝑿ሻ = 𝒏 ∙ 𝝅ሺ𝟏 − 𝝅ሻ = 𝟏, 𝟖𝟕𝟓 • 𝑷ሺ𝑿 = 𝒔ሻ = ൫𝟏𝟎 𝒔 ൯𝟎, 𝟐𝟓𝟐ሺ𝟏 − 𝟎, 𝟐𝟓ሻ𝟏𝟎−𝒔 Come faccio a sapere se lo studente risponde a caso oppure no? Studio la distribuzione campionaria di X → Scelgo che lo studente dia 𝑋 ≥ 6 risposte esatte, i casi che possono verificarsi sono che: 1. lo studente è molto fortunato 2. lo studente è effettivamente preparato e che la sufficienza sia 𝑿 ≥ 𝟐, 𝟓 risposte esatte Ci chiediamo: 1. quali sono i valori di s che ci portano a concludere che sia uno studente che risponde a caso? 2. Quali invece sono i valori di s che ci dicono che è uno studente preparato? La probabilità che uno studente che risponde a caso risponde a ≥ 6 domande giuste è di 1,98% (0,016222+0,003090+0,000386+0,000029+0,000001), è l’insieme dei valori T a cui è associata una piccola probabilità quando 𝑯𝟎 (studente risponde a caso) è vera; non consideriamo “5 risposte esatte” perché la somma delle probabilità diventerebbe ≈ 7% e quindi sarebbe troppo alta e non sarei sicura che lo studente sia così 21 preparato, quindi per scegliere la zona di accettazione dobbiamo valutare la probabilità che si avvera. Quindi determino che la zona di rifiuto è 𝑿 ≥ 𝟔 risposte esatte, ovvero che lo studente è preparato quindi: • < 6 risposte esatte: ACCETTO 𝑯𝟎 • > 6 risposte esatte: RIFIUTO 𝑯𝟎 con piccola probabilità di errore (1,98%) INTERPRETAZIONI: 𝑃ሺ𝑋 = 𝑠ሻ = 0,056314 → probabilità che uno studente che risponde a caso, risponda a 0 risposte esatte 𝐹ሺ𝑠ሻ = 0,52 → probabilità che uno studente che risponde a caso, risponda a ≤ 2 risposte esatte 𝐿𝑜 𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑒 𝑟𝑖𝑠𝑝𝑜𝑛𝑑𝑒 𝑎 𝑐𝑎𝑠𝑜 → 𝐻0: 𝜋 = 0,25 𝐿𝑜 𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑒 è 𝑝𝑟𝑒𝑝𝑎𝑟𝑎𝑡𝑜 → 𝐻1: 𝜋 > 0,25 **nota, se lo studente è preparato lo studio aumenta la probabilità di rispondere correttamente VERIFICA IPOTESI MEDIA DELL’UNIVERSO 𝝁 per GRANDI CAMPIONI n>100 → TCL - 𝜇 → media universo ignota (parametro) - 𝜇0 → prefissato - ?̅? → media campionaria (statistica test) 1. 𝐻0: 𝜇 = 𝜇0 Se 𝐻0 è vera: • 𝑬ሺ?̅?ሻ = 𝝁𝟎 • 𝑽𝑨𝑹ሺ?̅?ሻ = 𝛔𝟐 𝒏 2. Per campione grande → TEOREMA CENTRALE DEL LIMITE ?̅?~𝑵 (𝝁, 𝛔𝟐 𝒏 ) → 𝒁ሺ?̅?ሻ = ?̅? − 𝝁𝟎 √𝛔 𝟐 𝒏 ~𝑵ሺ𝟎, 𝟏ሻ 3. Se la 𝜎2 dell’universo è ignota, la stimo con 𝑠𝑐𝑜𝑟𝑟 2 = 𝒏 𝒏−𝟏 𝒔𝟐 STATISTICA TEST per ?̅? → 𝒁ሺ?̅?ሻ = ?̅?−𝝁𝟎 √𝐬𝐜𝐨𝐫𝐫 𝟐 𝒏 a. DIRETTO scelgo a priori: o 𝐻1 → scelta alternativa o 𝛼 → livello di significatività o 1 − 𝛼 → zona di accettazione b. INVERSO P-Value: o Calcolo P-Value su 𝑧ሺ?̅?ሻ osservato per PICCOLI CAMPIONI n<100 - t di student - 𝜇 → media universo ignota (parametro) - 𝜇0 → prefissato - ?̅? → media campionaria (statistica test) 1. Se 𝐻0 è vera: • 𝑬ሺ?̅?ሻ = 𝝁𝟎 • 𝑽𝑨𝑹ሺ?̅?ሻ = 𝛔𝟐 𝒏 CARATTERISTICHE ?̅?: • 𝑬ሺ?̅?ሻ = 𝝁 • 𝑽𝑨𝑹ሺ?̅?ሻ = 𝛔𝟐 𝒏 FORMULA 𝒛 = 𝒙 − 𝑴 𝝈 HO SOSTITUITO 𝝈𝟐 UNIVERSO CON LA SUA STIMA CORRETTA PERCHE’ E’ IGNOTO: VALE COSì PER TUTTI → QUANDO è IGNOTO DEVO SOSTITUIRE LE FORMULE CON LA SUA STIMA CORRETTA!!!!!!!!!!!!!!!! 22 2. Se la 𝜎2 dell’universo è ignota, la stimo con 𝑠𝑐𝑜𝑟𝑟 2 = 𝒏 𝒏−𝟏 𝒔𝟐 3. ASSUMO CHE LA DISTRIBUZIONE DI X NELL’UNIVERSO è NORMALE si distribuisce come una T di STUDENT STATISTICA TEST per ?̅? → 𝒁ሺ?̅?ሻ = ?̅?−𝝁 √𝐬𝐜𝐨𝐫𝐫 𝟐 𝒏 ~𝒕ሺ𝒏 − 𝟏ሻ 4. Le zone di accettazione/rifiuto le determino con la v.a. 𝑡ሺ𝑛 − 1ሻ DIRETTO scelgo a priori: • 𝐻1 → scelta alternativa • 𝛼 → livello di significatività • 1 − 𝛼 → zona di accettazione VERIFICA IPOTESI FREQUENZA RELATIVA dell’UNIVERSO 𝝅per GRANDI CAMPIONI n>100 - 𝜋 → frequenza relativa universo ignota (parametro) - 𝜋0 → prefissato - 𝑃 → frequenza relativa campionaria (statistica test) 1. 𝐻0: 𝜋 = 𝜋0 Se 𝐻0 è vera: • 𝑬ሺ𝑿ሻ = 𝝅 • 𝑽𝑨𝑹ሺ𝑿ሻ = 𝝅ሺ𝟏−𝝅ሻ 𝒏 2. Per campione grande → TEOREMA CENTRALE DEL LIMITE ?̅?~𝑵 (𝝅, 𝝅ሺ𝟏 − 𝝅ሻ 𝒏 ) → 𝒁ሺ?̅?ሻ = 𝑷 − 𝝅𝟎 √𝝅ሺ𝟏 − 𝝅ሻ 𝒏 ~𝑵ሺ𝟎, 𝟏ሻ 3. Se la 𝜎2 dell’universo è ignota, la stimo con 𝑠𝑐𝑜𝑟𝑟 2 = 𝒏 𝒏−𝟏 𝒔𝟐 a. DIRETTO scelgo a priori: o 𝐻1 → scelta alternativa o 𝛼 → livello di significatività o 1 − 𝛼 → zona di accettazione b. INVERSO P-Value: o Calcolo P-Value su 𝑧ሺ?̅?ሻ osservato MODELLO DI REGRESSIONE LINEARE SEMPLICE In statistica descrittiva ci poniamo il problema di determinare la retta ai punti più vicini alle corrispondenti coppie dei dati osservati ሺ𝒙𝒊, 𝒚𝒊ሻ, ovvero di interpolazione lineare. Nella realtà non ci si può aspettare un adattamento perfetto, in generale i valori osservati non coincideranno con i valori teorici quindi non c'è un adattamento perfetto. Per questo si introduce una v.a. 𝒆𝒊 che rappresenta i residui ovvero le differenze tra i valori osservati e i valori teorici. 𝑬 = 𝒆𝒊 = 𝒚𝒊 − 𝒚?̂? 𝒇𝒐𝒓𝒎𝒖𝒍𝒂 → 𝒚?̂? = 𝜷𝟎 + 𝜷𝟏𝒙𝒊 *In statistica inferenziale l’intercetta 𝛽0 (a) e il coefficiente angolare(di regressione) 𝛽1 (b) sono due parametri incogniti che devono essere stimati partendo da un campione di n osservazioni, il metodo con cui si stimano è quello dei minimi quadrati. CARATTERISTICHE 𝑷: • 𝑬ሺ𝑿ሻ = 𝝅 • 𝑽𝑨𝑹ሺ𝑿ሻ = 𝝅ሺ𝟏−𝝅ሻ 𝒏 FORMULA 𝒛 = 𝒙 − 𝑴 𝝈 𝒆𝒊 → Quantità che rappresenta i residui ovvero la differenza tra i 2 valori 𝒚𝒊 → valore osservato 𝒚?̂? → valore teorico osservato PROCEDURA IN BREVE 1. Fisso 𝐻0 2. Fisso 𝐻1 3. Calcolo 𝑆𝑐𝑜𝑟𝑟 2 se non ce l’ho 4. Approccio diretto a. Fisso 𝛼 b. Definisco zone di rifiuto/accettazione c. Calcolo 𝑧ሺ𝑇ሻ d. Decido se accettare o no 𝐻0 5. Approccio inverso a. Calcolo P-Value 25 Per effettuare la verifica di 𝐻0, calcolo lo scostamento standardizzato nel campione, cioè la realizzazione della variabile aleatoria 𝑍ሺ𝐵1ሻ: 𝒁ሺ𝑩𝟏ሻ = 𝒃𝟏 − 𝜷𝟏 𝒔ሺ𝑩𝟏ሻ = 𝒃𝟏 𝒔ሺ𝑩𝟏ሻ In quanto, se 𝐻0 è vera quindi che 𝜷𝟏 = 𝟎 ovvero che non esiste relazione lineare, quindi si semplifica: 𝑬ሺ𝑩𝟏ሻ = 𝜷𝟏 = 𝟎 allora 𝒛ሺ𝒃𝟏ሻ = 𝒃𝟏 𝒔ሺ𝑩𝟏ሻ *con la verifica di ipotesi si parte dal presupposto che 𝐻0 sia vera. 1. GRANDI CAMPIONI n>100 - Normale Per il TCL → 𝒁ሺ𝑩𝟏ሻ = 𝒃𝟏 𝒔ሺ𝑩𝟏ሻ ~𝑵ሺ𝟎, 𝟏ሻ 2. PICCOLI CAMPIONI n<100 - t di Student Si assume l’ipotesi: la variabile dipendente 𝑌𝑖 presenta distribuzione normale nell'universo: 𝒀𝒊~𝑵ሺ𝜷𝟎 + 𝜷𝟏𝒙𝒊; 𝝈 𝟐ሻ La cui varianza 𝜎2 è ignota e viene stimata con 𝑺𝒄𝒐𝒓𝒓 𝟐 = ∑ሺ𝒚𝒊−𝒚?̂?ሻ 𝟐 𝒏−𝟐 = ∑ 𝒆𝒊 𝟐 𝒏−𝟐 Quindi → 𝒁ሺ𝑩𝟏ሻ = 𝒃𝟏 𝒔ሺ𝑩𝟏ሻ ~𝒕ሺ𝒈: 𝒏 − 𝟐ሻ Z di 𝐵1 si distribuisce come una t di Student con n-2 gradi di libertà Es.* vedi quaderno APPROCCIO INFERENZIALE AL 𝜹 COEFFICIENTE DI DETERMINAZIONE LINEARE Bontà di adattamento Si vuole controllare che il modello proposto sia realmente in grado di rappresentare in modo soddisfacente i dati a disposizione. Dal punto di vista descrittivo la misura principale della bontà di adattamento a. All’indice di determinazione lineare, pertanto può essere interpretato come la quota di devianza della variabile dipendente Y chi è spiegata dalla relazione lineare con la variabile esplicativa X. tale indice è una misura descrittiva, quindi non può formulare alcune ipotesi sulla natura delle osservazioni 𝑦𝑖 in inferenza. Un approccio di tipo modellistico in cui Y e v.a., anche l'indice di determinazione lineare può essere considerato come la realizzazione di una variabile aleatoria. INTERPRETAZIONE: Si fonda sulla scomposizione della devianza della variabile dipendente Y, ed è la quota di DEV di Y che è instaurata con la variabile esplicativa X 𝜹 = 𝑫𝑬𝑽൫?̂?൯ 𝑫𝑬𝑽ሺ𝒀ሻ = 𝟏 − 𝑫𝑬𝑽ሺ𝑬ሻ 𝑫𝑬𝑽ሺ𝒀ሻ Anche se 𝜹 > 𝟎 possiamo chiederci se dovuto a una relazione tra X e Y o alle fluttuazioni campionarie? Per saperlo sottopone a verifica dicendo che tra X e Y non esiste una relazione lineare e come ipotesi alternativa che tra X e Y esiste una relazione lineare e diretta o inversa: • 𝑯𝟎: 𝜹 = 𝟎 → Non c'è relazione lineare tra X e Y • 𝑯𝟏: 𝜹 > 𝟎 → Esiste una relazione lineare tra X e Y La statistica test da utilizzare per verificare 𝐻0, è la trasformazione di 𝛿: 𝐹 = 𝛿 1−𝛿 𝑛−2 = 𝐷𝐸𝑉൫?̂?൯ 𝐷𝐸𝑉ሺ𝐸ሻ 𝑛−2 → Presenta una distribuzione F di Fisher con (n-2) gradi di libertà (NON USIAMO) nel modello di regressione lineare semplice, la statistica F si può ricavare da 𝑧ሺ𝛽1ሻ e quindi si verifica la proprietà (vale solo per ipotesi alternativa bilaterale): 𝑭 = ቀ 𝒃𝟏 𝒔ሺ𝑩𝟏ሻ ቁ 𝟐 = 𝒛ሺ𝒃𝟏ሻ 𝟐 (USIAMO) 26 Quindi: 𝑯𝟎: 𝜹 = 𝟎 e 𝑯𝟏: 𝜹 > 𝟎 Coincide con: 𝑯𝟎: 𝜷𝟏 = 𝟎 e 𝑯𝟏: 𝜷𝟏 ≠ 𝟎 Se la variabile esplicativa e significativa, allora anche la bontà di adattamento la sarà; al contrario se la variabile esplicativa non è significativa anche la bontà di adattamento non sarà significativa. Nella procedura inferenziale di verifica di ipotesi nulla in assenza di una relazione lineare tra le variabili X e Y (tramite F), sono diverse concettualmente dalle indicazioni che si traggono dalla statistica descrittiva sulla bontà di adattamento. Infatti, la relazione può risultare statisticamente significativa anche in presenza di un adattamento scadente , nel caso di rifiuto delle ipotesi nulla il test fornisce soltanto un' indicazione che l'indice di determinazione della popolazione diversa da 0 non che esso è prossimo a 1 (elevato). Quando calcoliamo il P-VALUE ≅ 0 → indica che c'è una fortissima esistenza di una relazione lineare tra le 2 variabili in quanto l’ipotesi nulla viene rifiutata. TABELLA DI ANALISI DELLA VARIANZA La tabella di analisi della varianza ci serve per calcolare la statistica F
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved