Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica Descrittiva, Probabilità e Inferenza - teoria schematizzata e semplificata per capire, Schemi e mappe concettuali di Statistica

SCHEMI COMPLETI DI ENTRAMBE LE PARTI In riferimento a: "A. Cerioli, M. A. Milioli, Introduzione all’inferenza statistica senza (troppo) sforzo, 2020" “M.A. MILIOLI, M. RIANI, S. ZANI, Introduzione all’analisi dei dati statistici, IV edizione ampliata, Pitagora, Bologna, 2019” Schemi e sintesi per comprendere teoria e applicazioni pratiche

Tipologia: Schemi e mappe concettuali

2019/2020

In vendita dal 14/05/2020

preet0034
preet0034 🇮🇹

4.6

(46)

37 documenti

1 / 47

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Statistica Descrittiva, Probabilità e Inferenza - teoria schematizzata e semplificata per capire e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity! STATISTICA DESCRITTIVA e PROBABILITA’ e INFERENZA STATISTICA – SCHEMI COMPLETI DEFINIZIONI STATISTICA DESCRITTIVA Unità statistiche: oggetto di rilevazione Variabili: genere, età, titolo di studio Modalità: diversi modi in cui la variabile si presenta es. scuola media, superiore… Collettivo statistico: insieme degli elementi che sono oggetto di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la rilevazione delle modalità con le quali il fenomeno studiato si presenta. Scala nominale (variabili dicotomiche): variabili qualitative, le modalità non si possono ordinare secondo una scala di misurazione, funzione invertibile. Puo’ essere dicotomica ovvero assumere solo due valori es. maschio / femmina; Vale la regola: da qualitative a quantitativo OK, da quantitativo a qualitativo NO. Scala ordinale: le modalità si possono ordinare secondo una scala di misurazione, funzione monotona crescente, es. titolo di studio, professione, voti Scala di intervalli: misura le distanze tra modalità passando da una scala all’altra, la differenza tra i termini mantengono la relazione degli intervalli, trasformazione lineare crescente. Es. temperature Scala di rapporti: la somma di due valori moltiplicati per una costante >0 è uguale alla stessa trasformazione della somma dei due valori originali, trasformazione lineare omogenea crescente. Es. peso Variabile discreta: le modalità sono numeri interi e finiti 1,2,3… oppure un numero infinito numerabile come es. probabilità di vincita al superenalotto Variabile continua: le modalità sono numeri reali: 1, 1,5, 0,3… potrebbero essere discrete a causa della rilevazione es. reddito, temperatura Distribuzioni di frequenze: - Assolute: numero di modalità da esso descritte - Relative: servono per confrontare 2 collettivi distinti e a valutare il peso di una modalità rispetto alla totalità del collettivo in quanto le frequenze assolute non sono confrontabili. La somma delle frequenze relative è 1. - Percentuali: espressione delle frequenze relative in termini percentuali, la loro somma è pari a 100%. Funzione di ripartizione: Si indica con F(x) è una funzione di frequenza accumulata a gradini, ed è la frequenza di una variabile quantitativa X, relativa dei valori di frequenza minori o uguali a x. “es. F(x) = 0.785 in corrispondenza al numero 3, indica che in Italia il 78,5% delle famiglie aveva un numero di componenti <= 3” Le PROPRIETA’: - È sempre compresa tra 0 ≤ 𝐹(𝑥) ≤ 1 - lim 𝑥 → − ∞ 𝐹(𝑥) = 0+ - lim 𝑥 → + ∞ 𝐹(𝑥) = 1− - 𝑥2 ≥ 𝑥1 → 𝐹(𝑥2) ≥ 𝐹(𝑥2) → monotona crescente Densità di frequenza: si utilizza quando ci sono classi di dimensione diversa per poter fare il confronto Matrice dati derivati: es. tasso di disoccupazione 𝑛° 𝑑𝑖𝑠𝑜𝑐𝑐𝑢𝑝𝑎𝑡𝑖 𝑓𝑜𝑟𝑧𝑒 𝑙𝑎𝑣𝑜𝑟𝑜 ∗ 100, utilizzare formule ponderate di media e scostamento quadratico medio, si utilizza come peso il denominatore Tabelle a doppia entrata: ci aiutano a capire se c’è una relazione tra le variabili - Contingenza: le variabili X e Y sono qualitative - Correlazione: variabili X e Y sono quantitative Serie statistica: costituita da elementi di uguale o diversa importanza Serie storica: fanno riferimento a tempi o intervalli di tempo successivi INVARIANZA IN SENSO DEBOLE E IN SENSO FORTE Cos’è una STATISTICA: è una qualunque funzione che associa un numero reale a una serie di osservazioni. Esempio: la media, la mediana, la varianza, scarto quadratico medio, la moda, ecc. Problema della SIGNIFICANZA di una STATISTICA: Ciascuna scala di misura può essere soggetta ad alcune trasformazioni ammissibili senza alterare Ie informazioni fornite dalla scala. Il calcolo degli indici statistici discende dalla SCALA DI MISURAZIONE DEL FENOMENO, a fini di confronto al variare della traduzione numerica, si conservino le disuguaglianze fra valori dell’indice calcolati nelle differenti circostanze. Quali statistiche possono essere calcolate per i diversi tipi di scala delle variabili? TIPI DI TRASFORMAZIONI ammesse: TIPI DI SCALA TRASFORMAZIONI AMMISSIBILI INDICI (esempi) Scala nominale Biunivoche - sostituzione dei codici Es. variabile risposta: modalità sono “Si” e “No”; codifico “Si” = 1, e quindi 1 = “Si”, “No” = 0, quindi 0 = “No” 𝑌 = 𝑡(𝑦) Moda Scala ordinale Monotona crescente – i codici che associo devono mantenere l’ordine di grandezza Es. Voti: non suff., suff., buono, ottimo oppure voti numerici: 5,6,7, ...10 𝑌 = 𝑡(𝑦) Mediana, percentili Scala d’intervalli Lineari crescenti (moltiplicazione per una costante positiva e somma di una costante) Es. temperature 𝑌 = 𝑎 + 𝑏 ∗ 𝑥 𝑡𝑎𝑙𝑒 𝑐ℎ𝑒 𝑏 > 0 Media, Fisher(forte) 𝑿 𝒀⁄ Y1 Yj … Yc TOTALE X1 N11 N1j … N1c N1 Xi Ni1 Nij … Nic Ni Xr Nr1 Nrj … Nrc Nr TOTALE N1 Nj … Nc N - Marginali: ultima colonna e ultima riga - Parziali: tutte le modalità in mezzo INDICI STATISTICI SU UNA VARIABILE (UNIDIMENSIONALI): medie, indici di variabilità, forma di distribuzione. - Sintetizzare: valore medio, valore più frequente, la sua variabilità… - Confrontare: in situazioni differenti, stessa variabile in die o più insiemi di unità, in tempi diversi… MEDIE ANALITICE → Esprime l’ordine di grandezze dell’insieme dei dati rilevati, sintetizzano le informazioni sostituendo alla pluralità dei valori originari un unico numero, è sempre compresa tra il valore più piccolo e il più grande di quelli osservati. PROPRIETA’ in GENERALE: - Lascia invariata la somma, sostituendo M(X) ai singoli 𝒙𝒊 - Rende nulla la somma algebrica degli scostamenti ∑ (𝑥𝑖 − 𝑀) = 0 𝑛 𝑖=1 - Rende minima la somma algebrica degli scostamenti al quadrato ∑ (𝑥𝑖 − 𝑀) 2 = 0𝑛𝑖=1 - E’ invariante in senso debole per trasformazioni lineari crescenti (quindi anche per trasformazioni lineari omogenee), è quindi applicabile solo per fenomeni quantitativi. MEDIA ARITMETICA 𝑴(𝒀) = 𝒂 + 𝒃𝑴𝒙 Definizione → La media aritmetica è quel valore che sintetizza il carattere di un collettivo statistico lasciando invariato l’ammontare totale del carattere stesso. Vale a dire che sostituendo la media a tutti i valori del carattere rimane invariato l’ammontare del carattere. APPLICAZIONI: 1. Semplice: si divide il totale per il numero di componenti (unità) 2. Ponderata: la si utilizza nei casi di classi di frequenze, dove il valore medio degli estremi della classe diventa xi e la loro frequenza assoluta il peso. Nei rapporti statistici, dove il peso è rappresentato dal denominatore. Tabelle a doppia entrata, dove si calcolano le medie parziali e la media generale è considerata la media ponderata delle medie parziali. 3. Condizionata: si calcola la media solo sui dati che soddisfano una certa condizione. 4. Solo fenomeni QUANTITATIVI PROPRIETA’: 1. Rende nulla la somma algebrica degli scostamenti ∑ (𝑥𝑖 − 𝑀) = 0 𝑛 𝑖=1 2. Rende minima la somma dei quadrati degli scostamenti ∑ (𝑥𝑖 − 𝑀) 2 = min𝑛𝑖=1 3. E’ affine equivariante per posizione per trasformazioni lineari crescenti (invariante in senso debole), vale a dirsi è applicabile per fenomeni rilevati su scala di intervalli o scala di rapporti Altre PROPRIETA’ pratiche: a. Lascia invariata la somma, ovvero se sostituisco ?̃? ai singoli xi la media non cambia. b. La media conserva l’unità di misura dei valori su cui è stata calcolata c. Internalità: Data una serie ordinata di valori: x1 ≤ x2 ≤…≤ xn la media è compresa tra x1 ≤ M ≤xn d. Omogeneità: Moltiplicando con una costante c i termini di una serie di valori, anche la media risulta moltiplicata per la costante c e. Traslativa: Sommando una costante c ai termini di una serie di valori, anche la stessa costante è aggiunta alla serie di valori. f. Associativa: ovvero, suddividendo in due o più gruppi i valori della variabile, la media generale può ottenersi come media ponderata delle medie parziali di questi gruppi: 𝑀(𝑥) = 𝑥1∙𝑁1+𝑥2∙𝑁2+⋯+𝑥𝑘∙𝑁𝑘 𝑁1+𝑁2+⋯+𝑁𝑘 COMMENTO RISULTATO: Se M(x) = 50€ “I clienti che sono compresi tra X-Y anni hanno speso una media di 50€” “Nel caso che tutti i clienti avessero speso uno stesso ammontare, questo sarebbe di 50€” MEDIA GEOMETRICA Definizione → La media geometrica è quel valore che sintetizza il carattere in modo che, sostituito ai singoli termini, lasci invariato il prodotto delle modalità attribuite ad essi. APPLICAZIONI: 1. Trova applicazione ogni volta che la funzione da lasciare invariata è il prodotto: √𝒙𝟏 ∙ 𝒙𝟐 ∙ … ∙ 𝒙𝒏 𝒏−𝟏 = √∏ 𝒙𝒊 𝒏 𝒊=𝟏 𝒏−𝟏 = (𝒙𝒊𝒎𝒆𝒅𝒊𝒐 − 𝟏) ∙ 𝟏𝟎𝟎 = 𝒙𝒊𝒎𝒆𝒅𝒊𝒐% 2. In caso di distribuzioni di frequenze si utilizza la media geometrica ponderata: 𝑴𝒈 = √∏ 𝒙𝒊 𝒏𝒊𝒏 𝒊=𝟏 𝒏−𝟏 3. Calcolo del montante: [𝑐𝑎𝑝𝑖𝑡𝑎𝑙𝑒 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑡𝑜 ∙ (1 + 𝑖)𝑡] 4. Per calcolare il TASSO MEDIO ANNUO → nel caso di serie storiche vale: √ 𝒙𝒇𝒊𝒏𝒂𝒍𝒆 𝒙𝒊𝒏𝒊𝒛𝒊𝒂𝒍𝒆 𝒏−𝟏 = (𝒙𝒊𝒎𝒆𝒅𝒊𝒐 − 𝟏) ∙ 𝟏𝟎𝟎 = 𝒙𝒊𝒎𝒆𝒅𝒊𝒐%, il risultato indica la variazione media % per anno 5. Solo fenomeni QUANTITATIVI PROPRIETA’: 1. Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi (base e): log 𝑀𝑔 = 1 𝑛 log [∏ 𝑥𝑖 𝑛 𝑖=1 ] = ∑ log 𝑥𝑖 𝑛 𝑖=1 Omogeneità: Moltiplicando con una costante c i termini di una serie di valori, anche la media risulta moltiplicata per la costante c: Mg(c∙X) = c ∙ Mg(X) PERCENTILI e MEDIANA, QUARTILI Definizione generale → I percentili di ordine z, e si indica con 𝑥𝑧 tale che 0 < z < 1, è il valore che divide in “x” parti uguali la successione ordinata crescente (𝑥𝑖); Quindi 𝐹(𝑥𝑧) = 𝑧, 0 < z < 1 - MEDIANA: Si definisce mediana 𝑀𝑒 di x, il valore che occupa la posizione centrale e divide in due la successione ordinata. È il percentile 𝑥0,50 - QUARTILI: dividono la successione ordinata in modo non decrescente in 4 parti uguali 𝑥0,25 𝑥0,50 𝑥0,75 𝑥100 - DECILI: dividono la successione ordinata in modo non decrescente in 4 parti uguali 𝑥0,10 𝑥0,20 … 𝑥100 APPLICAZIONI MEDIANA: 1. In caso di numeri in serie ORDINATA in modo non decrescente, corrisponde a: a. N PARI → 𝑛 2 +( 𝑛+1 2 ) 2 b. N DISPARI → 𝑛+1 2 2. In caso di distribuzione di frequenze (𝑥𝑖 ordinati in ordine non decrescente): calcolo la funzione di ripartizione relativa (funzione delle frequenze accumulate relative), e il valore corrispondente alla mediana si colloca dove 𝐹(𝑥) ≥ 0,50 3. In caso di distribuzioni di classi di frequenze (𝑥𝑖 ordinati in ordine non decrescente): calcolo la funzione di ripartizione relativa (funzione delle frequenze accumulate relative), considero i valori corrispondenti a 𝐹(𝑥) ≥ 0,50 , e applico la formula, il risultato è il valore esatto della mediana. 4. Solo fenomeni QUANTITATIVI e QUALITATIVI ORDINALI 5. Non risente di valori anomali perché occupa la posizione centrale COMMENTO RISULTATO MEDIANA “Il 50% dei dipendenti ha un guadagno ≤ 800€ mentre il restante ha un guadagno maggiore di 800€” PROPRIETA’ MEDIANA: 1. Rende minima la somma delle differenze in modulo degli scostamenti ∑ |(𝑥𝑖 − 𝑀𝑒)| = min 𝑛 𝑖=1 2. E’ affine equivariante, INVARIANTE IN SENSO DEBOLE, per posizione per trasformazioni monotone crescenti (invariante in senso debole), vale a dirsi è applicabile per fenomeni rilevati su scala ordinale Essendo che mantiene l’ordine della successione dei valori, la trasformazione non cambia la variabilità APPLICAZIONI PERCENTILI (come esempio utilizzo il primo quartile 25%): 1. In caso di numeri in serie ORDINATA in modo non decrescente il percentile 𝑥0,25: a. Per hp, ho n = 10, i valori da calcolare corrisponderanno al 25% di 10 (si considera solo il numero intero), quindi alle posizioni n= 2 e n= 2+1=3, sostituisco i valori alla posizione N PARI → 𝑛 2 +( 𝑛 2 )+1 2 un parametro fondamentale della funzione di densità della distribuzione normale (inferenza) Relazione sempre vera → 𝑺𝑴 ≤ 𝝈 PROPRIETA’ - 1 - 2 - 3 - 4 - Non soddisfa la 5 - 1 - 2 - 3 - 4 - 5 Interpretazione Dato, 𝑆𝑚 = 6,8, In media le aziende hanno 100 dipendenti con uno scostamento quadratico medio in + o in – di circa 7 addetti Dato 𝜎 = 8,46, in media le aziende hanno 100 dipendenti con uno scostamento quadratico medio in + o in – di 8,5 circa DEVIANZA (DEV) VARIANZA (𝝈𝟐 𝒐𝒑𝒑𝒖𝒓𝒆 𝑽𝑨𝑹) Definizione E’ la somma dei quadrati degli scostamenti dalla media 𝐷𝐸𝑉 = ∑(𝑥𝑖 − 𝑀) 2 𝑛 𝑖=1 (in pratica è il numeratore della VAR) E’ la media aritmetica dei quadrati degli scostamenti fra i valori 𝑥𝑖 e la loro media aritmetica 𝑉𝐴𝑅 = 𝜎2 = ∑ (𝑥𝑖 − 𝑀) 2𝑛 𝑖=1 𝑛 = 𝑀2 2 − 𝑀2 = ∑ 𝑥𝑖 2 𝑛 − 𝑀2 Applicazioni - fenomeni quantitativi - impiegata nell’ambito dell’inferenza e regressione - per motivi di interpretazione non la si utilizza come indice di variabilità, ma utilizzo 𝜎 PROPRIETA’ - Se l’unità di misura è espressa in Kg la sua VAR è espressa in 𝐾𝑔2 - Var(c) = 0 - 𝑉𝑎𝑟(𝑋 + 𝑐) = 𝑉𝑎𝑟(𝑋) (invarianza per traslazione) - Non è affine equivariante per scala: 𝑉𝑎𝑟(𝑐 ∗ 𝑋) = 𝑐2 ∗ 𝑉𝑎𝑟(𝑋) SCOMPOSIZIONE VARIANZA: Dato un collettivo statistico e g gruppi, la media generale puo’ essere ottenuta come media aritmetica ponderata delle singole parziali. La varianza generale puo’ essere scomposta in varianza in varianza nei gruppi e varianza fra i gruppi. Si utilizza il metodo per dire se i gruppi sono omogeni al loro interno e/o diversi tra loro. Se prevale 𝜎𝑛𝑒𝑖 → i gruppi sono diversi al loro interno e omogenei fra loro Se prevale 𝜎𝑓𝑟𝑎 → i gruppi sono diversi fra loro ma omogenei al loro interno la VAR che prevale è la variabilità che domina Es. Spesa famiglie in due regioni diverse Se + alta varianza nei: dipende dalla composizione delle famiglie cioè nei gruppi, Ovvero che i gruppi sono al loro interno diversi ma sono omogenei fra loro. Se + alta varianza fra: la spesa dipende dalla regione in cui si trovano le famiglie, diversità in base alla regione, Ovvero i gruppi sono omogenei fra loro ma diversi al loro interno. MAD (robusto) Definizione → È la mediana degli scostamenti medi assoluti quadratici dalla mediana 𝑀𝐴𝐷 = 𝑀𝑒(|𝑥𝑖 − 𝑀𝑒|) APPLICAZIONI: 1. E’ robusto → non risente dei valori anomali (outliers) PROPRIETA’ in riferimento a PROPRIETÀ GENERALI VARIABILITÀ, valgono: - 1 - 2 - 3 - 4 COMMENTO RISULTATO in corrispondenza di 𝒙𝒊 = 𝟒 “Il 50% degli scostamenti dalla mediana risulta ≤ 4, il restante > 4” INDICI DI VARIABILITA’ RELATIVA CONDIZIONI PER APPLICARLI: Dati X e Y due fenomeni… 1. X e Y devono avere la stessa unità di misura 2. Stesso ordine di grandezza (approssimativamente) APPLICAZIONI: Si utilizzano quando per esempio, le modalità delle distribuzioni a confronto sono espresse nella stessa unità di misura, ma le loro intensità medie sono differenti → es: quantità di importazioni di beni diversi, prezzi di merci ordinarie e prezzi di merci pregiate, la potenza tra diversi tipi di auto, Etc. PROPRIETA’ 1. Numeri puri → non hanno unità di misura 2. Noi consideriamo solo un indice di variabilità tra 0 e 1. 3. Invarianti in senso forte COMMENTO RISULTATO Dati: 𝐶𝑉𝑥 = 59,95% e 𝐶𝑉𝑦 = 56,15% e 𝐶𝑉𝑧 = 26,5% - il confronto tra i vari CV segnala che risulta maggiore la variabilità di X, pari a circa il 60% della rispettiva media, mentre la variabilità della Y e di Z è uguale rispettivamente a 56,15% e al 26,5% della media. CAMPO DI VARIAZIONE (K’) COEFFICIENTE DI VARIAZIONE CV’ / 𝝈 RELATIVO MAD’ GENERICO V’ 𝐾′ = 𝐾 𝑀 ∗ 100 È espresso in % M è la media 𝐶𝑉′ = 𝜎 𝑀 ∗ 100 È espresso in % M è la media 𝑀𝐴𝐷′ = 𝑀𝐴𝐷 |𝑀𝑒| 𝑉′ = 𝑉 |𝑀| SCOSTAMENTI STANDARDIZZATI (𝒛𝒊) Definizione → Si dicono scostamenti standardizzati dei valori di una variabile quantitativa X, e si indicano con 𝑧𝑖, i rispettivi scostamenti dalla media aritmetica rapportati allo scostamento quadratico medio 𝜎. 𝑧𝑖 = 𝑥𝑖−𝑀 𝜎 APPLICAZIONI: Si utilizzano quando i fenomeni: 1. X e Y hanno unità di misura differente (es. superficie di abitazione occupata in mq e reddito annuo in €) 2. Diverso ordine di grandezza (es. reddito annuo in € e spesa media mensile in €, il reddito è molto maggiore rispetto alla spesa mensile) PROPRIETA’: 1. La media degli scostamenti standardizzati è sempre uguale a 0 (dalla proprietà della media aritmetica) 𝑀(𝑍) = 0 2. 𝑉𝑎𝑟(𝑍) = 1 , perchè la media dei quadrati dei numeratori delle 𝑧𝑖 è uguale 𝜎 2, quindi 𝜎 = 1 3. Sono numeri puri, non hanno unità di misura COMMENTO RISULTATO: Dato individuo A con peso -0,695 e altezza 1,003 “L’individuo A per il peso risulta sotto la media dei pesi e pesa -meno della media, per l’altezza è +più alto della media delle altezze in particolare si colloca sotto la media dei pesi di -0,695 volte 𝝈 e si colloca sopra la media di 1,003 volte 𝝈 dei pesi” Il risultato in +/- indica quanto sta sopra la media o sotto la media CONCENTRAZIONE Definizione → Misura la variabilità relativa per fenomeni perfettamente trasferibili (VEDI FORMULE SU FORMUALARIO) VINCOLI: i FENOMENI devono essere PERFETTAMENTE TRASFERIBILI: - Fenomeni che assumono valori non negativi 𝑥𝑚𝑖𝑛𝑖𝑚𝑜 = 0 - Fenomeni che ammettono che l’ammontare del fenomeno possa essere trasferito da un’unità all’altra e che il suo valore massimo che può assumere è 𝑥𝑚𝑎𝑠𝑠𝑖𝑚𝑜 = ∑ 𝑥𝑖 SI CONSIDERANO: 1. EQUIDISTRIBUZIONE: se tutti hanno lo stesso ammontare = variabilità nulla (Se un carattere quantitativo trasferibile non è equidistribuito, diciamo che è concentrato) 2. MASSIMA CONCENTRAZIONE: quando una sola unità possiede tutto l’ammontare e le altre unità non possiedono nulla APPLICAZIONI: - Variabili quantitative: Reddito, spesa, numero dipendenti di un insieme di imprese… Es. dati n elementi, ORDINARE IN ORDINE NON DECRESCENTE i dati (in caso di classi di frequenze: 𝑥𝑖, in caso di dati in serie: 𝑄𝑖). - 𝑄𝑖: quantità totale; 𝑞𝑖: quantità relative; 𝑄𝑖 = 𝑞1 + 𝑞2 + ⋯ + 𝑞𝑛 inoltre, si può ricavare → 𝑄𝑖 = 𝑥𝑖 ∗ 𝑛𝑖 𝑜𝑝𝑝𝑢𝑟𝑒 𝑄𝑖 = 𝑞𝑖 ∗ 100 (se espressi in %). - Ricavo le frequenze relative e le quantità relative: 𝑞𝑖 = 𝑄𝑖 𝑄𝑡𝑜𝑡𝑎𝑙𝑒𝑖 → l’ultima è 1 𝑓𝑖 = 𝑛𝑖 𝑛𝑡𝑜𝑡𝑎𝑙𝑒𝑖 𝑜𝑝𝑝𝑢𝑟𝑒 1 𝑛 → l’ultima è 1 Poi calcolo le cumulate f’ e q’. - Se: • 𝑓𝑖 ′ = 𝑞𝑖 ′ → area nulla = EQUIDISTRIBUZIONE • 𝑞𝑖 ′ = 0 → MASSIMA CONCENTRAZIONE GRAFICAMENTE (curva di Lorenz) - EQUIDISTRIBUZIONE → 𝑓𝑖 ′ = 𝑞𝑖 ′ i punti si dispongono sulla bisettrice (linea azzurra) il segmento di estremi (0, 0) e (1, 1) viene chiamato retta di equidistribuzione. - MASSIMA CONCENTRAZIONE → 𝑞𝑖 ′ = 0 i punti di coordinate (𝑓𝑖 ′; 𝑞𝑖 ′) si trovano nel triangolo di vertici (0, 0), (1, 0) e (1, 1). Unendo tali punti si ottiene una linea che viene chiamata spezzata di concentrazione o curva di concentrazione o curva di Lorenz (graficamente una pancia). Dal rapporto fra l’area di concentrazione ed il suo valor massimo si ottiene un indice chiamato rapporto di concentrazione. Area massima di concentrazione è data da: - Distribuzioni di classi di freq. → 𝑛 𝑛−1 se n è molto grande tende a 1 - In serie → 1 𝑛 se n è molto grande tende a 0 o 𝛾 < 0 → asimmetria negativa ALTRI INDICI DI ASIMMETRIA (robusti) Indici di asimmetria robusti: MAD, Me, Media troncata • INDICE 𝑨𝑺𝟒: Utilizzato nel caso si voglia un indice robusto che non tenga conto dei valori anomali 𝐴𝑆4 > 0 → asimmetria positiva 𝐴𝑆4 < 0 → asimmetria negativa • INDICE 𝑨𝑺𝒓 (asimmetria di Bowley): è l’indice 𝐴𝑆4 normalizzato 𝐴𝑆𝑟 = −1 → se 𝑥0,75 = 𝑀𝑒 𝐴𝑆𝑟 = 1 → se 𝑥0,25 = 𝑀𝑒 BOXPLOT: Grafico a Scatola - Segmento che indica la posizione della Me → ordine di grandezza - Rettangolo box la cui lunghezza indica il grado di dispersione del 50% dei valori (tra 1° e 3° quartile) → > lunghezza tanto è + elevata la variabilità dei valori attorno a Me - 2 segmenti “coda” che indicano fino a che punto si estende la coda dx e sx della distribuzione prescindendo da valori anomali (outliers) - I punti esterni sono i valori anomali SERIE STORICHE Definizione: È una successione di valori di una variabile quantitativa riferiti a tempi (data specifica) o intervalli temporali (es. ogni mese di un anno); si studia la variazione del fenomeno nel tempo. SERIE STORICA MULTIPLA: quando si hanno più variabili es. birra, vino, acqua. Nelle serie storiche, ci preoccuperemo DELLO STUDIO DELLE VARIAZIONI NEL TEMPO NEL FENOMENO. Le variazioni delle serie storiche da un anno all’altro possono essere ASSOLUTE o RELATIVE (numeri indici – numeri puri). Il problema delle variazioni assolute non permette di fare confronti tra le variazioni dei fenomeni per motivi di ordine di grandezza diversi oppure un’unità di misura diversa. Per questo si preferiscono utilizzare le variazioni relative, definite NUMERI INDICI: A BASE FISSA e a BASE MOBILE che sono rapporti adatti a confrontare le variazioni della stessa durata ma diversi valori di ordine di grandezza che si riferiscono allo stesso periodo temporale N.I. BASE FISSA N.I. BASE MOBILE Si ottengono rispetto un periodo base di riferimento, la base rimane fissa Si ottengono rispetto all’anno immediatamente precedente Dati: t = 1 anno di base/primo anno t=T ultimo anno considerato 𝑥𝑡 𝑥1 ∗ 100 𝑥𝑡 𝑥𝑡−1 ∗ 100 - Fanno riferimento a un TEMPO BASE = 100 - Posso calcolare la 𝑽𝑨𝑹𝑰𝑨𝒁𝑰𝑶𝑵𝑬 𝑪𝑶𝑴𝑷𝑳𝑬𝑺𝑺𝑰𝑽𝑨 = 𝒙𝒖𝒍𝒕𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝒙𝒑𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 - Fanno riferimento all’anno precedente - Il primo anno non c’è valore - Si ottiene da n.i. a base fissa - VARIAZIONE % RISPETTO ALL’ANNO PRECEDENTE 𝑛. 𝑖. 𝑚𝑜𝑏𝑖𝑙𝑒 − 100 = % VARIAZIONE COMPLESSIVA → 𝒙𝒖𝒍𝒕𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝒙𝒑𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 VARIAZIONE COMPLESSIVA → 𝒏𝒊 𝟏𝟎𝟎 ∙ 𝒏𝒊 𝟏𝟎𝟎 … = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 VAR % MEDIA ANNUA → √ 𝒙𝒖𝒍𝒕𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝒙𝒑𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝑻−𝟏 = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 VAR % MEDIA ANNUA → √ 𝒏𝒊 𝟏𝟎𝟎 ∙ 𝒏𝒊 𝟏𝟎𝟎 … 𝑻−𝟏 = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 Sottraendo 100 a n.i. a base fissa si ottiene la variazione % della variabile rispetto al TEMPO BASE Sottraendo 100 a un n.i. a base mobile si ottiene la variazione % della variabile rispetto all’anno precedente TASSO MEDIO ANNUO % DI VARIAZIONE: variazione media % complessiva annua per l’intero periodo considerato, si calcola n.i. a base mobile (o base fissa, a seconda di dove ho dati) Es. var%=5% → ogni anno in media i prezzi sono aumentati del 5% n.i. COMPOSTI: serie multivariante, si studia l’andamento del prezzo rispetto all’anno considerato di più fenomeni, e si considera per ognuno di essi il “peso” che indica l’importanza. In particolare, alcuni indici composti di particolare importanza sono gli indici di prezzi al consumo dati da un insieme di paniere di beni /servizi. Es. Supponiamo di fare delle rilevazioni sui prezzi. Se si vuole studiare l’andamento del prezzo di un solo bene allora abbiamo i numeri indici semplici. Se si vuole studiare l’andamento del prezzo di una classe di beni, allora si hanno i numeri indici complessi che operano una sintesi delle serie storiche dei prezzi dei singoli beni della classe. Sono misure statistiche formate dalla media dei prezzi ponderati per uno specifico paniere di beni e servizi, esso misura l’aumento generale dei prezzi, cioè l’inflazione al consumo per il periodo considerato. Intera collettività nazionale (NIC), per le famiglie di operai e impiegati (FOI) e l’indice armonizzato europeo (IPCA) NIC: INDICE NAZIONALE dei PREZZI al CONSUMO per l’intera COLLETTIVITA’ MISURA L’INFLAZIONE A LIVELLO DELL’INTERO SISTEMA ECONOMICO. Considera L’Italia come una famiglia di consumatori malgrado le differenze di abitudini interne. Usato da stati per prenere decisione sulle politiche economiche da attuare. Consumi generali delle famiglie italiane a livello nazionale IPCA: INDICE ARMONIZZATO DEI PREZZI AL CONSUMO PER I PAESI DELL’UE MISURA L’INFLAZIONE COMPARABILE A LIVELLO EUROPEO (uguale a NIC ma per UE) E’ un indicatore di convergenza delle politiche economiche dell’UE. Consumi generali delle famiglie italiane di beni e servizi comparabili a livello europeo Es. inflazione tra italia e francia FOI: INDICE DEI PREZZI AL CONSUMO PER LE FAMIGLIE DI OPERAI E IMPIEGATI INFLAZIONE DEI CONSUMI DELLE FAMIGLIE CHE FANNO CAPO A UN LAVORATORE DIPENDENTE (EXTRAGRICOLO) E’ considerato dalla maggior parte dei riferimenti normativi nazionali per l’adeguamento di valori espressi in moneta corrente (ex. Assegni per divorzi) Consumi generali delle famiglie italiane di beni e servizi dove il capofamiglia è un lavoratore dipendente extragricolo. Es. il proprietario di un appartamento può aumentare in % il prezzo dell’affitto in base a questo indice CONCATENAMENTO TRA n.i di base differente: Consiste di riportare i ni con la nuova base ai termini della vecchia base oppure di portare ni con la vecchia base ai termini della nuova base. Si utilizza quando il periodo del fenomeno considerato cambia. Per fare ciò si utilizza IL COEFFICIENTE DI RACCORDO che è il rapporto tra il valore dei ni quella base più vecchia del tempo corrispondente al cambiamento di base e il valore assegnato la base della nuova serie (di solito uguale a 100) Coefficienti di raccordo: Sono valori utilizzati per raccordare serie di indici riferite a basi diverse, che per loro natura non sarebbero teoricamente confrontabili a causa delle innovazioni nei prodotti e nelle ponderazioni introdotte ad ogni cambio di base. - Da vecchia base → a nuova base = si moltiplicano i ni per il coefficiente di raccordo - da nuova base → a vecchia base = si dividono i ni per il coefficiente di raccordo Le componenti di una serie storica: Si assume che i valori 𝒙𝒕 di una serie sia esprimibile mediante una funzione del tempo f(t) che esprime la “traiettoria” temporale e un residuo 𝒆𝒕 residuo non spiegato. Le funzioni su cui sono basati sono le funzioni interpolanti, dove si sceglie l’opportuna funzione che puo’ essere una retta, parabola o funzione esponenziale che meglio rappresenta il TREND → tendenza di fondo del fenomeno riferita a un lungo periodo di tempo ed è determinato dallo sviluppo del sistema economico ed è la traiettoria ideale che il fenomeno avrebbe percorso senza “perturbazioni” 𝒙𝒕 = 𝒇𝒕 + 𝒆𝒕 - Ciclo: costituito da oscillazioni attribuibili al succedersi di fase si susseguono, andamento di fondo tendenzialmente crescente. - Stagionale: < 1 anno, movimenti del fenomeno nel corso dell’anno che tendono a ripetersi in maniera analoga nello stesso periodo degli anni successivi DEFLAZIONAMENTO: Data una serie storica a prezzi correnti (in termini monetari), Consiste nel togliere l’effetto dell’inflazione per valutare un fenomeno in termini reali (prezzi costanti) quindi “depurati” dall’effetto dell’inflazione che fa variare i prezzi nel tempo, e non in termini monetari (prezzi correnti) ovvero con l’inflazione e quindi variano in base alla domanda. In generale si usa il deflazionamento per fenomeni: spesa sostenuta dalle famiglie, fatturato di un’azienda... Consente di valutare l'evoluzione temporale di un fenomeno economico in termini reali a prezzi costanti anziché in termini monetari a prezzi correnti per esempio per sapere se il potere di acquisto è lo stesso da un anno a un altro anno. Supponiamo di fare delle rilevazioni sui prezzi: se si vuole studiare l’andamento del prezzo di un solo bene allora abbiamo i numeri indici semplici; mentre s si vuole studiare l’andamento del prezzo di una classe di beni, allora si hanno i numeri indici complessi che operano una sintesi delle serie storiche dei prezzi dei singoli beni della classe. ANALISI BIDIMENSIONALE Indici statistici due o più variabili: si misura la relazione esistente tra le due variabili, si studia due fenomeni congiuntamente. Noi trattiamo CORRELAZIONE, variabili entrambe quantitative. Esiste una relazione lineare tra le due variabili X e Y? → CORRELAZIONE È elevata o modesta? COEFFICIENTE DI CORRELAZIONE Di quanto variano i valori di una variabile quando variano i valori dell’altra? → REGRESSIONE CORRELAZIONE - 𝑪𝑶𝑽(𝑿, 𝒀) dipendente in corrispondenza di un valore noto della variabile esplicativa. Sostanzialmente si fa una PROIEZIONE dei valori futuri, e quello che potrà essere un ammontare delle vendite in un T tempi futuro (n anni in più) Quindi si prevede il valore che assumerà il fenomeno nei momenti immediatamente successivi rispetto all’ultimo considerato nel modello CONDIZIONI DA PORRE: 1. 𝜹 deve essere prossimo a 1, ovvero deve avere un buon adattamento deve essere rappresentato bene dalla funzione (interpolante) 2. il valore noto nella variabile esplicativa non deve essere lontano dai valori utilizzati nel calcolo della retta. 3. Mantenimento nel futuro delle stesse condizioni che hanno determinato l'andamento passato → a rimane costante, b varia 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒂 + 𝒃𝒕 PROIEZIOE → i valori futuri stimati per estrapolazione dovranno essere correttamente intesi come valutazioni di ciò che dovrebbe accadere qualora si manifestassero anche in futuro le condizioni che hanno determinato la precedente evoluzione del fenomeno Es. Voglio estrapolare la spesa di una famiglia con un reddito pari a 1500€ Prendo il modello: 𝒚?̂? = 𝒂 + 𝒃𝒙𝒊 𝒚?̂? = −𝟗𝟑, 𝟒𝟕 + 𝟎, 𝟏𝟑 ∗ 𝟏𝟓𝟎𝟎 = 𝟏𝟎𝟏, 𝟓𝟑 INTERPRETAZIONE: La spesa stimata è di 101,53, è circa attendibile. INTERPOLAZIONE di UNA SERIE STORICA (trend) Def. Adattamento ai valori osservati di una opportuna funzione che descrive l'evoluzione temporale del fenomeno considerato (serie storica) Obiettivo: Stima del trend di una serie storica , è l'andamento sottostante, è il percorso ideale che la serie storica dovrebbe avere - VARIABILE DIPENDENTE (Y) → Fenomeno di cui si stima il trend - VARIABILE INDIPENDENTE (X) → tempi, successione convenzionale 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒍𝒊𝒏𝒆𝒂𝒓𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒂 + 𝒃𝒕 INTERPRETAZIONE considerando 𝒚?̂? = 𝟒𝟗𝟏𝟐𝟑 + 𝟏𝟔𝟏𝟓, 𝟒𝟓𝒕 𝜹 = 𝒓 𝟐 = 𝟎, 𝟗𝟔𝟗𝟔𝟓 𝒂 → Valore teorico, ammontare teorico delle vendite al tempo 0. Per esempio, considerando l'anno 2008 come tempo 0 (t=0): nel 2008, la stima dell'ammontare delle vendite era di 49123 𝒃 → coefficiente angolare, indica la variazione media da un tempo al successivo. Per esempio, le vendite sono aumentate in media di 1615,45€ all’anno. 𝜹 → La variabile ben rappresentata dal trend, circa il 97% della DEV delle vendite è spiegato dal trend lineare della funzione interpolante. 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒆𝒔𝒑𝒐𝒏𝒆𝒏𝒛𝒊𝒂𝒍𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒇(𝒕) = 𝒂 ∙ 𝒃 𝒕 𝒃 − 𝟏 = 𝒇(𝒕) − 𝒇(𝒕 − 𝟏) 𝒂 = −𝟗𝟑, 𝟒𝟕 𝒃 = 𝟎, 𝟏𝟑 𝜹 = 𝟎, 𝟒𝟗𝟗𝟗 a INTERPRETAZIONE considerando 𝒚?̂? = 𝒇(𝒕) = 𝟒𝟗𝟔𝟏𝟓 ∙ 𝟏, 𝟎𝟐𝟖𝟐𝟏 𝒕 𝜹 = 𝒓𝟐 = 𝟎, 𝟗𝟕𝟑𝟓 𝟏 − 𝟏, 𝟎𝟐𝟖𝟐𝟏 = 𝟎, 𝟎𝟐𝟖𝟐𝟏 = 𝟐, 𝟖% → Il media da un anno all'altro ammontare delle vendite è aumentato del 2,8% 𝜹 = 𝟎, 𝟗𝟕𝟑𝟓 → Adattamento molto buono, il 97% della DEV delle vendite è rappresentato dal trend esponenziale 𝒃 → Traduce le ipotesi di variazioni relative a tasso costante 𝒃 − 𝟏 → Rappresenta la media % variazione tra 2 due tempi consecutivi 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒑𝒐𝒕𝒆𝒏𝒛𝒊𝒂𝒍𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒇(𝒕) = 𝒂 + 𝒕 𝒃 INTERPRETAZIONE considerando 𝒚?̂? = 𝒇(𝒕) = 𝟒𝟗𝟗𝟔𝟕, 𝟔 ∙ 𝒕 𝟎,𝟏𝟎𝟗𝟗𝟗 𝜹 = 𝒓𝟐 = 𝟎, 𝟖𝟗𝟐𝟐 𝜹 = 𝟎, 𝟖𝟗𝟐𝟐 → la funzione di potenza è quella che rappresenta meno bene il trend del fenomeno punto la 89% della DEV delle vendite è rappresentata dalla funzione di potenza 𝒂 → Stima del fenomeno quando è al primo anno t=1. Es. a=49967,6 stima del trend nel 2009 𝒃 → Traduce le ipotesi di Elasticità costante rispetto al tempo. Es. b=0,10999 Trend crescente a tassi decrescenti a a TEORIA DELLA PROBABILITA’ → Si risolve il problema diretto → dalla conoscenza della struttura della popolazione si deduce la probabile struttura del campione (dal generale al particolare) INFERENZA STATISTICA → si risolve il problema inverso → si descrive la struttura della popolazione a partire dal campione osservato (dal generale al particolare). Si risolve il problema concreto CALCOLO COMBINATORIO → Il calcolo combinatorio si occupa di come possiamo combinare fra loro più oggetti, secondo regole stabilite gli elementi di due o più insiemi o di uno stesso insieme. Il calcolo combinatorio in AMBITO INFERENZIALE ci aiuta a rispondere alla domanda: “in quanti modi si possono scegliere i campioni di dimensione n da una popolazione di una dimensione prefissata N, per un’indagine statistica”. INDICHIAMO CON: A: insieme finito di elementi; es. A = {a, b, c} n: numero di elementi nell’insieme A k: classe, numero delle componenti dell’insieme da “combinare” 1 < k < n Ogni gruppo differisce almeno, per: - Qualche elemento - Ordine in cui si susseguono gli elementi Il numero di disposizioni k può essere k>n 𝑫𝒏,𝒌 ∗ = 𝒏𝒌 Caso particolare di disposizioni semplici quando n = k 𝑷𝒏 = 𝑫𝒏,𝒏 = 𝒏 ∗ (𝒏 − 𝟏) ∗ … ∗ 𝟐 ∗ 𝟏 = 𝒏! 1! = 1 0! = 1 - Due qualunque combinazione di A della stessa classe, devono differire di almeno un elemento. - Elementi non ripetuti - Non ci sono gruppi in cui l’ordinamento è invertito 𝐂𝐧,𝐤 = 𝐃𝐧,𝐊 𝐏𝐤 = 𝐧! 𝐊! ∗ (𝐧 − 𝐤!) = ( 𝐧 𝐤 ) Def. Una misura di probabilità P è una funzione d’insieme a valori reali definita dello spazio 𝛀 ed aventi le seguenti proprietà della probabilità di un evento P(E), gli assiomi sono: 1. 𝑃(𝐸) ≥ 0 per ogni evento E 2. 𝑃(𝐸1 ∪ 𝐸2) = 𝑃(𝐸1) + 𝑃(𝐸2) per due eventi incompatibili 3. P(Ω) = 1 la probabilità dell’evento certo, quindi dello spazio campionario è sempre 1 (normalizzazione) TEOREMI ALLA base della PROBABILITA’ (a seguito degli assiomi): 1. TEOREMA 1: EVENTO CONTRARIO: Def. La probabilità dell’evento contrario è il complemento ad 1 della probabilità dell’evento stesso, il contrario di C; 𝑷(?̅?) = 𝟏 − 𝑷(𝑪) Inoltre: 𝑪 ∩ ?̅? = Ø 2. TEOREMA 2: EVENTO IMPOSSIBILE Def. La probabilità dell’evento impossibile è = 0 𝑷(Ø) = 𝟎 3. TEOREMA 3: PROBABILITA’ TOTALE o DELLA SOMMA Def. Dati due eventi qualsiasi A e B, la probabilità dell’unione di A e B è pari alla somma delle singole probabilità dei due eventi meno la probabilità dell’intersezione 𝑷(𝑨 ∪ 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 ∩ 𝑩) 4. TEOREMA 4: DELLA PROBABILITA’ COMPOSTA o DEL PRODOTTO Def. Due eventi A e B dipendenti, di un esperimento aleatorio, la probabilità dell’evento 𝑨 ∩ 𝑩 (intersezione) è uguale al prodotto della probabilità di uno dei due eventi per la probabilità condizionata dell’altro: 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑩|𝑨)𝑷(𝑨) Probabilità dell’intersezione di 2 eventi = probabilità condizionata di B dato A moltiplicato per la probabilità di A 𝑷(𝑨 ∩ 𝑩) = 𝑷(𝑨|𝑩)𝑷(𝑩) Probabilità dell’intersezione di 2 eventi = probabilità condizionata di A dato B moltiplicato per la probabilità di B 5. PROBABILITA’ CONDIZIONATA Si ricorre alla probabilità condizionata quando un evento dipende da un altro evento che si è verificato precedentemente: tale evento, può influire, oppure no, sulla probabilità dell'evento successivo; Def. probabilità condizionata dell'evento E2 rispetto all'evento E1 è la probabilità che si verifichi l'evento E2 dopo che si è verificato l'evento E1 𝑷(𝑬𝟐|𝑬𝟏) = 𝑷(𝑬𝟏 ∩ 𝑬𝟐) 𝑷(𝑬𝟏) La probabilità di 𝐸2 dato 𝐸1 = alla probabilità dell’intersezione dei due eventi, diviso dalla probabilità dell’evento condizionatore (((Es.))) Scegliendo a caso un passeggero presente nell’aeroporto di Francoforte {FR, DE, UK, CH, US}, qual è la probabilità che egli sia Europeo? La probabilità cambia se sappiamo già che egli proviene da un paese Europeo. 𝐸1= “La persona scelta è europea” 𝐸2= “La persona scelta proviene da un Paese Francofono (svizzera/Francia)” Sapendo che 𝐸1 si è verificato, la probabilità che si verifica 𝐸2 è data quindi da: 𝑷(𝑬𝟐|𝑬𝟏) = 𝟐 𝟒 6. EVENTI INDIPENDENTI Due eventi si dicono INDIPENDENTI STOCASTICAMENTE (in senso probabilistico), se il verificarsi dell’uno non influisce sulla probabilità dell’altro. 𝑷(𝑬𝟐|𝑬𝟏) = 𝑷(𝑬𝟐) Data la probabilità di 𝐸2 dato 𝐸1 = alla probabilità di 𝐸2 → 𝐸1 non influenza la probabilità (il verificarsi) di 𝐸2 a. Ne deriva un COROLLARIO → La probabilità dell’intersezione di due eventi stocasticamente indipendenti 𝐸1 e 𝐸2 è pari al prodotto delle singole probabilità dei singoli eventi: 𝑷(𝑬𝟏 ∩ 𝑬𝟐) = 𝑷(𝑬𝟐|𝑬𝟏)(𝑬𝟏) = 𝑷(𝑬𝟐)𝑷(𝑬𝟏) ((((Per capire)))) 7. TEOREMA DI BAYES (legato al concetto di probabilità condizionata) Si basa sulla teoria frequentista, e si basa su eventi tra loro indipendenti. Supponendo che un evento B dipenda da altri eventi 𝑨𝒊 (cause), permette di determinare la probabilità che si verifichi una delle cause sapendo che l’evento B è accaduto. Per esempio, data una produzione in serie di televisori in 3 differenti stabilimenti, estraendo un televisore difettoso, si vuole sapere da quale stabilimento è stato prodotto. Assegnando gli EVENTI: 𝐴𝑖 = {𝑠𝑡𝑎𝑏𝑖𝑙𝑖𝑚𝑒𝑛𝑡𝑖: 1,2,3} → cause 𝐵 = 𝑡𝑒𝑙𝑒𝑣𝑖𝑠𝑜𝑟𝑒 𝑑𝑖𝑓𝑒𝑡𝑡𝑜𝑠𝑜 → evento accaduto Il teorema di Bayes ci permette di capire la percentuale di probabilità in cui è avvenuto l’evento B. Quindi si calcola la probabilità di 𝐴𝑖 dato B → 𝑃(𝐴𝑖|𝐵) 𝑃(𝐴𝑖|𝐵) = 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖) ∑ 𝑃(𝐵|𝐴𝑖)𝑃(𝐴𝑖) 𝑛 𝑖=1 = 𝑟𝑖𝑠𝑢𝑙𝑡𝑎𝑡𝑜 ∗ 100 = ⋯ % INTERPRETAZIONE dato 𝑃(𝐴3|𝐵) = 0,444 “La probabilità che la TV estratta difettosa sia stata prodotta nello stabilimento 3, è del 44%” LE VARIABILI ALEATORIE Def. Quantità che assume valori diversi a seconda dei risultati di un esperimento aleatorio ossia a seconda del manifestarsi di EVENTI INCOMPATIBILI COMPLEMENTARI. È generata da un evento aleatorio e comporta la trasformazione degli eventi di uno spazio 𝛀 in punti sull’asse reale. V.A. DISCRETE: numero finito di valori (numero finito di punti campionari) o infinità numerabili; Si indica con X variabile aleatoria (v.a.), con xi realizzazioni della v.a. (valori assunti da X v.a.) a cui a essi sono associati a una probabilità 𝑷(𝑿 = 𝒙𝒊) = 𝒑𝒊 > 𝟎, tale che la SOMMA DI TUTTE LE 𝒑𝒊 = 𝟏 Es. Lancio di un dado v.a. 𝑿 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔} E1 uscita del punteggio 1 E2 uscita del punteggio 2 E3 uscita del punteggio 3 E4 uscita del punteggio 4 E5 uscita del punteggio 5 E6 uscita del punteggio 6 Le relative probabilità sono: 𝑝(𝑥𝑖) = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑐𝑎𝑠𝑖 𝑡𝑜𝑡𝑎𝑙𝑖 p1 = probabilità di uscita del punteggio 1 = 1/6 p2 = probabilità di uscita del punteggio 2 = 1/6 p3 = probabilità di uscita del punteggio 3 = 1/6 p4 = probabilità di uscita del punteggio 4 = 1/6 p5 = probabilità di uscita del punteggio 5 = 1/6 p6 = probabilità di uscita del punteggio 6 = 1/6 INTERPRETAZIONI p(X) = 1/6 la probabilità associata a che esca il numero 1, è 1/6. Del 16,7% circa. F(X) = 3/6 la probabilità che v.a. assuma un valore minore o uguale a 3 lanciando il dado una volta (1 prova), è di 3/6 ovvero del 50%. LA FUNZIONE DI RIPARTIZIONE: La funzione di ripartizione indica la probabilità che v.a. assuma valori ≤ 𝑥𝑖 considerato in quel punto (è la funzione cumulata delle 𝑝𝑖). Graficamente, è una funzione a “scalini”. Racchiude informazioni su un fenomeno riguardanti la sua distribuzione prima o dopo un certo punto. **NOTE → le 𝑥𝑖, al contrario di descrittiva che erano valori effettivamente osservabili e rappresentati da frequenza assoluta con cui si erano effettivamente manifestati; In caso di v.a., le 𝑥𝑖, sono valori che potenzialmente si possono verificare a seguito di un esperimento e le probabilità rappresentano la probabilità con cui questi valori possono manifestarsi. *LA FUNZIONE DI RIPARTIZIONE vs STATISTICA DESCRITTIVA: in probabilità considera le probabilità mentre in statistica descrittiva considera la frequenza relativa V.A. CONTINUE: • Può assumere tutti i valori di un intervallo [𝑎; 𝑏] (punti dell’intervallo sono infiniti) • La probabilità associata di un singolo valore = 0 • Probabilità di X associata ad un intervallo: 𝑎 ≤ 𝑋 ≤ 𝑏 • Per fare una previsione più fine per esprimere una probabilità, si utilizzano intervalli via, via più stretti DISCRETE CONTINUE p 𝟏 𝟔 1 2 3 4 5 6 X Xi pi(X) F(X) P(X≤xi) 1 1/6 1/6 2 1/6 2/6 3 1/6 3/6 4 1/6 4/6 5 1/6 5/6 6 1/6 1 1 La curva a campana NORMALE descrive il modo in cui gli errori casuali si distribuiscono quando facciamo una qualunque misura CARATTERISTICHE v.a. NORMALE: ▪ È simmetrica rispetto alla media 𝝁 ▪ Il valore 𝑥 = 𝜇 definisce la moda, la media e la mediana ▪ È crescente per 𝑥 < 𝜇 e decrescente per 𝑥 > 𝜇 ▪ È asintotica all'asse x entrambi i lati ▪ Possiede due punti di flesso per 𝑥 = 𝜇 ± 𝜎 ALTRE: ▪ Presenta un punto di massimo nella media (errore nullo) ▪ è caratterizzata da due parametri: o 𝝁 → Media UNIVERSO o 𝝈𝟐 → indica la variabilità della v.a. UNIVERSO ▪ 𝜎 → lunghezza dei segmenti in corrispondenza dei punti riflesso 𝒗. 𝑎. 𝑁𝑂𝑅𝑀𝐴𝐿𝐸 → 𝑿~𝑵(𝜇, 𝜎2) La v.a. X si distribuisce come una NORMALE di parametri 𝜇 𝑒 𝜎2 𝐹𝑢𝑛𝑧𝑖𝑜𝑛𝑒 𝑑𝑖 𝑑𝑒𝑛𝑠𝑖𝑡à → 1 𝜎ξ2𝜋 𝑒 − 1 2 ( 𝑥−𝜇 𝜎 ) 2 (della curva a campana) APPLICAZIONI - Caratteri quantitativi: peso, lunghezza dei pezzi ottenuti con produzione in serie (da processi sotto controllo) → PAROLE CHIAVE: processo AUTOMATIZZATO, SOTTO CONTROLLO, IN SERIE - Variabili biometriche rilevati in più esemplari appartenenti ad un'unica specie animale o vegetale la distribuzione è normale? Calcolo indice di CURTOSI (disnormalità), è un numero puro: 𝐾𝑢 = ∑ (𝑥𝑖 − 𝜇) 4𝑛𝑖 𝑛 𝑟 𝑖=1 𝜎4 = ∑ (𝑥𝑖 − 𝜇) 4𝑓𝑖 𝑟 𝑖=1 𝜎4 𝒗. 𝑎. 𝑁𝑂𝑅𝑀𝐴𝐿𝐸 𝑆𝑇𝐴𝑁𝐷𝐴𝑅𝐷𝐼𝑍𝑍𝐴𝑇𝐴 → 𝒁~𝑵(0,1) La v.a. Z si distribuisce come una NORMALE con media 0, varianza 1 𝐹𝑈𝑁𝑍𝐼𝑂𝑁𝐸 𝐷𝐼 𝑅𝐼𝑃𝐴𝑅𝑇𝐼𝑍𝐼𝑂𝑁𝐸 → Per calcolare la probabilità associata ad un intervallo si fa riferimento a una tavola della funzione di ripartizione della v.a. normale standardizzata per i valori di Z compresi tra -4 e +4 (vedi libro per tavola) Al variare di 𝜇 (“ni”), la curva trasla sull'asse delle x Al variare di 𝜎, la curva Modifica la sua forma appiattendosi o innalzandosi Ku < 3 → v.a. IPONORMALE Ku = 3 → v.a. NORMALE Ku > 3 → v.a. IPERNORMALE v.a. di NORMALE STANDARDIZZATA Presenta le stesse caratteristiche della v.a. NORMALE, è stata calcolata partendo dal calcolo degli scostamenti standardizzati i quali sono caratterizzati da: M = 0 e VAR = 1 Standardizzata implica che non dipende dall'unità di misura della variabile. PROCEDIMENTO CALCOLO PROBABILITA’ v.a. STANDARDIZZATA ad un intervallo ]𝒙𝟏; 𝒙𝟐] di una v.a. 𝑵(𝝁, 𝝈 𝟐) PASSAGGIO DA VALORI ORIGINALI A STANDARD 1. Calcolo gli scostamenti standardizzati 𝑧1 = 𝑋1−𝜇 𝜎 e 𝑧2 = 𝑋2−𝜇 𝜎 2. Leggo i valori sulla tavola della funzione di ripartizione di 𝐹(𝑧1) e 𝐹(𝑧2) 3. La probabilità associata all’intervallo ]𝑧1; 𝑧2] → 𝐹(𝑧2) − 𝐹(𝑧1) → coincide con l’intervallo ]𝑥1; 𝑥2] **I valori di z fuori dalla tavola -4 e +4 → FUNZIONE DI RIPARTIZIONE = 0 ovvero la probabilità che si verifichi quell’evento è nulla DISTRIBUZIONE indici CAMPIONARI UNIVERSO STATISTICO = POPOLAZIONE: insieme N elementi (dimensione popolazione) sul quale siamo interessati a rilevare uno o più aspetti. Es. Studenti iscritti al corso di economia al 31/12/2018 rilevazione → età, voto maturità etc... CAMPIONE STATISTICO: sottoinsieme di n elementi (dimensione campione da popolazione) tratti da un universo statistico. Indagine campionaria rispetto all’indagine totale → SVANTAGGI: otteniamo risultati approssimati, quindi incerti → valutazione dei risultati in termini probabilistici SPAZIO DEI CAMPIONI 𝛀: Insieme dei possibili campioni di n elementi estraibili dall’universo. CRITERIO: due campioni sono diversi se: • Differiscono almeno per l’ordine • Differiscono almeno per un elemento Dato un ESPERIMENTO ALEATORIO (non conosciamo gli n elementi che ne faranno parte) → estrazione di numerosità n (dimensione campione) da un UNIVERSO di N unità CON REIMMISSIONE (Bernoulliana) – noi usiamo questo SENZA REIMMISSIONE (Estrazione in blocco) Prima dell’estrazione: v.a. indipendenti e con distribuzione uguale a quella dell’Universo v.a. non indipendenti e con distribuzione diversa a quella dell’Universo • Estraggo il 1° elemento dall’universo • Rimetto l’elemento estratto nell’universo …Procedo analogamente con le restanti estrazioni… • UNIVERSO = UNIVERSO (non cambia) • Estraggo il 1° elemento dall’universo • Non rimetto l’unità estratta • Estraggo il 2° elemento da (𝑈𝑁𝐼𝑉𝐸𝑅𝑆𝑂 − 1°𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜 𝑒𝑠𝑡𝑟𝑎𝑡𝑡𝑜) • UNIVERSO = N-n-1 Si tiene conto dell’ordine: Due campioni sono ≠ se differiscono almeno per l’ordine Due campioni sono ≠ se differiscono almeno per un elemento Quanti sono i possibili campioni estraibili dall’U? 𝑫𝒊𝒔𝒑𝒐𝒔𝒊𝒛𝒊𝒐𝒏𝒊 𝒄𝒐𝒏 𝒓𝒊𝒑𝒆𝒕𝒊𝒛𝒊𝒐𝒏𝒆 = (𝑵)𝒏 Quanti sono i possibili campioni estraibili dall’U? 𝑪𝒐𝒎𝒃𝒊𝒏𝒂𝒛𝒊𝒐𝒏𝒊 = ( 𝑵 𝒏 ) *note: • Schema più logico • Interesse a tener conto dell’ordine o meno (successione temporale) FORME DI DISTRIBUZIONE delle v.a. CAMPIONARIE (DEDUTTIVA: da UNIVERSO a CAMPIONE) → Conosco la POPOLAZIONE voglio dedurre cosa succede nel campione v.a. MEDIA CAMPIONARIA ?̅? Def. È la media dei campioni estratti da un Universo X, è definita come la media delle Xi v.a. 𝒙𝟏 + 𝒙𝟐 + ⋯ + 𝒙𝒏 identicamente distribuite e indipendenti → 𝜇 = 𝑀𝑒𝑑𝑖𝑎 𝑈𝑛𝑖𝑣𝑒𝑟𝑠𝑜 ESTRAZIONE BEURNOLLIANA la v.a. ?̅? presenta la stessa distribuzione della X nell’universo (le 𝒇𝒊 = 𝒑𝒊) perché l’universo U non è cambiato. La variabilità di ?̅? (distribuzione medie campionarie) è meno variabile rispetto a quella di x (fenomeno rilevato nella popolazione) perché è divisa per n, tanto maggiore è n tanto minore sarà la variabilità di ?̅?; Variabilità di 𝒙 → 𝝈𝟐 Variabilità di ?̅? → 𝝈𝟐 𝒏 PARAMETRI • 𝑬(?̅?) = 𝝁 → il valore atteso della v.a. media campionaria è uguale alla media dell’universo • 𝑽𝑨𝑹(?̅?) = 𝛔𝟐 𝒏 • 𝛔(?̅?) = 𝛔 ξ𝒏 INTERPRETAZIONE dato 𝒑𝒊 = 𝟎, 𝟐𝟓 Se estraggo dalla popolazione un campione ai fini di stima della MEDIA ho una probabilità del 25% di ottenere una media parti a 20 (𝒙)̅̅ ̅̅ 1. FORMA DI DISTRIBUZIONE Quando la popolazione 𝑿 è NORMALE → 𝑋~𝑁(𝜇, 𝜎2) allora anche ?̅? è normale per qualunque valore di n (perché si conosce 𝜎2) → ?̅?~𝑵 (𝝁, 𝝈𝟐 𝒏 ) 2. FORMA DI DISTRIBUZIONE Quando la popolazione 𝑋 non è NORMALE e la forma è ignota. Si vuole analizzare la distribuzione della v.a. MEDIA CAMPIONARIA quando non si conosce la distribuzione di X: a. TEOREMA CENTRALE DEL LIMITE: Quando n del campione è sufficientemente grande (>100), la distribuzione della media campionaria può essere approssimata dalla distribuzione normale → ?̅?~𝑵 (𝝁, 𝝈𝟐 𝒏 ) *Nota se X non è troppo strano si può applicare anche per n=30/50/60 (se ad esempio è una curva ad U non si puo’ applicare) ESTRAZIONE IN BLOCCO (senza ripetizione) PARAMETRI • 𝑬(?̅?) = 𝝁 → il valore atteso della v.a. media campionaria è uguale alla media dell’universo Variabilità - elevata rispetto a 𝑋 Variabilità + elevata rispetto a ?̅? Prima di estrarre il campione, gli elementi campionari sono una v.a. (sono v.a. perché non sappiamo che elementi saranno estratti), se sono usati per la stima di un parametro ignoto dell’universo, la v.a. è lo STIMATORE DEL PARAMETRO dell’universo: • Una v.a. che dipende dalle informazioni del campione • il cui valore fornisce una stima del parametro ignoto → se il valore calcolato sui dati campionari è uno specifico della v.a. = STIMA PUNTUALE MEDIA CAMPIONARIA ?̅?: 𝑬(?̅?) = 𝝁 → stimatore MEDIA UNIVERSO 𝝁 FREQUENZA RELATIVA CAMPIONARIA 𝑷: 𝑬(𝑷) = 𝝅 → stimatore FREQUENZA RELATIVA UNIVERSO 𝝅 VARIANAZA CAMPIONARIA CORRETTA* 𝑺𝒄𝒐𝒓𝒓 𝟐 ∶ 𝑬(𝑺𝒄𝒐𝒓𝒓 𝟐 ) = 𝝈 → stimatore 𝝈𝟐 dell'universo 𝝁 Media della popolazione Parametro incognito della popolazione ?̅? Stimatore V.a. Media campionaria ?̅? Media osservata nel campione Realizzazione, stima campionaria 𝝅 Frequenza relativa della popolazione Parametro incognito della popolazione 𝑷 Stimatore V.a. Frequenza relativa campionaria 𝒑 Frequenza relativa del campione Realizzazione, stima campionaria 𝝈𝟐 Varianza della popolazione Parametro incognito della popolazione 𝑺𝒄𝒐𝒓𝒓 𝟐 Stimatore V.a. Varianza campionaria 𝒔 Varianza del campione Realizzazione, stima campionaria 𝜽 Parametro della popolazione Parametro incognito della popolazione che vogliamo stimare 𝑻 Stimatore V.a. 𝒕 Valore del parametro nel campione Stima IN GENERALE 𝜽 → Parametro incognito della popolazione che vogliamo stimare 𝒕 → stima campionaria del parametro incognito 𝜽 Il valore t e la realizzazione bella v.a. T Esempio v.a. ?̅? → 𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑒 𝑑𝑒𝑙 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑜 𝑖𝑔𝑛𝑜𝑡𝑜 → 𝜇 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒𝑙𝑙′𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑜 ?̅? 𝑠𝑡𝑖𝑚𝑎 𝑑𝑖 𝜇 → 𝑟𝑒𝑎𝑙𝑖𝑧𝑧𝑎𝑧𝑖𝑜𝑛𝑒 𝑑𝑖 𝑢𝑛𝑜 𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑜 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑒 (𝑠𝑡𝑖𝑚𝑎 𝑝𝑢𝑛𝑡𝑢𝑎𝑙𝑒) Per regole generali: PROPRIETA’ STIMATORI: CORRETTO (correttezza) DISTORTO 𝑬(𝑻) = 𝜽 𝑬(𝑻) ≠ 𝜽 Se il valore atteso di T è uguale al corrispondente parametro dell’universo 𝜽 Il valore atteso di T non è uguale a 𝜽 Quindi 𝑬(𝑻) − 𝜽 → ERRORE SISTEMATICO (di campionamento) 𝑬(?̅?) = 𝝁 La media di tutte le medie campionarie calcolate su tutti i campioni di uno spazio campionario è uguale alla media dell’universo 𝑬(𝑷) = 𝝅 Stima di 𝝈𝟐 tramite lo stimatore 𝑺𝟐 Data la 𝝈𝟐 campionaria: 𝑆2 = ∑ (𝑋𝑖− 𝑛 𝑖=! ?̅?) 2 𝑛 ((formula di 𝜎2 𝑠𝑢 𝑐𝑎𝑙𝑐𝑜𝑙𝑎𝑡𝑟𝑖𝑐𝑒 𝑜𝑝𝑝𝑢𝑟𝑒 𝑠𝑥)) 𝑆2 è distorto poiché il suo VALORE ATTESO: 𝐸(𝑆2) = 𝑛 − 1 𝑛 𝜎2 ≠ 𝜎2 Quindi si utilizza lo STIMATORE CORRETTO di S (𝝈𝟐): 𝒔𝒄𝒐𝒓𝒓 𝟐 = 𝟏 𝒏 − 𝟏 ∑(𝒙𝒊 − ?̅?𝒊) 𝟐 𝒏 𝒊=! = 𝒏 𝒏 − 𝟏 𝒔𝟐 Infatti, si verifica che: 𝑬(𝑺𝒄𝒐𝒓𝒓 𝟐 ) = 𝝈𝟐 La media calcolata su tutti i campioni nello spazio delle varianze campionarie corrette è uguale alla varianza dell'universo SCELTA DELLO STIMATORE, si sceglie in base a: • Correttezza, Deve essere corretto ovvero deve rispettare le proprietà sopra citate • PRECISIONE → Tanto minore è la variabilità di uno stimatore, tanto maggiore la sua precisione. Se la variabilità è bassa i valori sono poco diversi tra loro si avvicinano quindi al valore incognito. STIMATORE ACCURATO: È uno stimatore corretto con bassa variabilità. • L'accuratezza costituisce il criterio principale per giudicare la validità di uno stimatore • si può tollerare una piccola distorsione se essa risulta compensata da un elevata precisione La misura più usata per rappresentare la STIMA della PRECISIONE di uno stimatore è l'ERRORE STANDARD, misura l’imprecisione dello stimatore, si utilizzano in particolare: 𝝈𝟐(𝑻) 𝝈(𝑻) • nel caso di MEDIA CAMPIONARIA, l'errore standard è dato da: 𝒔(?̅?) = √ 𝒔𝒄𝒐𝒓𝒓 𝟐 𝒏 = 𝒔𝒄𝒐𝒓𝒓 ξ𝒏 ((viene sostituita a 𝜎2 𝑙𝑎 𝑓𝑜𝑟𝑚𝑢𝑙𝑎 𝑐𝑜𝑟𝑟𝑒𝑡𝑡𝑎)) • nel caso di FREQUENZA RELATIVA CAMPIONARIA, errore standard è dato da: 𝒔(𝑷) = √ 𝒑(𝟏 − 𝒑) 𝒏 *Gli stimatori corretti per 𝜇 se la popolazione è distribuita 𝑁(𝜇, 𝜎2), sono: ?̅? e la 𝑀𝑒𝑐𝑎𝑚𝑝 (Mediana Campionaria). Ovvero vale a dirsi che la media calcolata su tutte le medie campionarie/mediane dei campioni dello spazio sono uguali a la media dell’universo 𝜇. Ma la 𝑀𝑒𝑐𝑎𝑚𝑝 è meno accurata in quanto l’errore standard risulta maggiore rispetto all’errore standard della Media Campionaria. All’aumentare di n, lo stimatore è più preciso → l’errore standard tende a 0 all’aumentare di n …In sintesi… STIMA PUNTUALE STIMA PER INTERVALLO Parametro incognito stimato con un unico valore Parametro incognito è stimato con un intervallo di valori ESEMPIO stima tasso disoccupazione in una data regione = % disoccupati Il tasso di disoccupazione è compreso (con una probabilità elevata tipo del 95%) tra il 9% e il 14% VANTAGGI Semplicità Valutazione dell’incertezza (in termini di probabilità) associata alla stima → INTERVALLO DI CONFIDENZA SVANTAGGI Non conosciamo l’errore della stima STIMA PER INTERVALLO DI CONFIDENZA Def. Un intervallo di confidenza di livello 1 − α è un intervallo che contiene il vero, ma ignoto, valore del parametro dell'universo (es. 𝜇) con 𝑷𝑹𝑶𝑩𝑨𝑩𝑰𝑳𝑰𝑻À (𝑪𝑶𝑵𝑭𝑰𝑫𝑬𝑵𝒁𝑨) 𝑨𝑺𝑺𝑶𝑪𝑰𝑨𝑻𝑨 𝑷𝑹𝑬𝑭𝑰𝑺𝑺𝑨𝑻𝑨 𝒆 𝑨𝑳𝑻𝑨 = 𝟏 − 𝜶 𝛂 = 𝟏 − (𝑪𝑶𝑵𝑭𝑰𝑫𝑬𝑵𝒁𝑨)𝐏𝐑𝐎𝐁𝐀𝐁𝐈𝐋𝐈𝐓𝐀′𝑨𝑺𝑺𝑶𝑪𝑰𝑨𝑻𝑨 Minore è ERRORE STANDARD (variabilità bassa) Più preciso è lo stimatore Quanta incertezza è associata ad una stima puntuale di un parametro della popolazione? FORMULA GENERALE DI UN INTERVALLO DI CONFIDENZA Si parte dalla stima campionaria, media campionaria ?̅?, del parametro di interesse, 𝝁 : ±𝒛 ( 𝜶 𝟐 ) ∙ 𝒔(?̅?) Si costruisce un intervallo simmetrico rispetto 𝝁 aggiungendo o togliendo una quantità che è pari al prodotto delle due componenti. • ±𝑧 ( 𝛼 2 ) → Distribuzione campionaria dello stimatore • 𝑠(?̅?) → errore standard dello stimatore, rappresenta la precisione dello stimatore che siamo utilizzato STIMA PER INTERVALLO DELLA MEDIA DELL’UNIVERSO 𝝁 per GRANDI CAMPIONI n>100 → TCL - 𝜇 → media universo ignota (parametro) - ?̅? → media campionaria (stimatore) Se il campione grande si può ricorrere al TEOREMA CENTRALE DEL LIMITE ?̅?~𝑵 (𝝁, 𝛔𝟐 𝒏 ) → 𝒁(?̅?) = ?̅? − 𝝁 √𝛔 𝟐 𝒏 ~𝑵(𝟎, 𝟏) Z dello stimatore 𝐗 Essendo il campione grande ha una distribuzione approssimata normale standardizzata con μ = 0 e VAR = 1 𝒁 ( 𝜶 𝟐 ) tale che 0 < 𝛼 < 1 → è Il percentile della v.a. NORMALE STANDARDIZZATA 𝑁(0,1) tale per cui la FUNZIONE di RIPARTIZIONE ha probabilità di osservare valori ≤ 𝒛 ( 𝜶 𝟐 ) → 𝑭 [−𝒛 ( 𝜶 𝟐 )] = 𝜶 𝟐 , sulla tavola della funzione di ripartizione devo cercare il valore che più si avvicina ad 𝜶 𝟐 per calcolare i valori degli estremi (ovvero il valore di z) ±𝒛 ( 𝜶 𝟐 ) (per simmetria sono uguali con segno opposto) in cui 𝒁(?̅?) possa essere confidente di 𝟏 − 𝜶 e probabilità di errore 𝜶 . Quindi la probabilità che 𝒁(?̅?) (una v.a. con distribuzione N(0,1)) assuma valori compresi nell’intervallo: [−𝒁 ( 𝜶 𝟐 ) ; +𝒁 ( 𝜶 𝟐 )] → è uguale a 𝟏 − 𝜶 𝑷 {?̅? − 𝒛 ( 𝜶 𝟐 ) ∙ 𝒔(?̅?) ≤ 𝝁 ≤ ?̅? + 𝒛 ( 𝜶 𝟐 ) ∙ 𝒔(?̅?) } = 𝟏 − 𝜶 INTERPRETAZIONE: Ho confidenza 𝟏 − 𝜶 che 𝝁 sia compreso nell’intervallo ?̅? ± 𝒛 ( 𝜶 𝟐 ) ∙ 𝒔(?̅?), con probabilità 𝜶 di sbagliare. F ( ) F ( ) ?̅? ± 𝒛 ( 𝜶 𝟐 ) ∙ 𝒔(?̅?) IMPOSTAZIONE INDUTTIVA (dal campione all’universo) → 𝜇 𝑒 𝜎2 ignote Es la probabilità che estraendo dall’universo 200 dipendenti, la retribuzione media campionaria ?̅? sia compresa tra 1792 e 1897 è del 95% IMPOSTAZIONE DEDUTTIVA (dall’universo al campione) → 𝜇 𝑒 𝜎2 note con valori simmetrici a 𝜇 Es la probabilità che 𝜇 la retribuzione media dell’universo sia compresa nell’intervallo 1792 e 1897 è del 95% CARATTERISTICHE ?̅?: • 𝑬(?̅?) = 𝝁 • 𝑽𝑨𝑹(?̅?) = 𝛔𝟐 𝒏 FORMULA 𝒛 = 𝒙 − 𝑴 𝝈 ➢ ERRORE DI 1° SPECIE: Si commette quando si rifiuta 𝐻0 quando in realtà è vera. (es lo studente risponde a caso a > 6 domande. LIVELLO DI SIGNIFICATIVITA’ 𝜶 → probabilità di commettere un errore di 1° specie ➢ ERRORE DI 2° SPECIE: Si commette quando accetto 𝐻0 ma in realtà non è vera (es lo studente è preparato ma risponde a < 6 domande, studente sfortunato) 𝜸 → probabilità di commettere l’errore di 2° specie La relazione tra 𝜶 e 𝜸 è di tipo inverso. TIPI DI APPROCCIO DIRETTO INVERSO 1. Si fissa 𝛼 a priori sufficientemente piccolo: 𝛼 ≤ 5% o 𝛼 ≤ 1% 2. e di accettazione (1 − 𝛼) v.a. T 3. Si definiscono le corrispondenti zone: a. Di rifiuto: −𝜶 UNILATERALE SINISTRA ± 𝜶 𝟐 BILATERALE + 𝜶 UNILATERALE DESTRA b. Di accettazione: c. 1 − 𝛼 4. Si prende una decisione in base al valore osservato 𝑇 = 𝑡: a. Se rientra nella zona di accettazione → accetto 𝐻0 b. Se rientra nella zona di rifiuto → rifiuto 𝐻0 e accetto 𝐻1 con probabilità di sbagliare 𝛼 1. Non si fissa 𝛼 a priori (non c’è zona di accettazione/rifiuto) 2. Traggo conclusioni con calcolo del P-VALUE. 3. Con t Student: Se 𝑃 − 𝑉𝐴𝐿𝑈𝐸 < 𝛼 → RIFIUTO Se 𝑃 − 𝑉𝐴𝐿𝑈𝐸 > 𝛼 → ACCETTO P-VALUE È il livello di significatività 𝛼 osservato, è la probabilità di osservare i valori più estremi della statistica test osservata nel campione 𝑡𝑜𝑏𝑠 quando 𝐻0 è vera (v.a. 𝑇 = 𝑡𝑜𝑏𝑠) Quando 𝐻0 è vera (𝜃 = 𝜃0): 1. 𝐻1 UNILATERALE DX: 𝑭(−𝒛(𝜶)) 𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑃{𝑇 𝑡𝑜𝑏𝑠, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } 2. 𝐻1 UNILATERALE SX: 𝑭(𝒛(𝜶)) 𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑃{𝑇 ≤ 𝑡𝑜𝑏𝑠, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } 3. 𝐻1 BILATERALE: 𝟐 ∙ 𝑭(−𝒛(𝜶)) 𝑃 − 𝑉𝐴𝐿𝑈𝐸 = 𝑃{𝑇 |𝑡𝑜𝑏𝑠|, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } + 𝑃{𝑇 ≤ |𝑡𝑜𝑏𝑠|, 𝑑𝑎𝑡𝑜 𝑐ℎ𝑒  = 𝜃0 } P-value Conclusioni > 0,1 Nessuna evidenza contro H_0 Accetto H_0 Compreso tra 0,1 e 0,05 Debole evidenza contro H_0 Rifaccio test aumentando la n campionaria Compreso tra 0,05 e 0,01 Discreta evidenza contro H_0 Rifiuto H_0 Compreso tra 0,01 e 0,001 Forte evidenza contro H_0 Rifiuto H_0 con piccola probabilità di sbagliare < 0,001 Fortissima evidenza contro H_0 Rifiuto H_0 Es Prova di esame 10 quesiti a quiz con 4 possibili risposte ogni quesito, solo 1 è corretta. Si vuole verificare se uno studente risponde a caso oppure è preparato Prova esame: esperimento aleatorio X = numero di risposte esatte → v.a. di Bernoulli prima che venga effettuata la prova di esame; “GIUSTA = SUCCESSO”, “SBAGLIATA = INSUCCESSO” Se lo studente risponde a caso, quante sono le possibilità di successo? 𝜋 = 1 4 = 0,25 = 25% Effettuo il test → risponde ai 10 quesiti (ripeto l’esperimento 10 volte) • 𝑿~𝑩(𝟏𝟎, 𝟎, 𝟐𝟓) → risposte a caso • 𝑬(𝑿) = 𝒏 ∙ 𝝅 = 𝟐, 𝟓 → ci aspettiamo che uno studente che risponde a caso le risposte esatte siano solo 2 o 3, quindi riteniamo lo studente preparato se risponde a più di 2,5 domande esatte; • 𝑽𝑨𝑹(𝑿) = 𝒏 ∙ 𝝅(𝟏 − 𝝅) = 𝟏, 𝟖𝟕𝟓 • 𝑷(𝑿 = 𝒔) = (𝟏𝟎 𝒔 )𝟎, 𝟐𝟓𝟐(𝟏 − 𝟎, 𝟐𝟓)𝟏𝟎−𝒔 Come faccio a sapere se lo studente risponde a caso oppure no? Studio la distribuzione campionaria di X → Scelgo che lo studente dia 𝑋 ≥ 6 risposte esatte, i casi che possono verificarsi sono che: 1. lo studente è molto fortunato 2. lo studente è effettivamente preparato e che la sufficienza sia 𝑿 ≥ 𝟐, 𝟓 risposte esatte Ci chiediamo: 1. quali sono i valori di s che ci portano a concludere che sia uno studente che risponde a caso? 2. Quali invece sono i valori di s che ci dicono che è uno studente preparato? La probabilità che uno studente che risponde a caso risponde a ≥ 6 domande giuste è di 1,98% (0,016222+0,003090+0,000386+0,000029+0,000001), è l’insieme dei valori T a cui è associata una piccola probabilità quando 𝑯𝟎 (studente risponde a caso) è vera; non consideriamo “5 risposte esatte” perché la somma delle probabilità diventerebbe ≈ 7% e quindi sarebbe troppo alta e non sarei sicura che lo studente sia così preparato, quindi per scegliere la zona di accettazione dobbiamo valutare la probabilità che si avvera. Quindi determino che la zona di rifiuto è 𝑿 ≥ 𝟔 risposte esatte, ovvero che lo studente è preparato quindi: • < 6 risposte esatte: ACCETTO 𝑯𝟎 • > 6 risposte esatte: RIFIUTO 𝑯𝟎 con piccola probabilità di errore (1,98%) INTERPRETAZIONI: 𝑃(𝑋 = 𝑠) = 0,056314 → probabilità che uno studente che risponde a caso, risponda a 0 risposte esatte 𝐹(𝑠) = 0,52 → probabilità che uno studente che risponde a caso, risponda a ≤ 2 risposte esatte 𝐿𝑜 𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑒 𝑟𝑖𝑠𝑝𝑜𝑛𝑑𝑒 𝑎 𝑐𝑎𝑠𝑜 → 𝐻0: 𝜋 = 0,25 𝐿𝑜 𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑒 è 𝑝𝑟𝑒𝑝𝑎𝑟𝑎𝑡𝑜 → 𝐻1: 𝜋 > 0,25 **nota, se lo studente è preparato lo studio aumenta la probabilità di rispondere correttamente VERIFICA IPOTESI MEDIA DELL’UNIVERSO 𝝁 per GRANDI CAMPIONI n>100 → TCL - 𝜇 → media universo ignota (parametro) - 𝜇0 → prefissato - ?̅? → media campionaria (statistica test) 1. 𝐻0: 𝜇 = 𝜇0 Se 𝐻0 è vera: • 𝑬(?̅?) = 𝝁𝟎 • 𝑽𝑨𝑹(?̅?) = 𝛔𝟐 𝒏 2. Per campione grande → TEOREMA CENTRALE DEL LIMITE ?̅?~𝑵 (𝝁, 𝛔𝟐 𝒏 ) → 𝒁(?̅?) = ?̅? − 𝝁𝟎 √𝛔 𝟐 𝒏 ~𝑵(𝟎, 𝟏) 3. Se la 𝜎2 dell’universo è ignota, la stimo con 𝑠𝑐𝑜𝑟𝑟 2 = 𝒏 𝒏−𝟏 𝒔𝟐 STATISTICA TEST per ?̅? → 𝒁(?̅?) = ?̅?−𝝁𝟎 √𝐬𝐜𝐨𝐫𝐫 𝟐 𝒏 a. DIRETTO scelgo a priori: o 𝐻1 → scelta alternativa o 𝛼 → livello di significatività o 1 − 𝛼 → zona di accettazione b. INVERSO P-Value: o Calcolo P-Value su 𝑧(?̅?) osservato per PICCOLI CAMPIONI n<100 - t di student - 𝜇 → media universo ignota (parametro) - 𝜇0 → prefissato - ?̅? → media campionaria (statistica test) 1. Se 𝐻0 è vera: • 𝑬(?̅?) = 𝝁𝟎 • 𝑽𝑨𝑹(?̅?) = 𝛔𝟐 𝒏 2. Se la 𝜎2 dell’universo è ignota, la stimo con 𝑠𝑐𝑜𝑟𝑟 2 = 𝒏 𝒏−𝟏 𝒔𝟐 3. ASSUMO CHE LA DISTRIBUZIONE DI X NELL’UNIVERSO è NORMALE si distribuisce come una T di STUDENT STATISTICA TEST per ?̅? → 𝒁(?̅?) = ?̅?−𝝁 √𝐬𝐜𝐨𝐫𝐫 𝟐 𝒏 ~𝒕(𝒏 − 𝟏) 4. Le zone di accettazione/rifiuto le determino con la v.a. 𝑡(𝑛 − 1) DIRETTO scelgo a priori: • 𝐻1 → scelta alternativa • 𝛼 → livello di significatività • 1 − 𝛼 → zona di accettazione CARATTERISTICHE ?̅?: • 𝑬(?̅?) = 𝝁 • 𝑽𝑨𝑹(?̅?) = 𝛔𝟐 𝒏 FORMULA 𝒛 = 𝒙 − 𝑴 𝝈 HO SOSTITUITO 𝝈𝟐 UNIVERSO CON LA SUA STIMA CORRETTA PERCHE’ E’ IGNOTO: VALE COSì PER TUTTI → QUANDO è IGNOTO DEVO SOSTITUIRE LE FORMULE CON LA SUA STIMA CORRETTA!!!!!!!!!!!!!!!! 2. PICCOLI CAMPIONI n<100 - t di Student Si assume l’ipotesi: la variabile dipendente 𝑌 presenta distribuzione normale nell'universo: 𝒀𝒊~𝑵(𝜷𝟎 + 𝜷𝟏𝒙𝒊; 𝝈 𝟐) La cui varianza dell’universo 𝝈𝟐 è ignota e viene stimata con 𝑺𝒄𝒐𝒓𝒓 𝟐 = ∑(𝒚𝒊−𝒚?̂?) 𝟐 𝒏−𝟐 = ∑ 𝒆𝒊 𝟐 𝒏−𝟐 Quindi → 𝒁(𝑩𝟏) = 𝑩𝟏−𝜷𝟏 𝒔(𝑩𝟏) ~𝒕(𝒈: 𝒏 − 𝟐) Z di 𝐵1 si distribuisce come una t di Student con n-2 gradi di libertà INTERVALLO DI CONFIDENZA 𝜷𝟏 • GRANDI CAMPIONI: 𝑷{𝒃𝟏 − 𝒛 ( 𝜶 𝟐 ) 𝒔(𝑩𝟏) ≤ 𝜷 ≤ 𝒃𝟏 + 𝒛 ( 𝜶 𝟐 ) 𝒔(𝑩𝟏) • PICCOLI CAMPIONI: 𝑷{𝒃𝟏 − 𝒕 ( 𝜶 𝟐 ) 𝒔(𝑩𝟏) ≤ 𝜷 ≤ 𝒃𝟏 + 𝒕 ( 𝜶 𝟐 ) 𝒔(𝑩𝟏) con g:n-2 Es.* vedi quaderno INTERPRETAZIONI intervallo di confidenza dati 𝒃𝟎 = 𝟗𝟑𝟕, 𝟓 e 𝒃𝟏 = −𝟑𝟑𝟕, 𝟓 **!Da un punto di vista numerico 𝑏0 e 𝑏1 coincidono con i valori dei parametri nella statistica descrittiva, ma in questo contesto devono essere interpretati come stime campionarie di 𝛽1 e 𝛽2 𝒃𝟎 → è l’intercetta, valore teorico (stima) del numero di confezioni vendute in caso che il prezzo sia uguale a 0 è di 937,5 unità 𝒃𝟏 → coefficiente di regressione, se il prezzo di vendita aumentasse di 1 € , ci aspettiamo che in media il numero di confezioni vendute diminuirebbe di 337,5 unità VERIFICA DI IPOTESI 𝜷𝟏 • 𝑯𝟎: 𝜷𝟏 = 𝟎 → Assenza di una relazione tra Y e X (il coefficiente di regressione è uguale a 0 quindi non esiste alcuna relazione) • 𝑯𝟏: 𝜷𝟏 ≠ 𝟎 → L’ipotesi alternative bilaterale e indica che tra Y e X esiste una relazione lineare e include: o 𝛽1 > 0 → Relazione lineare crescente o 𝛽1 < 0 → Relazione lineare decrescente Per effettuare la verifica di 𝐻0, calcolo lo scostamento standardizzato nel campione, cioè la realizzazione della variabile aleatoria 𝑍(𝐵1): 𝒁(𝑩𝟏) = 𝒃𝟏 − 𝜷𝟏 𝒔(𝑩𝟏) = 𝒃𝟏 𝒔(𝑩𝟏) In quanto, se 𝐻0 è vera quindi che 𝜷𝟏 = 𝟎 ovvero che non esiste relazione lineare, quindi si semplifica: 𝑬(𝑩𝟏) = 𝜷𝟏 = 𝟎 allora 𝒛(𝒃𝟏) = 𝒃𝟏 𝒔(𝑩𝟏) *con la verifica di ipotesi si parte dal presupposto che 𝐻0 sia vera. 1. GRANDI CAMPIONI n>100 - Normale Per il TCL → 𝒁(𝑩𝟏) = 𝒃𝟏 𝒔(𝑩𝟏) ~𝑵(𝟎, 𝟏) 2. PICCOLI CAMPIONI n<100 - t di Student Si assume l’ipotesi: la variabile dipendente 𝑌𝑖 presenta distribuzione normale nell'universo: 𝒀𝒊~𝑵(𝜷𝟎 + 𝜷𝟏𝒙𝒊; 𝝈 𝟐) La cui varianza 𝜎2 è ignota e viene stimata con 𝑺𝒄𝒐𝒓𝒓 𝟐 = ∑(𝒚𝒊−𝒚?̂?) 𝟐 𝒏−𝟐 = ∑ 𝒆𝒊 𝟐 𝒏−𝟐 Quindi → 𝒁(𝑩𝟏) = 𝒃𝟏 𝒔(𝑩𝟏) ~𝒕(𝒈: 𝒏 − 𝟐) Z di 𝐵1 si distribuisce come una t di Student con n-2 gradi di libertà Es.* vedi quaderno APPROCCIO INFERENZIALE AL 𝜹 COEFFICIENTE DI DETERMINAZIONE LINEARE Bontà di adattamento Si vuole controllare che il modello proposto sia realmente in grado di rappresentare in modo soddisfacente i dati a disposizione. Dal punto di vista descrittivo la misura principale della bontà di adattamento a. All’indice di determinazione lineare, pertanto può essere interpretato come la quota di devianza della variabile dipendente Y chi è spiegata dalla relazione lineare con la variabile esplicativa X. tale indice è una misura descrittiva, quindi non può formulare alcune ipotesi sulla natura delle osservazioni 𝑦𝑖 in inferenza. Un approccio di tipo modellistico in cui Y e v.a., anche l'indice di determinazione lineare può essere considerato come la realizzazione di una variabile aleatoria. INTERPRETAZIONE: Si fonda sulla scomposizione della devianza della variabile dipendente Y, ed è la quota di DEV di Y che è instaurata con la variabile esplicativa X 𝜹 = 𝑫𝑬𝑽(?̂?) 𝑫𝑬𝑽(𝒀) = 𝟏 − 𝑫𝑬𝑽(𝑬) 𝑫𝑬𝑽(𝒀) Anche se 𝜹 > 𝟎 possiamo chiederci se dovuto a una relazione tra X e Y o alle fluttuazioni campionarie? Per saperlo sottopone a verifica dicendo che tra X e Y non esiste una relazione lineare e come ipotesi alternativa che tra X e Y esiste una relazione lineare e diretta o inversa: • 𝑯𝟎: 𝜹 = 𝟎 → Non c'è relazione lineare tra X e Y • 𝑯𝟏: 𝜹 > 𝟎 → Esiste una relazione lineare tra X e Y La statistica test da utilizzare per verificare 𝐻0, è la trasformazione di 𝛿: 𝐹 = 𝛿 1−𝛿 𝑛−2 = 𝐷𝐸𝑉(?̂?) 𝐷𝐸𝑉(𝐸) 𝑛−2 → Presenta una distribuzione F di Fisher con (n-2) gradi di libertà (NON USIAMO) nel modello di regressione lineare semplice, la statistica F si può ricavare da 𝑧(𝛽1) e quindi si verifica la proprietà (vale solo per ipotesi alternativa bilaterale): 𝑭 = ( 𝒃𝟏 𝒔(𝑩𝟏) ) 𝟐 = 𝒛(𝒃𝟏) 𝟐 (USIAMO) Quindi: 𝑯𝟎: 𝜹 = 𝟎 e 𝑯𝟏: 𝜹 > 𝟎 Coincide con: 𝑯𝟎: 𝜷𝟏 = 𝟎 e 𝑯𝟏: 𝜷𝟏 ≠ 𝟎 Se la variabile esplicativa e significativa, allora anche la bontà di adattamento la sarà; al contrario se la variabile esplicativa non è significativa anche la bontà di adattamento non sarà significativa. Nella procedura inferenziale di verifica di ipotesi nulla in assenza di una relazione lineare tra le variabili X e Y (tramite F), sono diverse concettualmente dalle indicazioni che si traggono dalla statistica descrittiva sulla bontà di adattamento. Infatti, la relazione può risultare statisticamente significativa anche in presenza di un adattamento scadente , nel caso di rifiuto delle ipotesi nulla il test fornisce soltanto un' indicazione che l'indice di determinazione della popolazione diversa da 0 non che esso è prossimo a 1 (elevato). Quando calcoliamo il P-VALUE ≅ 0 → indica che c'è una fortissima esistenza di una relazione lineare tra le 2 variabili in quanto l’ipotesi nulla viene rifiutata. TABELLA DI ANALISI DELLA VARIANZA La tabella di analisi della varianza ci serve per calcolare la statistica F
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved