Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica Descrittiva - teoria schematizzata e semplificata per capire, Schemi e mappe concettuali di Statistica

In riferimento a libro di testo: M.A. MILIOLI, M. RIANI, S. ZANI, Introduzione all’analisi dei dati statistici, IV edizione ampliata, Pitagora, Bologna, 2019 Schemi e sintesi di teoria per applicazioni pratiche e spiegazioni teoriche

Tipologia: Schemi e mappe concettuali

2019/2020

In vendita dal 14/05/2020

preet0034
preet0034 🇮🇹

4.6

(46)

37 documenti

Anteprima parziale del testo

Scarica Statistica Descrittiva - teoria schematizzata e semplificata per capire e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity! 1 DEFINIZIONI STATISTICA DESCRITTIVA Unità statistiche: oggetto di rilevazione Variabili: genere, età, titolo di studio Modalità: diversi modi in cui la variabile si presenta es. scuola media, superiore… Collettivo statistico: insieme degli elementi che sono oggetto di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la rilevazione delle modalità con le quali il fenomeno studiato si presenta. Scala nominale (variabili dicotomiche): variabili qualitative, le modalità non si possono ordinare secondo una scala di misurazione, funzione invertibile. Puo’ essere dicotomica ovvero assumere solo due valori es. maschio / femmina; Vale la regola: da qualitative a quantitativo OK, da quantitativo a qualitativo NO. Scala ordinale: le modalità si possono ordinare secondo una scala di misurazione, funzione monotona crescente, es. titolo di studio, professione, voti Scala di intervalli: misura le distanze tra modalità passando da una scala all’altra, la differenza tra i termini mantengono la relazione degli intervalli, trasformazione lineare crescente. Es. temperature Scala di rapporti: la somma di due valori moltiplicati per una costante >0 è uguale alla stessa trasformazione della somma dei due valori originali, trasformazione lineare omogenea crescente. Es. peso Variabile discreta: le modalità sono numeri interi e finiti 1,2,3… oppure un numero infinito numerabile come es. probabilità di vincita al superenalotto Variabile continua: le modalità sono numeri reali: 1, 1,5, 0,3… potrebbero essere discrete a causa della rilevazione es. reddito, temperatura Distribuzioni di frequenze: - Assolute: numero di modalità da esso descritte - Relative: servono per confrontare 2 collettivi distinti e a valutare il peso di una modalità rispetto alla totalità del collettivo in quanto le frequenze assolute non sono confrontabili. La somma delle frequenze relative è 1. - Percentuali: espressione delle frequenze relative in termini percentuali, la loro somma è pari a 100%. Funzione di ripartizione: Si indica con F(x) è una funzione di frequenza accumulata a gradini, ed è la frequenza di una variabile quantitativa X, relativa dei valori di frequenza minori o uguali a x. “es. F(x) = 0.785 in corrispondenza al numero 3, indica che in Italia il 78,5% delle famiglie aveva un numero di componenti <= 3” Le PROPRIETA’: - È sempre compresa tra 0 ≤ 𝐹(𝑥) ≤ 1 - lim 𝑥 → − ∞ 𝐹(𝑥) = 0+ - lim 𝑥 → + ∞ 𝐹(𝑥) = 1− - 𝑥2 ≥ 𝑥1 → 𝐹(𝑥2) ≥ 𝐹(𝑥2) → monotona crescente Densità di frequenza: si utilizza quando ci sono classi di dimensione diversa per poter fare il confronto Matrice dati derivati: es. tasso di disoccupazione 𝑛° 𝑑𝑖𝑠𝑜𝑐𝑐𝑢𝑝𝑎𝑡𝑖 𝑓𝑜𝑟𝑧𝑒 𝑙𝑎𝑣𝑜𝑟𝑜 ∗ 100, utilizzare formule ponderate di media e scostamento quadratico medio, si utilizza come peso il denominatore 2 Tabelle a doppia entrata: ci aiutano a capire se c’è una relazione tra le variabili - Contingenza: le variabili X e Y sono qualitative - Correlazione: variabili X e Y sono quantitative Serie statistica: costituita da elementi di uguale o diversa importanza Serie storica: fanno riferimento a tempi o intervalli di tempo successivi INVARIANZA IN SENSO DEBOLE E IN SENSO FORTE Cos’è una STATISTICA: è una qualunque funzione che associa un numero reale a una serie di osservazioni. Esempio: la media, la mediana, la varianza, scarto quadratico medio, la moda, ecc. Problema della SIGNIFICANZA di una STATISTICA: Ciascuna scala di misura può essere soggetta ad alcune trasformazioni ammissibili senza alterare Ie informazioni fornite dalla scala. Il calcolo degli indici statistici discende dalla SCALA DI MISURAZIONE DEL FENOMENO, a fini di confronto al variare della traduzione numerica, si conservino le disuguaglianze fra valori dell’indice calcolati nelle differenti circostanze. Quali statistiche possono essere calcolate per i diversi tipi di scala delle variabili? TIPI DI TRASFORMAZIONI ammesse: TIPI DI SCALA TRASFORMAZIONI AMMISSIBILI INDICI (esempi) Scala nominale Biunivoche - sostituzione dei codici Es. variabile risposta: modalità sono “Si” e “No”; codifico “Si” = 1, e quindi 1 = “Si”, “No” = 0, quindi 0 = “No” 𝑌 = 𝑡(𝑦) Moda Scala ordinale Monotona crescente – i codici che associo devono mantenere l’ordine di grandezza Es. Voti: non suff., suff., buono, ottimo oppure voti numerici: 5,6,7, ...10 𝑌 = 𝑡(𝑦) Mediana, percentili Scala d’intervalli Lineari crescenti (moltiplicazione per una costante positiva e somma di una costante) Es. temperature 𝑌 = 𝑎 + 𝑏 ∗ 𝑥 𝑡𝑎𝑙𝑒 𝑐ℎ𝑒 𝑏 > 0 Media, Fisher(forte) 𝑿 𝒀⁄ Y1 Yj … Yc TOTALE X1 N11 N1j … N1c N1 Xi Ni1 Nij … Nic Ni Xr Nr1 Nrj … Nrc Nr TOTALE N1 Nj … Nc N - Marginali: ultima colonna e ultima riga - Parziali: tutte le modalità in mezzo 5 di SINTESI di CALCOLO Tengono contro di tutti i valori della distribuzione Medie Analitiche: - Semplice - Ponderata - Geometrica I N D I C I Non considerano tutti i valori ma solo la loro posizione di POSIZIONE - Percentili: mediana, quartili - Moda - Media troncata In BASE alle DISTANZE (variabilità) di VARIABILITA’: RISPETTO a una MEDIA (variabilità) - Campo di variazione - Differenza interquartile - Scostamento medio assoluto - Scostamento quadratico medio - Devianza / Varianza - Scomposizione Varianza - MAD (robusto) - RELATIVI e STANDARDIZZATI (numeri puri) - K’, CV, MAD’ - Scostamenti Standardizzati ETEROGENEITA’ (variabilità) - Gini - Shannon ASSIMMETRIA (variabilità relativa) - As4 (robusto) - Asr (robusto) - Fisher CONCENTRAZIONE (variabilità – caso particolare) 6 INDICI STATISTICI SU UNA VARIABILE (UNIDIMENSIONALI): medie, indici di variabilità, forma di distribuzione. - Sintetizzare: valore medio, valore più frequente, la sua variabilità… - Confrontare: in situazioni differenti, stessa variabile in die o più insiemi di unità, in tempi diversi… MEDIE ANALITICE → Esprime l’ordine di grandezze dell’insieme dei dati rilevati, sintetizzano le informazioni sostituendo alla pluralità dei valori originari un unico numero, è sempre compresa tra il valore più piccolo e il più grande di quelli osservati. PROPRIETA’ in GENERALE: - Lascia invariata la somma, sostituendo M(X) ai singoli 𝒙𝒊 - Rende nulla la somma algebrica degli scostamenti ∑ (𝑥𝑖 − 𝑀) = 0 𝑛 𝑖=1 - Rende minima la somma algebrica degli scostamenti al quadrato ∑ (𝑥𝑖 − 𝑀) 2 = 0𝑛𝑖=1 - E’ invariante in senso debole per trasformazioni lineari crescenti (quindi anche per trasformazioni lineari omogenee), è quindi applicabile solo per fenomeni quantitativi. MEDIA ARITMETICA 𝑴(𝒀) = 𝒂 + 𝒃𝑴𝒙 Definizione → La media aritmetica è quel valore che sintetizza il carattere di un collettivo statistico lasciando invariato l’ammontare totale del carattere stesso. Vale a dire che sostituendo la media a tutti i valori del carattere rimane invariato l’ammontare del carattere. APPLICAZIONI: 1. Semplice: si divide il totale per il numero di componenti (unità) 2. Ponderata: la si utilizza nei casi di classi di frequenze, dove il valore medio degli estremi della classe diventa xi e la loro frequenza assoluta il peso. Nei rapporti statistici, dove il peso è rappresentato dal denominatore. Tabelle a doppia entrata, dove si calcolano le medie parziali e la media generale è considerata la media ponderata delle medie parziali. 3. Condizionata: si calcola la media solo sui dati che soddisfano una certa condizione. 4. Solo fenomeni QUANTITATIVI PROPRIETA’: 1. Rende nulla la somma algebrica degli scostamenti ∑ (𝑥𝑖 − 𝑀) = 0 𝑛 𝑖=1 2. Rende minima la somma dei quadrati degli scostamenti ∑ (𝑥𝑖 − 𝑀) 2 = min𝑛𝑖=1 3. E’ affine equivariante per posizione per trasformazioni lineari crescenti (invariante in senso debole), vale a dirsi è applicabile per fenomeni rilevati su scala di intervalli o scala di rapporti Altre PROPRIETA’ pratiche: a. Lascia invariata la somma, ovvero se sostituisco ?̃? ai singoli xi la media non cambia. b. La media conserva l’unità di misura dei valori su cui è stata calcolata c. Internalità: Data una serie ordinata di valori: x1 ≤ x2 ≤…≤ xn la media è compresa tra x1 ≤ M ≤xn d. Omogeneità: Moltiplicando con una costante c i termini di una serie di valori, anche la media risulta moltiplicata per la costante c e. Traslativa: Sommando una costante c ai termini di una serie di valori, anche la stessa costante è aggiunta alla serie di valori. f. Associativa: ovvero, suddividendo in due o più gruppi i valori della variabile, la media generale può ottenersi come media ponderata delle medie parziali di questi gruppi: 𝑀(𝑥) = 𝑥1∙𝑁1+𝑥2∙𝑁2+⋯+𝑥𝑘∙𝑁𝑘 𝑁1+𝑁2+⋯+𝑁𝑘 COMMENTO RISULTATO: Se M(x) = 50€ “I clienti che sono compresi tra X-Y anni hanno speso una media di 50€” “Nel caso che tutti i clienti avessero speso uno stesso ammontare, questo sarebbe di 50€” 7 MEDIA GEOMETRICA Definizione → La media geometrica è quel valore che sintetizza il carattere in modo che, sostituito ai singoli termini, lasci invariato il prodotto delle modalità attribuite ad essi. APPLICAZIONI: 1. Trova applicazione ogni volta che la funzione da lasciare invariata è il prodotto: √𝒙𝟏 ∙ 𝒙𝟐 ∙ … ∙ 𝒙𝒏 𝒏−𝟏 = √∏ 𝒙𝒊 𝒏 𝒊=𝟏 𝒏−𝟏 = (𝒙𝒊𝒎𝒆𝒅𝒊𝒐 − 𝟏) ∙ 𝟏𝟎𝟎 = 𝒙𝒊𝒎𝒆𝒅𝒊𝒐% 2. In caso di distribuzioni di frequenze si utilizza la media geometrica ponderata: 𝑴𝒈 = √∏ 𝒙𝒊 𝒏𝒊𝒏 𝒊=𝟏 𝒏−𝟏 3. Calcolo del montante: [𝑐𝑎𝑝𝑖𝑡𝑎𝑙𝑒 𝑖𝑛𝑣𝑒𝑠𝑡𝑖𝑡𝑜 ∙ (1 + 𝑖)𝑡] 4. Per calcolare il TASSO MEDIO ANNUO → nel caso di serie storiche vale: √ 𝒙𝒇𝒊𝒏𝒂𝒍𝒆 𝒙𝒊𝒏𝒊𝒛𝒊𝒂𝒍𝒆 𝒏−𝟏 = (𝒙𝒊𝒎𝒆𝒅𝒊𝒐 − 𝟏) ∙ 𝟏𝟎𝟎 = 𝒙𝒊𝒎𝒆𝒅𝒊𝒐%, il risultato indica la variazione media % per anno 5. Solo fenomeni QUANTITATIVI PROPRIETA’: 1. Il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi (base e): log 𝑀𝑔 = 1 𝑛 log [∏ 𝑥𝑖 𝑛 𝑖=1 ] = ∑ log 𝑥𝑖 𝑛 𝑖=1 Omogeneità: Moltiplicando con una costante c i termini di una serie di valori, anche la media risulta moltiplicata per la costante c: Mg(c∙X) = c ∙ Mg(X) PERCENTILI e MEDIANA, QUARTILI Definizione generale → I percentili di ordine z, e si indica con 𝑥𝑧 tale che 0 < z < 1, è il valore che divide in “x” parti uguali la successione ordinata crescente (𝑥𝑖); Quindi 𝐹(𝑥𝑧) = 𝑧, 0 < z < 1 - MEDIANA: Si definisce mediana 𝑀𝑒 di x, il valore che occupa la posizione centrale e divide in due la successione ordinata. È il percentile 𝑥0,50 - QUARTILI: dividono la successione ordinata in modo non decrescente in 4 parti uguali 𝑥0,25 𝑥0,50 𝑥0,75 𝑥100 - DECILI: dividono la successione ordinata in modo non decrescente in 4 parti uguali 𝑥0,10 𝑥0,20 … 𝑥100 APPLICAZIONI MEDIANA: 1. In caso di numeri in serie ORDINATA in modo non decrescente, corrisponde a: a. N PARI → 𝑛 2 +( 𝑛+1 2 ) 2 b. N DISPARI → 𝑛+1 2 2. In caso di distribuzione di frequenze (𝑥𝑖 ordinati in ordine non decrescente): calcolo la funzione di ripartizione relativa (funzione delle frequenze accumulate relative), e il valore corrispondente alla mediana si colloca dove 𝐹(𝑥) ≥ 0,50 3. In caso di distribuzioni di classi di frequenze (𝑥𝑖 ordinati in ordine non decrescente): calcolo la funzione di ripartizione relativa (funzione delle frequenze accumulate relative), considero i valori corrispondenti a 𝐹(𝑥) ≥ 0,50 , e applico la formula, il risultato è il valore esatto della mediana. 4. Solo fenomeni QUANTITATIVI e QUALITATIVI ORDINALI 5. Non risente di valori anomali perché occupa la posizione centrale 10 - 3 - 4 - Non soddisfa la 5 SCOSTAMENTO MEDIO ASSOLUTO (𝑺𝒎) SCOSTAMENTO QUADRATICO MEDIO (𝝈) 𝝈(𝒀) = 𝒃 ∙ 𝝈(𝑿) Indici di variabilità che misurano la media degli scostamenti basati sulle medie Definizione È la media aritmetica delle distanze tra i valori e la loro media aritmetica 𝑆𝑚 = ∑ |𝑥𝑖 − 𝑀| 𝑛 𝑖=1 𝑛 È la media quadratica delle distanze tra i valori e la loro media aritmetica 𝜎 = √ ∑ (𝑥𝑖 − 𝑀) 2𝑛 𝑖=1 𝑛 Applicazioni - Fenomeni quantitativi - meno utilizzato - In distribuzione di frequenze/classi di frequenze si utilizza la formula ponderata 𝜎 = √ ∑ (𝑥𝑖 − 𝑀) 2 ∗ 𝑛𝑖 𝑛 𝑖=1 𝑛 - Fenomeni quantitativi - Assolutamente preferito in quanto rispetta anche la proprietà 5, e inoltre perché insieme alla media è un parametro fondamentale della funzione di densità della distribuzione normale (inferenza) Relazione sempre vera → 𝑺𝑴 ≤ 𝝈 PROPRIETA’ - 1 - 2 - 3 - 4 - Non soddisfa la 5 - 1 - 2 - 3 - 4 - 5 Interpretazione Dato, 𝑆𝑚 = 6,8, In media le aziende hanno 100 dipendenti con uno scostamento quadratico medio in + o in – di circa 7 addetti Dato 𝜎 = 8,46, in media le aziende hanno 100 dipendenti con uno scostamento quadratico medio in + o in – di 8,5 circa DEVIANZA (DEV) VARIANZA (𝝈𝟐 𝒐𝒑𝒑𝒖𝒓𝒆 𝑽𝑨𝑹) Definizione E’ la somma dei quadrati degli scostamenti dalla media 𝐷𝐸𝑉 = ∑(𝑥𝑖 − 𝑀) 2 𝑛 𝑖=1 (in pratica è il numeratore della VAR) E’ la media aritmetica dei quadrati degli scostamenti fra i valori 𝑥𝑖 e la loro media aritmetica 𝑉𝐴𝑅 = 𝜎2 = ∑ (𝑥𝑖 − 𝑀) 2𝑛 𝑖=1 𝑛 = 𝑀2 2 − 𝑀2 = ∑ 𝑥𝑖 2 𝑛 − 𝑀2 Applicazioni - fenomeni quantitativi - impiegata nell’ambito dell’inferenza e regressione - per motivi di interpretazione non la si utilizza come indice di variabilità, ma utilizzo 𝜎 PROPRIETA’ - Se l’unità di misura è espressa in Kg la sua VAR è espressa in 𝐾𝑔2 - Var(c) = 0 - 𝑉𝑎𝑟(𝑋 + 𝑐) = 𝑉𝑎𝑟(𝑋) (invarianza per traslazione) - Non è affine equivariante per scala: 𝑉𝑎𝑟(𝑐 ∗ 𝑋) = 𝑐2 ∗ 𝑉𝑎𝑟(𝑋) 11 SCOMPOSIZIONE VARIANZA: Dato un collettivo statistico e g gruppi, la media generale puo’ essere ottenuta come media aritmetica ponderata delle singole parziali. La varianza generale puo’ essere scomposta in varianza in varianza nei gruppi e varianza fra i gruppi. Si utilizza il metodo per dire se i gruppi sono omogeni al loro interno e/o diversi tra loro. Se prevale 𝜎𝑛𝑒𝑖 → i gruppi sono diversi al loro interno e omogenei fra loro Se prevale 𝜎𝑓𝑟𝑎 → i gruppi sono diversi fra loro ma omogenei al loro interno la VAR che prevale è la variabilità che domina Es. Spesa famiglie in due regioni diverse Se + alta varianza nei: dipende dalla composizione delle famiglie cioè nei gruppi, Ovvero che i gruppi sono al loro interno diversi ma sono omogenei fra loro. Se + alta varianza fra: la spesa dipende dalla regione in cui si trovano le famiglie, diversità in base alla regione, Ovvero i gruppi sono omogenei fra loro ma diversi al loro interno. MAD (robusto) Definizione → È la mediana degli scostamenti medi assoluti quadratici dalla mediana 𝑀𝐴𝐷 = 𝑀𝑒(|𝑥𝑖 − 𝑀𝑒|) APPLICAZIONI: 1. E’ robusto → non risente dei valori anomali (outliers) PROPRIETA’ in riferimento a PROPRIETÀ GENERALI VARIABILITÀ, valgono: - 1 - 2 - 3 - 4 COMMENTO RISULTATO in corrispondenza di 𝒙𝒊 = 𝟒 “Il 50% degli scostamenti dalla mediana risulta ≤ 4, il restante > 4” INDICI DI VARIABILITA’ RELATIVA CONDIZIONI PER APPLICARLI: Dati X e Y due fenomeni… 1. X e Y devono avere la stessa unità di misura 2. Stesso ordine di grandezza (approssimativamente) APPLICAZIONI: Si utilizzano quando per esempio, le modalità delle distribuzioni a confronto sono espresse nella stessa unità di misura, ma le loro intensità medie sono differenti → es: quantità di importazioni di beni diversi, prezzi di merci ordinarie e prezzi di merci pregiate, la potenza tra diversi tipi di auto, Etc. PROPRIETA’ 1. Numeri puri → non hanno unità di misura 2. Noi consideriamo solo un indice di variabilità tra 0 e 1. 3. Invarianti in senso forte COMMENTO RISULTATO Dati: 𝐶𝑉𝑥 = 59,95% e 𝐶𝑉𝑦 = 56,15% e 𝐶𝑉𝑧 = 26,5% - il confronto tra i vari CV segnala che risulta maggiore la variabilità di X, pari a circa il 60% della rispettiva media, mentre la variabilità della Y e di Z è uguale rispettivamente a 56,15% e al 26,5% della media. 12 CAMPO DI VARIAZIONE (K’) COEFFICIENTE DI VARIAZIONE CV’ / 𝝈 RELATIVO MAD’ GENERICO V’ 𝐾′ = 𝐾 𝑀 ∗ 100 È espresso in % M è la media 𝐶𝑉′ = 𝜎 𝑀 ∗ 100 È espresso in % M è la media 𝑀𝐴𝐷′ = 𝑀𝐴𝐷 |𝑀𝑒| 𝑉′ = 𝑉 |𝑀| SCOSTAMENTI STANDARDIZZATI (𝒛𝒊) Definizione → Si dicono scostamenti standardizzati dei valori di una variabile quantitativa X, e si indicano con 𝑧𝑖, i rispettivi scostamenti dalla media aritmetica rapportati allo scostamento quadratico medio 𝜎. 𝑧𝑖 = 𝑥𝑖−𝑀 𝜎 APPLICAZIONI: Si utilizzano quando i fenomeni: 1. X e Y hanno unità di misura differente (es. superficie di abitazione occupata in mq e reddito annuo in €) 2. Diverso ordine di grandezza (es. reddito annuo in € e spesa media mensile in €, il reddito è molto maggiore rispetto alla spesa mensile) PROPRIETA’: 1. La media degli scostamenti standardizzati è sempre uguale a 0 (dalla proprietà della media aritmetica) 𝑀(𝑍) = 0 2. 𝑉𝑎𝑟(𝑍) = 1 , perchè la media dei quadrati dei numeratori delle 𝑧𝑖 è uguale 𝜎 2, quindi 𝜎 = 1 3. Sono numeri puri, non hanno unità di misura COMMENTO RISULTATO: Dato individuo A con peso -0,695 e altezza 1,003 “L’individuo A per il peso risulta sotto la media dei pesi e pesa -meno della media, per l’altezza è +più alto della media delle altezze in particolare si colloca sotto la media dei pesi di -0,695 volte 𝝈 e si colloca sopra la media di 1,003 volte 𝝈 dei pesi” Il risultato in +/- indica quanto sta sopra la media o sotto la media CONCENTRAZIONE Definizione → Misura la variabilità relativa per fenomeni perfettamente trasferibili (VEDI FORMULE SU FORMUALARIO) VINCOLI: i FENOMENI devono essere PERFETTAMENTE TRASFERIBILI: - Fenomeni che assumono valori non negativi 𝑥𝑚𝑖𝑛𝑖𝑚𝑜 = 0 - Fenomeni che ammettono che l’ammontare del fenomeno possa essere trasferito da un’unità all’altra e che il suo valore massimo che può assumere è 𝑥𝑚𝑎𝑠𝑠𝑖𝑚𝑜 = ∑ 𝑥𝑖 SI CONSIDERANO: 1. EQUIDISTRIBUZIONE: se tutti hanno lo stesso ammontare = variabilità nulla (Se un carattere quantitativo trasferibile non è equidistribuito, diciamo che è concentrato) 2. MASSIMA CONCENTRAZIONE: quando una sola unità possiede tutto l’ammontare e le altre unità non possiedono nulla APPLICAZIONI: - Variabili quantitative: Reddito, spesa, numero dipendenti di un insieme di imprese… 15 PUO’ ESSERE: UNIMODALE → La distribuzione presenta un solo massimo SIMMETRICA → Se rispetto al polo di simmetria A si discosta con stessa la frequenza (o densità di frequenza) da ambo i lati MULTIMODALE → La distribuzione presenta più massimi ASIMMETRICA → Se rispetto al polo di simmetria A non si discosta con stessa la frequenza (o densità di frequenza) da ambo i lati CRITERI DI SIMMETRIA (VARIABILE QUANTITATIVA UNIMODALE): ASIMETRIA DI FISHER PROPRIETA’: - Numero puro: non ha unità di misura - INVARIANTE IN SENSO FORTE per trasformazioni lineari crescenti e omogenee RISULTATI: - Distribuzione SIMMETRICA → 𝛾 = 0 - Distribuzione ASIMETRICA, se: o 𝛾 > 0 → asimmetria positiva o 𝛾 < 0 → asimmetria negativa ALTRI INDICI DI ASIMMETRIA (robusti) Indici di asimmetria robusti: MAD, Me, Media troncata • INDICE 𝑨𝑺𝟒: Utilizzato nel caso si voglia un indice robusto che non tenga conto dei valori anomali 𝐴𝑆4 > 0 → asimmetria positiva 𝐴𝑆4 < 0 → asimmetria negativa • INDICE 𝑨𝑺𝒓 (asimmetria di Bowley): è l’indice 𝐴𝑆4 normalizzato 𝐴𝑆𝑟 = −1 → se 𝑥0,75 = 𝑀𝑒 𝐴𝑆𝑟 = 1 → se 𝑥0,25 = 𝑀𝑒 3. M > Me > Mo → ASIMMETRICA POSITIVA * la media si sposta verso la direzione dei valori anomali 2. M < Me < Mo → ASIMMETRICA NEGATIVA 1. M = Me = Mo → SIMMETRICA 16 BOXPLOT: Grafico a Scatola - Segmento che indica la posizione della Me → ordine di grandezza - Rettangolo box la cui lunghezza indica il grado di dispersione del 50% dei valori (tra 1° e 3° quartile) → > lunghezza tanto è + elevata la variabilità dei valori attorno a Me - 2 segmenti “coda” che indicano fino a che punto si estende la coda dx e sx della distribuzione prescindendo da valori anomali (outliers) - I punti esterni sono i valori anomali SERIE STORICHE Definizione: È una successione di valori di una variabile quantitativa riferiti a tempi (data specifica) o intervalli temporali (es. ogni mese di un anno); si studia la variazione del fenomeno nel tempo. SERIE STORICA MULTIPLA: quando si hanno più variabili es. birra, vino, acqua. Nelle serie storiche, ci preoccuperemo DELLO STUDIO DELLE VARIAZIONI NEL TEMPO NEL FENOMENO. Le variazioni delle serie storiche da un anno all’altro possono essere ASSOLUTE o RELATIVE (numeri indici – numeri puri). Il problema delle variazioni assolute non permette di fare confronti tra le variazioni dei fenomeni per motivi di ordine di grandezza diversi oppure un’unità di misura diversa. Per questo si preferiscono utilizzare le variazioni relative, definite NUMERI INDICI: A BASE FISSA e a BASE MOBILE che sono rapporti adatti a confrontare le variazioni della stessa durata ma diversi valori di ordine di grandezza che si riferiscono allo stesso periodo temporale N.I. BASE FISSA N.I. BASE MOBILE Si ottengono rispetto un periodo base di riferimento, la base rimane fissa Si ottengono rispetto all’anno immediatamente precedente Dati: t = 1 anno di base/primo anno t=T ultimo anno considerato 𝑥𝑡 𝑥1 ∗ 100 𝑥𝑡 𝑥𝑡−1 ∗ 100 - Fanno riferimento a un TEMPO BASE = 100 - Posso calcolare la 𝑽𝑨𝑹𝑰𝑨𝒁𝑰𝑶𝑵𝑬 𝑪𝑶𝑴𝑷𝑳𝑬𝑺𝑺𝑰𝑽𝑨 = 𝒙𝒖𝒍𝒕𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝒙𝒑𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 - Fanno riferimento all’anno precedente - Il primo anno non c’è valore - Si ottiene da n.i. a base fissa - VARIAZIONE % RISPETTO ALL’ANNO PRECEDENTE 𝑛. 𝑖. 𝑚𝑜𝑏𝑖𝑙𝑒 − 100 = % VARIAZIONE COMPLESSIVA → 𝒙𝒖𝒍𝒕𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝒙𝒑𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 VARIAZIONE COMPLESSIVA → 𝒏𝒊 𝟏𝟎𝟎 ∙ 𝒏𝒊 𝟏𝟎𝟎 … = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 VAR % MEDIA ANNUA → √ 𝒙𝒖𝒍𝒕𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝒙𝒑𝒊𝒎𝒐 𝒂𝒏𝒏𝒐 𝑻−𝟏 = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 VAR % MEDIA ANNUA → √ 𝒏𝒊 𝟏𝟎𝟎 ∙ 𝒏𝒊 𝟏𝟎𝟎 … 𝑻−𝟏 = (𝒓𝒊𝒔 − 𝟏) ∙ 𝟏𝟎𝟎 Sottraendo 100 a n.i. a base fissa si ottiene la variazione % della variabile rispetto al TEMPO BASE Sottraendo 100 a un n.i. a base mobile si ottiene la variazione % della variabile rispetto all’anno precedente TASSO MEDIO ANNUO % DI VARIAZIONE: variazione media % complessiva annua per l’intero periodo considerato, si calcola n.i. a base mobile (o base fissa, a seconda di dove ho dati) Es. var%=5% → ogni anno in media i prezzi sono aumentati del 5% 17 n.i. COMPOSTI: serie multivariante, si studia l’andamento del prezzo rispetto all’anno considerato di più fenomeni, e si considera per ognuno di essi il “peso” che indica l’importanza. In particolare, alcuni indici composti di particolare importanza sono gli indici di prezzi al consumo dati da un insieme di paniere di beni /servizi. Es. Supponiamo di fare delle rilevazioni sui prezzi. Se si vuole studiare l’andamento del prezzo di un solo bene allora abbiamo i numeri indici semplici. Se si vuole studiare l’andamento del prezzo di una classe di beni, allora si hanno i numeri indici complessi che operano una sintesi delle serie storiche dei prezzi dei singoli beni della classe. Sono misure statistiche formate dalla media dei prezzi ponderati per uno specifico paniere di beni e servizi, esso misura l’aumento generale dei prezzi, cioè l’inflazione al consumo per il periodo considerato. Intera collettività nazionale (NIC), per le famiglie di operai e impiegati (FOI) e l’indice armonizzato europeo (IPCA) NIC: INDICE NAZIONALE dei PREZZI al CONSUMO per l’intera COLLETTIVITA’ MISURA L’INFLAZIONE A LIVELLO DELL’INTERO SISTEMA ECONOMICO. Considera L’Italia come una famiglia di consumatori malgrado le differenze di abitudini interne. Usato da stati per prenere decisione sulle politiche economiche da attuare. Consumi generali delle famiglie italiane a livello nazionale IPCA: INDICE ARMONIZZATO DEI PREZZI AL CONSUMO PER I PAESI DELL’UE MISURA L’INFLAZIONE COMPARABILE A LIVELLO EUROPEO (uguale a NIC ma per UE) E’ un indicatore di convergenza delle politiche economiche dell’UE. Consumi generali delle famiglie italiane di beni e servizi comparabili a livello europeo Es. inflazione tra italia e francia FOI: INDICE DEI PREZZI AL CONSUMO PER LE FAMIGLIE DI OPERAI E IMPIEGATI INFLAZIONE DEI CONSUMI DELLE FAMIGLIE CHE FANNO CAPO A UN LAVORATORE DIPENDENTE (EXTRAGRICOLO) E’ considerato dalla maggior parte dei riferimenti normativi nazionali per l’adeguamento di valori espressi in moneta corrente (ex. Assegni per divorzi) Consumi generali delle famiglie italiane di beni e servizi dove il capofamiglia è un lavoratore dipendente extragricolo. Es. il proprietario di un appartamento può aumentare in % il prezzo dell’affitto in base a questo indice CONCATENAMENTO TRA n.i di base differente: Consiste di riportare i ni con la nuova base ai termini della vecchia base oppure di portare ni con la vecchia base ai termini della nuova base. Si utilizza quando il periodo del fenomeno considerato cambia. Per fare ciò si utilizza IL COEFFICIENTE DI RACCORDO che è il rapporto tra il valore dei ni quella base più vecchia del tempo corrispondente al cambiamento di base e il valore assegnato la base della nuova serie (di solito uguale a 100) Coefficienti di raccordo: Sono valori utilizzati per raccordare serie di indici riferite a basi diverse, che per loro natura non sarebbero teoricamente confrontabili a causa delle innovazioni nei prodotti e nelle ponderazioni introdotte ad ogni cambio di base. - Da vecchia base → a nuova base = si moltiplicano i ni per il coefficiente di raccordo - da nuova base → a vecchia base = si dividono i ni per il coefficiente di raccordo Le componenti di una serie storica: Si assume che i valori 𝒙𝒕 di una serie sia esprimibile mediante una funzione del tempo f(t) che esprime la “traiettoria” temporale e un residuo 𝒆𝒕 residuo non spiegato. Le funzioni su cui sono basati sono le funzioni interpolanti, dove si sceglie l’opportuna funzione che puo’ essere una retta, parabola o funzione esponenziale che meglio rappresenta il TREND → tendenza di fondo del fenomeno riferita a un lungo periodo di tempo ed è determinato dallo sviluppo del sistema economico ed è la traiettoria ideale che il fenomeno avrebbe percorso senza “perturbazioni” 𝒙𝒕 = 𝒇𝒕 + 𝒆𝒕 20 La regressione lineare studia la dipendenza in media tra fenomeni attraverso la RETTA DI REGRESSIONE; una volta che abbiamo constatato l'esistenza di una relazione lineare con il coefficiente di correlazione, ci chiediamo come varia la variabile dipendente in funzione della variabile esplicativa. RETTA DI REGRESSIONE: 𝒚?̂? = 𝒂 + 𝒃𝒙𝒊 La retta di regressione rappresenta la dipendenza in media di Y a X. i valori teorici sono ricavati e sono quelli che rimangono sulla retta di regressione (in rosso); per il calcolo dei parametri a e b, si utilizza il METODO DEI MINIMI QUADRATI: Minimizza i quadrati delle differenze tra i valori osservati e i valori teorici. 𝒂 = 𝑴𝒚 − 𝒃𝑴𝒙 → Valore teorico che assume la variabile dipendente Y quando X=0 𝒃 = 𝑪𝑶𝑽(𝑿,𝒀) 𝑽𝑨𝑹(𝑿) = 𝒓𝒙𝒚 𝝈𝒚 𝝈𝒙 → Variazione che subisce in media la variabile dipendente Y quando X aumenta di 1 unità BONTA’ di ADATTAMENTO DI UN MODELLO DI REGRESSIONE 𝐫𝐱𝐲 𝟐 = 𝜹 Per misurare la bontà di adattamento, si utilizza l'indice di determinazione lineare 𝒓𝒙𝒚 𝟐 = 𝜹: - Misura relativa e normalizzata, assume valori tra (0;1) - È dato dal rapporto della 𝐷𝐸𝑉(?̂?) e 𝐷𝐸𝑉(𝑌) 𝒓𝒙𝒚 𝟐 = 𝜹 = 𝑫𝑬𝑽(?̂?) 𝑫𝑬𝑽(𝒀) = 𝟏 − 𝑫𝑬𝑽(𝑬) 𝑫𝑬𝑽(𝒀) 1. ADATTAMENTO PESSIMO 𝜹 = 𝟎 Significa che 𝐷𝐸𝑉(?̂?) = 0 - valori teorici sono tutti uguali alla media delle osservazioni di Y, qualunque sia il valore di X - la retta adattata ha il coefficiente di regressione nullo b=0 → pendenza nulla ovvero la retta è parallela all'asse delle ascisse punto quindi al variare della variabile esplicativa la variabile dipendente non varia quindi non esiste alcuna relazione lineare tra le 2 variabili 2. ADATTAMENTO PERFETTO 𝜹 = 𝟏 Significa che 𝐷𝐸𝑉(𝐸) = 0 - I singoli valori adattati riproducono esattamente i valori osservati l'andamento perfetto - tutti i punti geometricamente si colloca esattamente sulla retta di regressione. Quindi esiste una relazione lineare perfetta INTERPRETAZIONE dato 𝜹 = 𝟎, 𝟖𝟕 L’87% Della DEV della variabile dipendente spesa per il tempo libero e spiegata con la relazione lineare con il reddito soltanto un 13% è dovuto ad altri fattori non identificati. ESTRAPOLAZIONE Una volta che abbiamo costruito in un modello di regressione, e presenta un buon adattamento potremmo utilizzarlo a fini di estrapolazione, ovvero si tenta di valutare in modo attendibile il valore che assumerà la variabile dipendente in corrispondenza di un valore noto della variabile esplicativa. Sostanzialmente si fa una PROIEZIONE dei valori futuri, e quello che potrà essere un ammontare delle vendite in un T tempi futuro (n anni in più) 𝜹 = 𝟎 → adattamento pessimo 𝜹 = 𝟏 → adattamento perfetto 21 Quindi si prevede il valore che assumerà il fenomeno nei momenti immediatamente successivi rispetto all’ultimo considerato nel modello CONDIZIONI DA PORRE: 1. 𝜹 deve essere prossimo a 1, ovvero deve avere un buon adattamento deve essere rappresentato bene dalla funzione (interpolante) 2. il valore noto nella variabile esplicativa non deve essere lontano dai valori utilizzati nel calcolo della retta. 3. Mantenimento nel futuro delle stesse condizioni che hanno determinato l'andamento passato → a rimane costante, b varia 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒂 + 𝒃𝒕 PROIEZIOE → i valori futuri stimati per estrapolazione dovranno essere correttamente intesi come valutazioni di ciò che dovrebbe accadere qualora si manifestassero anche in futuro le condizioni che hanno determinato la precedente evoluzione del fenomeno Es. Voglio estrapolare la spesa di una famiglia con un reddito pari a 1500€ Prendo il modello: 𝒚?̂? = 𝒂 + 𝒃𝒙𝒊 𝒚?̂? = −𝟗𝟑, 𝟒𝟕 + 𝟎, 𝟏𝟑 ∗ 𝟏𝟓𝟎𝟎 = 𝟏𝟎𝟏, 𝟓𝟑 INTERPRETAZIONE: La spesa stimata è di 101,53, è circa attendibile. INTERPOLAZIONE di UNA SERIE STORICA (trend) Def. Adattamento ai valori osservati di una opportuna funzione che descrive l'evoluzione temporale del fenomeno considerato (serie storica) Obiettivo: Stima del trend di una serie storica , è l'andamento sottostante, è il percorso ideale che la serie storica dovrebbe avere - VARIABILE DIPENDENTE (Y) → Fenomeno di cui si stima il trend - VARIABILE INDIPENDENTE (X) → tempi, successione convenzionale 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒍𝒊𝒏𝒆𝒂𝒓𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒂 + 𝒃𝒕 INTERPRETAZIONE considerando 𝒚?̂? = 𝟒𝟗𝟏𝟐𝟑 + 𝟏𝟔𝟏𝟓, 𝟒𝟓𝒕 𝜹 = 𝒓 𝟐 = 𝟎, 𝟗𝟔𝟗𝟔𝟓 𝒂 → Valore teorico, ammontare teorico delle vendite al tempo 0. Per esempio, considerando l'anno 2008 come tempo 0 (t=0): nel 2008, la stima dell'ammontare delle vendite era di 49123 𝒃 → coefficiente angolare, indica la variazione media da un tempo al successivo. Per esempio, le vendite sono aumentate in media di 1615,45€ all’anno. 𝜹 → La variabile ben rappresentata dal trend, circa il 97% della DEV delle vendite è spiegato dal trend lineare della funzione interpolante. 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒆𝒔𝒑𝒐𝒏𝒆𝒏𝒛𝒊𝒂𝒍𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒇(𝒕) = 𝒂 ∙ 𝒃 𝒕 𝒃 − 𝟏 = 𝒇(𝒕) − 𝒇(𝒕 − 𝟏) 𝒂 = −𝟗𝟑, 𝟒𝟕 𝒃 = 𝟎, 𝟏𝟑 𝜹 = 𝟎, 𝟒𝟗𝟗𝟗 a 22 INTERPRETAZIONE considerando 𝒚?̂? = 𝒇(𝒕) = 𝟒𝟗𝟔𝟏𝟓 ∙ 𝟏, 𝟎𝟐𝟖𝟐𝟏 𝒕 𝜹 = 𝒓𝟐 = 𝟎, 𝟗𝟕𝟑𝟓 𝟏 − 𝟏, 𝟎𝟐𝟖𝟐𝟏 = 𝟎, 𝟎𝟐𝟖𝟐𝟏 = 𝟐, 𝟖% → Il media da un anno all'altro ammontare delle vendite è aumentato del 2,8% 𝜹 = 𝟎, 𝟗𝟕𝟑𝟓 → Adattamento molto buono, il 97% della DEV delle vendite è rappresentato dal trend esponenziale 𝒃 → Traduce le ipotesi di variazioni relative a tasso costante 𝒃 − 𝟏 → Rappresenta la media % variazione tra 2 due tempi consecutivi 𝑭𝒖𝒏𝒛𝒊𝒐𝒏𝒆 𝒑𝒐𝒕𝒆𝒏𝒛𝒊𝒂𝒍𝒆 𝒊𝒏𝒕𝒆𝒓𝒑𝒐𝒍𝒂𝒏𝒕𝒆 → 𝒚?̂? = 𝒇(𝒕) = 𝒂 + 𝒕 𝒃 INTERPRETAZIONE considerando 𝒚?̂? = 𝒇(𝒕) = 𝟒𝟗𝟗𝟔𝟕, 𝟔 ∙ 𝒕 𝟎,𝟏𝟎𝟗𝟗𝟗 𝜹 = 𝒓𝟐 = 𝟎, 𝟖𝟗𝟐𝟐 𝜹 = 𝟎, 𝟖𝟗𝟐𝟐 → la funzione di potenza è quella che rappresenta meno bene il trend del fenomeno punto la 89% della DEV delle vendite è rappresentata dalla funzione di potenza 𝒂 → Stima del fenomeno quando è al primo anno t=1. Es. a=49967,6 stima del trend nel 2009 𝒃 → Traduce le ipotesi di Elasticità costante rispetto al tempo. Es. b=0,10999 Trend crescente a tassi decrescenti a a
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved