Scarica dispense di statistica facili da capire! e più Dispense in PDF di Statistica solo su Docsity! Statistica Dispense del corso (1) a cura di Enea Bongiorno e Aldo Goia Università del Piemonte Orientale Dipartimento SEI enea.bongiorno@uniupo.it aldo.goia@uniupo.it a.a. 2016-2017 2 1.2 Alcune de
nizioni 5 1.2.1 Collettivo statistico, caratteri e modalità In ogni indagine occorre de
nire prioritariamente il collettivo statistico (o popolazione), ossia linsieme U delle unità reali o virtuali u (individui, oggetti o altri enti) mediante le quali si manifesta il fenomeno oggetto di studio e/o mediante le quali è possibile percepire le informazioni sul fenomeno stesso. Ogni elemento u 2 U è detto unità statistica. Il collettivo può essere
nito (popolazione reale) o in
nito (si parla in tal caso di popo- lazione virtuale). Nel primo caso si chiama numerosità del collettivo il numero N (con N > 0 intero e
nito) di unità statistiche che sono oggetto di osservazione, ossia la cardinalità di U (N = #U). Quando il collettivo è
nito si suole indicizzare le unità statistiche: U = fu1; u2; : : : ; uNg : Precisato il collettivo, devono essere individuati i caratteri che si intendono osservare. Si stabiliscono quindi le diverse possibili manifestazioni dei singoli caratteri in esame: esse sono denominate modalità. De
nizione 2 (Carattere e sue modalità) Un carattere è un aspetto mediante il quale può essere percepito il fenomeno collettivo in esame. Il carattere si manifesta concreta- mente sulle unità statistiche mediante espressioni dette modalità. Si osservi che ad un medesimo carattere possono essere associate modalità di¤erenti. Per esempio, il carattere rendimento scolasticopuò essere percepito mediante giudizi oppure voti. Nel primo caso le modalità saranno attributi del tipo: insu¢ ciente, su¢ ciente, buono, ecc., mentre nel secondo le modalità saranno dei numeri. Le modalità sono usualmente classi
cate secondo le seguenti scale di misure dovute a Stevens (1946)1: 1. Scala nominale: le modalità si identi
cano in attributi tra i quali non esiste una relazione dordine naturale. Per esempio, sono caratteri in scala nominale il sesso (o genere), il corso di laurea, la zona di provenienza, ecc.; 2. Scala ordinale (per ranghi): le modalità si identi
cano in attributi che presentano una relazione dordine naturale. Esempi sono: ordine di arrivo in una gara, giudizio scolastico, titolo di studio, numero di stelle di un albergo, ecc.; 3. Scala per intervalli : le modalità sono numeri di un sistema dotato di origine ar- bitraria. Per il confronto tra due elementi ha senso ricorrere solo alla di¤erenza. Esempi di caratteri misurati in scala per intervalli sono la temperatura e il voto di diploma. 1Stevens, S. S. (1946). On the Theory of Scales of Measurement. Science, 103, 677680 6 1. Concetti preliminari Consideriamo per esempio la temperatura: è sbagliato a¤ermare che se nella città A ci sono 10C e nella città B ce ne sono 20C, allora B ha temperatura doppia di A: possiamo solo dire che ci sono 10C di di¤erenza. Inoltre la mancanza di un sistema di origine assoluto fa sì che cambiando lunità di misura si possa alterare il rapporto tra due grandezze. Per esempio, convertendo i dati precedenti in gradi Fahrenheit si ottengono 50F nella città A e 68F in B: è evidente che nella nuova scala, la temperatura in B non è il doppia di quella in A (68=50 6= 10=20). 4. Scala per rapporti : le modalità sono numeri di un sistema dotato di origine assoluta, coincidente con lassenza di carattere (lo zero). Gli elementi possono essere messi in relazione mediante la divisione. Sono esempi la ricchezza, il peso, la statura, la durata di un componente elettronico, il numero di
gli, ecc., ossia tutte le risultanze di un processo di quanti
cazione. La valutazione degli stock in ambito economico si e¤ettua sempre mediante scale per rapporti. Le modalità espresse da un carattere costituiscono un insieme, che indichiamo con M. Sulla base delle scale di misura usate, si classi
cano i caratteri nel modo seguente: 1. carattere qualitativo: le sue modalità sono espresse in termini di attributi: (a) qualitativo sconnesso quando è misurato su scala nominale, (b) qualitativo ordinale quando è misurato su scala ordinale, 2. carattere quantitativo: le sue modalità vengono espresse in termini numerici: (a) quantitativo discreto: le modalità sono esprimibili mediante numeri interi, cioé M Z, (b) quantitativo continuo: le modalità sono esprimibili mediante numeri di un insieme con la potenza del continuo, cioéM R, (c) quantitativo in classi : le modalità sono rappresentate da intervalli di misure, cioé M = fl0 a l1; l1 a l2; l2 a l3; : : : g: La modalità li 1 a li (con li 1 < li), che denominiamo classe i-ma (i = 1; 2; 3; : : : ), coincide con lintervallo (li 1; li]. La quantità wi = li li 1 è detta ampiezza della classe i-ma e (li + li 1) =2 è detto centro della classe i-ma. 1.2 Alcune de
nizioni 7 1.2.2 Tecniche di rilevazione La rilevazione è loperazione con la quale si e¤ettua la raccolta dei dati: per ciascuno dei caratteri in studio, si associa ad ogni unità statistica una ed una sola modalità. Lope- razione, ripetuta per tutte le unità statistiche in esame, porta alla compilazione di una tabella che denominiamo matrice dei dati (o dataset): in ciascuna riga di detta tabella si leggono le informazioni relative ad una particolare unità statistica. Come accennato in precedenza, la rilevazione può essere: 1. totale quando viene ispezionata lintera popolazione U (ciò è chiaramente possibile solo quando la popolazione è
nita). Si parla in tal caso di censimento o di indagine esaustiva; 2. parziale quando viene osservata solo una parte di U detta campione. Parliamo in tal caso di indagine campionaria. La selezione di un campione può avvenire secondo criteri deterministici oppure casuali (detti anche aleatori o stocastici). Le modalità operative (che non sono oggetto di studio in questo testo) con cui si e¤ettua la rilevazione possono essere di diverso tipo: 1. in taluni casi è possibile la misurazione diretta. Si può facilmente immaginare che in tal caso possano sorgere problemi connessi alla precisione degli strumenti usati; 2. per i fenomeni di tipo economico e sociale, si utilizza in genere lintervista mediante questionario. Essa può avvenire attraverso: (a) la somministrazione diretta; (b) la tecnica della Computer Assisted Interview : CATI (c.a. Telephone i.); CAPI (c.a. Personal i.); CASI (c.a. Self i.). 1.2.3 Esempi ed esercizi di riepilogo La precisa identi
cazione del collettivo e dei caratteri in studio è fondamentale nella lettura dei dati e nella scelta delle tecniche di elaborazione da utilizzarsi: è inutile saper fare calcoli, anche complessi, su tabelle contenenti dei numeri mutise poi non si sanno discutere i risultati e associarli al fenomeno in studio. Per
ssare le idee, si presentano alcuni esempi e si propongono degli esercizi. 10 1. Concetti preliminari Parte I Analisi Statistica Univariata 2.1 Variabile statistica 15 Sappiamo che i prezzi dei biglietti dingresso variano a seconda della posizione del posto a sedere: Posto Prezzo Euro 1; 2; 3; 5 30 4; 6; 8 25 7; 9 15 Consideriamo ora la popolazione formata dai 9 spettatori presenti in una data serata: ciascuno di essi può essere facilmente messo in corrispondenza col numero della poltrona su cui è seduto. Così facendo, si può descrivere formalmente la popolazione come segue: U = fu1; u2; : : : ; u9g ove u1 indica lo spettatore seduto sulla poltrona numero 1, u2 quello seduto sulla poltrona numero 2, e così via. Si supponga di voler e¤ettuare su tale popolazione la rilevazione del carattere quantitativo discreto Prezzo del biglietto in Euro cui corrisponde linsieme delle modalità M che contiene tutti in numeri naturali divisi per 100 (lunità minima è il centesimo di Euro). La funzione che modella la rilevazione, ossia la v.s., è la seguente: X (uv) = 8<: 15 v = 7; 9 25 v = 4; 6; 8 30 v = 1; 2; 3; 5 e la matrice dei dati risultante è: Spettatore Prezzo pagato u1 30 u2 30 u3 30 u4 25 u5 30 u6 25 u7 15 u8 25 u9 15 Esercizio 2 Lo Studente e¤ettui la rilevazione dei voti che ha registrato nel corso della sessione invernale di questanno accademico: dopo aver descritto il collettivo U ed il carattere in studio con le sue modalità M, costruisca la v.s. X = Voti della sessione invernaleed il dataset corrispondente. 16 2. Variabili statistiche e distribuzioni di frequenze 2.2 Distribuzioni di frequenze Linformazione raccolta nella matrice dei dati può essere estremamente ampia e non è organizzata. Essa risulta quindi di di¢ cile lettura e dunque non direttamente fruibile: è necessario fornirne delle riassunzioni. Loperazione più semplice che può essere compiuta sullinsieme dei dati individuali è quella di riordinare gli stessi secondo un dato criterio (come già osservato in precedenza, per alcune tipologie di caratteri esistono degli ordinamenti naturali). Noteremmo allora che talune modalità ricorrono più volte. Consideriamo dunque linsieme immagine della funzione X, ossia linsieme costituito dagli elementi distinti e, quando è lecito, ordinati (che indichiamo col simbolo xi) presenti nella matrice dei dati: Im (X) = fx1; x2; : : : ; xkg ove k è un intero positivo (con k N), il generico elemento xi è detto realizzazione della v.s. X e Im (X) M dal momento che non tutte le modalità presenti inM potrebbero essere state osservate. Esempio 5 Riprendendo i dati dellEsempio 4, linsieme immagine di X è Im (X) = fx1 = 15; x2 = 25; x3 = 30g con k = #Im (X) = 3: Se consideriamo ora una speci
ca realizzazione xi 2 Im (X), possiamo individuare un unico sottoinsieme di U costituito da tutte quelle unità statistiche su cui è stato osservato xi: fuv 2 U : X (uv) = xig : Tale insieme non è altro che la controimmagine di xi tramite X (ossia, X 1 (fxig)), in modo compatto scriveremo nel seguito fX = xig in luogo di fuv 2 U : X (uv) = xig. La numerosità di tale insieme (che indichiamo ni) è chiamata frequenza assoluta di xi: ni = # fX = xig : Rapportando ni alla numerosità N dellintera popolazione, otteniamo la frequenza relativa di fX = xig, che indichiamo fi: fi = Freq (X = xi) = ni N ; che, essendo una proporzione, è un numero compreso tra 0 e 1. Di conseguenza, fi esprime il peso del gruppo di unità statistiche fX = xig sullintera popolazione. Le fre- quenze relative possono essere indicate indi¤erentemente come proporzioni o percentuali. Riassumiamo quanto detto nella seguente de
nizione: 2.2 Distribuzioni di frequenze 17 De
nizione 4 (Frequenza assoluta e relativa) Data una v.s. X, la frequenza asso- luta ni (risp. la frequenza relativa fi) è la numerosità (risp. la porzione) di unità statistiche alle quali è stata assegnata la realizzazione xi mediante X. Per
ssare le idee vediamo un esempio. Esempio 6 Sempre facendo riferimento allEsempio 4 si individuano fX = 15g = fuv 2 U : X (uv) = 15g = fu7; u9g ; fX = 25g = fuv 2 U : X (uv) = 25g = fu4; u6; u8g ; fX = 30g = fuv 2 U : X (uv) = 30g = fu1; u2; u3; u5g ; da cui si desume immediatamente n1 = 2 f1 = 2=9 = 0:2 (= 22:2%); n2 = 3 f2 = 1=3 = 0:3 (= 33:3%); n3 = 4 f3 = 4=9 = 0:4 (= 44:4%): Ripetendo loperazione per ogni xi, otteniamo k sottoinsiemi fX = xig che sono tra loro disgiunti e la cui unione resituisce lintera popolazione U (tecnicamente si tratta di una partizione di U): il calcolo della frequenza assoluta e relativa per ciascun sottoinsieme in- dividuato si chiama spoglio dei dati e porta alla costruzione della distribuzione di frequenze assoluta e relativa della v.s. X. De
nizione 5 (Distribuzione di frequenze) Si chiama distribuzione di frequenza as- soluta (risp. relativa) della v.s.X linsieme delle coppie f(xi; ni) ; i = 1; : : : ; kg (risp. f(xi; fi) ; i = 1; : : : ; kg) ossia, il gra
co della funzione che ad ogni xi assegna la corrispondente frequenza assoluta ni (risp. relativa fi). Per comodità si suole raccogliere la distribuzione di frequenza in tabella: Im(X) Freq. Assolute: # fX = xig Freq. Relative: Freq (X = xi) x1 n1 f1 x2 n2 f2 x3 n3 f3 ... ... ... xk nk fk La somma delle k frequenze assolute deve per forza di cose essere uguale alla numerosità del collettivo dal momento che le k parti fX = xig sono disgiunte: n1 + n2 + + nk = kX i=1 ni = N: 20 2. Variabili statistiche e distribuzioni di frequenze (ove: MI = Media Inf., MS = Media Sup., UN = Laurea). 1) Dopo aver precisato qual è il collettivo, chiarire la natura del carattere in studio. 2) Illustrare schematicamente la funzione X, esplicitarla analiticamente e dire da cosè costituito Im (X). 3) Precisare cosa si intende con la notazione fX = MIg. 4) Calcolare Freq (X = MI). Esercizio 4 La rilevazione delle temperature medie giornaliere nella città di Novara nel corso del mese di gennaio dello scorso anno ha prodotto le seguenti risultanze: Temperature Freq. Assolute 10 a 0 6 0 a 5 13 5 a 10 9 10 a 20 3 1) Dire qual è il collettivo e qual è la sua numerosità N . Chiarire quindi la natura del carattere in studio. 2) Precisare da cosè costituito Im (X) e qual è la sua numerosità k. 3) Che cosa conteggiano le frequenze assolute riportate nella tabella? 4) Dopo aver spiegato cosa si intende con fX = 5 a 10g, calcolare Freq (X = 5 a 10). 2.3 Sempli
cazione di una distribuzione di frequenze Può accadere, in particolare qualora si osservi un carattere quantitativo continuo, che k sia molto grande: la distribuzione di frequenze può diventare in tale caso di di¢ cile lettura dal momento che di fatto non si ottiene la sintesi della matrice dei dati auspicata con lo spoglio. Addirittura, se k = N allora si ha ni = 1 per ogni i e quindi la distribuzione di frequenze non è altro che il dataset riordinato. Per gestire tale problema e permettere una sintesi utile per le rappresentazioni gra
che che vedremo in seguito, si ricorre ad una sempli
cazione dellinsieme dei dati originari ottenuta mediante laccorpamento degli elementi di Im (X) in gruppi. Osservazione 1 Tale operazione di accorpamento implica naturalmente una perdita di informazione: nel caso si e¤ettuino ulteriori analisi è comunque sempre auspicabile uti- lizzare i dati originali e mai quelli accorpati. 2.3.1 Dicotomizzazione Il modo più estremo di procedere si chiama dicotomizzazione (ossia riduzione a due sole modalità distinte): in pratica ci si concentra su un particolare elemento xi e si fanno 2.3 Sempli
cazione di una distribuzione di frequenze 21 conuire tutti gli altri in una nuova realizzazione che chiamiamo non xi. Così facendo la popolazione viene suddivisa in due soli gruppi, ossia fX = xig ed il suo complementare fX 6= xig, aventi frequenze relative fi e 1 fi rispettivamente. Ovviamente, lo stesso metodo può essere applicato considerando laccorpamento di più di una realizzazione in un unico gruppo (per esempio, se X è quantitativa, si può fare riferimento ad una soglia che divide la popolazione in due parti disgiunte). Per chiarire le idee, vediamo un esempio di dicotomizzazione nel caso di una v.s. qualita- tiva. Esempio 9 Si consideri la seguente distribuzione di frequenze che illustra la suddivisione degli studenti di un dato dipartimento circa il Corso di Laurea frequentato in un dato anno: Corso di Laurea % Studenti Eco. Aziendale 45% Eco. Politica 5% Eco. del Turismo 10% Giurisprudenza 40% Se si vuole concentrare lattenzione sugli studenti di Economia Aziendale è su¢ ciente procedere alla dicotomizzazione che segue: Corso di Laurea % Studenti Eco. Aziendale 45% Altro 55% Quando si desidera invece porre lattenzione sul confronto tra gli studenti di discipline economiche e quelli di materie giuridiche, si può procedere come segue: Corso di Laurea % Studenti Discipline Economiche 60% Discipline Giuridiche 40% 2.3.2 Raggruppamento di dati in classi Nel caso si voglia sempli
care la distribuzione di frequenze di una v.s. quantitativa per un carattere continuo, una tipica operazione consiste nel raggruppamento dei dati in classi di misure. Consideriamo quindi una v.s. quantitativa a valori reali X e lintervallo di limiti a e b (con a < x1 e b xk). Si suddivide detto intervallo in t intervalli adiacenti e privi di elementi in comune che indichiamo, usando una notazione già introdotta in precedenza, lj 1 a lj j = 1; : : : ;ek con l0 = a e lek = b. Si costruisce in tal modo una nuova v.s. che indichiamo eX per la quale: 22 2. Variabili statistiche e distribuzioni di frequenze le realizzazioni sono classi di valori: exj = lj 1 a lj la frequenza assoluta di una speci
ca classe si ottiene contando il numero di unità statistiche alle quali la v.s. originaria X ha associato un valore incluso in tale classe: per la classe j-ma si ha nj = # n eX = exjo = # flj 1 < X ljg : La frequenza relativa corrispondente è data da: fj = nj=N: Il raccoglimento di dati in classi può anche essere e¤ettuato per caratteri quantitativi discreti quando le modalità osservate sono piuttosto numerose: così facendo si assimila un carattere discreto ad uno continuo. Un esempio di tale modo di procedere è proposto nellesercizio che segue. Esercizio 5 La rilevazione nel corso di un dato mese degli importi X delle fatture emesse da unazienda porge i seguenti risultati (valori in Euro): 2990 3000 1660 990 1870 1540 1750 2640 2240 2490 1070 4800 1190 3330 2290 2630 1) Descrivere il collettivo e chiarire la natura del carattere in studio. 2) Raccogliere i dati nelle classi di misure che seguono: 0 a 1000 1000 a 2000 2000 a 2500 2500 a 3000 3000 a 5000 Sia eX la v.s. ottenuta col raccoglimento di dati in classi: scrivere la legge di eX. Dopo aver individuato ex3, dire da cosa è costituito linsieme n eX = ex3o e calcolare Freqn eX = ex3o. Al raccoglimento di dati in classi può essere abbinata una ulteriore trasformazione dei dati che conduce ad una nuova variabile di tipo qualitativo (con carattere misurato in scala ordinale). Gli esempi possibili sono innumerevoli: ne vediamo due. Esempio 10 Dalla distribuzione dei redditi mensili delle famiglie, si passa ad ottenere una distribuzione in classi di reddito per poi etichettare le famiglie che rientrano in ogni classe come: indigenti, povere, benestanti, ecc.. Esempio 11 Consideriamo il voto in Statistica conseguito in una determinata prova de- same: è sempre possibile costruire delle classi di voti ed assegnare dei giudizi. Per esem- pio: agli studenti con voto da 0 a 17 viene assegnato giudizio Insu¢ ciente, a quelli che hanno conseguito da 18 a 21 corrisponde un giudizio Su¢ ciente, ecc.. Nel seguito, con un abuso di notazione denoteremo con lo stesso simbolo X le due variabili statistiche X e eX. 3.1 Rappresentazione gra
ca di una distribuzione 25 Esempio 12 La tabella che segue raccoglie la distribuzione di frequenze assolute di una v.s. quantitativa X con dati in classi: Classi Freq. Assolute 0 a 10 20 10 a 12 4 12 a 20 16 Volendo rappresentare gra
camente tale distribuzione si deve procedere al calolo preventivo delle densità di frequenze: xi fi wi hi 0 a 10 0:5 10 0:5=10 = 0:05 10 a 12 0:1 2 0:1=2 = 0:05 12 a 20 0:4 8 0:4=8 = 0:05 La funzione di densità di X è quindi de
nita come segue: h (x) = 8>><>>: 0:05 0 < x < 10 0:05 10 < x < 12 0:05 12 < x < 20 0 altrove e listogramma corrispondente è riportato qui di seguito: Il risultato può apparire controintuitivo: il gra
co risultante ha una forma inattesa rispet- to alla distribuzione di frequenze che esso rappresenta. Ciò dipende dal fatto che si tende a ragionare sulle classi come se queste fossero etichette di un carattere qualitativo e così risulta naturale associare ad ogni classe un rettangolo di altezza pari alla frequenza, di- menticando che le classi hanno ampiezza diversa. Si tratta di un errore piuttosto comune ma molto grave dato che conduce a rappresentare istogrammi sbagliati e quindi del tutto fuovianti per il lettore. Dal momento che fi = hiwi, ossia la misura darea di ciascun rettangolo, la misura dellarea sottesa allistogramma è uguale a uno. In termini più generali,
ssati due numeri 26 3. Analisi di v.s. quantitative - Gra
ci, f.ne di densità e di ripartizione a; b 2 R, con 1 < a b < +1, è possibile approssimare la frequenza delle unità statistiche sulle quali è stato osservato un valore nellintervallo (a; b] mediante la misura dellarea sottesa al gra
co sullintervallo (a; b]: Freq (a < X b) = Z b a h (x) dx: Dato che h (x) è costante a tratti, il calcolo si e¤ettua sommando le misure delle aree dei rettangoli contigui che sono de
niti da h (x) sullintervallo (a; b]. Ovviamente si tratta solo di una approssimazione, dal momento che il calcolo si basa sullassunzione di uniformità fatta inizialmente. Quando della v.s. X si dispone unicamente della distribuzione con dati in classi, allora per il calcolo delle frequenze su intervalli qualsiasi si deve fare riferimento alla funzione di densità. In questo caso, dal momento che Freq (X = a) = Z a a h (x) dx = 0; a 2 R; allora, calcolare la frequenza associata ad (a; b] equivale a calcolare quella associata a (a; b), [a; b], oppure ancora [a; b). Osservazione 2 In taluni casi si suole rappresentare listogramma utilizzando le frequen- ze assolute: in tal caso ogni densità hi è moltiplicata per N e così larea del rettangolo associato alla classe i-ma è ni. In generale, consigliamo luso della frequenza relativa. Gli esempi che seguono hanno lo scopo di permettere di acquisire dimestichezza con lu- tilizzo della funzione di densità e di mostrare come a partire da essa si calcolino delle frequenze. 3.1 Rappresentazione gra
ca di una distribuzione 27 Esempio 13 Si consideri la seguente funzione di densità di una v.s. con dati in classi: h (x) = 8>><>>: k 2 < x < 0 0:3 0 < x < 1 0:1 1 < x < 5 0 altrove ove k è una costante che devessere calcolata opportunamente. Per identi
care k è su¢ - ciente ricordare che la misura dellarea sottesa allistogramma deve essere unitaria: dato che le frequenze associate alla seconda e alla terza classe sono rispettivamente: f2 = h2w2 = 0:3 1 = 0:3 f3 = h3w3 = 0:1 4 = 0:4 allora, per forza di cose, si deve avere: f1 = 1 (0:3 + 0:4) = 0:3 e così, la densità k assegnata alla prima classe (la cui ampiezza è w1 = 2) deve essere pari a: k = f1 w1 = 0:3 2 = 0:15: La funzione di densità risultante è quindi: h (x) = 8>><>>: 0:15 2 < x < 0 0:3 0 < x < 1 0:1 1 < x < 5 0 altrove e la corrispondente distribuzione di frequenze relative, raccolta in tabella, è: Classi Freq. Relative 2 a 0 0:3 0 a 1 0:3 1 a 5 0:4 Esempio 14 La funzione di densità della v.s. con dati in classi X = Statura in cm di un gruppo di alunni di una scuola media inferiore, è riportata qui di seguito: h (x) = 8>><>>: 0:02 130 < x < 140 0:03 140 < x < 160 0:01 160 < x < 180 0 altrove 30 3. Analisi di v.s. quantitative - Gra
ci, f.ne di densità e di ripartizione 3.2 Funzione di ripartizione Lispezione delle tabelle contenenti le distribuzione di frequenza permette di sapere imme- diamente qual è il numero (o la percentuale) di unità statistiche su cui è stato osservato un dato valore, oppure (nel caso dei dati in classi), della frequenza di unità su cui è stato osservato un valore appartenente ad una data classe di misure. Dal momento che lanalisi coinvolge dati di natura numerica, è sempre lecito porsi do- mande del tipo: Qual è la frequenza di individui su cui si sono osservati valori non superiori a x?(ove x 2 R è una soglia qualsiasi). Per rispondere a tale domanda è op- portuno introdurre il concetto di funzione di ripartizione o cumulativa (cdf - cumulative distribution function). De
nizione 9 (Funzione di ripartizione) Diciamo funzione di ripartizione (cdf) del- la v.s. X quantitativa nel punto x 2 R la porzione di unità del collettivo su cui sono osservati valori non superiori ad x: F (x) = Freq (X x) : Dalla de
nizione discendono alcune proprietà caratterizzanti: 1. la funzione F (x) è de
nita su tutto R ed è limitata tra 0 e 1 (il valore assunto in un qualsiasi punto rimane una frequenza); 2. si tratta di una funzione monotona non strettamente crescente: due numeri reali a; b con a b allora F (a) F (b). Essa infatti descrive come si accumulano le frequenze relative (ossia grandezze positive) al crescere di x; 3. è una funzione continua a destra. Questultimo aspetto è piuttosto tecnico e verrà chiarito tramite gli esempi. La cdf caratterizza la distribuzione di frequenze in modo univoco e consente di valutare agevolmente la frequenza assegnata ad un qualsiasi intervallo di valori. Dati infatti due numeri reali a; b con a b allora Freq (a < X b) = Freq (X b) Freq (X a) : Ciò si traduce nel risultato fondamentale che segue. Proposizione 1 Dati due valori a; b 2 R, con a b, allora: Freq (a < X b) = F (b) F (a) : La De
nizione 9 conduce a scrivere la legge di F (x) in modo diverso a seconda della natura del carattere: distingueremo il caso di v.s. a valori reali e in classi. 3.2 Funzione di ripartizione 31 3.2.1 Caso di v.s. a valori reali Accanto alla frequenza assoluta ni (risp. relativa fi) associata a xi può essere utile indi- care la corrispondente frequenza cumulata Ni (risp. Fi): essa fornisce il numero (risp. la porzione) di unità statistiche su cui si è osservato il carattere con un valore inferiore o uguale (non superiore) a xi, ossia: Ni = #fX xig Fi = Freq (X xi) = Ni N : La distribuzione delle frequenze assolute (risp. relative) cumulate raccolta in tabella si ottiene nel modo seguente: X Freq. Ass. Freq. Ass. Cumul. Freq. Rel. Freq. Rel. Cumul. x1 n1 N1 = n1 f1 F1 = f1 x2 n2 N2 = n1 + n2 f2 F2 = f1 + f2 x3 n3 N3 = n1 + n2 + n3 f3 F3 = f1 + f2 + f3 ... ... ... ... ... xi ni Ni = Pi h=1 nh fi Fi = Pi h=1 fh ... ... ... ... ... xk nk Nk = N fk Fk = 1 N 1 Utilizzando una distribuzione di frequenze cumulate è dunque possibile assegnare frequen- ze ad intervalli del tipo ( 1; xi] e di conseguenza valutare la cdf come segue: se x < x1, allora F (x) = 0; se x1 x < x2, allora F (x) = F1; se x2 x < x3, allora F (x) = F2; . . . se x xk, allora F (x) = 1. In modo più compatto scriviamo: F (x) = 8<: 0 x < x1 Fi xi x < xi+1 i = 1; 2; : : : ; k 1 1 x xk Si tratta di una funzione costante a tratti con discontinuità di salto pari a fi in corrispon- denza dei punti xi. Per
ssare i concetti introdotti, viene proposto un esempio ed un esercizio. 32 3. Analisi di v.s. quantitative - Gra
ci, f.ne di densità e di ripartizione Esempio 15 Si supponga che losservazione della v.s.X abbia prodotto il seguente dataset: X = f1; 2; 0; 0; 1; 0; 2; 3; 0; 2g : La corrispondente distribuzione di frequenze relative e di frequenze relative cumulate è riportata nella tabella che segue: X Freq. Rel. Freq. Rel. Cum. 2 0:3 0:3 0 0:4 0:7 1 0:2 0:9 3 0:1 1 Segue che la cdf di X è data da: F (x) = 8>>>><>>>>: 0 x < 2 0:3 2 x < 0 0:7 0 x < 1 0:9 1 x < 3 1 x 3 ed il suo gra
co è rappresentato qui di seguito: Esercizio 8 La funzione di ripartizione della v.s. quantitativa X è: F (x) = 8>><>>: 0 x < 2 0:5 2 x < 0 0:7 0 x < 1 1 x 1 1) Calcolare la distribuzione di frequenze relative di X e poi, sapendo che N = 60, quella di frequenze assolute. 2) Disegnare il gra
co di F (x) e della corrispondente distribuzione di frequenze relative. 3) Calcolare Freq ( 1 < X 0:5). 3.2 Funzione di ripartizione 35 Esempio 16 Sia data la seguente distribuzione di frequenza della v.s. X con dati in classi X Freq. Relative 10 a 0 0:1 0 a 10 0:5 10 a 30 0:3 30 a 70 0:1 Si vuole calcolare la funzione di ripartizione F (x) in corrispondenza del valore x = 15. Dato che 15 è un elemento della classe x3 = 10 a 30, si ha: F (15) = F2 + h3 (15 l2) = 0:6 + 0:3 20 (15 10) = 0:675: Tale risultato ci dice che la frequenza di unità statistiche su cui è stato osservato un valore non superiore a 15 è uguale al 67:5%, ossia: F (15) = Freq (X 15) = 0:675: Esempio 17 Consideriamo lEsempio 14. La legge della cdf è la seguente: F (x) = 8>>>><>>>>: 0 x 130 0:02 (x 130) 130 < x 140 0:2 + 0:03 (x 140) 140 < x 160 0:8 + 0:01 (x 160) 160 < x 180 1 x > 180 Volendo calcolare la frequenza degli studenti con statura compresa tra 140 e 150 cm e quella degli studenti con statura tra 150 e 170 cm, possiamo utilizzare direttamente la Proposizione 1 per ottenere Freq (140 < X 150) = F (150) F (140) = = 0:2 + 0:03 (150 140) 0:02 (140 130) = 0:3 nel primo caso e Freq (150 < X 170) = F (170) F (150) = = 0:8 + 0:01 (170 160) [0:2 + 0:03 (150 140)] = 0:4: nel secondo. Esercizio 9 Il gra
co che segue visualizza la distribuzione di frequenze assolute di una v.s. quantitativa X con dati in classi. 36 3. Analisi di v.s. quantitative - Gra
ci, f.ne di densità e di ripartizione 1) Rispondere ai seguenti quesiti: 1.a) dire da cosè costituito Im(X) e qual è la sua numerosità k; 1.b) dire che cosa si intende con la notazione f10 < X 20g. 2) Scrivere la funzione di ripartizione di X e quindi calcolare Freq (X > 14). Capitolo 4 Analisi di v.s. quantitative - Indicatori di posizione Una v.s. è interamente caratterizzata dalla sua distribuzione di frequenze, o in modo equivalente, dalla sua funzione di ripartizione. A
ni pratici, risulta comunque utile fornire dei valori di sintesi detti indici (o indicatori) che danno delle indicazioni circa taluni aspetti speci
ci. Nel seguito esamineremo in dettaglio: indici di posizione, indici di variabilità, indici di forma. Questa sezione è dedicata agli indici di posizione: lobiettivo è quello di individuare un numero (che chiamiamo valore medio) che fornisca un ordine di grandezza per X secondo un dato principio. De
nizione 10 (Valore medio secondo Cauchy) Sia X una v.s. quantitativa a va- lori reali. Si dice valore medio di X un qualsiasi numero m tale che x1 m xk: Se X è una v.s. in classi, si dice valore medio di X qualsiasi numero m tale che l0 m lk: In tale de
nizione generale rientrano vari indicatori, a seconda del principio adottato: ne vedremo alcuni molto utili a descrivere determinati aspetti della distribuzione di una variabile. 4.1 Minimo, Massimo, Valore centrale e Moda Per descrivere sinteticamente una distribuzione, la prima cosa da fare è individuare gli estremi inferiore e superiore dellintervallo su cui la distribuzione di frequenze è de
nita, 40 4. Analisi di v.s. quantitative - Indicatori di posizione Un aspetto rilevante è il fatto che,
ssato , il quantile corrispondente potrebbe non essere unico, dato che un intero intervallo di valori potrebbe soddisfare la coppia di condizioni (4.1). Lesempio che segue ha lo scopo di mostrare come si può procedere al calcolo di un quantile a partire da un semplice dataset. Esempio 20 Su una popolazione composta da 6 studenti sono stati rilevati i seguenti voti (in decimi): u1 u2 u3 u4 u5 u6 7 9 4 5 6 7 Vogliamo ora calcolare il quantile dordine 0:25 della variabile X =Voto conseguito. Innanzi tutto si debbono riordinare gli studenti secondo il voto conseguito: u3 u4 u5 u1 u6 u2 4 5 6 7 7 9 Quindi bisogna trovare un numero q0:25 tale che, allo stesso tempo: 1) almeno il 25% degli studenti abbia voto non superiore a q0:25; 2) almeno il 75% degli studenti abbia voto non inferiore a q0:25 (ossia, al più il 25% degli studenti abbia voto minore di q0:25). Per guidare il ragionamento può essere utile utilizzare lo schema che segue: 25%z }| { u3 u4 u5 u1 u6 u2 4 5 6 7 7 9| {z } 75% Possiamo vedere che il numero che soddisfa entrambe le condizioni è q0:25 = 5. Determiniamo ora il quantile dordine 0:5. Ragionando in modo analogo a quanto fat- to in precedenza, ci accorgiamo che una possibile scelta per q0:5 è un qualsiasi numero nellintervallo [6; 7). Come mostra lesempio, il calcolo può risultare piuttosto laborioso soprattutto per dataset molto estesi e ai
ni pratici è conveniente utilizzare la funzione di ripartizione: dato che Freq (X x) = F (x) e Freq (X < x0) = limx!x 0 F (x), perveniamo alla de
nizione che segue, equivalente alla De
nizione 11 data in precedenza. De
nizione 12 Si dice quantile dordine (con 0 1) della v.s. X un numero q tale che F (q ) e lim x!q F (x) : 4.2 Quantili 41 Ciò signi
ca che per individuare un quantile dordine è su¢ ciente confrontare il gra
co della cdf con la retta y = . Il quantile q è un numero tale che il gra
co di y = F (x) sta sotto o coincide con la retta sullintervallo ( 1; q ) e sta sopra o coincide con la medesima retta sullintervallo complementare [q ;+1). Formalmente, ciò equivale ad individuare lintersezione tra linsieme fx : F (x) g (ossia la controimmagine di [ ; 1] mediante F ) e linsieme fx : Freq (X < x) g. Per convenzione si de
nisce q0 = x1 (ossia il valore minimo di X) e q1 = xk (il valore massimo di X). Dato che la funzione di ripartizione per una v.s. a valori reali è costanti a tratti, mentre per una v.s. in classi è continua, tratteremo i due casi separatamente. 4.2.1 Il caso di una v.s. a valori reali Dopo aver disegnato il gra
co della funzione di ripartizione, si traccia la retta di equazione y = e si individuano la controimmagini di [ ; 1] e [0; ] mediante F . A questo punto si possono presentare due situazioni di¤erenti: la prima, rappresentata nel gra
co che segue, è quella in cui la retta di equazione y = non incontra mai F (x), ossia, non esiste alcun punto x tale che F (x) = . Il quantile q in questo caso è unico ed è uguale ad xi. Infatti, linsieme dei valori per cui F (x) è [xi;+1), mentre Freq (X < x) quando x 2 ( 1; xi]. La seconda situazione, riprodotta nel gra
co seguente, è quella in cui esiste un intervallo in corrispondenza del quale F (x) = . Necessariamente tale intervallo avrà per estremi due realizzazioni consecutive. 42 4. Analisi di v.s. quantitative - Indicatori di posizione In questo secondo caso, il quantile dordine non è unico: sono infatti ammissibili tutti i valori compresi tra xi (incluso) ed xi+1 (escluso): xi q < xi+1: Infatti, linsieme dei valori per cui F (x) è [xi;+1), mentre Freq (X < x) è minore o uguale ad per x 2 ( 1; xi+1]. Dal momento che si vuole fornire un unico valore per il quantile, per convenzione si prende il centro dellintervallo [xi; xi+1): q = xi + xi+1 2 : Esercizio 10 La funzione di ripartizione della v.s. quantitativa X è riportata qui di seguito: F (x) = 8>><>>: 0 x < 2 0:5 2 x < 0 0:7 0 x < 1 1 x 1 Individuare il quantile dordine 0:3 e quello dordine 0:7. Dare quindi uninterpretazione dei risultati in termini di indici di posizione (cfr. Esempio 19). 4.2.2 Il caso di una v.s. con dati in classi Qualora il carattere abbia modalità espresse mediante classi di misure, la funzione di ripartizione è continua. In tal caso, cercare un numero q che soddisfa la coppia di condizioni F (q ) e lim x!q F (x) 4.3 La media aritmetica 45 Esercizio 12 Il gra
co che segue riporta il box-plot della v.s. X. Supponendo che X sia una v.s. continua con dati in classi i cui estremi sono individuati dai valori del box-plot, e che F (x) sia la sua funzione di ripartizione, rispondere alle seguenti domande: 1) Scrivere la distribuzione di frequenze relative di X. 2) Calcolare F (1). 3) Calcolare il quantile dordine 0:6. Osserviamo che i quantili e quindi il box-plot non identi
cano in modo univoco la di- stribuzione di frequenze di una v.s. (sia la natura, sia i valori delle realizzazioni, e tanto meno le frequenze): ad esempio due v.s. diverse (una discreta, laltra in classi) possono avere lo stesso box-plot. Qui di seguito si propone un esercizio al riguardo. Esercizio 13 Facendo riferimento alla
gura dellEsercizio 12 e alla v.s. X ivi de
nita: 1) Scrivere la distribuzione di frequenze di una v.s. in classi Y che abbia lo stesso box-plot di X ma diversa distribuzione di frequenza; 2) Scrivere la distribuzione di frequenze di una v.s. discreta Z il cui box-plot sia però uguale a quello di X. 4.3 La media aritmetica Si supponga che la v.s. a valori reali X sia riferita ad una carattere trasferibile, ossia un carattere che è misurato in scala per rapporti e che può essere suddiviso e ceduto da ununità allaltra (in altre parole, redistribuito). Per esempio, sono caratteri trasferibili la ricchezza di un paese, la super
cie coltivabile, il numero di turisti, ecc.. Non sono caratteri trasferibili la statura, il peso, letà, ecc.. In linea di principio è così possibile cumulare lintero ammontare del carattere per ottenere la quantità: T = NX =1 X(u): Supponiamo ora di voler individuare quel valore, che indichiamo (leggasi mi), che verrebbe attribuito a ciascuna unità statistica u se fosse possibile redistribuire T tra 46 4. Analisi di v.s. quantitative - Indicatori di posizione tutte le unità in modo invariante (ossia, egualitario). Per determinare detta costante è su¢ ciente porre la seguente uguaglianza, detta condizione di invarianza: NX =1 X(u) = NX =1 da cui si ha NX =1 X(u) = N e quindi = 1 N NX =1 X(u) = T N : Il numero così calcolato è detto media aritmetica di X: si tratta di quel valore che rappresenta la ripartizione egualitaria del carattere tra le unità del collettivo. Dal momento che NX =1 X(u) = X(u1) + +X(u) = = x1 + :::+ x1| {z } n1 volte + x2 + :::+ x2| {z } n2 volte + :::+ xk + :::+ xk| {z } nk volte = x1 n1 + x2 n2 + :::+ xk nk = kX i=1 xi ni la condizione di invarianza può essere riscritta equivalentemente come segue kX i=1 xini = kX i=1 ni da cui = 1 N kX i=1 xini oppure ancora, ricordando che il peso delli-mo valore distinto xi è fi = ni=N , = kX i=1 xifi: 4.3 La media aritmetica 47 Si sono così ottenute delle formulazioni equivalenti per il calcolo della media aritmetica: una media costruita utilizzando i dati originari si dice anche media semplice; nel caso in cui si utilizzi la distribuzione di frequenze, allora si parla di media ponderata con pesi fi. Chiaramente, si tratta solo di un diverso modo di scrivere lo stesso procedimento di calcolo ed il risultato non cambia. Quando si ha a che fare con caratteri quantitativi che non hanno la caratteristica della trasferibilità, la media aritmetica può essere sempre calcolata: la sua interpretazione chiaramente non sarà più legata ad un meccanismo di redistribuzione. Semplicemente, la media aritmetica servirà a caratterizzare lunità statistica tipo, ossia quella che si avrebbe nel caso in cui la variabile statistica associasse ad ogni unità lo stesso valore (ossia ). Osservazione 3 Nel linguaggio corrente il termine mediao valore medioviene spes- so associato a quello di media aritmetica, riducendone in tal modo il signi
cato dato dalla de
nizione di Cauchy. Nel caso in cui si abbiano dati in classi, i calcoli visti in precedenza perdono di signi
cato: la cosa più semplice è quella di individuare un valore tipo per ciascuna classe ed utilizzare detti valori per determinare la media aritmetica. La scelta di solito ricade sul valore centrale di ogni classe: data la classe i-ma si utilizzerà xCi = li 1 + li 2 : Di fatto, si sostituisce alloriginaria v.s. in classi una v.s. a valori reali: tale processo è detto discretizzazione per centri di classe. 4.3.1 De
nizione di Media Artimetica Per riassumere quanto detto, diamo la seguente de
nizione: De
nizione 13 (Media aritmetica) Diciamo media aritmetica della v.s. quantitativa a valori reali X il numero risultante dalla seguente operazione: E [X] = kX i=1 xifi = oppure, quando X è una v.s. in classi: E [X] = kX i=1 xCi fi = dove xCi = li 1 + li 2 è il valore centrale della classe i-ma. 50 4. Analisi di v.s. quantitative - Indicatori di posizione 4.3.2 Alcune proprietà della media aritmetica Vediamo ora alcune proprietà che permettono di chiarire il signi
cato della media aritme- tica e ne giusti
cano limportanza pratica. In particolare ci so¤ermeremo sulla cosiddetta proprietà di nullità degli scarti e su quella detta dei minimi quadrati. Proposizione 3 (Nullità degli scarti) La media aritmetica soddisfa: E [X ] = 0 Dim. Si tratta di unapplicazione diretta della proprietà di linearità (vedi Proposizione 2) per a = e b = 1: E [X ] = E [X] = 0 Grazie alla proprietà di nullità degli scarti, possiamo concludere che la media aritmetica è il baricentro (o centro di massa) della distribuzione. Allatto pratico, ciò si traduce nella possibilità di individuare la media aritmetica di una distribuzione guardandone semplice- mente il gra
co: se interpretiamo lasse delle ascisse come un piano su cui poggiano dei pesi, rappresentati dai bastoni (nel caso reale) e dai rettangoli dellistogramma (nel caso in classi), è il punto di equilibrio di tale sistema di pesi. Da tale proprietà discende il fatto che la media aritmetica e la mediana coincidono quando la distribuzione di frequenze è simmetrica rispetto a . Esercizio 15 Costruire alcuni esempi di distribuzioni simmetriche e veri
care che la media e la mediana coincidono. Consideriamo ora la funzione L : R! R de
nita come segue: L (m) = E (X m)2 : Si tratta di una funzione di perdita (L sta per loss) che quanti
ca la perdita di informazione che si ha nellutilizzare un solo valore di sintesi m in luogo dellintera distribuzione di X. Tale funzione presenta le seguenti caratteristiche: si tratta di una funzione quadratica (con variabile indipendente m) con concavità rivolta verso lalto e il cui punto di minimo è in m = . Ciò può essere riscritto nel modo seguente. Proposizione 4 (Proprietà dei minimi quadrati) Sia m 2 R. La media aritmetica è tale che: L () L (m) : 4.3 La media aritmetica 51 Dim. Partendo dalla de
nizione di L (m), sviluppando il quadrato tra parentesi e usando la proprietà di linearità (Proposizione 2) si ottiene L (m) = E (X m)2 = E X2 +m2 2m Dal momento che L (m) è convessa (il suo gra
co è una parabola rivolta verso lalto) ed è derivabile su R, allora per trovare il punto di minimo è su¢ ciente annullarne la derivata prima: dL (m) dm = 2m 2 = 0: Il punto di minimo si ha quindi per m = : In sostanza, la proprietà dei minimi quadrati sancisce che la media aritmetica è quel numero che fornisce la migliore approssimazione dellintera distribuzione dei dati, nel senso che conduce alla più piccola perdita di informazione (in termini quadratici). 4.3.3 Problemi di robustezza legati alluso della media arit- metica Se la media aritmetica presenta, come abbiamo visto, una serie di proprietà che la rendono ottimale, essa so¤re di un grave inconveniente legato al metodo di costruzione. Infatti è sensibile ai valori anomali, o per usare il linguaggio statistico, è un indicatore poco robusto. Consideriamo il seguente esempio. Esempio 22 Una popolazione di 10 famiglie presenta le seguenti caratteristiche in ter- mini di numero di
gli: 2 1 1 0 9 1 3 1 2 0 Evidentemente la famiglia con 9
gli è anomala in senso statistico: se calcolassimo il numero medio di
gli per famiglia usando la media aritmetica si otterrebbe = 2, un numero che sintetizza male la realtà (la mediana è 1
glio, il terzo quartile è 2
gli e solo il 20% della popolazione ha più di 2
gli). Al
ne di ottenere un indicatore robusto, si deve procedere preventivamente allelimi- nazione dei dati anomali individuati mediante il box-plot (tale procedura è detta di troncatura o trimming) e quindi ricalcolare la media a partire dai valori rimasti. Esempio 23 Riprendendo i dati dellEsempio 22, se sopprimiamo dallelenco la famiglia con 9
gli, la media aritmetica risultante è 1:2, un valore decisamente più rappresentativo. 52 4. Analisi di v.s. quantitative - Indicatori di posizione 4.3.4 Il criterio di invarianza secondo Chisini (cenni) Il metodo di costruzione della media aritmetica utilizzato in precedenza si basa sul cosid- detto criterio di invarianza dovuto a Oscar Chisini3. Il principio generale è il seguente: sia : RN ! R, allora una media nel senso di Chisini rispetto a è quel numerom (ammesso che esista e che soddis
la de
nizione di Cauchy) che realizza la seguente condizione di invarianza: (X (u1) ; : : : ; X (uN)) = (m; : : : ;m) : (4.3) Se si sceglie (X (u1) ; : : : ; X (uN)) = NX v=1 g (X (uv)) ove g è una trasformazione ammissibile diX ed invertibile su Im (X), allora imponendendo la condizione (4.3) si ha NX v=1 g (X (uv)) = NX v=1 g (m) da cui g (m) = E [g (X)] e in
ne m = g 1 (E [g (X)]) : Vediamo alcuni esempi. 1. Quando g è la funzione identità, m è la media aritmetica. 2. Se g (x) = x2, e X > 0 si ottiene la cosiddetta media quadratica: m = 2 p E [X2]. 3. Se g (x) = 1=x, con X > 0 la media risultante è detta armonica: m = (E [X 1]) 1. 4. Più in generale, per g (x) = xr, con X > 0 e r numero intero diverso da zero, si ottiene la cosiddetta media di potenza di ordine r: m = (E [Xr])1=r. Si noti che i tre esempi precedenti sono dei casi particolari per r = 1, r = 2 e r = 1. 5. Per g (x) = ln (x), e X > 0 allora si ha la media geometrica: m = exp fE [ln (X)]g. Ricordando le proprietà dei logaritmi, NX v=1 ln (X (uv)) = ln NY v=1 X (uv) ! e così, la media geometrica può essere riscritta come segue: m = NY v=1 X (uv) !1=N = kY i=1 xnii !1=N = kY i=1 xfii : 3Chisini, Oscar (1929). Sul concetto di media. Periodico di Matematiche, 4, 106-116. 5.2 Variabilità rispetto ad un valore medio 55 5.2 Variabilità rispetto ad un valore medio Sia X una v.s. quantitativa ed m un suo valore medio, lobiettivo che ci si pone è quello di fornire una misura della distanza dellinsieme delle osservazioni da m (in genere si sceglie m = oppure m =Me). 5.2.1 Scarti assoluti medi Consideriamo una v.s. a valori reali. Un primo modo di procedere è quello di misurare la distanza tra ciascun dato xi ed il valore medio m in termini di scostamento in modulo: jxi mj per i = 1; : : : ; k: Volendo fornire una sintesi di tali scostamenti se ne calcola la media aritmetica (ponderata ovviamente con pesi fi). Si perviene così ad una misura che esprime una distanza tra tutti i dati e la media scelta. A seconda che il centro di riferimento m utilizzato sia la mediana oppure la media aritmetica parleremo di: 1. Scarto assoluto medio dalla mediana E [ jX Mej ] = kX i=1 jxi Mej fi : 2. Scarto assoluto medio dalla media aritmetica E [ jX j ] = kX i=1 jxi j fi : Nel caso di v.s. con dati in classi, i calcoli si e¤ettuano sostituendo le realizzazioni xi = li 1 a li con i corrispondenti centri di classe xCi . È appena il caso di osservare che gli scarti assoluti medi mantengono la stessa unità di misura della variabile X. Esercizio 16 La v.s. quantitativa X ha la seguente funzione di ripartizione: F (x) = 8>><>>: 0 x < 3 0:2 3 x < 1 0:6 1 x < 5 1 x 5 Dopo aver esplicitato la formula di E [ jX mj ] se ne calcoli il valore perm = , m =Me ed in
ne, m = 2. 56 5. Analisi di v.s. quantitative - Indicatori di variabilità 5.2.2 Varianza e scarto quadratico medio Un altro modo di misurare la distanza di ciascuna realizzazione xi (o centro di classe xCi ) dalla media aritmetica è quello di considerare gli scostamenti da presi al quadrato (xi )2 per i = 1; : : : ; k e calcolarne la media aritmetica. Lindicatore risultante è detto varianza. De
nizione 15 (Varianza) La varianza della v.s. quantitativa a valori reali X è la media aritmetica del quadrato degli scarti di ogni singolo dato da (la media aritmetica di X). Essa è indicata con V ar(X) oppure con 2 (leggasi sigma quadro) e corrisponde al risultato delloperazione: V ar(X) = kX i=1 (xi )2fi = 2: Quando X è una v.s. in classi: V ar(X) = kX i=1 (xCi )2fi = 2: Utilizzando loperatore E [] la varianza si scrive: V ar(X) = E (X )2 = 2: La varianza è uno degli indicatori più importanti dellanalisi statistica: essa può essere interpretata come la misura della perdita di informazione che si ha nel momento in cui si sostituisce allintera distribuzione di X il solo numero (si veda la Proposizione 4). Trattandosi di una grandezza quadratica, lunità di misura della varianza è il quadrato dellunità di misura dei dati originari. Per riportare lindicatore allunità di misura di X è su¢ ciente estrarne la radice quadrata pervenendo al cosiddetto scarto quadratico medio (dalla media aritmetica), o più semplicemente deviazione standard. De
nizione 16 (Deviazione Standard) La deviazione standard (o scarto quadratico medio) è la radice quadrata della varianza e si indica con la lettera (leggasi sigma). In conclusione, è una misura della distanza dei dati dalla media aritmetica, che, come abbiamo visto, è il baricentro della distribuzione. La sua costruzione si basa infatti su una generalizzazione del Teorema di Pitagora a partire dal quale, lo ricordiamo, si de
nisce la distanza euclidéa. Di conseguenza, 0 e = 0 se e solo se tutte le realizzazioni di X sono uguali tra di loro (ossia, quando non cè variabilità). 5.2 Variabilità rispetto ad un valore medio 57 In linea di principio, è sempre possibile de
nire delle misure di variabilità quadratiche a partire da una qualsiasi media m, introducendo lo scarto quadratico medio da m:q E (X m)2 Ricordando la proprietà dei minimi quadrati della media aritmetica (Proposizione 4) si ha: q E (X m)2 : In altre parole, lo scarto quadratico medio (calcolato a partire da ) è più piccolo o uguale dello scarto quadratico medio calcolato da qualsiasi altra media m. Si noti che, salvo diversa indicazione, lo scarto quadratico medio si intende calcolato da . Vediamo ora alcune utili proprietà della varianza. La prima, riportata qui di seguito, fornisce una formula alternativa per il calcolo dellindicatore di immediato utilizzo. Proposizione 5 La varianza può essere calcolata come di¤erenza tra la media aritmetica dei quadrati e la media artimetica al quadrato: V ar(X) = E X2 2: Dim. Partendo dalla de
nizione e sviluppando il quadrato del binomio allinterno delloperatore, si ha: V ar(X) = E (X )2 = E X2 2X+ 2 : Utilizzando in
ne la proprietà di linearità (Proposizione 2), possiamo scrivere: E X2 2X+ 2 = E X2 2E [X] + 2 = E X2 2: La seconda proprietà che illustriamo, descrive il comportamento dellindicatore rispetto alle traslazioni e ai cambi di scala (ossia, alle trasformazioni lineari a¢ ni dei dati). Proposizione 6 Siano a; b 2 R, b 6= 0, e sia Y = a+ bX, allora V ar(Y ) = b2V ar(X): Dim. Ricordando che Y = a + bX e che, per la Proposizione 2, E [Y ] = a + b (ove è la media aritmetica di X), allora, per la de
nizione di varianza di Y si ha: V ar(Y ) = E (Y E [Y ])2 = E (a+ bX a b)2 = E b2 (X )2 : 60 5. Analisi di v.s. quantitative - Indicatori di variabilità Capitolo 6 Analisi di v.s. qualitative Questo breve capitolo conclude la presentazione delle tecniche per lanalisi statistica uni- variata: esso è dedicato allo studio delle v.s. qualitative. Ci so¤ermeremo sui gra
ci che possono essere utilizzati e su alcuni degli indicatori di sintesi della distribuzione di frequenze. In linea di massima, nello studio di v.s. qualitative è possibile fornire: le distribuzioni di frequenze cumulate (solo nel caso di v.s. qualitative ordinali); un indicatore di sintesi rappresentato dalla moda e, nel caso di variabili ordinali, degli indicatori di posizione dati dai quantili ; indicatori della eterogeneità (e omogeneità). 6.1 Gra
ci per v.s. qualitative La famiglia dei gra
ci per variabili qualitative è molto più vasta rispetto a quella per le variabili quantitative. Dato che il carattere di riferimento non ha natura numerica, è possibile giungere a rappresentazioni basate su ideogrammi. Per ragioni di semplicità ci limitiamo a presentare le rappresentazioni più semplici e di diretta implementazione. Diagrammi a barre o a canne dorgano Il diagramma a barre è formato da k rettangoli non contigui di base uguale e le cui altezze sono pari alle frequenze relative fi (o assolute ni) delle realizzazioni xi della v.s.. Quando il carattere in studio è sconnesso, le realizzazioni possono essere ordinate secondo i valori decrescenti (o crescenti) delle rispettive frequenze. Il gra
co risultante è detto diagramma di Pareto. 62 6. Analisi di v.s. qualitative Esempio 25 Si consideri la distribuzione di frequenze della v.s. qualitativa X = Settore produttivo delle imprese artigiane operanti in provincia di Novara al 31/12 di un dato anno, visualizzata qui di seguito mediante un diagramma di Pareto. Per procedere allinterpretazione è fondamentale capire qual è il collettivo: esso è costituito dalle imprese artigiane operanti in provincia di Novara al 31/12 dellanno considerato. Tale collettivo si suddivide in k = 6 gruppi ciascuno dei quali è costituito da imprese identiche per quanto riguarda il settore produttivo: fX = xig i = 1; : : : ; 6: La distribuzione di frequenze relative di X, riportata in tabella, è: X Fr. Rel. x1 = Costruz. 0:25 x2 = Trasp. 0:23 x3 = Metalmec. 0:20 x4 = Servizi 0:15 x5 = Riparaz. 0:12 x6 = Ind. legg. 0:05 Appare evidente a questo punto che il 25% delle imprese artigiane osservate opera nel settore delle costruzioni, il 23% nei trasporti, ecc.. Diagramma a colonne Il diagramma a colonne è utile per descrivere come un carattere qualitativo si ripartisce sul collettivo. Un rettangolo di altezza L viene suddiviso in k rettangoli contigui (uno per ciascuna delle realizzazioni xi di X) di altezze rispettive L fi. Diagramma a settori circolari (o torta) Il diagramma a settori circolari (o torta) è costruito secondo un principo analogo al prece- dente: un cerchio è suddiviso in k settori circolari (uno per realizzazione), ciascuno di ampiezza 360o fi.