Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Esercitazioni di statistica descrittiva 2016, Dispense di Analisi Statistica

esercizi e teoria statistica

Tipologia: Dispense

2015/2016

Caricato il 04/07/2016

Selene218
Selene218 🇮🇹

5

(1)

7 documenti

Anteprima parziale del testo

Scarica Esercitazioni di statistica descrittiva 2016 e più Dispense in PDF di Analisi Statistica solo su Docsity! 1 Esercitazione statistica descrittiva 2016 Elisabetta Busignani I dati, una volta raccolti, vengono presentati sotto forma di prospetti, chiamati “Tabelle statistiche” che si dividono in: Tabelle Serie semplici Semplici storiche Seriazioni discontinue(discrete) continue TABELLE STATISTICHE Tabelle composte Tabelle a doppia entrata Variabili CATEGORICHE o qualitative in cui le modalità sono rappresentate da sostantivi o aggettivi. Si dividono in: nominale: non esiste un ordine; es. “maschio femmina”. ordinale: si possono ordinare le modalità secondo un ordine crescente o decrescente; es. “insoddisfatto, soddisfatto, molto soddisfatto”. Variabili NUMERICHE o quantitative in cui le modalità sono rappresentate da numeri e si dividono in: discrete, quando le classi sono disposte discontinuamente, cioè rappresentate da una sola espressione numerica.(es.n°esami sostenuti) Continue, quando le classi sono disposte continuamente;cioè rappresentate da due espressioni numeriche che indicano rispettivamente il lim.inf. e sup. della classe(es. altezza in cm;tempo impiegato, spazio percorso). Comunque si scelgano 2 modalità X1 e X2 esistono infinite modalità X comprese fra le due. Si definisce: Modalità: le diverse caratteristiche che può assumere un carattere Frequenza: è il numero delle volte in cui una modalità si presenta in un collettivo statistico. Distribuzione di frequenza: è una tabella sintetica dove a sinistra si trova l’elenco delle modalità del carattere o classi e a destra le frequenze per ogni modalità o classe. La serie statistica semplice è la successione delle intensità o delle frequenze corrispondente alle modalità di un carattere qualitativo Serie storica: è la successione delle intensità o frequenza corrispondenti a modalità di tempo Seriazione statistica quando il carattere è quantitativo (discontinue e continue) GRAFICI: Grafico a barre: ogni barra rappresenta una modalità di una variabile qualitativa e la sua lunghezza, la frequenza semplice o percentuale dei casi che presentano tale modalità. Spezzata: per le serie storiche Istogramma: per rappresentare le variabili quantitative; consiste in un insieme di rettangoli adiacenti. Diagramma a torta: è un grafico a settori circolari in cui le singole “fette”rappresentano le modalità. a dimensione di ciascuna fetta è proporzionale alla percentuale di ciascuna modalità. 2 Es.:Su 10 autovetture presentate al salone dell’automobile sono state rilevate le seguenti informazioni inerenti alle caratteristiche tecniche ed agli equipaggiamenti disponibili: • Tipo di motore (benzina iniezione elettronica/iniezione diretta common rail); • N° cavalli fiscali (14/ 15/ 17/ 20); • Cilindrata, in cm3 (1400/ 1500/ 1700/ 2401); • Colore carrozzeria (bianco/nero/blu/rosso/sabbia/verde/grigio); • N° posti (4/ 5) • Velocità massima, in km/h (180/ 200/ 250); • Consumi su strada urbana, in l/100km (5,3/7,6/8,2) • Consumi su strada extraurbana, in l/100km (3,8/ 4,9/5); • Climatizzazione (manuale / automatica). a) Si individui l’ u.s. del collettivo d’indagine. b) Si distinguano i caratteri quantitativi da quelli qualitativi. c) Si determini il numero di modalità per ciascun carattere considerato. a) l’ u.s. del collettivo considerato corrisponde a ciascuna autovettura presentata al salone auto; b) Caratteri Qualitativi Caratteri quantitativi tipo di motore n° cavalli fiscali colore carrozzeria cilindrata climatizzazione n° posti velocità massima consumi su strada urbana Consumi su strada extraurbana c) 2 (“tipo di motore); 4 (“n° cavalli fiscali”); 4 (“cilindrata”); 7 (“ colore carrozzeria); 2 (“n° posti”); 3 (“velocità massima”); 3 (“consumi su strada urbana”); 3 (“consumi su strada extraurbana”); 2 ( “climatizzazione”); Rappresentazione grafica serie semplici: Grafico a barre verticali 5 Come si costruiscono le classi? Ampiezza intervallo w = classin iazionecampodi ° var w, per convenienza può essere arrotondato per eccesso all’intero successivo Il numero delle classi in cui dati vengono raggruppati dipende, in primo luogo, dalla numerosità dei dati. All’aumentare della numerosità solitamente è necessario un numero maggiore di classi. In generale si può affermare che una distribuzione di frequenza in classi dovrebbe avere un minimo di 5 ad un massimo di 15 classi. Es.: Nella tabella seguente sono riportate le lunghezze di 40 foglie di lauro, registrate al millimetro più prossimo. Costruire una distribuzione di frequenze in 7 classi di ampiezza 9. (chiuse a sinistra) 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 Essendo la numerosità del campione 40 si può ritenere che 7 possa essere un numero adeguato di classi; applicando l’equazione si ottiene che l’ampiezza di ciascuna classe di intervallo è pari a : w = 14,8 7 119176 = − e arrotondando per eccesso all’intero successivo w = 9 (ampiezza classe) lunghezza frequenze 119|-128 3 128|-137 6 137|-146 10 146|-155 11 155|-164 5 164|-173 3 173|-182 2 40 FREQUENZA RELATIVA: si ottiene dividendo la frequenza assoluta per la numerosità totale delle osservazioni. La percentuale per ciascuna classe si ottiene poi moltiplicando per 100 ciascuna frequenza relativa. La somma delle frequenze relative è uguale a uno Nell’esempio precedente possiamo calcolare le frequenze relative: lunghezza frequenze freq. Relativa 119|-128 3 0,075 128|-137 6 0,15 137|-146 10 0,25 146|-155 11 0,275 155|-164 5 0,125 164|-173 3 0,075 173|-182 2 0,05 40 1 6 Es.: Per la seguente serie, altezza di una classe di 17 bambini in centimetri, si raggruppino i dati in una tabella di frequenza assolute e relative calcolando anche le frequenze cumulate relative. Altezza Bambini: 111,123,122,122,131,111,111,123,128,126,126,126,111,126,124,126,124. xi(altezze) freq. ass. freq. rel. F.rel. 111 4 0,24 0,24 122 2 0,12 0,35 123 2 0,12 0,47 124 2 0,12 0,59 126 5 0,29 0,88 128 1 0,06 0,94 131 1 0,06 1 17 1 La frequenza relativa, a differenza di quella assoluta, ci permette di confrontare più distribuzioni statistiche, pur riferendosi a totali diversi. Es.: Nelle seguenti tabelle, sono riportate la composizione di due collettività di maschi sopra i 21 anni. Le quattro categorie di maschi, che peso hanno nelle due collettività? (bisogna quindi calcolare le frequenze relative delle due tabelle ) 1° 2° Stato civile Freq.assolute Stato civile Freq.assolute celibi 42 celibi 84 coniugati 90 coniugati 180 divorziati 12 divorziati 24 vedovi 15 vedovi 30 Tot. 159 Tot. 318 apparentemente, hanno peso diverso, ma calcoliamo le frequenze relative: 1° 2° Stato civile Freq.assolute Freq.relative Stato civile Freq.assolute Freq.relative celibi 42 0,264 celibi 84 0,264 coniugati 90 0,566 coniugati 180 0,566 divorziati 12 0,076 divorziati 24 0,076 vedovi 15 0,094 vedovi 30 0,094 Tot. 159 Tot. 318 un semplice esame delle due distribuzioni evidenzia l’utilità del concetto di frequenza relativa: essa ci permette di affermare che 4 categorie di maschi hanno lo stesso peso in entrambe le collettività. 7 Es.: La seguente tabella mostra la distribuzione di frequenze per i tempi di durata di 400 valvole per radio prodotte dalla società Alfa. Riferendosi alla tabella in questione, determinare: a) Il limite superiore della quinta classe b) Il limite inferiore dell’ottava classe c) Il valore centrale della settima classe d) La frequenza della quarta classe e) La frequenza relativa della sesta classe f) Completare la tabella con le frequenze cumulate Tempi di durata in ore Num. di valvole 300 ├┤ 399 14 400 ├┤ 499 46 500 ├┤ 599 58 600 ├┤ 699 76 700 ├┤ 799 68 800 ├┤ 899 62 900 ├┤ 999 48 1000 ├┤ 1099 22 1100 ├┤ 1199 6 Tot 400 a) 799 b) 1000 c) 900+999/2 = 949,5 d) 76 e) 62/400=0,155X100=15,5% f) Tempi di durata Num. di valvole Frequenze cumulate in ore Frequenze 300 ├┤ 399 14 14 400 ├┤ 499 46 60 500 ├┤ 599 58 118 600 ├┤ 699 76 194 700 ├┤ 799 68 262 800 ├┤ 899 62 324 900 ├┤ 999 48 372 1000 ├┤ 1099 22 394 1100 ├┤ 1199 6 400 Tot. 400 10 Nel caso di carattere qualitativo, come rappresentazione grafica si può utilizzare il grafico a torta, in cui l’area del cerchio esprime l’intensità o la frequenza totale (espressa in termini assoluti o percentuali), invece i settori circolari esprimono le intensità o le frequenze delle varie modalità del carattere esaminato. Essi vengono individuati dividendo l’intero angolo giro in parti proporzionali alle intensità o frequenze da rappresentare. ES.:La tabella seguente riporta la superficie (in kmq) delle province della Campania. Costruire il grafico a trota (o aerogramma per settori circolari) Province Superfice(Kmq) Avellino 2.792 Benevento 2.071 Caserta 2.639 Napoli 1.171 Salerno 4.922 totale 13.595 Calcoliamo le frequenze percentuali: Province Superfice(Kmq) rapporti (ni/N) Percentuale Avellino 2.792 0,21 21% Benevento 2.071 0,15 15% Caserta 2.639 0,19 19% Napoli 1.171 0,09 9% Salerno 4.922 0,36 36% totale 13.595 Il grafico si costruisce considerando che la superficie totale delle province corrisponde al numero dei gradi dell’arco circolare, ossia 360°. Per determinare le quote parti di 360° , ossia, l’ampiezza di ciascun arco, di calcola il rapporto tra ogni superficie ed il totale e si moltiplica per 360. I risultati saranno:73° (dato da 0,2053 x 360), 56° (0,1522 x 360) e così via. Es.: Nell’anno 2002, l’ammontare degli investimenti pubblicitari italiani è risultato pari a 7.407 milioni di euro; in particolare, il volume di tali investimenti (X), in percentuale, differenziati per tipologia di mezzo di comunicazione (A) , è riportato dalla seguente tabella e grafico: Superfice in kmq delle province della Campania Avellino 21% Benevento 15% Caserta 19% Napoli 9% Salerno 36% 11 mezzi di volumi comunicazione imvestimenti pubblicitari quotidiani 23,8% periodici 15,6% radio 3,9% outdoor 2,4% cinema 1% televisioni 53,3% 23,8% 15,6% 3,9% 2,4% 1,0% 53,3% quotidiani periodici radio outdoor cinema televisioni Sulla base delle informazioni fornite, si definisca la distribuzione di quantità del volume di investimenti pubblicitari, in milioni di euro, per tipologia di mezzo di comunicazione. Dal momento che i valori riportati rappresentano le quote percentuali pi=1, 2, ..6, del volume degli investimenti X, per le tipologie di mezzo di comunicazione considerato, ovvero: pi = xi/X * 100 i= 1,2,…,6 ne segue che le rispettive intensità, espresse in milioni di Euro, sono ottenute: Xi = X * pi/100 i= 1,2,…,6 X1 = 7407 * 23,8/100 = 1762,866 (quotidiani) X2 = 7407 * 15,6/100 = 1155,492 (periodici) X3 = 7407 * 3,9/100 = 288,873 (radio) X4 = 7407 * 2,40/100 = 177,768 (outdoor) X5= 7407 * 1/100 = 74,07 (cinema) X6 = 7407 * 53,3/100 = 3947,931 (televisioni) Per cui la distribuzione: 12 mezzi di volumi investimenti comunicaz. pubblicitari quotidiani 1.762,87 periodici 1.155,49 radio 288,873 outdoor 177,768 cinema 74,07 televisioni 3.947,931 7.407 FUNZIONE DI RIPARTIZIONE (CARATTERI QUANTITATIVI DISCRETI CON MODALITA’ NON RAGGRUPPATE IN CLASSI) 15 Sia data la seguente distribuzione riguardante l’età di 20 individui: Classi di età 10 ├ 30 6 30 ├ 50 7 50 ├ 70 4 70 ├ 90 3 Totali 20 Rappresentare l’espressione analitica della funzione di ripartizione e darne rappresentazione grafica. Dobbiamo calcolare le frequenze relative, l’altezza e le frequenze relative cumulate. Classi di età ampiezza classe altezza (fi/di) ni fi di hi Fi 10 ├ 30 6 0,3 20 0,015 0,3 30 ├ 50 7 0,35 20 0,0175 0,65 50 ├ 70 4 0,2 20 0,01 0,85 70 ├ 90 3 0,15 20 0,0075 1 Totali 20 1 Forma analitica della funzione di ripartizione in generale: 0 per X<X0 F(x) = Fi-1+hi(X – X1) per Xi-1 ≤ X< Xi 1 per X≥ Xk Pertanto, con i nostri dati, possiamo scrivere la funzione di ripartizione come segue: Che sarebbe: 0 per x<10 0 per x< 10 0,015 (x-10) per 10 ≤ x < 30 0,30 + 0,0175 (x - 30) per 30 ≤ x < 50 0,65 + 0,01 ( x - 50 ) per 50 ≤ x < 70 0,85 + 0,0075 ( x - 70 ) per 70 ≤ x < 90 1 per x ≥ 90 in 16 0,015x - 0,15 per 10≤x<30 F(x) = 0,0175x - 0,225 per 30≤x<50 0,01x + 0,15 per 50≤x<70 0,0075x + 0,325 per 70≤x<90 1 per x≥90 Se voglio sapere qual’ è la percentuale di unità di età 20 anni: Sarà F(20)*100 Il valore 20 cade nella classe 10-30 dove F(x) = 0,015x+0,15→F(20)=0,015*20-0,15= 0,15 La percentuale di unità di età uguale a 20 anni sarà il 15%. Se voglio sapere qual’ è la percentuale di unità con età compresa tra 38 e 55 anni: Sarà [F(55)-F(38)]*100. Occorre allora calcolare il valore della funzione di ripartizione sia in 55 sia in 35. Il valore 38 cade nella classe 30-50 dove F(x)=0,0175x-0,225 →F(38)=0,44 Il valore 55 cade nella classe 50-70 dove F(x)=0,01x+0,15 →F(55) = 0,7 Quindi la percentuale di unità compresa tra 38 e 55 anni è: (0,7-0,44)*100= 26% Graficamente, la funzione di ripartizione per caratteri QUANTITATIVI CON MODALITA’ RAGGRUPPATE IN CLASSI, è una spezzata MEDIE ANALITICHE Una media è un valore che è rappresentativo di un insieme di dati. MEDIA ARITMETICA 17 È data dalla somma dei singoli termini divisa per il loro numero ed è definita dalla relazione: µ = N x N i i∑ =1 dove N è il totale popolazione; con una distribuzione di frequenze relative : µ = ∑ = N i if 1 Es. Calcolare la media dei clienti che sono state ricevuti nel primo quadrimestre in uno studio notarile: Mesi Clienti(xi) Gennaio 120 Febbraio 100 Marzo 80 Aprile 140 Tot. 440 µ = 4 440 = 110 ( n° clienti ricevuti nel 1° quadrimestre) Il valore medio ottenuto è la media aritmetica semplice delle xi MEDIA ARITMETICA PONDERATA Talvolta associamo ai numeri x ,x ,…..x certi pesi, f , f , ….f ,(frequenze); ossia talvolta la media aritmetica deve essere calcolata su una seriazione statistica, per cui la formula dovrà essere modificata, per tener conto del fatto che ciascun valore distinto, x , della variabile, si presenta con frequenza f , cosicché complessivamente, si opera su f + f +…. f valori. In generale: si ottiene facendo la somma dei prodotti dei valori per le rispettive frequenze e dividendo il risultato ottenuto per la somma delle frequenze. E’ definita dalla relazione: µ = N xn k i ∑ =1 Es.: calcolare la lunghezza media di 200 barre di ferro del magazzino Beta: Lunghezza barre pezzi xi ni 2 10 4 60 6 80 8 30 10 20 200 µ = ( ) 200 )1010()408(606)804()102( ⋅+⋅+⋅+⋅+⋅ = 200 1120 = 5,6 Quando abbiamo classi di intervallo, per trovare il valore IX , si calcola il valore medio della classe ( valore centrale ). Per cui: IX = ½ ( ci-1 + ci ) Es.: Abbiamo la classificazione del reddito di 100 persone. Quanto spetterebbe ad ogni famiglia se il reddito fosse equidistribuito? 20 Data una successione di grandezze ordinate in senso crescente o decrescente la mediana è quella grandezza che occupa la posizione centrale. E’ quel valore che divide la sequenza ordinata dei dati in 2 gruppi di uguale numerosità. Trova impiego in quei fenomeni dove gli estremi sono poco rappresentativi e la cui conclusione nel calcolo porterebbe a degli spostamenti non giustificati. Es.: 23 2 5 11 4 come prima cosa dobbiamo ordinare i dati: 2 4 5 11 23 Me = 5 Occorre notare che se la popolazione è dispari, si ha un solo valore centrale che corrisponde alla mediana; se invece la popolazione è pari avremo sempre una coppia centrale chiamata coppia mediana. In questo secondo caso le mediane sono infinite e convenzionalmente si assume come mediana la semi somma della coppia mediana. Es.: 2 4 5 11 24 28 coppia mediana 8 2 115 = + =em N dispari Supponiamo di aver classificato 155 soggetti secondo il titolo di studio: titolo di studio n°soggetti (ni) Ni nessuno 10 10 lic.elementare 31 41 lic.media inf. 60 101 diploma 34 135 laurea 20 155 155 Devo quindi indicare l’unità che occupa la posizione centrale : POS. = 2 1+N ( perché N è dispari) → POS: = 2 1155 + = 78 Quindi la mediana è l’intensità associata a quell’unità che occupa la 78° posizione. Vediamo le frequenze cumulate: 1° gruppo non è possibile : 10 2° “ “ : 41 3° “ : 101 è qui; è la modalità associata alla 78° posizione; sta quindi nel 60 a cui è associata la modalità licenza media inferiore che è il titolo di studio mediano N pari Classifichiamo 92 soggetti secondo i loro voti all’Università: 21 voto n° soggetti (ni) N nessuno 7 7 23 13 20 25 27 47 29 22 69 30 23 92 92 = 2 92 46 Il voto associato alla 46° posizione è 25 che è la mediana. Quindi il voto mediano = 25 Se il carattere è il classi, per calcolare la mediana: 22 Se N è pari: i i i ie d n NN cm ⋅ − += −− 1 1 2/ se N è dispari: i i i ie d n N N cm ⋅ − + += − − 1 1 2 1 Oppure la posso ottenere tramite la funzione di ripartizione: dopo aver individuato la classe mediana(ci-1 , ci) che è la più piccola classe dei valori di x con Fi maggiore o uguale a 0,5 applicherò la seguente relazione: 1 15,0 − − + − = i i i e c h F m Es: Consideriamo la distribuzione di 67 comuni della Provincia di Pesaro ed Urbino, per classi di ampiezza demografica. Censimento 1971. Calcolare la mediana. Classi di ampiezza N.Comuni ni fino a 500 ab. 1 501 |-| 1000 11 1001 |-| 2000 23 2001 |-| 3000 8 3001 |-| 5000 13 5001 |-| 10000 6 10001 |-| 15000 2 15001 |-| 50000 2 oltre 50000 ab 1 67 Calcoliamo le frequenze cumulate: Classi di ampiezza N.Comuni ni Ni fino a 500 ab. 1 1 501 |-| 1000 11 12 1001 |-| 2000 23 35 2001 |-| 3000 8 43 3001 |-| 5000 13 56 5001 |-| 10000 6 62 10001 |-| 15000 2 64 15001 |-| 50000 2 66 oltre 50000 ab 1 67 67 Essendo il numero dei Comuni dispari, il Comune di ampiezza mediana occupa il posto 2 167 + = 34°appartenendo quindi alla classe 1001-2000. Il valore della mediana si ricava applicando la relazione sopra indicate. m = 1001 + 23 1234 − . 999 → m = 1957 Ciò significa che il 50% dei Comuni ha un’ampiezza demografica non superiore o tutt’al più uguale a 1957 abitanti MODA 25 I quartili dividono la popolazione in 4 parti. • Q1 divide N in due parti :prima di se 25% dopo di se 75% ossia è quel valore tale che il 25% delle osservazioni è minore o uguale a Q1 • Q2 divide N in due parti :prima di se 50% dopo di se 50% e coincide con la mediana • Q3 “ “ “ 75% “ 25 Q1 Q2 Q3 Q1 Q2 Q3 Per calcolarli bisogna identificare le posizioni. Dati grezzi {x1, x2, ….xN}: devo ordinare i dati in senso crescente, poi: Q1 = x(0,25·(N+1) che posso scrivere 4 1+N , uguale all’ iesimo valore ordinato ossia trovo il valore di x che sta nella posizione 0,25·(N+1) Q3 = x0,75·(N+1) che posso scrivere 4 )1(3 +N , uguale all’ iesimo valore ordinato ossia trovo il valore di x che sta nella posizione 0,75·(N+1) Regole:  Se la posizione del quartile è un numero con una cifra decimale uguale a 5 (es. 2,5), allora il quartile è uguale alla media delle osservazioni a cavallo di quelle posizioni. Per esempio se la dimensione campionaria è n=9, la posizione di Q1 è uguale a (9+1)/4=2,5, ovvero Q1 si colloca a metà strada tra la seconda e la terza osservazione nella sequenza ordinata. Quindi, come per la mediana, Q1 sarà la media aritmetica di queste due osservazioni.  Se la posizione del quartile è un numero con due cifre decimali uguali a 25 o 75 (es. 2,25 o 4,75), la posizione del quartile si può approssimare, per eccesso o per difetto, all’intero più vicino. In questo caso il quartile sarà l’osservazione corrispondente a questa posizione. Per esempio, se la dimensione campionaria è n= 10 la posizione di Q1 è uguale a (10+1)/4=2,75; per cui approssimando tale valore per eccesso, ossia all’intero più vicino 3, si ottiene che Q1 sarà la terza osservazione nella sequenza ordinata Es.: I dati seguenti rappresentano le calorie di 7 tipi di caffè freddo acquistati sia dal rivenditore Alfa che dal rivenditore Beta. Calcolare il 1° ed il 3° quartile del numero di calorie per i vari tipi di caffè freddo. %25 %25 %25 %25 quarto°1 quarto°2 quarto°3 quarto°4 %25 %75 %50 %50 %75 %25 26 Prodotti calorie Tipo A 240 Tipo B 260 Tipo C 350 Tipo D 350 Tipo E 420 Tipo F 510 Tipo G 530 valori ordinati 240 260 350 350 420 510 530 posizione 1° 2° 3° 4° 5° 6° 7° Q1 = 4 1+N = 4 17 + -esimo valore ordinato = 2 = 2° valore ordinato ossia 260 ossia trovo il valore di x che sta nella posizione 0,25·(N+1) Quindi (stessa cosa) : Q1 = 0,25·(7+1) = 2 cioè il valore che corrisponde alla 2° posizione che è 260 Che significa che il 25% dei caffè freddi ha un contenuto calorico inferiore od uguale a 260 Q3 = 4 )1(3 +N = 4 )17(3 + -esimo valore ordinato = 6 = 6°valore ordinato ossia 510 ossia trovo il valore di x che sta nella posizione 0,75·(N+1) Quindi (stessa cosa) : Q3 = 0,75·(7+1) = 6 cioè il valore che corrisponde alla 6° posizione che è 510 Che significa che il 75% dei caffè freddi ha un contenuto calorico inferiore od uguale a 510 SINTESI A CINQUE e BOX-PLOT o scatola a baffi 27 La sintesi a cinque è uno strumento per poter riassumere l’intera distribuzione, analizzarne la variabilità e la forma attraverso solo cinque numeri, ovvero attraverso gli estremi, i quartili e la mediana: Xmin Q1 mediana Q3 Xmax Il box-plot ci fornisce la rappresentazione grafica dei dati sulla base della “sintesi a cinque” ossia attraverso solo cinque numeri, ovvero attraverso gli estremi, i quartili e la mediana: Vediamo la sintesi a cinque e il box-plot dei tempi impiegati per essere pronti al mattino in 10 giorni lavorativi consecutivi: 29 31 35 39 39 40 43 44 44 52 min 29 Q1 35 me 39,5 Q3 44 max 52 SIMMETRIA Un’importante proprietà di un gruppo di dati è la sua forma. Il modo in cui sono distribuiti. 30 Campo di variazione - Range Dati n valori x1….xn, definiamo campo di variazione ∆c la differenza tra il valore massimo ed il valore minimo: RANGE = Xmax - Xmin Es.: SERIE I^ : 100 500 500 800 SERIE II^ : 100 120 650 800 La variabilità della II^ serie appare ovviamente maggiore della I^ serie, pur tuttavia il campo di variazione risulta uguale nelle 2 serie: SERIE I^ : ∆c = 800 – 100 = 700 SERIE II^: ∆c = 800 – 100 = 700 Il difetto maggiore che presenta il campo di variazione è che esso, non tiene conto dei valori intermedi della serie, per cui potrebbe avere, come nell’esempio, lo stesso valore per 2 serie diverse, i cui estremi soltanto coincidono. Inoltre i campo di variazione può altresì dare un’impressione di elevata variabilità in presenza anche di un solo valore anomalo.(eccezionalmente grande o straordinariamente piccolo) Trova vaste applicazioni nel controllo statistico di quantità, può venire impiegato per il calcolo dell’escursione termica, di una località, per la determinazione della variabilità delle quotazioni dei titoli azionari nelle Borse valori, etc. Es: di seguito sono riportati i tempi impiegati che occorrono per prepararsi al mattino in 10 giorni lavorativi consecutivi .Determinare il campo di variazione dei tempi impiegati per essere pronti al mattino. Giorno 1 2 3 4 5 6 7 8 9 10 Tempo 39 29 43 52 39 44 40 31 44 35 E quindi necessario ordinare i dati dal più piccolo al più grande: 29 31 35 39 39 40 43 44 44 52 Range = 52 – 29 = 23 minuti Ossia, un RANGE di 23 minuti indica che la differenza più grande tra i vari tempi è di 23 minuti o che il tempo per prepararsi varia in un arco temporale di 23 minuti. 31 Differenza interquartilica E’ la differenza tra il terzo ed il primo quartile: SIQ = Q3 – Q1 Esprime le lunghezze di un intervallo entro il quale è compreso il 50% dei valori: pertanto anche SIQ risulta una misura non soddisfacente della variabilità; anche perché se variano i valori esterni all’intervallo Q3 _________ Q1 il valore SIQ rimane immutato pur essendo mutata la variabilità del fenomeno. I vantaggi rispetto a campo di variazione è che non risulta affatto influenzata dalla presenza di qualche valore anomalo agli estremi della distribuzione e risulta calcolabile, anche in presenza di distribuzioni di frequenze di una variabile statistica con le classi estreme aperte. Es.:calcolare la differenza interquartile dei dati relativi ai tempi necessari per prepararsi al mattino: Q1= 35 e Q3=44 differenza interquartile = 44 - 35 = 9 minuti Quindi, la differenza interquartile per il tempo necessario a prepararsi è di 9 minuti. L’intervallo tra 35 e 44 racchiude il 50% delle osservazioni centrali 32 Gli indici di posizione non tengono conto della variabilità esistente tra i dati; vi sono distribuzione che, pur avendo la stessa media, sono molto diverse tra loro. Indici significativi per la misura della variabilità di un distribuzione di frequenze sono: DEVIANZA – VARIANZA - SCARTO QUADRATICO MEDIO La DEVIANZA è la somma dei quadrati degli scarti delle ix dalla media: D = ∑ = N i ix 1 ( - µ ) 2 per le serie D = ∑ = N i ix 1 ( - µ ) 2 in per le seriazioni se il carattere è in classi, ix = valore centrale Se N aumenta, anche D aumenta. La VARIANZA è la Devianza divisa per N : 2σ = N D → 2σ = ( )∑ = − K i xi N 1 21 µ per una distribuzione di frequenze assolute sarà: 2σ = ( )∑ = ⋅− K i inxi N 1 21 µ per una distribuzione di frequenze relative sarà: 2σ = ( )∑ = ⋅− K i ifxi 1 2 µ ma si può anche scrivere come differenza tra il momento secondo ed il quadrato del primo che è il METODO DEI MOMENTI : 2σ = 2µ - 2µ per cui segue che D = ∑ = N i ix 1 2 in - N 2µ⋅ La varianza non è espressa nella stessa unità di misura del carattere, ma nel quadrato di tale unità di misura. Ad esempio, se le quantità xi sono espresse in centimetri, la varianza è espressa in cm². Lo scarto quadratico medio o Deviazione standard è la radice quadrata della varianza: 2σσ = Lo scarto quadratico medio è espresso nella stessa unità di misura del carattere Varianza e scarto quadratico medio sono detti indice di dispersione o indici di variabilità , perché misurano la dispersione dei dati attorno alla media. Es.:Calcolare la media aritmetica, varianza coi due metodi, scarto quadratico medio di 200 barre di ferro che si trovano in un magazzino della società Alfa: Lunghezza barre numerosità xi ni 2 10 4 60 6 80 8 30 10 20 200 35 Il coefficiente di variazione è invariante a livello di scala di rapporti. VERIFICA: Es.: dati i seguenti diametri di 10 rondelle in pollici 1,25 1,27 1,29 1,31 1,31 1,33 1,35 1,41 1,42 1,43 la media e lo scarto quadratico medio sono uguali rispettivamente, a µ (inc) = 1,337 σ(inc) = 0,0607 se si trasformano in centimetri si ottengono (1 inc = 2,54cm) 3,1750 3,2258 3,2766 3,3030 3,3274 3,3782 3,4290 3,5052 3,5814 3,6830 che a avranno media e scarto quadratico medio, rispettivamente, µ (cm) = 3,3884 σ(cm) = 0,1533 Se calcoliamo i rispettivi coefficienti di variazione si ottengono: C.V. (inc) = X 100 = 4,53% C.V. (cm) = X 100 = 4,53% Da cui emerge che il C.V. è invariante a livello di scala di rapporti Es.: Cinque macchinari hanno i seguenti tempi medi di sollevamento ed i corrispettivi scarti quadratici medi: Macch. A B C D E Media 6,25 5,00 7,55 6,67 5,35 s.q.m. 6,42 5,35 7,05 6,67 5,85 Sapendo che è preferibile scegliere il macchinario che assicura un tempo di sollevamento più costante, quale dei cinque macchinari scegliereste? Per saperlo devo quindi calcolare il C.V. Per cui: Macch. A B C D E C.V. 1,027 1,064 0,934 1,00 1,094 Il macchinario che assicura un tempo do sollevamento più costante è il C; esso ha una variazione di flusso minore delle altre. 36 Concentrazione Ci fa vedere l’attitudine di un fenomeno ad addensare una parte rilevante del totale intensità a favore di una unità. La concentrazione è nata nello studio della misurazione del reddito. Es..: Di seguito vengono riportati i dati relativi al numero di turisti in un mese nelle province dell’Emilia Romagna in un determinato anno. Calcolare l’indice di concentrazione di Gini. Province n.turisti xi ni BO 350 MO 100 FE 250 FO 150 RA 600 RN 500 1.950 Come prima cosa dobbiamo ordinare la successione: Province n.turisti xi MO 100 FO 150 FE 250 BO 350 RN 500 RA 600 1.950 n.turisti i yi Ai Qi= Ai/A Pi = i/n Pi - Qi 1 100 100 0,0513 0,1667 0,1154 2 150 250 0,1282 0,3333 0,2051 3 250 500 0,2564 0,5 0,2436 4 350 850 0,4359 0,6667 0,2308 5 500 1350 0,6923 0,8333 0,1410 6 600 1950 ⎺ ⎺ ⎺ A=1950 1,5641 2,50 0,9359 Ricordarsi che: iQP ii ∀≥ e PN=QN=1; se la concentrazione aumenta, aumentano le differenze Pi-Qi e nel caso di max concentrazione Q1=…=QN-1=0 G: ∑ ∑ − = − = − 1 1 1 1 )( N i N i Pi QiPi → G = 5,2 94,0 = 0,37 che posso anche scrivere: ∑ ∑ − = − =−= 1 1 1 11 N i i N i i P Q G →G = 5,2 56,1 1− = 0,37 la concentrazione di turisti nelle province è pari al 37% di quella massima ipotizzabile. 37 Calcoliamo ora Ac: Ac = ½ - ½ [ ∑ = −− N i iPPi 1 1( )( 1−+ iQQi )] Province Prodotto i Pi = i/n Qi= Ai/A Pi - Pi-1 Qi + Qi-1 Pi * Qi MO 1 0,1667 0,0513 0,1667 0,0513 0,0085 FO 2 0,3333 0,1282 0,1667 0,1795 0,0299 FE 3 0,5 0,2564 0,1667 0,3846 0,0641 BO 4 0,6667 0,4359 0,1667 0,6923 0,1154 RN 5 0,8333 0,6923 0,1667 1,1282 0,1880 RA 6 1 1 0,1667 1,6923 0,2821 0,6880 Ac =½ -½ (0,688) = 0,156 CURVA DI LORENZ sulle ascisse avremo Pi e sulle ordinate Qi: x y Pi Qi 0,17 00:05 0,33 00:13 0,5 00:26 0,67 00:44 0,83 0,69 1 1 Tracciando la retta di equidistribuzione, sul grafico, si vede l’area di concentrazione. Avendo solo l’area di concentrazione, applicando la formula apposita, si può calcolare l’indice di Gini. G = 1−N N • 2 A C G = 5 6 • (2 · 0,156) → G = 0,37 Arriviamo quindi allo stesso risultato. 40 INDIPENDENZA STATISTICA L’assenza di una qualsiasi relazione tra due caratteri X e Y desumibili da una distribuzione doppia di frequenza è detta indipendenza assoluta. Il concetto di indipendenza statistica è simmetrico per cui se, se Y è indipendente da X, allora anche X è indipendente da Y. Le frequenza congiunte in caso di indipendenza statistica sono date da: fij = N fijf oo × cioè il prodotto delle frequenze marginali che si incrociano Es.: classifichiamo 100 studenti secondo il voto , X, e secondo il sesso, Y. Il voto è basso , B se ≤ 24 e alto, A se ≥25. Sono stati: REALTA’ Y/X B A M 55 15 70 F 5 25 30 60 40 100 Se ci fosse indipendenza statistica, come visto dalla relazione sopra indicata,sarebbe: TEORIA Y/X B A M 42 28 70 F 18 12 30 60 40 100 Al contrario, se non c’è indipendenza statistica, ci sarà assenza statistica; ci sarà quindi un legame che si chiama connessione che è definita come l’assenza di indipendenza statistica o attitudine di un fenomeno ad associarci prevalentemente con certe modalità dell’altro. Tanto più condensiamo le frequenze congiunte in una “cella”, tanto più ci sarà connessione. Per misurare il livello di connessione, si fa uso delle contingenze, cioè la differenza tra le frequenze osservate e quelle teoriche. ijc = ijn - ijn^ = ijn - N jnni ⋅⋅ i = 1,…..r, j = 1,….c La somma delle contingenze vale sempre zero. Se la differenza tra la realtà e la teoria è POSITIVA c’è ATTRAZIONE nella coppia di modalità “ “ “ NEGATIVA c’è REPULSIONE nella coppia di modalità ES.: 55-42 è > 0 C’è ATTRAZIONE tra maschio e voto basso 15-28 è < 0 c’è REPULSIONE tra maschio e voto alto 41 Es. Sia data la seguente tabella: carattere Y Carattere X Y1 Y2 Y3 totale X1 2 5 15 22 X2 4 14 10 28 X3 7 6 12 25 13 25 37 75 a) Determinare le frequenze teoriche in caso di indipendenza b) Determinare la tabella di contingenza Le frequenze teoriche sono tali che: ^ijn = N jnni ⋅∗⋅ (con le frequenze assolute) ^ijf = jffi ⋅∗⋅ (con le frequenze relative) Per cui, in caso di indipendenza: carattere Y Carattere X Y1 Y2 Y3 totale X1 3,813 7,333 10,853 22 X2 4,853 9,333 13,813 28 X3 4,333 8,333 12,333 25 totale 13 25 37 75 le contingenze sono le differenze tra le frequenze osservate e frequenze teoriche; per cui : carattere Y Carattere X Y1 Y2 Y3 totale X1 -1,813 -2,333 4,147 0 X2 -0,853 4,667 -3,813 0 X3 2,667 -2,333 -0,333 0 totale 0 0 0 0 Dalla tabella di contingenza costruita si evince che la somma algebrica delle contingenze di una riga o di una colonna è nulla. Dalla tabella di contingenza, si può vedere quindi se c’è attrazione o repulsione nella coppia di modalità XiYj: Ad esempio, nel nostro esercizio: -1,813 è < 0 per cui tra la modalità Y1 e X1 c’è repulsione, +4,147 è >0 per cui tra la modalità Y3 e X1 c’è attrazione; e così via. 42 INDICE Chi-quadrato ( 2χ ) di connessione o indice di contingenza L’indice di connessione CHI QUADRO di PEARSON, 2χ è dato dalla somma ponderata delle contingenze relative al quadrato: 2χ = ∑ = r i 1 ∑ = c j 1 · ijn cij ^ 2 con le frequenze assolute 2χ = ∑ = r i 1 ∑ = c j 1 · ijf cij ^ 2 con le frequenze relative Es.: Data la tabella dell’esempio precedente, determinare l’indice Χ² : 2χ = 813,3 )813,1( 2− + 333,7 )333,2( 2− + 853,10 )147,4( 2 + 853,4 )853,0( 2− + 333,9 )667,4( 2 + 813,13 )813,3( 2− + 333,4 )667,2( 2 + 333,8 )333,2( 2− + + 333,12 )333,0( 2− = 9,029 Una formula alternativa di questo indice, che non richiede l’uso delle contingenze è : 2χ = N ( ∑ = r i 1 ∑ = c j 1 jnni nij ⋅∗⋅ 2 - 1 ) ; Es.: Calcolare l’indice di Pearson senza far uso della tabella delle contingenze e l’indice relativo (normalizzato)con i dati dell’esercizio precedente: 2χ = 75 ( 4/286+25/550+225/814+16/364+196/700+100/1036+49/325+36/625+144/925 – 1) 2χ = 9,028453703 ≈ 9,029 Come si vede si giunge allo stesso risultato. Per normalizzare l’indice, ossia per renderlo relativo, si divide per il suo massimo teorico: max ~ 2 2 X χ χ = dove X max è dato da: N·{ min(R-1); N(C-1)} con le frequenze assolute { })1();1min( ~ 2 2 −− = CR χ χ con le frequenze relative dove 1~0 2 ≤≤ χ e misura l’intensità della connessione se = 0 indipendenza se = 1 perfetta connessione Per calcolare l’indice relativo o normalizzato col nostro esercizio: _ 2χ = { } 06,0 275 029,9 )13();13(min75 029,9 = ⋅ = −−⋅ che indica una bassa connessione tra i due caratteri 45 Es.: La tabella seguente riporta il peso in Kg, X, e la corrispondente altezza in cm., Y, di 9 lanciatori di giavellotto: Peso 93 79 86 94 84 83 80 70 75 Altezza 184 168 180 184 185 188 180 177 178 Misurare la covarianza. Applico la formula: xyσ = N 1 ( )∑ = − N i xXi 1 µ ( )yYi µ− per una distribuzione unitaria X Y (Xi-µx) (yi-µy) (Xi-µx)·(Yi-µy) 93 184 10,33 3,56 36,7748 79 168 -3,67 -12,44 45,6548 86 180 3,33 -0,44 -1,4652 94 184 11,33 3,56 40,3348 84 185 1,33 4,56 6,0648 83 188 0,33 7,56 2,4948 80 180 -2,67 -0,44 1,1748 70 177 -12,67 -3,44 43,5848 75 178 -7,67 -2,44 18,7148 744 1624 193,3332 xµ = 9 744 = 82,67 yµ = 9 624.1 = 180,44 xyσ = 9 332,193 = 21,481483 per cui si ha si ha concordanza 2° metodo: Applichiamo ora la formula: xyσ = 11µ - xµ yµ X Y XY 93 184 17.112 79 168 13.272 86 180 15.480 94 184 17.296 84 185 15.540 83 188 15.640 80 180 14.400 70 177 12.390 75 178 13.350 Tot 744 1.624 134.444 xµ = 9 744 = 82,67 yµ = 9 624.1 = 180,44 xyµ = 9 444.134 = 14.938,22222 xyσ = 14.938,22222 – ( 82,66666667 ∗ 180,4444444) xyσ = 21,481483 stesso risultato 46 Es.: distribuzione doppia La seguente tabella riporta la classificazione di 100 negozi a dettaglio secondo l’importo delle vendite (X) e spese di pubblicità (Y): Y X 40 60 80 100 4 10 5 0 0 15 8 10 10 5 0 25 10 5 5 10 10 30 20 0 5 10 15 30 25 25 25 25 100 Calcolare la covarianza: 1° metodo: la calcolo come media del prodotto degli scarti: xµ = 100 25100258025602540 xxxx +++ = 70 yµ = 100 30203010258154 xxxx +++ = 11,6 costruisco un’altra tabella in cui al posto delle X e delle Y metterò i loro scarti, per cui preparo la riga madre e la colonna madre e di conseguenza i valori all’interno della tabella: X-µx Y-µy -30 -10 10 30 -7,6 228 76 0 0 -3,6 108 36 -36 0 -1,6 48 16 -16 -48 8,4 0 -84 84 252 dove, 228 è dato da( -7,6)x(-30); 76 è dato da (-10)x(-7,6); 108 è dato da (-3,6)x(-30) e così via. A questo punto pondero i valori per le rispettive frequenze: xyσ = 100 1 [ 228x10+76x5+108x10+36x10+(-36x5)+48x5+16x5+(-16x10)+(-48x10)+ +(-84x5)+84x10+252x15 ] xyσ = 78 47 2° metodo uso i momenti ordinari di ordine R+S calcolo 11µ costruendo una tabella che contiene il prodotto delle variabili X e Y: Y X 40 60 80 100 4 160 240 0 0 8 320 480 640 0 10 400 600 800 1000 20 0 1200 1600 2000 ora calcolo la media ponderando i valori della tabella per le rispettive frequenze: 11µ = 100 1 [160x10+240x5+320x10+480x10+640x5+400x5+600x5+800x10+1000x10+1200x5+ +1600x10+2000x15 ] 11µ = 890 ora possiamo trovare la covarianza in quanto conosciamo le medie di X e Y: xyσ = 890 – (70 x 11,6) xyσ = 78 Si ha concordanza 50 Es.: Gli ufficiali di polizia giudiziaria, autorizzati dal questore di una provincia, a svolgere attività investigativa mediante intercettazioni telefoniche e telematiche, hanno rilevato il numero di SMS cifrati ricevuti (X) ed inviati (Y) in un giorno da 8 soggetti indagati per un reato. La distribuzione unitaria per i caratteri osservati è risultata la seguente: SMS ricevuti Xi 1 4 3 2 5 6 7 12 SMS inviati Yi 2 4 6 4 9 10 8 13 Assumendo la dipendenza del carattere Y da X, si effettui l’analisi della regressione, esplicitandone le fasi. La prima fase dell’analisi della regressione consiste nella scelta della funzione più idonea a rappresentare la relazione esistente tra il carattere dipendente Y e quello indipendente X , per cui rappresentiamo il diagramma a dispersione: diagramma a dispersione 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 SMS ricevuti S M S i n v ia ti Yi Analizzando il grafico relativo alle coppie di valori (Xi,Yi) su può ritenere valida, in prima approssimazione, l’esistenza di una relazione lineare tra i caratteri in esame, descritta dal modello: Y = 0β + _ 1 xβ calcoliamo ora i coefficienti del modello di regressione lineare mediante il metodo dei minimi quadrati: 1β = x xy 2σ σ 0β = _ y - _ 1 xβ Calcoliamo ora le medie aritmetiche di X e di Y: − x = 8 127652341 +++++++ = 5 _ y = 8 1381094642 +++++++ = 7 51 ora: Xi Yi Xi - 5 Yi - 7 (X i - 5)(Yi - 7) (Xi - 5)² 1 2 -4 -5 20 16 4 4 -1 -3 3 1 3 6 -2 -1 2 4 2 4 -3 -3 9 9 5 9 0 2 0 0 6 10 1 3 3 1 7 8 2 1 2 4 12 13 7 6 42 49 81 84 per cui : 1β = 8 )5( 8 )7)(5( 8 1 2 8 1 ∑ ∑ = = − −− i i xi yixi = == 5,10 125,10 8 84 8 81 0,964 Posso calcolare la covarianza col metodo dei momenti: Xi*Yi 2 16 18 8 45 60 56 156 361 125,45 8 361 ==xyµ → xyσ = 45,125 – (5 * 7) = 10,125 0β = 7 – 0,964 · 5 = 2,18 e quindi la funzione di regressione di X ed Y in esame risulta essere: ^ y = 2,18+0,964x si noti che il coefficiente 1β è positivo, per cui il modello di regressione individuato è una funzione crescente; in particolare, il valore del coefficiente 1β indica che, all’aumentare di una unità del carattere X, il carattere Y aumenta in media di 0,964 unità. In altri termini, ad ogni nuovo SMS ricevuto, corrisponde mediamente un SMS inviato 52 Rivediamo il grafico con la retta di regressione: L’ultima fase dell’analisi della regressione consiste nella valutazione della “bontà” di adattamento della funzione di regressione individuata ai valori osservati; ossia la bontà dell’adattamento della retta ai punti. L’indice statistico utilizzato a tale scopo è l’indice di determinazione R² che è un indice relativo: R2 = 2XYρ che è compreso nell’intervallo : 10 2 ≤≤ XYρ 2 XYρ = 2       yx xy σσ σ se 2XYρ = 0 interpolazione pessima se 2XYρ = 1 interpolazione perfetta nel nostro esempio : 2 xσ = 10,5 ; 2 yσ = 11,75 XYρ = )75,11()5,10( 125,10 ⋅ = 0,91 che è un valore prossimo ad 1; si avvicina quindi alla perfetta correlazione lineare tra X = SMS ricevuti ed Y = SMS inviati. R2 = (0,91)² = 0,8281 buona interpolazione PREVISIONE: Se volessi prevedere il numero di SMS INVIATI (Y) supponendo che si siano ricevuti 100 SMS devo sostituire il valore alla x nella retta: Y100 = 2,18 + (0,964 · 100) Y100 = 98,58
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved