Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica descrittiva / Statistica I, Dispense di Statistica Descrittiva

Come descritto in indice i principali argomenti trattati sono: - Rapporti statistici - Studio delle frequenze - Rappresentazioni grafiche - Proprietà media aritmetica - Tasso di variazione (medio) - Proprietà della varianza - Bontà d’adattamento della rmq - Indipendenza distributiva - Indice di Mortara e Pearson - Proprietà della covarianza - Coeff. di correlazione lineare Dispensa costituita di tutti gli appunti presi a lezione; implementata con esercizi vari per facilitare la comprensione.

Tipologia: Dispense

2019/2020

In vendita dal 05/04/2020

Luca_Gargano
Luca_Gargano 🇮🇹

3.7

(10)

16 documenti

1 / 125

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Statistica descrittiva / Statistica I e più Dispense in PDF di Statistica Descrittiva solo su Docsity! Indice: - Fasi della formazione dei dati statistici - Rapporti statistici - Studio delle frequenze - Rappresentazioni grafiche - Quartili, decili e percentili - Proprietà media aritmetica - Numeri indici - Tasso di variazione (medio) - Misure di variabilità - Proprietà della varianza - Indici di concentrazione - Asimmetria - Interpolazione - Proprietà della retta ai minimi quadrati - Bontà d’adattamento della retta ai minimi quadrati - Scomposizione della devianza totale - Distribuzione di frequenze bivariate - Indipendenza distributiva - Indice di Mortara - Indice di Pearson - Indipendenza in media - Retta a minimi quadrati nel caso di una tabella a doppia entrata - Concordanza - Proprietà della covarianza - Coefficiente di correlazione lineare - Proprietà di R N.d.A. Dispensa costituita di tutti gli appunti presi a lezione del prof. Borroni; implementata con esempi ed esercizi vari per facilitare la comprensione dei calcoli. Suggerisco di studiare molto attentamente i procedimenti degli esercizi tramite gli esempi presenti ed inoltre di studiare a memoria le varie dimostrazioni molto richieste in sede di esame. 2 5 8 11 20 28 38 39 44 51 58 70 79 87 90 91 95 98 103 104 109 113 116 118 121 122 Statistica: È la scienza che studia i metodi per l’elaborazione dei dati, al fine di prendere decisioni in condizioni di incertezza Incertezza: - Conoscenza parziale dei fenomeni 
 . raccolta dati (censimenti)
 . elaborazione dati
 - Impossibilità di una conoscenza completa dei fenomeni 
 . raccolta dati (parziale) (campioni)
 . elaborazione —> “estensione” dei dati del campione a tutta la popolazione Popolazione= insieme di elementi (unità) (unità statistica dalla quale è formata) Dati: - Censimenti= tutta la “popolazione”, vengono analizzati tutte le unità che mi interessano 
 (un insieme viene analizzato completamente)
 - Campioni= sottoinsieme della popolazione (in maniera casuale) (non viene analizzata tutta la popolazione, ma solo una parte in modo casuale per poi ribaltare/estendere i dati del campione su tutta la popolazione) Partizione della statistica: Statistica: - Metodologica (in astratto) - Applicata (in contesti reali) es. economica Statistica: - Univariata (una variabile) - Bivariata (2 variabili) - Multivariata (+ variabili) —> Per trovare delle dipendenze tra le variabili Statistica: - Descrittiva - Inferenziale (induzione) estendere il campione a tutta la popolazione - Calcolo delle probabilità Deduzione= (dal generale —> al particolare) Induzione= (dal particolare —> al generale) 1 Distribuzioni: - Di unità - Di frequenze: - Non in classi - In classi: - Caratteri continui - Caratteri discreti Le distribuzioni in classi non possono essere qualitativi Distribuzioni di unità Unità Osservazione di X 1 x1 2 x2 .. .. .. N xN Distribuzioni di frequenze non in classi Modalità di X Frequenze x1 n1 x2 n2 .. … .. … xs ns N 4 Rapporti statistici Definizione= Sono quozienti tra 2 quantità tra cui almeno una ha natura statistica (rapporti) Esempio Rilevato il numero di figli di 7512 coppie italiane, suddivise in base all’età dei genitori Questi dati non sono completamente omogenei e non possono essere direttamente confrontabili Per renderli confrontabili si usano i rapporti: - Giovani: 4102/3499 = 1,172 (Ad ogni coppia giovane spetta idealmente 1,172 figli) - Anziani: 5966/4013 = 1,487 (Ad ogni coppia anziana spetta idealmente 1,487 figli) Si può quindi affermare che i genitori anziani hanno una propensione più elevata a fare figli Rapporti di composizione (rapporti di parte al tutto) Definizione= Si ottengono rapportando una intensità (o una frequenza) parziale all’intensità (o alla frequenza) totale Esempio Popolazione attiva in una provincia italiana, secondo il settore di attività 102708/1809272 = 0,0568 —> 5,68% (Per ogni 100 persone, idealmente 5,68 sono impegnate nell’agricoltura) N. Coppie N. Figli Genitori giovani 3499 4102 Genitori anziani 4013 5966 Settore Popolazione attiva Rapporto Agricoltura 102708 5,68% Industria 785655 43,42% Servizi 920909 50,90% Totale 1809272 100% 5 Rapporti di densità Definizione= Si ottengono rapportando un’intensità relativa ad un fenomeno alla dimensione del campo di osservazione Esempio Azienda con 5 stabilimenti, rilevando il valore della produzione in 1 mese (espresso in migliaia di €) MI: 1870/130 = 14,38 (ad ogni addetto di Milano spetta un valore della produzione di 14,38 (migliaia di €) NA: 1596/80 = 19,95 (ad ogni addetto di Napoli spetta un valore della produzione di 19,95 (migliaia di €) Rapporti di derivazione Definizione= Si ottengono rapportando un’intensità di un fenomeno e l’intensità di un altro fenomeno che ne è il presupposto logico Esempio Due aziende di distribuzione collocate in 2 diverse regioni geografiche; rilevando l’ammontare delle vendite in un anno (espresse in migliaia di €) A: 5600/1577474 * 1000 = 3,55% (per mille) B: 6400/9246796 * 1000= 0.6921% (per mille) Rapporti di coesistenza Definizione= Si ottengono rapportando le intensità di 2 fenomeni tra loro antitetici (ossia che si contrappongono o che coesistono) Esempio Anno 2004: sesso dei nati vivi Rapporto di mascolinità: 288850/273749 = 1,0552 (Per ogni femmina ci sono idealmente 1,0552 maschi) Stabilimento MI TO PR RM NA Produzione 1870 1630 1700 1763 1596 Numero addetti 130 85 95 110 80 Azienda Vendite Numerosità della Regione % (per mille) A 5600 1577474 3,55 B 6400 9246796 0,6921 Sesso Nati M 288850 F 273749 6 - Frequenze cumulate= si possono ricavare solo per i caratteri quantitativi e qualitativi su scala ordinale Esempio N= 20 clienti x=giudizio - Frequenze retrocumulate= il contrario delle frequenze cumulate Esempio N= 20 clienti x=giudizio Esempio 2 N= 25 studenti x=n. fratelli C3 —> 24 studenti hanno al max 2 fratelli R3 —> 8 studenti hanno almeno 2 fratelli xj nj Cj fj Fj Scarso 3 3 0,15 0,15 Sufficiente 8 11 0,4 0,55 Buono 2 13 0,1 0,65 Ottimo 7 20 0,35 1 xj nj Rj fj Fj Scarso 3 20 0,15 1 Sufficiente 8 17 0,4 0,85 Buono 2 9 0,1 0,45 Ottimo 7 7 0,35 0,35 xj nj Cj Rj 0 11 11 25 1 6 17 14 2 7 24 8 4 1 25 1 9 Esempio 3 N= 28 clienti x= distanza (Km) C2 —> 7 clienti distano al massimo 5 Km R2 —> 16 clienti distano almeno più di 3 Km Frequenze specifiche Esempio 1 (estremi delle classi compresi) Esempio 2 (estremo destro non compreso) Come si calcola l’ampiezza della classe: - Caso discreto (un estremo non è compreso) —> (ampiezza= estremo superiore - estremo inferiore) - Caso continuo (gli estremi sono compresi) —> (ampiezza= estremo superiore - estremo inferiore +1) aj = ampiezza della classe Classi Frequenza nj Cj Rj 0 - 3 4 4 20 3 - 5 3 7 16 5 - 10 5 12 13 10 - 30 8 20 8 Classi Frequenza assoluta nj a (ampiezza classe) Hj (frequenza specifica) 0 - 2 27 3 27/3 = 9 3 - 6 15 4 3,75 7 - 9 36 3 12 10 - 20 22 11 2 Classi Frequenza nj aj (ampiezza classe) Hj (frequenza specifica) 0 - 3 4 3 1,33 3 - 5 3 2 1,5 5 - 10 5 5 1 10 - 30 8 20 0,7 10 Rappresentazioni grafiche La rappresentazione grafica più idonea dipende dal dato che bisogna rappresentare 1- Caratteri qualitativi nominali (parole, aggettivi, sostantivi e non ordinabili) Es. priorità Esempio N= 20 clienti X= priorità Rappresentare il peso di ogni priorità, senza rappresentare ogni tipo di ordinabilità che appunto non esiste Per questo caso il grafico più adeguato è il grafico a torta (aerogrammi) xj nj fj Prezzo 5 0,25 Qualità 10 0,5 Assistenza 3 0,25 Tempo 2 0,1 11 Tempo 10% Assistenza 15% Qualità 50% Prezzo 25% Prezzo Qualità Assistenza Tempo Esempio 2 N= 100 operai X= Giorni di ritardo Diagramma ad aste utilizzando le frequenze specifiche (bisogna collegare i pallini con le aste all’asse x) Grafico di distribuzione delle frequenze assolute utilizzando le frequenze specifiche Classi nj Hj = Frequenza specifica 0 - 2 27 9 3 - 6 15 3,75 7 - 9 36 12 10 - 20 22 2 14 0 3 6 9 12 0 5 10 15 20 4- Caratteri quantitativi continui (numeri con la virgola es. distanza) Esempio N= 20 clienti X= distanza (estremo destro non compreso) Istogramma L’area del rettangolo rappresenta la frequenza assoluta (base * altezza) - Calcolare la frequenza nell’intervallo da 4 a 10 Rappresentata da tutta la frequenza tra 5 e 10 + metà della frequenza tra 3 e 5 1 * 5 + 0,5 * 3 = 6,5 Nel caso di variabili continue non si può parlare di frequenza di un singolo valore; infatti si dovrebbe calcolare l’area di un rettangolo in un solo punto (segmento); la sua area è sempre 0 - Calcolare la frequenza nell’intervallo da 0 a 25 0,25 * 8 = 2 20 - 2 = 18 Sia che gli estremi siano compresi o no; il risultato che otteniamo è sempre lo stesso, perché appunto l’area in un singolo punto è 0 Classi nj 0 - 3 4 3 - 5 3 5 - 10 5 10 - 30 8 15 Medie Definizione = una media è una singola modalità che può essere sostituita all’intera distribuzione in modo da rappresentarla Sostituisco una sola modalità all’intera rappresentazione facendo in modo che essa sia rappresentativa Moda Definizione = la moda di una distribuzione è la modalità osservata più frequentemente Esempio N= 20 clienti X= priorità Non ha senso fare una classica media Ma osserviamo solo la moda, ovvero il carattere che si presenta più frequentemente (Qualità) NB= La moda non è 10 ma la modalità corrispondente —> ovvero “qualità” Moda “qualità” altamente rappresentativa —> la sua frequenza relativa è molto superiore rispetto alle altre e superiore o uguale alle 0,5 Esempio 2 N= 20 clienti X= giudizio La moda in questa distribuzione è la modalità sufficiente La frequenza relativa di sufficiente però non è cosi nettamente superiore alle altre…(es. ottimo —> 0,35) Moda “sufficiente” non altamente rappresentativa —> la sua frequenza relativa non è molto superiore rispetto alle altre come “ottimo” xj nj Prezzo 5 Qualità 10 Assistenza 3 Tempo 2 xj nj fj (frequenza relativa) Scarso 3 0,15 Sufficiente 8 0,4 Buono 2 0,1 Ottimo 7 0,35 16 Spezzata di graduazione Esempio N= 5 individui X= statura (cm) Si calcola il punto 3,7 attraverso la geometria analitica Equazione retta passante per 2 punti A(3,162) e B(4,170) 1 : 0,7 = 8 : x (distanza tra un punto e l’altro) : (parte non intera del punto desiderato) = (distanza tra rilevazione precedente e successiva) : x = (170-162) * 0,7 = 5,6 = 162 + 5,6 = 167,60 Osservazioni che occupano posizioni non intere x(i+h) i= intero, h=decimale x(i+h) = x(i) + h * (x(i+1) - x(i)) i xi (identifica un’osservazione) x(i) 1 170 160 2 160 161 3 175 162 4 162 170 5 161 175 19 150 155 160 165 170 175 1 2 3 4 5 Quartili, Decili, (per)centili Ogni quartile divide la distribuzione in quattro parti uguali Stessa cosa per i decili (10 parti) e i centili (100 parti) Esempio N= 10 neonati X= peso Q1 = ? Pos(Q1) = 10+1 / 4 = 2,75 (posizione del quartile) Q1= x(2) + 0,75 * (x(3) - x(2)) = 2,7 + 0,75 * (0,1) = 2,775 Me = ? Pos(Me) = 10+1 / 2 = 5,5 Me = x(5) + 0,5 * (x(6) - x(5)) = 3,2 + 0,5 * (0,1) = 3,25 Q3 = ? Pos(Q3) = 3 * 10+1 /4 = 8,25 Q3= x(3) + 0,25 (x(9) - x(8)) = 4 + 0,25 * (0,15) = 4,0375 C(38) = ? Pos(C38) = 38 * 10+1 / 100 = 4,18 C38 = x(4) + 0,18 (x(5) - x(4)) = 3,2 + 0,18 (0) = 3,2 i x(i) 1 2,5 2 2,7 3 2,8 4 3,2 5 3,2 6 3,3 7 3,5 8 4,0 9 4,15 10 4,2 20 Q1 Q3 Me = Q2 Mediana nel caso di distribuzioni di frequenze Esempio N = 25 studenti X = N. Fratelli Me = ? Pos(Me) = 25+1 / 2 = 13 Me = 1 All’incirca la metà degli studenti ha un fratello Ci si ferma quando la prima frequenza cumulata è maggiore della posizione della mediana Esempio 2 N = 100 operai X = giorni ritardo Me= ? Pos(Me) = N+1 / 2 = 101/2 = 50,5 Me = 7 - 9 (si scorpora la classe della mediana nelle sue modalità più piccole e si assegna ad ogni modalità della classe una sua frequenza specifica) Me = 7 All’ incirca la metà degli operai hanno fatto un ritardo minore uguale a 7 xj nj Cj (frequenze cumulate) Posizioni 0 11 11 1 - 11 1 6 17 12 - 17 2 7 24 18 - 24 4 1 25 25 Classi nj Cj (frequenze cumulate) 0 - 2 27 27 3 - 6 15 42 7 - 9 36 78 10 - 20 22 100 Modalità F. specifica 36/3 F. cumulata 7 12 42 + 12 = 54 8 12 66 9 12 78 21 Formula: osservazione che occupa la posizione t • Individuare la classe dove cade la posizione (t)
 Estremo inferiore= lj -
 Frequenza= nj
 Ampiezza= aj —> lj+ , lj-
 
 F. cumulata classe precedente = Cj-1 • Ampiezza intervallino in cui cade una singola unità 
 1/nj = aj/nj
 1/x = 30/6 • Posizioni mancanti
 t - Cj-1 (frequenza cumulata classe precedente)
 33 - 15 • Determinazione del valore del percentile
 1) lj- + (t - Cj-1) aj/nj —> 4 + 18*0,2
 2) lj- + (t - Cj-1) aj/nj - 1/2 aj/nj —> 4 + 18*0,2 - 0,1 Esempio N = 20 clienti X = Distanza (Km) Q3 = ? Pos (Q3) = N+1 / 4 = 21/4 * 3 = 15,75 Q3 = 10 - 30 10 + (15,75 - 12 - 1/2) 20/8 —> 10 + (3,25) 20/8 —> 10 + 8,125 = 18,125 Classi nj Cj (frequenze cumulate) 0 - 3 4 4 3 - 5 3 7 5 - 10 5 12 10 - 30 8 20 24 Mediana (e percentili) per caratteri qualitativi su scala ordinale Esempio N = 151 spettatori X = Giudizio Me = ? Pos(Me)= N+1 / 2 = 152/2 = 76 Mediana = “Mediocre” La mediana non è 76 ma il carattere qualitativo corrispondente alla posizione 76 Media aritmetica Solo per caratteri quantitativi A. Distribuzioni di unità Esempio N= 6 aziende X= N. occupati M= 204 / 6 = 34 Definizione Dati N valori (x1,x2,x3,…,xn), si definisce media aritmetica la quantità M = x1+x2+… + xn / N Modalità xj nj Cj (frequenze cumulate) Scadente 46 46 Mediocre 38 84 Buono 52 136 Ottimo 15 151 Modalità xj (occupati in ogni azienda) 37 22 51 63 25 6 204 25 B. Distribuzioni di frequenze non in classi Esempio N= 25 studenti X= N. fratelli Numero fratelli totale = 6 + 14 + 4 = 24 M = 24/25 = 0,96 Se tutti i 25 avessero lo stesso numero di fratelli; idealmente ciascuno avrebbe 0,96 fratelli Definizione M = x1*n1 + x2*n2 + … + xs*ns / N Media Ponderata Esempio Studente ha sostenuto 3 esami M = (27)*4,5 + (20)*9 + (30)*3 / 16,5 = 23,7273 C. Distribuzioni di frequenze in classi Esempio N= 100 operai X= N. Giorni di ritardo M1 = 712,5 / 100 = 7,125 xj nj Xj * nj 0 11 0 1 6 6 2 7 14 4 1 4 Esame Voto CFU A 27 4,5 B 20 9 C 30 3 77 16,5 Classi nj Punto centrale xj Nj * xj 0 - 2 27 1 27 3 - 6 15 4,5 67,5 7 - 9 36 8 288 10 - 20 22 15 330 Totale 712,5 26 Precisazioni A. Anche la media aritmetica degli scarti è nulla 
 
 
 
 
 
 
 B. La proprietà è specifica della media aritmetica (non vale per le altre medie)
 29 C. Dalla proprietà discende che M1 è sempre una media “interna” (ossia compresa tra il minimo e il massimo dei valori)
 
 
 
 
 
 
 
 
 
 
 30 D. Nel caso di distribuzione di frequenza; la somma deve essere ponderata Esempio N= 25 studenti X= N. Di fratelli 
 
 
 
 
 
 
 II. La media aritmetica minimizza la somma degli scarti al quadrato da un valore (o polo) di riferimento —> proprietà di minimo xi nj Xi - 0,96 (Xi - 0,96) * xj 
[media ponderata] 0 11 -0,96 -10,56 1 6 0,04 0,24 2 7 1,04 7,28 4 1 3,04 3,04 Totale 25 0 31 IV. Proprietà di linearità Se i valori di un carattere X vengono trasformati nei valori di un carattere Y secondo la relazione: Yi = a + bXi (i= 1,…,N) allora tra le medie aritmetiche dei due caratteri sussiste la stessa relazione: M1(Y) = a + b M1(X) Esempio N= 5 acquisti di una materia prima X= Prezzo unitario di acquisto (€/Kg) . In ogni acquisto: - 1000Kg di materia prima - Costo di 20€ per la spedizione (costante) Y = costo per l’acquisto (€) —> (20 + 1000*X) —> (a + b*X) M1 (X) = 44,95 / 5 = 8,99€/Kg M1 (Y) = 45050 / 5 = 9010€ —> 20 + 1000 * M1(X) = 20 + 1000*8,99= 9010€ xi (€/Kg) yi (prezzo*Kg + spedizione) 9,23 9250 9,00 9020 9,05 9070 8,75 8770 8,92 8940 44,95 45050 34 DIMOSTRAZIONE Y = a + b*X —> M1(Y) = a + b * M1(X) Casi particolari 1. a=0 Y= b*X —> M1(y) = b*M1(X) (cambiamento di scala) es. conversione moneta
 
 2. b=1 Y=a + X —> M1(y) = a + M1(X) (traslazione) es. tassa (trasla tutti i redditi di -tassa) 35 Media armonica Dati N valori (X1,X2,..,XN) tali che Xi>0 (i= 1,..,N) si definisce media armonica la quantità M-1 (media armonica) N / somma 1/x1+x2… Esempio N= 4 consumatori X= durata (giorni) confezione pasta Ricavare una media in grado di preservare informazioni sul consumo complessivo in 1 mese (30 giorni) Consumo complessivo = 30 * 1/X1 + 30 * 1/X2 + 30 * 1/X3 + 30 * 1/X4 
 —> 30 * (1/X1 + 1/X2 + 1/X3 + 1/X4) —> 30 * (1/X1 + 1/X2 + 1/X3 + 1/X4) = 30 * (1/M + 1/M + 1/M + 1/M) [M è un’incognita] Calcolo di M-1 sui 4 dati M-1 = 4 / 1/4 + 1/8 + 1/5 + 1/1 = 2,5397gg xi Consumi 4 30 * (1/4) = 7,5 8 30 * (1/8) = 3,75 5 30 * (1/5) = 6 1 30 * (1/1) =30 Totale 47,25 36 Tassi di variazione e tasso di variazione medio X T = z r.b %L 2 Un - TO 13° 41. r_%b 1.6 %b Ah TASSO DI VARIAZIONE 1, Ia Ty I-41- V Vai Va -.... Vin =7 Il > Vi+ 1 HI <] ” 7 N dln TASSO dI { Cue4 4) - 1 VARI AZIONE cei MEDIO “ ) p 39 Esempio Lotteria parrocchiale: serie storica giornaliera del numero di biglietti venduti (37/24)^1/6 - 1 = +0,0142 = + 1,42% Mediamente da un giorno all’altro c’è stato un incremento della vendita dei biglietti dell’ 1,42% Media quadratica Dati N valori X1, X2, …, Xn; tali che Xi>0 (i= 1, …, n) si definisce media quadratica la quantità Esempio N= 6 appezzamenti di terreno (costo pari a 200€/Km2) X= lato dell’appezzamento Qual è la media dei dati che lascia invariato il costo complessivo degli appezzamenti? Giorno N. Biglietti Lunedì 24 Martedì 29 Mercoledì 17 Giovedì 31 Venerdì 28 Sabato 35 Domenica 37 Xi 10,2 12 11,7 9,2 10,3 12 40 Costo 1° appezzamento = (10,2 ^ 2) * 200 41 Misure di variabilità Esempio 2 studenti, ognuno ha sostenuto 5 esami Stud. 1= 26, 25, 24, 24, 26 M1= 25 Me= 25 Stud. 2= 25, 30, 27, 20, 23 M1= 25 Me= 25 Per variabilità si intende l’attitudine di un carattere quantitativo ad assumere valori diversi In una distribuzione si ha assenza di variabilità quando i valori osservati sono tutti uguali tra loro: x1=x2=x3=…=xn Tutte le medie coincidono e sono uguali al valore costante Misure di variabilità: - Indici assoluti (stessa unità di misura del carattere)
 
 1) Indici basati sulla differenza tra valori che occupano determinate posizioni (intervalli di variazione)
 
 Xn - X1 (campo di variazione; differenza tra valore più grande e il valore più piccolo)
 
 Q3 - Q1 (differenza interquartile, differenza tra il terzo quartile e il primo quartile)
 
 D9 - D1 (differenza interdecile, differenza tra il primo decile e il nono decile)
 Esempio N= 45 clienti di un supermercato X= valore del buono sconto utilizzato Xn - X1 = 15 - 5 = 10€ (tutti i miei dati stanno in un intervallo di 10€) Q3 - Q1= 10 - 10 = 0 Pos(Q1) = 45+1 /4 = 11,5 Q1= 10 Pos(Q3) = (45+1 / 4) * 3 = 34,5 Q3= 10 D9 - D1 = …… = 10€
 
 
 
 Xi Nj Cj 5 10 10 10 25 35 15 10 45 44 2) Indici basati su medie degli scostamenti (o scarti) da un valore medio (SCOSTAMENTI MEDI) Esempio N= 5 soggetti X= statura (cm) M1= 170,2 Me= 170 SMe= 15/5 = 3cm (mediamente ogni sogg. ha una statura che si discosta dalla mediana di 3 cm) SM1= 15,2 / 5 = 3,04cm (mediamente ogni sogg. ha una statura che si discosta dalla media aritm. di 3,4cm) 
 (mediamente ogni sogg. ha una statura che si discosta dalla media aritm. di 3,54cm) Xi |Xi - 170| |Xi - 170,2| |Xi - 170,2| ^2 173 3 2,8 7,84 165 5 5,2 27,04 168 2 2,2 4,84 170 0 0,2 0,04 175 5 4,8 23,04 Totale 15 15,2 62,8 (devianza) 45 Procedimento diretto n N o= || {= (x-_m) N 31 N _ 2 Nar (x)- 0î- £ Cac- rta) VARIANZA NO C5£ ad | 2 VIAN2A der) Ne D (1) bevi Usi Devianza= 62,8 Varianza= 12,56 Procedimento indiretto N dev DÒ) + DM N10 1 46 Formule (distribuzione di frequenze) A z —_— ‘- N ° Sie - z | %- tre | S | | S 2 da 2° x - Ma Ma N Ji v Mm d 49 Esempio 2 (con distribuzioni in classi) N= 20 clienti X= distanza (Km) M1 = 10,775 Me= 8 SMe= 136,5 / 20= 6,825 Km (mediamente i risultati si discostano dalla mediana di 6,825Km)
 - Indici relativi (non hanno unità di misura, numeri “puri”; si usano nei confronti) Classi Nj Xj | Xj - 8 | | Xj - 8 | * Nj Xj^2 * Nj 0 - 3 4 1,5 6,5 26 9 3 - 5 3 4 4 12 5 - 10 5 7,5 0,5 2,5 281,25 10 - 30 8 20 12 96 3200 Totale 20 23 136,5 3538,25 50 Proprietà della varianza I. Scomposizione della varianza La varianza di più gruppi parziali è uguale alla media aritmetica delle varianze parziali (ponderata con le numerosità dei gruppi) sommata alla varianza fra le medie parziali Esempio N= 73 studenti X= Voto di maturità (centesimi) Seziona A= 27 Sezione B= 22 Sezione C= 24 Media totale= 75*27 + 80,5*22 + 65,25*24 / 73 = 73,4520 Varianza nei gruppi= 25*27 + 23,9*22 + 30*24 / 73 = 26,3123 
 (l’attitudine dei dati a differire dalla media del proprio gruppo) Varianza fra i gruppi= (75 - 73,452)^2 * 27 + (80,5 - 73,452)^2 * 22 + (65,25 - 73,452)^2 * 24 / 73 = 37,9737 (l’attitudine a differire dalla media tendendo conto dell’appartenenza a diversi gruppi) Varianza totale = 26,3123 + 37,9737 = 64,2860 26,3123 / 64,2860 = 0,4093 —> 40,93% 37,9737 / 64,2860 = 0,5907 —> 59,07% La varianza totale è composta principalmente dalla varianza fra i gruppi Simboli Sezione Numerosità Media aritmetica parziale Varianza parziale A 27 75 25 B 22 80,5 23,9 C 24 65,25 30 51 Generalizzando Distribuzione di unità: x1, x2, x3,…,xn Formule x1 x2 … xj xn x1 x2 … xi | xi - xj | Xn 54 Esempio (continua) S= 2 * 50 = 100 Differenze medie nel caso di distribuzione di frequenze Esempio N= 25 alunni X= voto in una prova (decimi) () —> numero delle volte in cui è ripetuto quel confronto (numerosità 1° voto * numerosità 2° voto) I x(i) 2i -N -1 x(i) [2i -N -1] 1 165 2(1) -5 -1 = -4 165 * -4 = -660 2 168 2(2) -5 -1 = -2 -336 3 170 2(3) -5 -1 = 0 0 4 173 2(4) -5 -1 = +2 346 5 175 2(5) -5 -1 = +4 700 Totale 50 Xj Nj 4 2 5 3 6 7 7 12 9 1 4 5 6 7 9 4 0 1 (6) 2 3 5 5 1 0 1 2 4 (3) 6 2 1 0 1 3 7 3 2 (36) 1 0 2 (12) 9 5 4 3 2 0 55 Esempio (continua) S= 2*350 = 700 Xj Nj Cj 2Cj -N -Nj Xj*Nj * [2Cj -N -Nj] 4 2 2 2(2) -25 -2 = -23 4*2*-23 = -184 5 3 5 2(5) -25 -3 = -18 -270 6 7 12 2(12) -25 -7 = -8 -336 7 12 24 2(24) -25 -12 = 11 924 9 1 25 2(25) -25 -1 = 24 216 Totale 350 56 Indice di Bonferroni N unità e N valori ordinati X(1) <= X(2) <= …. <= X(n) - Media aritmetica generale (o totale) - “Reddito” cumulato del gruppo inferiore - Media del “reddito” del gruppo inferiore (media inferiore) Esempio bisogna riordinare i dati N= 5 individui X= reddito mensile (migliaia di €) I X(i) Qi(X) Mi-(X) = Qi(X)/i Mi-(X) / M 1 2 2 2/1 = 2 2/16= 0,125 2 6 8 8/2 = 4 4/16= 0,25 3 13 21 21/3= 7 7/16= 0,4375 4 19 40 40/4= 10 10/16= 0,625 5 40 80 80/5= 16 16/16= 1 Totale 80 59 Gruppo inferiore Ho Rakporti c H VU Io, au mo & Gua siae capedo i KW) 14- ) oli Au Cuoco M M- ne) M BONFERRONI N V(x) = dA_ Do Vì (x) - N C=4 N °C = 4 Do 41_- H > = N cal M Esempio (continua) V(x) = 2,5625 / 5 = 0,5125 2,4375 / 5 = 0,4875 V(x) = 1 - 0,4875 = 0,5125 Esempio in equiripartizione V(x) = 0 / 5 = 0 Esempio in massima concentrazione V(x) = 4 / 5 = 0,8 In generale —> 0 <= V(x) <= N-1/N I X(i) Mi-(X) / M Vi(X) 1 2 2/16= 0,125 1-0,125= 0,875 2 6 4/16= 0,25 1-0,25 = 0,75 3 13 7/16= 0,4375 1-0,4375 = 0,5625 4 19 10/16= 0,625 1-0,625 = 0,375 5 40 16/16= 1 1-1 = 0 Totale 80 2,4375 2,5625 I X(i) Qi(x) Mi-(X) Mi-(X) / M Vi(X) 1 16 16 16 16/16= 1 1-1 = 0 2 16 32 16 16/16= 1 1-1 = 0 3 16 48 16 16/16= 1 1-1 = 0 4 16 64 16 16/16= 1 1-1 = 0 5 16 80 16 16/16= 1 1-1 = 0 Totale 80 5 0 I X(i) Qi(x) Mi-(X) Mi-(X) / M Vi(X) 1 0 0 0 0/16= 0 1-0 = 1 2 0 0 0 0/16= 0 1-0 = 1 3 0 0 0 0/16= 0 1-0 = 1 4 0 0 0 0/16= 0 1-0 = 1 5 80 80 16 16/16= 1 1-1 = 0 Totale 80 1 4 61 Indice di Zenga Esempio (continua) N= 5 redditieri X= reddito (migliaia di €) In generale I X(i) Qi (x) Mi+(X) (medie superiori) 1 2 2 (80-2) / 4 = 19,5 2 6 8 (80-8) / 3 = 24 3 13 21 (80-21) / 2 = 29,5 4 19 40 (80-40) / 1 = 40 5 40 80 40 / 1 = 40 Totale 80 64 Zenga: Esempio (continua) I(x) = 3,8434 / 5 = 0,7687 I(x) = 1 - 1,1566/5 = 1 - 0,2313 = 0,7687 I Mi- (x) Mi+ (x) Mi- (x) / Mi+ (x) Ii(x) = 1 - Mi- (x) / Mi+ (x) 1 2 19,5 0,1026 0,8974 2 4 24 0,1667 0,8333 3 7 29,5 0,2373 0,7627 4 10 40 0,25 0,75 5 16 40 0,4 0,6 Totale 80 1,1566 3,8434 65 Equiripartizione I(x) = 1 - 5 / 5 = 0 Massima concentrazione I(x) = 1 - 0,2 / 5 = 0,96 In generale I X(i) Mi- (x) Mi+ (x) Mi- (x) / Mi+ (x) 1 16 16 16 1 2 16 16 16 1 3 16 16 16 1 4 16 16 16 1 5 16 16 16 1 Totale 80 5 I X(i) Mi- (x) Mi+ (x) Mi- (x) / Mi+ (x) 1 0 0 80/4 = 20 0 2 0 0 80 / 3 = 26,666 0 3 0 0 80 / 2 = 40 0 4 0 0 80 / 1 = 80 0 5 80 16 80 / 1 = 80 0,2 Totale 80 0,2 66 Viceversa, se i valori vengono diminuiti di una stessa quantità, l’indice deve aumentare 5) L’indice deve essere sensibile ai trasferimenti 69 Asimmetria I. Simmetria (o asimmetria) di due valori Definizione Due valori xi e xj (con xi < xj) sono simmetrici rispetto ad M se 70 Asimmetria (positiva) Asimmetria (negativa) (Xj - M) - (M - Xi) = 0 —> Xi + Xj - 2M (Asimmetria puntuale) II. N valori (X1, X2,…, Xn) X(1) <= X(2) <= X(3) <=….. <= X(n) Confronti: X(1) e X(n) X(2) e X(n-1) X(3) e X(n-2) .. .. X(i) e X(n-i+1) 
 71 DIMOSTRAZIONE 1) Simmetria —> M=Me N dispari Ni (M)-0 Ca N44 To ugo va > _ ’ , Aa (n) =0 Co 2 4% 74 Ul A Cn) - 0 c> 1 a To ugo la n np Au (n) - 0 Cioe) z % + x _ 2 = 0 (E) (N-H 44) — Nair Y n N a 7) esi vi _N PE " è nr 75 Ac (#)=0 Ca 1,- N N =? DI AÙ (1) =0 c=d N % _ 22M ] = 0 2. CO w-04a) 4 N ST _2NM =©O o Ot a nas? ——_— ___@— N v Lr > % dad 34 76 Interpolazione 
 Esempio Serie storica del fatturato di un’azienda (milioni di €), periodo 2003-2007 Anno Fatturato 2003 23,2 2004 25,7 2005 26,1 2006 28,2 2007 29,9 2008 ??? Totale 79 22,5 25 27,5 30 2003 2004 2005 2006 2007 Problema dell’interpolazione Date N coppie di valori (X1, Y1) (X2, Y2) …… (Xn, Yn) E data una funzione matematica f(x, a0, a1, …., ak) dipendente da K + 1 parametri, si tratta di assegnare un valore ad essi in modo che le ordinate degli N punti siano sostituibili con le ordinate teoriche Yi = f(xi, a0, a1, …, ak) Interpolazione per punti noti Limitazioni: - Il numero di parametri deve coincidere con il numero di punti (K + 1 = N) - Si può applicare solo se si hanno pochi punti 80 Esempio Serie storica del numero di opere non scolastiche pubblicate in Lombardia (1981 - 1985) X= N. Anni trascorsi dal 1981 Y= N. Opere Funzione interpolante: Anno Opere 1981 7900 1983 7787 1985 8262 81 Formule semplificate (procedimento indiretto) » 2 4 2 pa bu(d e 3 (Dia MN 341 tod (x) = > Ce) (4-7) = ® è I z. x) Sì N 2.03 U= 1 DIMOSTRAZIONE N 7 7 _ —. > [ug-Xowp-TmaXT]- c=t Ss __ N 7 N 37 7 - X -1ITM4NX 2, 2, 2, + _ L_ I NY Nx 84 Esempio N=5 catene di distribuzione X= spese pubblicitarie effettuate nello scorso mese (migliaia di €) Y= fatturato realizzato nello scorso mese (milioni di €) X(medio) = 2282 / 5 = 456,4 Y(medio) = 138,4 / 5 = 27,68 Covarianza(x,y)= 64192,6 / 5 - (456,4) * (27,68) = 205,368 a(x)(varianza)= 1047334 / 5 - (456,4)^2 = 1165,84 a1= 205,368 / 1165,84 = 0,1761 a0 = 27,68 - (0,1761) * (456,4) = -52,6920 Xi Yi xi ^2 xi * yi 420 21,7 176400 9114 415 20,2 172225 8383 470 30,6 220900 14383 472 29,3 222784 13829,6 505 36,6 255025 18438 2282 138,4 1047334 64192,6 85 Metodo dei minimi quadrati —> minimizzare le differenze (residui) 86 (se si assegnano dei pesi ai valori non è detto che la loro somma sia zero, ma questa proprietà lo conferma) DIMOSTRAZIONE 89 Bontà d’adattamento della retta a minimi quadrati Esempio N=5 catene di distribuzione X= spese pubblicitarie effettuate nello scorso mese (migliaia di €) Y= fatturato realizzato nello scorso mese (milioni di €) Y(cappuccio) = -52,6920 + 0,1761x A1 = 2,6332 / 5 = 0,5266 A1’ = A1 / Y(medio) = 0,5266 / 27,68 = 0,0190 —> 1,90% (L’errore medio rappresenta l’1,90% della media di Y) A2 = √1,8977 / 5 = 0,6161 A2’ = 0,6161 / 27,68 = 0,0223 —> 2,23% (L’errore medio rappresenta l’2,23% della media di Y) Xi Yi yi ^ Yi - Yi^ | Yi - Yi^ | (Yi - Yi^)^2 415 20,2 20,3895 -0,1895 0,1895 0,0359 420 21,7 21,27 0,43 0,43 0,1846 470 30,6 30,075 0,525 0,525 0,2756 472 29,3 30,4272 -1,1272 1,1272 1,2706 505 36,6 36,2385 0,3615 0,3615 0,1307 2282 138,4 138,4 0 2,6332 1,8977 90 Scomposizione della devianza totale È (wo Ga È I) CUL —T— ———_— . N evioure dele) cranza DEVIANZA DEVI AW2A RESIDVA SPIEGATA TOTALE Nun AZ 2 DEV. SPIEGNA (4-9) T do 3 = Mii Dev, TOTALE w -\2 (4-7) 1 COEFFICIENTE DI DETERNMINA2IO NE o<Ti < 1 91 @ TU [GA Gal? [cn (xl ° De (x) « dev (4) ox) è 04) 72 È (A -1)° (i) . de G) A > x (4-7)? Dw (4) >1 (a) de CÒ dev (4) (cod (4) DG Crw Cd pw (1) (coat (41° e Dev (x) dev) £— 2 z [cov DI? 2 — —__T_————___ 0°) - 0° (4) 94 Distribuzioni di frequenze bivariate/bidimensionali Esempio N=20 clienti a=priorità b=giudizio In generale: nij = frequenze assolute congiunte i=1,..,r j=1,..,c ni.= frequenze assolute marginali di B n.j= frequenze assolute marginali di A B/A Prezzo Qualità Assistenza Tempo Totale Scarso 1 2 0 0 3 Sufficiente 3 4 1 0 8 Buono 0 1 1 0 2 Ottimo 1 3 1 2 7 Totale 5 10 3 2 20 B/A a1 a2 … aj … ac Totale b1 n11 n12 … n1j … n1c n1. b2 n21 n22 … n2j … n2c n2. … … … … … … … … bi ni1 ni2 … nij … nic ni. … … … … … … … … br nr1 nr2 … nrj … nrc nr. Totale n.1 n.2 … n.j … n.c N 95 Distribuzioni marginali e distribuzioni parziali Esempio N=20 clienti a=priorità b=giudizio 1. Distribuzioni marginali
 - Distribuzione marginale di A
 - Distribuzione marginale di B B/A Prezzo Qualità Assistenza Tempo Totale Scarso 1 2 0 0 3 Sufficiente 3 4 1 0 8 Buono 0 1 1 0 2 Ottimo 1 3 1 2 7 Totale 5 10 3 2 20 Aj n.j f.j Prezzo 5 5/20= 0,25 Qualità 10 10/20= 0,5 Assistenza 3 3/20= 0,15 Tempo 2 2/20= 0,10 Totale 20 1 Bj ni. fi. Scarso 3 3/20= 0,15 Sufficiente 8 8/20= 0,4 Buono 2 2/20= 0,10 Ottimo 7 7/20= 0,35 Totale 20 1 96
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved