Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica riassunto capito 1, Appunti di Statistica

Riassunto statistica capitolo uno unimercatorum

Tipologia: Appunti

2023/2024

Caricato il 02/07/2024

achiropita-sapia
achiropita-sapia 🇮🇹

1 / 70

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Statistica riassunto capito 1 e più Appunti in PDF di Statistica solo su Docsity! CAPITOLO 1: “INTRODUZIONE ALLA STATISTICA” 1. Introduzione La statistica è una metodologia strumentale per l’analisi della realtà. Essa, a differenza della Medicina, della Giurisprudenza e dell’Ingegneria non affronta i casi singoli nel quadro di normative o leggi generali; essa cerca di arrivare a leggi generali a partire dalla conoscenza aggregata di tanti casi accomunati da regole e definizioni. La statistica ci offre gli strumenti per organizzare, riassumere, analizzare i dati ottenuti attraverso le nostre misurazioni. La Statistica si divide in due grandi aree:  la statistica descrittiva: organizza, riassume i dati. Si usa per la descrizione e la presentazione dei dati (utili per capire quanto sono forti le relazioni osservate);  la statistica inferenziale: fa previsioni, testa ipotesi. Ha lo scopo di dedurre (inferire) le caratteristiche dell’intera popolazione a partire da dati raccolti (utili per capire se le relazioni sono dovute al caso o no). 2 Alcuni concetti di base La popolazione (o universo) è qualsiasi insieme di elementi che forma l’oggetto di uno studio statistico. Vantaggi: ricerca accurata. Svantaggi: tempi lunghi, costosa e non sempre possibile (alcune volte la popolazione può essere infinita o inaccessibile). Il campione: comprende solo una parte della Popolazione; esso è un sottoinsieme della popolazione composto da n partecipanti, tutti con la stessa caratteristica oggetto della ricerca. È indispensabile che sia rappresentativo della popolazione. Un campione è rappresentativo se i partecipanti alla ricerca riflettono le caratteristiche dell’intera popolazione. Per ottenere un campione rappresentativo si può: 1. Utilizzare un campione abbastanza ampio (elevata numerosità) per avere dei risultati generalizzabili; 2. Utilizzare una selezione casuale, ossia tutti i substrati della popolazione devono avere la stessa probabilità di essere selezionati per far parte del campione. 3 Principali metodi di campionamento Il campionamento può essere: • Stratificato, ossia si divide la popolazione in sottogruppi omogenei e da ciascuno si estrae un campione casuale (es. Divido gli studenti in base all'età ed estraggo un campione in base alla fascia di età considerata); • A blocchi, ossia si raggruppa la popolazione in cluster e si fa un campionamento (es. Si divide una città in settori, e su questi si svolge l'indagine). • Sistematico, ossia si seleziona un elemento ogni k elementi successivi (es. Intervistare un soggetto ogni trenta persone che escono). La statistica, quindi, permette di fare deduzioni ed induzioni dal particolare al generale. CAPITOLO 2 - “L’INDAGINE STATISTICA” 1. Fasi di una indagine statistica Le fasi di una indagine statistica si conviene siano le seguenti:  Definizione degli obiettivi della ricerca  Rilevazione dei dati  Elaborazione metodologica (i software più usati oggi sono SAS ed SPSS)  Presentazione ed interpretazione dei risultati  Utilizzazione dei risultati della ricerca 2. Rilevazione statistica La rilevazione statistica è il complesso di operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio e con riferimento al collettivo da analizzare essi si dividono in:  globali (censimenti)  parziali (rilevazioni campionarie). L' unità statistica è l'elemento base della popolazione sul quale viene effettuata la rilevazione (es. la famiglia). Il carattere è il fenomeno oggetto di studio e può essere:  qualitativo (es. il sesso, maschio o femmina);  quantitativo (es. l'unità). La modalità è il numero (per i caratteri quantitativi) o l’attributo (per i caratteri qualitativi) che l’unità statistica manifesta. Un carattere quantitativo si definisce variabile se assume numeri reali per modalità, mentre un carattere qualitativo si definisce mutabile se assume attributi non numerici. 3. Concetto di variabile statistica Variabile: caratteristica che varia tra i partecipanti alla ricerca. Assume tra i partecipanti valori diversi. L’interesse del ricercatore è quello di prendere in esame queste proprietà che variano e la statistica è lo strumento che consente di trarre delle informazioni a partire da questa variabilità. Le variabili (carattere) possono essere:  Continue (altezza, temperatura, età, peso) ossia sono quelle capaci di assumere qualsiasi valore contenuto in un intervallo reale predefinito;  Discrete quello che ha per modalità i numeri naturali (1,2 etc., lanci di un dado, numeri di figli); In relazione alle loro caratteristiche: 1. Qualitative: è caratterizzata da specifiche categorie (es. sesso di una persona: maschio o femmina). 2. Quantitative: è caratterizzata da valori che esprimono in termini quantitativi la proprietà definita da quella variabile (es. altezza di una persona...). In base alla loro relazione:  Variabile indipendente (causa): ciò che viene manipolato dallo sperimentatore o dalla natura o dagli eventi o propria del campione. Si parla anche di predittore, intendendo il fattore che predice una determinata variazione.  Variabile dipendente (effetto): ciò che risulta dall’impatto della variabile indipendente. Misurata sul campione, la sua variazione è legata al variare della variabile indipendente. o Non esiste la possibilità̀ di ordinare le modalità o Esempio: Sesso, professione – Scala ordinale o Le modalità sono ordinabili o La distanza tra le modalità non ha alcun significato o Esempio: Titolo di studio – Scala ad intervalli o Le scale ad intervallo sono quelle che assumono uno zero arbitrario che rappresenta una convenzione e non l’assoluta assenza del fenomeno. o Le modalità costituiscono un insieme numerico ordinato o Ha senso solo effettuare confronti per differenza tra le modalità. o Esempio: La Temperatura. La misurazione può avvenire con la scala Celsius o Fahrenheit – Scala di rapporti o Le scale di rapporto sono quelle che assumono uno zero assoluto che indica l’assoluta assenza del fenomeno. o Esiste uno zero assoluto e ha senso o Si possono definire sia i rapporti che i prodotti. o Ha senso dire “abbiamo avuto il doppio di ordini rispetto all’ultimo mese”. CAPITOLO 4 - FREQUENZA E DISTRIBUZIONE STATISTICA” 1. La Frequenza Quando si raccolgono dei dati su una popolazione o su un campione, i valori ottenuti si presentano allo statistico come un insieme di dati disordinati; i dati che non sono organizzati, sintetizzati o elaborati sono chiamati dati grezzi. Si definisce frequenza fi il numero delle unità di un carattere che presentano la stessa modalità. Esistono due tipi di frequenze:  assoluta – il numero delle volte ni, in cui la modalità xi è stata osservata. 1. relativa – è il rapporto tra la frequenza assoluta ni e il totale delle n frequenze. fi = ni/n con 0 ≤ fi ≤1 Frequenze cumulate C, corrispondenti al valore di xi, è la somma delle frequenze assolute o relative dalla prima modalità fino a comprendere quella xi. Frequenze assolute cumulative: Frequenze relative cumulative: C1 = n1 F1 = f1 C2 = n1 + n2 F2 = f1 + f2 . . . . Ck = n1 + n2 +...+ nk = x Fk = f1 + f2 +...+ fk = 1 [65|[69]-[5a]-18e Frequenze renze cumulate assolute | relatve ] parcentuali]] | assolute | relative gennaio 0.12 117% 6 0412 117% febbraio. 011 113% 126 023 23,0% marzo 04 10,4% H{785] 0,33 33,5% apile si 0,09 92% 297 043 426% maggio | 46 008 8186 282 081 507% giugno | 41 cer 14% 23 0,58 58,1% luglio 2 004 41% 346 0682 622% agosto | 12 002 22% 386 064 644% settembre | 31 006 5,6% 389 UL 70,0% ottobre | 47 008 85% 436 078 784% novembre | 56 oi 10,1% 492 0.88 885% dicembre |_64 012 11,5% 566 i 100,0% 566 1 10,00%  Le distribuzioni statistiche La classificazione delle unità statistiche (ossia le unità elementari oggetto di osservazione e di studio) secondo la modalità di uno o più caratteri e la conseguente tabellazione dei risultati dell’indagine oggetto di studio da luogo alle distribuzioni statistiche: 2. Distribuzioni di unità: una elencazione degli attributi con la quale ciascun carattere si presenta 3. Distribuzioni di quantità: se esprime l’intensità di un carattere 4. Distribuzioni di frequenza: se esprimono il numero di volte in cui una modalità di un carattere si presenta  La distribuzione in classi Se la variabile statistica presenta numerose modalità è conveniente un accorpamento delle stesse. Quindi quando i dati sono numerosi conviene procedere ad una suddivisione in classi del carattere. Se il carattere quantitativo è discreto (ha per modalità i numeri naturali 0,1,2,3,4..., es. numero di figli) tale operazione risponde ad una necessita pratica, mentre se è continuo (ha per modalità tutti i valori compresi in un certo intervallo, es. l’altezza) è un’operazione indispensabile in quanto i valori della variabile sono infiniti ed è impossibile elencarli tutti. Classi Frequenze x0 - x1 - . . . xi-1 - . . . xk-1 - x1 x2 xi xk n1 n2 . . . ni . . . nk n x0 = è la modalità più piccola = x min xi - 1= estremo inferiore della classe x i xi = estremo superiore della classe xk = è la modalità più grande = x max La classe è aperta se entrambi gli estremi sono esclusi (-); La classe è chiusa a sinistra se solo l’estremo sinistro è incluso ( |- ); La classe è chiusa a destra se solo l’estremo destro è incluso ( -| ); La classe è chiusa se entrambi gli estremi sono inclusi ( |-| ); L’ampiezza delle classi è differenza tra estremo superiore e inferiore hi = xi – xi-1 La densità di frequenza è il rapporto tra la frequenza e l’ampiezza della classe d i = ni / hi Il valore centrale è la semisomma dei due estremi: VC = (xi+xi-1) / 2 La stima dell’ammontare di una classe è il prodotto del valore centrale della classe e della sua frequenza: VC * ni 1. Le classi hanno la stessa ampiezza: preso un sistema di assi cartesiani, sull’asse delle ascisse si riportano tanti intervalli di ampiezza uguale e contigui quante sono le classi della distribuzione. Sull’ asse delle ordinate si riportano le relative frequenze. Si ottengono così tanti rettangoli aventi stessa base, uguale all’ampiezza dell’intervallo e altezza uguale o proporzionale alle relative frequenze. 2. Le classi non hanno la stessa ampiezza: in tal caso si avranno tanti rettangoli contigui aventi diversa base, tale base sarà uguale all’ampiezza della classe e l’altezza uguale alla densità di frequenza: di = ni/hi 1: 2: Box-Plot (diagramma a scatola) Fornisce informazioni su: • Scala di misura della variabile statistica; • Sulla variabilità; • Simmetria/asimmetria; • Lunghezza delle code della distribuzione; • Valori anomali; Per la costruzione del Box-Plot si utilizzano i seguenti valori caratteristici: • xmin • Q1 • Med • Q3 • xmax Per il grafico si utilizzano: • Un rettangolo o “scatola” le cui basi sono parallele ad una scala di misura e uguali a Q3 - Q1. All’interno del rettangolo sono contenute il 50% delle osservazioni. • Una linea posta all’interno del rettangolo che indica la posizione della mediana. • Due segmenti che partono dai quartili (Q) e i cui estremi sono dati dai valori estremi della distribuzione, xmin e xmax, purché non ci siano valori anomali. CAPITOLO 6 “LE RELAZIONI STATISTICHE” 1. Le relazioni statistiche: indipendenza assoluta Lo studio delle relazioni esistenti tra due variabili parte dal concetto di indipendenza. Due variabili statistiche sono indipendenti se le modalità di una non influenzano le modalità dell'altra. Se invece c’è dipendenza, le variabili si dicono connesse. Distinguiamo tre concetti di indipendenza: 1. Indipendenza assoluta 2. Indipendenza in media 3. Indipendenza correlativa Se si ha indipendenza assoluta tra due variabili statistiche allora si verifica la seguente relazione: frequenze osservate = frequenze teoriche nij = (ni· * n·j) / n ni· si legge: n i punto Si dirà che la variabile y è connessa a x, nel caso in cui la distribuzione relativa della y varia al variare delle modalità della x, o equivalentemente: frequenze osservate ≠ frequenze teoriche nij ≠ (ni· * n·j) / n La frequenza teorica è il prodotto ciascun totale di righe per il totale di colonne diviso n. nij* = (ni· * n·j) / n nij* frequenza teorica, si legge: n i j asterisco ni· totale di riga n·j totale di colonna Si chiamano contingenze la differenza tra le frequenze osservate e quelle teoriche. Cij = nij - nij* La somma delle contingenze di ciascuna riga e di ciascuna colonna sono nulle. 2. Le relazioni statistiche: indice di connessione chi-quadrato Un indice assoluto di connessione è il chi-quadro di Pearson che è un indice simmetrico. Esso si annulla nel caso di connessione nulla, ossia quando le variabili sono indipendenti. x2 = DOPPIA SOMMATORIA per i che va da 1 a r e per j che va da 1 a c di (c2ij / n*ij) Tale indice rappresenta l’allontanamento dei dati dall’ipotesi d’indipendenza ma ha un limite poiché dipende da n, quindi se raddoppia n l’indice raddoppia. Per questo motivo Pearson ha proposto un indice di contingenza quadratico medio, che ci indica la connessione tra i caratteri. Φ2 = x2 / n indice di contingenza quadratico medio max(x2) = n[min (r − 1; c − 1)] Φ phi quadrato r righe c colonne Un altro indice relativo di connessione è l’indice di Cramer che varia tra 0 e 1. Indice di Cramer φ2 = Φ2 / [min (r − 1; c − 1)] L’indipendenza assoluta è valutata dal chi-quadrato di Pearson (x2) e possiamo applicarle per: 1. tabelle di correlazioni (due variabili quantitative). 2. le tabelle di contingenza (due variabili qualitative); 3. tabelle miste; 3. Esempio chi-quadrato x Y Y1 Y2 Y3 TOTALE X1 2 5 15 22 X2 4 14 10 28 X3 7 6 12 25 TOTALE 13 25 37 75 Costruiamo la tabella delle frequenze teoriche: (22*13) / 75 = 3,813 (22*25) / 75 = 7,333 (22*37) / 75 = 10,853 22 4.85 9.33 13.81 28 4.33 8.33 12.33 25 13 25 37 75 Tabella di contingenza: 2 – 3,813 = – 1,813 5 – 7,333 = – 2,333 15 – 10,853 = 4,147 0 – 0,853 4.67 – 3,813 0 2.67 – 2,333 – 0,333 0 0 0 0 Dalla tabella di contingenza si evince che la somma algebrica delle contingenze di una riga o di una colonna è nulla. Calcolando l’indice di Cramer (0,06) si evince una bassa correlazione tra i 2 caratteri. 4km * (1 / 60 km/h) + 3km * (1 / 48 km/h) + 2km * (1 / 56 km/h) La velocità media è la media armonica della velocità ponderata della lunghezza dei tratti percorsi: v = 9 / (4/60 + 3/48 + 2/568) = 54,58km/h 7. La media quadratica La media quadratica è data dalla radice quadrata della media aritmetica dei quadrati degli n termini (è particolarmente usata se in presenza di valori positivi e negativi e si vogliono eliminare i segni). Mq = radice quadrata (∑n i=1 x2 i / N) Esempio. Su un campione di 5 bottiglie d’acqua minerale sono stati effettuati dei controlli sul peso in grammi. Le differenze, rispetto a quanto dichiarato dalla casa produttrice, sono evidenziate in tabella. Calcolare la media delle differenze riscontrate. Bottiglie Differenze xi2 1 -2 4 = (- 2) al quadrato 2 -5 25 3 3 9 4 2 4 5 -3 9 Media quadratica Radice quadrata 4+25+9+4+9 / 5 = 3,19 Tra le medie sussiste la seguente relazione: xmin ≤ Mh ≤ Mg ≤ x ≤ Mq ≤ xmax CAPITOLO 8 “LE MEDIE DI POSIZIONE” 1. Le medie di posizione: la mediana La mediana è quel valore che suddivide la distribuzione, ordinata in senso non decrescente, in due parti, lasciando un numero uguale di termini a destra e a sinistra del valore mediano. È possibile calcolarla per carattere quantitativi e per i caratteri qualitativi rettilinei. Si distinguono tre casi:  Distribuzioni di unità  Distribuzioni di frequenza  Distribuzioni in classi La distribuzione per unità se il numero dei termini è:  Pari Med = (Pos n/2 + Pos n/2+1) /2  Dispari Med = Pos (n+1) /2 Esempio: n = Pos = 8 (pari) n/2 = 4 n/2 + 1 = 5 La Med si deve trovare quindi tra la 4 e la 5 posizione Med = 21 + 23 / 2 = 22. Se avessimo avuto 7 Pos (dispari) la Med sarebbe stata nella Pos 4 = 21 Pos Voto di statistica 1 18 2 18 3 20 4 21 5 23 6 23 7 23 8 24 Distribuzioni di frequenza: si calcolano le frequenze relative cumulate, la mediana corrisponderà al valore xi associato alla prima frequenza relativa cumulata che comprende 0,5. Esempio: Voto Statistica ni fi Frequenza relativa Fi Frequenza relativa cumulata 18 10 0.1 0.1 20 15 0.15 0.25 23 20 0.2 0.45 25 30 0.3 0.75 26 15 0.15 0.9 27 7 0.07 0.97 30 3 0.03 1 100 La mediana è 25, ovvero corrispondente a 0,75, il primo valore cumulato che comprende 0,5. Le distribuzioni in classi individuazione della classe mediana associata alla frequenza relativa cumulata che comprende il valore 0.5 Med = xi – 1 + { [(xi - xi – 1) * (0.5 – Fi – 1) ] / Fi – Fi – 1 } per individuare la mediana in una classe Dove: xi - 1: limite inferiore della classe mediana xi – xi - 1: ampiezza della classe mediana. Fi - 1: frequenza relativa cumulata prima della classe mediana Fi: frequenza relativa cumulata della classe mediana Esempio: Statura ni fi Fi Meno di 155 20 0.24 0.24 155 - 165 30 0.37 0.61 165 - 177 12 0.15 0.76 177 - 180 15 0.18 0.94 Oltre 180 5 0.06 1 82 La mediana è compresa tra 155 – 165, perché il primo valore di Fi che comprende 0.5 è 0,61. Med = 155 + [(165 – 155)(0.5 – 0,24)] / 0,61 – 0,24 = 155 + 2,56 / 0,365 = 162,1 162,1 è compreso tra 155 – 165 2. Le medie di posizione: quartili Il primo quartile corrisponde a quel valore che lascia alla sua sinistra il 25% delle osservazioni, mentre lascia alla sua destra il 75% delle osservazioni. Il secondo quartile corrisponde alla mediana. Il terzo quartile corrisponde a quel valore che lascia alla sua sinistra il 75% delle osservazioni, mentre lascia alla sua destra il 25% delle osservazioni. Anche in questo caso, ne distinguiamo tre casi  Distribuzioni di unità  Distribuzioni di frequenza  Distribuzioni in classi La formula per calcolare i quartili è la seguente: Q1 = [Pos(n/4) + Pos(n/4+1)] / 2 Q3 = [Pos(3n/4) + Pos(3n/4+1)] / 2 Se n non è divisibile per 4 la formula è: Q1 = Pos(n/4), il numero (che verrà con la virgola) si approssima per eccesso Esempio: Se n è divisibile per 4. Pos Voto di statistica CAPITOLO 9 “LA VARIABILITA'” 1. Proprietà indici di variabilità La variabilità è l’attitudine di un fenomeno quantitativo ad assumere differenti modalità. Si distinguono due aspetti della variabilità: – la dispersione che caratterizza il maggiore o minore addensamento delle osservazioni rispetto ad un valore che dovrebbe essere compreso tra il valore più piccolo e più grande della distribuzione (principio di internalità della media) e che potrebbe coincidere con un termine della distribuzione. – la disuguaglianza si ha quando la variabilità si riferisce alle differenze tra le modalità. Proprietà degl’indici di variabilità: – uguali a zero se tutti i termini della distribuzione sono uguali; – positivi se vi è variabilità; – aumentare quanto maggiore è il grado di diversità; – non modificarsi nel caso in cui tutte le modalità vengono aumentate o diminuite per una costante (invarianza per trasformazione). 2. Indici di variabilità assoluta Gli indici di variabilità assoluta sono espressi nella stessa unità di misura delle unità statistiche e si dividono in: 1. Indici di dispersione: a. devianza b. varianza c. scarto quadratico medio 2. Intervalli di variazione: a. campo di variazione b. differenza interquartile La devianza: è una misura di variabilità di una distribuzione. È data dalla somma degli scarti dalla media aritmetica al quadrato. È il numeratore della varianza. La varianza è definita come la media aritmetica del quadrato degli scarti dalla media. 2 = [∑n i=1 (xi – x)2] / n Per praticità di calcolo, la varianza può essere anche calcolata come la differenza di due medie al quadrato. 2 = M2 q – x2 Lo scarto quadratico medio o deviazione standard è il più utilizzato tra gli indici di variabilità. La sua espressione è: cioè non è altro che la radice quadrata della varianza Esempio Voto Statistica ni xi * ni xi - media (xi – media)2 * ni 18 10 180 -5.59 312.48 20 15 300 -3.59 193.32 23 20 460 -0.59 6.96 25 30 750 1.41 59.64 26 15 390 2.41 87.12 27 7 189 3.41 81.39 30 3 90 6.41 123.26 100 2359 864.19 x(media) = (xi * ni) / n x = 2359 / 100 = 23,59 Devianza Dev(X) = Ʃ (i=1 n) (xi – x)2 * ni Dev(x) = 864,19 Varianza 2 = Ʃ (i=1 n) (xi – x)2 * ni / n 2 = 864,19 / 100 = 8,6419 Scarto quadratico medio  = Radice quadrata di Ʃ (i=1 n) (xi – x)2 / n = Radice quadrata di 8,6419 = 2,9397 Proprietà della varianza  Se tutti i dati della distribuzione sono uguali la 2 = 0  Se si aggiunge una costante a tutti i dati questa non influisce sulla varianza.  Se ogni modalità della distribuzione X viene moltiplicata per una costante k si ha: 2 y = k2 * 2 x Intervalli di variazione Il campo di variazione è la differenza tra il valore massimo e quello minimo della distribuzione. La sua utilizzazione è molto limitata poiché è influenzata dai valori anomali: ω = xmax - xmin Differenza interquartile è data dalla differenza tra il terzo e il primo quartile: Q = Q3 - Q1 3. Box-Plot Il Box-Plot consente con un colpo d’occhio di valutare:  Il valore della tendenza centrale;  La dispersione che dipende dall’ampiezza del rettangolo;  La simmetria se i dati sono simmetrici;  L’asimmetria nelle distribuzioni asimmetriche positive e negative 4. Indici di variabilità relativa Indici di variabilità relativa sono indipendenti dall’unità di misura e permettono di fare confronti. Il coefficiente di variazione CV =  / |M| è espresso generalmente in termini percentuali, e consente di effettuare confronti fra diverse distribuzioni per fenomeni omogenei. Anche per i caratteri qualitativi esiste un concetto simile alla variabilità ossia la mutabilità. 5. Indici di mutabilità per caratteri qualitativi Anche per I caratteri qualitativi esiste un concetto simile di variabilità: La mutabilità è l’attitudine di un fenomeno qualitativo ad assumere diverse modalità. Esempi di indici di mutabilità sono: indici che misurano l’omogeneità e per negazione l’eterogeneità. Un insieme si dice omogeneo rispetto ad un carattere se tutte le unità presentano la stessa modalità, per contro se le unità statistiche tendono a distribuirsi in maniera uniforme si parlerà di insieme eterogeneo. Un indice di eterogeneità assai facile da calcolare è l’indice del Gini. Ossia 1 meno le sommatorie delle frequenze relative al quadrato si annulla quando il collettivo è omogeneo Quando l’indice è compreso tra 0 e 1 il collettivo è eterogeneo. Un indice normalizzato compreso tra 0 e 1, utile per il confronto tra due distribuzioni si ottiene raddoppiando IE con il suo massimo AS = (Q1 + Q3 – 2Med) / Q3 – Q1 Si ha In ]0,1] in caso di simmetria positiva Si ha in [−1,0[ in caso di simmetria negativa AS = 0 SIMMETRIA Esempio: La tabella seguente propone l’esito di un’indagine sul peso di 100 ragazzi Uno degli indici di asimmetria più noto è il Skewness del Pearson, che esprime i il grado di simmetria di una distribuzione unimodale come differenza tra la media aritmetica e la moda, tutto diviso la deviazione standard γ (gamma) γ > 0 La distribuzione è asimmetrica positiva γ < 0 La distribuzione è asimmetrica negativa γ = 0 Condizione necessaria, ma non sufficiente affinché la distribuzione sia simmetrica Pearson propose un altro indice di asimmetria che utilizza il concetto di momento centrato rispetto alla media aritmetica: Si definisce momento centrale di ordine r rispetto alla media aritmetica la quantità: Un indice relativo di asimmetria è il coefficiente di Fischer-Pearson:  Se la distribuzione è simmetrica l’indice β è uguale a 0, ma non vale il viceversa  β 1 > 0 la distribuzione è asimmetrica positiva  β1 < 0 la distribuzione è asimmetrica negativa 3. Indici di forma: la curtosi Data una distribuzione unimodale (che ha un solo punto di massimo) simmetrica si vuole valutare il suo scostamento rispetto ad un modello teorico di riferimento normale o Gauss. La forma della distribuzione è campanulare: Non tutte le distribuzioni simmetriche a forma di campana sono normali ma possono verificarsi due scostamenti:  Ipernormale (leptocurtica) la forma della distribuzione è più allungata  Iponormale (platicurtica) la forma della distribuzione è più appiattita. Per misurare il grado di disnormalità di una distribuzione viene impiegato il coefficiente di curtosi di Pearson. γ1 = 3 curva normale γ1 < 3 curva iponormale γ1 > 3 curva ipernormale La curtosi, quindi, rappresenta lo schiacciamento della campana della distribuzione. in generale:  un valore di curtosi negativo indica una distribuzione “più schiacciata” verso il basso rispetto alla normale, che viene definita platicurtica  un valore di curtosi positivo invece indica una distribuzione “più appuntita” rispetto alla normale, che viene definita leptocurtica. CAPITOLO 11 “LE RELAZIONI STATISTICHE: INDIPENDENZA IN MEDIA” 1. Indipendenza in media L’indipendenza in media la possiamo verificare per una tabella:  mista (1 variabile quantitativa e 1 qualitativa);  di correlazione (entrambe le variabili quantitative); L’indice che useremo per verificare l’indipendenza in media è il rapporto di correlazione. Si supponga di avere una distribuzione doppia di una variabile y quantitativa e di una variabile x che può essere sia quantitativa che qualitativa (tabella mista). Esiste indipendenza in media tra due variabili se e solo se si verifica la seguente condizione: Medie parziali uguali tra loro = Media generale Indipendenza in media di y da x. y1 = y2 = … = yr = y Indipendenza in media di x da y. x1 = x2 = … = xr = x L’indice relativo di dipendenza in media è il rapporto di correlazione di Pearson. Esso è uguale al rapporto della devianza Between e la devianza di y: Proprietà  0 ≤ n2 yx ≤ 1  n2 yx = 0 Nel caso di indipendenza in media  n2 yx = 1 Nel caso di perfetta dipendenza in media  n2 yx ≠ n2 xy Non è una misura in media 2. Le relazioni statistiche: esempio indipendenza in media Esempio: Reddito 13 21 31 43 Tit. di studio 10 – 16 17 – 25 26 – 36 37 – 49 Diploma 4 6 5 1 16 Laurea 0 2 8 2 12 Altro 16 4 2 0 22 20 12 15 3 50 y1 = (13*4 + 21*6 + 31*5 + 43*1) / 16 = 23,5 y2 = (13*0 + 21*2 + 31*8 + 43*2) / 12 = 31,33 y3 i=1 i i=1 i i i=1 i È possibile stabilire quindi la seguente gerarchia tra i tre concetti d’indipendenza: Indipendenza statistica ► indipendenza in media ► indipendenza correlativa CAPITOLO 12 “LA REGRESSIONE LINEARE SEMPLICE” 1. La retta di regressione La regressione ha lo scopo della di ricerca di un modello atto a descrivere la relazione esistente tra una variabile indipendente x e una dipendente y. Si sceglie come variabile indipendente la variabile antecedente rispetto all’altra. In un modello di regressione le variabili esplicative spiegano, prevedono, simulano, controllano la variabile dipendente. x: Variabile indipendente y: Variabile dipendente La scelta della variabile indipendente non è arbitraria. L'espressione analitica della retta di regressione è: y^1 = b0 + b1xi Valori teorici della Y b0 e b1 Sono i coefficienti di regressione b0 l’intercetta, il punto in cui la retta interseca l’asse delle ordinate b1 coefficiente angolare, indica la pendenza della retta Mediante il metodo dei minimi quadrati si intende trovare tra le rette infinite, la retta migliore, ossia quella che rende quanto più piccola i residui. b1 = COD(X,Y) / DEV(X) = ∑n i=1 (xi – x)(yi – y) / ∑n (x – x)2 OPPURE b1 = ∑n x y – nxy / ∑n x 2 – nx2 b0 = y – b1x La codevianza determina il segno del coefficiente di regressione:  se la codevianza è positiva la retta di regressione è crescente Cod(X,Y) > 0 b1 > 0  se la codevianza è negativa la retta di regressione è decrescente Cod(X,Y) < 0 b1 < 0  se la codevianza è 0 la retta è parallela all’asse x Cod(X,Y) = 0 b1 = 0 Le proprietà della retta sono:  È l’unica retta che minimizza la somma dei quadrati dei residui.  La retta passa per la media di x e la media di y come centro di gravità.  somma dei residui è 0.  La somma dei valori osservati e i valori teorici presentano la stessa media.  Il coefficiente angolare indica la variazione di y in corrispondenza di una variazione unitaria di x. 2. Grado di adattamento Una volta calcolata la retta di regressione bisogna determinare il grado di adattamento che esiste tra i valori osservati e i valori teorici. La devianza della variabile di y sarà uguale alla somma della devianza di residua + la devianza di regressione. i=1 i i=1 i La devianza di residua: misura il grado di dispersione dei punti osservati intorno alla retta di regressione; è nulla in cui non vi è dispersione, cioè se i punti osservati sono allineati sulla retta di regressione e tutta la variabilità di Y è attribuibile alla dipendenza lineare della X. La devianza di regressione: è quella parte delle variabilità della Y che viene spiegata dalla relazione lineare, è nulla se i valori teorici coincidono con la media della Y. Il grado di adattamento è definito dal coefficiente di determinazione lineare ed è dato dal rapporto tra la devianza di regressione e la devianza totale. Esso misura quanta parte della variabilità totale è spiegata dalla regressione e assume valori compresi tra 0 e 1. Ovvero rapporto tra DEV residua e Dev di y Misura quanta parte della variabilita totale è spiegata dalla regressione R2 è compreso tra 0 e 1:  R2 = 0 La devianza di regressione è nulla, i valori teorici sono tutti costanti e pari al valore medio della Y.  R2 = 1 La devianza residua è nulla, per cui la variabilità della Y è spiegata totalmente dalla variabile X, i valori osservati coincidono con i valori teorici 3. Analisi della interdipendenza Due variabili sono interdipendenti quando non si può individuare un carattere antecedente all’altro che è conseguente. La correlazione misura il grado di concordanza e discordanza tra due variabili. Il coefficiente di correlazione lineare di Bravis-Pearson che fornice una misura del grado di correlazione lineare reciproca che esiste tra le due variabili X e Y. r = Cod(X,Y) / radice quadrata Dev(X) Dev(Y) Il coefficiente che è un numero puro che varia tra -1 e 1 ed ha il segno algebrico della codevianza. r = -1 vi è perfetta correlazione lineare, vi è discordanza le due rette di regressione coincidono. -1 < r < 0 discordanza. r = 0 non vi è correlazione lineare, le rette sono parallele agli assi. 0 < r < 1 concordanza. r = 1 vi è concordanza, vi è perfetta correlazione lineare, le due rette di regressione coincidono. La correlazione non è equivalente di dipendenza. La correlazione è molto sensibile agli outliers CAPITOLO 13 “ELEMENTI DI CALCOLO DELLE PROBABILITA'” 1. Esperimento casuale e spazio campionario Un esperimento casuale, indicato con E, può essere considerato come una operazione il cui risultato non può essere previsto con certezza. L’insieme di tutti i possibili risultati connessi all’esperimento casuale è detto spazio campionario e viene indicato . Lo spazio degli eventi è definito dalla classe di tutti i sottoinsiemi dello spazio campionario. 2. Operazione sugli insiemi ed eventi Unione – dati due eventi A e B si indica con l’insieme degli elementi che stanno A o B o in entrambi AUB Esempio: A={1,2,3} B={2,3,4} AUB ={1,2,3,4} Intersezione - dati due eventi A e B si indica con l’insieme degli elementi che stanno in A e in B AB Esempio: A={1,2,3} B={2,3,4} AUB ={2,3} Negazione di eventi: L’insieme degli elementi non inclusi in A è denominato complemento o negazione di A e si indica con il simbolo A. La negazione dell’evento A riguarda tutti gli eventi di una prova escluso l’evento A. A = {dado dispari} => A ={dado pari} Eventi disgiunti (o incompatibili o mutualmente esclusivi) – due eventi si dicono disgiunti se non contengono elementi comuni (non possono verificarsi contemporaneamente), ovvero: Nel linguaggio degli eventi  indica l’evento impossibile, cioè quell’evento che non si verifica mai Partizione – si definisce partizione di un insieme D quell’insieme costituito dalle parti A1,......,Ak non vuote, disgiunte la cui unione è l’insieme D. A1 ∪ A A2 ∪ A A3 = D Nel linguaggio degli eventi, una partizione consiste nel decomporre l’insieme degli eventi in eventi mutualmente incompatibili PA B  PA PBAB  PA B  PA PBAPA B  PA PBB| A  PA B  PA PBBPA B  PA PBA| B diviene: P(AB) = P(A)P(B) 9. Teorema della probabilità assoluta Siano H1,....,Hn eventi mutalmente incompatibili che costituiscono una partizione di  . Per ogni A E Ω si ha: P(A) =    –   P(Hi) P(A|Hi)  CAPITOLO 14 “VARIABILI CASUALI” 1. Definizione di variabile casuale Si consideri un esperimento casuale E con uno spazio campionario  e sia Y lo spazio degli eventi. Sia X una funzione che assegni un numero reale X(A) ad ogni evento, allora X(.) è chiamata variabile casuale (v.c). I valori di una v.c. sono incerti e di conseguenza una v.c. X è sempre accompagnata dalla sua funzione di probabilità P(X) che esprime la probabilità con la quale la v.c. X può assumere i suoi diversi valori. Le variabili casuali possono essere:  Discrete: se la v.c. assume un numero finito o un’infinità numerabile di valori;  Continue: è una variabile che può assumere tutti i valori appartenenti ad un intervallo (a,b). Le v.c. sono indicate con lettere maiuscole (X) ed i valori assunti da X con lettere minuscole (x). 2. Variabile casuale discreta Lo spazio campionario  associato ad un esperimento casuale è finito o infinito numerabile. Una v.c discreta è definita dal seguente prospetto: L’insieme delle coppie (xi e pi) con i=1,…,n è detta distribuzione di probabilità di X. La funzione p i definisce la funzione di probabilità della v.c. X. Essa soddisfa le seguenti condizioni: Esempio: si lancino 2 dadi e si definisca la v.c. X come somma dei punti ottenuti dai 2 dadi. Eventi v.c. X pi 1 1 2 0.03 1 2 3 0.06 2 1 1 3 4 0.08 2 2 3 1 1 4 5 0.11 2 3 3 2 4 1 Così via fino a 12 Totale 1 In questo caso il numero di combinazioni totali è 36. Graficamente sarà rappresentato attraverso un istogramma dove sulle x avremo la v.c. e sulle ordinate la pi In alcuni casi può essere utile trovare la probabilità che una v.c. X assuma valori uguali o inferiori a xi e si utilizza la seguente formula: Ovvero la probabilità che la v.c X assuma valori uguali o inferiori a x i. F(x) è definita funzione di ripartizione o funzione di distribuzione cumulata. È una funzione a gradini non decrescente. 3. Variabile casuale continua Lo spazio campionario Ω associato ad un esperimento casuale è infinito o finito non numerabile. Formalmente una v.c. continua che assume valori in un certo intervallo R esteso anche a tutto l’asse reale R, è definita se esiste una funzione f(x) tale che per ogni (a,b) appartenenti a R si abbia: La funzione f(x) viene chiamata funzione di densità di probabilità della v.c. X (f.d.p) se e solo se: 4. Indici di sintesi della variabile casuale: valore atteso 5. Indici di sintesi della variabile casuale: proprietà del valore atteso 6. Indici di sintesi della variabile casuale: varianza 7. Indici di sintesi della variabile casuale: proprietà della varianza i=1 i=1 Distribuzione di probabilità continue 5. Distribuzione Normale o di Gauss Una v.c. X ha distribuzione normale con parametri μ e σ2 se e soltanto se la sua funzione di densità è data da: f(x) = (1 / σ* radice quadrata 2 ) e -(x-μ)2 / 2σ2)2 / 2σ2 –∞≤x≤+∞ X ≈ (μ;σ2) E(X)= μ Var(X)= σ2 Caratteristiche: •Essa ha una forma campanulare simmetrica rispetto al punto X = μ •Esistono tante curve normali quanto sono le coppie di μ e σ2 •Al variare del parametro μ cambia la posizione delle curva sull’asse delle ascisse •Al variare del parametro σ2 cambia la forma della curva, al crescere del parametro la curva si appiattisce, mentre al decrescere del parametro la curva si allunga •La densità della normale si presenta come una curva simmetrica con forma a campana •I valori della X sono raggruppati attorno alla media Proprietà: •È unimodale •È simmetrica rispetto ad una retta parallela all’asse delle ordinate condotta per il punto di ascissa x = μ •In corrispondenza del punto x = μ la funzione assume il suo valore massimo.Da queste proprietà discende che la media la mediana e la moda coincidono. •Ha due punti di flesso in corrispondenza di μ±σ •Tende asintoticamente a 0 per x che tende a ±∞ – Data una v.c. normale X, ogni trasformazione lineare di X sarà anche essa una normale: X ≈ N (μ;σ2) allora aX+b≈N(aμ+b;a2 σ2) dove a e b sono costanti reali. – Date n v.c. normali indipendenti X1,X2,....,Xn dove Xi ≈ N(μi;σi2) si può dimostrare (proprietà riproduttiva) che: Y = (a1X1+a2X2+....+anXn) → Y ≈ N (∑n aiμi ;∑n ai2σi2 ) dove ai sono costanti. 6. Distribuzione Normale Standardizzata La curva normale dipende da due parametri e per poter calcolare l’area e, dunque la probabilità tra due punti di ascissa, ci vorrebbero tante tavole quanto sono le coppie dei valori μ e σ2, oppure bisogna calcolare l’integrale della funzione di densità. Per risolvere tale inconveniente si procede alla standardizzazione: Z = (X–μ) / σ f(z) = (1 / radice quadrata 2) e-z2/2 –∞ ≤ z ≤ + ∞ La standardizzazione consiste in una traslazione dei assi ortogonali di riferimento dal valore x = μ al valore z = 0, nonché al cambiamento dell’unità di misura della variabile X. La nuova variabile Z viene espressa in unità di      –      Z  N(0,1) Caratteristiche: E(Z) = 0 Var(Z) = 1 Distribuzione Chi-Quadrato Siano X1,X2,...,Xn n v.c.normali indipendenti con parametri μi e σi2 Sia: Zi = (Xi-μi) / σi allora Y = ∑n i=1 Zi2  Xn2 dove n sono i gradi di libertà La v.c chi quadrato è un v.c continua generata dalla somma di n v.c. normali Standardizzate e indipendenti al quadrato. Grado di libertà: Il numero delle osservazioni diminuito del numero dei vincoli che entrano nel calcolo del parametro considerato. Caratteristiche: E(Y) = n Var(Y) = 2n Forma della distribuzione •La v.c.chi-quadrato è non negativa e varia tra 0 e ∞. •Dipende da un solo parametro dato dai gradi di libertà n •Per n<2 è monotona e decrescente •Per n>2 è asimmetrica a destra •Tende alla simmetria quando il numero dei gradi di libertà aumenta •Essa si approssima alla normale quando il numero dei gradi di libertà è superiore a 30 Distribuzione t di student Se X  N(0,1) Y  Xn2 Al tendere di n all’infinito la v.c. t di Stundent tende alla normale standardizzata, tale approssimazione può ritenersi già soddisfacente per n > 30 Distribuzione F di Fisher-Snedecor Se X  Xn2 Y  Xm2 F = X/n / Y/m Segue una distribuzione F di Fischer-Snedecorcon n gradi di libertà al numeratore e m gradi di libertà al denominatore Zn = X – E(Xn) / radice quadrata Var(Xn) = Xn - μ / σ / radice quadrata n Xn = ∑n i=1 Xi / n Allora la distribuzione di Zn converge alla normale standardizzata per n =>  Il teorema del limite centrale stabilisce che, al crescere di n, la forma della distribuzione della media campionaria si approssima alla forma normale. In pratica si ritiene che l’approssimazione sia accettabile per n > 30 6. Teorema di de Moivre - Laplace Teorema di De Moivre-Laplace (Applicazione del teorema del limite centrale) Date n v.c. X1,...Xn indipendenti generate da X    B(1,p) la variabile (numeri di successi in n prove indipendenti) Sn = ∑n i=1 Xi segue una distribuzione binomiale con E(Sn) = np Var(Sn) = npq i=1 i •La rapidità con la quale la distribuzione binomiale converge a quella normale dipende dal valore di p, nel senso che la migliore condizione di convergenza si ha quando la distribuzione binomiale è simmetrica cioè quando p = q = 0,5. •Agli effetti pratici l’approssimazione è ritenuta accettabile se np e nq sono entrambi maggiori o uguali a 5. L’approssimazione si può comunque migliorare ricorrendo alla cosiddetta correzione per continuità. Poiché la binomiale è discreta e la gaussiana è continua, ai fini del calcolo approssimato si considera ogni valore intero x come centro dell’intervallo ( x-0,5; x+0,5 ). CAPITOLO 18 “TEORIA DELLA STIMA STATISTICA” 7. Introduzione Una volta selezionate le unità statistiche che entreranno far parte del campione occorre affrontare il problema della loro utilizzazione, al fine di ricavare informazioni su certi aspetti della popolazione oggetto di studio. L’inferenza statistica è un procedimento di generalizzazione dei risultati campionari che consente di effettuare stime o verifiche di ipotesi sui parametri di una popolazione descritta da una variabile casuale. La teoria della stima statistica propone di fornire dei criteri o delle procedure per la stima di uno o più parametri della popolazione. Successivamente si passa alla verifica delle ipotesi che consiste nel sottoporre a verifica una certa affermazione fatta sui parametri della popolazione. La popolazione è descritta da una v.c. X ≈ f(x;θ) do ve θ è il parametro in co gn ito da stimare. ) dove θ) dove θ è i l par am et r o incognit o da s ti m ar e. è il parametro incognito da stimare. La statistica inferenziale vuole:            Stimare il parametro incognito sulla base delle osservazioni campionarie;            Proprietà stimatori;            Intervallo di confidenza;            Verifica delle ipotesi; 8. Stima puntuale e stima intervallare La stima puntuale: si giunge alla determinazione di un solo valore numerico per uno o più parametri della popolazione sulla base dei dati di un campione esatto. La stima intervallare: nella quale si costruisce un intervallo casuale (intervallo di confidenza), che include il parametro stimato con livello di confidenza 1- ∝ . . 9. Stima puntuale e stimatore Sia: X1,...,Xn un campione casuale estratto da X≈f(x;θ) dove θ è il parametro in cognito da stimare. ) dove θ) dove θ è i l par am et r o incognit o da s ti m ar e. è il parametro incognito da stimare. Si definisce stimatore T del parametro incognito una statistica, generica nota della v.c. T = t (X1,...,Xn ) T = stimatore t(X1,...,Xn )= funzione v.c. Si definisce stima: t = t (X1,...,Xn ) il valore assunto dallo stimatore per un dato campione n Esempio: T = Xn = ∑n X / n Stimatore media campionaria t = xn = ∑n i=1 xi / n Stima della media Il parametro θ) dove θ è il parametro incognito da stimare. è una costante incognita, mentre T1 e T2 sono v.c. che variano al variare del campione ed è per questo che si è parlato di intervallo casuale. Dopo aver estratto il campione si sostituiscono le osservazioni campionarie nella funzione dello stimatore ottenendo le realizzazione delle v.c. estremi dell’intervallo t1 e t2 (intervallo stimato). Dopo l’estrazione non si potrà esprimere tale intervallo in termini probabilistici per questo motivo si parla d’intervallo di confidenza per il parametro θ) dove θ è il parametro incognito da stimare. con coefficiente di confidenza1-α. Non è corretto dire che l'intervallo osservato contiene con probabilità (1-α) il paramentro θ) dove θ è il parametro incognito da stimare. . Ma è giusto affermare che si è confidenti all’ (1-ɑ)% che l ’i nt er val o osser vat o incl uda i l ver o val or e di )% che l’intervallo osservato includa il vero valore di θ) dove θ è il parametro incognito da stimare.. Quindi qualunque sia θ) dove θ è il parametro incognito da stimare., fissato ɑ)% che l’intervallo osservato includa il vero valore di, estraendo un gran numero di volte campioni della stessa ampiezza, l’intervallo osservato conterrebbe θ) dove θ è i l par am et r o incognit o da s ti m ar e. nel (1-ɑ)% che l ’i nt er val o osser vat o incl uda il ver o val or e di )% dei casi, mentre non lo conterrebbe nell’ ɑ)% che l ’i nt er val o osser vat o incl uda il ver o val or e di % dei casi. Per la costruzione di un intervallo di confidenza siamo interessati a una quantità pivot, la cui distribuzione non dipende dal parametro θ) dove θ è il parametro incognito da stimare. . Tale metodo parte dal presupposto che è possibile trovare una quantità (nota come funzione pivotale) funzione delle osservazioni e del parametro del quale si vuole costruire un intervallo di confidenza, con la caratteristica che la sua distribuzione è nota e non dipende dal parametro in esame. 13. Intervalli di confidenza per la media di una popolazione normale con varianza nota Sia, X1,...,Xn un campione casuale di ampiezza n estratto da X ≈ N(μ,σ2) è noto: X ≈ N(μ, σ2 / n) dunque Z = (X- μ) / σ/radice n ≈ N(0,1) Un intervallo simmetrico è dato da: P(-zσ/2                                                                                  Z = (X- μ)2 / 2σ2) / σ/radice n                                                                                  zσ/2) = 1-ɑ P(X-zσ/2 σ/radice n      μ)2 / 2σ2      X+zσ/2 σ/radice n) = 1-ɑ Osservazioni:            L’ampiezza dell’intervallo è tanto più elevata quanto n è più piccolo, l’ampiezza dell’intervallo aumenta all’aumentare di σ e cresce in misura diretta all’aumentare di 1-ɑ)% che l ’i nt er val o osser vat o incl uda i l ver o val or e di .            Se la popolazione non è normale per il teorema del limite centrale quando n > 30 si potrà costruire l’intervallo di confidenza basato sulla normale standardizzata. 14. Intervalli di confidenza per la media di una popolazione normale con varianza non nota Intervallo di confidenza per la media di una popolazione normale con varianza non nota (piccoli campioni n < 30) L’intervallo di confidenza discusso precedentemente è utilizzabile solo se si conosce il parametro σ 2. Il più delle volte non si dispone di questa quantità. Si risolve questo problema considerando lo stimatore corretto della varianza campionaria: S2 = ∑n i=1 (X2-X)2 / n-1 Sia X1,...,Xn un campione casuale di ampiezza n estratto da X≈N(μ,σ2) con σ2 incognito allora: t = (X – μ) / S/radice di n ≈ tn-1 Quindi l’intervallo simmetrico per la media della popolazione (varianza non nota) è dato: P(-tσ/2                                                                                  (X – μ)2 / 2σ2) / S/radice di n                                                                                  tσ/2) = 1-ɑ P(X-tσ/2,n-1 S/radice di n      μ)2 / 2σ2      X+tσ/2,n-1 S/radice di n) = 1-ɑ 15. Intervalli di confidenza per la proporzione Intervalli di Confidenza per la proporzione quando n è sufficientemente grande Data una popolazione caratterizzata da una proporzione pdi unità statistiche. determiniamo l’ intervallo di confidenza per psulla base della stima campionaria (frequenza relativa campionaria del numero dei successi) in un campione di dimensione n. f = stimatore di p n sufficientemente grande f     N(p;p(1-p) / n) P(f - zσ/2 radice di f(1-f) / n      p      f + zσ/2 radice di f(1-f) / n) = 1-ɑ CAPITOLO 20 “DETERMINAZIONE DELLA NUMEROSITA' CAMPIONARIA” 16. Introduzione I principali fattori da considerare nell’individuazione della numerosità del campione sono: • la varianza • intervallo di confidenza desiderato • il costo del campionamento. La varianza è una misura del grado di variazioni o oscillazioni presenti relativamente al parametro che vogliamo stimare nella popolazione. Quindi quando si ha una popolazione con alta varianza bisogna usare dei grandi campioni. L’intervallo di confidenza rappresenta una misura della bontà di una stima. Un intervallo ristretto o piccolo suggerisce che siamo sicuri del punto in cui si trova il vero valore della popolazione e quindi in questo caso la stima sarà più precisa. Costo di campionamento. Un campionamento può costare molto e durare molto tempo quindi si devono conservare solo i dati realmente necessari. 17. Calcolo della numerosità campionaria Sia A l’ampiezza dell’intervallo di confidenza per μ e σ2 nota, la numerosità sarà data: A = 2 * σ/radice di n * zσ/2 Sviluppando rispetto a n: n = (2* σ/A* zσ/2)2 Quindi se σ2 = 4 e se vogliamo che l’ampiezza IC a livello di confidenza (1- ɑ)% che l ’i nt er val o osser vat o incl uda i l ver o val or e di ) = 0.95 sia uguale a 2 dobbiamo estrarre un campione di numerosità pari a 16. σ/2 σ/2 18. Dimensione campionaria per la stima di una proporzione Sia p la frequenza relativa incognita che la variabile X assume nella popolazione di numerosità N e f= x/ n sia la frequenza relativa del campione di numerosità n. Nel caso di estrazione senza ripetizione la deviazione standard sarà: σp = radice di pq/n * (N-1)/(N-1) Nel caso di estrazione con ripetizione: σp = radice di pq/n La dimensione campionaria sarà: n = (z2 pqN) / (N-1) E2 + z2 pq Tra i diversi valori di p e q si sceglie quello il cui prodotto è massimo, ossia p = q = 0.5 e ponendo 1-ɑ)% che l ’i nt er val o osser vat o incl uda i l ver o val or e di = 95%. ossia zσ/2= 1.96 si ha: max n = 1,962 N / 4(N-1)E2 + 1,96 In caso di popolazione grande o estrazione con ripetizione si ha: n = z2 σ/2 pq / E2 e per 1-ɑ)% che l ’i nt er val o osser vat o incl uda i l ver o val or e di =0,95 max n = 1,962 / 4E2 di significatività dello 0.05 abbiamo il 5% di probabilità di rifiutare l’ipotesi quando dovrebbe essere accettata. Test più potente (Lemma di Neyman e Pearson) Esso consente di scegliere il test per cui fissata la probabilità ɑ)% che l’intervallo osservato includa il vero valore di dell’errore del primo tipo, risulta minima la probabilità β di commettere l’errore del secondo tipo. Test uniformemente più potente Si costruisce il test uniformemente più potente qualora si fissi un’ipotesi alternativa composta unidirezionale. In tal caso, in corrispondenza di un valore prefissato di significatività ɑ)% che l’intervallo osservato includa il vero valore di non si avrà un solo valore che esprime la potenza del test ma si avranno tanti valori quanti sono i valori alternativi del parametro θ) dove θ è i l par am et r o incognit o da s ti m ar e. , definendo così la funzione potenza del test: [ 1-β(θ) dove θ è i l par am et r o incognit o da s ti m ar e. ) ] La potenza del test La potenza del test 1-β è la possibilità di rigettare l’ipotesi nulla, quindi indica la capacità di un test di individuare l’ipotesi alternativa quando è vera: β minimo→ (1-β)= massimo Quindi se si utilizza un livello di significatività α maggiore aumenta la probabilità di commettere un errore di primo tipo. La potenza del test inoltre è influenzata dalla dimensione del campione, più il campione è grande più il test è potente. CAPITOLO 22 “VERIFICA DI IPOTESI SULLA MEDIA (VARIANZA NOTA E NON NOTA) E VERIFICA DI IPOTESI SULLA PROPORZIONE” 1. Test sulla media con varianza nota Test parametrici:            Test sulla media con varianza nota;            Test sulla media con varianza non nota;            Test sulla proporzione. Test sulla media con varianza nota Data una v.c. X distribuita normalmente con media incognita e varianza nota si vuole sottoporre a verifica l’ipotesi H0:μ= μ0. Si considerano 3 casi: 1. H0:μ= μ0 contro H1:μ > μ0 unilaterale dx 2. H0:μ= μ0 contro H1:μ < μ0 unilaterale sx 3. H0:μ= μ0 contro H1:μ ≠ μ0 bilaterale Si sceglie lo stimatore media campionaria la cui standardizzata è : Z = X-μ)2 / 2σ20 / σ/radice di n Esempio: la resistenza alla rottura delle funi prodotte è pari a 1800N ed uno scarto quadratico di 100N. Immettendo un nuovo processo si pensa che la resistenza sia migliorata, e per provare ciò si estrae un campione di 50 funi e si trova che la resistenza media è di 1850. Possiamo affermare che ci sia stato un miglioramento al livello di significatività dello 0.01. L’effetto del nuovo processo è produttivo se si traduce in un aumento della resistenza media, bisogna decidere tra le due ipotesi: H0:μ = 1800 non c’è miglioramento H1:μ > 1800 c’è miglioramento Si pone    =0.01 x=1850 z0.01 = 2.33 dalla tabella Z = 1850 – 180 / 100 / radice 50 = 3,55 quindi 3.55 > 2.33 rifiutiamo H0 ed accettiamo il miglioramento del processo i=1 2. Test sulla media con varianza non nota In questo caso usiamo la distribuzione t di Student S = ∑n (Xi – X) 2 / n-1 Stimatore varianza campionaria Si sottopone a verifica l’ipotesi 1 H0:μ= μ0 contro H1:μ>μ0 unilaterale dx 2 H0:μ= μ0 contro H1:μ<μ0 unilaterale sx 3 H0:μ= μ0 contro H1:μ≠μ0 bilaterale t = X - μ)2 / 2σ2 / S / radice n Esempio: L’età media dei disturbi in un campione di 17 donne è 48.59 mentre la varianza corretta è 244.55. Verificare se la media della popolazione è significativamente diversa da 48 ad un livello ∝ . = 0.05 Bisogna decidere tra le due ipotesi: H0:μ= 48 H1:μ≠48 Si tratta di un test a 2 code quindi ∝ ./2 = 0.025 e quindi vedendo sulla tabella t Student il valore 1-∝ . = 0.975 t0.025-16= 2.120 quindi: se t sarà: -2.120 < t < 2.120 accettiamo H0 se t < -2.120 o t > 2.120 rifiutiamo H0 t = 46,59 – 4 / radice 245,55 / 17 = 0,155 quindi non si rifiuta l’ipotesi 3. Test sulla proporzione Lo stimatore di p segue una distribuzione normale: f ≈ N (p; pq / n) Z = f – p0 / radice p0q0/n Si vuole sottoporre a verifica le seguenti ipotesi: 1. H0:μ= μ0 contro H1:μ>μ0 unilaterale dx 2. H0:μ= μ0 contro H1:μ<μ0 unilaterale sx 3. H0:μ= μ0 contro H1:μ≠μ0 bilaterale Si rifiuta l’ipotesi se: 1) z ≥ z∝ . 2) z ≤- z∝ . 3) z ≥ z∝ ./2 4) z ≤- z∝ ./2 Esempio: Una casa automobilistica afferma che il 90% dei suoi automobilisti usa la cintura, analizzando un campione si evince che solo 400 su 500 utilizzano la cintura. Verificare ad un livello di significatività dello 0.01 la legittimità della casa automobilistica. Bisogna decidere tra le due ipotesi H0:p = 0.9 H1:p < 0.9 f = 400/500 = 0.8 ∝ . = 0.01 z0.01 = - 2.33 dalla tabella Z = 0.8 – 0.9 / radice 0.9 * 0.1 / 500 = - 7,45 i=1 Linearità delle variabili: si ha linearità nelle variabili se X appare come indice 1 e non è moltiplicato o diviso per un’altra variabile. Ipotesi di varianza costante: Omoschedasticità La varianza della v.c. Yi rimane costante al variare di xi quindi non dipende da xi. Ipotesi di normalità (ipotesi forte): gli errori hanno una distribuzione normale, la variabile Y ha una distribuzione normale. Ipotesi di indipendenza: questa condizione stabilisce che ogni dato statistico non è influenzato dall’altro. Ipotesi sulla variabile esplicativa (ipotesi debole): la variabile Y è considerata una v.c., mentre le modalità distinte della variabile X sono di natura deterministica, cioè fissate dal ricercatore. 3 Stima dei parametri: metodo dei minimi quadrati Con l’analisi di regressione si vogliono stimare i coefficienti di regressione sulla base di n osservazioni campionarie. Estratto un campione casuale si considera il modello lineare: yi = b0 + b1xi + ei = yi + ei L’obiettivo dell’analisi di regressione lineare è di trovare la retta che meglio si adatta ai dati disponibili. Una tecnica matematica per individuare tale retta è il metodo dei minimi quadrati, ossia si minimizza la somma dei quadrati degli scarti tra i valori osservati e quelli teorici b0= y – b1x b1 = COD(X,Y) / DEV (X) = ∑n i=1 xiyi – nxy / ∑n xi2 – nx2 4 Proprietà retta minimi quadrati Le proprietà della retta sono:            È l’unica retta che minimizza la somma dei quadrati dei residui;            La retta passa per il punto media di x e media di y come centro di gravità;            La somma dei residui è uguale a 0;            La somma dei valori osservati è uguale alla somma dei valori teorici;            Il coefficiente angolare indica la variazione di y in corrispondenza di una variazione unitaria di x. 5 Proprietà degli stimatori dei minimi quadrati Al variare di b0 b1 descrivono due v.c. che possono essere considerati come stimatori naturali. Le caratteristiche di questi stimatori sono: E(B1)=β1 E(B0)=β0 La somma dei quadrati dei residui è indicato con SSE. Al variare del campione SSE varia e descrive una v.c. SSE* il cui valore atteso è: E(SSE*) = (n-2)σ2 Uno stimatore corretto di σ2 è: MSE* = SSE* / n-2 E(MSE*) = σ2 Proprietà dell’efficienza degli stimatori dei minimi quadrati. Teorema di Gauss-Markov Si può dimostrare che, nella classe degli stimatori lineari e corretti, gli stimatori dei minimi quadrati sono i più efficienti, cioè, con varianza minima (BLUE). CAPITOLO 31 “DISTRIBUZIONI DI FREQUENZA” La distribuzione di frequenze è il calcolo delle frequenze per ciascun valore o categoria della variabile. Per rappresentare i dati di un’indagine statistica si possono utilizzare le seguenti tipologie:            Le distribuzioni di frequenze;                                     Le serie storiche;            Le serie territoriali;                                     Le m atrici dei dati. CAPITOLO 32 “LE PRINCIPALI STATISTICHE DESCRITTIVE” L’obiettivo di una misura di posizione è quello di sintetizzare in un singolo valore numerico l’intera distribuzione di frequenza per effettuare confronti nel tempo, nello spazio o tra circostanze differenti. Essi ci forniscono informazioni sulla centralità del nostro insieme di dati, ossia ci indicano il centro della distribuzione. Gli indici di posizione sono: la media, la mediana, la moda, il valore centrale.            La media aritmetica è influenzata dai valori estremi anomali e può non coincidere con nessuno dei valori oggetto di analisi;            La media geometrica si utilizza nei casi in cui la variabile si modifica tramite proporzioni ed è utilizzata nel calcolo del tasso di rendimento medio di un capitale in funzione del tempo;            La mediana è la modalità dell’unità statistica che occupa il posto centrale nella distribuzione ordinate delle osservazioni.            La moda è la modalità a cui corrisponde la massima frequenza assoluta o relativa ed è quindi un indice per governare, cioè per minimizzare gli scontenti. CAPITOLO 33 “DALLE TENDENZE CENTRALI ALLA VARIABILITA'” Le proprietà degli indici di posizione sono:            Proprietà moltiplicativa: qualora una variabile statistica x presenti un cambiamento di “scala” anche l’indice di posizione comporta un uguale cambiamento;            Proprietà di monotonicità : se una variabile statistica y presenta valori corrispondenti maggiori o uguali a quelli una variabile statistica x allora l’indice di posizione di y non è inferiore a quello di x;            Proprietà di linearità: se una variabile statistica z è legata ad altre variabili da una relazione lineare, allora l’indice di posizione gode della proprietà di linearità. Un aspetto importante della mediana è la sua capacità di essere resistenti alla presenza di valori atipici, eccezionali, errati. Esso è un indice per decisioni che implicano costi da minimizzare, infatti minimizza la somma degli scarti assoluti. La media è un indice di equilibrio generale, e minimizza i rischi complessivi minimizzando i quadrati degli scarti , attribuendo particolarmente rilievo agli estremi rispetto ai valori centrali. Per un analisi esaustiva di una distribuzione bisogna calcolare tuttavia la variabilità del fenomeno, come il campo di variazione e la varianza. Questi indici descrivono la variabilità con unico valore che ne sintetizza le caratteristiche e ci dicono in che modo essi sono disposti intorno all’indice di tendenza centrale. La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità. Tra gli indici di variabilità si considera: - il campo di variazione = max(X) – min(X) Esso è influenzabile anche da un solo valore atipico, edè quindi un po’ grossolano. L’indice più importante per misurare la variabilità è datodalla varianza. CAPITOLO 34 “MISURE DI VARIABILITA' E INDICI DI DISPERSIONE” 1 Principali misure di variabilità Le misure di variabilità (o dispersione) sono: – Campo di variazione (o range) – Differenza interquartile (quartili e altri indici di posizione:decili, percentili) – Scostamento semplice medio – Varianza e deviazione standard (scarto quadratico medio) – Coefficiente di variazione Il range si ottiene facendo la differenza tra il minimo e il massimo (calcolabile solo su scala metrica). Es.: risultati senza farmaco= 2,2,3,4,5,5,7; range: (7–2)=5; con farmaco = 1,1,1,1,8,8,8; range: (8-1)=7 Limiti: prende in considerazione solo i valori estremisenza tenere conto dei valori intermedi e delle frequenze.Es. 2,2,3,4,5,5,7,20; range=18 Range parziale: calcolato togliendo gli outliers (anomali rispetto alla distribuzione). Es. 2,2,3,4,5,5,7 (tolgo 20 perché outlier); range=5 DIFFERENZA INTERQUARTILE I quartili corrispondono ai valori che dividono inquattro parti la distribuzione dei dati. Al di sotto del primo quartile (Q1) c’è il 25% dei casi Al di sotto del secondo (Q2) il 50% (è la mediana!) Al di sotto del terzo (Q3) il 75% Calcolando la differenza tra il terzo e il primo quartile siottiene la differenza interquartile (DI= Q3 – Q1). Tra i suoi limiti: la bassa considerazione di casi centrali ed estremi. 2 Misure di deviazione della media E’ possibile calcolare la deviazione (o scarto) di ciascun valore dalla media e poi trovare il valore medio di tali deviazioni, dividendo la somma di tutti gli scarti per il numero delle nostre osservazioni. La somma di tutti gli scarti dalla media risulta sempre uguale a zero (la M è il baricentro della distribuzione). Es. 3,5,6,7,9 Media = 6 Calcolo dello scostamento semplice medio(le differenze sono in valore assoluto): (3-6=3)+(5-6=1)+(6-6=0)+(7-6=1)+(9-6=3) = 8:5 = 1,6 La varianza è la media degli scarti al quadrato tra i dati e la M. È nulla quando i dati sono tutti uguali (non c’è variazione) e aumenta al crescere della variabilità. Maggiore è la s², più i casi sono dispersi attorno alla M, minore è la s² più i casi sono concentrati attorno alla M. Es. 3,5,6,7,9 Media = 6 Calcolo di s² (3-6=3)² + (5-6=1)² + (6-6=0)² + (7-6=1)² + (9-6=3)² = 20 / 5 = 4 •La varianza fornisce la misura sintetica di quanto le unità differiscono dalla media aritmetica. LIMITE: è espressa nell’unità di misura del fenomeno elevata al quadrato. Essa non possiede un significato fisico ma è solo un importante indice utile per fini statistici. –y=mx+qDove m è il coeff. angolare e q l’intercetta CAPITOLO 41 “SERIE STORICHE E MEDIE MOBILI” Una serie storica è costituita dai dati osservati a intervalli regolari di tempo (esempio: il numero di passeggeri trasportati ogni mese dalle ferrovie, il prezzo di chiusura giornaliero di un’azione). Una serie storica o temporale è un insieme di dati costituiti da una sequenza di osservazioni su un fenomeno d’interesse X, effettuati in istanti diversi o intervalli di tempo consecutivi. Per un’analisi semplificata delle serie storiche si cerca di individuare la componente tendenziale di fondo del fenomeno, il trend ciclo, utilizzando l’analisi di regressione o le medie mobili. L’obiettivo principale è quello di eliminare i valori anomali, componente erratiche e stagionali. La media mobile di ordine n consiste in una serie di medie aritmetiche calcolate su n periodi contigui. La media mobile ha un’azione smoothing perché tende a ridurre le irregolarità di tipo casuale presenti in una serie storica, riducendo la variabilità ed incrementando le capacità previsive del modello. CAPITOLO 42 “PRINCIPALI STRUTTURE DEI DATI IN INFORMATICA E STATISTICA” – tipo l’insieme degli elementi su cui si effettua la scelta dell’informazione; – valore lo specifico elemento scelto dall’insieme; – attributo (o variabile o categoria) un nome mnemonico abbreviato del tipo. TIPI DI DATI –dati semplici o elementari (numeri o caratteri dell’alfabeto) –dati aggregati i dati costituiti da più dati elementari – dati strutturati i dati costituiti da dati elementari aventi una struttura o modello o schema di aggregazione –dati complessi i dati strutturati formati da strutture complesse. DATI ELEMENTARI –tipo reale 3.14 –tipo intero 134 –tipo carattere A B ... (^ –tipo booleano 0 1 CAPITOLO 43 “LA PROBABILITA'” 1 Definizione – La probabilità di un evento E è il rapporto tra il numero dei casi favorevoli al suo verificarsi ed il numero dei casi possibili, purché siano tutti egualmente possibili (ma lo svantaggio di questa definizione è proprio la definizione vaga di egualmente possibili). Quindi, secondo la concezione classica occorre rapportare i casi favorevoli all’evento ed il numero totale dei casi egualmente possibili P(S) = Ns / N 2 La teoria frequentista della probabilità Secondo la concezione frequentista, la nozione di probabilità nelle stesse condizioni dell’evento aleatorio è un’astrazione dell’idea di frequenza relativa con la quale l’evento si verifica in una lunga serie di prove sperimentali eseguite fn(E) = n(E) / n Secondo tale definizione (statistica) la probabilità stimata di un evento è data dalla frequenza relativa del presentarsi dell’evento quando il numero delle osservazioni è moltogrande. La probabilità è il limite della frequenza relativa quando il numero delle osservazioni cresce indefinitamente. Es. Se in 1000 lanci di una moneta viene testa 465 volte la frequenza relativa delle teste è 465/1000. Quest’ultima definizione pone difficoltà perché in realtà può non esistere un numero che possa essere assunto come limite. Per tale ragione la moderna teoria della probabilità è stata sviluppata asintoticamente: la probabilità è un concetto indefinito, come il punto e la retta. 3 La variabile casuale Una variabile casuale è una variabile che può assumere valori diversi in dipendenza da qualche fenomeno aleatorio, è una legge che informa sui risultati di un evento prima che l’esperimento sia realizzato. Ad es. il risultato del lancio di un dado può essere considerato e modellato come una variabile casuale che può assumere sei valori. 4 Postulati del calcolo della probabilità Postulato 1. Pr (E)≥0 Postulato 2. Pr(θ)=1 )=1 con θ) dove θ è i l par am et r o incognit o da s ti m ar e. che rappresenta l’evento certo Postulato 3. afferma che la probabilità dell’unione di una infinità numerabile di eventi incompatibili è la somma delle singole probabilità 5 Alcune proprietà semplici –Se un evento E può essere scomposto in due eventi allora P(E) = P(E1) + P(E2) – Se E1 ⊂ E2 cioè E1 si realizza ed allora E2 si realizza, allora 5. E2 cioè E1 si realizza ed allora E2 si realizza, allora P(E1) < P(E2) – Per ogni evento E P(E) < 1 –Se E è il complemento di E P(E) = 1 – P(E) –E1\E2 indica che E1 si realizza senza che E2 si realizzi 6 Teorema delle probabilità totali • P(A∪ AB) = P(A) + P(B) - P(A∩B) • A∪ AB = (A\B )∪ A (A∩B) ∪ A (B\A) • P(A∪ AB) = P(A\B) + P(A∩B) + P(B\A) → P(A∪ AB) = P(A) – P(A∩B) + P(A∩B) + P(B) – P(A∩B) = P(A) + P(B) – P(A∩B) CAPITOLO 48 “L'INFERENZA E IL CAMPIONAMENTO” 1 L'inferenza statistica Diciamo inferenza statistica quel processo logico e operativo mediante il quale, sulla base di un gruppo di osservazioni o di esperimenti (campione), si perviene a certe conclusioni la cui validità per un collettivo più ampio (popolazione) è espressa in termini probabilistici.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved