Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica descrittiva, Formulari di Statistica Descrittiva

Formulario di statistica descrittiva con riassunti di teoria

Tipologia: Formulari

2019/2020

In vendita dal 09/12/2020

virginia-giribone
virginia-giribone 🇮🇹

4.3

(4)

7 documenti

Anteprima parziale del testo

Scarica Statistica descrittiva e più Formulari in PDF di Statistica Descrittiva solo su Docsity! FENOMENO Ambito di interesse CARATTERE Informazioni che voglio osservare es_ campo di lavoro dei medici MODALITA' Articolazioni del carattere es_ medico di base, ortopedico… UNITA' STATISTICA Unità di rilevazione es_ medico COLLETTIVO STATISTICO Insieme delle unità statistiche es_ insieme dei medici I caratteri si dividono in QUALITATIVI o MUTABILI (A, B…SCONNESSI ORDINABILI QUANTITATIVI o VARIABILI (X, DISCRETI CONTINUI PROTOCOLLO ELEMENTARE Insieme dei valori assunti dal carattere oggetto di indagine DISTRIBUZIONE DI FREQUENZA Si ottiene in seguito al conteggio di un protocollo elementare --> ottengo le frequenze assolute associate alla modalità. Nel caso in cui questo conteggio dia valori troppo grandi o nel caso di una variabile continua si ricorre alla distribuzione in classi (non necessariamente uguali tra loro) FREQUENZA ASSOLUTA Conteggio del protocollo elementare --> n_i --> sommatoria delle n_i = n FREQUENZA RELATIVA Misura l'incidenza della modalità i-esima sul totale --> f_i = n_i / n FREQUENZA CUMULATA (assoluta o relativa) Somma delle frequenze che si succedono. E' significativa solo per caratteri quantitativi o qualitativi ordinati. Per le frequenze cumulate relative si parla anche di FUNZIONE DI RIPARTIZIONE EMPIRICA Se abbiamo delle classi si parla di AMPIEZZA (W_i) Differenza degli estremi della classe DENSITA' (h_i) n_i / W_i --> elementi della classe / ampiezza della classe I dati si possono rappresentare con GRAFICO A BARRE La larghezza delle barre è uguale per tutte le modalità e l'altezza è data dalla frequenza assoluta ISTOGRAMMA La base delle barre è data dall'ampiezza della classe, mentre l'altezza è data dalla densità della classe. L'area dei rettangoli sarà quindi la frequenza assoluta. L'istogramma si usa quando si hanno classi con ampiezza diversa e si vuole mettere in evidenza questo sbilanciamento Quando si hanno delle situazioni differenti si costruiscono dei RAPPORTI DI COMPOSIZIONE parte / tutto --> varia sempre tra 0 e 1 DI COESISTENZA relazione tra due classi o modalità che coesistono DI DERIVAZIONE si calcolano su fenomeni di flusso: è il rapporto tra una variabile nel tempo e il valore fisso che lo ha generato (relativo a un momento specifico) VALORI DI SINTESI o DI POSIZIONE MODA o VALORE MODALE E' la modalità prevalente --> corrisponde alla massima frequenza (assoluta o relativa). Si può definire sia per caratteri qualitativi che quantitativi. Se si hanno classi con ampiezza diversa la moda si ha per la classe con maggior densità La moda minimizza la somma degli scarti di ordine 0 MEDIANA Il carattere deve essere almeno qualitativo ordinabile. E' il valore che occupa la posizione centrale nella successione ordinata dei valori (prima e dopo ci deve essere il 50% dei valori) Se n è dispari: posizione mediana = (n+1)/2 Se n è pari: posizione mediana = n/2 e (n/2)+1. Se il carattere è quantitativo per trovare la mediana si fa la media dei valori corrispondenti a n/2 e (n/2)+1 Se analizzo una distribuzione di frequenza mi servo della frequenza cumulata (la mediana è la modalità del valore la cui frequenza cumulata contiene l'n mediano) Se ho una distribuzione in classi posso trovare o la classe mediana o il valore mediano. Per trovare il valore mediano devo impostare la proporzione --> ampiezza classe : numerosità classe = x : posizione mediana --> x è il valore da aggiungere all'estremo inferiore della classe per trovare la mediana La mediana minimizza la somma dei valori assoluti degli scarti MEDIE MEDIA ARITMETICA E' un valore teorico (non è detto che si ottenga un valore osservato). Identifica la condizione di equivarianza x_medio = sommatoria x_j / n Proprietà Si annulla la somma algebrica degli scarti La media aritmetica minimizza la somma degli scarti al quadrato Se ho una distribuzione di frequenza devo eseguire una media ponderata o pesata: x_medio = [sommatoria (x_i*n_i)/n] = sommatoria x_i*f_i Proprietà associativa: se ho g gruppi ognuno dei quali con la sua media, la media totale è: sommatoria (x_medio del gruppo*f_i del gruppo) Equivarianza rispetto alle trasformazioni lineari: se ho y = a + bx --> y_medio = a + b*x_medio MEDIE POTENZIATE DI ORDINE P _pM(X) = [sommatoria x_i^P / n )^(1/P) per un protocollo elementare P = -1 MEDIA ARMONICA [sommatoria (f_i/x_i)]^(-1) P = 0 MEDIA GEOMETRICA produttoria x_i^f_i oppure [produttoria x_i^n_i]^(1/n) P = 1 MEDIA ARITMETICA P = 2 MEDIA QUADRATICA Vale quindi la relazione MISURE DI VARIABILITA' Si possono accompagnare ai valori di sintesi fornendo informazioni aggiuntive MISURE DI OMOGENEITA' ED ETEROGENEITA' Sono gli unici che si possono calcolare sia per caratteri qualitativi che quantitativi (gli altri solo per i quantitativi) Massima omogeneità se tutte le unità presentano la stessa modalità Massima eterogeneità se tutte le modalità hanno uguale frequenza x_i x_0 x_1 x_2 omogeneità GINI sommatoria f_i^2 ENTROPIA sommatoria (f_i*log f_i) Indici di eterogeneità normalizza--> divido per il valore massimo, quindi avrò degli indici che assumono valori compresi tra 0 e 1 --> RANGE x_max - x_min Sono i baffi del box plot DIFFERENZA INTERQUARTILE Q_3 - Q_1 E' il box del box plot Per calcolare Q_3 e Q_1 bisogna calcolare la mediana nella prima e nella seconda metà DIFFERENZA DELLE MEDIE ASSOLUTE DI ORDINE P Occorre confrontare ogni coppia possibile di dati, eseguire la doppia sommatoria e dividere per n^2 SCOSTAMENTO MEDIO DI ORDINE P DA m (valore di posizione) ᴾS_m = sommatoria [(|x_j - m |^P) *f_i]^(1/P) P = 1 scostamento semplice medio dalla mediana Come valore di sintesi si usa la mediana perché minimizza la somma degli scarti in valore assoluto P = 2 Come valore di sintesi si usa la media aritmetica perché minimizza la somma degli scarti di ordine 2 Il numeratore è detto DEVIANZA dev(x) / n = VARIANZA Proprietà varianza: Si ha un insieme di medie potenzialmente infinite che soddisfano l'ipotesi di internalità di Cauchy: x(1) ≤ _pM(X) ≤ x(n) --> quando P tende a -∞, la media di ordine P tende al minimo, quando P tende a +∞, la media di ordine P tende al massimo media armonica ≤ media geometrica ≤ media aritmetica ≤ media quadratica 1/k ≤ O_1 ≤ 1 - log k ≤ O_2 ≤ 0 ᴾS_m = sommatoria [(|x_j - m |^P) / n]^(1/P) Si parla di scostamento quadratico medio da x_medio oppure scarto quadratico medio oppure DEVIAZIONE STANDARD Il totale delle modalità si indica con k Si ottiene in seguito al conteggio di un protocollo elementare --> ottengo le frequenze assolute associate alla modalità. Nel caso in cui questo conteggio dia valori troppo grandi o nel caso di una variabile continua si ricorre alla distribuzione in classi (non necessariamente uguali tra loro) Somma delle frequenze che si succedono. E' significativa solo per caratteri quantitativi o qualitativi ordinati. Per le frequenze cumulate relative si parla anche di FUNZIONE DI RIPARTIZIONE EMPIRICA n_i / W_i --> elementi della classe / ampiezza della classe La larghezza delle barre è uguale per tutte le modalità e l'altezza è data dalla frequenza assoluta La base delle barre è data dall'ampiezza della classe, mentre l'altezza è data dalla densità della classe. L'area dei rettangoli sarà quindi la frequenza assoluta. L'istogramma si usa quando si hanno classi con ampiezza diversa e si vuole mettere in evidenza questo sbilanciamento parte / tutto --> varia sempre tra 0 e 1 relazione tra due classi o modalità che coesistono si calcolano su fenomeni di flusso: è il rapporto tra una variabile nel tempo e il valore fisso che lo ha generato (relativo a un momento specifico) E' la modalità prevalente --> corrisponde alla massima frequenza (assoluta o relativa). Si può definire sia per caratteri qualitativi che quantitativi. Se si hanno classi con ampiezza diversa la moda si ha per la classe con maggior densità Il carattere deve essere almeno qualitativo ordinabile. E' il valore che occupa la posizione centrale nella successione ordinata dei valori (prima e dopo ci deve essere il 50% dei valori) Se n è pari: posizione mediana = n/2 e (n/2)+1. Se il carattere è quantitativo per trovare la mediana si fa la media dei valori corrispondenti a n/2 e (n/2)+1 Se analizzo una distribuzione di frequenza mi servo della frequenza cumulata (la mediana è la modalità del valore la cui frequenza cumulata contiene l'n mediano) Se ho una distribuzione in classi posso trovare o la classe mediana o il valore mediano. Per trovare il valore mediano devo impostare la proporzione --> ampiezza classe : numerosità classe = x : posizione mediana --> x è il valore da aggiungere all'estremo inferiore della classe per trovare la mediana E' un valore teorico (non è detto che si ottenga un valore osservato). Identifica la condizione di equivarianza Se ho una distribuzione di frequenza devo eseguire una media ponderata o pesata: x_medio = [sommatoria (x_i*n_i)/n] = sommatoria x_i*f_i : se ho g gruppi ognuno dei quali con la sua media, la media totale è: sommatoria (x_medio del gruppo*f_i del gruppo) : se ho y = a + bx --> y_medio = a + b*x_medio _pM(X) = [sommatoria x_i^P * f_i )^(1/P) per una distribuzione di frequenza Si usa quando ho a che fare con delle intensità, quindi nei casi in cui 1/x_i sia un valore significativo [produttoria x_i^n_i]^(1/n) oppure e^[sommatoria (log x_i*n_i)/n] Si usa quando ho a che fare con delle progressioni, quindi considero gli incrementi x_(i+1) / x_i, che saranno n-1 Si usa quando ha senso elevare le misure al quadrato, ad esempio se voglio rendere positivi dei valori negativi Sono gli unici che si possono calcolare sia per caratteri qualitativi che quantitativi (gli altri solo per i quantitativi) Massima omogeneità se tutte le unità presentano la stessa modalità x_i f_i Massima eterogeneità se tutte le modalità hanno uguale frequenza x_0 0 f_i x_1 0 1/3 x_2 1 1/3 1/3 eterogeneità 1 - sommatoria f_i^2 0 ≤ E_1 ≤ 1-(1/k) - sommatoria (fi*log f_i) 0 ≤ E_2 ≤ log k --> divido per il valore massimo, quindi avrò degli indici che assumono valori compresi tra 0 e 1 --> E_1 / 1-(1/k) E_2 / log k Per calcolare Q_3 e Q_1 bisogna calcolare la mediana nella prima e nella seconda metà Occorre confrontare ogni coppia possibile di dati, eseguire la doppia sommatoria e dividere per n^2 Si usa raramente per protocollo elementare ᴾS_m = sommatoria [(|x_j - m |^P) *f_i]^(1/P) per distribuzione di frequenza scostamento semplice medio dalla mediana Come valore di sintesi si usa la mediana perché minimizza la somma degli scarti in valore assoluto Come valore di sintesi si usa la media aritmetica perché minimizza la somma degli scarti di ordine 2 La varianza ha come formula calcolatoria _2M^2(X) - (x_medio)^2 Si ha un insieme di medie potenzialmente infinite che soddisfano l'ipotesi di internalità di Cauchy: x(1) ≤ _pM(X) ≤ x(n) --> quando P tende a -∞, la media di ordine P tende al minimo, quando P tende a +∞, la media di ordine P tende al massimo ≤ media geometrica ≤ media aritmetica ≤ media quadratica 1/k ≤ O_1 ≤ 1 - log k ≤ O_2 ≤ 0 ᴾS_m = sommatoria [(|x_j - m |^P) / n]^(1/P) scostamento quadratico medio da x_medio oppure scarto quadratico medio oppure DEVIAZIONE STANDARD In caso di equidistribuzione σ^2 = 0 E' un indice adimensionale che ci permette di neutralizzare un ordine di grandezza differente Si calcola per caratteri trasferibili, ovvero per quei caratteri per i quali è possibile trasferire concettualmente l'ammontare complessivo del carattere (sommatoria x_j) da un'unità statistica a un'altra Ipotesi di equivarianza --> il carattere x trasferibile è equidistribuito fra le n unit x_i n_i x_medio n n Introduciamo p_j = j / n V_j = frequenza cumulata delle j unità più povere q_j = V_j / V_n = V_j / n*x_medio Il termine n non è incluso nella sommatoria perché si annulla sempre, quindi la sommatoria è da 1 a n-1 … b_h … b_v Dividendo i vari valori per il totale di riga o per il totale di colonna o per n totale si ottengono tre tipi di tabelle differenti che ci permettono di mettere in evidenza diverse caratteristiche … n_1h … n_1v n_10 … … … … … n_ih … n_iv n_i0 Si parla di dati marginali (i totali) e dati condizionati … … … … … … n_uh … n_uv n_u0 … n_0h … n_0v n Rappresenta la dipendenza in distribuzione tra i due caratteri. Vale sia per caratteri quantitativi che qualitativi Si ha perfetta indipendenza quando tutte le frequenze condizionate sono simili tra loro: n_11/n_10 = n_21 / n_20 = … Dire che A è indipendente da B è come dire che B è indipendente da A I dati marginali rimangono invariati doppia sommatoria [(n_ih* - n_ih)^2 / n_ih*] ψ^2 = χ^2 / n {ψ^2 / [(u-1)(v-1)]^(1/2)}^(1/2) 0 ≤ T ≤ 1 T = 0 si ha perfetta indipendenza T = 1 si ha perfetta dipendenza Almeno uno dei due caratteri deve essere quantitativo perché si analizza la variazione della media di uno dei due caratteri al variare dell'altro carattere Occorre calcolare la media di ogni gruppo e poi dev tot = sommatoria (x_i - x_medio)^2 * n_i0 dev entro = sommatoria (x_i - x_medio h)^2 * n_ih dev tra = sommatoria (x_medio h - x_medio)^2 * n_0h Per misurare la dipendenza in media si usa ETA QUADRO η^2 = dev tra / dev totale η^2 = 0 significa che non c'è dipendenza in media η^2 = 1 significa perfetta dipendenza in media Riguarda due caratteri quantitativi tra i quali possa esistere una relazione di tipo causale. Una variabile è detta antecedente (variabile esplicativa o indipendente), l'altra conseguente (variabile dipendente) Vogliamo individuare la relazione che descriva Y al variare di X --> Y = f(x) + e f(x) è la componente deterministica, e è la variabile errore dovuta al fatto che Y non è interamente attribuibile all'effetto di X Si arriva alla teoria della REGRESSIONE (regressione verso la media di Galton) LINEARE (la relazione è riassunta da una retta) Usando poi il metodo dei minimi quadrato per minimizzare la somma degli e_i^2 si ottiene b_0 = costante o intercetta = y_medio - b_1*x_medio b_1 = codev(x,y) / dev(x) = sommatoria (x_i*y_i - n*x_medio*y_medio) / sommatoria (x_i - x_medio)^2 In caso di trasformazioni lineari y = a+bx --> var(y) = b^2 var(x) Scomposizione della devianza: se abbiamo g gruppi, ognuno dei quali con una sua media aritmetica --> dev tot = doppia sommatoria (x_jg - x_medio generale)^2 = dev entro + dev tra = doppia sommatoria (x_jg - x_medio g)^2 + sommatoria (x_medio g - x_medio)^2 *n_j C.V. = σ/x_medio Si tratta di due ipotesi teoriche estreme: l'ipotesi reale è data dall'evidenza empirica (E), che si ottiene dall'osservazione del protocollo elementare di una serie ordinata di x : n_ih = (n_i0 * n_0h)/n 0 ≤ χ^2 ≤ +∞ 0 ≤ η^2 ≤ 1 Si hanno n coppie di punti che si possono rappresentare sul piano cartesiano ottenendo un grafico di dispersione o scatter plot Y al variare unitario di X Si usa quando ho a che fare con delle intensità, quindi nei casi in cui 1/x_i sia un valore significativo Si usa quando ho a che fare con delle progressioni, quindi considero gli incrementi x_(i+1) / x_i, che saranno n-1 Si usa quando ha senso elevare le misure al quadrato, ad esempio se voglio rendere positivi dei valori negativi ≤ _pM(X) ≤ x(n) --> quando P tende a -∞, la media di ordine P tende al minimo, quando P tende a +∞, la media di ordine P tende al massimo Si calcola per caratteri trasferibili, ovvero per quei caratteri per i quali è possibile trasferire concettualmente l'ammontare complessivo del carattere (sommatoria x_j) da un'unità statistica a un'altra q_j è sempre minore o uguale di p_j perché altrimenti non sarebbero le unità più povere = frequenza cumulata delle j unità più povere p_j = q_j se e solo se siamo nell'ipotesi H_1 = V_j / V_n = V_j / n*x_medio Al crescere di j, p_j e q_j sono non decrescenti Il termine n non è incluso nella sommatoria perché si annulla sempre, quindi la sommatoria è da 1 a n-1 Dividendo i vari valori per il totale di riga o per il totale di colonna o per n totale si ottengono tre tipi di tabelle differenti che ci permettono di mettere in evidenza diverse caratteristiche Si parla di dati marginali (i totali) e dati condizionati Dire che A è indipendente da B è come dire che B è indipendente da A T = 0 si ha perfetta indipendenza Almeno uno dei due caratteri deve essere quantitativo perché si analizza la variazione della media di uno dei due caratteri al variare dell'altro carattere 0 significa che non c'è dipendenza in media 1 significa perfetta dipendenza in media Riguarda due caratteri quantitativi tra i quali possa esistere una relazione di tipo causale. Una variabile è detta antecedente (variabile esplicativa o indipendente), l'altra conseguente (variabile dipendente) f(x) è la componente deterministica, e è la variabile errore dovuta al fatto che Y non è interamente attribuibile all'effetto di X b_0 = costante o intercetta = y_medio - b_1*x_medio b_1 = codev(x,y) / dev(x) = sommatoria (x_i*y_i - n*x_medio*y_medio) / sommatoria (x_i - x_medio)^2 dev(x) può anche essere espresso nella sua forma calcolatoria : se abbiamo g gruppi, ognuno dei quali con una sua media aritmetica --> dev tot = doppia sommatoria (x_jg - x_medio generale)^2 = dev entro + dev tra = doppia sommatoria (x_jg - x_medio g)^2 + sommatoria (x_medio g - x_medio)^2 *n_j Si tratta di due ipotesi teoriche estreme: l'ipotesi reale è data dall'evidenza empirica (E), che si ottiene dall'osservazione del protocollo elementare di una serie ordinata di x dev di regressione / dev totale dev(y) o dev totale = sommatoria(y_i - y_medio)^2 dev di regressione o dev spiegata = sommatoria (y_i* - y_medio)^2 R^2 = 0 la retta è parallela all'asse x e uguale a y_medio dev residua (sono i residui e) o di dispersione = sommatoria (y_i - y_i*)^2 R^2 = 1 i punti giacciono tutti sulla retta
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved