Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

STATISTICA DESCRITTIVA (univariata e multivariata), Appunti di Statistica Applicata

Tutto sulla statisctica descrittiva, formule teoria e svoglimento esercizi per l'esame.

Tipologia: Appunti

2018/2019

Caricato il 05/07/2019

AlexSulkja
AlexSulkja 🇮🇹

2 documenti

1 / 14

Toggle sidebar

Anteprima parziale del testo

Scarica STATISTICA DESCRITTIVA (univariata e multivariata) e più Appunti in PDF di Statistica Applicata solo su Docsity! Usualmente un'analisi statistica inizia con una prima esplorazione del data set, con l'obiettivo di: ● capire come i dati sono stati raccolti e se sono di natura osservazionale o sperimentale; ● individuare le unità statistiche, discutere la presenza di dati mancanti ed, eventualmente, ripulire il data set; ● codificare e riorganizzare i dati nella forma più conveniente per l'analisi; ● utilizzare metodi grafici e numerici per ricavare alcune informazioni preliminari sui dati osservati (analisi esplorativa dei dati). VARIABILI STATISTICHE Una variabile è una caratteristica delle unità statistiche che, al variare dell'unità, può assumere una pluralità di valori. Le modalità di una variabile sono i valori che essa può assumere (e si presumono noti preliminarmente). Sono, in genere, aggettivi, valori numerici, espressioni verbali. Le variabili si possono classificare nel seguente modo: ● VARIABILI QUALITATIVE ( CATEGORIALI ) , se le modalità sono espresse in forma verbale. In particolare, si individuano: ○ variabili qualitative sconnesse (nominali) , per le quali non è possibile individuare un ordinamento naturale delle modalità (ad esempio, Genere, Colore degli occhi, Religione professata); ○ variabili qualitative ordinali , per le quali è invece possibile individuare un ordinamento naturale delle modalità (ad esempio, Livello di istruzione). ● VARIABILI QUANTITATIVE ( NUMERICHE ) , se le modalità sono espresse in forma numerica (da non confondere con le codifiche numeriche). In particolare, si individuano: ○ variabili quantitative discrete , se Y è un insieme nito o al più numerabile (ad esempio, Età in a.c., Numero di gli); ○ variabili quantitative continue , se Y è un insieme continuo (ad esempio, Distanza, Altezza, Reddito). Si noti che la continuità va intesa come potenziale continuità o come opportuno riferimento semplificativo. Una variabile quantitativa può essere con scala di intervalli, se non esiste uno zero naturale e non arbitrario. Una variabile quantitativa è con scala di rapporti se invece esiste uno zero con tali caratteristiche. Ad esempio, la variabile Temperatura, in gradi centigradi, è su scala di intervalli poiché lo zero è convenzionale. Quindi, non ha senso affermare che la temperatura di 30◦ è due volte più calda della temperatura di 15◦. La variabile Reddito invece è su scala di rapporti. In questo caso ha senso affermare che un reddito di 20000 euro è il doppio di un reddito di 10000 euro. RAPPRESENTAZIONE GRAFICA 02. Rappresentazione grafica INDICI SINTETICI È interessante indagare i seguenti aspetti dei dati: ● la posizione , cioè il centro dei dati; ● la variabilità , cioè la dispersione dei dati; ● la forma della distribuzione di frequenza, considerando in particolare la simmetria e la curtosi (pesantezza delle code). Si presenteranno alcuni indici sintetici che descrivono la posizione, la variabilità, la simmetria e la curtosi di una variabile statistica. Nel caso in cui i dati derivino da un indagine campionaria, gli indici vengono detti indici campionari. MEDIA ARITMETICA: Un aspetto rilevante dei dati è rappresentato dal suo centro , cioè dal punto attorno al quale le modalità osservate si dispongono. La media aritmetica, che è l'indice di posizione più noto, si può calcolare per una variabile quantitativa Y e si indica con E(Y ), con µY o semplicemente con µ. La media aritmetica risente della presenza di osservazioni anomale o estreme (non è un indice robusto). La media aritmetica non si calcola per dati categoriali. MEDIANA: La mediana si può calcolare per una variabile qualitativa ordinale o quantitativa Y e si indica con y0.5. È quel valore che, rispetto all'ordinamento non decrescente delle osservazioni, le divide in due parti uguali. È il valore centrale. MEDIANA DATI GREZZI: (n + 1)/2, se n è dispari Lo scarto quadratico medio di Y , indicato con σY o con σ, è la radice quadrata aritmetica (l'unica positiva) della varianza è nella stessa unità di misura di Y . COEFFICIENTE DI VARIAZIONE: Con riferimento a variabili statistiche che assumono solo valori positivi si può introdurre un indice adimensionale di variabilità detto coeciente di variazione È un indice di variabilità relativa, nel senso che misura la variabilità dei dati tenendo conto dell'ordine di grandezza del fenomeno. Essendo un numero puro, permette il confronto tra insiemi di dati diversi, ad esempio, con unità di misura diverse o con valori medi molto distanti. Una variabile statistica con media nulla e varianza unitaria è detta standardizzata. SIMMETRIA E ASSIMETRIA Una distribuzione di frequenza (ad esempio rappresentata con un istogramma o un diagramma a bastoncini) è simmetrica se la sua metà di destra si sovrappone alla sua metà di sinistra (dove la metà è identificata dalla mediana). Un istogramma asimmetrico presenta una coda più lunga dell'altra. Se la coda destra è più lunga, si parla di asimmetria positiva , se la coda sinistra è più lunga si ha asimmetria negativa . Si noti che: ● se l'asimmetria è positiva: media > mediana; ● se c'è simmetria; media ≈ mediana; ● se l'asimmetria è negativa: media < mediana. Per una distribuzione di frequenza unimodale e simmetrica si ha che: media ≈ mediana ≈ moda. INDICE DI SIMMETRIA: Data una variabile statistica quantitativa Y , con media aritmetica E(Y ), l'indice indice di simmetria più utilizzato è dove è lo scarto quadratico medio di Y . Se la distribuzione di frequenza è simmetrica , γY ≈ 0; se c'è asimmetria negativa , γY < 0; se c'è asimmetria positiva , γY > 0. CURTOSI: La curtosi corrisponde ad un allontanamento dalla distribuzione di frequenza normale (o gaussiana), che viene considerata come riferimento. Una distribuzione platicurtica ( ipornormale ) presenta un maggiore appiattimento e code leggere , mentre una distribuzione leptocurtica ( ipernormale ) manifesta un maggiore allungamento e code pesanti. Istogramma , densità normale e stima della densità nel caso di distribuzione leptocurtica (sinistra), distribuzione normocurtica (centro) e distribuzione platicurtica (destra). INDICE DI CURTOSI: Data una variabile statistica quantitativa Y , con media aritmetica E(Y ), l'indice indice di curtosi più utilizzato è dove è lo scarto quadratico medio di Y . Se la distribuzione di frequenza è normocurtica , βY ≈ 3; se è leptocurtica , βY > 3; se è platicurtica, βY < 3. STATISTICA MULTIVARIATA DISTRIBUZIONE DI FREQUENZA: Si considerano due variabili X e Y . La loro osservazione su n unità statistiche fornisce i dati grezzi (xi,yi), i = 1,...,n. A partire dai dati grezzi si possono determinare le distribuzioni di frequenza assoluta e relativa che si possono distinguere in: ● distribuzione congiunta , se si considerano le frequenze delle unità che presentano congiuntamente la modalità xr, r = 1,...,m della prima variabile e la modalità ys, s = 1,...,k, della seconda; ● distribuzione marginale , se si considera la distribuzione di frequenza relativa ad una singola variabile; ● distribuzione condizionata , se si considera la distribuzione di frequenza relativa ad una singola variabile considerando soltanto le unità statistiche che assumono una determinata modalità dell'altra. Si può operare allo stesso modo anche se si hanno modalità raggruppate in classi. STUDIO DELLA DIPENDENZA: Viceversa, tanto maggiori sono i valori osservati di χ2, tanto più le due variabili saranno connesse (statisticamente dipendenti) . Il valore massimo dell'indice è nmin(m−1,k−1). I valori m e k indicano, rispettivamente, il numero di righe e di colonne della tabella di contingenza. Per valutare la forza dell'eventuale dipendenza tra X e Y si può determinare l'indice χ2 normalizzato , che si ottiene dividendo l'indice assoluto per il suo massimo. DIPENDENZA IN MEDIA : Le variabili vengono analizzate in modo asimmetrico perché si studia la dipendenza in media della variabile quantitativa Y dai livelli della variabile qualitativa X. Due variabili Y ed X si diranno indipendenti in media se la media condizionata di Y dato X è la stessa per ogni valore assunto da X, ovvero se per ogni possibile xr , r = 1,...,m. Viceversa, se le varie medie condizionate sono diverse, allora le due variabili si diranno dipendenti in media. Se due variabili sono in dipendenti allora sono anche indipendenti in media, mentre non è vero il viceversa. COVARIANZA: Si vuole misurare l'intensità del legame lineare tra due variabili quantitative e la direzione della relazione. Una misura della dipendenza lineare fra due variabili quantitative X e Y , con media E(X) e E(Y), è data dalla covarianza In alternativa, si può calcolare utilizzando la formula per il calcolo Spesso si indica con σXY , che ne richiama il legame con la varianza che corrisponde a COEFFICIENTE DI CORRELAZIONE LINEARE: Una misura normalizzata della dipendenza lineare è il coefficiente di correlazione lineare definito da Dalla diseguaglianza di Cauchy-Schwarz si ha che Se ρXY > 0 c'è relazione lineare crescente fra X e Y ; nel caso in cui ρXY = 1 i punti (xi,yi) sono allineati su una retta di pendenza positiva. Se ρXY < 0 c'è relazione lineare decrescente fra X e Y ; nel caso in cui ρXY = −1 i punti (xi,yi) sono allineati su una retta di pendenza negativa. Il valore assoluto |ρXY| indica la forza del legame lineare. Se ρXY = 0, c'è assenza di legame lineare tra X e Y , che sono dette incorrelate (ma non necessariamente indipendenti). REGRESSIONE LINEARE SEMPLICE: Si analizzano congiuntamente di due o più variabili quantitative . È una generalizzazione dell'analisi di dipendenza in media. In generale, con l'analisi di regressione si studia la media condizionata di una variabile risposta Y in funzione di una ( regressione semplice ) o più ( regressione multipla ) variabili esplicative X1,...,Xp, p ≥ 1. Si considera la regressione lineare semplice , dove tra la variabile risposta Y e l'unica variabile esplicativa X si ipotizza una relazione lineare. Il modello di regressione lineare semplice (modello lineare) è definito dall'equazione dove (xi,yi), i = 1,...,n, sono i valori osservati per la variabile dipendente Y e per la variabile esplicativa X. I valori , i = 1,...,n, specificano gli errori , mentre a e b sono i coefficienti di regressione , con a l'intercetta e b il coefficiente angolare della retta di regressione y = a + bx. L'interesse è rivolto al comportamento complessivo e non a ciò che avviene per le singole coppie di osservazioni. Il modello si intende lineare nei parametri , non nella variabile esplicativa. non è un modello lineare in quanto il parametro a compare anche elevato al quadrato. METODO DEI MINIMI QUADRATI: I coefficienti di regressione non sono noti; sono parametri da stimare sulla base dei dati osservati, di modo che la retta di regressione si adatti bene alle osservazioni. Avendo osservato n coppie di valori (yi,xi), i = 1,...,n, si hanno n valori osservati anche per l'errore di regressione I valori i, i = 1,...,n,, detti residui di regressione , rappresentano gli scostamenti fra le osservazioni e il modello teorico. Per stimare i coecienti di regressione può essere ragionevole cercare i valori per a e b che minimizzano (non è l'unica possibilità) la somma dei quadrati dei residui Il metodo presentato è detto metodo dei minimi quadrati e le stime ottenute, indicate con ˆ , sono le stime dei minimi quadrati che corrispondono a
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved