Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Data Analysis Della Beffa, Dispense di Statistica

Dispense corso della beffa per laurea magistrale in iulm in marketing

Tipologia: Dispense

2022/2023

Caricato il 05/02/2023

GiuseppeScibilia
GiuseppeScibilia 🇮🇹

5 documenti

Anteprima parziale del testo

Scarica Data Analysis Della Beffa e più Dispense in PDF di Statistica solo su Docsity! IULM Analisi bivariata 1. Elementi di probabilità 1.1. Probabilità. 1.2. Distribuzioni di frequenz: 1.3. Distribuzioni di probabili 14. Distribuzione normale . Livelli di analisi... . Relazione tra due variabili numeriche . Relazione tra una variabile categorica e una numerica Correlazione e differenza in media... . Relazione tra due variabili categoric he . Statistica inferenziale na TAI. Stima puntuale e stima intervallare 7. Verifica di ipotesi: generalità 7.3. Errore diIediIItipo 8. Analisi della varianza .. 8.1. Anova a una via 8.2. Assunzioni del modello . 8.3. Output standard dell’ Anova. 9. Test chi-quadrato 9.1. Output standard del test chi-quadrato BUNDLE IAUAUWN 1. Elementi di probabilità 1.1. Probabilità La probabilità è una misura della possibilità che un evento si verifichi. La probabilità di ottenere testa lanciando una moneta è del 50%, cioè 44, come si può giustificare intuitivamente pensando che le facce sono due e che il risultato può essere indifferentemente una delle due. Un po’ più precisamente si può pensare a questa probabilità come proporzione di teste ottenuta in un grande numero di lanci: numero di teste P° numero di lanci Dopo 10 lanci ci si aspetta che il numero di teste sia circa 5, con una certa approssimazione; dopo 100 lanci ci si aspetta che sia 50, con un’approssimazione migliore, e così via, con l’approssimazione che migliora al crescere del numero di lanci. Più in generale si può dire che la probabilità è il limite cui tende il rapporto numero di casi favorevoli — numero di prove quando il numero di prove tende all’infinito!. La probabilità è quindi un numero compreso tra zero e l: - 0sps<zl - p=1èla probabilità dell'evento certo;? - p=0èla probabilità dell’evento impossibile;3 - lasomma delle probabilità di ti gli eventi possibili è 1.* 1 È la definizione frequentista della probabilità. ? Tutti i casi sono favorevoli, es. che lanciando una moneta esca o testa 0 croce. 3 Nessun caso è favorevole, es. che lanciando una moneta non esca né testa né croce. IULM — Analisi bivariata — 1 IULM – Analisi bivariata – 2 1.2. Distribuzioni di frequenza Le distribuzioni di frequenza sono lo strumento più generale per descrivere un fenomeno casuale. Consistono nell’associare a ogni possibile valore di una variabile casuale la frequenza con cui esso si presenta. Si possono esprimere in termini di frequenze assolute o relative (fig. 1a) e possono essere rappresentate graficamente con istogrammi oppure diagrammi a barre (fig. 1b). La distribuzione di frequenza si può calcolare per qualunque tipo di variabile, sia categorica (es. forma di pagamento, fig. 1a e 1b), sia numerica. Le variabili numeriche continue – o semplicemente con molti valori – vengono raggruppate in classi (es. età, fig. 2). frequenza assoluta frequenza relativa Cash 460 54% Bancomat 336 40% Carta credito 54 6% 850 100% Fig. 1a Distribuzione di frequenza Fig. 1b Diagramma a barre (variabile categorica) La rappresentazione grafica da utilizzare nei due casi è diversa: per variabili categoriche si usano grafici a barre (fig. 1b), per variabili numeriche si usano istogrammi (fig. 2). La differenza tra le due figure sta nell’asse orizzontale, categorico per variabili categoriche e numerico per variabili numeriche. Nel primo caso i valori sull’asse possono essere riordinati a piacere, nel secondo caso hanno un preciso ordinamento numerico. L’asse verticale rappresenta in ogni caso la frequenza, assoluta o relativa.5 Fig. 2 Istogramma della stessa variabile numerica (età) con raggruppamenti in classi di ampiezza diversa 1.3. Distribuzioni di probabilità Le distribuzioni di frequenza sono in genere costruite in base a dati osservati, perlopiù campionari. Le distribuzioni di probabilità sono i corrispondenti modelli teorici di riferimento. Ne esistono moltissime, con forme diverse, per modellare fenomeni diversi. La distribuzione di probabilità di fig. 3a è un buon modello teorico per la distribuzione del peso degli uomini adulti (e per molti altri parametri, biologici e no); il peso è rappresentato sull’asse orizzontale: i valori centrali sono quelli cui corrisponde la probabilità più alta, man mano che ci si allontana dal centro la probabilità diminuisce. La distribuzione di fig. 3b è un buon modello 4 Es. 𝑃𝑟𝑜𝑏(𝑐𝑟𝑜𝑐𝑒) + 𝑃𝑟𝑜𝑏(𝑡𝑒𝑠𝑡𝑎) = 0,5 + 0,5 = 1 5 Istogrammi e grafici a barre possono in realtà avere orientamento sia orizzontale che verticale, scambiando semplicemente il ruolo degli assi. Alcune applicazioni (es. Excel) utilizzano nomi diversi per grafici a barre (orizzontali) e grafici a colonne (verticali), ma si tratta concettualmente della stessa rappresentazione con orientamento diverso. 0% 10% 20% 30% 40% 50% 60% 0 100 200 300 400 500 Cash Bancomat Carta credito fr eq u en za r el at iv a fr eq u en za a ss o lu ta IULM – Analisi bivariata – 5 3. Relazione tra due variabili numeriche Lo studio della relazione tra due variabili numeriche ha come oggetto l’andamento relativo, o associazione, di una variabile rispetto a un'altra, cioè il fatto che al crescere di una variabile l’altra tendenzialmente cresca, o decresca, oppure oscilli senza una direzione precisa. Un esempio di associazione positiva tra due quantità è – almeno teoricamente − quello tra reddito e consumi, poiché in generale i consumi aumentano all’aumentare del reddito; viceversa tra prezzo unitario e numero di pezzi venduti c’è una associazione negativa, perché quando il prezzo aumenta le vendite in generale diminuiscono. Un modo intuitivo per visualizzare la relazione tra due variabili numeriche è di rappresentarle su un piano cartesiano, del quale le due variabili sono gli assi. Nell’esempio di fig. 6 sono rappresentate le vendite di biglietti di diversi concerti in funzione dell’investimento pubblicitario: ogni punto rappresenta un concerto, l’asse orizzontale indica l’investimento pubblicitario (in migliaia di annunci su radio e tv), l’asse verticale indica le vendite di biglietti (in migliaia di dollari). L’andamento ascendente dei punti nel grafico mostra che in generale – e nonostante differenze e oscillazioni individuali – a investimenti maggiori corrispondono maggiori vendite. Fig. 6 Grafico a dispersione Lo strumento più diffuso per misurare la relazione tra due variabili numeriche è il coefficiente di correlazione di Bravais-Pearson18, che misura l’intensità della relazione lineare tra due variabili; si indica con la lettera r e assume valori tra −1 e +1 19: −1 ≤ 𝑟 ≤ +1 I valori del coefficiente di correlazione hanno il significato seguente (vedi anche fig. 7): 𝑟 > 0: correlazione positiva, diretta: al crescere di una variabile anche l’altra cresce; 𝑟 < 0: correlazione negativa, inversa: al crescere di una variabile l’altra decresce; 𝑟 = 0: le due variabili sono incorrelate; 𝑟 = ±1: le due variabili sono perfettamente correlate, i punti sono allineati su una retta. Fig. 7 Valori del coefficiente di correlazioni per diverse configurazioni di punti 18 Auguste Bravais, 1811-1863; Karl Pearson, 1857-1936 19 Il coefficiente di correlazione tra due variabili X e Y è la covarianza tra le due variabili normalizzata, cioè ricondotta all’intervallo [−1, +1] con la trasformazione: 𝑟 = 𝑐𝑜𝑣(𝑋, 𝑌) (𝜎𝑋 ∙ 𝜎𝑌)⁄ dove 𝑐𝑜𝑣(𝑋, 𝑌) è la covarianza di X e Y, e 𝜎𝑋 e 𝜎𝑌 sono le deviazioni standard di X e Y rispettivamente. $0 $500 $1.000 $1.500 $2.000 0 10 20 30 40 50 60 70 80 Sa le s ($ 1 0 0 0 ) Thousands of Radio&TV ads Concert Sales IULM – Analisi bivariata – 6 Ai fini interpretativi si fa spesso riferimento alle seguenti indicazioni20: coefficienti di correlazione minori di 0,3 (in valore assoluto) indicano una relazione debole; tra 0,3 e 0,5 una relazione moderata; sopra 0,5 una relazione forte. Per la relazione tra vendite dei biglietti dei concerti e investimenti pubblicitari di fig. 6 il coefficiente di correlazione vale 0,8. Nell’interpretazione del coefficiente di correlazione bisogna prestare attenzione ad alcuni punti delicati: - il coefficiente di correlazione misura la presenza di relazioni lineari, ovvero misura quanto i punti sono allineati lungo una retta; nella realtà tra due variabili possono esistere relazioni anche molto forti ma non lineari, ad esempio la fig. 8 mostra una relazione che può essere descritta perfettamente da una parabola, ma per la quale invece una retta è una cattiva approssimazione (𝑟 = 0,37); il valore di un coefficiente di correlazione molto basso non significa quindi necessariamente che tra due variabili non c’è alcuna relazione, ma solo che non c’è una relazione lineare; Fig. 8 Relazione non lineare - un valore del coefficiente di correlazione elevato non implica una relazione di causa-effetto: permette di affermare che tra due variabili c’è una relazione sistematica, ma non che una influenza o addirittura determina l’altra; la presenza di una relazione causale può naturalmente essere ipotizzata – ad esempio nel caso dei biglietti dei concerti è lecito supporre che le vendite dipendano in qualche misura dall’investimento pubblicitario –, ma si tratta in ogni caso di un aspetto interpretativo, che deriva da considerazioni e da teorie esterne e preesistenti rispetto all’analisi statistica, ed è, in definitiva, responsabilità di chi esegue l’analisi; in situazioni di questo tipo un valore del coefficiente di correlazione elevato non dimostra la causalità, ma può essere una conferma della teoria preesistente; - correlazioni spurie: sono correlazioni elevate che si manifestano tra due variabili anche in assenza di relazioni logiche e spiegabili del fenomeno; si possono presentare per puro effetto del caso21 o perché entrambe le variabili dipendono da una terza quantità; ad esempio, la correlazione tra l’entità dei danni causati da un incendio e il numero di pompieri intervenuti non significa che c’è un legame diretto tra le due misure, ma piuttosto che entrambe dipendono dalla dimensione dell’incendio. A dimostrazione di quanto è delicato l’aspetto interpretativo della correlazione, osserviamo che l’ultima considerazione si potrebbe applicare ragionevolmente anche al caso dei concerti: sia l’investimento pubblicitario sia le vendite di biglietti dipendono dall’importanza dell’artista. 4. Relazione tra una variabile categorica e una numerica La relazione tra una variabile numerica e una categorica si può analizzare mediante la differenza in media, cioè confrontando la media della variabile numerica all'interno dei gruppi definiti dalla variabile categorica. Ad esempio (fig. 9) la relazione tra la modalità di pagamento (cash, bancomat, carta di credito) e l’importo dello scontrino in un punto vendita si può analizzare confrontando tra loro le medie dell’importo – la variabile numerica – calcolate separatamente per ogni modalità di pagamento – la variabile categorica che identifica i gruppi. La relazione è tanto più forte quanto più le medie sono diverse; se invece le medie nei gruppi sono uguali, ciò significa che non c’è relazione tra la variabile categorica (modalità di pagamento) e quella numerica (importo dello scontrino), cioè appunto che al variare della modalità di pagamento l’importo (medio) non cambia. 20 Cohen, 1988 21 Numerosi esempi di correlazioni spurie casuali su https://www.tylervigen.com/spurious-correlations IULM – Analisi bivariata – 7 N media devstd min max Cash 460 40,8 32,2 13 324 Bancomat 336 51,8 37,5 14 266 Carta credito 54 64,6 71,8 18 446 Totale 850 46,7 38,5 13 446 Fig. 9 Differenza in media: importo dello scontrino per modalità di pagamento Nell’esempio le medie sono evidentemente diverse: i pagamenti cash hanno media più bassa e quelli con carta di credito hanno media più alta. Il problema è che nella pratica le medie nei gruppi non sono mai identiche, a prescindere dall’esistenza o no di una relazione, a causa delle oscillazioni casuali dei dati, che normalmente provengono da un campione e variano per esempio da un giorno all’altro. Il problema diventa quindi quello di stabilire se le differenze tra le medie sono abbastanza piccole da poter essere attribuite al caso o se sono tanto grandi da indicare con ragionevole certezza l’esistenza di una relazione. Una risposta rigorosa a questo problema è oggetto del paragrafo 8 (analisi della varianza). L’analisi della differenza in media si può presentare anche come analisi delle differenze tra variabili. In genere si tratta solo di una riorganizzazione dei dati, nella quale ogni valore della variabile categorica – cioè ogni gruppo – dà luogo a una variabile distinta. Nel nostro caso l’indicazione del tipo di pagamento si tradurrebbe in tre variabili – cash, bancomat, carta di credito – o addirittura in tre dataset distinti. 5. Correlazione e differenza in media Correlazione e differenza in media misurano relazioni diverse e rappresentano concetti indipendenti e distinti: la correlazione misura l’andamento di una variabile rispetto all’altra, cioè se al crescere dell’una l’altra cresce o decresce con sufficiente regolarità; la differenza in media confronta il valore di una variabile in gruppi diversi, oppure il valore di variabili diverse. Negli esempi di fig. 10.1 e 10.2 si confrontano le correlazioni di tre coppie di variabili – d1 e d2, d1 e d3, d1 e d4 – e le rispettive differenze in media: x d1 d2 d3 d4 0 1 2 8 1 1 2 1 9 9 2 1 2 8 1 3 2 1 9 9 4 1 2 8 1 5 2 1 9 9 media 1,5 1,5 8,5 5 correlazione con d1 –1 1 1 Fig. 10.1 Confronto tra correlazione e differenza in media - d1 e d2 hanno la stessa media ma correlazione –1: a valori più alti di d1 corrispondono con perfetta regolarità valori più bassi di d2; - d1 e d3 hanno medie diverse ma correlazione +1: a valori più alti di d1 corrispondono con perfetta regolarità valori più alti di d3; - d1 e d4 hanno ancora medie diverse e correlazione +1: ad aumenti (o diminuzioni) uguali di d1 corrispondono aumenti uguali di d4, anche se l’entità degli aumenti è diversa per d1 e per d4. Fig. 10.2 Correlazione e differenza in media tra coppie di variabili 40,8 51,8 64,6 Cash Bancomat CartaCred 0 5 10 0 1 2 3 4 5 d1 d2 0 5 10 0 1 2 3 4 5 d1 d3 0 5 10 0 1 2 3 4 5 d1 d4 IULM – Analisi bivariata – 10 Numerosità alta varianza piccola preciso Numerosità bassa varianza grande non preciso Non distorto media esatta accurato Distorto media errata non accurato Fig. 13 Precisione vs accuratezza 7.1. Stima puntuale e stima intervallare Il problema di stimare un parametro della popolazione con un campione è complicato dal fatto che la stima ottenuta dal campione (stima puntuale) è essa stessa una variabile casuale, perché varia al variare del campione. È quindi necessario ampliare e corredare la stima campionaria puntuale con elementi aggiuntivi. In particolare la stima di parametri della popolazione fornita dalla statistica inferenziale è caratterizzata dal fatto di essere costituita non da un singolo valore ma da un intervallo di confidenza al quale è associato un livello di confidenza. Le stime intervallari hanno la forma seguente: 𝑠𝑡𝑖𝑚𝑎 𝑝𝑢𝑛𝑡𝑢𝑎𝑙𝑒 ± 𝑚𝑎𝑟𝑔𝑖𝑛𝑒 𝑑𝑖 𝑒𝑟𝑟𝑜𝑟𝑒 Supponiamo di voler stimare la media m di una popolazione con un campione e di aver ottenuto per la media del campione il valore 796: 𝑚 = 796 è la stima puntuale della media della popolazione, ma ad essa si può aggiungere l’informazione sul margine di errore, opportunamente calcolato tenendo conto anche di un livello di confidenza scelto (es. 95%); se l’errore calcolato è uguale a 5,9 la stima intervallare di m è: 796 − 5,9 < 𝑚 < 796 + 5,9 e si dice che la media della popolazione è compresa nell’intervallo (790,1; 801,9) con il livello di confidenza del 95%. Il significato del livello di confidenza al 95% è il seguente: al variare dei campioni – e quindi delle stime puntuali – ci si aspetta che per 95 campioni su 100 l’intervallo di confidenza contenga la stima “vera”. I livelli di confidenza sono generalmente fissati in modo convenzionale, ad esempio 95% o 99%. Dal punto di vista tecnico il problema è ovviamente quello di calcolare il margine di errore. I dettagli di tale calcolo dipendono dal parametro che si vuole stimare (es. media, proporzione) ed esulano dagli scopi di questa dispensa. Ai nostri fini basta osservare che l’elemento determinante per il calcolo dell’errore è la conoscenza della distribuzione campionaria del parametro da stimare – cioè la distribuzione di probabilità delle stime puntuali – e che tali distribuzioni sono perfettamente note in tutti i casi di interesse pratico.24 Intuitivamente, anche se un po’ impropriamente, si può dire che la stima intervallare aggiunge alla stima puntuale una valutazione della precisione (l’ampiezza dell’intervallo di confidenza: ±5,9) e una valutazione dell’affidabilità (il livello di confidenza: 95%). L’ideale sarebbe naturalmente avere un intervallo di confidenza di ampiezza minima (grande precisione) con il livello di confidenza più alto possibile (grande affidabilità), tuttavia la relazione tra i due parametri è tale che – a parità di altre condizioni – migliorarne uno peggiora l’altro: al crescere del livello di confidenza (es. da 95% a 99%) l’affidabilità aumente ma aumenta anche l’ampiezza dell’intervallo, e quindi la precisione diminuisce; viceversa per avere un’ampiezza dell’intervallo minore bisogna accettare un livello di confidenza più basso (es. 90%). L’unico modo per migliorare un parametro senza peggiorare l’altro è aumentare la numerosità campionaria, perché al crescere 24 Ad esempio la distribuzione campionaria della media è – per campioni abbastanza grandi – una distribuzione normale, con la stessa media della popolazione e varianza tanto più piccola quanto più grande è il campione. della numerosità l'ampiezza dell’intervallo diminuisce. Si noti che aumentare la dimensione del campione significa aumentare la quantità di informazione disponibile, ed è appunto questo aumento che si traduce in miglioramento della stima. 7.2. Verifica di ipotesi: generalità La verifica di ipotesi è il ramo della statistica inferenziale che si occupa dei metodi razionali per trarre conclusioni su affermazioni contrastanti riferite a caratteristiche della popolazione. Esempi di affermazioni contrastanti tra cui decidere sono quelli che abbiamo lasciato in sospeso nei paragrafi 4 e 6: l'importo dello scontrino medio ($ 4) differisce tra una modalità di pagamento e l’altra? ovvero: le differenze riscontrate si possono attribuire al caso o c’è una differenza statisticamente significativa? e analogamente: la preferenza di marca e il genere ($ 6) sono indipendenti o no? ovvero: x? è “piccolo” o “grande”? La verifica delle ipotesi segue sempre lo schema seguente: 1. formulazione dell’affermazione da verificare (l’ipotesi) insieme all’affermazione contrastante; 2. raccolta dei dati campionati (esperimento statistico), 3. analisi dei dati raccolti per verificare se sono compatibili con l'ipotesi o no. Tipicamente l’ipotesi riguarda un parametro della popolazione; l'affermazione da testare si chiama ipotesi nulla e si indica con Hp (es. Hy: x? = 0 oppure Hp: 4 = 2,7) e descrive la situazione nota e supposta vera; l'affermazione contrastante si chiama ipotesi alternativa e si indica con H, (rispettivamente H,: x? > 0 oppure Hi: # 2,7). Tutti i test ipotizzano che l’ipotesi nulla sia vera: l'esperimento statistico serve per valutare se l'evidenza campionaria è compatibile con essa o se, al contrario, impone di rifiutarla. L’analisi dei dati campionari consiste nel calcolare una statistica test adatta al problema in oggetto e, come per la stima intervallare, la condizione fondamentale per il test delle ipotesi è la conoscenza della distribuzione di probabilità della statistica test. Ad esempio per testare l’ipotesi di indipendenza tra variabili categoriche la statistica test è x? e la relativa distribuzione di probabilità è nota. La scelta della statistica test dipende dall’ipotesi nulla e può dipendere da ipotesi sulla popolazione (es. se i dati hanno una distribuzione normale o no). Tutte le verifiche di ipotesi di interesse pratico sono perfettamente codificate e la statistica da usare è sempre chiaramente individuata, insieme con la relativa distribuzione di probabilità. Dal punto di vista applicativo il problema consiste nel ricondurre i casi reali agli schemi di verifica noti e documentati. Nei prossimi paragrafi 8 e 9 ne introdurremo due di particolare interesse e di vasta applicabilità. La decisione se respingere o no l’ipotesi nulla dipende da considerazioni probabilistiche, rese possibili — come già detto — dalla conoscenza della distribuzione di probabilità della statistica test. Tale conoscenza permette infatti di calcolare la probabilità associata al valore trovato per la statistica test, quando l’ipotesi nulla è vera. Se tale probabilità è molto piccola la decisione finale è di rifiutare l’ipotesi nulla in favore dell’ipotesi alternativa. Una probabilità molto piccola significa infatti che — se l’ipotesi nulla è vera — il valore della statistica test trovato è altamente improbabile e può quindi difficilmente essere attribuito al caso; ‘appare quindi “più ragionevole” concludere che l’ipotesi nulla non è vera e che conviene invece accettare l'ipotesi alternativa. In pratica è dunque necessario fissare la soglia sotto la quale la probabilità è “abbastanza piccola”. Tale soglia è detta livello di significatività e viene indicata convenzionalmente con la lettera a?5; a ogni livello di significatività corrisponde un livello di confidenza uguale a 1 — a: al livello di significatività 0,05 = 5% corrisponde il livello di confidenza del 95%. 7.3. Errore di I e di II tipo La decisione se rifiutare o no l’ipotesi nulla dipende dai dati campionati e può quindi variare da un campione all’altro. Il livello di significatività a rappresenta la probabilità di rifiutare l’ipotesi nulla quando in realtà è vera, ma non è l’unico errore possibile. Le possibili combinazioni tra risultato del test e situazione reale sono rappresentate in fig. 14. 25 Valori tipici di a sono 0,05 0 0,01 ma altri valori sono possibili. IULM — Analisi bivariata — 11 IULM – Analisi bivariata – 12 Situazione reale H0 vera H0 falsa Risultato del test Accetto H0 corretto errore di II tipo (𝛽) Rifiuto H0 errore di I tipo (𝛼) corretto Fig. 14 Errore di I e di II tipo La conclusione del test è corretta quando si accetta un’ipotesi nulla vera o si rifiuta un’ipotesi nulla falsa. Se si rifiuta un’ipotesi vera si commette un errore di primo tipo; la probabilità dell’errore di I tipo è 𝛼 e corrisponde al livello di confidenza fissato da chi effettua l’analisi. L’errore opposto – accettare un’ipotesi nulla falsa, errore di secondo tipo – ha una probabilità 𝛽 che dipende da 𝛼 e dall’ipotesi alternativa H1 e quindi non è scelta a priori come 𝛼. L’ideale sarebbe ovviamente di avere sia 𝛼 sia 𝛽 più piccoli possibile, tuttavia la relazione tra i due valori è tale che diminuire 𝛼 – per esempio passare da 0,05 a 0,01 – fa aumentare 𝛽. Per ridurre l'errore di II tipo bisogna aumentare la numerosità del campione: a parità di 𝛼 l'aumento dell'ampiezza del campione riduce 𝛽.26 Si noti infine che – a prescindere dai valori di 𝛼 e 𝛽 – gli errori di I e di II tipo possono avere gravità molto diverse. Si pensi al caso di un test clinico che deve stabilire se una persona è sana o malata: classificare erroneamente una persona sana come malata la espone ad accertamenti che in genere chiariscono la situazione; classificare erroneamente una persona malata come sana può causare l’assenza di cure con conseguenze potenzialmente gravi. Oppure si pensi all’algoritmo in base al quale una finanziaria concede un prestito: non concedere il prestito a chi avrebbe credito sufficiente causa la perdita del guadagno; concederlo a chi non ha credito sufficiente espone al rischio di perdere il capitale prestato. 8. Analisi della varianza Scopo dell'analisi della varianza (ANOVA, Analysis of Variance27) è verificare ipotesi sulle differenze tra medie in due o più popolazioni. Ad esempio: - confrontare il reddito medio degli abitanti di quattro città diverse; - confrontare il valore medio degli acquisti effettuati con tre metodi di pagamento diversi; - confrontare la variazione di peso media di pazienti sottoposti a tre diete diverse. In tutti gli esempi si riconosce una variabile numerica della quale interessa la media (il reddito, l'importo dello scontrino, la variazione di peso) e una variabile categorica che identifica i gruppi da confrontare (le città, i metodi di pagamento, le diete). L’Anova è quindi lo strumento adatto a risolvere il problema che abbiamo lasciato in sospeso al paragrafo 4, a proposito della relazione tra una variabile numerica e una categorica. La variabile numerica è talvolta chiamata dipendente, quella categorica fattore. Modelli con una variabile dipendente e un fattore si chiamano modelli Anova a una via (one-way Anova). Esistono modelli più complessi, con più di un fattore (k-way Anova) o con più di una variabile dipendente (MANOVA, Multiple Anova). Ad esempio: - Anova a due vie: a un certo prodotto applichiamo collocazioni diverse nel punto vendita e prezzi diversi; vogliamo valutare gli effetti sulle vendite del prezzo e della collocazione, separatamente e congiuntamente → una variabile dipendente: vendite; due fattori: prezzo e collocazione; - Manova: gli studenti di due anni consecutivi utilizzano due software statistici diversi; vogliamo confrontare i voti medi in data analysis, in analisi competitiva e in statistica per il marketing → tre variabili dipendenti: i tre voti; un fattore: il software. Nel seguito analizziamo i modelli Anova a una via: a ogni livello del fattore (es. i metodi di pagamento) corrisponde un diverso gruppo di osservazioni (gli importi dello scontrino) e ogni osservazione appartiene a un solo gruppo. 26 Si noti l’analogia con gli intervalli di confidenza: in entrambi i casi per migliorare tutti i parametri in gioco bisogna aumentare la numerosità del campione cioè, in definitiva, aumentare l’informazione disponibile. 27 Fisher, 1918 IULM – Analisi bivariata – 15 8.2. Assunzioni del modello L'esecuzione dell’Anova richiede che siano verificate le seguenti condizioni probabilistiche: - la variabile dipendente (numerica) deve avere una distribuzione normale in ogni gruppo; - la variabile dipendente deve avere varianza uguale in tutti i gruppi; - le osservazioni devono essere indipendenti. L'Anova è considerata robusta rispetto all'ipotesi di normalità, cioè ne tollera abbastanza bene modeste violazioni; lo stesso vale anche per l’uguaglianza delle varianze all'interno dei gruppi, purché i campioni non siano troppo piccoli. Se le ipotesi di normalità e di uguaglianza delle varianze sono violate gravemente34, non è più vero che la statistica test ha una distribuzione F e quindi non è più possibile calcolare il p-value; in tal caso è possibile ricorrere a test non parametrici equivalenti all'Anova (es. Kruskal-Wallis H test). Più grave è la violazione dell'ipotesi di indipendenza, per la quale non esistono soluzioni alternative soddisfacenti. 8.3. Output standard dell’Anova Illustriamo i risultati dell'Anova con l’esempio dei metodi di pagamento. I risultati sono presentati tipicamente dalla coppia di tabelle di fig. 17: la prima riporta le medie e le numerosità dei gruppi (stessi dati di fig.9 riprodotti qui per comodità), la seconda – la tabella Anova vera e propria – riporta il risultato del test. N Media DevStd Cash 460 40,8 32,2 Bancomat 336 51,8 37,5 Carta credito 54 64,6 71,8 Totale 850 46,7 38,5 ANOVA univariata Importo dello scontrino per Modalità di pagamento Somma dei quadrati GdL Media dei quadrati F p-value Tra i gruppi 41851,9 2 20925,9 14,535 0,000 Entro i gruppi 1219394,5 847 1439,7 Totale 1261246,4 849 Fig. 17 Output standard dell’Anova Come visto nel paragrafo 8.1, F è il rapporto tra le varianze (media dei quadrati) tra gruppi ed entro i gruppi; i gradi di libertà (GdL) sono i parametri della distribuzione F per questo specifico problema e dipendono dal numero di gruppi e dalla numerosità totale del campione; il risultato principale è il p-value: se è minore del livello di significatività scelto – come in questo caso – il test è significativo e la decisione è di rifiutare l'ipotesi nulla: si conclude che ci sono differenze statisticamente significative tra le medie dei gruppi. Se il test non è significativo non ha senso esaminare le medie in dettaglio e non c’è altro da aggiungere; se invece il test è significativo – cioè se ci sono differenze statisticamente significative tra le medie – si prosegue con l’ispezione delle medie stesse: nell’esempio si può concludere che l’importo medio pagato cash (40,8) è quello minore e quello pagato con carta di credito (64,6) è l’importo medio maggiore. 9. Test chi-quadrato Nel paragrafo 6 abbiamo introdotto il concetto di indipendenza tra due variabili categoriche e l’indice 𝜒2 e abbiamo osservato che se 𝜒2 = 0 le variabili sono indipendenti, mentre 𝜒2 ≫ 0 indica che c’è un’associazione tra le variabili. Come nel caso della statistica F dell’Anova, il problema è stabilire una soglia per decidere se 𝜒2 è “grande” o “piccolo”. Lo strumento per la verifica dell’ipotesi di indipendenza è il test chi-quadrato. L’ipotesi nulla e l’ipotesi alternativa sono rispettivamente: - 𝐻0: le due variabili sono indipendenti; - 𝐻1: le due variabili non sono indipendenti; 34 Il rispetto delle due condizioni si può verificare con diversi test (es. Shapiro-Wilk, Levene). IULM – Analisi bivariata – 16 che possono essere riformulate come: - 𝐻0: 𝜒2 = 0; - 𝐻1: 𝜒2 > 0. Come nel caso dell’Anova – e di tutti i test di ipotesi – il problema è risolto dalla conoscenza della distribuzione di probabilità della statistica test. La statistica 𝜒2 segue approssimativamente una distribuzione chi-quadrato con un numero di gradi di libertà che dipende dalla dimensione della tavola a doppia entrata35. Per ogni valore della statistica test – cioè per il valore di 𝜒2 trovato, nel nostro caso 𝜒2 = 6,49 – l’esame della distribuzione permette di calcolare il p-value, cioè la probabilità di trovare valori maggiori o uguali di quello per puro effetto del caso, se l’ipotesi nulla è vera. Anche per la distribuzione chi-quadrato i valori di p possono essere determinati in vari modi; come nel caso dell’Anova, se il test è eseguito con del software specializzato, il p-value è fornito direttamente come parte dell’output. Il p-value calcolato è infine confrontato con il livello di significatività α scelto (es. α = 0,05): - p-value > α: il test non è significativo, il valore di 𝜒2 non è significativamente maggiore di zero, i dati campionari non giustificano il rifiuto di 𝐻0 al livello di significatività scelto α; - p-value < α: il test è significativo, il valore di 𝜒2 è significativamente maggiore di zero, si rifiuta 𝐻0 in favore di 𝐻1, esiste una associazione statisticamente significativa tra le due variabili al livello di significatività α. Fig. 18 Distribuzione chi-quadrato: 𝑃𝑟𝑜𝑏(𝜒2 > 6,49 ) = 0,039 Nel nostro caso 𝑝 = 0,039 (fig. 18 36): se il livello di significatività scelto è α = 0,05 allora il p-value è minore di α e la conclusione è che il test è significativo e l’ipotesi nulla di indipendenza deve essere respinta: c’è una associazione tra le due variabili. Si noti che se invece si fosse scelto un livello di significatività α = 0,01 la conclusione sarebbe stata opposta, perché sarebbe stato p > α. Il test chi-quadrato, a differenza dell’Anova, non richiede assunzioni probabilistiche: è un test non parametrico. L’unica condizione è che il campione sia abbastanza grande; più precisamente la condizione riguarda le frequenze attese: non devono mai essere minori di 1 e non devono essercene più del 20% minori di 5. 9.1. Output standard del test chi-quadrato I risultati del test 𝜒2 sono di solito presentati insieme alla tavola di incrocio (la stessa di fig. 11, riportata qui per comodità) e hanno la forma di fig. 19. L’output riporta il valore di 𝜒2, i gradi di libertà (GdL) e il p-value, che costituisce il risultato principale e si commenta come già visto: 0,039 è minore di 0,05 quindi al livello di confidenza del 95% l’ipotesi di indipendenza deve essere respinta. Nell’ultima riga dell’output è riportato anche il risultato della verifica 35 𝐺𝑑𝐿 = (𝑟 − 1)(𝑐 − 1) dove r e c sono rispettivamente il numero di righe e il numero di colonne della tavola a doppia entrata. 36 Da \http://www.statdistributions.com/chisquare/ IULM – Analisi bivariata – 17 sulle frequenze attese (“conteggio previsto”), che non devono essere troppo piccole: nell’esempio la condizione è soddisfatta e quindi la conclusione è perfettamente corretta. Marca A Marca B Marca C Totale Femmine 9 6 22 37 Maschi 25 17 21 63 Totale 34 23 43 100 Test chi-quadrato Valore GdL p-value Chi-quadrato di Pearson 6,492a 2 ,039 N di casi validi 100 a. 0 celle (0,0%) hanno un conteggio previsto inferiore a 5. Il conteggio previsto minimo è 8,51. Fig. 19 Output standard del test chi-quadrato Come per l’Anova, quando il test chi-quadrato è significativo, è opportuno un approfondimento di analisi per individuare le celle in cui le frequenze osservate sono particolarmente alte o, al contrario, molto basse. Lo strumento ideale a tale scopo è dato dai residui standardizzati37; se questi non sono disponibili è di solito possibili ottenere lo stesso risultato confrontando direttamente le distribuzioni per riga o quelle per colonna. Marca A Marca B Marca C Totale Marca A Marca B Marca C Totale Femmine 26% 26% 51% 37% Femmine 24% 16% 59% 100% Maschi 74% 74% 49% 63% Maschi 40% 27% 33% 100% Totale 100% 100% 100% 100% Totale 34% 23% 43% 100% Fig. 20a Distribuzioni per colonna Fig. 20b Distribuzioni per riga Nel caso in esame le distribuzioni (osservate) per colonna sono riportate in fig. 20a e si commentano nel modo seguente: la distribuzione marginale tra femmine e maschi (colonna totale) è 37% contro 63%; rispetto a questa la distribuzione nelle singole marche mostra che i maschi sono più concentrati nelle marche A e B (74% contro 63%) mentre le femmine sono più concentrate nella marca C (51% contro 37%). In altri termini, vista la significatività del test, si può concludere che per la marca C c’è una preferenza relativamente più alta da parte delle femmine, e per le marche A e B c’è una preferenza relativamente più alta da parte dei maschi. Alle stesse conclusioni si può arrivare anche osservando le distribuzioni per riga (fig. 20b): rispetto alla distribuzione marginale (34% 23% 43%) le femmine mostrano una concentrazione più alta per la marca C e i maschi una concentrazione relativamente più alta per le marche A e B. 37 Si ottengono trasformando i “residui” – cioè le differenze tra frequenze osservate (𝑓𝑜) e frequenze attese (𝑓𝑒) – in variabili normali standard con la formula: 𝑟𝑒𝑠𝑖𝑑𝑢𝑖 𝑠𝑡𝑑 = (𝑓𝑜 − 𝑓𝑒) √𝑓𝑒⁄ . Residui standardizzati minori di −2 indicano celle con un numero di casi significativamente basso; residui standardizzati maggiori di +2 indicano celle con un numero di casi significativamente alto.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved