Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Appunti di Data Analysis, Appunti di Statistica Economica

Appunti completi integrati con lezioni e slide di Data Analysis del professor Della Beffa e Sfogliarini

Tipologia: Appunti

2019/2020

In vendita dal 22/06/2020

VeronicaMarzorati
VeronicaMarzorati 🇮🇹

4

(1)

9 documenti

Anteprima parziale del testo

Scarica Appunti di Data Analysis e più Appunti in PDF di Statistica Economica solo su Docsity! Data Analysis: prima lezione 23/09 Password per la community  data2020 Nel processo di analisi è fondamentale che ci siano due attori: l’analista e un utente, l’utente deve essere uno che utilizzerà i dati dell’analista per prendere decisioni. Capita che ci sia solo un decisore senza che nessuno analizzi i dati o viceversa. La cosa migliore è che ci siano entrambi gli attori, e che ci sia un rapporto di fiducia che intercorre tra di loro. Business Analytics  è l’uso dei dati, ed è il processo di trasformazione dei dati in azioni tramite l’inserimento nel contesto organizzativo, nel decision making e del problem solving. Per sviluppare analisi sui dati servono: 1. Dati 2. Metodi quantitativi  logiche generali dell’informazione 3. Tecnologie 4. Analisi statistiche 5. Strutture modellistiche che siano messe su un ambiente informatico Qualche esempio di applicazione:  Prezzi  quando si decide uno sconto è meglio sapere prima quanto sarà efficace  Segmentazione dei clienti  B2B  Approvvigionamenti  Localizzazione  Social media Il mondo nell’analisi di business si è evoluta nel tempo; la data analysis è una scienza dove convergono diverse competenze o approcci (Utilizzeremo Excel come strumento di base, per calcolare delle informazioni e misure di base e utilizzeremo IBM SPSS). Evoluzioni di Business Analytics sono:  Business Intelligent  ci aiuta a rispondere alle domande come “quante unità di prodotto abbiamo venduto il mese scorso?” sono quindi l’insieme di processi aziendali per raccogliere dati ed analizzare informazioni strategiche, la tecnologia utilizzata per realizzare questi processi.  Information Systems  disciplina evoluta dal BI.  Statistics  è un elemento importante del business ed è una risposta alla grande crescita di dati nel mondo d’oggi. 1  Operations research/Management science  sono tecniche che traducono i problemi reali in problemi “matematici” in un linguaggio adatto al computer, sfruttando questi strumenti per trovare la soluzione ottimale.  Decision support systems  unione dei concetti di BI e OR/MS per creare una base analitica di computer system per supportare le decisioni. Usare il Business Analytics può avere grandi impatti sull’andamento della società, aiutandola a ridurre i costi, prendere decisioni più rapidamente e migliorare la produttività. L’uso del BA comporta però anche diverse sfide tra cui la difficoltà nel capire come usare questa analisi, bisogna avere le competenze giuste è inoltre difficile trasformare i dati in informazioni condividibili. Il Business Analytics incomincia con la collezione, organizzazione e manipolazione dei dati e supportare 3 componenti: 1. Descriptive analytics  ossia l’uso dei dati per capire il passato e le performance del business corrente effettuando delle decisioni consapevoli: questa tecnica categorizza e classifica i dati per poi convertirli in utili informazioni per il decision making. 2. Predictive analytics  funzione utilizzata per predire il futuro tramite lo studio della “storia dei dati” quindi come si sono comportati in passato, capire i cambiamenti e le relazioni tra i dati passati e correnti e estrapolare le informazioni utili. 3. Prescriptive analytics identificare la migliore alternativa per minimizzare i problemi e massimizzare i benefici. Molte aziende hanno sviluppato varietà di software e hardware per supportare il BA, integranti BI e piani di soluzioni per incontrare le esigenze delle compagnie. Data  fatti numerici o testuali che raffigurano la misurazione di un processo. Informazione  elaborazione dei dati, il risultato dell’analisi dei dati, questo significa estrazione utile dai dati elaborati finalizzati al decision making. Data set  collezioni di dati; Database  collezione di file correlati contenenti stime di persone, posti o cose; Big data  differenza tra small e big è che i big sono vivi, prendono vita, non è più una istanza dell’informazione ma è proprio un flusso continuo, alcuni definiscono le sue caratteristiche in questo modo: varietà, volume, velocità e veracità. Uno degli strumenti che utilizzeremo è IBM SPSS (Statistical Package for Social Science) ed è un software avanzato rivolto all’analisi statistica, il suo obiettivo è quello di elaborare nel modo più congruente possibile informazioni e dati di cui si dispone. Esistono dati categorici , sono quelli che appartengono ad una determinata categoria e che quindi ha specifiche caratteristiche; ci sono poi dati ordinali che possono essere ordinati o classificati in base ad una relazione reciproca; dati intervallo sono ordinali ma presentano differenze costanti tra le osservazioni e hanno punti zero arbitrari; rapporti dati continuo e con zero naturale. 2 Varianza Mentre alla mediana colleghiamo l’intervallo interquartile perché è collegato a loro, a questo colleghiamo la media, la media non è robusta ma distorta dagli outlier. In questa misura di dispersione devo aver prima calcolato la media. La varianza dipende da tutti i dati presenti nel data set, maggiore è la varianza maggiore sarà la diffusione dei dati dalla media e maggiore sarà la variabilità che ci si può aspettare dall’osservazione. La varianza è la somma dei quadrati delle differenze di ciascuna osservazione della media diviso per il numero di unità, si fa il quadrato perché bisogna conteggiarle tutte. La formula della varianza è diversa se si sta considerando la popolazione o il campione. La varianza della popolazione è: σ 2= ∑ i=1 N (xi−μ)2 N La varianza del campione invece è: s2= ∑ i=1 n (xi−x)2 n−1 Deviazione standard la varianza è una misura quadratica, ottenuta da quadrati, tipicamente molto grande. Se estraiamo la varianza dalla radice quadrata, la varianza zero individua il mondo deterministico. In parole semplici la deviazione standard è la misura un po’ più piccola e pratica della varianza. Un dato che è confrontabile rispetto alla media. Secondo il teorema di Chebyshev la deviazione standard è una misura di dispersione che ci aiuta a capire quanto sono dispersi i dati. Per la popolazione la deviazione standard: σ=√∑i=1 N (xi−μ)2 N La deviazione standard del campione è: s=√∑i=1 n ( xi−x)2 n−1 Seconda lezione 24/9 Incertezza  è la conoscenza imperfetta di quello che succederà nel futuro; Rischio  è associato con la conseguenza di cosa è realmente successo. I modelli decisionali prescrittivi aiutano i decisori a identificare la soluzione migliore: Ottimizzazione  ricerca dei valori delle variabili decisionali che minimizzano (o massimizzano) qualcosa come costo (o profitto). 5  Funzione oggettiva  l’equazione che minimizza (o massimizza) la quantità di interesse.  Vincoli  limitazioni o restrizione  Soluzione ottimale  valori delle variabili decisionali in corrispondenza di punto minimo (o massimo) Tipi di modelli decisionali prescrittivi:  Modelli deterministici  in tutti i modelli le informazioni input sono conosciute con certezza  Modello stocastico  alcune informazioni di input del modello sono incerte. Problem Solving con Analytics: 1. Riconoscere il problema  quando si sente che c’è qualcosa che non va, quando c’è differenza tra quello che sta succedendo e l’aspettativa, quindi quello che dovrebbe succedere. Un esempio è “i costi sono troppo alti rispetto ai concorrenti”. 2. Definire il problema  riducendo il problema al minimo termine e suddividendolo in sottosistemi più piccoli, si tratta di spezzare il problema nelle possibili diverse cause. Nel definire il problema possono esserci delle difficoltà intrinseche, ma possono anche esserci problemi che non dipendono soltanto da un responsabile in azienda ma da più responsabili, diventa difficoltoso capire chi è la causa del problema. 3. Strutturare il problema  devono essere scritti/messi sulla pietra definendo gli obiettivi, isolare le alternative decisionali e identificare i vincoli e le restrizioni. 4. Analizzare il problema  non sempre c’è una soluzione unica, possono esserci alternative decisionali e non è necessariamente detto che ci sia una soluzione perfetta, ma magari una ottimale. Ci sono dei sistemi che aiutano a capire usando il giudizio di un senso comune quali sono i pro e contro delle alternative. 5. Interpretare il risultato e prendere decisioni in base alle alternative  i modelli non possono catturare ogni dettaglio della vita reale. 6. Implementare la soluzione  tradurre i risultati del modello nel mondo reale. Misura di dispersione: Dopo aver individuato la media guardo quanto sia veritiera quella misura, quindi quanto gli altri valori si allontanano da quella stima. Mi devo porre il problema di calcolare la variabilità, ossia la dispersione. Quanto sono lontani gli alti valori dalla misura centrali, ho dei valori molto vicino alla media o sono molti dispersi? La varianza tende a perdere la grandezza della media, perché è composta dai quadrati, mentre facendo la radice quadrata non si scosta molto dalla media quindi diventa un valore più veritiero (questa è la deviazione standard) quindi è un numero controllabile. Quando la deviazione standard è più piccola rispetto alla media vuol dire che i valori sono concentrati mentre se la deviazione standard è più grande rispetto alla media i valori sono più dispersi. La deviazione standard ha una proprietà se faccio: x−se x+s  ottengo l’intervallo. (La deviazione standard nella popolazione prendere il simbolo di sigma) Valori standardizzati o anche z-score La media e la mediazione standard dipendono fortemente dal tipo di dato. È possibile standardizzare i dati del campione  si toglie a ciascuna osservazione la sua media e si divide per la sua deviazione standard: 6 z= xi−x s Se faccio la differenza ottengo dei numeri diversi che sono incentrati nella media, sono sempre messi nella stessa distanza è diverso se diviso per s, quale sarà la deviazione standard e variabilità dei dati standardizzati? S è la deviazione standard dei dati originali, ma se io divido per s quale sarà la variabilità dei dati standardizzati? 1. Il numeratore rappresenta la distanza che c’è tra xi e la sua media, un valore negativo indica che xi sta alla sinistra della sua media, mentre un valore positivo significa che xi sta alla destra della sua media. Dividendo il numeratore per la deviazione standard stiamo ridimensionando la distanza dalla media per esprimerla in unità di deviazione standard. Le proprietà della standardizzazione è che la media è zero e la deviazione standard è 1. Riduco tutti i possibili campioni di dati più o meno allo stesso tipo di zona, li comprimo e li centro sullo 0. Concetto di coefficiente di variazione La deviazione standard dipende dalla media, quello che interessa capire è il rapporto tra la variabilità e la media, questo si chiama coefficiente di variazione che è un numero assoluto, non dipende dal livello dei dati ma dipende da come sono fatti dentro, nella loro intima natura, essendo un rapporto perde qualsiasi dimensione. Il coefficiente di variazione è un numero che può consentire di confrontare campioni diversi. In coefficiente di valori fornisce una misura relativa alla dispersione dei dati relativi alla media. Esempio  media 1.75 cm, deviazione standard 10 cm coefficiente variazione: 5,71 altezza Esempio  media 70, deviazione standard 5 coefficiente: 7 % peso La variazione dell’altezza è 10 volte la variazione del peso, quindi consente di confrontare tra loro dati di natura completamente diversa. CV= deviazione standard (σ os) media(μo x) Specifiche misure descrittive dei dati  mancanza di simmetria ci sono quelli simmetrici e asimmetrici, quelli che sono con la coda lunga verso destra sono positivamente asimmetrici (come il peso esempio fatto in classe, meno di 40kg è difficile trovarlo), o anche positive. Come si può affermare che un’asimmetria è poco o molto asimmetrica? Coefficiente di asimmetria Formula che ci dice: data una sorta di varianza al cubo divisa per una varianza cubica il suo risultato può essere da più a meno infinito se i dati sono perfettamente simmetrici, se invece sono distribuiti da una parte come dall’altra allora il risultato è 0 quindi l’asimmetria è nulla. Se questo coefficiente è compreso tra -0,5 e +0,5 è poco asimmetrica Se è compreso tra 0,5 e 1 è moderatamente asimmetrica Se è maggiore di 1 è fortemente asimmetrica Curtosi Misura rigorosa di quanto una distribuzione sia platicurtica o lettocurtica, la prima è piatta la seconda curva. Quando si analizzano dati possiamo calcolare la media, mediana e la moda, ci sono delle relazioni a seconda che i dati siano asimmetrici o simmetrici e a seconda che la simmetria sia verso destra o sinistra. 7 Esempio 4.24 (pagina 149)  se fosse stato sotto il 5.12 non sarebbe stato un outlier, essendo maggiore non rientra nella normale fluttuazione, va indicato quel dato, va tolto dai dati perché quell’osservazione non fa parte dei dati, ma c’è stato un episodio che ha portato a quel dato, va indagato. Vanno eliminati questi outlier perché se sto analizzando dei dati che non hanno senso insieme, perché quel dato è dovuto ad eventi esterni, non avrò una valutazione veritiera. Un esempio sono le vendite a Natale, devo analizzare due volte i dati con e senza outlier, questo processo si sviluppa con la “Detention”  quindi l’identificazione e dopo con la spiegazione degli outlier. Variabilità nei campioni  abbiamo analizzato i dati così come ci venivano affidati dal testo, ma ora passiamo ad un processo più operativo, eravamo più passivi. Bisogna individuare dei soggetti che diventeranno i campioni da analizzare, quando io prendo un campione casuale per avere un minimo di aderenza alla statistica, ma non so se è distorto o meno. Il concetto è che io posso avere più campioni diversi della stessa popolazione. Ho dei dati migliori quando la deviazione standard è più grande. Probabilità La probabilità è la probabilità che si verifichi un risultato; se un evento ha probabilità zero vuol dire che non accadrà mai, mentre se la probabilità è 1 allora l’evento è certo e determinato, nel momento in cui si parla della realtà non è cosa semplice. Le probabilità sono espresse in valori che vanno da 0 a 1. L’esperimento è il processo che determina il risultato (se io il dado non lo lancio non posso ottenere il risultato) ci vuole un meccanismo che diventa l’esperimento da cui noi attendiamo un esito. L’outcome è la faccia che viene mostrata e che leggi nel caso del dado, è la misura del risultato dell’esperimento. Lo spazio campionario è la raccolta di tutti i possibili risultati di un esperimento (lo spazio di tutte le possibili ennuple di esperimenti con possibile risultato, 6 nel caso del dado, quindi non è limitato ad un esperimento soltanto). Definizione di probabilità  viene declinata in 3 diverse nozioni: Classica  è teorica, quindi le probabilità possono essere dedotte da argomenti appunto teorici. Faccio due tiri di dadi la probabilità è 1/36, c’è una teoria prima che presuppone che sia un caso perfetto a cui l’esperimento poi si adegua, perché la probabilità è 1/36? Perché si presuppone che i dadi sono perfetti e non truccati. Empirica  relativa alla definizione di frequenza, metto in pratica, non sempre sarà uguale alla teoria. Baiesiana  si assume che un certo evento abbia una probabilità a priori, parte dalla definizione classica, poi c’è un esperimento e si vede qual è il risultato. È un mix tra le prime due nozioni, quindi la probabilità si basa sul giudizio e sulla esperienza. Rimanendo nella probabilità classica ancora nel campo della logica vediamo le proprietà delle probabilità:  la probabilità 0 e 1 sono eccezioni.  La probabilità associata con qualsiasi risultato deve essere compresa tra 0 e 1, ho “i” osservazioni dell’esperimento e quindi ho “i” risulti e li misuro. supponiamo che ogni risultato abbia una probabilità, per esempio 1/6 (faccia del dado) cosa succede? Il dado cade e si gira da una parte, la 1° regola dice che la somma delle probabilità di tutti i possibili risultati è pari all’evento certo, ossia è pari a 1. Probabilità associate ad un evento  un evento è il raggruppamento di uno o più risultati di uno spazio campionario. 10 Esempio  se io voglio sapere che probabilità ho di lanciare due dadi e fare 7 devo capire quali risultati dei dadi mi da 7, a noi interessa che la somma sia 7, lo spazio campionario della somma il minimo è due (perché sono due dadi, quindi il minimo è 1+1) e il massimo è 12 e ci sono tutti i numeri in mezzo, in quante combinazioni mi verrà 2? Solo 1 3 con solo 2 (1,2 e 2,1) 4 con 3 (1,3 3,1 e 2,2) 5 con 4 ...7 con 6 volte. La possibilità che venga fuori 7 è 1/6. 2° regola  se A è un evento, il completamento di A, indicato come Ac, è costituito da tutti i risultati nello spazio campionario non in A. La probabilità del compimento di un qualsiasi evento A è P (A c )=1−P(A) Quarta lezione 1/10 La probabilità di un compimento di un evento è 1  l’evento. Quando si parla di unione si parla di qualcosa che può succedere o in un evento o in un altro evento. Se gli eventi sono esclusivi non hanno esiti comuni, la probabilità di uno o dell’altro è la somma. 3° regola  se gli eventi A e B sono mutamente esclusivi allora P (A∨B )=P ( A )+P (B) Esistono anche gli eventi non mutuamente esclusivi, niente ci vieta di andare a calcolare la probabilità nel caso in cui ci sono eventi che in qualche modo si sovrappongono . Per ottenere la probabilità che accada quando A e B contengono degli elementi analoghi bisogna sommare le due probabilità degli eventi disgiunti ma poi bisogna togliere gli elementi comuni perché se no li conteremmo due volte, quindi togliere la probabilità degli eventi comuni: P (A∨B )=P ( A )+P (B )−P(A∧B)  4° regola Quando due eventi si intersecano  cioè deve capitare un evento e anche l’altro. A e B possono intersecarsi, l’intersezione di due eventi se non è vuota vuol dire che sono parzialmente sovrapposti, ha una probabilità minore dei due eventi. Intersezione di due eventi  si può chiamare anche probabilità congiunta, si intende l’intersezione, l’evento contemporaneo di due o più eventi. La probabilità di un evento indipendentemente dall’esito e quindi dall’avvenimento dell’altro intersecato si chiama probabilità a marginale. In sostanza per ottenere una probabilità marginale posso in qualche modo sommare tutte le probabilità congiunte che la caratterizzano. 5° regola  se un evento A è compromesso dai risultati [A 1, A2...An] e l’evento B è compromesso dai risultati [B1, B2…Bn] allora P (Ai )=P (Ai∧B1 )+P (Ai∧B2 )+…+P(Ai∧Bn) La probabilità condizionale  quando succede un evento prima che ne succeda un altro. Denominare la possibilità che succede un evento A dopo che ne è successo un B. Probabilità condizionata è una frazione dove al numeratore abbiamo la probabilità congiunta ma poi dividiamo per la probabilità che è successo al secondo. 11 P (A|B )= P(A∧B) P (B) P left (A mline B right )  probabilità di A dato B Definizione di eventi indipendenti tra di loro: tra di loro non c’è dipendenza, quindi sono due eventi indipendenti e posso definirli con una formula: P(A∨B)=P (A ) Quando ho degli eventi tra di loro indipendenti, cioè la probabilità del primo non è condizionata dal fatto che sia avvenuto il secondo si calcola la probabilità facendo la moltiplicazione delle due probabilità: P (A∧B )=P ( A|B ) P (B )=P (B|A )P(A) La variabile casuale del lancio del dado è l’insieme 1,2,3,4,5,6. Perché una variabile sia definita causale ci vuole l’esito, essa è una descrizione numerica dei risultati di un esperimento. Ci sono due tipi di variabili casuale, una discreta e una continua, la prima è una variabile causale nel quale è possibile contare il numero dei possibili esiti. La variabile causa continua ha esiti su uno o più intervalli continui di numeri reali. Una variabile casuale continua può essere l’età, perché c’è il caso, senza sceglierlo. Le variabili casuali continue non assumono dei valori discreti, non è come il lancio del dado che può arrivare fino a 6, se io fermo qualcuno per strada l’intervallo va da 8 a 96, dentro lì è una misura continua, se misuro la sua età in giorno, la misura sarà continua. Esempio 5.14  numero di click/arrivi su un link, questo è un conteggio quindi numeri discreti, per quanto riguarda quella continua può essere la temperatura. Cosa distingue una variabile casuale e deterministica? Se è casuale e quindi discreta corrisponde una probabilità ai singoli valori, se è continua corrisponde una probabilità ad un intervallo. La legge di probabilità che genera questa casualità legata alla variabile casuale, la variabile casuale è X, la probabilità sarà PX, come se avessimo due colonne da un lato abbiamo i valori della probabilità discreta (non sono vincolati da alcuna legge) e dall’altra la sua probabilità (sono invece vincolate le probabilità). Le probabilità son comprese tra 0 e 1 e la loro somma deve fare 1, per questo motivo sono vincolate. La DISTRIBUZIONE PROBABILISTICA è una caratterizzazione dei possibili valori che una variabile casuale può assumere insieme alla probabilità di assumere questi valori, si può sviluppare una distribuzione di probabilità usando una delle 3 prospettive di probabilità: classica, frequenza relativa e soggettiva. Si possono calcolare le frequenze relative da un campione di dati empirici per sviluppare una distribuzione di probabilità, essendo che si basa su dati di esempio, di solito chiamiamo questa come una distribuzione di probabilità empirica, questa è quindi un’approssimazione della distribuzione di probabilità della variabile casuale associata, mentre la distribuzione di probabilità di una variabile casuale, come quella derivata da argomenti di conteggio, è un modello teorico della variabile casuale. Per i fenomeni per i quali non abbiamo dati storici si utilizza una distribuzione di probabilità che usano valori soggettivi e giudizi di esperti. 12 z= (x−μ) σ Altre distribuzioni utili: Un valore generato casualmente da una specifica distribuzione di probabilità è chiamato “variabile casuale”. MODELLIZZAZIONE DEI DATI E ADATTAMENTO DELLA DISTRIBUZIONE L’uso dei dati del campione può limitare la nostra capacità di prevedere eventi incerti che potrebbero verificarsi perché non sono inclusi valori potenziali al di fuori dell’intervallo dei dati che abbiamo scelto per il campione. Un approccio migliore consiste nell’identificare la distribuzione di probabilità sottostante da cui provengono i dati del campione “adattando” una distribuzione teorica ai dati e verificando statisticamente la bontà dell’adattamento. Tutto ciò:  Esaminando un istogramma per indizi sulla forma della distribuzione  Guardando le statistiche riassuntive come media, mediana, deviazione standard, coefficiente di variazione e asimmetria. Un approccio migliore che esamina semplicemente visivamente un istogramma e statistiche riassuntive consiste nell’adattare analiticamente i dati al miglior tipo di distribuzione di probabilità. Tre statistiche misurano la bontà di adattamento: 1. Chi-quadrato (sono necessari almeno 50 punti dati) 2. Kolmogorv-Smirnov (funziona bene per i piccoli campioni) 3. Anderson-Darling (valorizza maggiormente le differenze tra le code delle distribuzioni) Analytic Solver Platform ha la capacità di adattare una distribuzione di probabilità ai dati. DISTRIBUZIONE DI SIMMETRIA: Le osservazioni equidistanti dalla mediana (coincidente in questo caso con il massimo centrale) presentano la stessa frequenza relativa; un esempio importante è fornito dalla curva di distribuzione normale  in questo caso la media = mediana DISTRIBUZIONE ASIMMETRICA POSITIVA: la curva di frequenza ha una coda più lunga a destra del massimo centrale  in questo caso la media > mediana DISTRIBUZIONE ASIMMETRICA NEGATIVA: la curva di frequenza ha una coda più lunga a sinistra del massimo centrale  in questo caso la media < mediana Distribuzione Lognormale Distribuzione beta 15 Quinta lezione 8/10 Tabelle Pivot  concetto sempre quello di tabella, ossia di matrice, dove io posso avere delle colonne e delle righe, però queste matrici sono anche caratterizzate da delle proprietà evolute. La tabella è composta da una griglia di celle, immaginiamoci che ogni cella può mantenere un numero maggiore di elementi, mentre le celle base di Excel sono progettate per tenere solo un argomento. In un foglio Excel noi abbiamo a disposizione uno spazio piatto, non ha più dimensione, una terza dimensione sono i 3° fogli, la tabella Pivot ha più dimensioni. Gli utilizzi  per costruire la tabella devi usare la voce del menu “inserisci”, il file deve avere in alto le etichette delle variabili e sotto ci devono essere i dati, dopo inserisci  “tabella Pivot”, dopo ottieni uno spazio vuoto, non è uno spazio piatto ma è uno spazio a più dimensioni. Intanto da una parte abbiamo con scritto “tabella Pivot”, sulla destra si trovano i campi della tabella Pivot. Si può utilizzare per fare delle sintesi. Tabella di contingenza  essa è una matrice in cui vengono calcolate le frequenze dei casi che presentano due caratteri categorici, presentano quante osservazioni della categoria 1 della colonna sono corrispondenti alla categoria 2 della colonna. Capitolo 6: CAMPIONAMENTO STATISTICO  campionare è una delle cose più difficili da realizzare correttamente, molto spesso i risultati errati sono affetti da errori di campionamento, è il modo più facile di prendere delle cantonate. Il concetto di campionamento è quello di estrarre un sotto insieme della popolazione; questo è il fondamento dell’analisi statistica. PIANO DI CAMPIONAMENTO  un documento di come si approccia l’ottenimento/l’estrazione dei soggetti che faranno parte del campione e quelli che invece non ne faranno parte, questo va fatto prima di estrarre il campione, è quindi una descrizione dell’approccio utilizzato per ottenere campioni da una popolazione prima di qualsiasi attività di raccolta dei dati. Quali sono gli elementi minimali che compongono un piano di campionamento?  Obiettivi  definire l’obiettivo, senza questo non ha alcun senso il piano di campionamento. Esempio obiettivo della mia ricerca è di stimare il gradimento relativo degli operatori telefonici mobili della IULM  Target della popolazione  Schema di come contattare questa popolazione, se non esiste una lista da cui derivare i nomi dei soggetti da campionare esiste comunque (quasi sempre) un riferimento schematico della popolazione;  Come puoi effettivamente raggiungere i soggetti scelti, quindi procedure per collezionarli i dati  Strumento per analizzarli. Esempio  società vuol capire quanto impatta l’iniziativa di offrire degli sconti ai golfisti, stimare quanti golfisti vorranno aderire all’offerta. Il target è over 25 e lo schema da cui prendere la parte della popolazione sono nei negozi, procedura operativa è mandare un link tramite e-mail mandando un questionario. Ci sono diversi metodi di campionamento:  Ci sono quelli decisi o di giudizio  in questo caso ci vuole una conoscenza molto specifica della popolazione, sto scegliendo un campione, si generano delle selezioni accurate, non è un metodo puramente statistico ma deterministico, per selezionare viene utilizzato il giudizio di esperti.  metodo di convenienza o pratico  i campioni vengono selezionati in base alla facilità con cui i dati possono essere raccolti (io più di quello non ho, quindi scelgo quello) quello meno costoso di tutti, totem per valutare ad esempio la pulizia dell’aeroporto, ma non è casuale). 16  Il campionamento probabilistico  impone che ci sia una casualità all’interno della scelta, selezionare gli individui da una popolazione indica che ogni campione di una popolazione abbia la stessa probabilità di un altro ad essere selezionato, quindi ogni campione deve avere le stesse probabilità degli altri di essere selezionato. Excel mette a disposizione degli strumenti di generalizzazione di casualità. Altri metodi di campionamento sempre probabilistico (ossia c’è sempre un elemento casuale): 1. Campionamento Sistematico periodico  è un piano di campionamento che selezione ogni ennesimo elemento della popolazione: ne salto “n” e prendo quello successivo. Per fare questo campionamento la casualità è ridotta, perché basta il primo numero poi bisogna avere una lista ordinata. (poco usato) 2. Campionamento Stratificato  si applica alle popolazioni che sono divise in sottoinsiemi naturali (chiamati strati) e alloca la proporzione appropriata di campioni per ogni strato. Tutti i campionamenti sono stratificati, nel senso della popolazione conosciamo delle caratteristiche che suddividono la popolazione in strati (fascia di reddito, la regione, il sesso ecc.  tutte variabili di stratificazione), il concetto è che per rappresentare una popolazione che è stratificata devo campionare in maniera proporzionale all’interno degli strati. Il campione stratificato casuale, perché all’interno dello strato è casuale peccato che all’interno degli strati non ho le stesse quote proporzionale. 3. Campionamento a Grappoli o cluster questo è basato sulla divisione di una popolazione in sottogruppi (cluster), sul campionamento di una serie di cluster e (di solito) sulla realizzazione di un censimento completo all’interno dei cluster campionati. Il concetto del grappolo è più denso dello strato, uno strato è definito da variabili strutturali (età, sesso ecc.), un gruppo/cluster è connesso da un legame più completo (esempio gli atenei di provenienza). Non è definita a priori, ma è definito a posteriori, da quello che è il gruppo che ho a disposizione. In questo caso cercherò di campionare a seconda dei gruppi che io ho a disposizione. 4. Campionamenti più dinamici  la popolazione evolve e diventa dinamica (esempio delle neomamme) popolazione delle neomamme non è mai statica cambia nel tempo. STIMA DEI PARAMETRI: La stima comporta la valutazione del valore di un parametro di popolazione sconosciuto utilizzando i dati del campione. Per misure riferite alla popolazione abbiamo utilizzato le lettere greche, quando le utilizziamo ci stiamo riferendo ad un parametro sconosciuto, questo perché non posso fare il censimento. Posso studiarli tramite dei campioni, gli stimatori o statistiche sono utilizzate per misurare i parametri della popolazione, hanno lo scopo di stimare una misura sempre sintetica che non potrò mai ottenere dalla popolazione. Si parla di stima puntuale quando lo stimatore è un valore unico (a differenza di prendere in considerazione dell’intervallo). Il valore atteso di una normale è la media, se lo stimatore ha un valore atteso che è uguale al parametro della popolazione allora è non distorto, quindi corretto. Quando io sviluppo una stima statistica ho sempre la possibilità di sbagliare, non può essere mai completamente eliminato l’errore. Quindi si verifica un errore di campionamento (statistico) perché i campioni sono solo un sottoinsieme della popolazione totale, esso è inerente a qualsiasi processo di campionamento, e sebbene possa essere minimizzato, non può essere totalmente eliminato. Errore di campionamento  quando la media non rappresenta adeguatamente il target della popolazione. L’errore di non campionamento di solito deriva da un campione che non rappresenta adeguatamente il target della popolazione. Come riusciamo a stimare l’errore? 17  90% per sondaggi che non hanno un utilizzo pratico  questo perché devo essere abbastanza preciso, nel caso in cui dovessi pubblicare un sondaggio o un articolo, non ha delle ricadute pratiche o legali, se ho sbagliato non ci sono conseguenze.  95%  ricerca di mercato, non ci sono conseguenze legali, è comunque un dato importante che può guidare delle strategie, non c’è di mezzo la vita delle persone, posso assumere un livello di confidenza elevato ma non perfetto. In questo caso la mia stima è sbagliata 1 volta su 20, mi assumo questo rischio (per un intervallo di confidenza del 95%, se scegliamo 100 campioni diversi, portando a 100 stime di intervalli differenti, ci aspetteremmo che il 95% di essi conterebbe la media della popolazione reale).  99% o di più  Quando devo stabilire aldilà di ogni ragionevole dubbio che una persona sia colpevole o innocente, che una medicina faccia bene o faccia male, che una variabile legata all’inquinamento sia misurata bene o no. In questo caso la mia stima è sbagliata 1 volta su 100. x± z∝ ⁄ 2(σ /√n) x medio (media del campione) che è la stima puntuale ± termine che è composto da 3 elementi, quel termine si chiama “margine d’errore”. z∝ ⁄ 2 è il valore della variabile casuale normale standard per un’area di coda superiore di ∝ ⁄ 2 (o un’area di coda inferiore a 1−∝ ⁄ 2. Ho bisogno di sapere il livello di confidenza che utilizzo, se ∝=0,05per un intervallo di confidenza del 95% allora zeta di alfa mezzi vale 1.96. Nel caso in cui utilizziamo invece l’intervallo di confidenza del 90% allora il margine d’errore assume valori 1.645. Sigma  deviazione standard della popolazione. Man mano che il livello di confidenza, 1−∝ diminuisce, z∝ ⁄ 2 diminuisce e l’intervallo di confidenza si restringe; infatti un intervallo di confidenza del 90% è più stretto di un intervallo di confidenza del 95%. È quindi necessario compromettere un livello più elevato di accuratezza con il rischio che l’intervallo di confidenza non contenga la media reale, per ridurre il rischio è necessario aumentare la dimensione del campione. Questa formula ci mette in relazione 3 elementi che concorrono all’errore che commettiamo in un’indagine: 1. Confidenza  che possiamo controllare, ci sono degli standard; 2. Variabilità del fenomeno nota a priori  questa non è controllabile; 3. Dimensione campionaria  possiamo controllare l’ampiezza del campione. Questi sono i parametri fondamentali che ci determinano il risultato della nostra indagine, quanto mi costa, quanto è affidabile e preciso. Concetto del livello di confidenza  se aumento l’intervallo di confidenza allora l’intervallo si allarga, se io voglio meno rischio devo allargale l’intervallo, se io accetto più rischio ristringo l’intervallo. La t-Distribution è una famiglia di distribuzioni di probabilità con una forma simile alla distribuzione normale standard. Essa si distingue per un parametro aggiuntivo, ossia quello dei gradi di libertà; all’aumentare di questi la t-Distribution converge alla distribuzione normale standard. 20 Distribuzione diversa dalla normale  la normale è quella più diffusa, per poter applicare la normale a zeta alfa mezzi io devo avere sigma, io difficilmente avrò sigma. Questo risultato è puramente teorico. Quello che potrò fare è applicare un'altra formula, la stessa di prima cambiando 2 lettere: sigma è diventato s, sigma è la deviazione standard della popolazione che per me è sconosciuta esiste solo con un mondo teorico, s invece è la deviazione standard del campione che posso calcolare. Calcolo s lo metto al posto di sigma devo cambiare anche z alfa mezzi, devo accettare qualcosa di più grande di z alfa mezzi, che mi amplia un pochino l’intervallo d’errore, che è un po’ più grandi di zeta alfa mezzi, questo valore non è uguale però per tutti i casi, dipende anche dal numero di unità del campione, questo t di alfa mezzi dipende anche da n-1 (che abbiamo trovato nella varianza campionaria, questi si chiamano gradi di libertà) quindi dipende sia da livello di confidenza che dal grado di libertà. I gradi di libertà n-1 entra due volte in questa formula entra nel calcolo di s e nel valore di t alfa mezzi, i valori di t sono più alti di quelli di z a parità dell’intervallo di confidenza, questo significa che ha un margine d’errore più grande. x± t α 2 ,n−1( s √n ) Nona lezione 21/10 Più è grande il campione più noi possiamo ridurre il margine d’errore (ma abbiamo dei limiti). Nella distribuzione normale dobbiamo lasciare un grado di libertà perché non conosciamo sigma. Allora consideriamo la t-student è più piatta rispetto alla normale, qui t dipende da 2 parametri, non solo da “∝” ma anche da “n-1”, infatti questa si differenzia dalla normale per un parametro in più ossia il grado di libertà. Nei casi concreti io non avrò mai sigma, dovrò andare a cercare “t” con il corretto grado di libertà, finora abbiamo visto il concetto di intervallo di confidenza correlato alle medie, si può applicare anche a delle proporzioni. Non si possono fare delle medie se le variabili sono categoriche, possiamo solo calcolare delle frequenze  quindi quanto volte su un campione gli individui hanno ad esempio capelli biondi o neri. La proporzione “p” è la frequenza relativa   è la proporzione della popolazione; p̂=x /n  proporzione del campione ed è la media della proporzione, dove “x” è il numero nella media con la caratteristica desiderata, mentre “n” è la dimensione del campione. Quindi p̂è “quanti individui del campione hanno la caratteristica diviso il totale del campione” ed è un numero compreso tra 0 e 1. Un intervallo di confidenza del 100 (1−∝ ) % per la proporzione è: p̂ ± zα /2 √ p̂¿¿¿ Sono tutti elementi che ho già a disposizione, devo definire sempre il livello di confidenza di α . p̂  è la stima campionaria della proporzione, non devo passare alla t mi basta la z, p̂essendo una proporzione è tra 0 e 1. È una specie di cupoletta, 0,5 è il valore del suo massimo, cosa vuol dire probabilità 0,5? Metà e metà. p̂=0,5  è la situazione peggiore, sono in un fenomeno che ha la stessa probabilità di accadere e non accadere. 21 INTERVALLI DI PREVISIONE: Un intervallo di previsioni fornisce un intervallo per prevedere il valore di una nuova osservazione della stessa popolazione. Un intervallo di confidenza è associato alla distribuzione campionaria di una statistica, mentre un intervallo di previsione è associato alla distribuzione della variabile casuale stessa. È un intervallo di predizione del 100 (1−∝ ) % per una nuova osservazione: x± t α 2 ,n−1(s√1+ 1n ) INTERVALLI DI CONFIDENZA E DIMENSIONE DEL CAMPIONE: siamo in grado di determinare la dimensione del campione appropriata necessaria per stimare il parametro della popolazione entro un determinato livello di precisione (± E). Dimensione del campione: n≥(z α 2 ) 2 σ 2 E2 Dimensione del campione per la proporzione: n≥(z α 2 ) 2 π (1−π ) E2 Utilizzare la proporzione del campione da un campione preliminare come stima di π o impostare p=0,5 per una stima conservativa per garantire la precisione richiesta. ANALISI BIVARIATE correlazione lineare tra le due variabili, segno positivo vuol dire che al crescere di una variabile cresce anche l’altra, il valore d’esempio è 0,411  non è molto alto. L’obiettivo aziendale è vendere e quindi la propensione all’acquisto, però non si può lavorare direttamente sulla propensione all’acquisto, ma si può lavorare sul gradimento. L’obiettivo finale è la propensione, quello su cui si può lavorare è il gradimento, vedere se c’è una relazione forte tra i due o no, se io miglioro il gradimento allora la propensione migliorerà di conseguenza se ho una relazione forte e viceversa. N  numero di casi su cui è stata effettuata la correlazione. Qual è il modo per vedere due variabili categoriche (o anche qualitative)? Se voglio esplorare la relazione tra due variabili qualitative è la tavola di contingenza o di incrocio. Errore standard  quando è molto piccolo o c’è una varianza molto piccola o la popolazione è molto grande. Capitolo 7  INFERENZA STATISTICA Attualmente sappiamo come cercare dei dati che sono quasi veri, in questo caso abbiamo solo stimato dei parametri, la statistica inferenziale fa un passo avanti applica questi concetti a dei problemi ancora abbastanza astratti che però hanno almeno una forma logica. L’inferenza statistica si concentra sul trarre conclusioni sulle popolazioni dai campioni; essa include la stima dei parametri della popolazione e il test delle ipotesi che implica trarre conclusioni sul valore die parametri di una o più popolazione. 22 Vorremmo che la potenza del test fosse alta (equivalentemente, vorremmo che la probabilità di un errore di tipo II fosse bassa) per consentirci di trarre una conclusione valida. La potenza del test è sensibile alla dimensione del campione; campioni di piccole dimensioni generano generalmente un valore basso di 1−β . La potenza del test può essere aumentata prendendo campioni più grandi, che ci consentono di rilevare piccole differenze tra le statistiche dei campioni e i parametri della popolazione con maggiore precisione. Se si prende un piccolo livello di significatività, bisogna provare a compensare una dimensione del campione più grande. Memo  standardizzazione è un procedimento che riconduce una variabile aleatoria distribuita secondo una media ¿ μ e varianza ¿σ 2, ad una variabile aleatoria con distribuzione “standard” ossia di media 0 e varianza pari a 1. STATISTICA TEST La decisione di rifiutare o non respingere un’ipotesi nulla si basa sul calcolo di una statistica test dai dati campione. La statistica del test utilizzata dipende dal tipo di test di ipotesi. Ci sono due possibilità:  se conosciamo sigma della popolazione allora usiamo statistica test z, in questo caso la statistica test è simile ad una standardizzazione, tolgo il valore nullo del parametro dalla media e divido per la deviazione standard. z= x−μ0 σ /√n  Nell’altro caso genero una t di Students cambiano due lettere, z diventa t e sigma diventa s (la t dipende dai gradi di libertà) t= x−μ0 s /√n Ultimo passo della verifica di ipotesi è trarre le conclusioni: le possibilità sono due o rifiuto l’ipotesi o l’accetto quindi mi viene un risultato positivo o negativo. La regola decisionale si sviluppa graficamente, il test risulta positivo quando questa deviazione dalla situazione precedente è abbastanza grande da essere sicuri. La conclusione di rifiutare o non rifiutare H0 si basa sul confronto tra il valore della statistica test e un “valore critico”, questo dipende da che livello di significatività ho scelto per α e di come il mio campione è costruito. La distribuzione campionaria della statistica del test è generalmente la distribuzione normale, la distribuzione t o qualche altra distribuzione ben nota. Il valore critico divide la distribuzione di campionamento in 2 parti, una regione di rifiuto e una regione di non rifiuto. Se la statistica del test rientra nella regione del rifiuto, rifiutiamo l’ipotesi nulla, in caso contrario non la rifiuteremo. Se la t che io misuro sta dove c’è arancione allora la differenza è significativa  il test è positivo e quindi accetto l’ipotesi alternativa e rifiuto quella di status quo. 25 Per un test a 1 coda, se H1 è indicato come <, la regione di rifiuto si trova nella coda inferiore, se H 1 è indicato come >, la regione di rifiuto si trova nella coda superiore (guarda la disuguaglianza come una freccia che punta nella direzione della coda corretta). P VALUE Un approccio alternativo a quello di calcolare il valore critico è un approccio più diretto, ci vuole un calcolatore, si calcola la probabilità della statistica test, calcolare “p” ossia la probabilità di calcolare la coda del grafico  p-value. Un valore p (livello di significatività osservato) è la probabilità di ottenere un valore statistico di prova uguale o più estremo di quello ottenuto dai dati del campione quando l’ipotesi nulla è vera. In questo caso al passaggio 3 di un test di ipotesi utilizza il valore “p” anziché il valore critico: RifiutoH 0 se il p−value<α Per un test con coda inferiore, il valore p è la probabilità a sinistra della statistica del test t nella distribuzione t. Per un test con coda superiore, il valore p è la probabilità a destra della statistica del test t. z= p̂−π0 √π 0(1−π0)/n Dove π0è il valore ipotizzato mentre p è la proporzione del campione. Test della coda inferiore:  H0  parametro popolazione 1 – parametro della popolazione 2 ≥ D0;  H1  parametro della popolazione 1 – parametro della popolazione 2 ¿D0. Questo test cerca prove che la differenza tra il parametro della popolazione 1 e il parametro della popolazione 2 sia inferiore ad un valore, ossia D0. Quando D0 = 0 il test cerca semplicemente di concludere se il parametro 1 è più piccolo o più grande del parametro della popolazione 2. Test della coda superiore:  H0  parametro popolazione 1 – parametro della popolazione 2 ≤ D0;  H1  parametro della popolazione 1 – parametro della popolazione 2 ¿D0. Questo test cerca prove che la differenza tra il parametro della popolazione 1 e il parametro della popolazione 2 sia maggiore ad un valore, ossia D0. Quando D0 = 0 il test cerca semplicemente di concludere se il parametro 1 è più maggiore del parametro della popolazione 2. Test a due code:  H0  parametro popolazione 1 – parametro della popolazione 2 ¿D0;  H1  parametro della popolazione 1 – parametro della popolazione 2 ≠ D0. Questo test cerca prove che la differenza tra il parametro della popolazione 1 e il parametro della popolazione 2 sia uguale ad un valore, ossia D0. Quando D0 = 0 il test cerca semplicemente di concludere se il parametro 1 differisce dal parametro della popolazione 2. 26 TEST F: Test per la parità di varianze tra 2 campioni utilizzando un nuovo tipo di test, il test F, per utilizzarlo dobbiamo supporre che entrambi i campioni siano tratti da popolazioni normali. Ipotesi:  H0 :σ1 2 −σ2 2 =0  H1: σ1 2 −σ2 2≠0 Statistica test F: F= s1 2 s2 2 La distribuzione F ha 2 gradi di libertà, uno associato al numeratore della statistica F, n1-1, e uno associato al denominatore della statistica F, n2-1. Per condurre un test F, sebbene il test di ipotesi sia davvero un test a 2 code, lo semplifichiamo come un test a coda singola e a coda singola per semplificare l’suo delle tabelle della distribuzione F. Con il coefficiente di correlazione lineare  correlazione tra due variabili qualitative, se la correlazione è 0 non c’è relazione, se invece è uguale o molto simile a 1 vuol dire che crescono entrambe insieme mentre, se è vicino a -1 una cresce e l’altra decresce. È possibile mettere in relazione una variabile numerica qualitativa con una variabile categorica quindi fatta a classi/categorie, un esempio può essere se misuro le altezze di una classe IULM mi aspetto di avere delle altezze mediamente più grandi di maschi e mediamente più basse le femmine. ANOVA: L’analisi della varianza si chiama “ANOVA” viene misurata per confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità esterna tra i gruppi. L’ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine e che le differenze osservate tra i gruppi siano dovuti solo al caso. Questa prende il nome dal fatto che stiamo analizzando delle variazioni nei dati; misura la variazione tra i gruppi rispetto alla variazione all’interno dei gruppi. Si presume che ciascuno dei gruppi di popolazione provenga da una popolazione normalmente distribuita. Si usano queste tecniche quando le variabili esplicative sono di tipo nominale. Ci sono delle ipotesi di fondo (se il campione è abbastanza grande le ipotesi sono soddisfatte):  H0=μ1=μ2=…=μm  H1=almenounamedia sia diversadalle altre Assunzioni: i gruppi m o i livelli di fattore studiati rappresentano popolazioni il cui esito misura: 1. sono ottenuti in modo casuale e indipendente; 2. Sono normalmente distribuiti 3. Hanno variazioni uguali Se queste ipotesi vengono violate, il livello di significatività e la potenza del test possono essere influenzati. È un classico test di ipotesi  esempio misuro un indice di soddisfazione di diversi gradi di scolarità rispetto al corso di studi che fanno, misuro chi ha fatto la maturità, chi è laureto e chi ha seguito l’università ma ha abbandonato e gli chiedo quanto è stato soddisfatto del suo corso di studi, si danno voti da 1 a 5, ho 9 casi di maturati che hanno risposto 3.4, 8 casi di laureati che hanno risposto 4.5, e 7 casi di frequentanti ma non laureati e hanno risposto 3.1  la media dei punteggi dipende dal livello di scolarità? Esiste uno strumento di Excel che ci dà una risposta, l’ipotesi nulla è che tutte le medie siano uguali, l’alternativa è che non sia vero, si trova una statistica test (F) che deve essere maggiore della soglia critica. ANOVA  variabile numerica quantitativa e categorica, pone attenzione alla varianza. 27 Residui di una regressione possono essere positivi o negativi. Regressioni statistiche: Più R - |r| dove r è il coefficiente di correlazione del campione; il valore di r varia tra -1 e +1 (r è negativo se la pendenza è negativa). R2  coefficiente di determinazione, varia da 0 (nessun adattamento) a 1 (adattamento perfetto). R2 corretto  regola di R2 per la dimensione del campione e il numero di variabili X. R2 corretto è più preciso di R2. R2  Il significato è che una certa percentuale della variabilità di Y è spiegata da quell’unica variabile indipendente X che abbiamo scelto, ci sarà qualcos’altro che spiegherà il resto della variabilità. Errore standard  errore che c’è tra i dati in Y che avevamo in input e la stima di errore Y cappuccio, stima di quanto si sbaglia mediamente tra i dati veri della y e quello stimato, quindi è la variabilità tra i valori Y osservati e previsti. ANOVA  test che mette in relazione una variabile continua con una variabile categorica, è quindi un test di ipotesi. Questa effettua un test F per determinare se la variazione di Y è dovuta a livelli variabili di X. L’ANOVA viene utilizzato per verificare il significato della regressione:  H0  coefficiente di pendenza della popolazione = 0  H1  coefficiente di pendenza della popolazione ≠0. Il rifiuto di H0 indica che X spiega la variazione in Y. Cosa vuol dire che una retta correlazione è pari a 0? Vuol dire che i dati sono completamente scorrelati. Un metodo alternativo per verificare se una pendenza o un intercetta è 0 è utilizzare un t test: t= b1−0 errore standard Test di ipotesi di coefficiente di correlazione  l’equazione di regressione è data da due coefficienti, vogliamo sapere se sono delle stime affidabili, si impongono dei test ognuno dei due coefficienti ha un suo test di significatività che è una “t” che sempre viene considerato con il metodo del p-value. Attorno ad ogni coefficiente c’è un intervallo di confidenza. Gli intervalli di confidenza (valori inferiori del 95% e superiori del 95% nell’output) forniscono informazioni sui valori sconosciuti dei coefficienti di regressione reali, tenendo conto dell’errore di campionamento. I residui sono dati dal valore vero/effettivo meno il valore previsto, se la stima è per eccesso il residuo è positivo mentre quando la stima è per difetto allora il residuo è negativo. Residui standard = Deviazione standard/residua Regola empirica  i residui standard al di fuori di ±2o±3 sono potenziali valori anomali. Condizione di linearità  ci deve essere una logica di linearità, i residui devono essere una “palla”, ci deve essere la normalità degli errori. Linearità  esaminare il diagramma a dispersione (dovrebbe apparire lineare) esaminare il diagramma residuo (dovrebbe apparire casuale); Normalità degli errori  visualizza un istogramma di residui standard, la regressione è robusta per le deviazioni dalla normalità. 30 Omoscedasticità  la variazione della linea di regressione è costante Indipendenza degli errori  osservazioni successive non devono essere correlate. REGRESSIONE LINEARE MULTIPLA: quando io ho più casi per spiegare un fenomeno parlo di regressione multipla sempre lineare; questo è un modello di regressione lineare con più di una variabile indipendente. Funzioni di più variabili  una retta è una relazione tra due variabili, l’asse x e y, è una dimensione. Mentre se io ho 2 variabili l’equivalente di una retta è un piano, sopra le due dimensioni diventa un iperpiano, quindi è una forma di relazione un po’ più complicata, ci sono più x e quindi più coefficienti di correlazione. Io ho un set di variabili X e K che vanno a spiegarmi la Y, che è il mio obiettivo. Ipotizzo che esista un modello perfetto, aldilà dell’errore, dove ho i miei coefficienti, poi ho un coefficiente angolare associato a qualunque variabile indipendente. Y=β0+β1 X1+β2X2+…+ βkX k+ε Dove Y è la variabile dipendente, X1… Xk sono le variabili indipendenti, β0 è il termine dell’intercetta, β1…βk sono i coefficienti di regressioni per le variabili indipendenti, ε è in l’errore. Stimiamo i coefficienti di regressione, chiamati coefficienti di regressione parziale b 0,b1,b2…bk, quindi utilizziamo il modello: Ŷ=β0+β1 X1+β2X2+…+ βkX k I coefficienti di regressione parziale rappresentano la variazione attesa nella variabile dipendente quando la variabile indipendente associata viene aumentata di un’unità mentre i valori di tutte le altre variabili indipendenti vengono mantenuti costanti. L’ANOVA vale per l’intero modello, cioè calcola una statistica F per testare le ipotesi: H0 : β1=β2=…=βk=0 H1: almeno βnonè=0 L’output di regressione lineare multipla fornisce anche informazioni per testare ipotesi su ciascuno dei singoli coefficienti di regressione. Se rifiutiamo l’ipotesi nulla che la pendenza associata alla variabile indipendente i sia 0, allora la variabile indipendente i è significativa e migliora la capacità del modello di prevedere meglio la variabile dipendente. Se non possiamo rifiutare H0, quella variabile indipendente non è significativa e probabilmente non dovrebbe essere inclusa nel modello. Un buon modello di regressione dovrebbe includere solo variabili indipendenti significative. Tuttavia, non è sempre chiaro cosa accadrà quando aggiungiamo o rimuoviamo variabili da un modello, le variabili che sono (o non sono) significative in un modello possono (o non possono) essere significative in un altro; quindi non si dovrebbe considerare di eliminare tutte le variabili insignificanti contemporaneamente ma piuttosto adottare un approccio più strutturato. L’aggiunta di una variabile indipendente a un modello di regressione comporterà sempre un R 2 uguale o maggiore a R2 del modello originale. 31 R2 rettificato riflette sia il numero di variabili indipendenti sia la dimensione del campione e può aumentare o diminuire quando viene aggiunta o eliminata una variabile indipendente. Un aumento di R2 rettificato indica che il modello è migliorato. APPROCCIO ALLA COSTRUZIONE DI MODELLI 1. Costruire un modello con tutte le variabili indipendenti disponibili. Verificare la significatività delle variabili indipendenti esaminando i p-values. 2. Identificare la variabile indipendente con il p-value più grande che superi il livello di significatività scelto. 3. Rimuovere la variabile identificata nel passaggio 2 dal modello e valutare R2 corretto (non rimuovere tutte le variabili con p-value che superano “a” contemporaneamente, ma rimuoverne uno alla volta). 4. Continuare fino a quando tutte le variabili sono significative. Criterio alternativo  usare la statistica t, se |t| < 1  l’errore standard diminuirà e R2 sarà aumentato se la variabile è stata rimossa. Se |t| > 1  si verificherà il contrario. È possibile seguire lo ste4sso approccio sistematico ad eccezione dell’uso dei valori t anziché dei valori p. Dodicesima lezione 29/11 Se c’è una relazione tra due variabili mi aspetto che il comportamento di una cambi al variare dell’altra. Ad esempio: se la variabile marca abituale non influenza la variabile area, al variare della marca non cambiano le aree, quindi la distribuzione delle aree per tutte le marche sia più o meno uguale. Quindi il concetto di indipendenza tra variabili  due variabili qualitative sono indipendenti l’una dall’altra se la distribuzione sulle righe rimane più o meno la stessa di quella delle colonne. Definiamo invece due variabili dipendenti quando la distribuzione su tutte le righe e le colonne non sono uguali, quindi l’essere in una determinata area geografica influenza l’acquisto di una determinata marca. Una misura sintetica della distanza dall’indipendenza è χ2. Se le due variabili sono perfettamente indipendenti χ2vale 0. Se invece χ2ha un valore elevato le due variabili sono dipendenti. χ2 è la statistica per testare l’indipendenza tra due variabili. L’ipotesi nulla è che le variabili siano indipendenti ( χ2=0). La statistica test ha una distribuzione chi-quadrato con un parametro (gradi di libertà) che dipende dal numero di righe e di colonne. Il test essenzialmente consiste nel verificare se il valore di χ2 è abbastanza grande. La distribuzione χ2 dipende come la F dai gradi di libertà: all’aumentare del numero di gradi di libertà assomiglierà ad una normale, ma essendo un quadrato sarà sempre positiva quindi non arriverà mai ad essere una vera e propria normale. Dall’esempio possiamo affermare che respingeremo l’ipotesi nulla in quanto il valore del p-value è troppo basso e non significativo. Le correlazioni tra variabili numeriche permettono di valutare la significatività della correlazione. L’asterisco nelle correlazioni bivariate traduce la significatività indicata sotto. * significatività al 1%, **significatività al 5%. Dire che un coefficiente di correlazione è significativo, equivale a dire che è significativamente diverso da 0. Il test delle ipotesi mi dice a questo punto se quel valore è abbastanza alto da poter dire che non è nullo. Confrontare la correlazione con zero, significa andare a capire se c’è una relazione tra le variabili. Se invece si raggiunge un certo livello di significatività significa che esiste una certa relazione. 32 modelli è quello della “sovrastima o anche overfitting” bisogna guardarsi sempre dall’introdurre troppi dati nel modello perché possono portarci su una strada di sovra adattamento. L’analisi di regressione richiede dati numerici, i dati categorici possono essere inclusi come variabili indipendenti, ma devono essere codificati in modo numerico utilizzando variabili fittizie; mentre per variabili con 2 categorie codificate come 0 e 1. Non sempre una variabile indipendente viene utilizzata linearmente (esempio dello sconto). INTERAZIONE Essa si verifica quando l’effetto di una variabile dipende da un’altra variabile. È possibile verificare le interazioni definendo una nuova variabile come prodotto delle variabili X3 =X1*X2 e verificando se questa variabile è significativa portando a un modello alternativo. Quando una variabile categorica ha k > 2 livelli dobbiamo aggiungere “k -1” variabili aggiuntive al modello. Quattordicesima lezione 12/11  Della Beffa Nella regressione ci sono una variabile dipendente e una o più variabili indipendenti, regressione semplice e multipla, la multipla ha due o più variabili indipendenti, mentre la semplice solo 1. L’ANOVA sulla regressione testa l’ipotesi generale che ci sia una qualche dipendenza tra la variabile dipendente e la/le variabili dipendenti, con la regressione noi vogliamo stimare la variabile dipendente, l’ANOVA ci dice che qualcosa le variabili indipendenti fanno. La prima cosa che si deve fare è vedere se l’ANOVA è significativa, dobbiamo trovare quindi un valore molto molto piccolo. Se la mia ANOVA qualcosa spiega, la domanda successiva è  quanto spiega? La risposta ci viene data da R2, misura più comoda e intuitiva, quindi quella a cui si fa riferimento, di quanto “bene” è venuta la regressione. L’interpretazione di R2  misura la percentuale di varianza della variabile dipendente spiegata dalla o dalle variabili indipendenti. Se la percentuale è alta vuol dire che spiega bene la regressione, R 2 varia tra 0 e 1, è il coefficiente di Pearson al quadrato. Il senso di R2  quando passiamo a una regressione multipla la cosa diventa più complicata, ma fino a quando siamo in quella semplice è il quadrato del coefficiente di correlazione. R2 la percentuale di varianza che le due variabili hanno in comune, più è vicino a 1 più le variabili spiegano bene la dipendenza. Coefficiente di correlazione  la correlazione tra A e B è uguale alla correlazione tra B ed A? sì è lo stesso. R2 è la varianza comune alle due variabili. La correlazione misura l’esistenza di una relazione lineare tra due variabili, cioè misura se quelle variabili rappresentate in un piano sono abbastanza allineate/disposte in una fascia. La correlazione maggiore significa correlazione più forte, se dovesse essere uguale a 1 vuol dire che i punti sono tutti in fila. R (coefficiente di correlazione) varia tra 0 e 1, R2 più grande vuol dire che i punti sono più vicini alla retta, cioè che la retta costituisce un’approssimazione della nuvola di punti più adeguata. Il coefficiente di correlazione ci può solo dire la relazione tra le variabili, la regressione ci dice quanto è inclinata la retta, ci dice quanto varia la variabile dipendente per una variazione unitaria della variabile indipendente, è il passo successivo alla correlazione; quindi ci dice più di quanto ci diceva la correlazione. I coefficienti di regressione  ci dicono quanto varia la dipendente al variare dell’indipendente. Aggiungendo variabili R2 non diminuisce mai, al massimo aumenta. Coefficiente dentro una regressione multipla  Il coefficiente indica di quanto aumenta la variabile dipendente per una variazione unitaria della variabile indipendente tenendo ferme tutte le altre. Il test della significatività del coefficiente di correlazione testa se esiste qualche relazione. 35 La regressione non misura una relazione causale tra le variabili, non ci dice se le variabili indipendenti causano la variabile dipendente ci dice se esiste una relazione tale che con le varabili indipendenti si possa stimare la variabile dipendente. Obiettivi della regressione: stimare la variabile dipendente (risposta) attraverso variabili esplicative attraverso delle previsioni, l’altro aspetto è cercare i previsori migliori/più forti. Le regressioni non implicano un rapporto causa-effetto. Quindicesima lezione  18/11 Della Beffa Outlier  ci sono bivariati e multivariati. La regressione è sensibile agli outlier, ne è dipendente. Pred X  valori sulla retta, valori previsti, i valori proiettati sulla retta. Resid Y  valori residui, quindi la distanza dei valori dalla retta. Z  vuol dire che sono ridotti a media zero e varianza 1  quindi i valori sono standardizzati. Regressione lineare  opzione salva  nei valori residui  standardizzati, mentre nella cartella “valori previsti”  non standardizzati, tutto questo per cercare di individuare gli outlier. Sintesi  un modo per identificare gli outlier bivariati è la regressione, la regressione è fortemente dipendente dagli outlier. Se facciamo una regressione lineare multipla come scegliamo la X avendone tante? Per questo motivo c’è la Y, se usiamo il valore stimato teniamo conto del risultato della regressione. Tutti i modelli di regressione hanno due scopi che non si escludono a vicenda: 1. fare delle stime/previsioni; 2. scoprire se esistono e quali sono i migliori predittori della variabile dipendente, scopro quali sono le variabili che maggiormente influenzano le variabili dipendenti. Posso stratificare rispetto a una variabile e trattare i missing sostituendo con la media della variabile. Qualcosa del fenomeno si coglie dentro alle nostre variabili di comportamento perché il valore è circa del 40% (R2  0,406  parte del fenomeno ci sfugge però qualche cosa cogliamo, se ci sono dei predittori utili riusciamo ad individuarli). ANOVA  se è significativa ci permette di testare la bontà complessiva, ci dice se stiamo stimando qualcosa, se così non fosse dovremmo procedere con la media. Coefficiente di regressione è significativo  significativamente diverso da zero (come il coefficiente di correlazione), se quel coefficiente è diverso da zero vuol dire che qualcosa prevede. Se un predittore non è proprio significativo non solo non serve ma dà anche fastidio perché ne sporca il risultato, allora è meglio toglierlo. Multicollinearità  correlazione tra i predittori, se la correlazione tra i predittori è 0 e quindi sono tutti indipendenti siamo nella condizione ottimale, se i predittori sono in qualche misura correlati allora si può riflettere nel coefficiente di correlazione. VIF  1/tolleranza Quando stiamo confrontando delle marche le teniamo tutte, anche se alcune non sono significative, perché noi vogliamo confrontare le regressioni. Anche se qualche variabile non è significativa le dobbiamo sempre tenere tutte. Sedicesima lezione 19/11 Come risolvere il problema di ridurre la complessità? Riduciamo il numero delle variabili. Per poter risolvere il problema della dimensionalità sono stati affrontati diversi approcci: tra cui l’analisi delle componenti principali (ACP), le finalità  la finalità principale è quella di creare un numero relativamente piccoli di variabili (costrutti) che riassumono cercano di spiegare un numero grande di variabili. Gli obiettivi di quest’analisi possono essere: 1. ridurre il numero piccolo di variabili, le voglio sintetizzare; 36 2. cercare di ridurre le variabili per capire le relazioni tra le variabili; La relazione tra una variabile numerica (il cui valore indica un numero) e una categorica (il cui valore indica una categoria) si può analizzare mediante le differenze in media, cioè confrontando la media della variabile numerica all’interno dei gruppi definiti dalla variabile categorica. L’analisi della relazione (dipendenza/indipendenza) tra due variabili categoriche si basa sulle frequenze congiunte, che si rappresentano con tabelle a doppia entrata. L’indipendenza tra due variabili significa che le percentuali per riga (o per colonna) sono approssimativamente uguale in tutte le righe (o colonne). Distanza d’indipendenza  x2  chi quadrato x2=0 indipendenza x2≫0dipendenza x2  è la statistica per testare l’indipendenza tra due variabili l’ipotesi nulla H0 è la che le variabili siano indipendenti (x2 = 0). La statistica test (x2) ha una distribuzione chi-quadrato con un parametro che dipende dal numero di righe e di colonne. Il test consiste nel verificare se il valore x2 è “abbastanza grande”. diciassettesima lezione 25/11/19 MODELLI MULTIVARIATI:  Analisi delle componenti principali  Mapping  Distanze  Cluster analysis  Customer satisfaction ANALISI DELLE COMPONENTI PRINCIPALI: finalità  scopo dell’analisi delle componenti principali è trovare un numero relativamente piccolo di costrutti (le componenti principali) che possano riassumere e spiegare adeguatamente un numero più ampio di variabili. Gli obiettivi dell’analisi sono:  Ridurre il numero delle variabili  Individuare strutture nelle relazioni tra le variabili (analisi fattoriale esplorativa) Le componenti principali sono nuove variabili che si possono aggiungere a quelle originali nella matrice dei dati. L’analisi comprende i seguenti passi: 1. Selezione delle variabili 2. Calcolo della matrice di correlazione (o di covarianza) 3. Estrazione delle componenti principali 4. Rotazione delle componenti principali (opzionale) 5. Generazione dei punteggi (opzionale) La matrice dei dati è costituita da p variabili Xi e n unità, ipotizziamo di lavorare su variabili Xi standardizzate, la relazione tra le p variabili sono riassunte dalla matrice di correlazione R. 37  Rotazioni oblique o Meno usate generano componenti correlate MATRICE DI CORRELAZIONE VS MATRICE DI COVARIANZA: l’analisi si può eseguire a partire dalla matrice di covarianza anziché dalla matrice di correlazione:  Utilizzare le correlazioni corrisponde a lavorare sui dati originali standardizzati  le variabili diventano adimensionali e confrontabili  Utilizzare le covarianze corrisponde a lavorare su dati centrati ma che conservano la varianza originale  le variabili con varianza maggiore hanno un peso maggiore nella varianza totale. I risultati sono diversi se si parte dalla matrice di covarianza o da quella di correlazione. ll risultato primario dell’analisi delle componenti è la matrice della struttura che rappresenta la relazione tra variabili originali e componenti. Una forte correlazione vuol dire una forte dipendenza della variabile originaria sulla componente. Nella matrice di struttura tutta l’enfasi è focalizzata sui componenti, c’è un’altra informazione, quella del ruolo delle variabili di partenza rispetto all’analisi delle componenti principali. Le comunalità sono le somme dei quadrati dei coefficienti di commissione per riga, mi stimano quanta parte di variabilità delle variabili di partenza è stata effettivamente sintetizzata nelle componenti estratte, serve a ricostruire che cosa ho dimenticato, gli elementi informativi tralasciati. L’ANALISI FATTORIALE Questa è affine all’analisi delle componenti principali, ka con differenze sia nel metodo che di finalità: L’analisi fattoriale è una tecnica più soggettiva, si pone il problema di vedere se c’è qualcos’altro, non si limita a fare un’analisi, ma va a vedere se ho lasciato qualcosa. I dati che vanno in input sono solo variabili numeriche, non si possono utilizzare variabili categoriche, posso usare la fattoriale solo su variabili numeriche, le variabili dovrebbero appartenere tutte alla stessa area semantica e devono presentare correlazioni non nulle. L’analisi è influenzata da outlier e missing, è meglio non introdurre outlier perché influenzerebbe il coefficiente di correlazione. Ci vuole inoltre un minimo di casi, non si può fare una fattoriale con pochi casi. In sintesi:  l’analisi richiede variabili numeriche  non ci sono variabili indipendenti e dipendenti  le variabili dovrebbero appartenere alla stessa area semantica e non ci dovrebbero essere variabili overall.  Le variabili devono presentare correlazioni non nulle (si può verificare con il test di Bartlett, deve essere p <0,05)  Le coppie di variabili dovrebbero avere una distribuzione normale bivariata  L’analisi è influenzata da outlier e missing  Numerosità del campione: da 5 a 10 casi per ogni variabile analizzata con un minimo di 100 casi. Le nuove variabili (i punteggi) non sono identificate univocamente come se fossero osservate direttamente, c’è sempre un margine di discrezionalità che deve essere controllato dal ricercatore. In pratica non esistono test o indici globali per valutare la bontà del risultato: (il test Bartlettp una condizione necessaria non sufficiente) la verifica di ipotesi sui fattori è oggetto dell’analisi fattoriale confermativa. 40 MAPPING: Fa parte dei modelli multivariati; le marche per loro natura non sono tutte uguali, devono differenziarsi e quindi costruirsi il loro territorio, hanno bisogno di disporsi nello spazio distanti le une dalle altre, ci vuole uno strumento che le mappi. Ho bisogno della mappa del territorio su cui piazzare le marche. La ragione per cui si parla di mapping è mettere in evidenza le similarità e le differenze delle marche su un dato territorio; queste dimensioni devono essere interpretabili rispetto al mercato, quello che mette vicine o lontane le marche è la distanza.  Brand mapping  con questo si intende una rappresentazione grafica di brand (o di qualunque altro ogggetto) in uno spazio (mappa) che mette in evidenza le relative similarità in modo semplificato e intuitivo. Si tratta di individuare un numero ridotto di dimensioni rispetto alle quali collocare gli oggetti, queste dimensioni devono essere utilmente interpretabili rispetto al fenomeno sotto indagine; gli oggetti in questione si dispongono tanto più vicino quanto più sono simili tra di loro. Lo scopo del mapping è descrittivo ed esplorativo. La soluzione più semplice è usare come assi due variabili note relative agli oggetti (possibilmente poco correlate). Gli strumenti per il mapping  le dimensioni della mappa possono essere “scoperte” con diverse tecniche (perceptual map): analisi fattoriale (quindi analisi delle componenti principali), analisi discriminante, analisi delle corrispondenze e multimensional scaling. Le varie tecniche differiscono per le possibilità che offrono e i tipi di dati ai quali si applicano.  Analisi fattoriale  le variabili originali si proiettano sulla mappa usando come coordinate i coefficienti della matrice di struttura (serve l’interpretazione degli assi). Le unità si proiettano utilizzando i punteggi fattoriali (la posizione di un brand è la media dei punteggi delle unità ad esso relative, allo stesso modo si può proiettare qualunque altro punto). Le due mappe variabili e unità, hanno gli stessi assi ma scale diverse  non si possono proiettare variabili e unità contemporaneamente su una mappa unica.  Analisi discriminante  genera assi ortogonali in ordine di importanza decrescente e punteggi discriminanti, analoghi alle componenti e ai punteggi dell’analisi fattoriale. La differenza fondamentale è che l’analisi discriminante tiene conto dei gruppi definiti a priori. L’analisi fattoriale massimizza la varianza totale spiegata, l’analisi discriminante massimizza la separazione tra i gruppi. Con l’analisi fattoriale tutti i punti sono proiettati passivamente sulla mappa, con l’analisi discriminante la variabile che definisce i gruppi ha un ruolo attivo nella generazione degli assi.  Analisi delle corrispondenze  è una tecnica per l’analisi delle relazioni tra due o più variabili categoriche. La relazione tra le variabili è riassunta da una tabella a doppia entrata in cu si ipotizza una dipendenza tra righe e colonne. Questa fornisce mappe simili a quelle prodotte dalla fattoriale ma permette di rappresentare punti e variabili sulla stessa mappa.  Multidimensional scaling  (MDS) ha lo scopo di proiettare su una mappa degli oggetti (unità o brand) in modo da rispettarne le prossimità o similarità. Può utilizzare come base dati qualunque matrice interpretabile come matrice di distanze tra le unità. Il significato delle dimensioni della mappa è definito implicitamente dalla posizione delle unità. DATI DI PARTENZA: o Analisi fattoriale e discriminante  matrice di correlazione tra le variabili (numeriche) o Scaling multidimensionale  matrice di distanze tra i punti 41 o Analisi delle corrispondenze  tavola di incrocio delle variabili (categoriche) Diciottesima lezione 26/11/19 Distanza e similarità:  Distanze  Standardizzazione  Variabili qualitative Il concetto generico di prossimità si applica in generale alle unità statistiche – non alle variabili – e serve a caratterizzare la maggiore o minore vicinanza o somiglianza delle unità. Lo scopo finale è la creazione di gruppi omogenei di unità ( es. gruppi di utenti in base ai modi di utilizzo). Le unità sono normalmente descritte in modo multivariato da variabili quantitative e/o qualitative. Occorre stabilire come si possa misurare la similarità o la dissimilarità tra unità e tra gruppi di unità. Distanza  due unità descritte (misurate) da p variabili quantitative si possono rappresentare come due punti x,y in uno spazio a p dimensioni. La definizione formale di distanza o metrica richiede che la distanza d(x,y) tra x e y soddisfi le seguenti condizioni: 1. d ( x , y )≥0  non negatività 2. d ( x , y )=0→x= y  identità 3. d ( x , y )=d ( y , x )  simmetria 4. d ( x , y )≤d ( x , z )+d (z , y) disuguaglianza triangolare Queste condizioni traducono le proprietà delle distanze abituali della geometria euclidea. Il calcolo della distanza stabilisce come misurare quanto sono vicine le unità tra loro avendo a disposizioni più variabili. Distanza euclidea  teorema di Pitagora l’ipotenusa è dato dalla somma dei quadrati sotto radice quadrata dei cateti, la distanza euclidea tra due variabili è la stessa formula del teorema di Pitagora espanso a P dimensioni. Ho una matrice di n dimensioni a più colonne, calcolo le differenze tra le coordinate e poi le sommo e faccio la radice quadrata, questa è la distanza misurata su tutte le dimensioni. Chiamiamo dij la distanza tra le unità i-esima e j-esima in una matrice dei dati nxp: La distanza euclidea al quadrato non è propriamente una distanza ma un indice di distanza, perché può violare la diseguaglianza triangolare, è più sensibile della distanza euclidea alle differenze più elevate. Distanza di Manhattan (citu block)  bisogna muoversi come se fosse una scacchiera, la distanza non è fatta da ipotenuse ma da cateti, la logica che lo regola non è il teorema di Pitagora, ma è una somma di differenze che sono i tratti rettilinei, è meno sensibile della distanza euclidea alle differenze più elevate, ci arrivo a scalini. 42 METODI GERARCHICI: CRITERI DI AGGREGAZIONE Quando si aggregano gruppi di punti bisogna decidere tra quali punti calcolare le distanze:  I due più vicini;  I due più lontani;  La media delle distanze a coppie (metodo del legame medio)  I centroidi  Il metodo di Ward, che aggrega ad ogni passo i gruppi che generano il minimo aumento della varianza interna ai gruppi NUMERO DI CLUSTER Nei metodi gerarchici la lunghezza dei rami nel dendrogramma può dare indicazioni sul  Rappresenta la distanza tra i due cluster (o casi) uniti a ogni passo, dipende dalla metrica e dai criteri di aggregazione usati  Un “salto” nella sequenza delle distanze suggerisce di scegliere la soluzione prima del salto. Quando le unità sono in numero ridotto e sono interpretabili individualmente (es. prodotti), l’interpretazione dei cluster è definita implicitamente dalle unità che li compongono. Si possono inoltre usare criteri più generali (es. centri dei cluster) tipici dei metodi non gerarchici. METODI NON GERARCHICI: ALGORITMO 1. Si fissa il numero di cluster (e si ottiene solo quello); 2. Si scelgono i centri iniziali dei cluster (seeds), anche casuali 3. Si generano i cluster associando ogni unità al centro al quale è più vicina 4. Si ricalcola la posizione dei centri 5. Si ripetono i passi 3 e 4 fino a quando i centri si stabilizzano, o al raggiungimento di un altro criterio di arresto. METODI NON GERARCHICI: K-MEANS La tecnica non gerarchica di uso comune è la k-means:  Utilizza la distanza euclidea  Massimizza le distanze tra i centroidi  Richiede di indicare a priori il numero dei cluster  Di solito i centri iniziali sono scelti dall’algoritmo di calcolo automaticamente, ma possono anche essere fissati a priori. Questa tecnica è molto sensibile ai centri iniziali: se vengono scelti automaticamente di solito dipendono dall’ordinamento della matrice dei dati, la tecnica è anche sensibile alla presenza di outlier. Le criticità diminuiscono all’aumentare del numero dei casi. Interpretazione dei cluster Criterio fondamentale (valido anche per i metodi gerarchici):  Esaminare i centri finali dei cluster, cioè la media delle variabili all’interno di ogni cluster, l’ideale è ottenere medie molto diverse su tutte le variabili Bisogna inoltre esaminare le dimensioni dei cluster:  Cluster molto piccoli (poche unità) indicano possibili outlier 45  Un unico cluster molto grande indica spesso un cattivo raggruppamento, con un cluster medio poco caratterizzato, attorno al quale si collocano cluster marginali. L’ANOVA rispetto alla suddivisione in cluster si può eseguire su qualunque variabile ma: 1. Se applicata alle variabili utilizzate per l’analisi (attive)  Permette di valutare l’importanza delle variabili nel definire i cluster (maggiore significatività  maggiore importanza)  Ma non si può interpretare come test della significatività delle differenze tra cluster, perché i cluster non sono indipendenti dalle variabili. 2. Se applicata a variabili esterne (variabili illustrative, non utilizzate per l’analisi) si può interpretare come test e può fornire informazioni utili per caratterizzare meglio i cluster. VALUTAZIONE DELLA BONTÀ DEI CLUSTER: R2 In base al principio di scomposizione della varianza totale (T) in varianza nei cluster (W) e varianza tra (B), si può definire una misura per valutare la bontà dei cluster: R2= B T =1− W T R2  si può interpretare come percentuale della varianza totale spiegata dalla suddivisione in cluster; questo aumenta all’aumentare dei cluster, quindi va usato con cautela nel confrontare soluzioni con numerosità diverse. STABILITÀ DEI CLUSTER E CROSS-VALIDATION: le tecniche di cluster analysis individuano dei cluster anche su dati casuali privi di struttura. Poiché l’obiettivo è di identificare cluster utili a fini pratici e interpretativi, è necessario che essi siano stabili. La stabilità dei cluster si può valutare con la cross-validation, cioè incrociando con una tabella a doppie entrate soluzioni generate in condizioni diverse. Le soluzioni sono tanto più simili quanto più i casi si concentrano in poche celle  l’ideale è una sola cella per riga e per colonna. Diciannovesima lezione 2/12 Domande: 1. differenza tra fattoriale e componenti principali? 2. A cosa serve la rotazione e cosa succede nella varianza spiegata? 3. La comunalità? 4. La matrice di struttura com’è fatta e a cosa serve? 5. Obiettivi dell’analisi fattoriale, cosa la faccio a fare?  per 3 motivi: per ridurre la dimensione, fatto puramente tecnico, per capire cosa c’è sotto per trovare i fattori latenti, infine quello di generare delle variabili per usarle in analisi successive. 6. Autovalore? 7. Descrivere quali sono le caratteristiche dei punteggi fattoriali; Sul piano metrico e sul piano delle relazioni? (quelli che si generano), si parte dall’autovalore più grade il secondo deve essere ortogonale (sono ortogonali le componenti che generiamo), la media e la varianza sono 0 e 1. 46 Domande esame: ci sono due variabili categoriche: c’è una relazione tra le due variabili? Tra una variabile categorica e una numerica si fa una ANOVA Una sulla statistica inferenziale Una sulla cluster, regressione, fattoriale Ventesima lezione 9/12  Sfogliarini BISECTING K-MEANS: è una combinazione di k-means e approccio gerarchico (è un metodo gerarchico divisivo) 1. Inizia con tutte le unità in un singolo cluster 2. Sceglie un cluster da dividere 3. Lo divide in due con il metodo k-means (bisecting step) 4. Ripete il passo 3 con centri iniziali diversi e sceglie la soluzione migliore (es. max R2) 5. Ripete i passi 2,3 e 4 fino ad ottenere il cluster desiderato La tecnica non gerarchica di uso comune è la k-means, i suoi elementi fondamentali sono:  utilizza sempre la distanza euclidea  massimizza le distanze tra i centroidi  richiede di indicare a priori il numero dei cluster  di solito i centri iniziali sono scelti dall’algoritmo di calcolo automaticamente, ma possono anche essere fissati a priori. La tecnica K-medie è molto sensibile ai centri iniziali, anche all’ordinamento dei dati e alla presenza di outlier, quindi prima è meglio pulire sempre i dati, è fondamentale eliminare le osservazioni strane. L’altro problema è l’interpretazione dei cluster, il risultato di una cluster dovrebbe essere un set con numerosità simili e abbastanza confrontabili, bisogna evitare dei cluster molto piccoli. Un altro problema è quando siano in presenza di un grande cluster, poiché indifferenziato e nel quale vengono raggruppati tanti dati. I cluster devono essere quindi di numerosità simili (se no avrei uno sbilanciamento di target) e dall’altra parte devono avere delle caratteristiche che mi consentano di stimolarle con delle leve specifiche. ANOVA (analisi della varianza mette in relazione una variabile categorica con una variabile numerica, si prende la variabile numerica e si calcolano le medie rispetto alle variabili categoriche, l’ipotesi nulla è che tutte le medie siano uguali, l’ipotesi alternativa è che almeno una sia diversa), si può utilizzare l’ANOVA in due modi diversi, se l’applichiamo alle variabili utilizzate per l’analisi, più le medie sono diverse e quindi più il test è positivo più le variabili sono importanti. Possibilità di vedere la bontà dei cluster, questo tramite una formula: R2= B T =1− W T T = Scomposizione della varianza totale 47 Esistono due approcci ai modelli di equazioni strutturali: hanno strutture e obiettivi diversi e formiscono risultati diversi.  LISREL è un modello confermativo per la verifica di teorie, garantisce precisione statistica sotto ipotesi stringenti;  PLS è un modello casuale-predittivo come la regressione, fornisce esplicitamente la stima delle variabili latenti (indici) richiede ipotesi minime sui dati. Ultima lezione 16/12/19 1. Quali sono gli obiettivi dell’analisi fattoriale?  Ridurre le variabili  Variabili latenti  Utilizzare i punteggi per le analisi successivi 2. Concetto di popolazione e campione  la popolazione è l’insieme completo degli individui, prodotti e così via, che sono oggetti dell’analisi; mentre il campione è il sottoinsieme della popolazione su cui faccio l’analisi, la popolazione deve essere prevista estremamente precisa, per esempio “italiani” non basta, italiani per definire la popolazione significa residenti regolari? Quindi una definizione seria della popolazione è residenti al primo gennaio di quest’anno. Il campione deve avere 2 fondamentali caratteristiche la rappresentatività e la numerosità, quindi che rappresenta tutte le varietà presenti nella popolazione, quindi nessuno escluso, possibilmente in maniera proporzionale alla situazione all’interno della popolazione. Numerosità si intende quanto è grande il campione che poi servirà per calcolare l’intervallo di confidenza e così via. Bisogna distinguere bene la rappresentatività e la numerosità. 3. Errore Alfa ed errore Beta  non si possono avere entrambi i valori bassi, esiste un trade off per cui se voglio garantire errori bassi di entrambi i tipi non ho altra scelta che aumentare la numerosità del campione. Esercizi pratici File Titanic verificare se l’incidenza è significativa per le variabili classe, età, sesso, e sopravvissuti  come si fa? Analizza  tabella di contingenza colonne sopravvissuti e sulle righe le altre 3 variabili, dopo si va sulle statistiche e si mette il chi-quadrato; hanno fatto differenza tutti, sono morti più uomini e di più quelli in 2° e 3° classe. Dopo scrivere uno per uno  significatività  bisogna scrivere P= a quanto è significativo, se viene p=0,000 questo vuol dire che p< di 0,0005. Altro file Catalog: contiene la spesa giorno per giorno (120) in un negozio di abbigliamento, suddivisa per vendita totale in abbigliamento da uomo, da donna e in gioielleria. Dopo ci sono una serie di potenziali predittori delle vendite, sono numero di cataloghi spediti, n° di pagine del catalogo, n° di linee aperte per gli ordini telefonici, spesa in pubblicità e quantità del personale di vendita. 3 tipi di spese, e una serie di predittori, la domanda può essere  quali sono i 2 predittori più importanti per ciascuna delle 3 categorie di spesa? Si fanno 3 analisi di regressione, una regressione con tutti i predittori verso la spesa abbigliamento femminile, maschile e gioielleria. Si fa  regressione lineare  si comincia con l’abbigliamento maschile è la dipendente, i predittori sono tutti gli altri. Quali sono i predittori più importanti per l’abbigliamento maschile? La cosa dove si rischia di scivolare è usare i coefficienti di regressione sbagliati, i predittori hanno valori molto diversi, la conseguenza di questa cosa si riflette sui coefficienti di regressione, siccome questi hanno scale fortemente diverse, per comparare il preso dei predittori non bisogna usare i beta, ma quelli standardizzati; i due predittori che hanno maggiore influenza sono il numero di persone che rispondevano al telefono e il numero di catalogo spedito, per le donne invece i due predittori più importanti sono: numero di catalogo spedito e il numero di persone. Quello che 50 ci si aspetta  regressioni e vedo come sono, dopo bisogna dire che per i maschi R quadrato è elevato i due coefficienti più importanti sono questi perché il coefficiente di standardizzazione sono, stessa cosa per l’abbigliamento femminile e la gioielleria. Statistica inferenziata e multivariate le domande di esercitazione e una teorica. 51
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved