Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Appunti Data Analysis, Appunti di Statistica

Appunti completi presi durante le lezioni di Data Analysis con il Prof. Della Beffa, nel corso di laurea magistrale di "Marketing, Consumi e Comunicazione".

Tipologia: Appunti

2020/2021

In vendita dal 24/10/2022

elisabetta_biason
elisabetta_biason 🇮🇹

4.5

(6)

13 documenti

Anteprima parziale del testo

Scarica Appunti Data Analysis e più Appunti in PDF di Statistica solo su Docsity! 1 DATA ANALYSIS 21-09 • obiettivi: imparare gli strumenti principali dell’analisi dei dati finalizzati al mercato formulare problemi di marketing in modo adatto all’analisi riconoscere il ruolo dei dati per prendere decisioni imparare a usare Excel, JMP • metodi: - lezioni - esercitazioni con Excel - esercitazioni con software statistico - analisi di un caso reale applicando le tecniche apprese e generando un report di analisi strutturato e completo → opzionale ma valido per l’esame • libri - materiale sulla community: Data analysis 2020-2021 password: data2021 - documentazione online - Molteni, Troilo, Ricerche di marketing, Egea, Milano, 2012 pallini → leggere, studiare in generale !! → studia bene tutto • esame: - prova scritta con domande aperte (interpretazione di output e domande teoriche) - orale a richiesta - report di analisi (max 2 punti) → gruppi max 3, consegna almeno una settimana prima dell’appello scelto, i punti valgono fino a settembre 2021 • ricevimento: giovedì mattina CONTESTO • cap.1, 2, 11 • 2 ipotesi che giustificano l’investimento sulla conoscenza: 1. la conoscenza è fonte di vantaggio competitivo 2. la soddisfazione dei clienti produce redditività • → orientamento al mercato - esigenze e diritti dei clienti - arena competitiva (concorrenti, prodotti, ...) • requisiti dell’impresa: - apertura: ottenere e mantenere aggiornata la conoscenza - trasparenza: fare circolare la conoscenza al proprio interno - innovazione: saper rispondere agli stimoli del mercato → dal punto di vista culturale 2 - sistema informativo di marketing: raccogliere dati sugli aspetti di interesse e trasformarli in informazioni utili per le decisioni • → sistema informativo di marketing = insieme strutturato di persone, modelli organizzativi, modelli di analisi, tecnologie disegnato per generare un flusso ordinato e continuativo di informazioni destinate a essere utilizzate come supporto alle decisioni di marketing aziendale • evoluzione del metodo in funzione degli obiettivi - livello gestionale → data quality - descriptive, business intelligence → sono pure descrizioni dei dati, non c’è interpretazione - livello diagnostico e predittivo → cerco di capire perché sono così i dati - livello prescrittivo → se riesco a capire posso prevedere - livello semantico • ci sono diversi modi per classificare i dati → 2 di questi sono: 1. dati primari → raccolti da istituti di analisi dei mercati 2. dati secondari → servono per altro, ma li utilizzo anche per il marketing → rispetto all’obiettivo di marketing Le fonti informative si distinguono in: 1. interne 2. esterne • altra classificazione dei dati → rispetto alla loro semantica: 5 - invito via mail/web/social, link per la compilazione -pro: tempi e costi ridotti -contro: minore accuratezza, filtro internet, autoselezione (cioè limitazione di target, perché chi risponde sono quelle persone che hanno un motivo per farlo) 4. COSTRUZIONE DEL QUESTIONARIO (CAWI) • p.140 • principi fondamentali: chiarezza, semplicità, brevità • passaggi: 1. identificare informazioni di interesse primario e accessorie → quali aree: opinioni, comportamenti, sociodemo 2. stabilire la sequenza logica dei temi (sezioni e filtri) es. campione, dal generale al particolare, sociodemo alla fine 3. definire la lista delle variabili (non le domande) → cosa chiedere per le aree scelte 4. definire la sequenza delle domande es. prima la soddisfazione globale o gli attributi del prodotto? → meglio prima la soddisfazione e poi aggiungere gli attributi; se faccio il contrario lo porto a considerare gli attributi che ho messo prima e quindi mi direbbe quanto è soddisfatto rispetto a quegli attributi 5. decidere la forma delle risposte (aperte o chiuse, in che scala → adesso si può fare domande aperte, prima era impensabile) 6. formulare le domande → come chiedere FORMULAZIONE DELLE DOMANDE • p.142-144 • la formulazione delle domande è fondamentale: • evitare domande doppie → perché se ci sono due alternative non si sa a quale delle due risponde, è meglio dividere le domande es: ha mai comprato online biglietti aerei o ferroviari? • evitare ambiguità es: nella sua famiglia ci sono bambini? • attenzione alle negazioni → perché non bisogna influenzare, poi perché se devo dire se sono d’accordo o no e nella frase c’è una negazione è difficile capire se bisogna mettere si o no es: l'intervento della Regione Lombardia non è stato adeguato… • risposte esaustive e mutuamente esclusive es: in che paese è nato: Italia | Francia | Spagna | Europa → perché ci sono altri stati o continenti, poi perché Italia, Francia e Spagna si trovano anche in Europa, quindi non sono esclusive • non dare nulla per scontato es: dove è andato in vacanza l'estate scorsa? → magari non è andato in vacanza • attenzione alle domande sul passato e ai temi etici • → limitarsi alle domande necessarie QUESTIONARIO: MOZZARELLA • Obiettivo principale: analisi della concorrenza - posizionamento dei concorrenti - miei punti di forza e di debolezza • Obiettivo secondario: segmentazione dei prodotti • Formula di ricerca: - campione di consumatori 6 - survey: cosa chiedere? come? - mapping - preference analysis - cluster analysis • CRITERI DI CAMPIONAMENTO: - responsabile acquisti → chi in famiglia acquista questi prodotti - consuma mozzarella - conosce Pettinicchio - campione della pop italiana uniformemente distribuito per età (due classi: 21-45 e 46-64) e per area (nord, centro, sud) • FILTRI - uno dei criteri standard di esclusione dalle interviste è lavorare in pubblicità, ricerche di mercato, giornalismo, ... • COSA CHIEDERE: SEZIONI DEL QUESTIONARIO - identificare le aree che si vogliono esplorare (es: packaging, formato, provenienza, brand) → nel questionario: • COSA CHIEDERE: SEZIONE "IMMAGINE MARCA" (es: italianità, km0, sostenibilità, affidabilità,) • questionario vero → in community 7 3. STATISTICA UNIVARIATA E PROBABILITA’ • cap.4 p.148-175, 203-205, dispensa “analisi bivariate” LA MATRICE DEI DATI • tutte le analisi si basano su matrici di dati unità per variabili - n righe: le unità statistiche (detti anche casi, osservazioni, example) - k colonne: le variabili (attributi, feature) LO SPAZIO DELLE UNITA’ • ogni variabile si può interpretare come una dimensione • ogni unità si può interpretare come un punto nello spazio a k dimensioni TIPI DI SCALA • p.148-151 • DATI CATEGORICI (QUALITATIVI) = i valori si esprimono in categorie o modalità - ogni unità deve appartenere a una e una sola categoria - non si possono eseguire operazione aritmetiche - si possono calcolare frequenze e percentuali - si distinguono in: ➢ nominali (es. marca) ➢ ordinali: le categorie sono ordinate, ma le distanze tra di esse non sono uguali es. istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto) • DATI NUMERICI (QUANTITATIVI) - rappresentano informazioni intrinsecamente numeriche - si può eseguire ogni tipo di calcolo (es. media) - le scale numeriche sono distinte in: ➢ a intervalli (es. temperatura, date) ➢ a rapporti (es. conteggi, età, reddito: c'è uno zero vero che significa assenza di quantità) ➢ discreti (conteggio) ➢ continui (misura) • DATI BINARI (DICOTOMICI) = sono dati nominali, ma si possono utilizzare come numerici in molte analisi - ammettono solo due valori (si/no) - un dato categorico con k categorie si può trasformare in k dati binari → se si trasforma il dato in numerico si può selezionare più di una risposta (invece che inserire nella casella un numero) 10 ALCUNI VALORI CONVENZIONALI: 95% E 99% • p.202 • in una distribuzione 𝑁 0;1 il 95% dei valori è compreso (approssimativamente) tra −2 e +2 • il 99% dei valori è compreso tra −2.57 e +2.57 excel UE • densità della popolazione: pop/sup → si moltiplica per 1000: abitanti per km2 • % popolazione: pop paese/pop tot 5-10 4. DATA VISUALIZATION https://support.microsoft.com/it-it/office/importare-e-analizzarei-dati-ccd3c4a6-272f-4c97-afbb- d3f27407fcde?ui=it-IT&rs=itIT&ad=IT#id0eaabaaa=charts https://developers.google.com/chart • le origini: William Playfair → immagine PDF p.4 →primo diagramma a barre e a torto noto • obiettivi delle rappresentazioni grafiche → servono a presentare risultati, ma anche descrivere i dati ed esplorarli es. (grafici p.5): mostrare somiglianza tra unità, identificare relazioni e valutare l'effetto di fattori TIPI DI GRAFICI • p.153-160 • box plot → Schematizza la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier) - p.172-173 libro - valori inferiori: in basso; valori superiori: in alto - Q3-Q1 = distanza interquartile (= in mezzo c’è la mediana) - vediamo che la distribuzione è leggermente asimmetrica: il baffo sotto è più corto del baffo sopra, poi la mediana (che divide il box) è più vicina al primo quartile che al secondo • istogramma → mostra la distribuzione di una variabile numerica - differenza con i diagrammi a barre: = rappresentazione grafica delle distribuzioni di frequenza - suddiviso in classi → lo standard è fare classi di ampiezza uguale - sull’asse orizzontale: variabile numerica - sull’asse verticale: frequenze relative o assolute - intervalli uguali - grafici della stessa variabile in cui l’utente definisce l’ampiezza dei singoli intervalli 11 • grafici a barre → riassumono categorie valori di variabili categoriche - orientamento verticale o orizzontale è ininfluente, è solo da un punto di vista estetico - asse orizzontale (o verticale): variabile categorica - su excell chiamate a barre o a colonne • diagramma di Pareto = grafico a barre ordinato per frequenze decrescenti (p.10 slide) • grafico a torta → Mostra la distribuzione di una variabile qualitativa ( = 100%) - limite: Non mostra chiaramente le relazioni tra le parti (p.12 slide) - usarli con grande parsimonia → prima funzionavano perché c’erano valori tra loro molto diversi - evitare versioni 3D di grafici 2D → perché è un grafico concettualmente bidimensionale • grafico a linea - entrambi gli assi sono numerici - asse y: frequenze, prezzi, indici - asse x: variabile numerica, di solito il tempo 12 • Grafico a dispersione e a bolle → rappresenta due variabili numeriche in un piano cartesiano - rappresenta la posizione dei punti rispetto a due variabili - le bolle aggiungono una terza dimensione → il primo grafico infatti non è chiaro (è inutile) mentre il secondo dà già un’informazione in più dando un nome a ogni punto; il terzo conferisce una dimensione del punto (che rappresenta il PIL procapite) → semplificazione della lettura (anche se qualche volta non si può trasformare il grafico a dispersione a bolla, ma la maggior parte delle volte sì) • grafico gerarchico → si rappresentano suddivisioni mostrate gerarchicamente - primo livello → distinzione tra centro, nord, sud secondo livello: chi ha comprato il prodotto (sì, in passato, mai) • Diagramma di Sankey → - dati uguali a prima • heatmap - su una tabella le singole celle vengono colorate secondo una scala di colore di solito da verde (valori bassi) a rosso (valori alti) - asse y: fasce d’età asse x: date 15 COEFFICIENTE DI CORRELAZIONE • la covarianza dipende dall'ordine di grandezza delle variabili → per eliminare questa dipendenza si può normalizzarla → coefficiente di correlazione → massimo possibile della covarianza ho trasformato una misura che dipende dall’ordine di grandezza a una misura che varia solo tra -1 e 1 (p.182) • varia tra -1 e 1 • • correlazioni sotto lo 0,3 sono basse correlazioni sopra lo 0,7/0,65 sono alte correlazioni tra 0,3 e 0,7 sono medie (dipende dal contesto) MATRICE DI CORRELAZIONE • - la correlazione tra istruzione e pensioni è più forte che quella tra istruzione e sanità - il segno negativo significa che i paesi con una istruzione crescente hanno la popolazione decrescente • la correlazione misura relazioni lineari • se la correlazione = 0: nessuna relazione lineare (fig. 4: la relazione crea una parabola, non è lineare) • la correlazione non implica una relazione di causa-effetto: afferma che tra due variabili c’è una relazione sistematica, ma non che una determina l’altra • correlazioni spurie = correlazioni che si verifica per puro caso 2. RELAZIONE TRA UNA VARIABILE CATEGORICA E UNA NUMERICA • p.184-186 • la relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media → dire che c’è una relazione tra ad es preferenza e marca significa che la preferenza dipende dalla marca e quindi al variare della marca le preferenze cambiano → se facciamo la media della preferenza separatamente di tutte le marche avremo un risultato che indica questo • la variabile categorica identifica i gruppi • si confrontano le medie della variabile numerica nei gruppi - se le medie nei gruppi sono diverse → c'è una relazione - se le medie sono uguali → nessuna relazione 16 • es: differenza della preferenza per marca le medie sono un po’ diverse: è solo un caso o sono già abbastanza grandi le differenze da poter dire che sotto c’è un fenomeno? → 2° test Anova p.23 CORRELAZIONE E DIFFERENZA IN MEDIA • confrontiamo i due concetti visti prima → sono relazioni e concetti diversi e indipendenti - grafico 1: medie uguali, correlazione -1 (opposta) - grafico 2: medie diverse, correlazione 1 (andamento identico) - grafico 3: correlazione 1, media diverse • la correlazione tra ad es. la valutazione delle pulizie e la preferenza, dice se questi due dati sono legati o no → se è molto legato significa che questa valutazione è importate RELAZIONE TRA DUE VARIABILI CATEGORICHE • p. 173-179 • dipendenza o indipendenza tra due variabili categoriche • si analizza con le frequenze congiunte, che si rappresentano con tabelle a doppia entrata = tavola delle frequenze congiunte - se la distribuzione nelle aree nella riga del no o si rimane uguale significa che non influisce sull’essere consumatori o no • → due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell'altra - se le distribuzioni relative sono più o meno le stesse per ogni riga vuol dire che se passo da una riga o l’altra non cambia nulla - -> saranno uguali anche alla distribuzione marginale 17 • se sono variabili indipendenti, i loro valori dipendono solo alle distribuzioni marginali FREQUENZE TEORICHE • dalle distribuzioni marginali posso vedere quali sono le frequenze teoriche che dovrei avere in ogni cella se le variabili fossero indipendenti • indipendenza tra due variabili categoriche significa che: - le percentuali di riga sono approssimativamente uguali in tutte le righe (e lo stesso per le colonne) - le frequenze congiunte dipendono solo dalle frequenze marginali - frequenze osservate sono uguali a quelle teoriche - se le distribuzioni teoriche sono vicino a quelle osservate significa che sono vicino a una situazione di indipendenza INDICE Χ2 (CHI-QUADRATO) • p.178 • detto anche indice di connessione • χ2 è una misura sintetica della distanza dall'indipendenza • • in caso di perfetta indipendenza → χ2 = 0 se c’è dipendenza → χ2≫ 0 →𝜒2 = 71,58: è grande o piccolo? → 1° test Chi-Quadrato p.22 • valore che può assumere: qualunque valore uguale o maggiore di 0 13-10 6. STATISTICA INFERENZIALE • cap.5 da p.197, + dispensa PDF • fare inferenza = estendere alla popolazione dei risultati ottenuti su un campione POPOLAZIONE • la statistica opera tipicamente su campioni di una popolazione • popolazione = l'insieme di tutte le unità oggetto di studio 20 • generalizziamo: (p.217) se invece che l’intervallo di confidenza della media, ma ad es. di una proporzione rimane vero che l’ampiezza dell’intervallo di confidenza dipende dal livello di confidenza e dalla numerosità del campione → ma la distribuzione campionaria sarà un’altra SIGNIFICATO DEL LIVELLO DI CONFIDENZA • (p.201) livello di confidenza = rappresenta la percentuale di intervalli (al variare dei campioni) che contengono il valore “vero” • ogni segmento verticale rappresenta la stima puntuale di un campione diverso (rappresentati da segmenti orizzontali → o è l’intervallo di confidenza?) → attorno a quel campione si può disegnare un intervallo di confidenza - gli intervalli di confidenza, come ampiezza, sono tutti identici: se uso la stessa numerosità del campione (n), ho il livello di confidenza 95% sempre uguale, e la popolazione è sempre la stessa (𝜎2) allora la distribuzione campionaria è sempre la stessa, quindi l’ampiezza dell’intervallo di confidenza è lo stesso • → in molti casi, l’intervallo di confidenza conterrà la media vera, tranne qualche caso in cui non lo contiene (es. riga rossa) • - se capita quello azzurro → la stima puntale +/– errore contiene la stima vera - se capita quello rosso → quando do l’intervallo di confidenza dico una cosa falsa → il livello di confidenza (95%) rappresenta la percentuale di intervalli che contengono il valore vero - ->se estraggo 100 campioni diversi, per 95 casi l’intervallo di confidenza che disegno conterrà la media vera, gli altri 5 non la conterranno TRADE-OFF NEGLI INTERVALLI DI CONFIDENZA • (semi)ampiezza dell'IC della media al 95% = 1,96 ∙ 𝜎2/radice n • - ampiezza dell'intervallo → indica la precisione - livello di confidenza → indica l’affidabilità → ecco perché le stime intervallari danno info in più rispetto a quelle puntuali: dà un’informazione sulla precisione delle mie stime • se si alza il livello di confidenza (es. da 95% a 99% → maggiore affidabilità) l'ampiezza dell'intervallo aumenta (si passa da 1,96 a 2,57 → minore precisione) • → come restringere l’ampiezza dell’intervallo di confidenza e aumentare la precisione, senza perdere affidabilità o viceversa? per aumentare il livello di confidenza e nello stesso tempo diminuire l'ampiezza dell'intervallo di confidenza bisogna aumentare la numerosità del campione INTERVALLI DI CONFIDENZA, ESEMPIO 21 REVERSE ENGINEERING • p.214-216 • la formula: → può essere utilizzata al contrario per stimare a priori la numerosità del campione risolvendo rispetto a n la formula diventa: • questa formula che fornisce la numerosità n (minima) necessaria in base a: - il livello di confidenza scelto (es. 95% → 1,96) - una stima di 𝝈 - il massimo errore accettabile • es: Si vuole stimare la media della popolazione con: livello di confidenza 95% stima di 𝜎 = 8 errore massimo ±1 → occorre un campione di (almeno) 246 casi • http://statulator.com/SampleSize/ss1M.html • se aumento il numero dei casi, a parità di 1,96 diminuisce l’errore e aumenta la precisione; oppure posso aumentare 1,96 (per compensare n più grande) e ...(1.34 11.54) SOMMARIO • • l’ampiezza di un intervallo di confidenza dipende da: livello di confidenza e numerosità del campione • l’intervallo di confidenza dipende da: valore della stima puntuale • la media campionaria ha una distribuzione approssimativamente normale. VERO • l’intervallo di confidenza campionaria ha una distribuzione approssimativamente normale. FALSO 2. TEST DELLE IPOTESI • scopo della verifica delle ipotesi: fornire criteri razionali per decidere se accettare o respingere delle ipotesi • Il paradigma della statistica classica è: 1. formulazione dell'ipotesi 2. esperimento statistico 3. accettazione o rifiuto dell'ipotesi FORMULAZIONE DELL'IPOTESI (1) E TIPO DI CONCLUSIONE (3) • 1) L'obiettivo è trarre conclusioni su due affermazioni contrastanti relative a un parametro della popolazione - 𝑯𝟎 : ipotesi nulla → la situazione teorica "nota" - 𝑯𝟏 : ipotesi alternativa → l'opposto di 𝐻0 • 3) In base ai dati campionari e al livello di confidenza scelto si può: - rigettare 𝑯𝟎 → i dati campionari forniscono evidenza sufficiente per accettare 𝐻1 - non rigettare 𝑯𝟎 → i dati campionari non forniscono evidenza sufficiente per accettare 𝐻1 22 UN'ANALOGIA LEGALE PER IL TEST DELLE IPOTESI • Nella nostra giurisdizione l'imputato è innocente fino alla (eventuale) sentenza di colpevolezza 𝐻0: innocente 𝐻1: colpevole • se l'evidenza (i dati campionari) indica fortemente che l'imputato è colpevole, allora si rigetta H0 • ! non si dimostra la colpevolezza o l'innocenza L'ESPERIMENTO STATISTICO (2) • si individua una statistica campionaria di distribuzione nota adatta a testare l'ipotesi in esame e la si calcola su un campione - si assume che l'ipotesi sia vera e ci si chiede: se è vera, qual è la probabilità di ottenere per caso un valore della statistica test uguale o più estremo di quello osservato nel campione? - -> per ogni test che faccio devo capire qual è la statistica test da usare e qual è la sua distribuzione di probabilità - si calcola questa probabilità (p-value = è una probabilità) → se la probabilità è molto piccola (es. p<0,05) si rifiuta l'ipotesi - questa distribuzione è quella che noi sappiamo essere la statistica campionaria quando l’ipotesi nulla è vera - area verde = probabilità (se l‘ipotesi è nulla) di ottenere valori della statistica campionaria ≥ di quelli che ho trovato io - se l’area verde è molto piccola: l’ipotesi nulla è vera però ho un campione così sfortunato che la probabilità della statistica campionaria è scarsissima → oppure l’ipotesi è sbagliata - -> si calcola un valore della statistica campionaria, si va a vedere la probabilità (area verde) e si ragiona così: se quella probabilità è piccolissima si preferisce ritenere che l’ipotesi nulla sia falsa 1° TEST: INDIPENDENZA TRA VARIABILI CATEGORICHE • 𝜒2 è una misura della distanza dall'indipendenza • (detto lezioni prima) se frequenze osservate = frequenze teoriche → indipendenza → 𝜒2 = 0 • 𝜒2 = 0 ↔ indipendenza 𝜒2 = 71.58 → è grande o piccolo? 𝜒2 ≫ 0 ↔ dipendenza TEST CHI-QUADRATO • 𝜒2 è la statistica per testare l'indipendenza tra due variabili → 𝐻0: 𝜒2 = 0 (variabili indipendenti) • 𝜒2 ha una distribuzione chi-quadrato con un parametro che dipende dalla dimensione della tabella* • il test consiste nel verificare se il valore di 𝜒2 è "abbastanza grande" • → Distribuzione chi-quadrato e p-value: p-value = probabilità di ottenere valori ≥ 𝜒2: (il valore di 𝜒2 non è significativamente > 0) ➢ p-value "grande" (es. 𝑝 > 0,05) → test non significativo: si accetta 𝐻0: le due variabili sono indipendenti ➢ p-value "piccolo" (es. 𝑝 < 0,05, es. nel nostro caso) → test significativo: si rifiuta 𝐻0: tra le due variabili c'è una relazione significativa 25 ERRORE DI I E II TIPO • - α = probabilità di respingere H0 quando in realtà è vera → l'errore di I tipo (α) non è l'unico possibile (visto prima) - 𝛽 = probabilità di accettare H0 quando in realtà è falsa → l’incrocio dà luogo a 4 situazioni: è quel triangolino verde (ipotesi vera, ma prob. così bassa che la rifiuto) • esempi di errore di I e II tipo: • α è fissata dal ricercatore, β dipende da α e da H1 → se α diminuisce β aumenta! → per diminuire sia α che 𝛽 bisogna aumentare la numerosità • il test chi quadrato per l’indipendenza tra due variabili categoriche ha dato il risultato seguente: p-value = 0.23; cosa si può concludere? - le variabili sono indipendenti (p > 0.05) • un Anova per la differenza tra medie ha dato il risultato seguente: p-value = 0.006; cosa si può concludere? - le medie sono diverse al livello di confidenza del 99% (perché è < 0.01 !!), ma quindi è anche < del 95% 7. DATA QUALITY E CAMPIONAMENTO • p. 205 + caso Poison • data quality → la qualità che bisogna garantire ai dati ha diverse sfaccettature, diversi aspetti da rispettare: - validità (controlli formali e logici, es. età tra zero e 100) - accuratezza (vicino al valore vero, difficile da controllare) - completezza (no dati mancanti) - coerenza (tra dataset, tra variabili, es. stesse codifiche) - uniformità (tra dataset, tra variabili, es. stesse scale) →certi aspetti derivano: 26 1. dalla raccolta dati ➢ campionamento = il processo col quale si estrae un campione dalla popolazione può essere: - probabilistico - non probabilistico es. campione di esperti, campionamento "a valanga", "per convenienza" ➢ archiviazione 2. dai data cleaning ➢ ponderazione ➢ missing (valori mancanti) ➢ outlier ➢ trasformazioni CAMPIONAMENTO PROBABILISTICO • campionamento casuale semplice - es. estrazione da un'urna - è quello teoricamente perfetto, raramente praticabile - -> rimane un riferimento teorico - ogni campione di numerosità n ha la stessa probabilità di essere estratto - ogni unità ha la stessa probabilità di essere estratta • campionamento sistematico = selezionando ogni k-esimo individuo della popolazione → il primo individuo selezionato corrisponde a un numero casuale compreso tra 1 e k - es. ogni k unità - non richiede un frame (al contrario del semplice e stratificato) - -> è un metodo alternativo quando non è possibile reperire un elenco degli individui appartenenti alla popolazione da studiare - es: indagine ogni k=8 individui → si seleziona casualmente un numero tra 1 e 8, ad es 5 - -> nell’indagine si includerà il quinto, il tredicesimo (5+8), il 21-esimo (13+8) individuo e così via fino a raggiungere l’ampiezza campionaria desiderata • campionamento stratificato: si utilizzano delle caratteristiche note della popolazione per suddividerla in strati - es. età, area - la popolazione è suddivisa in strati (= gruppi non sovrapposti), in base ad una o più variabili di classificazione (es. genere, area geografica) - da ciascuno strato si estrae un campione casuale di numerosità proporzionale a quella della popolazione - è adatto quando gli strati sono omogenei al loro interno ma disomogenei tra loro (variabili di classificazione discriminanti) - consente stime a livello degli strati - vantaggio rispetto al campionamento casuale semplice: ottenere le stesse informazioni facendo un sondaggio su un numero inferiore di persone, perché gli individui all’interno di ogni sottogruppo ha caratteristiche e opinioni simili - ogni strato è rappresentato nel campione • campionamento a grappoli (cluster): quando la popolazione è naturalmente divisa in gruppi - es. classi scolastiche - sfrutta l’esistenza di raggruppamenti naturali della popolazione es. contiguità geografica, classi scolastiche - si seleziona un campione casuale di sottogruppi della popolazione (grappoli o cluster) e tutte le unità ad esso appartenenti vengono osservate - è adatto quando i grappoli sono disomogenei al loro interno e omogenei tra loro - mira a ridurre il costo della rilevazione - es: parcheggio → ogni sottosezione del parcheggio è un grappolo 27 - differenza: ➢ campionamento stratificato: si divide la popolazione in due o più gruppi omogenei e successivamente si ottiene un campionamento casuale ➢ campionamento a grappolo: si divide la popolazione in gruppi, ottenendo un campione causale semplice degli stessi e intervistando tutti gli individui che appartengono ai cluster selezionati → i 2 criteri si combinano normalmente ad es. quando bisogna campionare nei comuni: si fa una prima stratificazione (es. comuni con più di tot abitanti, e sotto tutti gli altri), poi causalmente (a grappolo) seleziono tot. comuni con più di tot. abitanti CARATTERISTICHE DI UN BUON CAMPIONE • 3 caratteristiche: 1. casualità → non devo essere io che scelgo né i selezionati che si autoselezionano 2. rappresentatività → deve presentare, in proporzione, tutte le caratteristiche della popolazione in proporzione ridotta 3. numerosità → non è detto che un campione grande sia rappresentativo - numerosità piccola = intervallo di confidenza grande - numerosità alta = intervallo di confidenza piccolo - es. rosa pallini concentrata, ma lontani dal centro → campione numeroso (rosa pallini concentrata) ma non rappresentativo (fuori dal centro) → se il campione non è rappresentativo, una numerosità grande è un difetto invece che un pregio rosa pallini sparpagliati, ma vicini al centro → campione non numeroso ma rappresentativo DATA CLEANING: PONDERAZIONE • se il campione non viene come volevo che fosse, posso ponderarlo = associare a ogni unità un peso per cui quel n. altera l’importanza dell’unità alla quale è attaccata - -> in modo che le unità non abbiano tutte la stessa "importanza" es. un'unità con peso = 2 è equivalente a due unità (identiche) • scopi della ponderazione: 1. correggere distorsioni in dati provenienti da campioni - far coincidere la distribuzione campionaria con quella teorica della popolazione 2. correggere la scala → esprimere i risultati campionari nella scala della popolazione - "un programma tv visto da 5,2 milioni di persone" 30 • migliorare la distribuzione dei dati, ridurre l'asimmetria e il numero di outlier (es. radice quadrata, logaritmo) FEATURE EXTRACTION • generazione di nuove variabili da quelle originali: trasformando le variabili si possono ottenere dati tramite analisi che non sarebbero possibili • popolazione & superficie → densità • altezza & peso → BMI • località → coordinate geografiche • GDO: dettaglio scontrini → aggregazione per scontrino scontrini → aggregazione per cliente (carta fedeltà) cliente → frequenza di acquisto, spesa mensile, ecc. • text analytics testi → parole JMP (1) • ANALISI BIVARIATA→ analisi tra preferenza (asse y) e marca 100+ (asse x) - es. caso mozzarella - la preferenza è uguale in tutte le marche? devo guardare se le medie sono uguali → guardo il p-value (Porb.>F): < 0,0001 è molto piccola - -> respingo l’ipotesi nulla - -> le medie sono diverse - se il test non fosse stato significativo (es. p-value o Prob.>F = 0,2) allora le medie sono uguali (variano di poco) - -> se il test non è significativo mi fermo li, non ha senso guardare le medie - se il test è significativo (come nel nostro caso → Porb.>F = 0,0001) allora è obbligatorio andare a guardare le medie (nella tabella vedo che sono diverse, ma questo non basta): sono un po’ tutte allineate salvo Cuomo (più piccolo) e prodotti locali (considerati migliori) - nell’ANOVA si vanno a guardare le medie • ANALISI BIVARIATA: VARIANZA (ANOVA) → tra sono care (asse y) e marca 100+ (asse x) - (DF = gradi di libertà) - DOMANDA: il test è significativo o no? sì (perché Prob>F = 0.0001 piccolissimo, quindi ANOVA significativa - -> medie diverse) - vedo che Pettinicchio e Vallelata sono percepite come più care Granarolo, Boiano, Cuomo: meno costosi i prodotti locali (considerati migliori) non vengono considerati più costosi - DOMANDA: Pettinicchio e Vallelata sono diverse? è difficile da dire, sono molto vicine e ci sono più di 400 casi in uno e nell’altro → limitiamo il test a certe righe del dataset: filtro su dati locali → sono una più cara dell’altra o no? devo guardare il p-value (prob. F): non è significativa perché il p-value > 0.05 - -> RISPOSTA: sono considerate piuttosto care entrambe e tra le due non c’è differenza 31 • ANALISI BIVARIATA: CHI QUADRATO → tra area3 e marca 100+ (variabili categoriche: ruolo righe e colonne scambiabile) - Nord: 79 → è stata citata 79 volte Granarolo - -> = numero di citazioni - % rispetto al totale → 5.16 = 79/1531 (tot) - DOMANDA: l’area influenza la marca o no? sono indipendenti o no? guardare il p-value: è significativo quindi sono dipendenti, cioè la distribuzione delle marche non è uguale in tutte le aree - nel CHI QUADRATO si riesce a capire dove si concentrano i casi o no guardando le % (di riga o colonna o entrambe): ➢ Granarolo: molto presente nel nord, poco in sud e centro ➢ Pettinicchio e Vallelata: distribuite uniformemente tra nord a sud ➢ Cuomo, Boiano; Francia molto presenti al centro e poco altrove ➢ prodotti loclai: molto nel sud - il grafico mi fa vedere la distruzione tra nord (rosso) centro (verde) e sud (blu): si vede quello che abbiamo elencato prima (Granarolo presente al nord, ....) • ANALISI BIVARIATA: CHI QUADRATO → tra età e marca - DOMANDA: ci sono marche che piacciono ai giovani e alcune no? - grafico: le differenze tra fasce d’età sono irrisorie - p-value = 0.9912 → non significativo, non c’è nessuna relazione. sono indipendenti • ANALISI MULTIVARIATA (per fare correlazione → v. numerica-numerica) - Y, colonne: “che fa prodotti di qualità” e “che offre prodotti sempre freschi” - il grafico mi dice pochissimo perché non mi chiarisce sulla correlazione - vado a vedere l’indice di correlazione: 0,78 (alto) → conferma che tra la valutazione della freschezza e qualità c’è una correlazione forte - anche la correlazione si può testare (e allineare correlazione con Anova e Chi quadrato): capiamo se l’indice che abbiamo trovato è significativamente diverso da zero → vado a vedere la probabilità di correlazione - -> dire che un coefficiente di correlazione è significativo, vuole dire che è significativamente diverso da zero; dire che un coefficiente di correlazione è ≠ 0 significa quindi che una qualche relazione esiste (non sono del tutto indipendenti, incorrelate) - nel grafico c’è un puntino “fuori posto”: andarci sopra e vedere che ha dei decimali → è un valore mancante che è stato imputato → originariamente era mancante e poi è stato inserito dentro un valore per togliere il mancante • ANALISI MULTIVARIATA → correlazione tra “fare prodotti di qualità” e “che propone offerte promozionali” - indice di correlazione = 0,1794 (bassissima) → correlazione bassissima, è >0 (quindi non è vero che più è bassa la qualità e più fanno offerte promozionali, se no sarebbe negativa) però c’è una relazione debolissima - facendo il test di probabilità di correlazione: p-value = 0,00001 - -> c’è significatività, quindi, c’è correlazione (anche se debolissima) - il coefficiente di correlazione è sensibile anche alla numerosità del campione, quindi con così tante citazioni bastano anche piccole differenze per dire che c’è correlazione: ecco perché questo test è significativo perché è comunque ≠ 0 - -> conferma che non è vero che chi fa offerte promozionali è perché ha prodotti di cattiva qualità per vedere meglio il grafico MOZZARELLA PER INT. • CONTROLLO DI RAPPRESENTATIVITÀ (non è da scrivere ma a posteriori lo faccio per vedere se il report è equilibrato) → devo guardare le distribuzioni di età e aree: vedo che sono distribuite uniformemente • ANALISI BIVARIATA (CHI QUARATO) → mi interessa sapere se le età sono distribuiti in parti uguali all’interno di ciascuna area → nel grafico di distribuzione non lo vedo 32 - faccio un’ANALISI BIVARIATA (CHI QUARATO) → dal grafico vedo che le fasce d’età sono distribuite in modo uniforme d’dappertutto; vedo infatti un p-value grande • obiettivo: tabella in cui alcuni dati diventano una riga per marca con di fianco i loro valori - cambio da variabili nominali a continue → nelle distribuzioni vedo che 1 = no e 0 = si → vedo che la media (è la % degli 1 cioè dei sì) di Abit è sì (0,044) - uso “DISPONI IN TABELLA” - nel grafico a barre che ottengo sulla % di consumo delle marche → Pettinicchio = 59% → è un dato distorto perché il fatto che siano consumatori di mozzarella e conoscitori di Pettinicchio è un filtro che crea una distorsione del campione → perché abbiamo chiesto chi conosce Pettinicchio (perché se no li avremmo esclusi), non chi è consumatore 9-11 • domande: - trasformazioni di variabili: quali variabili possono essere raggruppate in classi? entrambe (numerica e categorica) - quand’è che il problema dei valori mancanti è irresolubile? quando sono sistematici e quando sono troppi - che tipo di campionamento e che metodo di rilevazione usereste per somministrare un questionario a persone del movimento LGBT? 2 modi: 1. trovare una persona del movimento e cominciare a proporgli il questionario con modalità CAPI → alla fine gli chiedo di darmi altri contatti - -> a valanga CAPI 2. entrare in contatto con un sito/blog di questo movimento e chiedere la collaborazione di quelli → la somministrazione è CAWI e il modo di contattare (tipo di campionamento) è a grappolo: dentro a questo il gruppo è autoselezionato - che tipo di campionamento e che metodo di rilevazione usereste per intervistare i preadolescenti (11-12 anni) di Milano sull’uso del telefonino? prendere contatto con le scuole e conquistarsi la collaborazione con una scuola - -> CAPI stratificato (prendo alcune scuole in zone diverse) e poi a grappolo (scelgo una classe per scuola) 8. RIDUZIONE DELLA DIMENSIONALITÀ (ANALISI FATTORIALE) COSA SUCCEDE QUANDO AUMENTA IL VOLUME DEI DATI? • La crescente disponibilità di dati genera il bisogno di sintesi → In particolare l’aumento dei dati nella matrice unità per variabili – che costituisce la base di ogni modello di analisi – può avere due effetti: 1. numerosità → aspetti computazionali - il tempo di elaborazione aumenta linearmente (tempo x2) 2. dimensionalità → complessità del problema - il tempo di elaborazione aumenta esponenzialmente (tempo2) - gli algoritmi tradizionali possono non funzionare più - ridondanza informativa e difficoltà di interpretazione → gli ultimi 2 problemi sono importanti e si analizzano in seguito 35 • es.: → abbiamo il riassunto dell’operazione dell’estrazione delle componenti principali - 7 è la varianza totale della matrice originaria dei dati (p) - chiedendogli di estrarre le componenti da quella matrice di correlazione il sistema trova: una prima componente a cui corrisponde un autovalore di 3,2 (che è il massimo), ecc - la prima componente rispetto a 7 è il 46,7% - -> la prima componente spiega il 46,7% della variabile originaria - tutte insieme le variabili estratte → guardare la % cumulata: questo risultato mi sta dicendo che se io mi fermo alle prime due componenti principali queste due spiegano quasi il 70% della varianza, quindi io riduco meno di 1/3 delle variabili e spiego il 70% della varianza - se sommo tutti gli autovalori mi viene 7 - -> tutte le componenti spiegano esattamente tutta la varianza delle variabili originali 4. MATRICE DI STRUTTURA • strumento per interpretare i fattori/componenti → matrice di struttura = matrice che mostra la relazione tra tutte le variabili e tutte le componenti estratte • gli elementi della matrice sono i coefficienti di correlazione tra variabile e componente • → una componente è caratterizzata dalle variabili con cui ha le correlazioni più alte (in valore assoluto) → si va a vedere dove il valore 1 ha i coefficienti alti → significa che quel fattore ha lo stesso andamento di quella variabile, è molto legato ad essa: quelle variabili spiegano quel fattore • - 0,699 → la correlazione tra il fattore 1 e la variabile “età in anni” è alta - fattore 1: fortemente legato a tutte le variabili con anzianità e reddito e quindi di debito - fattore 2: è legato fortemente ma quasi esclusivamente al rapporto debito-reddito - -> è una sorta di propensione all’indebitamento, a prescindere dal reddito e dall’entità del debito: “a prescindere” perché questi fattori sono ortogonali, la correlazione tra i due è 0, quindi sono indipendenti - -> un signore può avere una propensione all’indebitamente alto sia se ha un reddito alto o basso, poiché sono indipendenti - “anni all’indirizzo attuale”: ha i valori simili tra i due fattori (0,53 e -0,49) ➢ fattore 1 → segno +: aumenta più alta è l’età e più è alta l’anzianità dell’impiego, più alto l’impiego ecc ➢ fattore 2 → segno -: cresce quando aumenta la propensione al reddito (rapporto debito-reddito), e aumenta quando gli anni allo stesso indirizzo diminuiscono 36 • difficoltà nell’interpretare questi fattori: perché questi coefficienti hanno a volte valori intermedi (es. anni sull’indirizzo corrente) → l’interpretazione delle componenti che si fa sulla matrice di struttura è tanto più facile quanto più i coefficienti sono vicini a 1 o 0 → ci si può avvicinare a questa soluzione trasformando in qualche modo le soluzioni 5. ROTAZIONE • = trasformare l’orientamento degli assi in modo che nella matrice di struttura i coefficienti si avvicinino a ± 1 o 0 • diagramma di pesi ruotato: soddisfa la richiesta che i coefficienti di correlazione si sono spostati verso 1 o 0 • le componenti principali costituiscono un sistema di assi ortogonali a k dimensioni • per favorire l'interpretazione si possono semplificare le relazioni tra componenti e variabili, modificando i coefficienti della matrice di struttura in modo da avvicinarli a ±1 o a zero • l'operazione si compie con una rotazione degli assi, mantenendo fissa l'origine: - non cambiano: la varianza totale spiegata, le comunalità, la posizione relativa dei punti - cambiano: i coefficienti della matrice di struttura, la varianza delle singole componenti, i punteggi fattoriali → la varianza totale spiegata non è cambiata, le varianze dei singoli fattori sì • questi sono due modi diversi per interpretarli, entrambi possibili - all’inizio avevo un’interpretazione con un fattore grande con dentro età-reddito-debito e un altro con solo propensione al debito - nel secondo c’è un primo fattore con meno variabili che è legato a tutte le variabili di età e redito e un secondo legato a tutto il debito → soddisfa la richiesta che i coefficienti di correlazione si sono spostati verso 1 o 0 - i grafici sono le proposizioni di quei punti su un piano cartesiano → per passare da uno all’altro l’algoritmo ha ruotato gli assi in senso antiorario: le posizioni dei punti prima e dopo non sono cambiati, quindi è una rotazione rigida ma fa anche capire come mai sono venute fuori quelle interpretazioni 37 COME ESTRARRE LE COMPONENTI • il numero massimo di componenti è uguale al numero di variabili - se si estraggono tutte le componenti si riproduce esattamente la varianza della matrice dei dati - con meno componenti si sintetizza maggiormente il fenomeno - con più componenti se ne spiega una percentuale maggiore • dove fermarsi? dipende da noi: meno componenti estraggo più sintetizzo il fenomeno, più ne estraggo e meglio lo spiego • criteri per scegliere il numero di componenti: 1. Criterio dell'importanza della componente → le componenti corrispondenti ad autovalori > 1 (default) - >1 perché è una componente il cui autovalore =1 pesa come le variabili originali - -> se la varianza della componete è >1 quella componente pesa di più delle variabili originali e quindi ha più informazioni 2. Criterio della varianza totale spiegata = le componenti necessarie perché la varianza totale spiegata raggiunga una soglia ritenuta accettabile (ma non c'è una regola generale → dipepende dal contesto e dalla qualità dei dati) 3. Criteri grafici (scree plot) → è d’aiuto perché se mostra un angolo marcato allora lì è un buon punto per fermarsi (ma è poco usato) 4. Interpretabilità del risultato → guardare che il risultato abbia senso in base agli obiettivi e dati che abbiamo • es: CAMBIARE NUMERO DI COMPONENTI (JMP) - arrivare alla matrice di correlazione - il 3° fattore ha una varianza di 0,85 e sommato con gli altri spiega l’82% della varianza originaria - se invece che “numero di fattori” = 2, metto = 3 e guardo quelli ruotati → rispetto al fattore 1 che eravamo abituati a vedere noi (età anzianità e reddito insieme) l’anzianità e lo stesso indirizzo è uscita - il fattore 2 “indebitamento” (che prima era nel secondo fattore nella matrice ruotata) è uguale, invece l’1 e il 3 sono nuovi rispetto al fattore che avevamo visto ruotato prima → il fattore 1 si è spaccato in due fattori (1 e 3) separando significati: 1 → è fortemente correlato con il reddito e l’anzianità sul posto di lavoro (di servizio) - -> aver fatto carriera 3 → età anagrafica e da quanto tempo sta sul posto di lavoro - -> anzianità nel posto di residenza - -> quindi dal significato di ieri (età-reddito da una arte e indebitamento dall’altra) abbiamo indebitamento uguale mentre età e reddito che si sono separati → cambia l’interpretazione! - guardando le 3 variabili: ➢ media = 0 e varianza = 1 ➢ sono ortogonali quindi la matrice di correlazione (MULTIVARIATO) è fatta tutta di zeri (tranne la diagonale principale) quindi ogni fattore ha correlazione 0 rispetto agli altri (perché ortogonali) 40 → per verificarlo lo verifico con la comunanza finale: ha un coeff. specifico - -> la varianza spiegata è molto poca, cioè il fatto che faccia mozzarelle di bufala (sia specializzato in questo) è un aspetto che rimane fuori dalla soluzione a 2 fattori (stessa cosa per i prodotti a denominazione protetta): tanti danno un alto contributo ma questi due non ci sono nella soluzione a due (danno un contributo basso) - che significato hanno questi 2 fattori? ➢ fattore 1: c’è in generale la buona qualità che copre in maniera poco soddisfacente i prodotti Dop, la mozzarella di bufala ➢ fattore 2: è correlato a 3 variabili (distribuzione, offerte, pubblicità) → non c’è dentro la qualità: riguarda la strategia di marketing, propensione a essere presente nel mercato - lo provo in 3 fattori ➢ fattore 2: è uguale a quello prima (marketing) ➢ il fattore 1 rimane grande (qualità generica e latte vaccino) ma si spacca in fattore 1 e 3 ➢ fattore 3: fattore della mozzarella di bufala e prodotti Dop, correlati tra loro → si concentrano su queste cose qui (mozzarelle di bufala Dop) - guardando la comunalità si vede che aumentando il fattore diamo spazio alle variabili che prima non si erano adeguatamente espresse - guardare anche la “varianza spiegata per ciascun fattore”! → quanto (70%) a varianza spiegata siamo già arrivati - 4 fattori ➢ il fattore 1 rimane sempre uguale (non siamo riusciti a erodere la varianza) ➢ fattore 3: sempre bufala Dop ➢ il fattore 2 (marketing) si è spaccato il fattore 2 e 4: - fattore 2: “distribuzione nazione- pubblicità” → la pubblicità me la trovo dappertutto, è quindi un fatto distributivo, di notorietà, ... 41 - fattore 4: “offerte promozionali” → al contrario della pubblicità, non sempre trovo le offerte → negli intervistati li considerano in modo diverso → indica quei business che mirano a implementare la numerosità delle vendite - → “l’obiettivo è riassumerli per fare .....(lo sapremo poi), la tecnica è l’analisi fattoriale, ho scelto la soluzione a 2/3/4 fattori ruotati che spiega il tot% della varianza dire perché farla, e poi dire “ho usato questa tecnica qui e la soluzione che adesso propongo (quella scelta) è ...” : “la soluzione ha 3 fattori ruotati Varimax che spiega il 70% della varianza” tecnica di rotazione Varimax = tecnica con obiettivo che i coefficienti di correlazione abbiano la varianza massima, cioè essere il più possibile vicini a +/- 1 o 0 → esigenza di trovare un equilibrio (trade off) tra quanto spieghiamo bene il fenomeno e quanto lo sintetizziamo • 2. SINTETIZZARE LA BATTERIA PRODOTTO - 1° fattore: ha dentro quasi metà del significato - il 2°: è molto più piccolo (è grande 1/6 del primo) - rotazione con 4 fattori ➢ fattore 4: mette insieme “sono care” e “hanno un gusto troppo intenso e forte” → in realtà sono due cose diverse ➢ fattore 3: riunisce le variabili sul packaging ➢ fattore 2: consistenza, aspetto ➢ fattore 1: qualità - rotazione con 6 fattori ➢ I due fattori “sono care” e “hanno un gusto troppo intenso e forte” si dividono 42 16-11 9. ANALISI PREDITTIVA (MODELLI DI REGRESSIONE) • domande alle quali vogliamo rispondere: 1. esistono dei predittori di una certa variabile? se sì, quali sono i migliori? es. analisi delle spinte al consumo, customer satisfaction 2. si possono fare previsioni su una certa variabile? es. previsione delle vendite, prevenzione del churn MODELLI DI REGRESSIONE • obiettivo tecnico: analizzare e misurare la relazione tra una o più variabili esplicative e una variabile risposta → immagino che certi predittori (attributi della mozzarella) siano in relazione con la preferenza (v. risposta) • variabili esplicative, indipendenti, predittori: sinonimi variabili risposta, dipendente: sinonimi • l'idea è che le variabili esplicative (indipendenti) spieghino la variabile risposta (dipendente), ovvero che tramite le variabili esplicative si possa approssimare il valore della variabile risposta • Ci sono diversi modelli di regressione, che dipendono: - dal tipo di relazione funzionale tra predittori e risposta - es. lineare, non lineare - dalle caratteristiche della variabile risposta es. numerica, binaria, categorica, ordinale • → il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione che le lega è lineare • es. noi ci immaginiamo tra x e y ci sia una relazione lineare (grafico azzurro), nel grafico rosso non c’è linearità, neanche nel grafico grigio (si rappresenterebbe con una parabola, che non è lineare) REGRESSIONE LINEARE SEMPLICE • modello in cui c’è un x e una y • la relazione tra y (risposta) e x (esplicativa) è del tipo: 𝑦 = 𝑎 + 𝑏𝑥 → a prescindere da 𝑎, y è proporzionale a x: il loro rapporto è costante (y/x = b) - -> rapporto di proporzionalità (salvo una costante, 𝑎) • per ogni punto c'è una componente di errore ei (residuo): 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 + 𝑒𝑖 → è lo scarto dei punti rispetto alla retta • il problema di fare una regressione lineare è di stimare i coefficienti 𝑎 e b, in modo tale che i residui siano minimi - ->il calcolo della regressione lineare consiste nella stima dei parametri 𝑎 e b per i quali i residui siano più piccoli possibile (metodo dei minimi quadrati) - b = coefficiente di regressione - 𝑎 = costante 45 • i coefficienti bj danno una misura del contributo relativo di ogni predittore solo se i predittori: 1. hanno lo stesso ordine di grandezza 2. non sono correlati tra loro 1) COEFFICIENTI STANDARDIZZATI • per l’aspetto dell’ordine di grandezza, c’è uno strumento di correzione: far ricorso ai coefficienti standardizzati = coefficiente che otterrei se prima della regressione standardizzassi tutto • se i predittori non hanno lo stesso ordine di grandezza si possono confrontare i coefficienti standardizzati (beta) 2) COLLINEARITÀ • se i predittori sono correlati tra loro (cioè se c'è collinearità) i loro contributi sono in parte sovrapposti e i singoli effetti sono non additivi • la presenza di predittori correlati è tollerabile entro certi limiti, oltre i quali i coefficienti di regressione diventano instabili • predittori con statistiche di collinearità inaccettabili (es. VIF > 5) andrebbero eliminati dall'analisi (uno alla volta) - accettabili le variabili quando VIF < 5 eliminabili quando VIF > 5 • RIASSUNTO: - obiettivo: studiare la relazione che lega certe variabili esplicative e la variabile risposta - abbiamo ipotizzato che sono numeriche, che è una relazione lineare - la bontà della regressione (cioè del risultato, dell’approssimazione) si misura con R2 = % di varianza di y spiegata dalla regressione - coefficienti di regressione = aumento della variabile risposta per un aumento unitario del predittore, tenendo fermi tutti gli altri → questo può essere problematico, perché se le variabili sono correlate tra loro c’è un problema SIGNIFICATIVITÀ DEI RISULTATI • la significatività dei risultati della regressione si può calcolare quando sono verificate delle assunzioni probabilistiche (condizioni): 1. indipendenza delle osservazioni controesempio: autocorrelazione nelle serie storiche, intervistati collegati tra loro 2. omoschedasticità: gli errori devono avere varianza costante controesempio: consumi in funzione del reddito 3. normalità: gli errori devono avere distribuzione normale 46 • si possono fare 2 tipi di test: 1. significatività dell’approssimazione globale 2. significatività dei coefficienti di regressione 1. SIGNIFICATIVITÀ DELL'APPROSSIMAZIONE GLOBALE • la bontà dell'approssimazione complessiva si verifica confrontando il modello trovato con quello costituito dalla sola costante (𝐻0: 𝑏1 = 𝑏2 = ⋯ = 𝑏𝑘 = 0) • il test è l'ANOVA, la statistica test è F → testa l’ipotesi che nessuno dei coefficienti sia diverso da 0, cioè che nessuno dei predittori abbia il minimo effetto sulla variabile risposta • perché il modello sia accettabile bisogna che il p-value sia piccolo (es. p < 0,05) → cioè c’è almeno un predittore che fa qualcosa 2. SIGNIFICATIVITÀ DEI COEFFICIENTI DI REGRESSIONE • la significatività dei singoli coefficienti si testa confrontando il valore di ogni bi con zero (𝐻0: 𝑏𝑖 = 0) mediante la statistica t • ci dà un p-value per ogni coefficiente → questo testa che quel singolo parametro sia diverso da 0 • perché un coefficiente sia significativo bisogna che il p-value sia piccolo (es. p < 0,05) → cioè che quel parametro qualcosa serve alla stima dell’approssimazione della variabile risposta • - -> RIASSUNTO - la prima cosa da vedere: ANOVA → condizione necessaria per guardare il resto: deve essere significativa - guardare R2 → la mia regressione ha senso: quanto? vado a vedere R2 - si vanno a vedere i coefficienti → per i singoli predittori si vanno a vedere i coefficienti di regressione 1. ordine di grandezza → se sono diversi (bisogna trasformare le variabili) bisogna guardare i beta standard 2. collinearità → vado ai coefficienti di regressione e devo vedere se: ➢ sono significativi ➢ il VIF è accettabile 47 PREVISIONI • altro aspetto della regressione: l’uso dei risultati di regressione per fare previsioni • la precisione della stima degrada (peggiora) quanto più ci si allontana dai valori centrali delle x - -> attorno ai valori centrali della x non ho problemi, riesco a fare una stima possibile • con i coefficienti di regressione si può stimare il valore della y in corrispondenza di nuovi valori 𝑥1 ′ , 𝑥2 ′ , … , 𝑥𝑝 ′ dei predittori: 𝑦 ′ = 𝑏0 + 𝑏1𝑥1 ′ + 𝑏2𝑥2 ′ + ⋯ + 𝑏𝑝𝑥𝑝 ′ • l'errore standard della stima è una misura dell'errore medio della stima e permette di calcolare un intervallo di confidenza della previsione es. intervallo di confidenza medio al 95%: 𝑦 ′ ± 2 ∙ 7,5 (- -> ± 15) • bisogna diffidare stime fuori dal range rispetto al quale è stata fatta la regressione (cioè uscire da quella nube di punti della figura) → non so cosa succede fuori da quell’intervallo DATI E NUMEROSITÀ DEL CAMPIONE • tutte le variabili devono essere numeriche → in particolare la variabile risposta • invece è possibile usare variabili esplicative binarie (dummy) e così si possono analizzare anche predittori categorici es. genere, marca • eseguire la regressione su fattori (invece che sulle variabili originarie) minimizza i problemi di valori mancanti e outlier ed elimina la collinearità → perché sono ortogonali e non correlati • numerosità del campione N da 10 a 20 volte il numero di variabili k (min 100) → regola meno stringente: N ≥ 50 + 8k REGRESSIONE LOGISTICA • ci sono altri modelli di regressione che non sono lineari • Quando la variabile risposta è binaria (es. successo/insuccesso, presenza/assenza) la regressione lineare non si può usare → si deve usare la regressione logistica • gli obiettivi sono quelli di tutti i modelli di regressione: - analisi delle relazioni tra variabili esplicative e risposta - classificazione nei gruppi identificati dalla variabile risposta es. prevenzione del churn - 1= default 0 = churn • es: - obiettivo: verificare se e con quali variabili è possibile predire le insolvenze (default) - il risultato della regressione è una probabilità di default 50 • le regressioni sono indipendenti, nessuna ottimizzazione globale - l’affidabilità è data da tutti gli R2 - “soddisfazione complessiva”: variabile risposta → faccio la regressione con i predittori overall - in ambito di decisione lo si legge da dx a sx ESEMPIO 2: FORMAGGIO A FETTE • (assomiglia al questionario mozzarella) • variabili: 1. le aree di interesse non sono note a priori 2. esiste una batteria di valutazioni di dettaglio 3. esiste una valutazione overall della soddisfazione globale • Il modello può essere stimato con una analisi fattoriale e una regressione - pro: flessibile → genero fattori ortogonali - contro: discrezionalità nella scelta dei fattori i fattori non sono nella scala delle variabili originali JMP (3) JMP MOZZARELLA • REGRESSIONE → preferenza (Y) rispetto agli attributi del prodotto - analisi della varianza (ANOVA) → p-value <0,001 → si può proseguire - R-quadro: deludente/basso rispetto ai parametri che ci siamo dati → stiamo lavorando con dati molto sporchi, per cui risultati di questo genere sono normali - stime dei parametri → c’è un buon numero di coefficienti significativi (evidenziati in giallo), alcuni positivi e altri negativi 1. “sono care”: negativo → più sono care meno mi piace - -> all’aumentare del voto “sono care” diminuisce la preferenza 2. prezzo adeguato → significativo, positivo: più penso che il prezzo sia giustificato dalla qualità più mi piace 3. per consumatori esigenti e hanno un gusto ricco e pieno → hanno un valore grande: le mozzarelle che hanno valori più alti a questi 2 item hanno anche in media preferenza più alte 51 4. sempre fresche → positivo: più le trovo fresche e più la preferenza è alta 5. importante quanto l’adeguatezza del prezzo → positivo 6. senza conservanti → negativo: è controintuitivo (non me lo spiego) 7. adatte per il consumo a cucina o a cotto → negativo: se quello che mi interessa è solo comprare una mozzarella da mettere su qualcosa allora non vado a cercare quella più costosa, e quindi se il mio interesse e solo quello per cucinare allora quelle che preferisco non le scelgo → ho fatto il lavoro dell’interpretazione: guardo il segno e poi il valore - mi devo preoccupare anche delle eventuali correlazioni tra questi predittori: tasto dx – VIF : mi dice se c’è un problema di collinearità di predittori, se cresce oltre il 5 mi devo preoccupare → vediamo che c’è un predittore (adeguato alla qualità offerta) con un VIF alto (quindi molto correlato con altre cose: sapore inconfondibile, consumatori esigenti) - devo ripulire il modello per arrivare a uno più parsimonioso possibile: i predittori non buoni introducono solo errore/casualità → ci sono tanti predittori che farebbe scendere il R2 corretto → dovrei togliere una a una quelle con un VIF alto o meno significative: magari ne tolgo una e i coefficienti e i VIF si risistemano (però non posso farlo perché andando ad analizzare ogni marca vedo che magari un predittore in generale non è significativo ma per quella singola marca sì *) • questo strumento è interessante per cominciare a rispondere la domanda rispetto alla concorrenza di Pettinicchio → questi sono i risultati medi tra i predittori e la preferenza di tutto il mercato (tutte le marche insieme): devo analizzare questa cosa marca per marca • situazione di tutti i produttori → rappresento tutti i dati trovati con la regressione rispetto alla situazione globale in modo più chiaro → GRAFICO su Excel clic dx-copia tabella (mi serve solo il termine e la stima, tolgo anche l’intercetta) – selezioni tutta la tabella e inserisco un grafico orizzontale • → con questa voglio confrontare le situazioni dei singoli produttori → voglio vedere se quello che è importante in generale lo è anche per i singoli produttori: devo fare questa regressione marca per marca: sto iniziando a esplorare la concorrenza - FILTRO SUI DATI LOCALI: andare a vedere i valori significativi per ogni marca es. Pettinicchio → ha un plus nel “hanno confezioni facilmente riconoscibili” (in generale invece non era significativo) la significatività dipende anche dalla numerosità del campione - -> cuomo, francia, prod. locali hanno pochi casi (quindi poche significatività) - -> si può vedere anche cosa sono i coeff. positivi e negativi per ogni marca e capire le differenze: così però è scomodo perché ce ne sono tante e per lo più non sono significative • - -> ho troppe variabili e perché una gran parte di esse sono caratterizzati da coeff. non significativi e infine ci sono delle correlazioni tra questi predittori: non posso eliminare però uno a uno il predittori (per le ragioni scritte qui *) - -> analisi fattoriale e poi regressione (es. 2 Customer Satisfaction) - fare la FATTORIALE (rotazione con 8 fattori) → salvo le componenti ruotate - -> ho riassunti tutti gli attributi del prodotto in 8 fattori (tutti media 0 e varianza 1, tutti ortogonali) - ANALISI DI CUSTOMER SATISFACTION (regressione) → preferenza (Y) e componenti ruotati ➢ analisi della varianza: va bene ➢ R-quadro: vagamente quello di prima → cioè mettendo insieme le cose non ho perso molto ➢ stima dei parametri → guardo il VIF: è per tutti = 1 (minimo) = quanto ogni variabile fornisce di suo alla regressione (essendo ortogonali ogni variabile fornisce il 100% della sua relazione) - vediamo che nel complesso 3 dei fattori non sono significativi, invece ad es. le confezioni sono elementi a favore - di elementi negativi non ce n’è: quelli negativi non sono significativi 52 - guardando per ogni marca (FILTRO SU DATI LOCALI) - facendo l’operazione di sintetizzare gli item sul prodotto in fattori, io ho ottenuto una diminuzione dei fattori (li ho ridotti a 1/3): anche dove prima non erano sufficienti i casi per fare la regressione (es. Cuomo) invece con 8 predittori va bene (cioè un minimo di 80) - -> altro vantaggio - es. Pettinicchio diventa importante in negativo in “gusto troppo forte e intenso” - es. le confezioni che in generale contano positivamente, non contano per Granarolo, Vallelata, Boiano, Cuomo, Francia, mentre contano per Pettinicchio e molto per i produttori locali - i confronti vanno fatti all’interno dello stesso prodotto → es. prodotti locali → dire: il più importante è il fattore 1, gli altri un po’ meno alti, e in subordine anche questo → nel caso in cui ci fosse un valore di 0,0508 (differisce per poco): quindi inserirlo nella significatività !! - fare 4 GRAFICI diversi per ogni marca → devo poi tenere tutti i grafici nello stesso ordine: mettere per prima Pettinicchio (es.) e poi gli altri nello stesso ordine (es. discendente) 10. BRAND MAPPING • a che tipo di domande di marketing vogliamo rispondere (anche per il report): - qual è il mio posizionamento rispetto ai concorrenti? → interpretazione grafica! - qual è la percezione che i consumatori/gli utenti hanno del mio brand/del mio prodotto relativamente ai concorrenti? - quali sono i miei punti di forza e di debolezza? • mapping = rappresentazione grafica di brand (o alti oggetti) in uno spazio (mappa) che metta in evidenza le similarità in modo semplificato e intuitivo - si tratta di individuare due dimensioni rispetto alle quali collocare gli oggetti - gli oggetti si dispongono tanto più vicini quanto più sono simili (relativamente alle dimensioni individuate) - lo scopo del mapping è descrittivo ed esplorativo • → l’idea è quella di tradurre la somiglianza dei brand in vicinanza dei punti • esempi (slide 6) DIMENSIONI DELLA MAPPA: VARIABILI NOTE • La soluzione più semplice è usare come assi due variabili note relative agli oggetti (possibilmente poco correlate) • le due variabili che scelgo devono essere il meno possibile correlate es: - qualità e prezzo sono molto correlate tra loro (R-quadro alto) e quindi i brand si distribuiscono sulla - diagonale principale (il fenomeno è unidimensionale) molto utile i fattori economico-costoso e moderno-classico: sono indipendenti uno dall’altro - -> la mappa si riempie tutta e non è implicito come prima • scelta di coppia di variabili: importanza-soddisfazione → vengono fuori informazioni importanti 55 - filtro su dati locali (es.): Granarolo, Pettinicchio, Vallelata → guardare per tutti i fattori quali sono significativi e quali no: quello no (aspetti nutrizionali, adatta a cucinare) li elimino, le confezioni sono al limite, delle altre scelgo quelle che voglio (es. sono care, gusto) → copio le tabelle → creo il mapping • → si potrebbero proiettare altre cose (es. area geografica - -> altri 3 punti che rappresentino nord-centro-sud) - in DISPONI IN TABELLA: trascino l’area 3 sotto alla tabella marca 100+ → sono le coordiante con cui posso proiettarle sulla mappa - -> qualunque variabile nominale io abbia in JMP può essere usata come criterio di aggregazione per creare la coordinata e usarla sulla mappa - posso aggiungere anche “consumatori pettinicchio” - sì e in passato → vicine a Pettinicchio mai → è dalla parte opposta - non è però del tutto chiara 2. SCALING MULTIDIMENSIONALE (MDS) • si parte da una matrice di distanze tra le unità • le distanze/prossimità possono essere: - misure oggettive - soggettive: «quanto simili sono la marca A e la marca B?» - calcolate a partire dalla matrice dei dati • il significato delle dimensioni della mappa è definito implicitamente dalla posizione delle unità 56 • scopo: proiettare i punti sulla mappa in modo da rispettare il più possibile le distanze, almeno l’ordinamento delle distanze (cioè l’ordine di grandezza che vediamo sulla matrice di distanza) → quello che si definisce sono le posizioni dei punti, mentre l’interpretazione degli assi si fa dopo (al contrario dell’analisi fattoriale) • cercare di rispettare almeno l’ordinamento delle distanze • es. - quella sotto è la mappa della Lombardia - la rotazione della mappa è sempre possibile - le distanze rappresentano distanze tra punti che di fatto sono già misurate nel piano → la superficie della Lombardia è un piano • es: - sono distanze calcolate a partire dal dataset → abbiamo immaginato che tutti i paesi siano punti nello spazio tridimensionale dove gli assi sono le 3 variabili (istruzione, sanità, pensione) - -> posso misurare con lo spazio tridimensionale con precisione la distanza - è una distanza spaziale, non ci aspettiamo che rappresenti la loro posizione 3. ANALISI DELLE CORRISPONDENZE • lavora su dati diversi da quelli sui quali lavorano le altre tecniche → perché è una tecnica per l'analisi delle relazioni tra due o più variabili categoriche - -> partire dalla tabella a doppia entrata delle variabili • scopo: proiettare sulla mappa come dei punti le righe e le colonne della tabella a doppia entrata 57 (i “no” sono stati tolti) • generare una mappa nella quale gli assi (come l’analisi fattoriale) sono determinati dalla posizione dei punti e ha il vantaggio che proietta allo stesso modo tutte le variabili coinvolte • in questa mappa ci si ritrova alla perfezione (nell’analisi fattoriale non ci ritrovavamo bene) RIASSUNTO • differenze: - analisi fattoriale: ➢ parte da variabili numeriche del dataset originale ➢ poi fa subito la correlazione - -> le variabili proiettate sono gli oggetti della matrice di correlazione - MDS ➢ parte da una matrice di distanza (non il dataset originale e la matrice di correlazione) - analisi delle corrispondenze ➢ parte da variabili categoriche ➢ parte da una variabile diversa perché la matrice è una tavola a doppia entrata delle variabili • il mapping è comodo perché si riesce a visualizzare facilmente un risultato superando tutti gli ostacoli tecnici • ci sono diverse tecniche → quella che usiamo è l’analisi fattoriale che richiede di partire dal dataset originale • → se ho il dataset originale posso poi generarmi gli altri due tipi di analisi se invece si parte da matrici di distanze o variabili categoriche allora si deve per forza fare rispettivamente il MDS e analisi delle corrispondenze JMP (4) MOZZARELLA 8 FATTORI • QUADRANT ANALYSIS degli attributi delle marche di mozzarella rimanendo a livello riassuntivo dei fattori - sono valutazioni interpretati come soddisfazioni (asse y) - il problema è che non abbiamo l’asse orizzontale - DISPONI IN TABELLA per trovare le medie degli 8 fattori differenziato per marca 100+ → questa è la dimensione verticale della mappa 60 • 3^ condizione → nella vita reale non è sempre così: es. quando si sale per la montagna, la distanza non la misuro in m sul terreno ma con un criterio di costo (es. tempo, fatica, soldi) e mi accordo che in una direzione la distanza è una e nell’altra è un’altra (es. salire e scendere da una montagna: la fatica è diversa) • 4^ condizione → neanche questa sempre vera DISTANZE PIÙ COMUNI • diversi tipi di distanze, che danno ordinamenti diversi: • la più usata: distanza euclidea • distanza city block (o distanza del taxi o di Manhattan): immagina che il grafico che rappresenta le coordinate dei punti siano immersi da dei blocchi che portano a fare una strada parallelamente agli assi → assomiglia a quella che usiamo noi (noi non misuriamo in linea d’aria ma in base alle strade) • distanza euclidea al quadrato: non è una distanza in senso proprio perché può violare la disuguaglianza triangolare - se la misura è la distanza euclidea al quadrato la via più breve è quella che passa per il lato 22 INDICI DI SIMILARITÀ (PER VARIABILI BINARIE) • quando le variabili sono binarie • le unità u e v sono rappresentate da zeri e 1: 1 = sì, presenza 0 = no, assenza • i valori possono essere riassunti in una tavola di frequenza: INDICI DI SIMILARITA’ PRINCIPALI • → in questo caso sono definite delle distanze diverse che sono più comode → tutti valori compresi tra zero (minima similarità) e 1 (massima) • quindi, nel caso delle variabili binarie si possono definire degli indici di similarità, che sono molto vari e si adattano molto in alcuni casi 61 NUMERO DEI POSSIBILI RAGGRUPPAMENTI • i modi di raggruppare n unità in g gruppi sono circa 𝑔 Τ 𝑛 𝑔! che diventa rapidamente un numero molto grande es. 𝑁 20,5 ~ 7,9 ∙ 1011 ~ 800 miliardi • → bisogna usare delle strategie (algoritmi) senza esplorare tutte le possibilità 1. metodi gerarchici 2. metodi non gerarchici 3. altri metodi 1. METODI GERARCHICI AGGLOMERATIVI ALGORITMO • 1. si parte dalla soluzione con n cluster di una sola unità (es. sotto: 3 cluster) • 2. si aggregano i due cluster più vicini (al primo passo: le due unità più vicine) • 3. si procede iterativamente aggregando i due cluster più vicini: ad ogni passo il numero dei cluster diminuisce di 1 4. l'ultima soluzione è un unico cluster con tutte le unità • l’ultimo livello e i primi sono poco interessanti, invece le soluzioni medio-alte (verso dx) sono utili e interessanti CRITERI DI AGGREGAZIONE • come si calcola la distanza tra gruppi di punti? - tra i due punti più vicini - tra i due punti più lontani - media delle distanze a coppie - tra i centroidi - metodo di Ward: aggrega i gruppi che generano il minimo aumento della varianza interna ai gruppi - mette insieme i cluster più simili, quelli tali che quando li metto insieme la variabile del cluster risultante è la minore possibile • es. CLUSTERIZZAZIONE JMP UE (tra istruzione, sanità, pensione) - se tolgo “standardizza i dati” ottengo questo: Grecia, Italia, UK, Spagna: sono nello stesso cluster e sono quelli con una spesa sulla pensione basa Austria, Olanda, Germania, Svizzera, Francia: spesa sulla pensione alta → la cluster ha fatto il raggruppamento sono in funzione delle pensioni, senza guardare istruzione e sanità - devo standardizzare i dati (“standardizza dati”) per far sì che tutte diano un contributo 62 - cronologia di clusterizzazione → è la visualizzazione per esteso, con delle distanze che mi servono per avere idea di quali sono i primi, quali dopo leader = quello che dà il nome al cluster (es. Austria = Austria più Olanda) DENDOGRAMMA • il grafico prima è un dendogramma • la lunghezza dei rami rappresenta la distanza tra i due cluster uniti a ogni passo → la distanza dipende dal metodo • un "salto" nella sequenza delle distanze suggerisce di scegliere la soluzione prima del salto INTERPRETAZIONE DEI CLUSTER PER METODI GERARCHICI • quando le unità sono in numero ridotto e sono interpretabili individualmente (es. prodotti) l'interpretazione dei cluster è definita implicitamente dalle unità che li compongono • Criterio fondamentale (valido per tutti i metodi) - esaminare i centri dei cluster, cioè le medie delle variabili all'interno di ogni cluster (*) - l'ideale è ottenere medie molto diverse su tutte le variabili • riepilogo dei cluster → va sulle variabili originali e dice in ogni cluster quanto valgono le variabili (andando a vedere le medie *) es. cluster 3 (Italiam Spagna, Grecia): istruzione (il più basso), sanità (il più basso), pensioni (il più basso) JMP (5) • CLUSTER GERARCHICA → tra marche - vogliamo analizzare le relazioni tra le marche (fatto anche con il brand mapping) - posso usare come variabili 3 cose: 1. attributi di marca 2. attributi del prodotto 3. rispetto a chi le consuma - -> uso MOZZARELLA PER INT 65 • es. JMP UE → cluster k medie - y colonne: istruzione, sanità, pensioni - indichiamo quanti cluster fare (es. 3) - numerosità dei cluster (conteggio) → 2-2-5: nel 5 è successo qualcosa, quasi sicuramente un paese si è spostato dal 3 al 4 - interpretazione dei cluster: si guardano le medie = dicono qual è la media della variabile es. di istruzione all’interno del cluster 1, cluster 2, 3 → il cluster 1 è il più basso per tutte e 3 le variabili: - diagrammi a coordinate parallele: ci interessa il 4° grafico sulle medie dei cluster, in cui vediamo effettivamente che: il cluster 1 è il più basso per tutte le variabili il cluster 2 è il più alto per sanità e pensioni e medio per istruzione il cluster 3 è il più alto per istruzione e medio per sanità e pensioni - differenze con la clusterizzazione Ward: ➢ dal punto di vista interpretativo vengono fuori gli stessi cluster: uno basso su tutte, uno alto su welfare e più basso sull’istruzione, uno più alto sull’istruzione e medio in sanità ➢ ma dal punto di vista della composizione dei cluster (cioè le disposizioni dei paesi nei cluster) c’è una differenza: - Greca e Spagna sono nel cluster 1 - -> Italia è nel cluster 3 - Francia e Germania in cluster 2: lo stesso - il cluster 3 ha in più l’Italia → questo è il paese che ha cambiato cluster • quando voglio confrontare due soluzioni, es. Ward e k-means: → relazione tra 2 variabili CATEGORICHE - il cluster 2 di Ward è fatto da due elementi che sono gli stessi di k-means: si corrispondono alla perfezione - il cluster Ward 1 era fatto di 4 che sono tutti nel cluster 3 di k-means: quindi i 4 che finivano insieme nel cluster 1 di Ward finiscono ancora insieme nel cluster 3 di k-means, più 1 (l’Italia, che abbiamo visto prima) - il cluster 3 di Ward si divide in cluster 1 e 3 (L’italia) di k-means • - -> cosa mi fa vedere che due clusterizzazioni sono uguali oppure no? il fatto che c’è una sola cella piena per riga e per colonna → perfetta corrispondenza (come nel caso del cluster 1 di Ward), 66 STABILITÀ DEI CLUSTER E CROSS-VALIDATION • la cluster analysis individua cluster anche su dati casuali • ma poiché l'obiettivo è di identificare cluster utili a fini pratici si richiede che essi siano stabili → la stabilità si può valutare con la cross-validation incrociando soluzioni generate in condizioni diverse es. metodi diversi o numero di cluster diversi • → le soluzioni sono tanto più simili quanto più i casi si concentrano in poche celle: l'ideale è una sola cella per riga e per colonna (detto prima) NUMEROSITÀ DEI CLUSTER • non è necessario che i cluster abbiano numerosità simili, ma: - devono avere almeno una numerosità utile - cluster molto piccoli (poche unità) indicano possibili outlier - un unico cluster molto grande indica spesso un cattivo raggruppamento, con un cluster medio poco caratterizzato, attorno al quale si collocano cluster marginali ANOVA E IMPORTANZA DELLE VARIABILI 1. ANOVA CON VARIABILI ATTIVE • es. ANOVA sulle 3 variabili attive, cioè usate per generare i cluster, rispetto a Ward e K-means - istruzione → la differenza delle medie nell’istruzione è significativamente per Ward e non per k-means - sanità: significative entrambe - pensioni: significative entrambe → sono per lo più significative: le variabili che noi abbiamo usato per generare i cluster, io mi aspetto che siano sempre significativamente diverse tra cluster (li abbiamo generati apposta in modo da discriminare le variabili): l’eccezione è quando non è significativo - infatti l’ANOVA sulle variabili usate per generare i cluster non si può usare come test della significatività, perchè i cluster non sono indipendenti dalle variabili (perché sono stati generati dalle variabili, quindi per forza poi le variabili sono significativamente diverse) • ma fare un’analisi della varianza sulle variabili usate per generare i cluster (attive) può servire per stabilire quali sono le variabili che maggiormente discrimino i cluster e quali discriminano meno: cioè l’ANOVA serve per generare una gerarchia delle variabili, quelle più importanti e quelle meno → riguardando allora i dati (concentriamoci su quelli di Ward): - istruzione significativo e prob. = 0,03 - pensione: 0,03 - sanità ha una significatività di 0,003 → il più significativo: mostra, nel discriminare i cluster, una significatività più alta, cioè sanità è la variabile che maggiormente discrimina i cluster Ward, diversi tra loro soprattutto per sanità • quando ci sono tante variabili, non si guarda la probabilità (spesso uguale a 0), ma conviene guardare F (e si guarda chi ce l’ha più alto) 67 2. ANOVA E VARIABILI ESTERNE • es. ANOVA sulle 2 variabili esterne PIL procapite e popolazione, rispetto a Ward - qui posso usare l’ANOVA, perché qui i gruppi sono indipendenti dalle variabili (al contrario di prima, che avevo generato i gruppi con quelle variabili) - ANOVA rispetto alla popolazione per cluster = significa chiedersi se esistono dei cluster di paesi grandi e dei cluster di paesi piccoli, cioè se c’è un modo di caratterizzare i cluster in base alla popolazione, se si può usare questa variabile per caratterizzare i cluster → in questo es. la risposta è NO: non sono significativamente diversi (p = 0,14) - ANOVA rispetto al PIL procapite = chiedersi se ci sono cluster di paesi ricchi e dei cluster di paesi poveri → la risposta è QUASI (p = 0,051), è quasi significativo, quindi c’è una forte indicazione che in questi 3 cluster si può identificare i cluster in base alla ricchezza • - -> l’ANOVA applicata a variabili esterne vale come test di significatività e quando è significativo dà indicazioni molto forti per caratterizzare i cluster, perché questi li avevo generati con un altro criterio e rispetto a questa variabile qui sono significativamente diversi • RIASSUNTO L'ANOVA rispetto ai cluster si può eseguire su qualunque variabile 1. variabili utilizzate per l'analisi (attive) - permette di valutare l'importanza delle variabili nel definire i cluster (maggiore significatività (F) → maggiore importanza) - non si può interpretare come test della significatività delle differenze tra cluster 2. variabili esterne (illustrative, non utilizzate per l'analisi) - si può interpretare come test e può fornire informazioni utili per caratterizzare i cluster INTERPRETAZIONE DEI CLUSTER: MAPPING 70 • se l’ANOVA la applichiamo a variabili esterne sappiamo che l’assunzione può essere di grande interesse, perché non è detto che i cluster identificano medie diverse → la possiamo fare sulla preferenza, per vedere se queste sono significativamente diverse e se supportano l’interpretazione che abbiamo ipotizzato finora (Y: preferenza X: cluster 5 (abbandoniamo per comodità il cluster 4)) - le preferenze sono significativamente diverse (p < 0,001) → allora guardo le medie e le copio in EXCEL: eccellenti e sane hanno la preferenza più alta seguite da buone ma gusto un po’ forte e da consumare a crudo nettamente staccate: buone per cucinare ma care poco sotto: complessivamente mediocri • altre caratterizzazioni: sapere se i cluster sono particolarmente presenti in certe aree o no, sapere se certe marche sono dentro a certi cluster o no, .... • vogliamo sapere se i cluster hanno una distribuzione uniforme tra le aree o no → test CHI-QUADRATO tra area e cluster (Y: area 3 X: cluster 5) → dal grafico a mosaico vediamo che: - 1 e 2 sono più presenti al nord, 4 e 5 poco - centro: particolarmente presente nel cluster 5 - sud: quasi assente in 1 e 2, invece particolarmente presente nel 4 SEGMENTAZIONE dei prodotti rispetto alle marche • vogliamo fare la stessa cosa per le marche 100+ con la clusterizzazione con 5 cluster → ci sono troppi dati - tengo le % di colonna: mi dicono all’interno di ogni cluster qual è la % di uno marca - voglio vedere se la % della marca all’interno dei cluster è diversa → uso EXCEL Granarolo è particolarmente rappresentato nel cluster 2 e relativamente sottorappresentato nel cluster 5 - cluster 1: presenza relativamente alta di Pettinicchio, Boaino, Francia, invece no prodoti locali - cluster 2: più Granarolo e Vallelata, no Pettinicchio, Boaino, Francia, prodotti locali - cluster 3: prodotti locali - cluster 4: prodotti locali e poco Cuomo - cluster 5 (centro): Boiano, Cuomo e Francia • → dovremmo sapere in quali celle ci sono significativamente più casi, se ci sono differenze significative: su EXCEL faccio a mano questo test formare per vedere le concentrazioni significativamente basse o alte dentro le celle, che si accompagna al chi-quadrato e dà lo stesso significato di guardare le medie quando l’ANOVA è significativo - copio la tabella di contingenza inserendo la frequenza teorica, il valore previsto (frequenza teorica) e la deviazione (la differenza tra le due) → la posto in EXCEL - al posto del conteggio devo mettere la seguente formula: residuo standard = deviazione/radice quadrata della f. teorica 71 → così facendo ho fatto diventare quel residuo una variabile standard (perché la deviazione così è difficile da valutare): posso valutare se il valore è tanto grande o piccoli confrontando con una variabile standard quindi: valori < -2 = piccoli valori > 2 = grandi - cluster 1: è selezionato dall’assenza dei prodotti locali in modo significativo cluster 2: selezionato dall’assenza ei prodotti locali, ma anche in positivo da Granarolo e Vallelata cluster 3: si prodotti locali, no Cuomo cluster 4: ci sono significativamente i prodotti locali cluster 5: non ci sono prodotti locali, c’è Cuomo, non c’è Granarolo - ci sono alcuni valori che sono al limite della significatività
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved