Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Appunti Data Analysis, Appunti di Statistica

Appunti completi presi durante le lezioni del corso di Data Analysis con il Prof. Della Beffa

Tipologia: Appunti

2019/2020

Caricato il 29/09/2021

elisabetta_biason
elisabetta_biason 🇮🇹

4.5

(6)

13 documenti

Anteprima parziale del testo

Scarica Appunti Data Analysis e più Appunti in PDF di Statistica solo su Docsity! DATA ANALYSIS 21-09 obiettivi: imparare gli strumenti principali dell'analisi dei dati finalizzati al mercato formulare problemi di marketing in modo adatto all'analisi riconoscere il ruolo dei dati per prendere decisioni imparare a usare Excel, JMP metodi: - lezioni - esercitazioni con Excel - esercitazioni con software statistico - analisi di un caso reale applicando le tecniche apprese e generando un report di analisi strutturato e completo + opzionale ma valido per l'esame libri - materiale sulla community: Data analysis 2020-2021 password: data2021 - documentazione online - Molteni, Troilo, Ricerche di marketing, Egea, Milano, 2012 + capl + cap2 finoP 38, 52-63 fl cap4 + 950 Poison 217 ll cap 5 finoP 2 -261 ll 6p 239 246 Ù i De fino p 299 + ca50 TSN Abacus c 3 374, 335-336, 344-351 È n DE 398, 422-423, 426-432 + caplida p 453 pallini > leggere, studiare in generale 1! studia bene tutto esame: - prova scritta con domande aperte (interpretazione di output e domande teoriche) - orale a richiesta - report di analisi (max 2 punti) > gruppi max 3, consegna almeno una settimana prima dell'appello scelto, i punti valgono fino a settembre 2021 ricevimento: giovedì mattina CONTESTO cap.1, 2, 11 2 ipotesi che giustificano l'investimento sulla conoscenza: 1. la conoscenza è fonte di vantaggio competitivo 2. la soddisfazione dei clienti produce redditività = orientamento al mercato - esigenzee diritti dei clienti - arena competitiva (concorrenti, prodotti requisiti dell'impresa: - apertura: ottenere e mantenere aggiornata la conoscenza - trasparenza: fare circolare la conoscenza al proprio interno - innovazione: saper rispondere agli stimoli del mercato — dal punto di vista culturale - sistema informativo di marketing: raccogliere dati sugli aspetti di interesse e trasformarli in informazioni utili per le decisioni > sistema informativo di marketing = insieme strutturato di persone, modelli organizzativi, modelli di analisi, tecnologie disegnato per generare un flusso ordinato e continuativo di informazioni destinate a essere utilizzate come supporto alle decisioni di marketing aziendale fonti di flusso di sistema flusso di decisioni dati dati informativo informazioni di mktg raccolta trattamento distribuzi îi 7 dati ‘e analisi distribuzione interpretazione evoluzione del metodo in funzione degli obiettivi Optimizing seine E 4 [ Understanding Srna E Pattems mese | i siga È Understanding cca Social Context ” & Weaning Identifying Dicnosmes | {i ._) _ Factors & Causes n Forecasting & Probabilities ce orta qua qjLM_* 8"! 3 si È Intelligence È È Transactional business value - livello gestionale + data quality - descriptive, business intelligence + sono pure descrizioni dei dati, non c’è interpretazione - livello diagnostico e predittivo + cerco di capire perché sono così i dati - livello prescrittivo + se riesco a capire posso prevedere - livello semantico ® cisono diversi modi per classificare i dati + 2 di questi sono: 1. dati primari + raccolti da istituti di analisi dei mercati 2. dati secondari + servono per altro, ma li utilizzo anche per il marketing + rispetto all'obiettivo di marketing Le fonti informative si distinguono in: 1. interne 2. esterne (ITTTENE fonti esterne {e fel efielgote (eleegie EINEFACAISE] (siete glie Nu Ciclo Conn nali dati primari — TERE indagini ad hoc, survey, rilevati per approccio qualitativo, SENO approccio quantitativo CELESZIEZ ERP: fatturazione, logistica, | Istat, PA, Banca d'Italia, UE, [elfo CI ciel21) produzione WTO/OMC Esc) CRM: web, social, call center a — [rispetto all'obiettivo di mktg ® altra classificazione dei dati + rispetto alla loro semantica: - genero il questionario sul web e lo distribuisco via web - invito via mail /web/social, link per la compilazione -pro: tempi e costi ridotti -contro: minore accuratezza, filtro internet, autoselezione (cioè limitazione di target, perché chi risponde sono quelle persone che hanno un motivo per farlo) 4. COSTRUZIONE DEL QUESTIONARIO (CAWI p.140 principi fondamentali: chiarezza, sempli passaggi: 1. identificare informazioni di interesse primario e accessorie + quali aree: opinioni, comportamenti, sociodemo 2. stabilire la sequenza logica dei temi (sezioni e filtri) es. campione, dal generale al particolare, sociodemo alla fine 3. definire la lista delle variabili (non le domande) + cosa chiedere per le aree scelte 4. definire la sequenza delle domande es. prima la soddisfazione globale o gli attributi del prodotto? + meglio prima la soddisfazione e poi aggiungere gli attributi; se faccio il contrario lo porto a considerare gli attributi che ho messo prima e quindi mi direbbe quanto è soddisfatto rispetto a quegli attributi 5. decidere la forma delle risposte (aperte o chiuse, in che scala + adesso si può fare domande aperte, prima era impensabile) 6. formulare le domande + come chiedere FORMULAZIONE DELLE DOMANDE , brevità p.142-144 la formulazione delle domande è fondamentale: evitare domande doppie + perché se ci sono due alternative non si sa a quale delle due risponde, è meglio dividere le domande es: ha mai comprato online biglietti aerei o ferroviari? evitare ambiguità es: nella sua famiglia ci sono bambini? attenzione alle negazioni > perché non bisogna influenzare, poi perché se devo dire se sono d'accordo o no e nella frase c'è una negazione è difficile capire se bisogna mettere si o no es: l'intervento della Regione Lombardia non è stato adeguato... risposte esaustive e mutuamente esclusive es: in che paese è nato: Italia | Francia | Spagna | Europa + perché ci sono altri stati o continenti, poi perché Italia, Francia e Spagna si trovano anche in Europa, quindi non sono esclusive non dare nulla per scontato es: dove è andato in vacanza l'estate scorsa? + magari non è andato in vacanza attenzione alle domande sul passato e ai temi etici + limitarsi alle domande necessarie QUESTIONARI MOZZARELLA Obiettivo principale: analisi della concorrenza - posizionamento dei concorrenti - miei punti di forza e di debolezza Obiettivo secondario: segmentazione dei prodotti Formula di ricerca: - campione di consumatori - survey: cosa chiedere? come? - mapping - preference analysis - cluster analysis CRITERI DI CAMPIONAMENTO: - responsabile acquisti + chi in famiglia acquista questi prodotti - consuma mozzarella - conosce Pettinicchio - campione della pop italiana uniformemente distribuito per età (due classi: 21-45 e 46-64) e per area (nord, centro, sud) FILTRI lavora in pubblicità? _|-"—{ chiudere | no] v controllo campione filtri per marca ha consumato Granarolo? frequenza Granarolo no ha consumato vallelata? sì no | frequenza valletata | ha consumato ***? - uno dei criteri standard di esclusione dalle interviste è lavorare in pubblicità, ricerche di mercato, giornalismo, ... COSA CHIEDERE: SEZIONI DEL QUESTIONARIO - identificare le aree che si vogliono esplorare (es: packaging, formato, provenienza, brand) + nel questionario: . criteri di campionamento ed esclusioni conoscenza e consumo (per marca) è. tipi, formati, confezioni modalità di consumo marca preferita preferenze (per marca) .. immagine (per morca) . attributi prodotto (per marca) COSA CHIEDERE: SEZIONE "IMMAGINE MARCA" (es: italianità, kmO0, sostenibilità, affidabilità,) *. conosciuta e famosa E specializzata nella mozzarella di latte vaccino specializzata nella mozzarella di bufala affidabile utilizza tecniche di produzione avanzate opero nel settore da molti anni, ha una lunga esperienza la cui produzione rispetta la tradizione con una distribuzione nazionale propone offerte promozionali ha un'ampia gamma di prodotti fa molta pubblicità ha prodotti a denominazione di origine protetta questionario vero + in ‘community 3. STATISTICA UNIVARIATA E PROBABILITA’ cap.4 p.148-175, 203-205, dispensa “analisi bivariate” NO UAN ® tutte le analisi si basano su matrici di dati unità per vari LA MATRICE DEI DATI - nrighe: le unità statistiche (detti anche casi, osservazioni, example) - kcolonne: le variabili (attributi, feature) LO SPAZIO DELLE UNITA’ ® ogni variabile si può interpretare come una dimensione ® p.148-151 ogni unità si può interpretare come un punto nello spazio a k dimensioni TIPI DI SCALA [_pati ] Numerici Ì —— ( Nominali ) | Ordinali ) | intervali © | Rapporti TO Binari — *__DATI CATEGORICI (QUALITATIVI) = i valori si esprimono in categorie o modalità - ogni unità deve appartenere a una e una sola categoria - non si possono eseguire operazione aritmetiche - si possono calcolare frequenze e percentuali - si distinguono in: > nominali (es. marca) > ordinali: le categorie sono ordinate, ma le distanze tra di esse non sono uguali es. istruzione, scala Mercalli, classifiche e ordinamenti, scale di Likert (per niente, poco, così così, abbastanza, molto) ®__DATI NUMERICI (QUANTITATIVI) - rappresentano informazioni intrinsecamente numeriche - si può eseguire ogni tipo di calcolo (es. media) - le scale numeriche sono distinte in: > aintervalli (es. temperatura, date) > arapporti (es. conteggi, età, reddito: c'è uno zero vero che significa assenza di quantità) > discreti (conteggio) >» continui (misura) *__ DATI BINARI (DICOTOMICI) = sono dati nominali, ma si possono utilizzare come numerici in molte analisi - ammettono solo due valori (si/no) - un dato categorico con k categorie si può trasformare in k dati binari area geografica 1. nordovest 2. nordest 3. centro 4. sud che serie hai visto? 1. Narcos 2. The Crown 3. Breaking Bad 4. La casa di carta + dispensa PDF 3 livelli di analisi: o ‘area geografica nordovest o nordest " centro " sud " hai visto queste serie? Narcos ùu The Crown o Breaking Bad E = se si trasforma il dato in numerico si può selezionare più La casa di carta o a di una risposta (invece che inserire nella casella un numero) LIVELLI DI ANALISI ® p.202 ® inunadistribuzione N 0;1 il 95% dei valori è compreso (approssimativamente) tra -2 e +2 ® il 99% dei valori è compreso tra -2.57 e +2.57 excel UE ® densità della popolazione: pop/sup + si moltiplica per 1000: abitanti per km2 * % popolazione: pop paese/pop tot 5-10 4. DATA VISUALIZATION https://support.microsoft.com/it-it/office/importare-e-analizzarei-dati-ccd3c4a6-272f-4c97-afbb- d3f27407fcde?ui=it-IT&rs=itIT&ad=IT#id0eaabaaa=charts https://developers.google.com/chart * leorigini: William Playfair > immagine PDF p.4 +primo diagramma a barre e a torto noto *__ obiettivi delle rappresentazioni grafiche + servono a presentare risultati, ma anche descrivere i dati ed esplorarli es. (grafici p.5): mostrare somiglianza tra unità, identificare relazioni e valutare l'effetto di fattori ® p.153-160 TIPI DI GRAFICI *__box plot > Schematizza la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier) (sE) © « outlier T- min(03 + 1.510, max) mediana Qi L max(Q1 - 1.5-10, min) - p.172-173 libro - valori inferiori: in basso; valori superiori: in alto - Q3-Q1 = distanza interquartile (= in mezzo c'è la mediana) - vediamo che la distribuzione è leggermente asimmetrica: il baffo sotto è più corto del baffo sopra, poi la mediana (che divide il box) è più vicina al primo quartile che al secondo *__istogramma + mostra la distribuzione di una variabile numerica - differenza con i diagrammi a barre: nf E i = rappresentazione grafica delle distribuzioni di frequenza - suddiviso in classi + lo standard è fare classi di ampiezza uguale - sull'asse orizzontale: variabile numerica - sull'asse verticale: frequenze relative o assolute - intervalli uguali - grafici della stessa variabile in cui l'utente definisce l'ampiezza dei singoli intervalli 10 e n 1966 DEI 2668 1988 1332 07 - - ° *__ grafici a barre + riassumono categorie valori di variabili categoriche - orientamento verticale o orizzontale è ininfluente, è solo da un punto di vista estetico - asse orizzontale (o verticale): variabile categorica EEEBEBIRE 16) 8 è marca marca2 marca3 marcad mconsumatori deboli Bforti 1 1002003 mi gradimento prodotti sempre freschi prodotti di qualità opera da molti anni tecniche di produzione ampia gamma mozzarella di bufalo offerte promozionali fa molta pubblicità 1 è a 4 s 6 - su excell chiamate a barre o a colonne grafico a barre 4 s mito 1 2 6 10 12 15 d lisa 123 4 5 6 7 8 9 101112131415 *__ diagramma di Pareto = grafico a barre ordinato per frequenze decrescenti (p.10 slide) ®___grafico a torta > Mostra la distribuzione di una variabile qualitativa (Z = 100%) - limite: Non mostra chiaramente le relazioni tra le parti (p.12 slide) - usarli con grande parsimonia + prima funzionavano perché c'erano valori tra loro molto diversi - evitare versioni 3D di grafici 2D + perché è un grafico concettualmente bidimensionale ®__grafico a linea Number of Top 10 Amazon search terms* related to the Coronavirus - entrambi gli assi sono numerici - asse y: frequenze, prezzi, indici - asse x: variabile numerica, di solito iltempo 11 ®__ Grafico a dispersione e a bolle + rappresenta due variabili numeriche in un piano cartesiano - rappresenta la posizione dei punti rispetto a due variabili - le bolle aggiungono una terza dimensione + il primo grafico infatti non è chiaro (è inutile) mentre il secondo dà già un'informazione in più dando un nome a ogni punto; il terzo conferisce una dimensione del punto (che rappresenta il PIL procapite) — semplificazione della lettura (anche se qualche volta non si può trasformare il grafico a dispersione a bolla, ma la maggior parte delle volte sì) 6 s ‘ foce] sai OMO is È È Pl ° 0 . è » R D * . È è © , 9 si , Ò 9, Cao NE, CINE] % PIL sanità % PIL sanità % PIL sanità dimensione bolle: PIL procapite *__grafico gerarchico + si rappresentano suddivisioni mostrate gerarchicamente consumatori Peltinicchio - primo livello + distinzione tra centro, nord, sud secondo livello: chi ha comprato il prodotto (sì, in passato, mai) ®__Diagramma di Sankey > - dati uguali a prima centra consumatore abituale Di > Seed e consumato in passato | i sud stan heatmap i E Positivi x min. — Italia 16 2 n È E = è è ss 8 8 ® s 8 a * - su una tabella le singole celle vengono colorate secondo una scala di colore di solito da verde (valori bassi) a rosso (valori alti) - asse y: fasce d'età asse x: date 12 COEFFICIENTE DI CORRELAZIONE la covarianza dipende dall'ordine di grandezza delle variabili + per eliminare questa dipendenza si può normalizzaria > coefficiente di correlazione cova, N ra ax-oy |? massimo possibile della covarianza ho trasformato una misura che dipende dall'ordine di grandezza a una misura che varia solo tra -1e 1 (p.182) varia tra-1e1 -1<r<+1 le due variabili sono perfettamente correlate, i punti sono allineati su una retta tl T>0 correlazione positiva, diretta Ù + 7 vai e T<0 correlazione negativa, inversa pr * * r=0 le due variabili sono incorrelate * . correlazioni sotto lo 0,3 sono basse correlazioni sopra lo 0,7/0,65 sono alte correlazioni tra 0,3 e 0,7 sono medie (dipende dal contesto) MATRICE DI CORRELAZIONE E ET Tn [ZA 1 0,454 0,688 -0,278 0,729 EA 0,454 1 0,798 0,387 0,279 PEZZI 0,688 0,798 1 0,009 0,636 PIENA -0,278 0,382 0,009 1 -0345 CITTA 0,729 0,279 0636 -0,345 1 - la correlazione tra istruzione e pensioni è più forte che quella tra istruzione e sanità - il segno negativo significa che i paesi con una istruzione crescente hanno la popolazione decrescente la correlazione misura relazioni lineari se la correlazione = 0: nessuna relazione lineare (fig. 4: la relazione crea una parabola, non è lineare) r=0,53 r=0,01 r=0,37 + 2 . * 2 tara || Toapt €237 ro 74 -- ” è + *. %0,4* la correlazione non implica una relazione di causa-effetto: afferma che tra due variabili c'è una relazione sistematica, ma non che una determina l'altra correlazioni spurie = correlazioni che si verifica per puro caso 2. RELAZIONE TRA UNA VARIABILE CATEGORICA E UNA NUMERICA p.184-186 la relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media + dire che c'è una relazione tra ad es preferenza e marca significa che la preferenza dipende dalla marca e quindi al variare della marca le preferenze cambiano + se facciamo la media della preferenza separatamente di tutte le marche avremo un risultato che indica questo la variabile categorica identifica i gruppi si confrontano le medie della variabile numerica nei gruppi - se le medie nei gruppi sono diverse + c'è una relazione - se le medie sono uguali + nessuna relazione 15 es: differenza della preferenza per marca MIT E ET) n, Granarolo 109 5,466‘ Pettinicchio 454 5,697 | i | Vallelata 427 5,088 © Francia 143 5,465 > 0S le medie sono un po’ diverse: è solo un caso o sono già abbastanza grandi le differenze da poter dire che sotto c'è un fenomeno? > 2° test Anova p.23 CORRELAZIONE E DIFFERENZA IN MEDIA confrontiamo i due concetti visti prima + sono relazioni e concetti diversi e indipendenti VE PE ETUNTINTINTI e *di -d2 media (1 correlazione con dl - grafico 1: medie uguali, correlazione -1 (opposta) - grafico 2: medie diverse, correlazione 1 (andamento identico) - grafico 3: correlazione 1, media diverse la correlazione tra ad es. la valutazione delle pulizie e la preferenza, dice se questi due dati sono legati o no — se è molto legato significa che questa valutazione è importate RELAZIONE TRA DUE VARIABILI CATEGORICHE p. 173-179 dipendenza o il ipendenza tra due variabili categoriche si analizza con le frequenze congiunte, che si rappresentano con tabelle a doppia entrata = tavola delle frequenze congiunte n CICHI frequenze congiunte EGG 141 106 194 Gessi ii cl 169 113 515 231 1028 RIMETTE 310 219 709 450 1688 distribuzioni marginali - se la distribuzione nelle aree nella riga del no o si rimane uguale significa che non influisce sull'essere consumatori o no — due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell'altra - se le distribuzioni relative sono più o meno le stesse per ogni riga E _R vuol dire che se passo da una riga o l’altra non cambia nulla 106 194 219 660 -->saranno uguali anche alla distribuzione marginale 113 515 231 1028 219 709 450 1688 ri dipendono solo alle distribuzioni marginali 16% 29% 33% 100% 11% 50% 22% 100% 6 13% 42% 27% 200% 1 FREQUENZE TEORICHE dalle distribuzioni marginali posso vedere quali sono le frequenze teoriche che dovrei avere in ogni cella se le variabili fossero indipendenti indipendenza tra due variabili categoriche significa che: - le percentuali di riga sono approssimativamente uguali in tutte le righe (e lo stesso per le colonne) - le frequenze congiunte dipendono solo dalle frequenze marginali - frequenze osservate sono uguali a quelle teoriche . (totale riga i) + (totale colonna j) freqgteorica;= ——____-________-—- num totale unità I (__| frequenzeteoriche |__| [novst| nest [centr] sud | tot BS _[novst nest[centr| sud | tot | E] 141 106 194 219 660 [MAM 1212 85,6 277,2 1759 660 EM 169 113 515 231 1028 EMMI 183,3 133,4 431,8 274,1 1028 310 219 709 450 1688 310 219 709 0 1688 1028 » 450 ia" 2741 - se le distribuzioni teoriche sono vicino a quelle osservate significa che sono vicino a una situazione di indipendenza INDICE X? (CHI-QUADRATO| p.178 detto anche indice di connessione XÈ è una misura sintetica della distanza dall'indipendenza tok) E i fo= frequenze osservate fe= frequenze toriche (attese) I rt ITA SIETE ISEE MMI 141 106 194 219 [MMI 121,2 85,6 277,2 175,9 EMI 169 113 515 231 FEIMI 133,8 133,4 431,8 274,1 _ e _ 85,6)? _ 2 g- o) 4 oe Ea 0 L.. A 2741): in caso di perfetta A >yx=0 se c'è dipendenza > x°> 0 >X?= 71,58: è grande o piccolo? + 1° test Chi-Quadrato p.22 valore che può assumere: qualunque valore uguale o maggiore di 0 = 7158 13-10 6. STATISTICA INFERENZIALE cap.5 da p.197, + dispensa PDF * fare inferenza = estendere alla popolazione dei risultati ottenuti su un campione POPOLAZIONE la statistica opera tipicamente su campioni di una popolazione * popolazione = l'insieme di tutte le unità oggetto di studio es. persone, prodotti, aziende deve essere identificata inequivocabilmente attraverso (almeno) una caratteristica osservabile 17 generalizziamo: (p.217) se invece che l'intervallo di confidenza della media, ma ad es. di una proporzione rimane vero che l'ampiezza dell'intervallo di confidenza dipende dal livello di confidenza e dalla numerosità del campione + ma la distribuzione campionaria sarà un’altra SIGNIFICATO DEL LIVELLO DI CONFIDENZA (p.201) livello di confidenza = rappresenta la percentuale di intervalli (al variare dei campioni) che contengono il valore “vero” ogni segmento verticale rappresenta la stima puntuale di un campione diverso (rappresentati da segmenti orizzontali > o è l'intervallo di confidenza?) + attorno a quel campione si può disegnare un intervallo di confidenza - gli intervalli di confidenza, come ampiezza, sono tutti identici: se uso la stessa numerosità del campione (n), ho il livello di confidenza 95% sempre uguale, e la popolazione è sempre la stessa (0) allora la distribuzione campionaria è sempre la stessa, quindi l'ampiezza dell'intervallo di confidenza è lo stesso + in molti casi, l'intervallo di confidenza conterrà la media vera, tranne qualche caso in cui non lo contiene (es. riga rossa) - se capita quello azzurro + la stima puntale +/- errore contiene la stima vera - se capita quello rosso + quando do l'intervallo di confidenza dico una cosa falsa — il livello di confidenza (95%) rappresenta la percentuale di intervalli che contengono il valore vero - ->se estraggo 100 campioni diversi, per 95 casi l'intervallo di confidenza che disegno conterrà la media vera, gli altri 5 non la conterranno TRADE-OFF NEGLI INTERVALLI DI CONFIDENZA (semi)ampiezza dell'IC della media al 95% = 1,96 * 02/radice n itervallo + indica la precisione - livello di confidenza + indica l’affidal + ecco perché le stime intervallari danno info in più rispetto a quelle puntuali: dà un'informazione sulla precisione delle mie stime se si alza il livello di confidenza (es. da 95% a 99% + maggiore affidabilità) l'ampiezza dell'intervallo aumenta (si passa da 1,96 a 2,57 > minore precisione) = come restringere l'ampiezza dell'intervallo di confidenza e aumentare la precisione, senza perdere affidabilità o viceversa? per aumentare il livello di confidenza e nello stesso tempo diminuire l'ampiezza dell'intervallo di confidenza bisogna aumentare la numerosità del campione INTERVALLI DI CONFIDENZA, ESEMPIO IL DECRETO SICUREZZA Indagine condotta con tecnica mista CATI-CAMI-CAWI su un campione di 800 soggetti maggiorenni residenti in Italia tra il 24 e il 26 giugno 2020. Il campione è stratificato per zona e prevede quote per età e sesso. I dati sono stati ponderati al fine di garantire la rappresentatività rispetto ai parametri di zona, sesso, età, livello scolare e partito votato alle ultime elezioni. Il margine d'errore statistico dei dati riportati è del 3,5% a un intervallo di confidenza 20 del 95%. REVERSE ENGINEERING ® p.214-216 * laformulalerrore = 1,96 -0/yn — può essere utitizzata al contrario per stimare a priori la numerosità del campione risolvendo rispetto a n la formula diventa: = . DI Mesa, errore ® questa formula che fornisce la numerosità n (minima) necessaria in base a: _ - il livello di confidenza scelto (es. 95% + 1,96) a] - unastimadio Questa è la deviazione standard attesa della variabile . . . nelle popo'azione indicativa della probabile variazione dei - il massimo errore accettabile dati Queste informazioni possano essere ottenute da è es: Si vuole stimare la media della popolazione con: sludì precedenti o opinioni ui esperti. Le informazioni ? pop * sulla varanza, se disponibil, potrebbero essere utiizzate livello di confidenza 95% poiché la ceviazione standard è solo la radice quaora:a » . dolla varianza. stima di o =8 Se non sono disponibili altre informazioni, la deviazione standard può essere stimata dividenco l'intervallo del n 3504 per quatto A scempio, se si rra a simarelipaso 1,96:8 medio degli studenti universitari e si ritlene che Il 95% n= = 245,86 nego seo x a gl ludent urbe ur peso compreso tra 50 e 100 9 errore massimo +1 . . . la deviazione standard può essere calcolata pari a 10 + occorre un campione di (almeno) 246 casi ‘ovvero (100 - 60) 1 4 = 10). Sc sono disponibili informazioni sull'intervallo (max - minì anziché . htt /statulato! com/Sam lesi e/ss1M tm sull'intervallo del 95%, È possibile cividere l'intervallo per sei invace di quattro. Si noîi che queste sime presumono . ‘a sia co che average ga nomalmene astuta ® se aumento il numero dei casi, a parità di 1,96 diminuisce l'errore e aumenta la precisione; oppure posso aumentare 1,96 (per compensare n più grande) e ...(1.34 11.54) SOMMARIO var aleatorie analisi e probabilità bivariate distribuzioni di probabilità popolazione ‘campione I distribuzioni campionarie stime campionarie | RESTRINGI) * l’ampiezzadiunintervallo di confidenza dipende da: livello di confidenza e numerosità del campione ® l'intervallo di confidenza dipende da: valore della stima puntuale ® la media campionaria ha una distribuzione approssimativamente normale. VERO ® l'intervallo di confidenza campionaria ha una distribuzione approssimativamente normale. FALSO 2. TEST DELLE IPOTESI ® scopo della verifica delle ipotesi: fornire criteri razionali per decidere se accettare o respingere delle ipotesi ® Il paradigma della statistica classica è: 1. formulazione dell'ipotesi 2. esperimento statistico 3. accettazione o rifiuto dell'ipotesi FORMULAZIONE DELL'IPOTESI (1) E TIPO DI CONCLUSIONE (3 ® 1) L'obiettivo è trarre conclusioni su due affermazioni contrastanti relative a un parametro della popolazione - Ho: ipotesi nulla + la situazione teorica "nota" - Hi:ipotesi alternativa + l'opposto di Ho ® 3)Inbaseaidati campionarie al livello di confidenza scelto si può: -rigettare Ho + i dati campionari forniscono evidenza sufficiente per accettare H, tI -non rigettare Ho + i dati campionari non forniscono evidenza sufficiente per accettare H; 21 UN'ANALOGIA LEGALE PER IL TEST DELLE IPOTESI Nella nostra giurisdizione l'imputato è innocente fino alla (eventuale) sentenza di colpevolezza Ho: innocente H ; colpevole se l'evidenza (i dati campionari) indica fortemente che l'imputato è colpevole, allora si rigetta Ho ! non si dimostra la colpevolezza o l'innocenza L'ESPERIMENTO STATISTICO (2) si individua una statistica campionaria di distribuzione nota adatta a testare l'ipotesi in esame e la si calcola su un campione - si assume che l'ipotesi sia vera e ci si chiede: - -> per ogni test che faccio devo capire qual è la statistica test da usare e qual è la sua distribuzione di probabilità - si calcola questa probabilità (p-value = è una probabilità) + se la probabilità è molto piccola (es. p<0,05) si rifiuta l'ipotesi Very unlikely fyele observations - questa distribuzione è quella che noi sappiamo essere la statistica campionaria quando l’ipotesi nulla è vera - area verde = probabilità (se l‘ipotesi è nulla) di ottenere valori della statistica campionaria = di quelli che ho trovato io - se l'area verde è molto piccola: l'ipotesi nulla è vera però ho un campione così sfortunato che la probabilità della statistica campionaria è scarsissima + oppure l'ipotesi è sbagliata - -> si calcola un valore della statistica campionaria, si va a vedere la probabilità (area verde) e si ragiona così: se quella probabilità è piccolissima si preferisce ritenere che l’ipotesi nulla sia falsa Observed data point Rie 1° TEST: INDIPENDENZA TRA VARIABILI CATEGORICHE X? è una misura della distanza dall'indipendenza (detto lezioni prima) se frequenze osservate = frequenze teoriche + indipendenza > x?=0 area E 3 [Conteggio|nordovest [nordest [centro _ [sud isole [Totale 3 5 £|no 141 106 194 219 660! 92 |a 169 13 515 231 1028] Totale 310) 219 709 450 1688] X°=0 @ indipendenza] x?=71.58 + è grande o piccolo? X>0 Sipendenza] TEST CHI-QUADRATO X° è la statistica per testare l'indipendenza tra due variabili > Ho: X° = 0 (variabili indipendenti) X? ha una distribuzione chi-quadrato con un parametro che dipende dalla dimensione della tabella il test consiste nel verificare se il valore di Y? è "abbastanza grande" 4 Analisi di contingenza di area per consuma Pettinicchio * 4 Test chi Test ‘quadrato Prob>ChiQu Rapporto di verosimiglianza 72957 <0001" Pearson 71,580 0001* — Distribuzione chi-quadrato e p-value: p-value = probabilità di ottenere valori > X?: ali valore di y?non è significativamente > 0) >» p-value "grande" (es. p > 0,05) + test non significativo: si accetta Ho: le due variabili sono indipendenti 22 - coeff. di correlazione anche piccoli possono essere significativi diversi da 0, però sarà una correlazione bassissima ERRORE DI I E Il TIPO ® -a= probabilità di respingere Ho quando in realtà è vera + l'errore di | tipo (a) non è l'unico possibile (visto prima) - B = probabilità di accettare Ho quando in realtà è falsa + l'incrocio dà luogo a 4 situazioni; ERETTE rr TAN decisione corretta AE IS) 1-a falso positivo è quel triangolino verde (ipotesi vera, ma probr&sì esempi di errore di le Il tipo: a pa bassa che la rifiuto) ICI VIGUA CET errore di Il tipo decisione corretta falso negativo "potenza del test" Li I tipo negativo BIN) B 1-p >» [posto | tipo Il tipo ® aòèfissatadalricercatore, dipende da a e da H, — se a diminuisce B aumenta! > per diminuire sia a che 8 bisogna aumentare la numerosità Ho Hi p a Type Il error ___Typelerror ® iltest chi quadrato per l'indipendenza tra due variabili categoriche ha dato il risultato seguente: p-value = 0.23; cosa si può concludere? - le variabili sono indipendenti (p > 0.05) ® un Anova per la differenza tra medie ha dato il risultato seguente: p-value = 0.006; cosa si può concludere? - le medie sono diverse al livello di confidenza del 99% (perché è < 0.01 !!), ma quindi è anche < del 95% 7.DATA QUALITY E CAMPIONAMENTO ® p.205+ caso Poison ®__ data quality + la qualità che bisogna garantire ai dati ha diverse sfaccettature, diversi aspetti da rispettare: - validità (controlli formali e logici, es. età tra zero e 100) - accuratezza (vicino al valore vero, difficile da controllare) 25 - completezza (no dati mancanti) - coerenza (tra dataset, tra variabili, es. stesse codifiche) formità (tra dataset, tra variabili, es. stesse scale) certi aspetti derivano: 1. dalla raccolta dati > campionamento = il processo col quale si estrae un campione dalla popolazione può essere: - proba - non proba - ul es. campione di esperti, campionamento "a valanga", "per convenienza" » archiviazione 2. dai data cleaning ponderazione missing (valori mancanti) outlier trasformazioni VWVIWVWVv CAMPIONAMENTO PROBABILISTICO campionamento casuale semplice - es. estrazione da un'urna - è quello teoricamente perfetto, raramente praticabile - -> rimane un riferimento teorico - ogni campione di numerosità n ha la stessa probabilità di essere estratto - ogni unità ha la stessa probabilità di essere estratta campionamento sistematico = selezionando ogni k-esimo individuo della popolazione + il primo individuo selezionato corrisponde a un numero casuale compreso tra 1 e k - es. ogni k unità - non richiede un frame (al contrario del semplice e stratificato) - -> è un metodo alternativo quando non è possibile reperire un elenco degli individui appartenenti alla popolazione da studiare - es: indagine ogni k=8 individui + si seleziona casualmente un numero tra 1 e 8, ad es 5 - -> nell'indagine si includerà il quinto, il tredicesimo (5+8), il 21-esimo (13+8) individuo e così via fino a raggiungere l'ampiezza campionaria desiderata campionamento stratificato: si utilizzano delle caratteristiche note della popolazione per suddividerla in strati - es. età, area - la popolazione è suddivisa in strati classificazione (es. genere, area geografica) - da ciascuno strato si estrae un campione casuale di numerosità proporzionale a quella della popolazione - è adatto quando gli strati sono omogenei al loro interno ma disomogenei tra loro (variabili di classificazione discriminanti) - consente stime a livello degli strati - vantaggio rispetto al campionamento casuale semplice: ottenere le stesse informazioni facendo un sondaggio su un numero inferiore di persone, perché gli individui all'interno di ogni sottogruppo ha caratteristiche e opinioni simili - ogni strato è rappresentato nel campione campionamento a grappoli (cluster): quando la popolazione è naturalmente divisa in gruppi - es. classi scolastiche gruppi non sovrapposti), in base ad una o più variabili di 26 - sfrutta l’esistenza di raggruppamenti naturali della popolazione es. contiguità geografica, classi scolastiche - si seleziona un campione casuale di sottogruppi della popolazione (grappoli o cluster) e tutte le unità ad esso appartenenti vengono osservate - è adatto quando i grappoli sono disomogenei al loro interno e omogenei tra loro - mira a ridurre il costo della rilevazione - es: parcheggio + ogni sottosezione del parcheggio è un grappolo - differenza: > campionamento stratificato: si divide la popolazione in due o più gruppi omogenei e successivamente si ottiene un campionamento casuale > campionamento a grappolo: si divide la popolazione in gruppi, ottenendo un campione causale semplice degli stessi e intervistando tutti gli individui che appartengono ai cluster selezionati — i 2 criteri si combinano normalmente ad es. quando bisogna campionare nei comuni: si fa una prima stratificazione (es. comuni con più di tot abitanti, e sotto tutti gli altri), poi causalmente (a grappolo) seleziono tot. comuni con più di tot. abitanti Popolazione i (CONE RARI LELE, 1 4 8 SA ni Campione (selezionato ogni 3 persone) Popolazione Popolazione Campione: di a grappolo cluster selezionati casualmente CARATTERISTICHE DI UN BUON CAMPIONE 3 caratteristiche: 1. casualità + non devo essere io che scelgo né i selezionati che si autoselezionano 2. rappresentatività > deve presentare, in proporzione, tutte le caratteristiche della popolazione in proporzione ridotta 3. numerosità + non è detto che un campione grande sia rappresentativo - numerosità piccola = intervallo di confidenza grande - numerosità alta = intervallo di confidenza piccolo - es. rosa pallini concentrata, ma lontani dal centro + campione numeroso (rosa pallini concentrata) ma non rappresentativo (fuori dal centro) + se il campione non è rappresentativo, una numerosità grande è un difetto invece che un pregio rosa pallini sparpagliati, ma vicini al centro + campione non numeroso ma rappresentativo DATA CLEANING: PONDERAZIONE se il campione non viene come volevo che fosse, posso ponderarlo = associare a ogni unità un peso per cui quel n. altera l’importanza dell'unità alla quale è attaccata - -> in modo che le unità non abbiano tutte la stessa "importanza" es. un'unità con peso = 2 è equivalente a due unità (identiche) 27 - la scala 1-20 è stata compressa e la scala dei punti blu è stata amplificata (fig.2) ®__ migliorare la distribuzione dei dati, ridurre l'asimmetria e il numero di outlier (es. radice quadrata, logaritmo) 4 3 price 4 In price 9 85 FEATURE EXTRACTION ® generazione di nuove variabili da quelle originali: trasformando le variabili si possono ottenere dati tramite analisi che non sarebbero possibili ® popolazione & superficie + densità * altezza&peso+BMI * località + coordinate geografiche * GDO: dettaglio scontrini + aggregazione per scontrino scontrini + aggregazione per cliente (carta fedeltà) cliente + frequenza di acquisto, spesa mensile, ecc. ® text analytics testi > parole IMP (1) ® ANALISI BIVARIATA+ analisi tra preferenza (asse y) e marca 100+ (asse x) - es. caso mozzarella - la preferenza è uguale in tutte le marche? devo guardare se le medie sono uguali + guardo il p-value (Porb.>F): < 0,0001 è molto piccola - -> respingo l’ipotesi nulla - -> le medie sono diverse - se il test non fosse stato significativo (es. p-value o Prob.>F = 0,2) allora le medie sono uguali (variano di poco) - -> se il test non è significativo mi fermo li, non ha senso guardare le medie - se il test è significativo (come nel nostro caso + Porb.>F = 0,0001) allora è obbligatorio andare a guardare le medie (nella tabella vedo che sono diverse, ma questo non basta): sono un po’ tutte allineate salvo Cuomo (più piccolo) e prodotti locali (considerati migliori) - nell’ANOVA si vanno a guardare le medie ® ANALISI BIVARIATA: VARIANZA (ANOVA) + tra sono care (asse y) e marca 100+ (asse x) - (DF = gradi di libertà) - DOMANDA: il test è significativo o no? sì (perché Prob>F = 0.0001 piccolissimo, quindi ANOVA significativa - -> medie diverse) - vedo che Pettinicchio e Vallelata sono percepite come più care Granarolo, Boiano, Cuomo: meno costosi i prodotti locali (considerati migliori) non vengono considerati più costosi - DOMANDA: Pettinicchio e Vallelata sono diverse? è difficile da dire, sono molto vicine e ci sono più di 400 casi in uno e nell'altro + limitiamo il test a certe righe del dataset: filtro su dati locali + sono una più cara dell'altra o no? devo guardare il p-value (prob. F): non è significativa perché il p-value > 0.05 - -> RISPOSTA: sono considerate piuttosto care entrambe e tra le due non c'è differenza ANALISI BIVARIATA: CHI QUADRATO + tra area3 e marca 100+ (variabili categoriche: ruolo righe e colonne scambiabile) - Nord: 79 + è stata citata 79 volte Granarolo - -> = numero di citazioni - % rispetto al totale + 5.16 = 79/1531 (tot) - DOMANDA: l’area influenza la marca o no? sono indipendenti o no? guardare il p-value: è significativo quindi sono dipendenti, cioè la distribuzione delle marche non è uguale in tutte le aree - nel CHI QUADRATO si riesce a capire dove si concentrano i casi o no guardando le % (di riga o colonna o entrambe): >» Granarolo: molto presente nel nord, poco in sud e centro » Pettinicchio e Vallelata: distribuite uniformemente tra nord a sud > Cuomo, Boiano; Francia molto presenti al centro e poco altrove >» prodotti loclai: molto nel sud - il grafico mi fa vedere la distruzione tra nord (rosso) centro (verde) e sud (blu): si vede quello che abbiamo elencato prima (Granarolo presente al nord, ....) ANALISI BIVARIATA: CHI QUADRATO + tra età e marca - DOMANDA: ci sono marche che piacciono ai giovani e alcune no? - grafico: le differenze tra fasce d'età sono irrisorie - p-value = 0.9912 + non significativo, non c'è nessuna relazione. sono indipendenti ANALISI MULTIVARIATA (per fare correlazione > v. numerica-numerica) - Y, colonne: “che fa prodotti di qualità” e “che offre prodotti sempre freschi” - il grafico mi dice pochissimo perché non mi chiarisce sulla correlazione - vado a vedere l'indice di correlazione: 0,78 (alto) > conferma che tra la valutazione della freschezza e qualità c'è una correlazione forte - anche la correlazione si può testare (e allineare correlazione con Anova e Chi quadrato): capiamo se l'indice che abbiamo trovato è significativamente diverso da zero + vado a vedere la probabilità di correlazione - -> dire che un coefficiente di correlazione è significativo, vuole dire che è significativamente diverso da zero; dire che un coefficiente di correlazione è # 0 significa quindi che una qualche relazione esiste (non sono del tutto indipendenti, incorrelate) - nel grafico c'è un puntino “fuori posto”: andarci sopra e vedere che ha dei decimali + è un valore mancante che è stato imputato + originariamente era mancante e poi è stato inserito dentro un valore per togliere il mancante ANALISI MULTIVARIATA + correlazione tra “fare prodotti di qualità” e “che propone offerte promozionali” - indice di correlazione = 0,1794 (bassissima) > correlazione bassissima, è >0 (quindi non è vero che più è bassa la qualità e più fanno offerte promozionali, se no sarebbe negativa) però c'è una relazione debolissima - facendo il test di probabilità di correlazione: p-value = 0,00001 - -> c'è si correlazione (anche se debolissima) - il coefficiente di correlazione è sensibile anche alla numerosità del campione, quindi con così tante ificatività, quindi, c'è citazioni bastano anche piccole differenze per dire che c'è correlazione: ecco perché questo test è significativo perché è comunque # 0 - -> conferma che non è vero che chi fa offerte promozionali è perché ha prodotti di cattiva qualità per vedere meglio il grafico MOZZARELLA PER INT. CONTROLLO DI RAPPRESENTATIVITÀ (non è da scrivere ma a posteriori lo faccio per vedere se il report è equilibrato) + devo guardare le distribuzioni di età e aree: vedo che sono distribuite uniformemente 31 ® ANALISI BIVARIATA (CHI QUARATO) + mi interessa sapere se le età sono distribuiti in parti uguali all’interno di ciascuna area + nel grafico di distribuzione non lo vedo - faccio un’ANALISI BIVARIATA (CHI QUARATO) + dal grafico vedo che le fasce d'età sono distribuite in modo uniforme d’dappertutto; vedo infatti un p-value grande ® obiettivo:tabella in cui alcuni dati diventano una riga per marca con di fianco i loro valori - cambio da variabili nominali a continue + nelle distribuzioni vedo che 1 = no e 0 = si + vedo che la media (è la % degli 1 cioè dei sì) di Abit è sì (0,044) - uso “DISPONI IN TABELLA” - nel grafico a barre che ottengo sulla % di consumo delle marche + Pettinicchio = 59% + è un dato distorto perché il fatto che siano consumatori di mozzarella e conoscitori di Pettinicchio è un filtro che crea una distorsione del campione = perché abbiamo chiesto chi conosce Pettinicchio (perché se no li avremmo esclusi), non chi è consumatore 911 e domande: - trasformazioni di variabili: quali variabili possono essere raggruppate in classi? entrambe (numerica e categorica) - quand'è che il problema dei valori mancanti è irresolubile? quando sono sistematici e quando sono troppi - che tipo di campionamento e che metodo di rilevazione usereste per somministrare un questionario a persone del movimento LGBT? 2 modi: 1. trovare una persona del movimento e cominciare a proporgli il questionario con modalità CAPI + alla fine gli chiedo di darmi altri contatti - -> a valanga CAPI 2. entrare in contatto con un sito/blog di questo movimento e chiedere la collaborazione di quelli + la somministrazione è CAWI e il modo di contattare (tipo di campionamento) è a grappolo: dentro a questo il gruppo è autoselezionato - che tipo di campionamento e che metodo di rilevazione usereste per intervistare i preadolescenti (11-12 anni) di Milano sull'uso del telefonino? prendere contatto con le scuole e conquistarsi la collaborazione con una scuola - -> CAPI stratificato (prendo alcune scuole in zone diverse) e poi a grappolo (scelgo una classe per scuola) 8. RIDUZIONE DELLA DIMENSIONALITÀ (ANALISI FATTORIALE) COSA SUCCEDE QUANDO AUMENTA IL VOLUME DEI DATI? ® La crescente disponibilità di dati genera il bisogno di sintesi + In particolare l'aumento dei dati nella matrice unità per variabili - che costituisce la base di ogni modello di analisi - può avere due effetti: 1._numerosità + aspetti computazionali - il tempo di elaborazione aumenta linearmente (tempo x2) 2._dimensionalità + complessità del problema - il tempo di elaborazione aumenta esponenzialmente (tempo?) - gli algoritmi tradizionali possono non funzionare più - ridondanza informativa e difficoltà di interpretazione — gli ultimi 2 problemi sono importanti e si analizzano in seguito RIDURRE LA DIMENSIONALITÀ: A CHE SCOPO? ® obiettivi: 1. ridurre il numero delle variabili > preprocessing dei dati per analisi successive dimensionalità + € tusosawnu 32 4 = Componenti principali/analisi fattoriale 4 Componenti principali: sulle correlazioni Percentuale Numero Autovalore Percentuale 20 40 60 80 cumulativa 1 3.2690| 46700 2 1,6222 69,874 3 0,8565 82,109 4 0,4421 \ BRA24 5 0,3615 93,589 6 0,3250 98,232 7 0,1238 100,000 3,269 + 1,622 + 0,856 + 0,442 + 0,361 + 0,325 + 0,124=7 + abbiamo il riassunto dell'operazione dell'estrazione delle componenti principali - 7 è la varianza totale della matrice originaria dei dati (p) - chiedendogli di estrarre le componenti da quella matrice di correlazione il sistema trova: una prima componente a cui corrisponde un autovalore di 3,2 (che è il massimo), ecc - la prima componente rispetto a 7 è il 46,7% - -> la prima componente spiega il 46,7% della variabile originaria - tutte insieme le variabili estratte + guardare la % cumulata: questo risultato mi sta dicendo che se io mi fermo alle prime due componenti principali queste due spiegano quasi il 70% della varianza, quindi io riduco meno di 1/3 delle variabili e spiego il 70% della varianza - se sommo tutti gli autovalori mi viene 7 - -> tutte le componenti spiegano esattamente tutta la varianza delle variabili originali 4. MATRICE DI STRUTTURA strumento per interpretare i fattori/componenti > matrice di struttura = matrice che mostra la relazione tra tutte le variabili e tutte le componenti estratte gli elementi della matrice sono i coefficienti di correlazione tra variabile e componente —> una componente è caratterizzata dalle variabili con cui ha le correlazioni più alte (in valore assoluto) — si va a vedere dove il valore 1 ha i coefficienti alti + significa che quel fattore ha lo stesso andamento di quella variabile, è molto legato ad essa: quelle variabili spiegano quel fattore 4 Diagramma dei pesi non ruotato Stime di comunanza a priori:ONE Fattore 1 Fattore 2 Age in years 0,699453 -0,453487 Vears with current employer 0,738798 -0,327863 Years at current address 0,520433. -0,498468 Household income in thousands 0,8085968 Debt to income ratio (x100) 0,341774 | 0,6806975 Credit card debtin thousands —‘0,747671 0440346 Other debt in thousands 0,795508 0,431596 - 0,699 + la correlazione tra il fattore 1 e la variabile “età in anni” è alta - fattore 1: fortemente legato a tutte le variabili con anzianità e reddito e quindi di debito - fattore 2: è legato fortemente ma quasi esclusivamente al rapporto debito-reddito - -> è una sorta di propensione all’indebitamento, a prescindere dal reddito e dall'entità del debito: “a prescindere” perché questi fattori sono ortogonali, la correlazione tra i due è 0, quindi sono indipendenti - -> un signore può avere una propensione all’indebitamente alto sia se ha un reddito alto o basso, poiché sono indipendenti - “anni all'indirizzo attuale”: ha i valori simili tra i due fattori (0,53 e -0,49) > fattore 1- segno +: aumenta più alta è l'età e più è alta l'anzianità dell'impiego, più alto l’impiego ecc > fattore 2 + segno -: cresce quando aumenta la propensione al reddito (rapporto debito-reddito), e aumenta quando gli anni allo stesso indirizzo diminuiscono difficoltà nell'interpretare questi fattori: perché questi coefficienti hanno a volte valori sull'indirizzo corrente) itermedi (es. anni 35 — l’interpretazione delle componenti che si fa sulla matrice di struttura è tanto più facile quanto più i coefficienti sono ia100 — ci si può avvicinare a questa soluzione trasformando in qualche modo le soluzioni 5. ROTAZIONE = trasformare l'orientamento degli assi in modo che nella matrice di struttura i coefficienti si avvicinino a+ 100 diagramma di pesi ruotato: soddisfa la richiesta che i coefficienti di correlazione si sono spostati verso 100 le componenti principali costituiscono un sistema di assi ortogonali a k dimensioni per favorire l'interpretazione si possono semplificare le relazioni tra componenti e variabili, modificando i coefficienti della matrice di struttura in modo da avvicinarli a +1 o a zero l'operazione si compie con una rotazione degli assi, mantenendo fissa l'origine: - non cambiano: la varianza totale spiegata, le comunalità, la posizione relativa dei punti - cambiano: i coefficienti della matrice di struttura, la varianza delle singole componenti, i punteggi fattoriali — la varianza totale spiegata non è cambiata, le varianze dei singoli fattori sì questi sono due modi diversi per interpretarli, entrambi possibili 4 Diagramma dei pesi non ruotato - all’inizio avevo un'interpretazione con un fattore | Stime di comunanza a prior:oNE x è . Fattore 1 Fattore 2 grande con dentro età-reddito-debito e un altro Ageinyears 0699453 -0,453487 . a Years with current employer 0,7738798 -0,327883 con solo propensione al debito Vears at curent address 0520433. -0,498468 - è D Household income in thousands 0,6808968 nel secondo c'è un primo fattore con MERO Seite income rato 100) 0341774. |0/808975 variabili che è legato a tutte le variabili di età e credit card debtin thousands —0747671 0440346 . . . Other debt in thousands 0795508 0,431596 redito e un secondo legato a tutto il debito > soddisfa la richiesta che i coefficienti di correlazione si sono spostati verso 100 IOIAISS RS sata x nt iolani di È . Fattore 1 Fattore 2 - i grafici sono le proposizioni di quei punti su un. Ageinyears 0826729 . , ) Years with current employer 0,782376 02. piano cartesiano + per passare da uno all’altro years at cunent address ci l’algoritmo ha ruotato gli assi in senso antiorario: —Household income in thousands 0.733439 0377362 A 20. Debt to income ratio (x100) 0235815 |0/845956 le posizioni dei punti prima e dopo non sono Credit card debtinthousands 0311307 0809942 PONPEI * A A ; si, Other debt in thousands 0,354200 0,832857 cambiati, quindi è una rotazione rigida ma fa anche capire come mai sono venute fuori quelle interpretazioni COME ESTRARRE LE COMPONENTI il numero massimo di componenti è uguale al numero 36 - sesi estraggono tutte le componenti si riproduce esattamente la varianza della matrice dei dati - con meno componenti si sintetizza maggiormente il fenomeno - con più componenti se ne spiega una percentuale maggiore dove fermarsi? dipende da noi: meno componenti estraggo più sintetizzo il fenomeno, più ne estraggo e meglio lo spiego criteri per scegliere il numero di componenti: 1. Criterio dell'importanza della componente + le componenti corrispondenti ad autovalori > 1 (default) - >1 perché è una componente il cui autovalore =1 pesa come le variabili originali - -> se la varianza della componete è >1 quella componente pesa di più delle variabili originali e quindi ha più informazioni 2. Criterio della varianza totale spiegata = le componenti necessarie perché la varianza totale spiegata raggiunga una soglia ritenuta accettabile (ma non c'è una regola generale + dipepende dal contesto e dalla qualità dei dati) 3. Criteri grafici (scree plot) + è d'aiuto perché se mostra un angolo marcato allora lì è un buon punto per fermarsi (ma è poco usato) 4. Interpretabilità del risultato + guardare che il risultato abbia senso in base agli obiettivi e dati che abbiamo es: CAMBIARE NUMERO DI COMPONENTI (IMP) - arrivare alla matrice di correlazione - il 3° fattore ha una varianza di 0,85 e sommato con gli altri spiega l'82% della varianza originaria - se invece che “numero di fattori” = 2, metto = 3 e guardo quelli ruotati + rispetto al fattore 1 che eravamo abituati a vedere noi (età anzianità e reddito insieme) l'anzianità e lo stesso indirizzo è uscita - il fattore 2 “indebitamento” (che prima era nel secondo fattore nella matrice ruotata) è uguale, invece l'1 e il 3 sono nuovi rispetto al fattore che avevamo visto ruotato prima + il fattore 1 si è spaccato in due fattori (1 e 3) separando significati: 1 è fortemente correlato con il reddito e l'anzianità sul posto di lavoro (di servizio) - -> aver fatto carriera 34 età anagrafica e da quanto tempo sta sul posto di lavoro - -> anzianità nel posto di residenza - -> quindi dal significato di ieri (età-reddito da una arte e indebitamento dall'altra) abbiamo indebitamento uguale mentre età e reddito che si sono separati + cambia l'interpretazione! 4 Diagramma dei pesi ruotato Fattore 1 Fattore 2 Fatto Age in years 0,403163 0,784 Years with current employer 0,791269 0,328 Years at current address 0,922 Household income in thousands 0,895071 1 d Debt to income ratio (x100) 0,940761 Credit card debt in thousands 0,487995 9809 Other debt in thousands 0,493962 0,7495998 Diagramma dei pesi di fattore - guardando le 3 variabili: > media=0e varianza =1 >» sono ortogonali quindi la matrice di correlazione (MULTIVARIATO) è fatta tutta di zeri (tranne la diagonale principale) quindi ogni fattore ha correlazione 0 rispetto agli altri (perché ortogonali) 6. COMUNALITA’ 37 fattori (stessa cosa per i prodotti a denominazione protetta): tanti danno un alto contributo ma questi due non ci sono nella soluzione a due (danno un contributo basso) - che significato hanno questi 2 fattori? > fattore 1: c'è in generale la buona qualità che copre in maniera poco soddisfacente i prodotti Dop, la mozzarella di bufala > fattore 2: è correlato a 3 variabili (distribuzione, offerte, pubblicità) + non c'è dentro la qualità: riguarda la strategia di marketing, propensione a essere presente nel mercato - lo provo in 3 fattori Diagramma dei pesi ruotato Specializzata nelle mozzarella di latte vaccino Specializzata nella mozzarella di Bufala Affidabile Che fa prodotti di qualità Che opera da molti anni, ha una lunga esperienza Che offre prodotti sempre freschi La cui produzione rispetta la tradizione. Conuna distribuzione nazionale Che propone offerte promozionali Che fa molta pubblicità fiamarodotti a Denominazione di Origine Protetta Fattore 1 0,7369024 0,3164090 0,836695 0,8598405 0,788670 ‘0,882292 0,793724 0,3456838 0244829 Fattore 2 0,273299 0644474 0778490 0,756798 > Fattore 3 0,17975; o76s3z0o > 0,2863809 0217795 > 0,3710063 0773117 fattore 2: è uguale a quello prima (marketing) il fattore 1 rimane grande (qualità generica e latte vaccino) ma si spacca in fattore 1 e 3 fattore 3: fattore della mozzarella di bufala e prodotti Dop, correlati tra loro + si concentrano su queste cose qui (mozzarelle di bufala Dop) - guardando la comunalità si vede che aumentando il fattore diamo spazio alle variabili che prima non si erano adeguatamente espresse - guardare anche la “varianza spiegata per ciascun fattore”! fVarianza spiegata per ciascun fattore Percentuale Fattore Varianza Percentuale cumulativa Fattore 1 43149 39,227 39,227 Fattore 2 1,7929 16,300 55,526 Fattore 3 1,6437 14,942 70.469 - 4fattori | Diagramma dei pesi ruotato Specializzata nella mozzarella di latte vaccino Specializzata nella mozzarella di Bufala Affidabile Che fa prodotti di qualità Che opera da molti anni, ha una lunga esperienza Che offre prodotti sempre freschi La cui produzione rispetta la tradizione. Con una distribuzione nazionale Che propone offerte promozionali Che fa molta pubblicità Con prodotti a Denominazione di Origine Protetta Fattore 1 Fattore2 Fattore? 0,732856 0,201156 0,298408 0,829653 0,8534929 0,2389712 0,861400 0,1443240 0,197719 0,794203 0,253784 0,88.4087 0,137999 0,793025 0,286387 0,368121 0,718208 0,229152 0,863729 0,1452368 0,244056 0,303051 0,737557 = quanto (70%) a varianza spiegata siamo già arrivati Fattore 4 0,144335 0,139719 0,9568302 0,143812 > il fattore 1rimane sempre uguale (non siamo riusciti a erodere la varianza) > fattore 3: sempre bufala Dop > il fattore 2 (marketing) si è spaccato il fattore 2 e 4: - fattore 2: “distribuzione nazione- pubblicità” + la pubblicità me la trovo dappertutto, è quindi un fatto distributivo, di notorietà, ... - fattore 4: “offerte promozionali” + al contrario della pubblicità, non sempre trovo le offerte + negli intervistati li considerano in modo diverso + indica quei business che mirano a implementare la numerosità delle vendite - — “l'obiettivo è riassumerli per fare soluzione a 2/3/4 fattori ruotati che spiega il tot% della varianza sii (lo sapremo poi), la tecnica è l’analisi fattoriale, ho scelto la dire perché farla, e poi dire “ho usato questa tecnica qui e la soluzione che adesso propongo (quella scelta) è ...” : “la soluzione ha 3 fattori ruotati Varimax che spiega il 70% della varianza” tecnica di rotazione Varimax = tecnica con obiettivo che i coefficienti di correlazione abbiano la varianza massima, cioè essere il più possibile vicini a +/-100 + esigenza di trovare un equilibrio (trade off) tra quanto spieghiamo bene il fenomeno e quanto lo sintetizziamo ® 2.SINTETIZZARE LA BATTERIA PRODOTTO - 1° fattore: ha dentro quasi metà del significato - il 2°: è molto più piccolo (è grande 1/6 del primo) - rotazione con 4 fattori Diagramma dei pesi ruotato fattore 1 Fattore? Fattore3 Fattore 4 Sono care 19416 0,218142 0,755636 Hanno un prezzo adeguato alla qualità offerta 0,572915 0,3292233 0,185004 Hanno un sapore inconfondibile 0,764276 0322734 0,19088 Sono per consumatori esigenti 0779474 0,18052 Hanno un gusto ricco e pieno 0791488 0,3199689 4 Hanno il sapore del latte fresco appena munto 0,8278671 D20669 0.14 Contengono fermenti lattici selezionati 0,6323376 0313448 0, Le trovo sempre fresche nel negozio 0524119 0,595710 Sono fatte secondo i metodi tradizionali 0715047 0370735 ( Sono senza conservanti 0.563465 0,390722 ì, Si trovano facilmente in tutti i punti vendita 0,291581 0,5899980 d Sono sostanziose, ricche di elementi nutritivi -—0,595991 0,484602 0,1699456 Sono leggere, digeribili 0463591 0626360 ( Hanno una consistenza morbida 0639316 0,512621 Non si sfilacciano quando si tagliano 0501340 0,508387 Quando sitagliano fanno la goccia di latte 0,770723 0,287708 Sono sode, compatte 0479566 0555154 Sono candide, hanno il colore del latte 0376461 0,744358 Hanno un profumo gradevole 0,533564 0,500006 Hanno una giusta dimensione/peso 0376979 0,673675 Sono adatte per il consumo a crudo, da sole —0,540476 0.609043 Sono adatte per il cansumo in cucina, a cotto 0.653458 0,299664 Hanna confezioni allegre e simpatiche 0202877 0,871954 Hanno confezioni eleganti e raffinate 0,8678542 Hanno confezioni facilmente riconoscibili s 0,326692 0,643401 0,265148 Hanno un gusto troppo intenso e forte 0,7836855 > fattore 4: mette insieme “sono care” e “hanno un gusto troppo intenso e forte” + in realtà sono due cose diverse > fattore 3: riunisce le variabili sul packaging > fattore 2: consistenza, aspetto > fattore 1: qualità - rotazione con 6 fattori > due fattori “sono care” e “hanno un gusto troppo intenso e forte” si dividono 16-11 9. ANALISI PREDITTIVA (MODELLI DI REGRESSIONE) ®* domandealle quali vogliamo rispondere: 1. esistono dei predittori di una certa variabile? se sì, quali sono i migliori? 41 es. analisi delle spinte al consumo, customer satisfaction 2. si possono fare previsioni su una certa variabile? es. previsione delle vendite, prevenzione del churn MODELLI DI REGRESSIONE obiettivo tecnico: analizzare e misurare la relazione tra una o più variabili esplicative e una variabile risposta > immagino che certi predittori (attributi della mozzarella) siano in relazione con la preferenza (v. risposta) variabili esplicative, indipendenti, predittori: sinonimi variabili risposta, dipendente: sinonimi l'idea è che le variabili esplicative (indipendenti) spieghino la variabile risposta (dipendente), ovvero che tramite le variabili esplicative si possa approssimare il valore della variabile risposta Ci sono diversi modelli di regressione, che dipendono: - daltipo di relazione funzionale tra predittori e risposta - es. lineare, non lineare - dalle caratteristiche della variabile risposta es. numerica, binaria, categorica, ordinale — il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione che le lega è lineare es. noi ci immaginiamo tra x e y ci sia una relazione lineare (grafico azzurro), nel grafico rosso non c'è linearità, neanche nel grafico grigio (si rappresenterebbe con una parabola, che non è lineare) ‘ . 1. ‘ % . «i 0% . + è * * +0 x ". . REGRESSIONE LINEARE SEMPLICE modello in cui c'è un x e una y la relazione tra y (risposta) e x (esplicativa) è del tipo: |y = a + b + a prescindere da a, y è proporzionale a x: il loro rapporto è costante (y/x = b) - -> rapporto di proporzionalità (salvo una costante, a) per ogni punto c'è una componente di errore e; (residuo, + è lo scarto dei punti rispetto alla retta il problema di fare una regressione lineare è di stimare i coefficienti a e b, in modo tale che i residui siano minimi - ->il calcolo della regressione lineare consiste nella stima dei parametri a e b per i quali i residui siano più piccoli possibile (metodo dei minimi quadrati) - b = coefficiente di regressione =a+bxi+d; - a= costante es. JMP HOLLYWOOD - metto 1 variabile esplicativa - la relazione funzionale di 1° grado che ho trovato è: | box office = 23,163 + 12,669 - promotion 42 Media box office | 85,24 production | -— 874 promotion 49 book sales | 9.92 4 Stime dei parametri Termine Stima Errore std Rapporto T_Prob>|t|[ Beta std Intercetta 7,676028 6,760224 1,14. 0,2995 0 production 3,6616044 1,117751 3,28 0,016 0421076 promotion 7,6210501 1,657316 4,60 0#037°|0,559436 book sales 0,8284682 0,539359 1,54 ),1754 |0,126856 l'impatto di production è 3/4 di quello di promotion 2) COLLINEARITÀ earità) i loro contributi sono in parte sovrapposti e i * sei predittori sono correlati tra loro (cioè se c'è col singoli effetti sono non additir * la presenza di predittori correlati è tollerabile entro certi limiti, oltre i quali i coefficienti di regressione diventano instabi * predittori con statistiche di collinearità inaccettabili (es. VIF > 5) andrebbero eliminati dall'analisi (uno alla volta) 4 Stime dei parametri Termine Stima Errore std Rapporto T_ Prob>|t| Mie] - accettabili le variabili quando VIF < 5 Intercetta | 7.676028 6760224 1.14. 02995 ii opiti ) ; 14 0; > production 3,6616044 1,117751 328. 00169" | 29849423] | elÎminabili quando VIF > 5 promotion 7,6210501 1657316 460 0,0037°| 26739196 book sales. 0,8284682 0,539359 154 0,1754 | 1,2322267 * RIASSUNTO: - obiettivo: studiare la relazione che lega certe variabili esplicative e la variabile risposta - abbiamo ipotizzato che sono numeriche, che è una relazione lineare - la bontà della regressione (cioè del risultato, dell’'approssimazione) si misura con R° spiegata dalla regressione - coefficienti di regressione aumento della variabile risposta per un aumento unitario del predittore, tenendo fermi tutti gli altri > questo può essere problematico, perché se le variabili sono correlate tra loro c'è un problema % di varianza di y SIGNIFICATIVITÀ DEI RISULTATI * la significatività dei risultati della regressione si può calcolare quando sono verificate delle assunzioni probabilistiche (condizioni): 1. indipendenza delle osservazioni controesempio: autocorrelazione nelle serie storiche, intervistati collegati tra loro 2. omoschedasticità: gli errori devono avere varianza costante consumi in funzione del reddito gli errori devono avere distribuzione normale ® sipossonofare2tipiditest: 1. significatività dell'approssimazione globale 2. significatività dei coefficienti di regressione 1. SIGNIFICATIVITÀ DELL'APPROSSIMAZIONE GLOBALE * la bontà dell'approssimazione complessiva si verifica confrontando il modello trovato con quello costituito dalla sola costante (Hv: b; = b; =bx=0) 45 il test è I'ANOVA, la statistica test è F + testa l'ipotesi che nessuno dei coefficienti sia diverso da 0, cioè che nessuno dei predittori abbia il minimo effetto sulla variabile risposta perché il modello sia accettabile bisogna che il p-value sia piccolo (es. p < 0,05) + cioè c'è almeno un predittore che fa qualcosa 4 ®)Risposta box office 4 Analisi della varianza Somma dei —Me Origine —DF quadrati quadratica| Rapporto F Modello 3 9932,463 3310,82 58,2207 Errore 6 341,201 56,57| Prob>F C. totale 9 10273,664 <,0001* 331082 _ 537, 56,87 2. SIGNIFICATIVITÀ DEI COEFFICIENTI DI REGRESSIONE la significatività dei singoli coefficienti si testa confrontando il valore di ogni bj con zero (Ho: bi = 0) mediante la statistica t ci dà un p-value per ogni coefficiente + questo testa che quel singolo parametro sia diverso da 0 4 Risposta box office 4 Stime dei parametri Termine Stima Errore std Rapporto T Prob>|t| Intercetta 7,676028 6,760224 1,14. 0,2995 production 3,6616044 1,117751 3,28 0,0169* promotion 7,6210501 1,657316 460 0,0037* book sales 0,8284682 0,539359 1,54 0,1754 predittori significativamente diversi da zero: c'è una relazione significativa con box office perché un coefficiente sia significativo bisogna che il p-value sia piccolo (es. p < 0,05) + cioè che quel parametro qualcosa serve alla stima dell’approssimazione della variabile risposta - -> RIASSUNTO - la prima cosa da vedere: ANOVA + condizione necessaria per guardare il resto: deve essere significativa - guardare R° + la mia regressione ha senso: quanto? vado a vedere R? - si vanno a vedere i coefficienti + per i singoli predittori si vanno a vedere i coefficienti di regressione 1. ordine di grandezza + se sono diversi (bisogna trasformare le variabili) bisogna guardare i beta standard 2. collinearità + vado ai coefficienti di regressione e devo vedere se: > sono significativi » il VIF è accettabile PREVISIONI altro aspetto della regressione: l'uso dei risultati di regressione per fare previsioni la precisione della stima degrada (peggiora) quanto più ci si allontana dai valori centrali delle x - > attorno ai valori centrali della x non ho problemi, riesco a fare una stima possibile con i coefficienti di regressione si può stimare il valore della y in corrispondenza di nuovi valori x", x2', 2.3 Xp dei predittori: y ‘= bo+ bix1' + b2x2°+ +-+ bpXp” l'errore standard della stima è una misura dell'errore medio della stima e permette di calcolare un intervallo di confidenza della previsione 46 es. intervallo di confidenza medio al 95%: y ‘+2 * 7,5 (-->+ 15) 4 Risposta box office . 4 Riepilogo della stima 4 R-quadro 0,966789 . R-guadro corretto 0959183 Scarto quadratico mei 541005] Media della risposta 85,24 2. Osservazioni (0 somme pesate) 10 bisogna diffidare stime fuori dal range rispetto al quale è stata fatta la regressione (cioè uscire da quella nube di punti della figura) + non so cosa succede fuori da quell’intervallo DATI E NUMEROSITÀ DEL CAMPIONE tutte le variabili devono essere numeriche + in particolare la variabile risposta invece è possibile usare variabili esplicative binarie (dummy) e così si possono analizzare anche predittori categorici es. genere, marca eseguire la regressione su fattori (invece che sulle variabili originarie) minimizza i problemi di valori mancanti e outlier ed elimina la collinearità + perché sono ortogonali e non correlati numerosità del campione N da 10 a 20 volte il numero di variabili k (min 100) > regola meno stringente: N = 50 + 8k REGRESSIONE LOGISTICA ci sono altri modelli di regressione che non sono lineari Quando la variabile risposta è binaria (es. successo/insuccesso, presenza/assenza) la regressione lineare non si può usare + si deve usare la regressione logistica gli obiettivi sono quelli di tutti i modelli di regressione: - analisi delle relazioni tra variabili esplicative e risposta - classificazione nei gruppi identificati dalla variabile risposta es. prevenzione del churn 1.00: . 1.00 0.75: 0.754. rd 0.50 0.50 0.28. 0.25. 0.00 re o_o 0.00: - 1= default 0 = churn es: - obiettivo: verificare se e con quali variabili è possibile predire le insolvenze (default) - il risultato della regressione è una probabilità di default es. con un predittore 47 - “soddisfazione complessiva”: variabile risposta + faccio la regressione con i predittori overall - in ambito di decisione lo si legge da dx a sx ESEMPIO 2: FORMAGGIO A FETTE (assomiglia al questionario mozzarella) variabili: 1. le aree di interesse non sono note a priori 2. esiste una batteria di valutazioni di dettaglio 3. esiste una valutazione overall della soddisfazione globale Il modello può essere stimato con una - pro: flessibile + genero fattori ortogonali - contro: discrezionalità nella scelta dei fattori i fattori non sono nella scala delle variabili originali ANALISI FATTORIALE intensità del gusto retrogusto gusto di latte i | GUSTO REGRESSIONE cremosità Ù di colore \ aspetto —+ ASPETTO consistenza VALUTAZIONE facilità di sraccare le fette GLOBALE sanza romperie facilità di staccare le fette ——# SPACCHETTAMENTO / sanza apolccicarsi le dita / atimento sano Ti ——+ SANO NATURALE alimento naturale IMP (3) JMP MOZZARELLA REGRESSIONE + preferenza (Y) rispetto agli attributi del prodotto - analisi della varianza (ANOVA) + p-value <0,001 + si può proseguire - R-quadro: deludente/basso rispetto ai parametri che ci siamo dati + stiamo lavorando con dati molto sporchi, per cui risultati di questo genere sono normali - stime dei parametri + c'è un buon numero di coefficienti significativi (evidenziati in giallo), alcuni positivi e altri negativi 1. “sono care”: negativo + più sono care meno mi piace - -> all'aumentare del voto “sono care” diminuisce la preferenza 2. prezzo adeguato + significativo, positivo: più penso che il prezzo sia giustificato dalla qualità più mi piace 3. per consumatori esigenti e hanno un gusto ricco e pieno + hanno un valore grande: le mozzarelle che hanno valori più alti a questi 2 item hanno anche in media preferenza più alte 4. sempre fresche + positivo: più le trovo fresche e più la preferenza è alta 5. importante quanto l'adeguatezza del prezzo + positivo 6. senza conservanti + negativo: è controintuitivo (non me lo spiego) 50 7. adatte per il consumo a cucina o a cotto + negativo: se quello che mi interessa è solo comprare una mozzarella da mettere su qualcosa allora non vado a cercare quella più costosa, e quindi se il mio interesse e solo quello per cucinare allora quelle che preferisco non le scelgo + ho fatto il lavoro dell’interpretazione: guardo il segno e poi il valore - mi devo preoccupare anche delle eventuali correlazioni tra questi predittori: tasto dx - VIF : mi dice se c'è un problema di collinearità di predittori, se cresce oltre il 5 mi devo preoccupare + vediamo che c'è un predittore (adeguato alla qualità offerta) con un VIF alto (quindi molto correlato con altre cose: sapore inconfondibile, consumatori esigenti) - devo ripulire il modello per arrivare a uno più parsimonioso possibile: i predittori non buoni introducono solo errore/casualità + ci sono tanti predittori che farebbe scendere il R2 corretto + dovrei togliere una a una quelle con un VIF alto o meno significative: magari ne tolgo una e i coefficienti e i VIF si risistemano (però non posso farlo perché andando ad analizzare ogni marca vedo che magari un predittore in generale non è significativo ma per quella singola marca sì È questo strumento è interessante per cominciare a rispondere la domanda rispetto alla concorrenza di Pettinicchio + questi sono i risultati medi tra i predittori e la preferenza di tutto il mercato (tutte le marche insieme): devo analizzare questa cosa marca per marca situazione di tutti i produttori + rappresento tutti i dati trovati con la regressione rispetto alla situazione globale in modo più chiaro + GRAFICO su Excel clic dx-copia tabella (mi serve solo il termine e la stima, tolgo anche l’intercetta) - selezioni tutta la tabella e inserisco un grafico orizzontale = con questa voglio confrontare le situazioni dei singoli produttori + voglio vedere se quello che è importante in generale lo è anche per i singoli produttori: devo fare questa regressione marca per marca: sto iniziando a esplorare la concorrenza - FILTRO SUI DATI LOCALI: andare a vedere i valori significativi per ogni marca es. Pettinicchio + ha un plus nel “hanno confezioni facilmente riconoscibili” (in generale invece non era significativo) la significatività dipende anche dalla numerosità del campione - -> cuomo, francia, prod. locali hanno pochi casi (quindi poche significatività) - -> si può vedere anche cosa sono i coeff. positivi e negativi per ogni marca e capire le differenze: così però è scomodo perché ce ne sono tante e per lo più non sono significative - -> ho troppe variabili e perché una gran parte di esse sono caratterizzati da coeff. non significativi e infine ci sono delle correlazioni tra questi predittori: non posso eliminare però uno a uno il predittori (per le ragioni scritte qui È -> analisi fattoriale e poi regressione (es. 2 Customer Satisfaction) - fare la FATTORIALE (rotazione con 8 fattori) + salvo le componenti ruotate - -> ho riassunti tutti gli attributi del prodotto in 8 fattori (tutti media 0 e varianza 1, tutti ortogonali) - ANALISI DI CUSTOMER SATISFACTION (regressione) + preferenza (Y) e componenti ruotati » analisi della varianza: va bene > R-quadro: vagamente quello di prima + cioè mettendo insieme le cose non ho perso molto > stima dei parametri + guardo il VIF: è per tutti = 1 (minimo) = quanto ogni variabile fornisce di suo alla regressione (essendo ortogonali ogni variabile fornisce il 100% della sua relazione) - vediamo che nel complesso 3 dei fattori non sono significativi, invece ad es. le confezioni sono elementi a favore - di elementi negativi non ce n'è: quelli negativi non sono significativi 4 Stime dei parametri Termine Stima Errore std RapportoT Prob>|t] VIE Intercetta 5,5 0,0342394 160,66 <0001" Fattore] 0,8478841 0,03424 2476 0001" 1 Fattore? 0,4381164 0,0342448 12,79 0001" 1 confezioni 0,0885548 0,0342448 2,59 0,0098" 1 Fattore 0,4292297 0,03424 42,53 <0001* 1 FattoreS 0,0499294 0,03424 146 0,1450 1 prezzo alto 0,0379352 0,0342448 1,11 0,2681 1 per cucinare -0,02001 | 0,034248 -0,56 0,559 1 51 gusto troppo intenso. -0,053287 0,034244 -1,56 0,1199 1 - guardando per ogni marca (FILTRO SU DATI LOCALI) - facendo l'operazione di sintetizzare gli item sul prodotto in fattori, io ho ottenuto una diminuzione dei fattori (li ho ridotti a 1/3): anche dove prima non erano sufficienti i casi per fare la regressione (es. Cuomo) invece con 8 predittori va bene (cioè un minimo di 80) - -> altro vantaggio - es. Pettinicchio diventa importante in negativo in “gusto troppo forte e intenso” - es. le confezioni che in generale contano positivamente, non contano per Granarolo, Vallelata, Boiano, Cuomo, Francia, mentre contano per Pettinicchio e molto per i produttori locali - i confronti vanno fatti all'interno dello stesso prodotto + es. prodotti locali + dire: il più importante è il fattore 1, gli altri un po’ meno alti, e in subordine anche questo > nel caso in cui ci fosse un valore di 0,0508 (differisce per poco]: quindi inserirlo nella significatività !! - fare 4 GRAFICI diversi per ogni marca + devo poi tenere tutti i grafici nello stesso ordine: mettere per prima Pettinicchio (es.) e poi gli altri nello stesso ordine (es. discendente) 10. BRAND MAPPING a che tipo di domande di marketing vogliamo rispondere (anche per il report): - qualè il mio posizionamento rispetto ai concorrenti? + interpretazione grafica! - qualè la percezione che i consumatori/gli utenti hanno del mio brand/del mio prodotto relativamente ai concorrenti? - quali sono i miei punti di forza e di debolezza? mapping = rappresentazione grafica di brand (o alti oggetti) in uno spazio (mappa) che metta in evidenza le similarità in modo semplificato e intuitivo - si tratta di individuare due dimensioni rispetto alle quali collocare gli oggetti - gli oggetti si dispongono tanto più vicini quanto più sono simili (relativamente alle dimensioni individuate) - lo scopo del mapping è descrittivo ed esplorativo — l'idea è quella di tradurre la somiglianza dei brand in vicinanza dei punti esempi (slide 6) DIMENSIONI DELLA MAPPA: VARIABILI NOTE La soluzione più semplice è usare come assi due variabili note relative agli oggetti (possibilmente poco correlate) prezzo soddisfazione fi nu tO importanza le due variabili che scelgo devono essere il meno possibile correlate es: - qualità e prezzo sono molto correlate tra loro (R-quadro alto) e quindi i brand si distribuiscono sulla - diagonale principale (il fenomeno è unidimensionale) molto utile i fattori economico-costoso e Moderno-classico: sono indipendenti uno dall'altro - -> la mappa si riempie tutta e non è implicito come prima scelta di coppia di variabili: importanza-soddisfazione + vengono fuori informazioni importanti es: 52 - filtro su dati locali (es.): Granarolo, Pettinicchio, Vallelata + guardare per tutti i fattori quali sono significativi e quali no: quello no (aspetti nutrizionali, adatta a cucinare) li elimino, le confezioni sono al limite, delle altre scelgo quelle che voglio (es. sono care, gusto) + copio le tabelle Livello Numero sono care gusto Granarolo 109 -02781 -031251 Pattinicchio 454 0,29951 0,16084 Vallelata 427 0,25317 -0,18157 + creo il mapping — si potrebbero proiettare altre cose (es. area geografica - -> altri 3 punti che rappresentino nord-centro- sud) - in DISPONI IN TABELLA: trascino l’area 3 sotto alla tabella marca 100+ + sono le coordiante con cui posso proiettarle sulla mappa [ gus seno care! marca 100+ | Media Medi Granarolo 0,312508854| -0,278095294 Pettinicchio 0,1608447657| 0,2995115223 Vallelata |_-0.181570595| 02531706636 area 3 [ Nord 0,053050611| 0,1555182779 Centra 0,173091049| 0,1775281009| Sud», -0,235563666 | 0,3332361574 - -> qualunque variabile nominale io abbia in JMP può essere usata come criterio di aggregazione per creare la coordinata e usarla sulla mappa - posso aggiungere anche “consumatori pettinicchio” 2 OI Ù n - ce gusto |sono care [Granarolo -0,31251) -0,2781 mai sud Pertinicchic 0,160845| 0,299512 *. ù Pettinicohio \vallolata - «0,13157| 0,253171 Ve llelita ‘a . nord -0,05305) 0,155518 ord i Centro [Centra 0173091) 0.127528 È ° . ‘Sud -0,23556| 0,333236 in passato si 0,062979) 0,2195557 E ° @ marca in passato 0,064559| 0,0589081 G mai -0,3231| 0,3491648 È SABER: Li ® consumo fari com n | Sranerolo dI gusto - sì e in passato + vicine a Pettinicchio mai + è dalla parte opposta - non è però del tutto chiara 2. SCALING MULTIDIMENSIONALE (MDS) si parte da una matrice di distanze tra le unità le distanze/prossimità possono essere: - misure oggettive - soggettive: «quanto simili sono la marca A e la marca B?» - calcolate a partire dalla matrice dei dati 55 il significato delle dimensioni della mappa è definito implicitamente dalla posizione delle unità scopo: proiettare i punti sulla mappa in modo da rispettare il più possibile le distanze, almeno l’ordinamento delle distanze (cioè l'ordine di grandezza che vediamo sulla matrice di distanza) + quello che si definisce sono le posizioni dei punti, mentre l'interpretazione degli assi si fa dopo (al contrario dell'analisi fattoriale) cercare di rispettare almeno l'ordinamento delle distanze 0 54 56 81 33 48 0111 51 89 0123 29 0109 o da Google Maps * es pa ErN ET Austria 0 139 174 Francia 139 "0 222 Germania 174 2220 Grecia 278 401 265 talia 1,96 331 224 landa 046 1,38 2,13 UK 1,12 24 233 Spagna 355 484 329 Svizzera 13 247 26 F NL A CH UK I GR E 39 80120 82 70 ie 88103 145 136 79172 ta 35 85106 27 53 67 83 89 74186161 89152 55 38 B7 80 57 0120 30 45 37149 84 0 153 148 144 211200 O 17 38138 57 0 51115 52 0165 84 0125 o GR I NL UK E 2,78 1,96 046 1,12 3,55 401 3,31 138 24 484 265 2,24 2,13 233 3,29 0 0,89 301 2,26 LIL 089 0 2,15 152 187 301 2,15 0 1,29 385 226 152 129 0 285 1,11 187 385 285 0 246 159 11 124 337 BE | o | distanze calcolate . ‘Sondrio x - quella sotto è la mappa della Mantova . BreociifiN Lombardia Leccnergamo = * I ; x o ja rotazione della mappa è sempre como, ibi DI E ue possibile Ve» - le distanze rappresentano distanze tra e punti che di fatto sono già misurate nel piano + la superficie della Lombardia è sono un piano Lecco e © Son Bergamo Milaho uscente: * Lodi - Pva è Mantova . Cremona * - sono distanze calcolate a partire dal dataset > abbiamo immaginato che tutti i paesi siano punti nello spazio tridimensionale dove gli assi sono le 3 variabili (istruzione, sanità, pensione) - -> posso misurare con lo spazio tridimensionale con precisione la distanza - è una distanza spaziale, non ci aspettiamo che rappresenti la loro posizione 3. ANALISI DELLE CORRISPONDENZE categoriche - > partire dalla tabella a doppia entrata delle variabili Nord (consumo) | no Boiano 138 Francia 135 Granarolo — 119 Pettinicchio 71 Vallelata 68 prodlocali | 127 si 20 Centro Sud no sì no 87 60 14 90 57 135 131 16 140 3710 77 65 82 115 126 2 28 a 8 14 9 n 34 iI lavora su dati diversi da quelli sui quali lavorano le altre tecniche + perché è una tecnica per l'analisi delle relazioni tra due o più varia scopo: proiettare sulla mappa come dei punti le righe e le colonne della tabella a doppia entrata 56 consumo marche top Boiano prod locali s° i centro Pettinicchio s° Francia", di sud Vallelata Dim 2 (20.1%) nord Granarolo Dim 1 (29.6%) (i “no” sono stati tolti) generare una mappa nella quale gli assi (come l’analisi fattoriale) sono determinati dalla posizione dei punti e ha il vantaggio che proietta allo stesso modo tutte le variabili coinvolte in questa mappa ci si ritrova alla perfezione (nell'analisi fattoriale non ci ritrovavamo bene) RIASSUNTO differenze: - analisi fattoriale: » parte da variabili numeriche del dataset originale » poi fa subito la correlazione - -> le variabili proiettate sono gli oggetti della matrice di correlazione - MDS » parte da una matrice di distanza (non il dataset originale e la matrice di correlazione) - analisi delle corrispondenze » parte da variabili categoriche » parte da una variabile diversa perché la matrice è una tavola a doppia entrata delle variabili il mapping è comodo perché si riesce a visualizzare facilmente un risultato superando tutti gli ostacoli tecnici ci sono diverse tecniche + quella che usiamo è l’analisi fattoriale che richiede di partire dal dataset originale — se ho il dataset originale posso poi generarmi gli altri due tipi di analisi se invece si parte da matrici di distanze o variabili categoriche allora si deve per forza fare rispettivamente il MDS e analisi delle corrispondenze MOZZARELLA 8 FATTORI QUADRANT ANALYSIS degli attributi delle marche di mozzarella rimanendo a livello riassuntivo dei fattori - sono valutazioni interpretati come soddisfazioni (asse y) - il problema è che non abbiamo l’asse orizzontale 57 1. d(x,y)=0 (non negatività) 2. dx,y)=0©x=y (identità) 3. d(x,y) = d(9,%) (simmetria) 4. d(x,y) < d(x,z) + d(z,y) (disuguaglianza triangolare) — sono le proprietà abituali della distanza nella geometria euclidea 3% condizione + nella vita reale non è sempre così: es. quando si sale per la montagna, la distanza non la misuro in m sul terreno ma con un criterio di costo (es. tempo, fatica, soldi) e mi accordo che in una direzione la distanza è una e nell'altra è un'altra (es. salire e scendere da una montagna: la fatica è diversa) 4” condizione + neanche questa sempre vera DISTANZE PIÙ COMUNI diversi tipi di distanze, che danno ordinamenti diversi: dy= [eun di Dura dy= Yes) è il teorema di Pitagora è lo spostamento totale | (1) può violare in p dimensioni quando ci si muove solo la disuguaglianza parallelamente agli ossi. triangolare ra la più usata: distanza euclidea distanza city block (o distanza del taxi o di Manhattan): immagina che il grafico che rappresenta le coordinate dei punti siano immersi da dei blocchi che portano a fare una strada parallelamente agli assi > assomiglia a quella che usiamo noi (noi non misuriamo in linea d’aria ma in base alle strade) distanza euclidea al quadrato: non è una distanza in senso proprio perché può violare la disuguaglianza triangolare - se la misura è la distanza euclidea al quadrato la via più breve è quella che passa per il lato 2° INDICI DI SIMILARITÀ (PER VARIABILI BINARIE quando le variabili sono binarie le unità u e v sono rappresentate da zeri e 1: 1= sì, presenza Mer ::101001001101 0= no, assenza ME 0 1110000101000 i valori possono essere riassunti in una tavola di frequenza: 14 NIVAREEONECA ME: 5 ca+d a =co-presenze Eq: d \c+d d =co-assenze [CI c+-c b+d b,c= presenze in una sola unità INDICI DI SIMILARITA’ PRINCIPALI — in questo caso sono definite delle distanze diverse che sono pii comode a too arbacrd Jaccard es. corrello della spesa a a+b+c Simple matching coefficient a+d es. rappresentantie (Sokal-Michener) a+b+c+d votazioni + tutti valori compresi tra zero (minima similarità) e 1 (massima) quindi, nel caso delle variabili binarie si possono definire degli indici di similarità, che sono molto vari e si adattano molto in alcuni casi NUMERO DEI POSSIBILI RAGGRUPPAMENTI i modi di raggruppare n unità in g gruppi sono circa g T n g! che diventa rapidamente un numero molto grande es. N 20,5- 7,9 € 1011 800 miliardi — bisogna usare delle strategie (algoritmi) senza esplorare tutte le possibilità 1. metodi gerarchici (2. metodi non gerarchici 3. altri metodi 1. METODI GERARCHICI AGGLOMERATIVI ALGORITMO 1. si parte dalla soluzione con n cluster di una sola unità (es. sotto: 3 cluster) 2. si aggregano i due cluster più vicini (al primo passo: le due unità 9’ DI ________, più vicine) sonni cm 3. si procede iterativamente aggregando i due cluster più vicini: ad FSE ogni passo il numero dei cluster diminuisce di 1 4. l'ultima soluzione è un unico cluster con tutte le unità l’ultimo livello e i primi sono poco interessanti, invece le soluzioni medio-alte (verso dx) sono utili e interessanti CRITERI DI AGGREGAZIONE come si calcola la distanza tra gruppi di punti? - tra i due punti più vicini C 5g - tra i due punti più lontani *, °° - media delle distanze a coppie . - tra i centroidi ez, - metodo di Ward: aggrega i gruppi che generano il minimo aumento della varianza interna ai gruppi be ° - mette insieme i cluster più simili, quelli tali che quando li n metto insieme la variabile del cluster risultante è la minore possibile i A es. CLUSTERIZZAZIONE JMP UE (tra istruzione, sanità, pensione) - se tolgo “standardizza i dati” ottengo questo: Grecia, Italia, UK, Spagna: sono nello stesso cluster e sono quelli con una spesa sulla pensione basa Austria, Olanda, Germania, Svizzera, Francia: spesa sulla pensione alta — la cluster ha fatto il raggruppamento sono in funzione delle pensioni, senza guardare istruzione e sanità - devo standardizzare i dati (“standardizza dati”) per far sì che tutte diano un contributo 61 ©) Clusterizzazione gerarchica Metodo = Ward 4Dendrogramma Austria ° ‘Olanda UK “Svizzera Gre Germania L_ o - cronologia di clusterizzazione + è la visualizzazione per esteso, con delle distanze che mi servono per avere idea di quali sono i primi, quali dopo leader = quello che dà il nome al cluster (es. Austria = Austria più Olanda) DENDOGRAMMA ®. ilgrafico prima è un dendogramma ® la lunghezza dei rami rappresenta la distanza tra i due cluster uniti a ogni passo + la distanza dipende dal metodo ® un "salto" nella sequenza delle distanze suggerisce di scegliere la soluzione prima del salto INTERPRETAZIONE DEI CLUSTER PER METODI GERARCHICI * quando le unità sono in numero ridotto e sono interpretabili individualmente (es. prodotti) l'interpretazione dei cluster è definita implicitamente dalle unità che li compongono 4 > Clusterizzazione gerarchica Metodo = Werd Cluster paese 4 Dendrogramma 1 Austria 2 Francia 2 Germania 3. Grecia 3 italia 1 3 1 1 Olanda Spagna UK Svizzera *__Criterio fondamentale (valido per tutti i metodi) - esaminare i centri dei cluster, cioè le medie delle variabili all'interno di ogni cluster (*) - l'ideale è ottenere medie molto diverse su tutte le variabili ® riepilogo deicluster 4 » Clusterizzazione gerarchica Metodo = Ward ArRiepilogo duster + va sulle variabili originali e dice in ogni cluster quanto 4 Medie dei clustai valgono le variabili (andando a vedere le medie *) ustor o istruzione sanita ponsioni . coi : nio neo via es. cluster 3 (Italiam Spagna, Grecia): istruzione (il più basso), 2 2 5o000 Asooc 2990 PIENA jani fil miù E ina sanità (il più basso), pensioni (il più basso) D Deviazioni standard dei cluster T Cluster istruzione sonia pension Medie dai cluster 62 algoritmo K-means 1. si fissa il numero di cluster (e si ottiene solo quello) 2. si scelgono i centri dei cluster, anche casuali 3. si associa ogni unità al centro al quale è più vicina 4. si ricalcola la posizione dei centri 5. si ripetono i passi 3 e 4 fino a quando i centri si stabilizzano @ . * ® a ® e a ® “© a ° © @ . « ‘ « Le Le Le . e . . e ° . . ° . . rer-k-medie passo 4 centri final - y coP88822.truzione, Ba582 3. ensioni - indichiamo quanti cluster fare (es. 3) - numerosità dei cluster (conteggio) + 2-2-5: nel 5 è successo qualcosa, quasi sicuramente un paese si è spostato dal 3 al 4 - interpretazione dei cluster: si guardano le medie = dicono qual è la media della variabile es. di istruzione all'interno del cluster 1, cluster 2,3 — il cluster 1 è il più basso per tutte e 3 le variabili: - diagrammi a coordinate parallele: ci interessa il 4° grafico sulle medie dei cluster, in cui vediamo effettivamente che: il cluster 1 è il più basso per tutte le variabili il cluster 2 è il più alto per sanità e pensioni e medio per istruzione il cluster 3 è il più alto per istruzione e medio per sanità e pensioni 3 4 = N cluster k medi Colonne scalate individualmente dati amis paese | Ward kemeans 7 Riepilogo cluster standardizzati Austria 1 3 Cluster. Conteggio Passo Criterio Franc z 2 7 5 = 5 Germania 2 2 È 3 Grecia 3 1 5 i talia 3 3 Olanda 1 3 4 Medie dei cluster Spagna Si a Cluster istruzione sanita’ pensioni în î 5 1 43 595 2255 sis ; 5 2 5 85 299 3 538 7 27488 istruzione sanita pensioni Medi dei duster - differenze con la clusterizzazione Ward: » dal punto di vista interpretativo vengono fuori gli stessi cluster: uno basso su tutte, uno alto su welfare e più basso sull'istruzione, uno più alto sull'istruzione e medio in sanità » ma dal punto di vista della composizione dei cluster (cioè le disposizioni dei paesi nei cluster) c'è una differenza: - Greca e Spagna sono nel cluster 1 - -> Italia è nel cluster 3 - Francia e Germania in cluster 2: lo stesso - il cluster 3 ha in più l’Italia + questo è il paese che ha cambiato cluster quando voglio confrontare due soluzioni, es. Ward e k-means: + relazione tra 2 variabili CATEGORICHE 65 4 © Tabella di contingenza k-means (Conteggio[î 2 E Totale I 0 0 4 4 se o 2 0) 2 3 2 0 1 3 Totale 2| 2 S| 9 - il cluster 2 di Ward è fatto da due elementi che sono gli stessi di k-means: si corrispondono alla perfezione - il cluster Ward 1 era fatto di 4 che sono tutti nel cluster 3 di k-means: quindi i 4 che finivano insieme nel cluster 1 di Ward finiscono ancora insieme nel cluster 3 di k-means, più 1 (l’Italia, che abbiamo visto prima) - il cluster 3 di Ward si divide in cluster 1 e 3 (L'italia) di k-means ® -->cosa mi fa vedere che due clusterizzazioni sono uguali oppure no? il fatto che c'è una sola cella piena per riga e per colonna + perfetta corrispondenza (come nel caso del cluster 1 di Ward), STABILITÀ DEI CLUSTER E CROSS-VALIDATION * la cluster analysis individua cluster anche su dati casuali ® mapoiché l'obiettivo è di identificare cluster utili a fini pratici si richiede che essi siano stabili > la stabilità si può valutare con la cross-validation incrociando soluzioni generate in condizioni diverse es. metodi diversi o numero di cluster diversi ® le soluzioni sono tanto più simili quanto più i casi si concentrano in poche celle: l'ideale è una sola cella per riga e per colonna (detto prima) 4 = Analisi di contingenza di k-means per Ward 4 = Tabella di contingenza unità classificate negli stessi cluster con i due metodi k-means Conteggio [î 2 pi 9 5 3 Totale unità classificata in cluster diversi NUMEROSITÀ DEI CLUSTER ®__non è necessario che i cluster abbiano numerosità simili, ma: - devono avere almeno una numerosità utile - cluster molto piccoli (poche unità) indicano possibili outlier - un unico cluster molto grande indica spesso un cattivo raggruppamento, con un cluster medio poco caratterizzato, attorno al quale si collocano cluster marginali ANOVA E IMPORTANZA DELLE VARIABILI 1. ANOVA CON VARIABILI ATTIVE ® es. ANOVAsulle3 variabili attive, cioè usate per generare i cluster, rispetto a Ward e K-means - istruzione + la differenza delle medie nell'istruzione è significativamente per Ward e non per k-means 4 Analisi della varianza 4 Analisi della varianza Somma dei —Media Somma dei _—Media Origine DF. quadrati quadratica RapportoF Prob>F Origine DE quadrati quadratica RapportoF. Prob> F Ward 2 19280556 0,964028 6,19180,0348" k-means 2 1,6742222 0.837I11 42278 00715 - sanità: significative entrambe - pensioni: significative entrambe — sono per lo più significative: le variabili che noi abbiamo usato per generare i cluster, io mi aspetto che siano sempre significativamente diverse tra cluster (li abbiamo generati apposta in modo da discriminare le variabili): l'eccezione è quando non è significativo - infatti l’ANOVA sulle variabili usate per generare i cluster non si può usare come test della significatività, perchè i cluster non sono indipendenti dalle variabili (perché sono stati generati dalle variabili, quindi per forza poi le variabili sono significativamente diverse) 66 ma fare un'analisi della varianza sulle variabili usate per generare i cluster (attive) può servire per stabilire quali sono le variabili che maggiormente discrimino i cluster e quali discriminano meno: cioè l’ANOVA serve per generare una gerarchia delle variabili, quelle più importanti e quelle meno — riguardando allora i dati (concentriamoci su quelli di Ward): - istruzione significativo e prob. = 0,03 - pensione: 0,03 - sanità ha una significatività di 0,003 + il più significativo: mostra, nel discriminare i cluster, una significatività più alta, cioè sanità è la variabile che maggiormente discrimina i cluster Ward, diversi tra loro soprattutto per sanità quando ci sono tante variabili, non si guarda la probabilità (spesso uguale a 0), ma conviene guardare F (e si guarda chi ce l’ha più alto) 2. ANOVA E VARIABILI ESTERNE es. ANOVA sulle 2 variabili esterne PIL procapite e popolazione, rispetto a Ward - qui posso usare l’ANOVA, perché qui i gruppi sono indipendenti dalle variabili (al contrario di prima, che avevo generato i gruppi con quelle variabili) - ANOVA rispetto alla popolazione per cluster = significa chiedersi se esistono dei cluster di paesi grandi e dei cluster di paesi piccoli, cioè se c'è un modo di caratterizzare i cluster in base alla popolazione, se si può usare questa variabile per caratterizzare i cluster — in questo es. la risposta è NO: non sono significativamente diversi (p = 0,14) - ANOVA rispetto al PIL procapite = chiedersi se ci sono cluster di paesi ricchi e dei cluster di paesi poveri — la risposta è QUASI (p = 0,051), è quasi significativo, quindi c'è una forte indicazione che in questi 3 cluster si può identificare i cluster in base alla ricchezza - -> I’ANOVA applicata a variabili esterne vale come test di significatività e quando è significativo dà indicazioni molto forti per caratterizzare i cluster, perché questi li avevo generati con un altro criterio e rispetto a questa variabile qui sono significativamente diversi RIASSUNTO L'ANOVA rispetto ai cluster si può eseguire su qualunque variabile 1. variabili utilizzate per l'analisi (attive) - permette di valutare l'importanza delle varia! maggiore importanza) -. non si può interpretare come test della significatività delle differenze tra cluster 2. variabili esterne (illustrative, non utilizzate per l'analisi) - sipuò interpretare come test e può fornire informazioni utili per caratterizzare i cluster Ci sssses5s too 555 E 0035 DI ED 85 sè 18,331 0,003 23,6 27,9. 6,699 0,030 CINTEZIORÀ 35,4 53,3 | 5,046] il test sulle variabili attive è sempre significativo, Isanita è la variabile che più discrimina i cluster li nel definire i cluster (maggiore significatività (F) > differenze al limite della Significatività per Pl |__/ procapite, [ non per popolazione 67 - allora usiamo EXCEL esportando i dati (guardiamo il cluster 5) copiando anche la numerosità dei cluster (conteggio): uso “scale di colori” in cui si evidenziano i valori più alti e più bassi in modo graduato (tabella sotto) tipologia 1: mozzarelle di bell'aspetto, relativamente buone, ma basse per cucinare + da consumare a crudo tipologia 5: complessivamente mediocri tipologia 2: vanno bene per cucinare, ma care tipologia 3: mozzarelle eccellenti e sane (e il gusto non è eccessivo) tipologia 4: buone. ma con gusto eccessivo in luazione delle vari: che discriminano di più i cluster + ANOVA sulle variabili: dare un ordine alle variabili in modo da identificare quali maggiormente discriminano i cluster (Y:8 fattori X: cluster 4-5) - tutte le ANOVA sono tutte significative (< 0,05), quindi guardare la probabilità non ci aiuterebbe + si guarda F - se guardo la soluzione a 5: la più importante è il gusto eccessivo, cioè è la variabile che discrimina fra i gruppi delle mozzarelle buone - -> le mozzarelle buone, che vano benne un po’ su tutto, sono fortemente distinte per questa cosa, cioè hanno il gusto un po’ forte (mozzarelle di bufala forse) è la più importante anche nella soluzione a 4 - poi è seguito da aspetto e per cucinare, quindi quelli che discriminano queste nicchie - seguono gli altri meno importanti + vediamo che “sono care” discriminano poco: ci sono differenze ma sono modeste se l’ANOVA la applichiamo a variabili esterne sappiamo che l'assunzione può essere di grande interesse, perché non è detto che i cluster identificano medie diverse + la possiamo fare sulla preferenza, per vedere se queste sono significativamente diverse e se supportano l’interpretazione che abbiamo ipotizzato finora (Y: preferenza X: cluster 5 (abbandoniamo per comodità il cluster 4)) - le preferenze sono significativamente diverse (p < 0,001) + allora guardo le medie e le copio in EXCEL: eccellenti e sane hanno la preferenza più alta seguite da buone ma gusto un po’ forte e da consumare a crudo nettamente staccate: buone per cucinare ma care poco sotto: complessivamente mediocri Cluster © gusto aspetto — confezioni reperibilità nutrizionalisono care. per cucinargusto ecce:Conteggio Preferenza 1 a,14 Mosa Dil -0,47 2078 -0,03 Masa 0,26 13 5,8 da consumare a crudo | 55 043 -0,33fMMMiGsE coso oso 0,39 -027 167 4,8 buone per cucinare {ma care) | 0,48 0,36 0,08 0,00 0,31 +0,29. 0,32 0,76 538 6,1 eccellenti è sone 011 0,15 0,34 0,15 0,16 0,17 0,15 MI 508 5,7 buone ma gusto un po' forte -0,20, 21,26 -0,26 -0,50 -o,21 -0,07 -0,09 20,12 357 4,6 brutte, complessivamente mediocri F 201 362 30 85 53 33 334. ATA © Cluster gusto aspetto confezioni reperibilità nutrizionalisono care per cucinargusto ecce: Conteggio 0,38 0,27 0,01 0,16 0,23. 0,41 20,85 517 ‘eccellenti e sone -0,35 -0,34 -031 -0,35 -0,03 001 -0,15 368 brutte, complessivamente mediocri -0,18| 0,64 0,08 0,03 0,08) -0,30 225 da consumare a crudo. 0,05 0,25 0,22 DI7 0,10 0,19 0,261 577 buone ma gusto un po' forte F A6 Ag mr 18 22 17 422 737 altre caratterizzazioni: sapere se i cluster sono particolarmente presenti in certe aree o no, sapere se certe marche sono dentro a certi cluster o no, vogliamo sapere se i cluster hanno una distribuzione uniforme tra le aree o no + test CHI-QUADRATO tra area e cluster (Y: area 3 X: cluster 5) + dal grafico a mosaico vediamo che: - le 2 sono più presenti al nord, 4 e 5 poco - centro: particolarmente presente nel cluster 5 70 - sud: quasi assente in 1 e 2, invece particolarmente presente nel 4 SEGMENTAZIONE dei prodotti rispetto alle marche vogliamo fare la stessa cosa per le marche 100+ con la clusterizzazione con 5 cluster + ci sono troppi dati - tengo le % di colonna: mi dicono all'interno di ogni cluster qual è la % di uno marca - voglio vedere se la % della marca all’interno dei cluster è diversa + uso EXCEL Granarolo è particolarmente rappresentato nel cluster 2 e relativamente sottorappresentato nel cluster 5 - cluster 1: presenza relativamente alta di Pettinicchio, Boaino, Francia, invece no prodoti locali - cluster 2: più Granarolo e Vallelata, no Pettinicchio, Boaino, Francia, prodotti locali - cluster 3: prodotti locali - cluster 4: prodotti locali e poco Cuomo - cluster 5 (centro): Boiano, Cuomo e Francia -— dovremmo sapere in quali celle ci sono significativamente più casi, se ci sono differenze significative: su EXCEL faccio a mano questo test formare per vedere le concentrazioni significativamente basse o alte dentro le celle, che si accompagna al chi-quadrato e dà lo stesso significato di guardare le medie quando l’ANOVA è significativo - copio la tabella di contingenza inserendo la frequenza teorica, il valore previsto (frequenza teorica) e la deviazione (la differenza tra le due) + la posto in EXCEL - al posto del conteggio devo mettere la seguente formula: residuo standard = deviazione/radice quadrata della f. teorica | + così facendo ho fatto diventare quel residuo una variabile standard (perché la deviazione così è difficile da valutare): posso valutare se il valore è tanto grande o piccoli confrontando con una variabile standard quindi: valori < -2 = piccoli valori > 2 = grandi manca:1004 Calla i 1 3 a — . . . . Granarolo Res std -039 a6d 106-085 - cluster 1: è selezionato dall'assenza dei prodotti locali cranaroto Previsto 802 9680 3474 3396 22,50 in modo significativo Granarolo Deviazione -L2 11,32 6,26 496 -11,50 . ) . . . PettinicchicRes std 1,24 -194 102-021 -049 cluster 2: selezionato dall'assenza ei prodotti locali, MA. pattinicehicprevisto 3381 4033 14471 14145 9371 anche in positivo da Granarolo e Vallelata PettinicchirDeviazione 719 -1233 12,29 2,45 . . . Vallelata - Resstd 1,32 as Liz 0,00 0,62 cluster 3: si prodotti locali, no Cuomo Vallelato - Previste 3179 3793 19610 13304 cluster 4: ci sono significativamente i prodotti locali Vallelato - Deviazione «179 16,07 2010 "9,04 . : : oa sx Boiano Recsid 080-097 -0,69 40 cluster 5: non ci sono prodotti locali, c'è Cuomo, non c'è gsiino Previste 1042 1244 4462 4362 Granarolo Boiano — Deviazione 2,56 «344-462 -2,62 ; . ; NE Cuomo Resstd 0,72 113-827 -186 - ci sono alcuni valori che sono al limite della esomo Frevisto 197 950 3411 3334 significatività Cuomo Deviazione 203 350-191 -1134 Francia Ressid 0172-048127 622 Francia | Previsto 10,65 1270 45,58 4455 francia Deviazione 236 -L70 -AS6 1,95 prod locali Res std 366 488 261 prod locali Previsto 11,24 13,41 48,13 47,05 pred locali Deviazione -11,24 -1341 3387 1995 71
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved