Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

DISPENSE DATA ANALYSIS, Sintesi del corso di Statistica

Tutte le slides del corso di Data Analysis di Della Beffa della magistrale in Marketing, consumi e comunicazione

Tipologia: Sintesi del corso

2021/2022

Caricato il 16/01/2023

beatrice-lattanzio-3
beatrice-lattanzio-3 🇮🇹

4 documenti

Anteprima parziale del testo

Scarica DISPENSE DATA ANALYSIS e più Sintesi del corso in PDF di Statistica solo su Docsity! DATA ANALYSIS dati -> 24, 23, 24, 22, 26 tabella di frequenza (distribuzione di frequenza) -> x n 22 1 23 1 24 2 26 1 questa tabella ci dà tutta l’informazione dei miei dati, ma non ho un’idea chiara di ciò di cui sto parlando. Essendo poco maneggevole, bisogna sintetizzare il gruppo di dati. I metodi più usati per farlo sono le MISURE DI TENDENZA CENTRALE: - la MEDIA = (X1+X2+...Xx)/n oppure ΣXi/n (nel nostro esempio è 23,8) - la MODA = il valore a cui corrisponde la frequenza più alta (nel nostro esempio è 24) - esistono le distribuzioni BIMODALI - la MEDIANA = quel punto della distribuzione, tale che rispetto a quel valore il 50% dei dati sia minore e l’altro 50% sia maggiore (nel nostro esempio è 24) - quando i valori in mezzo sono pari, per scoprire la mediana si fa la media tra i due La media si può scrivere: μ -> popolazione -> campione𝑥 La media è sensibile a ogni singolo dato. Al contrario, la mediana è robusta lezione di ripasso Le misure di dispersione -> esprimono la variabilità dei dati, ossia la tendenza delle singole osservazioni di una distribuzione di allontanarsi dalla tendenza centrale (la media) - se la distanza dei valori dalla media è poca -> scarti bassi - se la distanza dei valori dalla media è tanta -> scarti alti Per sintetizzare gli scarti si utilizza la più importante misura di dispersione, ossia la VARIANZA -> (xi - μ) 2 Un’altra misura di dispersione molto utilizzata è la deviazione standard (o scarto quadratico medio) -> √(xi - μ) 2 lezione La classificazione dei software per data science 1. per ambito di applicazione 2. per politica commerciale (freeware -> software distribuito gratuitamente e senza bisogno di licenza d'uso, es. antivirus e shareware -> software limitato, es. limitazioni di tempo) 3. tipo di utilizzo/facilità d’uso Tutte le analisi si basano su matrici di dati unità per variabili - n righe -> unità statistiche (casi, osservazioni) - k colonne -> variabili (attributi, feature) Ogni variabile viene interpretata come una dimensione, mentre ogni unità viene interpretata come un punto nello spazio a k dimensioni I dati possono essere: - numerici (quantitativi) -> rappresentano informazioni intrinsecamente numeriche si può eseguire ogni tipo di calcolo - categorici (qualitativi) -> non si possono eseguire operazione aritmetiche si possono calcolare frequenze e percentuali a. nominali (es. marca) b. ordinali: categorie ordinate, ma distanze non uguali es. scale di Likert (per niente, poco, così così, abbastanza, molto) I dati binari (dicotomici) sono dati nominali, quindi categorici, ma si possono usare come numerici in molte analisi (quindi fare tutte le operazioni limitate ai dati numerici, es. la media) -> un dato categorico con k categorie si può trasformare in k dati binari Nel primo caso posso scegliere solo un dato, nel secondo caso posso scegliere più dati (il dato categorico si trasforma in più dati numerici) - variabile discreta -> distribuzione discreta -> la probabilità è concentrata nei punti - variabile continua -> distribuzione continua -> la probabilità è l’area sottostante alla curva se lancio di un dato, la probabilità che mi esca un valore presente sul dato è ⅙ cosa succede se lancio due dati? esempio: la somma dei valori del dado rosso e del dado blu Caso reale delle distribuzioni discrete: il call center modello teorico - successo -> prendere la linea/trovare la persona - tentativi ripetuti - i tentativi sono indipendenti (i tentativi nuovi non sono influenzati da quelli vecchi) - la probabilità è la stessa a ogni tentativo eventi, distribuzioni, probabilità - probabilità di prendere la linea/trovare la persona con un tentativo solo - probabilità di chiamare n volte per prendere la linea, cioè di riuscire la prima volta al tentativo n-esimo - probabilità di trovare k persone in n tentativi - probabilità di dover fare n tentativi per trovare k persone La distribuzione continua si presenta come una curva, e la probabilità delle variabili consiste nell’area sotto la curva - l’area sotto la curva tra a e b rappresenta la probabilità che X sia compresa tra a e b -> : 𝑷𝒓𝒐𝒃(𝒂 ≤ 𝑿 ≤ 𝒃) - l’area totale sotto la curva è uguale a 1 - la probabilità in un singolo punto è uguale a 0 La distribuzione normale, o gaussiana, è una distribuzione continua definita per −∞ < 𝑥 < +∞ e caratterizzata da due parametri μ e σ: sono la media e la varianza della distribuzione Le proprietà della curva della distribuzione normale: - simmetrica, forma a campana - probabilità alte vicino al centro, tendenti a zero nelle code - media = moda = mediana La conoscenza di una distribuzione teorica permette di rispondere a domande come: 1. qual è la probabilità di valori tra a e b? 2. qual è la probabilità di valori maggiori (o minori) di a? Nei problemi applicativi si cerca di ricondurre la distribuzione campionaria osservata a una distribuzione teorica nota Esempio di applicazione della normale Supponiamo di sapere che il numero di clienti al giorno in un punto vendita ha una distribuzione approssimativamente normale con 𝜇 = 750 e 𝜎 = 100 𝑐𝑙𝑖𝑒𝑛𝑡𝑖/𝑔𝑖𝑜𝑟𝑛𝑜 ~ 𝑁 (750; 100²) - qual è la probabilità che in un giorno ci siano più di 700 clienti? - qual è la probabilità che in una 𝑁 (750; 100²) sia 𝑥 > 700? ➡ Prob 𝑥 > 700 = 1 − Prob 𝑥 < 700 = 1 − 0,3085 = 0,6915 La distribuzione normale standard: 𝑵(𝟎; 𝟏) Se 𝜇 = 0 e 𝜎 = 1, la distribuzione è una normale standard -> qualunque variabile casuale normale 𝑥~𝑁 (𝜇; 𝜎²) può essere convertita in una variabile standard 𝑧~𝑁(0; 1) mediante l'operazione di standardizzazione: la funzione del numeratore è far cadere la media sullo 0 la funzione del denominatore è far diventare la varianza 1 Alcuni valori convenzionali: 68%, 95% e 99% analisi univariata -> una variabile alla volta statistiche descrittive: frequenze, media, varianza… analisi bivariata -> studia la relazione tra due variabili: numerica/numerica, numerica/categorica, categorica/categorica analisi multivariata -> k variabili alla volta modelli statistici, machine learning… Per relazioni bivariate tra dati numerici, si intende l’andamento relativo di una variabile rispetto all’altra - concordanza: a valori elevati di una variabile corrispondono perlopiù valori elevati dell'altra - discordanza: a valori elevati di una variabile corrispondono perlopiù valori bassi dell'altra La covarianza è un indice che permette di verificare la relazione lineare tra due variabili statistiche -> variabili x e y con media μx e μy e deviazione standard σx e σy covarianza minima: Cov(X,Y) = 0 nessuna relazione covarianza massima: |Cov(X,Y)| = σX σY relazione perfetta, punti allineati La covarianza dipende dall’ordine di grandezza delle variabili, ossia dal loro valore; per eliminare questa dipendenza la si può normalizzare attraverso questa formula: Gli istogrammi mostrano la distribuzione di frequenza di una variabile numerica I grafici a barre rappresentano frequenze o altri indici (es. la media) di variabili categoriche e sono tipicamente decrescenti I grafici a torta e ad anello mostrano la distribuzione di una variabile categorica ( Σ = 100%). Il limite dei grafici a torta è che non mostrano chiaramente le relazioni tra le parti. Da evitare sono le versioni 3D dei grafici 2D (problemi di prospettiva) Nei grafici a linea nell’asse verticale c’è sempre la variabile numerica, mentre nell’asse orizzontale c’è una variabile numerica o ordinale (di solito date) I grafici a dispersione e a bolle rappresentano due variabili numeriche in un piano cartesiano, e le bolle aggiungono una terza dimensione Terza dimensione bolle -> PIL pro capite - più la bolla è grande, più è alto il —-------PIL - più la bolla è piccola, più è basso —--------il PIL Il colore delle bolle può aggiungere una quarta dimensione Best practice: KISS - keep it short and simple - adattare il grafico all’audience - mostrare i valori, usare etichette, titoli e legenda - evitare livelli di precisione inutili - per confrontare grafici usare scale e basi di dati coerenti - evitare distorsioni e forzature dei dati La data visualization: - grafici multipli simultanei, combinati in una dashboard - interattività: modifiche ai grafici facili, rapide e reversibili - grafici collegati tra loro: le operazioni fatte su uno si riflettono su tutti “Una visualizzazione di dati deve essere bella solo se la bellezza può favorire la comprensione” - Should Data Visualizations Be Beautiful?, S. Few, 2012 “ Se i numeri sono noiosi allora avete quelli sbagliati. Il presupposto etico per operare nell’information design dovrebbe essere che i nostri lettori sono svegli e interessati; possono avere da fare, essere ansiosi di passare oltre, ma non sono stupidi” - Envisioning Information, E. Tufte, 2022 La statistica inferenziale opera su campioni di una popolazione e il suo obiettivo è estendere alla popolazione i risultati ottenuti sul campione Lo scopo delle stime campionarie è calcolare un parametro della popolazione (es. media, percentuale, indici vari…), e quella che si ottiene dal campione (statistica campionaria) è una stima del parametro -> la stima varia da campione a campione, è a sua volta una variabile casuale. In tutti i casi di interesse pratico, la distribuzione teorica della statistica campionaria (distribuzione campionaria) è nota, ed è la base della statistica inferenziale La statistica ha un modo caratteristico di fornire le sue stime: - la stima puntuale è il valore della statistica campionaria - la stima intervallare (intervallo di confidenza) è la stima puntuale ampliata con l’errore campionario esempio stima puntuale = 34 errore = 3.5 intervallo di confidenza (stima intervallare) = (34-3.5; 34+3.5) -> (30.5; 37.5) Conoscere la distribuzione campionaria serve a calcolare l’errore La distribuzione della media campionaria (per una popolazione con media 𝜇 e varianza 𝜎²) è una normale con media 𝜇 e𝑥 varianza 𝜎²/n anche se la popolazione non è normale (per n abbastanza grande) intervallo di confidenza della media popolazione con media (incognita) 𝜇 e varianza 𝜎² = stima campionaria (puntuale) di 𝜇𝑥 l’intervallo di confidenza di 𝜇 al livello di confidenza del 95% è: l’ampiezza dell’intervallo di confidenza della media dipende 1. dalla distribuzione campionaria: 𝑁 (𝜇; 𝜎²/𝑛) 2. dal livello di confidenza scelta: 95% -> 1,96 3. dalla numerosità del campione: n Il livello di confidenza rappresenta la percentuale di intervalli (al variare dei campioni) che contengono il valore “vero” χ² è la statistica campionaria per testare l'indipendenza tra due variabili 𝐻0: χ² = 0 (variabili indipendenti) χ² ha una distribuzione chi-quadrato con un parametro che dipende dalla dimensione della tabella (parametro unico: gradi di libertà = (n righe -1) · (n colonne ‒ 1)) Il test consiste nel verificare se il valore di χ² è abbastanza grande per essere calcolato il p-value è probabilità di ottenere valori ≥ χ² (l’area a destra del p-value ) - p-value "grande" (es. 𝑝 > 0,05) → test non significativo: si accetta 𝐻0: le due variabili sono indipendenti - p-value "piccolo" (es. 𝑝 < 0,05) → test significativo: si rifiuta 𝐻0: tra le variabili c'è una relazione di dipendenza (ho scoperto qualcosa da approfondire) Il test chi-quadrato non fa nessuna ipotesi sulla distribuzione delle variabili (è un test non parametrico). Per applicare il test basta che il campione sia abbastanza grande (nessuna frequenza teorica minore di 1, meno del 20% minori di 5) Analisi della varianza - dierenza in media L'analisi della varianza (ANOVA) è un test per verificare la significatività delle dierenze tra due o più medie ed è un’analisi robusta (non è molto sensibile ai valori dei suoi elementi) - variabile categorica (es. marca) che identifica i gruppi variabile indipendente, fattore, X - variabile numerica (preferenza) di cui si confrontano le medie variabile dipendente, risposta, Y Le ipotesi: l'ANOVA verifica se almeno due medie sono diverse, non dice quali medie sono diverse 𝐻0: 𝜇1= 𝜇2 = … = 𝜇𝑘 (tutte le medie sono uguali) 𝐻1: almeno due medie sono diverse tra loro ipotesi probabilistiche: - le osservazioni devono essere indipendenti (casualità) - la variabile numerica deve avere una distribuzione normale e varianza uguale in tutti i gruppi La statistica campionaria test per l'ANOVA si chiama 𝐹 e ha una distribuzione 𝐹 con due parametri (gradi di libertà) 𝐹 ≈ 1 → medie uguali (accettare 𝐻0) 𝐹 ≫ 1 → medie diverse (rifiutare 𝐻0) rapporto 𝐹 = 10,2850 -> 10 (?) Il p-value è la probabilità di ottenere valori ≥ 𝐹 : - p-value "piccolo" (es. 𝑝 < 0,05) → test significativo: ci sono dierenze statisticamente significative tra le medie - p-value "grande" (es. 𝑝 > 0,05) → test non significativo: le dierenza tra le medie si possono considerare casuali Nella variabile numerica ci sono due fonti di variabilità: - tra i centri dei gruppi (▲): devianza tra gruppi (between) - all’interno dei gruppi (●): devianza entro i gruppi (within) ! la varianza nella prima distribuzione è più piccola rispetto la varianza nella seconda distribuzione ! Nel primo caso sono molto sicura che le medie sono diverse, perché la varianza è così piccola che l’oscillazione che proviene dalla casualità del campione, è praticamente nulla Nel secondo caso non sono più così sicura perché la varianza, e quindi l’oscillazione data dalla casualità del campione, è maggiore ANALISI FATTORIALE L’analisi è una tecnica multivariata che nasce dalla grande disponibilità di dati e quindi dal conseguente bisogno di sintetizzarli 1. numerosità (più righe) -> aspetti computazionali: il tempo di elaborazione aumenta linearmente 2. dimensionalità -> complessità del problema: il tempo di elaborazione aumenta più che linearmente, gli algoritmi tradizionali possono non funzionare più, ridondanza informativa e dicoltà di interpretazione i motivi per cui si decide di ridurre la dimensionalità sono due: - ridurre il numero delle variabili (aspetto prevalentemente tecnico)-> preprocessing dei dati per analisi successive - riducendo la dimensionalità si riesce ad individuare strutture nelle relazioni tra le variabili -> sintesi di valutazioni espresse da intervistati, sintesi di dati secondari, generazione di KPI Per ridurre il numero delle variabili si può: generare nuove variabili da aggiungere a quelle originali nella matrice dei dati allo scopo di sostituirle nelle analisi Individuare strutture nelle relazioni tra le variabili Le sette variabili in realtà si possono raggruppare in due gruppi fondamentali (evidenziati in rosa nella tabella): età e debito (abbiamo scoperta una relazione che prima era nascosta nel nostro dataset) Esistono due tecniche diverse per la riduzione della dimensionalità: - analisi fattoriale - analisi delle componenti principali (PCA) dieriscono per obiettivo prevalente, ipotesi, dettagli tecnici; ma danno in genere risultati simili metodo delle componenti principali 0. selezione delle variabili 1. calcolo della matrice di correlazione 2. estrazione delle componenti principali 3. rotazione (opzionale) 4. interpretazione (opzionale) 5. generazione dei punteggi (opzionale) matrici dei dati: p variabili xi e n unità ipotizziamo di lavorare su variabili xi standardizzate le relazioni tra le p variabili sono riassunte dalla matrice di correlazione (per creare gruppi di variabili che hanno lo stesso senso) Lo scopo è individuare k componenti 𝑦𝑗 , con k < p (minori delle variabili originali), costruite come somme ponderate delle variabili 𝑥i pongo due condizioni: 1. la prima componente ha la forma di somma ponderata: 2. i pesi 𝑎𝑖 sono calcolati in modo che la varianza di 𝑦1 sia massima possibile (per raccogliere il maggior numero di informazioni) Queste condizioni si traducono in un'equazione le cui soluzioni sono gli autovalori λ (la varianza della nuova componente) della matrice di correlazione - la prima componente è identificata dall'autovalore maggiore 𝜆1 - 𝜆1 rappresenta la varianza della prima componente Per la seconda componente principale si procede allo stesso modo, aggiungendo il vincolo che le due componenti devono essere ortogonali (= non correlate) - la seconda componente è identificata dal secondo autovalore λ2 - λ2 rappresenta la varianza (residua) della seconda componente in modo analogo si possono estrarre in successione k componenti (𝑘 ≤ 𝑝) tutte ortogonali tra di loro e in ordine decrescente di importanza Quanta informazione contengono le componenti? Quanto pesano le nuove variabili? Il peso assoluto di ogni variabile è il suo autovalore, ma devo trasformare il peso assoluto in peso relativo in base alla varianza totale per avere senso La percentuale della varianza totale spiegata da una componente è il rapporto tra la sua varianza 𝜆𝑖 e la varianza totale dei dati: La percentuale della varianza spiegata complessivamente dalle k componenti estratte è la somma delle percentuali delle k componenti: varianza spiegata: esempio JMP analizza -> metodi di analisi multivariata -> multivariato -> componenti principali sulle correlazioni (sempre) L’interpretazione delle componenti si basa sulla matrice di struttura che rappresenta la relazione tra variabili e componenti. Gli elementi della matrice sono i coecienti di correlazione tra variabile e componente. Ogni componente è caratterizzata dalle variabili con cui ha le correlazioni più alte (in valore assoluto), in quanto significa che è più vicina al valore originale 3. criteri grafici (scree plot) 4. Interpretabilità del risultato Dopo aver scelto la soluzione si possono generare i punteggi fattoriali (coi pesi di ciascuna componente: 𝑎𝑗, 𝑏𝑗…) Le nuove variabili: - sono non correlate tra loro (ortogonali) - hanno media 0 e varianza 1 I punteggi non sono espressi nella scala delle variabili originali Dati ● l’analisi richiede variabili numeriche (ma l’uso di scale di Likert è comune) ● le variabili dovrebbero appartenere alla stessa area semantica e non ci dovrebbero essere variabili overall ● le variabili devono presentare correlazioni non nulle (si può verificare con il test di Bartlett, deve essere p < 0,05) ● l'analisi è influenzata da outlier e missing ● numerosità del campione: 10 casi per ogni variabile (min 100) ● le nuove variabili non sono identificate univocamente come se fossero osservate direttamente: c'è sempre un margine di discrezionalità che deve essere controllato dal ricercatore es. quante componenti? rotazione? ● non esistono test globali soddisfacenti per valutare la bontà del risultato esempio domanda esame: cosa identificano i valori dentro la matrice di struttura? -> I numeri all’interno della matrice sono i coecienti di correlazione tra la variabile e il fattore Laboratorio Data Analysis CRM -> customer relation management: è quella parte dell’azienda che si occupa di rendere forti e consolidare le relazioni con i clienti. Quest’attività è molto importante in quanto la fidelizzazione del cliente attiva un loop di azioni che parte da una maggiore frequenza di acquisto, fino ad arrivare al passaparola positivo. Per le persone che lavorano nel CRM l’attenzione è posta su: - riduzione dei costi di gestione dei clienti - massimizzazione della soddisfazione della clientela Andremo a vedere quali dati sono importanti da analizzare per quanto riguarda il CRM. Trattasi di dati secondari. Disponiamo di 2 due dataset: - parco.jmp: estratto dal datawarehouse (DWH) aziendale. Rappresenta una fotografia del parco clienti alla data 30/xx/yyyy - claim.jmp: estratto dal sistema gestione CRM e rielaborazione. Sintetizza i clienti che hanno contattato l’azienda per lamentele (per tipologia di lamentela) alla data 30/xx/yyyy Un claim si verifica quando un cliente si lamenta. Esiste quindi un disallineamento tra le aspettative del cliente e ciò che l'azienda ore in termini di servizi e prodotti call outbound: l’azienda chiama il cliente call inbound: il cliente chiama l'azienda Il 14% dei costi sono chiamate di claim fatte da clienti insoddisfatti. Quindi l’8,6% dei clienti che si lamenta genera il 14% dei costi di gestione pari a circa 700k euro Analisi preliminari dei dati: conoscere com'è fatto il parco clienti 1) Che tipo di dati disponiamo? Cosa significano? quali variabili sono categoriche e quali numeriche? 2) Come sono fatte le distribuzioni? Come sono distribuiti geograficamente i clienti? Jmp -> analizza -> distribuzione -> DES_AREA_GEO 3) Che anzianità contrattuale hanno? Jmp -> analizza -> distribuzione -> ANZIANIT_CONTRATTO 4) Quanto sono soddisfatti complessivamente? Jmp -> analizza -> distribuzione -> CSI (customer satisfaction indicator) 5) Qual è il valore medio di contratto? Con che variabilità? Qual è il valore di contratto che si verifica maggiormente? 6) Quanti film mediamente vengono acquistati in 12 mesi? Jmp -> analizza -> distribuzione -> NUM_ACQ_12M 7) Quanto hanno bisogno di assistenza? (quante chiamate inbound ricevo) Jmp -> analizza -> distribuzione -> NUM_CONT_PHONE_INBOUND_30D metà dei miei clienti non mi chiama (il valore è 0 zero dal 75%) 0,5% dei clienti hanno fatto 78 chiamate in un mese 8) Quanto sono sollecitati dall’azienda? Jmp -> analizza -> distribuzione -> NUM_CONT_PHONE_OUTBOUND_30D contatto solo il 10% dei miei clienti da 1 volta a 8 volte al mese è importante la deviazione standard perchè crea un range della tua distribuzione a seconda della media (range di confidenza) variabile dicotomica 0 = chi non si lamenta 1 = chi si lamenta bisogna creare una nuova variabile -> colonne -> nuova colonna Data cleaning - obiettivo generale: disporre del dataset più completo e strutturato possibile in modo da poterlo sfruttare a fini inferenziali e di modellistica statistica 1) Quanti missing? Per quali variabili? Si possono sostituire? Per che variabili e come? ● NUM_GIORNI_SCOPERTO;DES_AREA_GEO;DES_MOD_PAGvsDES_MOD_PAG_INIZIALE;NUM_RICH_DWG_12MESI;NUM_R ICH_UPG_12MESI; NUM_ATTIV_DWG_12MESI; ● NUM_ATTIV_UPG_12MESI 2) Ci sono outlier? Per quali variabili? Si possono sostituire? Per che variabili e come? ● NUM_GIORNI_SCOPERTO; VAL_CONTRATTO 3) Ci sono variabili che vale la pena ristrutturare? ● VAL_CONTRATTO per ridurre assimentria, e/o creare classi ; QQ plot à normale da Distribuzione\stima continua \stima normale ● Stato_Cliente trasformare in variabili «dummy» ● Creazione delle variabili «cambio metodo di pagamento» Analisi predittiva - modelli di regressione 1. customer satisfaction problema: - orientare investimenti e/o comunicazione sugli aspetti di un prodotto/servizio ritenuti più importanti dai clienti obiettivo tecnico: - capire cosa influenza di più il gradimento (e cosa no) dati (survey su consumatori/utenti) - valutazione overall del prodotto/servizio - opinioni, comportamenti, socio demo 2. assicurazione sanitaria problema: - una compagnia di assicurazione vuole pubblicare online un algoritmo per stimare la spesa sanitaria annuale delle persone allo scopo di definire il premio assicurativo obiettivo tecnico: - stimare la spesa sanitaria di clienti potenziali sulla base di dati individuali facili da ottenere dati (clienti attuali) - info socio demografiche e "sanitarie" (es. genere, età, figli, bmi, fumatore, attività fisica) - la spesa sanitaria nell'anno precedente Sono due domande diverse di marketing ● esistono dei predittori di una certa variabile? se sì, quali sono i migliori? (es. analisi delle spinte al consumo, customer satisfaction) ● si possono fare previsioni su una certa variabile? (es. previsione delle vendite, prevenzione del churn) Gli strumenti dell’analisi predittiva sono i modelli di regressione L’obiettivo dei modelli di regressione è analizzare la relazione tra una o più variabili esplicative (predittori, variabili indipendenti) e una variabile risposta (variabile dipendente). L’idea è che tramite le var esplicative si possa approssimare la variabile risposta, ovvero che le var esplicative "spieghino" la var risposta. In sostanza si cerca una formula che leghi esplicative e risposta Esistono diversi modelli di regressione, che dipendono: - dal tipo di relazione tra predittori e risposta (es. lineare, non lineare) - dalle caratteristiche delle variabile risposta (es. numerica, binaria) Il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione che le lega è lineare (es. retta, piano) La regressione lineare semplice la relazione lineare che lega la risposta y e il predittore x è: per ogni punto c'è una componente di errore (residuo) Il calcolo della regressione lineare consiste nella stima dei parametri a e b per i quali i residui sono più piccoli possibile (metodo dei minimi quadrati) b = coeciente di regressione a = costante regressione lineare semplice su Jmp I coecienti di regressione ci interessano molto in quanto, nell’analisi customer satisfaction io vado a cercare il coeciente di regressione (i parametri che influenzano di più sono quelli che hanno il coeciente più alto). I coecienti standardizzati vengono utilizzati se i predittori non hanno lo stesso ordine di grandezza si possono confrontare i coecienti standardizzati (beta). Con i coecienti standardizzati, si vanno a standardizzare le variabili (non i coecienti), andando ad annullare la dierenza di scala tra le variabili. In cambio però, l’interpretazione finale non sarà più così chiara, ma leggermente “sfumata”. I coecienti standardizzati si usano quando le variabili hanno diversi ordini di grandezza Se i predittori sono correlati tra loro (cioè se c'è collinearità, ossia correlazione tra predittori) i loro contributi sono in parte sovrapposti. La presenza di predittori correlati è tollerabile entro certi limiti, oltre i quali i coecienti di regressione diventano instabili. I predittori con indici di collinearità inaccettabili (es. VIF > 5) dovrebbero essere esclusi dall'analisi (uno alla volta) Nel nostro caso, dopo aver aggiunto la colonna VIF, vediamo che il VIF è circa 3, quindi va bene Ora facciamo della statistica inferenziale sui risultati della regressione. La significatività dei risultati della regressione si può calcolare quando sono verificate delle assunzioni probabilistiche: 1. le osservazioni devono essere indipendenti (controesempio: intervistati collegati tra loro, come stessa famiglia) 2. gli errori devono avere distribuzione normale 3. gli errori devono avere varianza costante, ossia che i punti si sviluppino tutti in una fascia parallela alla retta (controesempio: consumi in funzione del reddito) -> con una varianza non costante la nuvola di variabili si allarga ad imbuto, quindi i punti non si sviluppano paralleli alla retta se queste ipotesi probabilistiche sono verificate si possono fare due test sui risultati: 1. significatività dell'approssimazione globale che ci dice se il modello prevede qualcosa: l’ipotesi nulla aerma che i coecienti sono tutti uguali a 0 e che nessun predittore serve a prevedere qualcosa ● la bontà dell'approssimazione globale si verifica testando l'ipotesi che non ci sia nessuna relazione tra la y e i predittori ● il test è una ANOVA, la statistica test è F ● perché il modello sia accettabile bisogna che il p-value sia piccolo (es. p < 0,05), in quanto significa respingere l’ipotesi nulla. Questo test non è utilissimo in quanto il p-value è sempre piccolo e ci aspettiamo che il risultato sia sempre positivo e che il test sia significativo. Si pone però un problema, bisogna vedere quali coecienti sono diversi da 0: quali sono i predittori che non funzionano? Da questa domanda introduciamo il secondo test 2. significatività dei modelli di regressione ● la significatività dei singoli coecienti si testa confrontando il valore di ogni con zero mediante la statistica t ● Il test si domanda: questo coeciente è significativamente diverso da 0 oppure no? ● perché un coeciente sia significativo bisogna che il p-value sia piccolo (es. p < 0,05). Questa cosa è utile in quanto permette di fare uno screening di quali coecienti sono interessanti e quali no. Questo test è rilevante e fa parte dell’output standard della regressione Riepilogo - come esaminare i risultati di una regressione: 1. ANOVA (se è significativa si va avanti, al contrario ci si ferma subito) 2. R² (se stima bene o meno il nostro modello di riferimento) 3. coecienti a. VIF (ripulire il modello dalle variabili inutili, ossia non significative) b. test t (ripulire il modello dalle variabili inutili, ossia non significative) c. standardizzati o no? (se le variabili sono espresse tutte nella stessa scala si usa il coeciente di regressione “originale”, quindi quello non standardizzato; al contrario, se sono scale di grandezza diverse si deve vedere la colonna “beta std”, ossia le variabili standardizzate) d. segni e valore (se il coeciente è positivo un certo attributo influenza positivamente, al contrario se è negativo, influenza negativamente; l’impatto delle variabili) Con i coecienti di regressione si può stimare il valore della y in corrispondenza di nuovi valori dei predittori: Si può calcolare un intervallo di confidenza della stima, la quale è più precisa se vicino ai valori medi delle Customer satisfaction: l’obiettivo è verificare e stimare l’impatto dei diversi aspetti dell’esperienza del cliente/utente sulla soddisfazione per un prodotto/servizio. Vediamo quindi un modello causale che descrive le variabili rilevanti e la catena delle dipendenze tra di esse La regressione e l’analisi fattoriale sono un modello causale. I parametri del modello sono i valori da associare alle frecce - la regressione è il modello causale più semplice - l’analisi fattoriale è un modello causale nel quale alcune variabili (i fattori) si ottengono come risultato dell’analisi Analisi del modello causale (path analysis) 1. descrizione del modello causale 2. stima dei parametri -> la stima dei parametri può essere eseguita in vari modi: l’approccio più semplice è una sequenza di regressioni, l’approccio più avanzato è quello dei modelli di equazioni strutturali (dei quali non ci occuperemo) Esempio - Autogrill Ogni nodo corrisponde a una variabile nota: - le aree di interesse che vogliamo esplorare sono note a priori (ambiente, oerta, pulizia, servizio) - per ogni area esiste una valutazione overall, più valutazioni di dettaglio (es.calma e tranquillità del posto, eleganza dell’arredamento, disponibilità dei posti, qualità di cibo e bevande…) - esiste una valutazione overall della soddisfazione globale (livello di soddisfazione generale di quell’area) Il modello può essere stimato con una catena di regressioni - pro: semplice - contro: rigido; la struttura deve essere già presente nel questionario; le regressioni sono indipendenti, nessuna ottimizzazione globale Si possono identificare dei predittori se esistenti? Si può stimare il valore (se è 0 o 1)? Esempio con un predittore coeciente negativo -> la probabilità diminuisce coeciente positivo -> la probabilità aumenta Il reddito (household income) vediamo però che in realtà non è significativo B > 0 → la probabilità cresce al crescere di x B < 0 → la probabilità decresce al crescere di x B = 0 → la probabilità è indipendente da x Esempio con k predittori I due coecienti negativi (“years with current employer” e “years at current address”) fa diminuire la probabilità di default. Il coeciente positivo (“credit card debt in thousands”) fa aumentare la probabilità di default. Rispetto alla regressione lineare, la regressione logistica è più facile da fare in quanto non ha limiti di condizione: - nessuna assunzione sulle variabili esplicative o sui residui - si possono utilizzare insieme predittori numerici e categorici - numerosità del campione: N = 10 k / p (min 100), k numero di variabili, p proporzione del gruppo più piccolo della variabile risposta (la numerosità dei dati della regressione logistica deve essere alta perché non usa i minimi quadrati come la regressione lineare) - la regressione logistica binaria può essere estesa a variabili risposta categoriche non binarie Domande di marketing a cui rispondo con il mapping: - qual è il mio posizionamento rispetto ai concorrenti? - quali sono i miei punti di forza e di debolezza? Il (brand) mapping è una rappresentazione grafica di brand (o altri oggetti) in uno spazio (mappa) che mostri le similarità in modo semplificato e intuitivo. Si tratta di individuare due dimensioni rispetto alle quali collocare gli oggetti. Gli oggetti si dispongono tanto più vicini quanto più sono simili (relativamente alle dimensioni individuate). Lo scopo del mapping è descrittivo ed esplorativo Esempi - Brand mapping Le dimensioni della mappa devono essere chiaramente e utilmente interpretabili. La soluzione più semplice è usare come assi due variabili note che ho già a disposizione, ma che siano il meno correlate possibili importanza vs soddisfazione: quadrant analysis (SWOT analysis: Strength Weakness Opportunity Threats) Gli oggetti sulla mappa sono attributi del brand Perceptual map -> le dimensioni possono essere "scoperte" con diverse tecniche: - analisi fattoriale - analisi delle corrispondenze - multidimensional scaling - … - le tecniche dieriscono soprattutto per i tipi di dati ai quali si applicano Mapping con analisi fattoriale: mappa FOGLIO ANALISI FATTORIALE MARCA obiettivo: creare una brand mapping sugli attributi/fattori di marca scelgo 2 tra i 4 fattori dell’immagine di marca che ho a disposizione (qualità, pubblicità, bufala dop e promozioni) -> criteri di scelta: - criterio tecnico: le dimensioni devono essere significative rispetto ad una ANOVA per marca (le medie delle marche sono significativamente diverse per quella dimensione? se sì, la uso, se al contrario il test risulta non significativo allora le medie sono casuali e quindi non la posso utilizzare per la mappatura) - ??? scegliamo i fattori pubblicità e promozioni -> facciamo il grafico come abbiamo fatto prima trasformazione grafico a bolle per la qualità: struttura grafico -> cambia grafico -> grafico a bolle dimensioni delle bolle: selezionare la tabella -> seleziona dati -> dimensione bolla -> seleziona colonna della qualità Ci ritroviamo solo 3 bolle, quindi fare doppio clic e sulla finestra che si apre cliccare su “mostra bolle con valori negativi”. Per trasformarle in bolle con valore positivo, creare una nuova colonna “qualità+” con i valori della qualità originale ma in positivo (formula somma) e selezionare come dimensione delle bolle la nuova colonna “qualità+” Segmentazione (cluster analysis) -> l’obiettivo è avere un approccio dierenziato al mercato domande: - si possono individuare dei profili caratteristici dei clienti? - come si può schematizzare e riassumere la varietà di una popolazione di utenti, clienti, prodotti, ecc.? - cosa hanno in comune e in cosa dieriscono i prodotti / le aziende sul mercato? L’obiettivo della cluster analysis è classificare unità statistiche in gruppi omogenei (internamente). L’idea è di generare gruppi di unità sulla base di variabili scelte opportunamente, in modo che la variabilità sia minima all’interno dei gruppi e sia massima tra gruppi senza indicazioni a priori sul gruppo di appartenenza delle unità. esempio - cluster di aziende farmaceutiche secondo i volumi di vendita In questo caso abbiamo tre tipi di raggruppamenti diversi esternamente ma simili interamente: 1. novo nordisk-bayer 2. warner lambert-pfizer 3. aventis-merck riduzione della dimensionalità vs segmentazione concettualmente, l’analisi fattoriale raggruppa colonne e la cluster analysis raggruppa righe - i risultati della cluster analysis sono tipologie di persone/aziende (sono delle cose, hanno la stessa natura delle righe) - i risultati dell’analisi fattoriale forniscono concetti/idee Distanza tra unità: per generare gruppi omogenei di unità si utilizza il concetto di prossimità o vicinanza tra unità statistiche (non tra variabili), occorre quindi misurare la vicinanza tra unità e tra gruppi di unità prossimità = similarità Distanze più comuni (per variabili numeriche) -> distanze diverse possono dare ordinamenti diversi Distanza tra gruppi di unità (criteri di aggregazione): come si calcola la distanza tra gruppi di punti? - tra i due punti più vicini - tra i due punti più lontani - media delle distanze a coppie - tra i centroidi - metodo di Ward: i gruppi più vicini sono quelli unendo i quali si ha il minimo aumento della varianza interna ai gruppi I cluster si possono usare per test su qualunque variabile, ma ● l'ANOVA sulle variabili utilizzate per l'analisi (attive) ○ non si può usare come test della significatività delle dierenze tra cluster ○ si può usare per identificare le variabili che più discriminano i cluster (sono quelle più significative) ● ANOVA e chi-quadrato su variabili esterne (illustrative, non utilizzate per l'analisi) ○ si possono usare come test e possono fornire informazioni molto utili per caratterizzare i cluster Numerosità dei cluster Non è necessario che i cluster abbiano numerosità simili, ma: - devono avere almeno una numerosità utile - cluster molto piccoli (poche unità) indicano possibili outlier (trascurabili dal punto di vista della numerosità) - un unico cluster molto grande indica spesso un cattivo raggruppamento, con un cluster medio poco caratterizzato circondato da cluster marginali La cluster analysis genera cluster anche su dati casuali. Poiché l'obiettivo è di identificare cluster utili a fini pratici si richiede che essi siano stabili. La stabilità si può valutare con la cross-validation incrociando soluzioni generate in condizioni diverse (es. metodi diversi o numero di cluster diversi). Le soluzioni sono tanto più simili quanto più i casi si concentrano in poche celle: l'ideale è una sola cella per riga e per colonna. La cluster analysis richiede dati numerici o binari -> variabili categoriche devono essere trasformate in binarie La scelta delle variabili è cruciale e dipende dall'obiettivo: sociodemo, atteggiamenti e opinioni, comportamenti? È particolarmente importante evitare la presenza di variabili irrilevanti o ridondanti, correlate, con forti dierenze di scala o di varianza Preprocessing dei dati 1. standardizzazione o normalizzazione 2. analisi fattoriale - pro: elimina i problemi di scala e di varianza e le correlazioni tra variabili, attenua il problema di dati mancanti e outlier - contro: trascurando le variabili apparentemente irrilevanti rende più dicile individuare cluster di nicchia Matrici per l’interpretazione a confronto In entrambi i casi l’interpretazione si basa su una matrice - analisi fattoriale -> matrice di struttura - cluster -> centri dei cluster Le righe sono variabili in entrambi i casi Le colonne in matrice struttura -> i fattori Le colonne in centri dei cluster -> i cluster valori nella matrice di struttura -> correlazioni variabile-fattore valori nei centri dei cluster -> medie delle variabili nei cluster metodi gerarchici e k-means a confronto e consigli per l’uso Assunzioni: - la cluster analysis non richiede ipotesi sulle variabili, né sulle relazioni tra di esse - numerosità: nessun limite RIEPILOGO: come fare una cluster analysis 1) scelta delle variabili e pre-processing -> rispetto a cosa voglio generare i cluster? standardizzazione o analisi fattoriale? 2) scelta del metodo: gerarchico o k-means ? metodo gerarchico -> Ward; k-means -> quanti cluster? 3) controllo della numerosità dei cluster 4) esame dei centri finali e prima interpretazione 5) relazione con variabili esterne per arricchire l'interpretazione -> ANOVA per variabili numeriche e chi-quadrato per variabili categoriche 6) mapping -> rappresentare le unità (se poche) e colorare per cluster o rappresentare i centri dei cluster (con tante unità) Esempio GDO - obiettivo direct marketing ● segmentazione dei clienti di un piccolo supermercato per promozioni personalizzate ● tutti i clienti sono noti individualmente (carta fedeltà) ● 8842 clienti diversi -> preprocessing con analisi fattoriale GDO - fattori 1. grande consumo, spesa totale elevata 2. spesa media elevata 3. spesa ad alta frequenza 4. acquisto prevalente di prodotti per la cura della casa 5. acquisto prevalente di ortofrutta 6. acquisto prevalente di prodotti per la cura della persona 7. acquisto prevalente di surgelati 8. acquisto prevalente di bevande 9. acquisto prevalente di prodotti freschi 10. acquisto prevalente di carne 11. acquisto prevalente di pesce 12. attenzione al riciclabile GDO - cluster (centri finali) 1. GREEN: acquistano prodotti freschi, una certa attenzione al riciclabile, bassa frequenza, bassi volumi 2. CLIENTI FREQUENTI: acquistano con frequenza prodotti deperibili (frutta, carne) 3. CLIENTI DI PESCE: acquistano solo pesce, bassa frequenza 4. CLIENTI DI SURGELATI: acquistano per lo più surgelati, bassa frequenza, bassi volumi, una certa attenzione al riciclabile 5. GRANDI CLIENTI: scontrino medio alto, acquistano un po' tutto clusterizzazione k-means per i fattori di prodotto jmp: analizza -> clusterizzazione -> clusterizzazione k-medie -> range 3-5 -> diagramma a coordinate parallele k-means 3 ANOVA per i fattori di prodotto rispetto alla preferenza dei cluster Jmp -> analizza -> distribuzione x e y -> y : fattori di prodotto e preferenza -> x : k-means 3 Gli unici con p-value significativo sono i fattori che abbiamo usato per generare i cluster: FP1 gusto, FP2 aspetto, FP3 confezioni, FP4 distribuzione, FP6 prezzo e preferenza. Importante è quindi che rispetto alla preferenza i cluster sono diversi ora vediamo il rapporto tra le marche (marca 100+) e i cluster (k-means 3) Jmp -> analizza -> distribuzione x e y -> y : marca 100+ -> x : k-means 3 tabella di contingenza con: conteggio, previsto, deviazione -> spostare la tabella su excel (deviazione positiva = in quella cella c’è una particolare concentrazione di casi; deviazione negativa = in quella cella c’è una particolare mancanza di casi) residui standard = deviazione / radice quadrata (previsto) cluster 1 = mediocri, neanche troppo economiche -> molto presente: Cuomo; poco presente: prodotti locali cluster 2 = buone, confezioni okay, care -> molto presente: Pettinicchio, prodotti locali; poco presente: Boiano, Cuomo cluster 3 = buone, confezioni no, economiche -> molto presente: Granarolo, Boiano, Cuomo, prodotti locali; poco presente: Pettinicchio, Vallelata REPORT ● target ○ identificare le variabili che verosimilmente individuano il target -> in base a quelle variabili creo le righe del mio dataset e lavoro solo su quelle righe (facendo finta di aver intervistato solo il mio target, il campione è in target) ○ la numerosità delle righe deve essere abbastanza elastica (dovrei avere almeno 300 righe, casi) ○ decido le variabili (colonne) per capire quali righe (casi) tenere, quando ho le righe che devo tenere le colonne ci sono tutte quindi posso fare un’analisi fattoriale (che ovviamente con due variabili non si può fare) ○ fare prima una cluster per fare una segmentazione dei tipi di mozzarella (viene fuori una tipologia di consumatore): 1. cluster = pizzaioli ; 2 cluster = mamme -> quindi poi posso decidere su quale cluster fare l’analisi (se ovviamente i casi sono > 300) ■ problema: non si può controllare la segmentazione e quindi il tipo di cluster
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved