Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Appunti di Data Analysis, Appunti di Statistica

Appunti completi integrati con libri e slide del corso Data Analysis

Tipologia: Appunti

2022/2023

Caricato il 26/04/2024

Dada4800
Dada4800 🇮🇹

6 documenti

Anteprima parziale del testo

Scarica Appunti di Data Analysis e più Appunti in PDF di Statistica solo su Docsity! DATA ANALYSIS Community: data2024 Esame: 10 domande chiuse e 2 aperte sui casi Report di analisi facoltativo: max 3 punti, da consegnare almeno una settima prima dell’appello Codice Microsoft Teams: t5tszhh  28 settembre 17.30 ripasso su Teams INDICE: 1. contesto 2. sondaggi e questionari 3. dati 4. probabilità 5. analisi bivariata 6. statistica inferenziale 7. data visualization 8. riduzione della dimensionalità (analisi fattoriale) 9. analisi predittiva (modelli di regressione) 10. brand mapping 11. segmentazione del mercato (cluster analysis) 12. sviluppi recenti 1. CONTESTO  in che logica affrontiamo data analisy? Si parla di analisi del mercato. L’obiettivo dell’analisi di mercato, attraverso i dati, è quello di rispondere a domande sul mercato in generale (sui concorrenti, clienti). L’esigenza di rispondere a domande sul mercato sorge da motivi diversi, per esempio, per cercare di reagire a problemi che si manifestano, approfondire aspetti che sembrano interessanti. Si ha anche la necessità di un monitoraggio sistematico del mercato. Ad esempio Audit  il mercato che si vuole monitorare con l’auditem è quello pubblicitario. Chi fa analisi dei dati? - Strutture interne all’azienda (soprattutto nelle grandi aziende, come Skype) - Strutture esterne, come ad esempio:  generalisti che fanno di tutto, fanno ricerche ad hoc ma fanno anche ricerche multiclient cioè generaliste, per esempio una ricerca sul mondo della finanza, della telefonia, dell’energia che vengono vendute a chiunque  specializzati: possono essere specializzate per segmento di mercato, per attività, per tipo di dati. Ad esempio, i call center fanno parte di questo mondo ma si limitano alla rilevazione dei dati La definizione dei progetti di analisi non è banale né univoca, quale obiettivo? Quali dati? Quali strumenti? Noi ci concentreremo su ANALISI QUANTITATIVE. Il processo di analisi (quantitativo) di mercato: 1. Formulazione obiettivo 2. Quale formula di ricerca? 3. Quali dati? 4. Raccolta dei dati 5. Analisi dei dati 6. Interpretazione e presentazione dei risultati 7. Follow-up e messa in produzione Per fare un’analisi fatta bene il primo passo è definire e formulare gli obiettivi. Una volta capito l’obiettivo, bisogna decidere la formula di ricerca:  Esplorativa (ad esempio analisi qualitativa): quando non ne so nulla di una cosa, devo cominciare a rendermi conto di quali sono i problemi in gioco in maniera anche molto descrittiva/esplorativa  Descrittiva: quando cominciamo a saperne qualcosa va bene l’analisi descrittiva, per esempio il livello di conoscenza oppure una segmentazione dei clienti.  Causale-predittiva: si vanno a vedere le cause, come ad esempio la customer satisfation, non mi interessa vedere chi è soddisfatto e chi no ma mi interessa vedere quali sono i driver della soddisfazione, cosa rende più soddisfatto il cliente. Deciso in che ambito siamo e che tipo di analisi vogliamo fare, a questo punto si tratta di raccogliere i dati, analizzarli e interpretarli. Campionamento: il processo col quale si estrae il campione - probabilistico (molto buono) - non probabilistico (es. campione di esperti, campionamento "a valanga", "per convenienza"). Nonostante funzioni un po’ meno esiste, perché in certe situazioni può essere utile se non l’unico modo di avere un campione. Esempi di campionamento non probabilistico sono un campione di esperti (faccio delle interviste in profondità a delle persone che sono scelte da me in quanto le ritengo esperte nell’ambito dell’oggetto di studio); campionamento “a valanga” (questionario posto ad una persona e poi chiedo a questa se conosce persone che risponderebbero al sondaggio e così via; questo metodo è l’unico utilizzabile ad es per raccogliere dati su temi delicati come alcolismo o situazioni illegali, come per gli immigrati irregolari, per i quali non c’è una lista altrimenti sarebbero già regolarizzati, ed in cui è quindi impossibile avere una lista completa del campione. Tutto parte da poche persone dalle quali poi si scatena tutto il processo di raccolta dei dati); campionamento “per convenienza”. In questi casi non c’è niente di probabilistico, perché scelgo io a chi rivolgere il sondaggio. Campionamento probabilistico: - campionamento casuale semplice (es. estrazione da un'urna) - campionamento stratificato: si utilizzano delle caratteristiche note della popolazione per suddividerla in strati (es. età, area) → strati: omogenei all'interno, eterogenei tra loro - campionamento a grappoli (cluster): quando la popolazione è naturalmente divisa in gruppi (es. classi scolastiche, comuni) → cluster: eterogenei all'interno, omogenei tra loro Dimensione del campione  campioni più grandi migliorano la precisione delle stime, ma… - sono più costosi - il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione - la dimensione del campione non dipende da quella della popolazione (se pop > 10 mila)  la dimensione del campione si può stimare a priori Caratteristiche di un buon campione: - casualità (indipendenza delle osservazioni) - rappresentatività, deve presentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto → validità, accuratezza. (Un campione è distorto quando le survey sono dirette a qualcuno che non rappresenta il target di riferimento. Il campione rappresentativo è quello che centra in tutto e per tutto l’obiettivo. È una condizione necessaria, fondamentale per il campionamento) - numerosità → affidabilità, precisione: è un concetto che riguarda la precisione, non l’affidabilità. È una condizione “plus” del campionamento. Se il campione non è rappresentativo, una numerosità alta è più un difetto che un pregio, perché sono molto sicuro di una cosa che però è sbagliata. SONDAGGIO Fasi di un sondaggio: 1. Definizione dell'obiettivo formula di ricerca, popolazione, campione 2. Scelta del metodo di contatto 3. Costruzione del questionario 4. Test del questionario 5. Somministrazione del questionario al campione 6. Raccolta dati 7. Analisi 8. Reporting (2) Metodi di contatto: - CAPI Computer Assisted Personal Interviewing (interviste telefoniche o sul web) es. indagini nei centri commerciali, exit-poll, Auditel ↑ qualità, accuratezza, nessuna limitazione di target ↓ tempi e costi alti, bias dell'intervistatore, desiderabilità - CATI/CAMI Computer Assisted Telephone/Mobile Interviewing 15€/intervista per mille casi da popolazione italiana ↑ tempi brevi, qualità, accuratezza, controllo rilevazione - CAWI Computer Assisted Web Interviewing invito via email/web/social, link per la compilazione ↑ costi, tempi a volte ma non sempre brevi ↓ minore accuratezza, filtro internet, autoselezione (3) Costruzione del questionario  principi fondamentali: chiarezza, semplicità, brevità 5. Identificare informazioni di interesse primario e accessorie → cosa chiedere 5. Stabilire la sequenza logica delle sezioni e delle domande es. opinioni, comportamenti, marche, sociodemo es. prima il gradimento globale o gli attributi del prodotto? → struttura del questionario 5. Decidere la forma delle risposte e formulare le domande es. aperte o chiuse, in che scala, "non so" → come chiedere Formulazione delle domande: - Evitare domande doppie - Evitare ambiguità - Attenzione alle negazioni dentro le domande - Risposte esaustive e mutuamente esclusive - Non dare nulla per scontato - Attenzione alle domande sul passato (uno può non ricordarsi) e ai temi sensibili - Evitare formulazioni tendenziose - Inserire domande replicate o con scala invertita COME SI FA UN SONDAGGIO FATTO BENE? PROBLEMATICHE E POSSIBILI SOLUZIONI: E’ molto probabile che non tutte le quote siano state riempite. Poniamo che la quota di laureati non sia stata soddisfatta: c’era bisogno di intervistarne almeno 50 ma gli intervistatori ne hanno trovati solo 40 prima di esaurire le chiamate che avevano a disposizione. Quando si calcolano i risultati del sondaggio, quindi, bisognerà pesare sul totale quei 40 laureati come fossero 50. Si possono fare, oppure non fare, numerose “ponderazioni” di questo tipo. Una delle più diffuse è la ponderazione sul voto precedente. Oltre a chiedere cosa voteranno in futuro, agli intervistati viene spesso domandato anche cosa hanno votato l’ultima volta. Visto che si sa come sono andate realmente le ultime elezioni, si guarda al rapporto tra quante persone dicono di aver votato un certo partito alle ultime elezioni e quanti lo votarono effettivamente e si prova a fare la stessa operazione per le elezioni successive e lo stesso vale per un prodotto acquistato. Se ci accorgiamo per esempio che un partito era sottovalutato di una certa percentuale alle ultime elezioni, cioè meno persone dicono di averlo votato rispetto alla realtà, allora è possibile provare a tenere conto di questo fatto anche nello stimare quante persone voteranno in futuro per questo partito. I dati binari (dicotomici) sono dati che possono assumere solamente 2 valori e sono un tipo speciale di variabile categorica, in particolare si tratta di una categoria di dati nominali. I dati binari sono formalmente dati categorici ma in molte analisi si possono usare lecitamente come dati numerici. Si usa codificare dati come 0-1 e si possono poi svolgere in tutto e per tutto operazioni numeriche, ad es. calcolare la media. Questo permette di fare un utilizzo del dato numerico anche per i dati categorici > es il dato categorico “marca” si può trasformare sempre in variabili dicotomiche, permettendo di usare i dati “marca” in analisi che richiedono dati numerici. Importanti le azioni di Data Cleaning; il 20% del tempo va nel raccogliere i dati, mentre il 60% è impiegato per la pulizia dei dati. Solo il circa 20% rimanente è dedicato all’analisi vera e propria. Tra le operazioni di data cleaning c’è la ponderazione Ponderare un dataset o una matrice di dati consiste nell’aggiungere una colonna di dati che ha il significato di peso che serve per alterare artificialmente l’importanza dei singoli dati. Es se campione di 100 persone sono 49 maschi e 51 femmine, con la ponderazione posso raddrizzare un campione un po’ “storto”, es. i 49 maschi avranno un peso un pochino maggiore di uno così da poter pesare come 50 e viceversa le femmine che pesano un po’ meno, così il campione è equilibrato. Scopo è lavorare su un campione che dia la massima rappresentatività. Un aspetto a cui bisogna fare attenzione durante il processo di data clening sono i valori mancanti (missing) Questi sono dei veri e propri vuoti/buchi nella matrice dei dati dalla quale si è partiti. Le cause di queste mancanze sono molteplici: • Nei sondaggi: il rispondente non risponde (rifiuto di risposta o mancanza di un blocco per propria forma di un sondaggio – es sezione che salta) • In dati ufficiali: mancata pubblicazione • In generale: errori, problemi tecnici, ecc L’aspetto sostanziale che riguarda i dati mancanti è chiedersi se questi sono distribuiti casualmente nel dataset o se sono distribuiti in modo sistematico (es. concentrati in uno strato). Se sono distribuiti casualmente, posso ipotizzare che i dati presenti contengano abbastanza info da compensare le mancanze, e quindi posso fare ad es la media dei dati presenti e sostituire la media al dato mancante. Se invece i dati sono mancanti in un preciso strato, allora il dato è mancante per un motivo sistematico, quindi sarebbe proprio sbagliato utilizzare info provenienti da altri strati. In questo caso non si può fare niente. Per quanto riguarda invece la numerosità, si può affermare che la gravità del missing dipende dall’ambito di applicazione, non esistono indicazioni generali. Trattamento del missing Per poter agire e fare qualcosa, bisogna prima verificare che i missing siano distribuiti casualmente. Quando ciò è verificato e mancano casi interi, si agisce con la • Ponderazione, per compensare buchi relativi all’intera riga Se mancano invece singoli valori (mancata risposta parziale), si possono usare diverse tecniche: • Eliminazione = eliminare tutte le righe in cui ho un missing • Imputazione, ad es sostituzione con la media, eventualmente medie diverse in strati diversi. Un altro aspetto importante a cui prestare attenzione durante le operazioni di data cleaning sono i valori anomali (outlier). Questi sono valori di una variabile numerica che si discostano molto dagli altri. Possono derivare da varie cause, come ad es errori (610 al posto di 61 nell’ambito delle età che è improbabile, ma anche dati di pazienti con malattie rare che si discostano moltissimo dai dati della popolazione sana) Bisogna chiedersi se gli outlier che abbiamo trovato hanno un motivo o meno; se capiamo che c’è una causa sotto, allora ci hanno mostrato l’esistenza di un fenomeno (allo stesso modo dei missing), altrimenti capiamo che è un errore. Box plot (vedi slide 18) > il puntino così lontano dagli altri, quindi il valore anomalo, va esaminato bene: perché è così lontano dagli altri?? Ci sono casi però in cui gli outlier si identificano per combinazione di altri dati e più variabili, tutte inusuali (es. ragazzo di 12 anni con già una laurea, grafico slide 18) > in questo caso, si parla di outlier multivariato. Individuazione dell’outlier con strumenti grafici e statistici. A seguire, Trattamento dell’outlier: • Eliminazione , nel caso in cui si è sicuri che si tratti di un errore; porta a valori mancanti, ma almeno non sono sbagliati. • Capping , che consiste nell’eliminare e non considerare i valori superiori ad un valore che decidiamo essere il valore massimo: x > x(max)  x = x(max) • Ranking , cioè mettere i valori in ordine crescente e poi sostituirli con il loro ordinamento. Trasformazione di dati numerici Usare i dati così come sono non sempre va bene, ma c’è bisogno di manipolare i dati affinché si “esprimano” al meglio. Spesso succede di dover manipolare i dati per poter lavorare adeguatamente con certe procedure statistiche. Un caso tipico è quello in cui si vuole annullare la differenza di scala e di variabilità tra le variabili numeriche; per fare ciò, diverse tecniche: • Standardizzare, portando la media a 0 e la varianza ad 1 • Normalizzare, cioè trasformare i range di riferimento in un intervallo [0,1] • Discretizzare, cioè separare i dati in classi. Un altro caso è quello in cui si cerca di migliorare la distribuzione dei dati, ad esempio cercando di ridurre l’asimmetria e il numero di outlier; es. al posto di lavorare sul dato così com’è, lavoro sulla sua radice quadrata o sul suo logaritmo. Infine, si possono generare nuove variabili partendo da quelle originali (feature extraction = generazione di nuove variabili) per avere informazioni aggiuntive. Si creano così variabili dummy: • Da popolazione e superficie  densità • Da altezza e peso  BMI • Dalla località  coordinate geografiche • GDO (Grande Distribuzione Organizzata): dettaglio scontrini porta ad aggregare i valori per scontrino; scontrini porta ad aggregazione per cliente (carta fedeltà); cliente porta ad aggregazione per frequenza di acquisto, spesa mensile ecc Esercizio  Abbiamo un dato codificato con 0 e 1, ci sono 100 clienti ai quali chiediamo se hanno comprato nell’ultima settimana: 0  no 1  si, hanno comprato Facciamo la media di questo 0 1, che interpretazione diamo alla media? 41 persone rispondono si 59 persone rispondono no 100 totale persone intervistate La media fa 0,41 (41/100)  0,41 è la proporzione degli intervistati che rispondono si. Quindi quando un dato è codificato 0 1 diventa comodo trattarlo come un numero perché la media è uguale alla percentuale proporzione di casi uguali a 1. 4. PROBABILITÀ è una misura della possibilità che un evento possa verificarsi Definizione frequentista  probabilità basata sulla frequenza di un fenomeno: 𝑝 = 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 (es. 10 volte estrazione palla blu) 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑝𝑟𝑜𝑣e (es. tot 20 estrazioni) - Quando il numero di prove tende a infinito  0 ≤ 𝑝 ≤ 1 - 𝑝 = 1  evento certo - 𝑝 = 0  evento impossibile La somma delle probabilità di tutti gli eventi possibili è sempre 1  Σ 𝑝 = 1 (la probabilità che esca la palla blu è un evento certo e quindi = 1) Distribuzioni di probabilità  modelli teorici corrispondenti alle distribuzioni di frequenza che invece sono dati sperimentali (descrivono fenomeni reali in termini astratti). Sono la generalizzazione delle distribuzioni di frequenza; le distribuzioni di frequenza normalmente sono desunte da dati osservati (dati campionari) e consistono nel vedere quali sono tutti i valori possibili e la frequenza di ciascun valore. Le distribuzioni di probabilità sono i modelli teorici di riferimento che descrivono situazioni diverse, possibili. La loro utilità è la seguente: supponiamo che la nostra distribuzione di frequenza sia quella delle barre azzurre (che potrebbe essere ad es altezza delle donne adulte); guardando la curva vedo che il modello teorico approssima abbastanza bene la distribuzione di frequenza. Il vantaggio di ciò è che posso smettere di fare campioni, in quanto il modello teorico rappresenta in bene il mio campione. Uso delle distribuzioni di probabilità La conoscenza di una distribuzione teorica permette di rispondere a domande come: quale è la probabilità di valori tra a e b? Quale è la probabilità di valori maggiori o minori di a? Nei problemi applicativi si cerca di ricondurre la distribuzione campionaria osservata a una distribuzione teorica nota. Le distribuzioni normali che si possono creare a seconda dei casi sono infinite; tra tutte però si va a cercare e scegliere quella con m=0 e s=1, chiamata normale standard. Per passare dalla normale alla normale standard, quindi da qualunque variabile x N (m; ) ad una variabile z (0, 1) OPERAZIONE DI STANDARDIZZAZIONE: Il ruolo della sottrazione è di spostare la curva in modo che la media ricada sullo 0; il ruolo del denominatore serve per far diventare 1 la varianza. La curva normale standard è comunque importante anche se non dobbiamo fare la standardizzazione per il caso in questione perché in tanti casi pratici cercheremo di trasformare delle variabili in variabili standard per vedere immediatamente ed in modo mnemonico quali sono i valori alti o bassi, perché si fa riferimento a degli standard sempre utilizzati quindi non ci si può far ingannare dai valori. Valori convenzionali: 95% e 99% In una distribuzione N(0,1) il 95% dei valori è compreso (approssimativamente) tra -2 e +2 Il 99% dei valori è compreso tra -2,57 e +2,57 RIPASSO STATISTICA Abbiamo 20 osservazioni di una determinata variabile e ci interessa descriverle  la prima cosa che si fa è una distribuzione di frequenza: indentifico tutti i valori presenti nei dati e conto quante volte si presentano. Per comodità, nella seconda colonna, i numeri della colonna 1 vengono messi in ordine crescente. Nella tabella in cui si andrà a fare la distribuzione di frequenza si inseriscono prima i numeri, poi il numero di volte in cui si presentano n (frequenza assoluta), e successivamente la frequenza relativa f (esprime in proporzioni la frequenza assoluta). La somma delle frequenze assolute è uguale a 20, cioè pari al numero di soggetti che avevamo inizialmente. (Se la sequenza di dati fosse una frequenza di dati non numerici, e quindi categorico (es. 3 marca a, 2 marca c, 2 marca b, etc.) il ragionamento si può fare allo stesso modo). La distribuzione di frequenza ci dice tanto sul dato. Il problema è che non è comoda da gestire. Ecco che nasce l’esigenza di avere delle misure che ci dicano intorno a quale valore si muovono i dati  queste misure si chiamano: - ‘misure di tendenza centrale’ -> media, moda e mediana - ‘misure di dispersione’ -> varianza MEDIA -> la somma dei valori diviso n tot  La media è molto sensibile a valori particolarmente alti o bassi: anche un solo dato particolarmente alto o basso, cambia molto la distribuzione di frequenza e cambia molto la media Questa ipersensibilità della media, che sfrutta molto bene i dati, è anche un contro. In alcune situazioni può dare fastidio, e questo genera la necessità di sviluppare un’altra misura alternativa alla media che sia un può più stabile e che si sposti un po' meno allo spostarsi dei valori in gioco  MEDIANA: il valore centrale fra tutti quelli che la variabile può assumere. Se metto in ordine i dati, la mediana è il valore centrale, quello che ne lascia tanti sopra quanti sotto. Se i numeri di valori è pari, bisogna prendere il valore medio fra quelli in mezzo. La mediana è un indicatore di tendenza centrale, alternativo e complementare rispetto alla media. La mediana è molto meno sensibile alla variazione dei valori. È sensibile solo all’ordinamento ma non alla grandezza dei dati. Un’altra misura di tendenza centrale -> MODA: il valore più alto, la frequenza più alta che c’è nella distribuzione. Si può definire anche per variabili categoriche nominali, perché basta che ce n’è una che ha una frequenza più alta e c’è la moda. La moda potrebbe anche non esistere, oppure potrebbe esserci una bimodale (quando ci sono due massimi). PERCENTILI E QUARTILI  La definizione della mediana è quella di una posizione tale che alla sua sx c’è il 50% dei casi e alla sua destra un altro 50%. Esattamente con la stessa logica si possono definire misure più raffinate. Si può dividere in quattro parti: 25%, 25%, 25%, 25% -> l’abbiamo diviso in Quartili. Oppure, dividere la mia curva in pezzettini di 1% -> percentili I percentili agli estremi posso essere interessanti, ha senso nelle code delle distribuzioni. ANALISI BIVARIATA  Esaminare la relazione tra due variabili numeriche significa misurare l’andamento relativo di una variabile rispetto all’altra (al crescere di una variabile cresce anche l’altra). Ad esempio la propensione all’acquisto e il gradimento è un esempio di due variabili legate tra loro. 1. RELAZIONE TRA VARIABILI NUMERICHE: Una misura della concordanza/discordanza di due variabili è la covarianza, ottenuta dalla media aritmetica del prodotto tra le differenze di una variabile dalla sua media e dell’altra variabile e della sua media. La frase “differenza tra una variabile e la sua media” indica la distanza fisica di un punto del grafico rispetto alla retta che corrisponde alla sua media Se entrambi gli scarti sono positivi o negativi, la covarianza è positiva (perché è il loro prodotto); in questo caso si ha concordanza tra le variabili. Se invece il prodotto dà una covarianza negativa, si ha discordanza tra le variabili. La covarianza può avere come massimo il valore corrispondente al prodotto tra le deviazioni standard delle due variabili. La covarianza minima è = 0, e significa che non c’è nessuna relazione tra le variabili. LA COVARIANZA La covarianza dipende dall’ordine di grandezza dei valori che utilizziamo; per eliminare questa dipendenza la si deve normalizzare, dividendola per il suo massimo teorico possibile (ossia il prodotto tra le dev std delle due variabili): in questo modo costringo l’intervallo della covarianza tra 0 e 1.  Il valore massimo che può assumere la covarianza, quindi, è il prodotto dei due scarti quadratici medi, ovvero la radice quadrata della covarianza (detta anche deviazione standard)  ha un valore minimo pari a -1 e un valore massimo pari a 1 La covarianza dipende dall’unità di misura delle osservazioni cosicché non è corretto confrontarne il valore su diverse distribuzioni doppie. Per ovviare a tale inconveniente è opportuno trasformare la covarianza in un indice relativo  IL COEFFICIENTE DI CORRELAZIONE LINEARE, di Bravais e Pearson che esprime l’intensità del legame lineare tra due variabili. Il segno presentato dal coefficiente di correlazione corrisponde al segno della covarianza giacché al suo denominatore vi sono quantità sempre positive. Bravais Pearson 1811-1863 1857-1936 r=0,53 r=-0,46 r=0,01 e » . du - + è || ott #° 255 Sto € . * »*+ . Perfect High Low Positive Positive Positive Correlation Correlation Correlation No Correlation o Low High Perfect Negative Negative Negative Correlation Correlation Correlation | 1 | MATRICE DI CORRELAZIONE RR ET 0,454 0,688 -0,278 0, I [eruzione | 0; pa 1 0,798 0,382 0,279 REA 0,688 0,798 1 0,009 0,636 [popolazione -0,278 0,382 0,009 1° -0345 0,729 0,279 0,636 -0,345 1 Interpretazione convenzionale: * tra0,50e 1: correlazione forte * tra 0,30 e 0,49: correlazione media * tra0e 0,29: correlazione debole (e simmetrica per valori negativi) CORRELAZIONE E DIFFERENZA IN MEDIA MEDIA  La differenza in media e la correlazione tra due variabili esprimono due concetti diversi e indipendenti 3. RELAZIONE TRA DUE VARIABILI CATEGORICHE  Studiare la relazione tra due variabili categoriche significa studiare se le due variabili sono dipendenti o indipendenti (cioè se una influenza l’altra o no) ES: c’è una relazione tra l’area e l’essere consumatori o no di Pettinicchio? La domanda che mi faccio è: ‘il consumo di Pettinicchio dipende dall’area o no?’ Se sono distribuite un po' allo stesso modo in tutte le aree, significa che non c’è relazione; se invece ci sono delle aree in cui si concentrano in modo positivo o negativo significa che una relazione c’è. Le due variabili hanno una correlazione inversa perfetta (quindi correlate -1), le medie sono identiche perché ballano tra 1 e 2 quindi 1.5. Le due variabili hanno perfettamente lo stesso andamento (perfettamente correlate) però le medie sono molto diverse. Per esplorare questa relazione si usa la tavola delle frequenze congiunte, che si rappresentano con tabelle a doppie entrata.  Le distruzioni marginali sono le frequenze delle singole variabili mentre quelle che stanno dentro si chiamano frequenze congiunte, ovvero, combinazioni delle due variabili. Due variabili categoriche sono indipendenti se la distribuzione di una non dipende dai valori dell'altra -> se passo da una riga all’altra non cambia nulla: al variare di riga non cambia la distribuzione della colonna quindi le distribuzioni sono le stesse su tutte le righe o colonne. Se sono indipendenti, invece, (cioè distribuzioni uguali su tutte le righe) allora le distribuzioni congiunte dipendono solo dalla distribuzione marginale di righe e colonne. Indipendenza tra due variabili categoriche significa che: - le percentuali di riga sono approssimativamente uguali in tutte le righe (e lo stesso per le colonne) - le frequenze congiunte dipendono solo dalle frequenze marginali - le frequenze osservate sono uguali a quelle teoriche Se sono indipendenti: - le frequenze devono dipendere solo dai totali di riga e di colonna - La distribuzione è approssimativamente uguale (tra frequenza osservate e teoriche) in tutte le colonne e nella distribuzione marginale – idem per le righe - Le frequenze congiunte teoriche dipendono solo dalle marginali. - Le frequenze osservate sono uguali a quelle teoriche. Ho, dunque, due quantità: le frequenze osservate (quelle che ho visto io) e le frequenze teoriche (sono quelle che dovrei avere se le variabili fossero perfettamente indipendenti). Sulla base delle frequenze osservate e di quelle teoriche si può derivare un singolo indicatore (CHI QUADRATO) che dipende dalla differenza tra le frequenze osservate e attese. Con questo sistema, tutte le frequenze sia osservate che teoriche vengono messe insieme e diventano un indicatore solo. Se questo indicatore (CHI QUADRATO) è: - uguale a 0 significa indipendenza - se è tanto maggiore di 0 significa dipendenza (Più grande è (più siamo lontani dall’indipendenza) più sono dipendenti ) 6. STATISTICA INFERENZIALE - stime campionarie - intervalli di confidenza - test delle ipotesi - chi-quadrato - Anova OBIETTIVO La formula non è importante, però da cosa dipende l’ampiezza dell’intervallo di confidenza della media si. (possibile domanda d’esame)  L'ampiezza dell'intervallo di confidenza della media NON dipende dalla stima puntuale della media campionaria. Questo perché l’ampiezza dell’intervallo di confidenza è calcolata sulla base di questo ±1,96 per sigma / n, dentro qui l’x segnato non c’è. Nel caso specifico dell’intervallo di confidenza della media, l’ampiezza dell’intervallo di confidenza dipende: • Dalla distribuzione campionaria della media, quindi dal fatto che sappiamo che la media è una distribuzione normale N(m; s^2/n) • Dal livello di confidenza scelto, nell’esempio al 95%  1,96. Questo sta ad indicare che si considera il 95% dei casi della normale • Dalla numerosità del campione n Con queste informazioni, quindi, possiamo calcolare l’errore. Parlare di livello di confidenza del 95% significa che il 95% dei possibili campioni avrà un intervallo di confidenza che contiene la media vera, e il residuo 5% no. Il 95% è la probabilità che quando io faccio questa affermazione, io dica una cosa giusta; quando dico  è compreso tra x - l’errore e x+ errore, nel 95% dei casi ci ho preso, nel 5% residuo sto dicendo una cosa sbagliata. Il 5% è il livello di errore che mi consento. La soluzione per aumentarli entrambi contemporaneamente è aumentare n. Quando aumento n, aumento l’informazione a mia disposizione. Ho bisogno quindi di più informazioni, di un campione più grande. Esempio della prima criticità: Esempio della seconda criticità: il campione è corretto? TEST DELLE IPOTESI SOMMARIO  Per ora ci siamo occupati di: probabilità e distribuzioni di probabilità  distribuzioni campionarie  stime campionarie e test delle ipotesi. VERIFICA DELLE IPOTESI  Lo scopo della verifica delle ipotesi è fornire criteri razionali per decidere se accettare o respingere delle ipotesi. È un metodo per mettere in competizione due affermazioni e vedere in modo razionale quale delle due accettare. Il modo in cui opera la verifica delle ipotesi è questo, qualunque sia l’ipotesi che voglio trattare: 1. FORMULAZIONE DELL’IPOTESI 2. ESPERIMENTO STATISTICO → se la probabilità è molto piccola (es. p < 0,05) il test è statisticamente significativo e si rifiuta l'ipotesi nulla Sapere qual è la distribuzione campionaria della media è lo strumento necessario per calcolare gli intervalli di confidenza della media. Qual è la statistica campionaria e qual è la sua distribuzione è nota? Noi conosciamo la distribuzione campionaria teorica relativa all’ipotesi nulla. Quindi se l’ipotesi nulla è vera la distribuzione campionaria è quella lì. Quando so la distribuzione di una variabile aleatoria e ho il valore di quella variabile, posso dirgli ‘qual è la probabilità di ottenere valori maggiori o uguali di quello li?’. Disporre di una distribuzione di probabilità di una variabile aleatoria è utile perché permette di disporre di qualunque domanda del tipo ‘qual è la probabilità di ottenere valori tra a e b?’. Quando ho la distribuzione campionaria della statistica campionaria, e ho il valore della statistica posso farmi quella domanda li: ‘qual è la probabilità di ottenere valori come quello che ho trovato o maggiori?’. Ad esempio, ipotizziamo che il valore della statistica campionaria è quel puntino nella figura, observed data point, a me dal mio campione mi è venuto fuori questo valore. Andando a misurare dentro la distruzione campionaria, qual è la probabilità a destra di quel valore, cioè l’area verde, io vedo qual è la probabilità che per caso vengano valori maggiori di quelli che ho visto lì. Se l’ipotesi nulla è vera la probabilità di ottenere un valore più alto è l’area verde. L’area verde si chiama p-value, ed è una probabilità -> cioè la probabilità di ottenere valori uguali o maggiori di quelli ottenuti sul campione quando l’ipotesi nulla è vera. Se l’ipotesi nulla è vera, valori come quello che è venuto fuori dal mio campione o maggiori, hanno una probabilità di saltare fuori per caso solo dell’uno per mille. Mi viene più spontaneo pensare che l’ipotesi nulla è vera ma a me è capitato un campione sfortunato che ha una probabilità su mille o mi viene più spontaneo pensare ‘no allora l’ipotesi nulla non è vera?’. Riassunto: so qual è la statistica che mi serve e so qual è la sua distribuzione, calcolo il valore della statistica campionaria, ne calcolo la probabilità (perché so la distribuzione campionaria), la probabilità di valori uguali o maggiori di quello lì lo chiamo p-value e se il p-value è molto piccolo allora dico ‘non è probabile che sia uscito un campione strano, è più probabile che sia sbagliata l’ipotesi nulla’. DISTRIBUZIONE CHI-QUADRATO E P-VALUE Dobbiamo andare a vedere dentro la nostra distribuzione chi quadrato dove si trova il valore che abbiamo trovato (nell’es, 71.58), quindi dobbiamo trovare quale è la probabilità di ottenere un determinato valore X² o valori più elevati di questo. Per fare ciò, calcolo l’area sottesa al grafico della distribuzione chi-quadrato corrispondente al punto del nostro valore di X² in poi (a destra)  questa area è il p-value. p-value = probabilità di ottenere valori >_ X² Si confronta allora il p-value con un valore scelto convenzionalmente (solitamente 0,05): • Se p > 0,05 (p-value grande!) il test non è significativo, quindi si accetta l’ipotesi nulla H0: le due variabili sono indipendenti • Se p < 0,05 (p-value piccolo!) il test è significativo, quindi si rifiuta l’ipotesi nulla, accettando H1: tra le due variabili c’è una relazione di dipendenza. Il lavoro del trovare il p-value viene fatto perché è necessario capire se il valore di X² ottenuto sia assoluto e non relativo, e quindi per capire se sia effettivamente grande o piccolo. Il valore di X² dell’esempio (71,58) non ci dava alcuna informazione sulla portata di quel valore. ANALISI DELLA VARIANZA Il primo passo è definire l’ipotesi nulla (ovvero che le medie sono uguali) e quella alternativa (almeno una media diversa). Le ipotesi dell'ANOVA sono: ! l'ANOVA verifica se almeno due medie sono diverse, non dice quali medie sono diverse L’ANOVA, rispetto a chi-quadrato, è un test esigenze, bisogna che i dati soddisfino certe condizioni come, ad esempio: • le osservazioni devono essere indipendenti (casualità) • la variabile numerica deve avere una distribuzione normale e varianza uguale in tutti i gruppi Con l’Anova siamo un po' più indietro del chi-quadrato perché per testare l’indipendenza o dipendenza delle variabili con il chi-quadrato, eravamo già arrivati a possedere l’indicatore chi- quadrato; qua invece un indicatore unico non ce l’abbiamo. Quindi, anche qui dobbiamo arrivare a una sola statistica campionaria (come la media ad esempio) di cui poi dovremo anche sapere che distribuzione ha. Per il test ANOVA la statistica si chiama F, Fisher Questo F, a differenza di chi-quadrato, ce lo calcola JMP. Il test consiste nell’affermare con certezza se le medie sono uguali o diverse. Vedo qual è la probabilità di quel 10 della distribuzione. Per fare ciò devo concentrarmi ora sul p-value Il test dà nuovamente un valore inferiore a 0,05, per cui il test è significativo-> c’è una differenza statisticamente significativa tra le medie. VARIANZA ENTRO I GRUPPI E TRA I GRUPPI  Perché si chiama analisi della varianza, un test che serve a confrontare le medie? Consideriamo il caso di sinistra con i punti più raggruppati e quello di destra con i punti più sparsi. Sono tre medie, quindi tre gruppi, e in entrambi in casi la domanda è: la media del gruppo rosso, blu e verde sono uguali o diverse? (tipica domanda dell’anova). La media del gruppo blu, rossa e verde sono quelle indicate dal triangolino nero e sono le stesse sia a destra che a sinistra. Cosa differenzia i due casi? Nel caso di sinistra i punti di ogni singolo gruppo sono molto vicini tra di loro, hanno quindi una varianza molto piccola; nel caso di destra i punti di ogni singolo gruppo ‘significativo’ vuol dire che abbiamo un p-value minore del livello di confidenza (di solito 0,005) che ci siamo dati. ‘siccome la significatività del test ANOVA è piccola, 0,005, allora devo rifiutare l’ipotesi nulla quindi che le medie sono uguali’ Se tolgo i prodotti locali (che hanno una maggiore preferenza visibile anche senza test), sono diverse le altre medie dato che hanno oscillazioni minori? Triangolo rosso-> filtro su dati locali-> escludo i prodotti locali (doppio click su marca 100+-> prodotti locali-> inverso e si escludono). Le preferenze sono diverse? Vado a vedere il p-value -> è piccolissimo-> tra le marche industriali ci sono delle differenze. Pettinicchio e Vallelata sono le uniche 2 a distribuzione nazionale-> isoliamoli e vediamo se c’è differenza-> Pettinicchio ha una preferenza significativamente più elevata di Vallelata visibile grazie al p-value. x-> marca +; y-> sono care-> triangolo rosso-> medie/Anova. La prima cosa che devo vedere è il p- value che risulta significativo, per cui le marche sono diverse. Vediamo che i prodotti locali-> non sono considerati così cari e sono molto preferiti. Pettinicchio e Vallelata -> sono significativamente diverse per la preferenza ma non lo so per il prezzo, nel senso che si avvicinano molto. Triangolo rosso-> filtro su dati locali-> doppio click su marca 100+ -> prendo solo quei 2. Non è una differenza significativa (è maggiore di 0,05). Abbiamo fatto bene a porre come missing le marche minori?-> preferenza (y), marca (x). Triangolo rosso-> filtro su dati locali-> doppio click su marca -> includiamo solo quelle che ho messo come missing. Abbiamo fatto bene ad eliminarli perché altrimenti sarebbero state troppo penalizzate nella preferenza. La differenza tra queste inoltre è statisticamente significativa. Chi quadrato-> le marche sono distribuite tutte allo stesso modo all’interno delle aree? Che relazione c’è tra marche e aree? Devo prendere solo 2 variabili categoriche. Y: area 3; X: marca 100 + (se avessimo fatto il contrario era incasinato). Guardo la tabella di contingenza-> in ogni cella ci sono 4 numeri il cui significato è scritto a sinistra in alto. Togliamo la riga % del totale cliccando a destra e poi spuntandola. A seconda dell’area in cui siamo, c’è chi è molto presente e chi poco. Attraverso il diagramma a mosaico vediamo che tra l’area e la marca c’è una relazione-> per una conferma ci vuole il test. P-value minore di 0,005-> differenza significativa, per cui c’è una relazione. Tabella di contingenza: togliamo la % di colonne. A questo punto vogliamo vedere le frequenze attese che qui vengono chiamate “previste” semplicemente facendo tasto destro e spuntando la parola “previste”. Notiamo che c’è differenza tra frequenze osservate al Nord per Granarolo (79) e quelle attese (33); possiamo aggiungere anche la deviazione, ovvero la differenza tra frequenze osservate e frequenze attese. La conferma che queste variabili non sono indipendenti la vediamo anche attraverso il p-value che è minore di 0,05, per cui la differenze è statisticamente significativa ed esiste una relazione tra le due variabili. Se il test non è significativo ci si ferma lì; se il test è significativo si possono avere delle celle piene (si concentra tanto il fenomeno) o delle celle vuote (fenomeno assente). Le differenze nel nostro caso sono molto evidenti ma in altri casi scoprire le celle piene e quelle vuote può essere più difficile e per questo serve uno strumento in più. Età -> y; Marca -> x. Giovani e vecchi sono diversi rispetto alle marche che vengono citate? Non c’è relazione tra le marche citate. Questo era già visibile dal grafico ma viene poi anche confermato attraverso il p-value che è maggiore di 0,05, per cui non esiste una relazione tra queste variabili. Correlazione Se vogliamo studiare la correlazione ci dobbiamo ricordare che essa è normalizzata, quindi non dovremo fare dei test. Si hanno solo variabili numeriche e qui la precisione che avevamo prima per X e Y non c’è. Selezioniamo i prodotti di qualità e prodotti freschi per capire se c’è una correlazione tra di essi-> come ipotesi ci aspettiamo una correlazione positiva e abbastanza alta. Triangolo rosso-> statistiche di riepilogo-> correlazione alta con limiti di confidenza stretti, per cui la stima è precisa e la mia ipotesi è stata confermata. Altra ipotesi che voglio confermare: fare tanta pubblicità è una compensazione della scarsa qualità; se è vero, la correlazione sarà negativa (migliore è la qualità, meno bisogno ci sarà di fare pubblicità). La mia ipotesi è falsa perché la correlazione è positiva, bassa. La pubblicità la fanno un po’ tutti ma qualcuno no (esempio dei prodotti locali). Ora voglio capire con che cosa è correlato ogni attributo del brand-> vado su analizza-> metodi di analisi multivariata-> multivariato-> prendo tutte le variabili numeriche fino a origine protetta. Nella prima colonna a scalare il risultato sarà sempre 1 perché la variabile è la stessa in verticale e in orizzontale. È quindi una matrice simmetrica-> di numeri originali ce ne sono 55 ma sono comunque troppi per cui la matrice è illeggibile-> ne selezioniamo solo 3 (qualità, promozione, pubblicità). Notiamo come né la pubblicità né gli sconti sono usati per compensare problemi di qualità in quanto le correlazioni sono basse. Voglio allora capire che relazione c’è tra pubblicità e offerte. Allo stesso modo vado su analizza e prendo solo queste due variabili. La mia ipotesi è che i brand fanno o pubblicità o offerte, per cui se fossero 2 strumenti alternativi la correlazione sarebbe negativa. Non è così in quanto la correlazione è positiva-> chi ha un orientamento al mercato, fa un po’ l’uno e un po’ l’altro e c’è anche chi non fa né uno né l’altro. JMP: mozzarella Intv: a ogni intervistato veniva chiesto di parlare di alcune marche conosciute, poi gli si chiedeva di entrare nel dettaglio di queste marche. Es. l’intervistato 1 è presente cinque volte, perché ha parlato di cinque brand diversi (non ci sono 1688 intervistati). Su ogni riga ci sono dati che riguardano la marca, però ci sono anche dei dati che riguardano l’intervistato es. età. Le colonne “consumo per marca” fanno sempre parte dei dati dell’intervistato. Questo modo di prendere l’intervistato e chiedergli di parlare delle marche non è molto statisticamente corretto, perché facendo così le valutazioni di ogni persona non sono perfettamente indipendenti. Es. se uno ha la tendenza a dare voti alti/bassi si comporterà così con tutte le marche -> si fa lo stesso per i costi, si trova questo compromesso perché 1688 sarebbe molto costoso. Costruiamo un file a livello di intervistato: voce di menù tabelle -> riepilogo -> metto intv. dentro al gruppo -> quali sono le variabili che voglio riportare in questo file? Tutte quelle che hanno dall’area a consuma Pettinicchio e le trascino nell’area statistiche-> menù statistiche e scelgo come aggregare come queste variabili, scelgo “minime” -> clicco ok e vedo che gli intervistati sono 454, ciascuna delle quali ha parlato di un tot di marche arrivando a un numero di citazioni di 1688 -> media di 3.7 marche per ogni intervistato. REPORT MOZZARELLA Si può scegliere l'oggetto di indagine e il livello di approfondimento che si vuole (ovviamente più approfondita è l'analisi meglio è). Posso scegliere di fare un’analisi con: - nessuna limitazione (come in aula) - solo le marche con distribuzione nazionale - solo le marche con livelli di preferenza paragonabili - solo un'area (es. nord) - tutte le aree (nord, centro, sud) ma sole le marche principali in ciascuna di essa - solo le marche adatte a un target particolare, ci si inventa un certo target con certe caratteristiche e poi si fa l’analisi su questo. Es. target = studenti che si prendono una mozzarella da mangiare nell’intervallo, come faccio a capire quali sono le marche che va bene per questo target? INDICE PER CREARE UN REPORT 1. Obietvi e formula di ricerca  settore e committente  obiettivi: analisi della concorrenza e segmentazione dei prodotti (da scrivere alla fine del report)  Formula di ricerca: survey consumatori di mozzarella (CATI); tecniche usate 2. Campione: criteri di campionamento:  come ho creato il campione chi c’era e chi non c’era; consumatore mozzarella, conosce la marca della quale parliamo Scegliamo che il nostro campione sia della popolazione italiana, uniformemente distribuito per età (due classi) e per area (N, C, S): vuol dire che saranno circa 50-50 di persone della prima classe di età e della seconda e che 1/3-1/3-1/3 sono al Nord, al centro e al sud; questo non vuol dire che è rappresentativo della popolazione italiana, ma solo che il campione è omogeneo; le classi di età invece sono anche rappresentative della popolazione italiana. ISTOGRAMMA  Mostra la distribuzione di frequenza di una variabile numerica, quindi di default l’asse orizzontale rappresenta una variabile numerica e l’asse verticale rappresenta la frequenza Rappresentazione delle variabili numeriche divise in classi di dimensioni diverse (classi troppo grandi fanno perdere il dettaglio, mentre classi troppo piccole potrebbero indicare un’oscillazione non ‘veritiera’): Questi sono grafici che rappresentano sempre la distribuzione della stessa variabile ma si differenziano per il seguente aspetto: siccome la variabile sopra è continua per rappresentarne la distribuzione di frequenza, bisogna raggrupparla in classi. Possiamo quindi fare tante classi piccole oppure meno classi più grandi. GRAFICO A BARRE  Si caratterizza per il fatto che sull’asse (x) in cui prima avevamo la variabile numerica, ora ci stanno variabili categoriche (quindi variabili che possono essere ordinali ma che spesso sono nominali e quindi vanno in qualunque ordine  non c’è un ordine). L’asse che caratterizza ogni singola barra (x) è un’asse di una variabile ordinale o nominale. In corrispondenza dei valori sull’asse della variabile che mi interessa (y) ci posso mettere quasi qualunque cosa, ci posso mettere sia delle frequenze che delle medie. (Per facilitare la lettura è conveniente ordine le variabili in ordine decrescente) GRAFICI A TORTA E AD ANELLO  Mostrano la distribuzione di una variabile categorica ( = 100%) Attenzione: non mostrano chiaramente le relazioni tra le parti (l’anello è diviso in parti uguali) I grafici a torta funzionano bene quando si hanno poche categorie molto diverse tra loro Evitare versioni 3D di grafici a torta 2D perché distorcono i dati: GRAFICI A LINEA / AD AREA  Sull’asse x c’è una variabile numerica ordinale (il più delle volte il tempo) e sull’asse y un dato numerico. L’asse orizzontale, rispetto al quale vengono disegnate le linee e le curve, è molto di frequente il tempo ma se lo faccio con i giorni c’è un caso particolare in cui invece la variabile orizzontale viene trattato come dato ordinale, anziché numerico. GRAFICI A DISPERSIONE E A BOLLE (x e y)  proiettano i punti (dati) nelle mappe composte da due coordinate: - rappresentano due variabili numeriche in un piano cartesiano - le bolle aggiungono una terza dimensione (la dimensione) - è possibile aggiungere una quarta dimensione attraverso il colore (colorando le bolle) Le condizioni della DATA VISUALIZATION: Data Visualization VS Infografia: IL RUOLO DELL’ESTETICA 8. RIDUZIONE DELLA DIMENSIONALITÀ - finalità - analisi fattoriale e PCA - estrazione delle componenti - varianza spiegata - matrice di struttura - rotazione - punteggi fattoriali - esempi COSA SUCCEDE QUANDO AUMENTA IL VOLUME DEI DATI? RIDURRE LA DIMENSIONALITÀ: A CHE SCOPO? 1. Ridurre il numero delle variabili preprocessing dei dati per analisi successive 2. Individuare strutture nelle relazioni tra le variabili sintesi di valutazioni espresse da intervistati sintesi di dati secondari generazione di KPI Grande disponibilità di dati: più dati ci sono, più diventa necessario saperli sintetizzare; avere tanti dati non vuol dire sempre la stessa cosa, ma può essere una cosa positiva o negativa. In particolare:  Se aumenta la numerosità (righe), posso usare gli stessi algoritmi ma ci si mette un po’ di più, perché l’algoritmo deve leggere più dati; il tempo di elaborazione dei dati da parte dell’algoritmo aumenta linearmente con l’aumento del numero di dati.  Se aumenta la dimensionalità (colonne) allora il problema può diventare molto più complesso e grave, perché l’aumento del numero di colonne si riflette sulla complessità del problema in modo più che lineare. Questo può causare due tipi di problemi: • Tecnici  gli algoritmi tradizionali possono non funzionare più • Ridondanza informativa e difficoltà di interpretazione L’obiettivo è quello di generare variabili che possono sostituire quelle originali nell’elaborazione. Es. dati bancari: slide n. 7 > variabile “fattore 1” mi rappresenta l’età e il reddito; mentre “fattore 2” il debito. Se estraggo due componenti scopro le info delle sette variabili originali si può riassumere in solo due variabili. Le due analisi che dobbiamo fare per ridimensionare sono: ANALISI FATTORIALE (Spearman) e PCA (analisi componenti principali di Pearson): - Diverse tecniche di riduzione della dimensionalità: analisi fattoriale e analisi delle componenti principali - Differiscono per obiettivo prevalente, ipotesi, dettagli tecnici  La PCA è orientata alla pura riduzione delle variabili, mentre l’analisi fattoriale è indirizzata a scoprire i concetti nascosti tra i dati - Danno in genere risultati simili (Noi faremo un’analisi fattoriali col metodo delle componenti principali) Nelle relazioni tra le variabili: se ho 11 variabili (ad es. attributi del brand) ma mi sono accorto che due di queste (ad es. la qualità e la freschezza) sono molto correlate e vogliono dire verosimilmente la stessa cosa, allora posso raggrupparle in un concetto/variabile sola; raggruppamenti di variabili. Nel caso dei dati bancari, la tabella ci dice che la prima nuova variabile (fattore 1) è essenzialmente legata alle variabili evidenziate in rosa (età + reddito familiare), in quanto in quelle variabili si può notare un coefficiente di correlazione più elevato. Allo stesso modo, il secondo fattore è caratterizzato dalle variabili con coefficienti più alti, che sono quelli che riguardano il credito/debito  se estraggo due componenti e riduco da 7 a 2 componenti, certamente un po’ di informazione la perdo, però scopro che tutta l’informazione delle 7 variabili originali si può riassumere in 2 variabili: una che riassume gli aspetti di età/reddito, ed una seconda legata al reddito. Possiamo quindi così scoprire dei costrutti che prima erano presenti nei dati ma nascosti, non emergevano  erano latenti. Posso allora calcolare la percentuale della varianza totale spiegata dalla singola componente come: La % della varianza spiegata complessivamente dalle k componenti estratte è la somma delle % delle k componenti: Su JMP Utile capirlo perché dice quanto spiegano della varianza iniziale. Trovare la varianza totale è intuitivo, perché le variabili sono tutte standardizzate quindi hanno varianza totale 1; per trovare la varianza totale quindi si moltiplica il numero di variabili per 1, quindi la varianza totale sarà sempre il numero di variabili. Il peso assoluto di ogni componente è il suo autovalore λ assoluto; tuttavia, λ=3 o λ=8 non dà informazioni dirette. Per renderlo interpretabile, deve essere trasformato un peso relativo  il peso della singola componente lo so (λ), così come so il peso totale (1xp= p). Possibile domanda: che senso hanno i numeri dentro la matrice di struttura?  non possono essere percentuali perché possono avere segno negativo  sono coefficienti di correlazione Il coefficiente di correlazione ci aiuta a capire la relazione tra variabili e componente > se sono correlate vuol dire che significano la stessa cosa. Es. prima componete fortemente correlata col fattore 1 (slide n. 16); Il secondo fattore racconta una propensione all’indebitamento. Coefficiente positivo: se cresce uno l’altro cresce; negativo: al crescere di uno l’altro diminuisce. Noto anche che tutte le variabili con l’età sono negative  deduco che l’indebitamento è una propensione dei più giovani Più la relazione variabile  fattore è vicino allo zero più le due non hanno correlazione; più la relazione è vicina all’1 maggiormente sono relazionabili ESTRAZIONE COMPONENTI  Analizza  metodi di analisi multivariata  multivariata  selezione le variabili numeriche del file Bankloan  così ho fatto la matrice di correlazione: Clicco sul quadratino rosso  componenti principali  vedo che la prima componente pesa il 46% (3,2 / 7)  quindi invece di sette variabili ne posso mettere una sola  le prime due assieme pesano quasi l’80% della varianza originale: Sette perché sono sette variabili  Estraendo queste componenti e vedendo quanto pesano ora ci chiediamo che cosa significano  bisogna capire cosa vogliono dire 4. Con i coefficienti di correlazione trovati, non risulta facile interpretare la matrice di struttura, in quanto sono dati relativi; sarebbe più facile potendo dire con certezza che i coefficienti sono vicini a 0 a +/-1 in maniera assoluta. Se il coefficiente è vicino a 0 allora la variabile non c’entra niente con quel fattore; al contrario, quando la variabile è vicino a 1 sarà molto fortemente correlata con quel fattore. Per poter ottenere ciò, si può svolgere un’operazione il cui scopo è quello di trasformare i coefficienti di correlazione in modo da avvicinarli a +/-1 o 0  trasformo la matrice di struttura in un’altra che si spera abbia un’interpretazione più facile. Come sappiamo, le componenti principali costituiscono un sistema di assi ortogonali a k dimensioni; per favorire l’interpretazione si possono semplificare le relazioni tra componenti e variabili, modificando i coefficienti della matrice di struttura in modo da avvicinarli a +/-1 0. La rotazione fornisce una soluzione alternativa a quella originale, che è quella descritta dal diagramma dei pesi non ruotato; dal punto di vista tecnico, la rotazione è realizzata cercando di forzare i coefficienti tra 0 e +/-1. ùRotazione: quante variabili tiro fuori  su JMP  componenti  rotazione  lascio 2 e metto asse principale e componenti principali  cominciamo dal diagramma dei pesi non ruotato, che trasforma la matrice non ruotato a ruotato Su JMP: triangolo rosso analisi fattoriale --> rotazione dei fattori, dove bisogna sistemare alcune cose: su 2 perché voglio 2 fattori; tassativamente asse principale e componenti principali Diagramma dei pesi dei fattori lo togliamo; quello che interessa è vedere quello che succede sul diagramma dei pesi non ruotato = matrice di struttura originale, come i componenti sono venuti fuori dall’estrazione. Esempio 1: riduzione dimensioni (immagine di marca) Numero massimo = al numero delle variabili, ma quale è il numero minimo di variabili che posso estrarre? Esempio 2: generazione KPI; generazione di un indicatore di brand equity Si può estrarre una sola componente? SI! Ad esempio, per generare un indicatore di Brand equity Differenza tra fare la media e fare la componente principale? Perché di solito si fa la componente principale e non la media? La prima componente si genera come somma ponderata delle variabili, e fino a qui non siamo molto lontani dalla media; la seconda componente è avere la massima varianza possibile rimanente. La differenza è quindi che nella media i pesi sono tutti uguali, mentre nella componente principale i pesi sono tutti diversi, e così ce ne saranno uno più grande uno più piccolo uno medio così verrà la varianza massima. Su JMP: file mozzarella Tengo separati gli attributi del prodotto e quegli della marca: Analizza --> metodi di analisi multivariata --> multivariata --> triangolo rosso di “multivariato” --> componenti principali --> sulle correlazioni Dato che con la terza variabile si spiega il 70% della varianza totale (da colonna “percentuale cumulativa”), allora posso pensare di estrarre 3 fattori --> triangolo rosso “componenti principali/analisi fattoriale” --> rotazione fattori --> 3 Interpretazione dei fattori Fattore 1; i coefficienti di correlazione più alti sono: affidabile, prodotti di qualità, sempre freschi, tradizione, esperienza… tutto questo fa pensare al fatto che sono tutte declinazioni del concetto di qualità  fattore 1 – marca di buon livello Fattore 2 – orientamento al cliente e attenzione al mercato Fattore 3 – bufala e DOP Rispetto al diagramma di pesi non ruotato, vediamo che la rotazione ha aiutato all’interpretazione. Il primo fattore ha molte variabili e gli altri due fattori sono molto precisi, la speranza nel ruotare è sempre che il primo fattore si alleggerisca di tutte le variabili. Domanda esame – Cosa sono i numeri all’interno della matrice di struttura? • Medie delle variabili dei fattori • Correlazioni dei variabili con in fattori • % delle variabili spiegate dai fattori • % dei fattori spiegati dalle variabili Per farlo allora provo ad estrarre 4 fattori al posto di 3, con lo stesso procedimento: Analizza --> metodi di analisi multivariata --> multivariata --> triangolo rosso di “multivariato”--> componenti principali --> sulle correlazioni --> triangolo rosso “componenti principali/analisi fattoriale” --> rotazione fattori --> 4 È cambiato qualcosa? Il primo fattore è uguale a prima, e ha lo stesso significato di prima; il terzo fattore pure, che rimane su bufala e DOP Allora vuol dire che sarà cambiato il secondo fattore; da una parte sono finite al fattore 2 la distribuzione nazionale e la pubblicità, mentre nel fattore 4 sono andate le offerte promozionali  questa estrazione a 4 quindi ha fatto sì che i due concetti (bufala dop e qualità) sono rimasti uguali, mentre il fattore 2 (pubblicità e offerte) si è spaccata in due, creando il fattore 4 Allora i 4 fattori diventano con ambiti: Fattore 1 – qualità Fattore 2 – pubblicità Fattore 3 – bufala e DOP Fattore 4 – promozioni Se ci occupiamo di marketing, allora la distinzione che nasce tra promozioni e pubblicità può diventare interessante, quindi ci permette di distinguere le due leve. Il nostro obiettivo è confrontare i competitor, e del tutto in generale avevamo visto che tra promozioni e pubblicità c’era una debole correlazione positiva; e facendo così si può entrare più nel dettaglio. Eliminiamo l’analisi a 3 fattori. 9. ANALISI PREDDITTIVA Esempio 1: costumer satisfaction Problema: orientare investimenti e/o comunicazione sugli aspetti di un prodotto/servizio ritenuti più importanti dai clienti Obiettivo tecnico: capire cosa influenza il gradimento (e cosa no) e quindi cosa influenza l’acquisto Dati  survey sui consumatori/utenti: • Valutazione overall del prodotto/servizio • Batterie di item che descrivono il prodotto/servizio (opinioni, comportamenti, sociodemo…) Esempio 2: assicurazione sanitaria Problema: una compagnia di assicurazione vuole pubblicare online un algoritmo per stimare la spesa sanitaria annuale delle persone allo scopo di definire il premio assicurativo. Obiettivo tecnico: stimare la spesa sanitaria di clienti potenziali sulla base di dati individuali facili da ottenere Per fare ciò, la compagnia di assicurazione usa i dati dell’ultimo anno dei suoi clienti attuali, dei quali da tutto, compresa la spesa sanitaria. Cosa hanno in comune/diverso questi due problemi? Configurano due diverse domande di marketing, non esclusive ma fondamentalmente diverse: • Esistono delle variabili che permettano di predire una certa variabile? Se ci sono, su quale mi devo concentrare? • Nel secondo caso il focus è: si possono fare predizioni su una certa variabile? Es. previsione vendite, prevenzione churn. Le due cose sono intrecciate perché in entrambi i casi l’obiettivo è quello di trovare un algoritmo in grado di fare delle stime e di predire  l’Analisi predittiva contiene: - i modelli di regressione, sui quali di concentreremo noi - analisi delle serie storiche, che in base ai dati passati creano nuove predizioni - machine learning e Al Obiettivo dei modelli di regressione è analizzare la relazione tra una o più variabili esplicative (predittori, variabili indipendenti) e una variabile risposta (variabile dipendente). L’idea è che tramite le variabili esplicative si possa approssimare la variabile risposta, ovvero che le variabili esplicative “spieghino” la variabile risposta.  identificare un algoritmo o una formula che leghi i predittori alla variabile risposta. Proviamo a prevedere l’incasso (y) di un film in base alla spesa di promozione (x) Ci sono diversi modelli di regressione, che dipendono: - dal tipo di relazione tra predittori e risposta es. lineare, non lineare - dalle caratteristiche della variabile risposta es. numerica, binaria → il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione che le lega è lineare (es. retta, piano) Primo box: sembra che con una retta l’insieme dei punti si possa approssimare Secondo box: i punti sembrano sparsi casualmente nel piano Terzo box: con una retta non si riesce sicuramente ad approssimarli, è una parabola Noi ci occuperemmo della regressione come la troviamo nel primo box -> una regressione lineare semplice. Ci sono diversi modelli di regressione, che dipendono: • Dal tipo di relazione tra i predittori e risposta (es. lineare, non lineare) • Dalle caratteristiche della variabile risposta (es. numerica, binaria) Il modello più semplice è quello in cui tutte le variabili sono numeriche e la funzione che le lega è lineare. Nella situazione del box a sx, con i pallini verdi, si può dire che sembra che i punti si possano approssimare bene con una retta; nel box a destra, con i pallini viola, i punti non si possono approssimare con una retta, anche se chiaramente c’è una relazione parabolica; nel box in mezzo invece i pallini rossi non sono correlati in nessun modo. Prendiamo in considerazione il caso dei pallini verdi. Relazione lineare, ossia di primo grado. Decidiamo di sintetizzare le relazioni con una equazione lineare: Identificare propriamente quella retta significa identificare i coefficienti a e b, dove a è la costante e b è il coefficiente di regressione. Come identificare a e b? I punti non sono mai esattamente allineati, dobbiamo cercare una retta che li approssimi; il fatto che i punti non sono allineati vuol dire che la retta che troveremo non passa per tutti i punti, ma avrà un certo scarto/errore residuo nei confronti dei punti originali  per ogni punto c’è una componente di errore ei (residuo). Il calcolo della regressione lineare consiste nelle stime dei parametri a e b per i quali i residui sono più piccoli possibile (metodo dei minimi quadrati). I punti sono sparsi nel piano, noi dobbiamo trovare una retta. La retta che troveremo non passa per tutti i punti, ma da ogni punto ci sarà uno scarto rispetto ai punti originali -> l’errore La retta che consideriamo migliore nell’approssimare i punti è la retta per la quale gli errori sono i più piccoli possibile. Su JMP  Regressione Analizza -> stima modello -> gli dobbiamo dire cosa stimare in funzione di che cosa -> box office sulle y mentre promotion sulla x -> report minimale -> ci concentriamo sulle stime dei parametri  Se un predittore aumenta, gli altri devono rimanere fermi  I predittori nella realtà si muovono insieme  es. production e promotion sono correlate tra di loro, è difficile far salire production senza far salire promocion I coefficienti bj misurano il contributo relativo di ogni predittore solo se i predittori: 1. hanno lo stesso ordine di grandezza, es. cambiamento cm – m fatto in classe 2. non sono correlati tra loro 1°. Problema: Occupiamo del problema “stesso ordine di grandezza”: si risolve coi coefficienti standardizzati Se i predittori non hanno lo stesso ordine di grandezza si possono confrontare i coefficienti standardizzati (beta) JMP  box stima dei parametri  click destro, scegliendo colonne  scelto la colonna “beta standard” I coefficienti standardizzati sono quelli che si otterrebbero se si standardizzassero (cioè mettere media 0 e varianza 1) prima di fare la regressione. Beta std: sono i coefficienti standardizzati -> vedo che promotion è più grande di poco rispetto a production -> conclusione: promotion ha un impatto maggiore di production. Se gli ordini di grandezza sono diversi dobbiamo usare i beta standard 2° Problema: Collinearità (correlazione tra predittori) Se i predittori sono correlati tra loro (cioè se c'è collinearità) i loro contributi sono in parte sovrapposti La presenza di predittori correlati è tollerabile entro certi limiti, oltre i quali i coefficienti di regressione diventano instabili -> ci sono certi indici che ci indicano questi limiti (VIF) -> predittori con indici di collinearità inaccettabili (es. VIF > 5) dovrebbero essere esclusi dall'analisi (uno alla volta) Variabili con VIF > 5 dovrebbero essere tolte Significatività dei risultati  la significatività dei risultati della regressione si può calcolare quando sono verificate delle assunzioni probabilistiche: 1. le osservazioni devono essere indipendenti controesempio: intervistati collegati tra loro (stessa famiglia) 2. gli errori devono avere distribuzione normale-> gli errori si devono distribuire in una fascia circa parallela alla retta 3. gli errori devono avere varianza costante controesempio: consumi in funzione del reddito i punti non formano una fascia parallela alla reta ma ad imbuto se le ipotesi probabilistiche sono verificate allora si possono fare due test sulla regressione: 1° Test: Significatività dell'approssimazione globale la bontà dell'approssimazione globale si verifica testando l'ipotesi che non ci sia nessuna relazione tra la y e i predittori il test è una ANOVA, la statistica test è F  perché il modello sia accettabile bisogna che il p-value sia piccolo (es. p < 0,05) -> p value piccolo vuol dire respingere l’ipotesi, vuol dire che è presente almeno un predittore diverso da zero. 2° Test: Significatività dei coefficienti di regressione ci permette di capire quali predittori sono buoni e quali no, test dove analizzo i singoli coefficienti di regressione -> ci dice se il coefficiente è significativamente diverso da zero. la significatività dei singoli coefficienti si testa confrontando il valore di ogni bi con zero mediante la statistica t Perché un coefficiente sia significativo bisogna che il p-value sia piccolo (es. p < 0,05) Passi per interpretare i risultati in regressione 1. ANOVA -> deve essere per forza significativa (di solito lo è sempre) 2. R quadrato -> che dice quanto è significativa (quanta varianza spiego? – guardo l’R quadrato 3. Coefficienti: VIF e test t -> esamino la significativa e tolgo le variabili inutili, a questo punto si suppone che siano rimasti solo i coefficienti con significatività Standardizzati o no? devo capire se standardizzarli o meno; se hanno diversa scala allora gli standardizzo e uso i beta standard (guardo la colonna stima o la colonna beta standard) Segni e valori: segni -> guardo se il coefficiente è positivo o negativo; se è positivo vuol dire che quell’attributo fa aumentare la soddisfazione, altrimenti è il contrario. Il segno del coefficiente è la prima cosa da guardare perché mi fanno capire quali influenzano la variabile risposta. valori-> chiedersi quali sono i coefficienti dei predittori (devo guardare il beta standard). Cenno alla regressione logistica: Quando la variabile risposta è binaria (es. successo/insuccesso, presenza/assenza, 0/1) si deve usare la regressione logistica Introduciamo questo nuovo modello di regressione perché la r. logistica si deve applicare quando la variabile risposta/dipendente è binaria -> Se la y è binaria, al variare della x i punti non formano una nube di punti nel piano come succedeva per la regressione lineare, ma sono disposti così: 1.90 è 000 e (100 7 “ss Pa 0.75: / 0.75 F 0.50 0.50 0.25 0.25 / 0.001 censo come e è + 0.001 emme memi e Per questo non posso approssimarli con una retta-> si deve approssimare il tutto con una curva a forma di S -> i punti sono tutti allineatio sulosu0 Se sono tanto in alto la probabilità di essere 1 è molto alta, senno è molto bassa sogna applicare la regressione logistica? Quando la varabile dipendete/risposta è binaria sta Quando osta Gli obiettivi sono quelli di tutti i modelli di regressione: - identificazione dei migliori predittori della variabile risposta - classificazione di nuovi casi come successo o insuccesso es. prevenzione del churn esempio: file prestiti bancari [_NI Media Devstd| Min] Max ‘Age in years 700) 34,86 7,5973421908) 2) 56 Years with current 700| 83685714285 ol 3 n 700 8.2785714286) ol si Household income in Inousands | 700] 45601428571 | 36814226401 tal 446 Debt to income ratio (€100) —|700] 10260571429) 68272335843] —G4| 413 Credit card det ir thousands |700| 1,5$35528171| 2.1171969871|0,011696| 2056131 Other debt in housands 100) 3.0584086114| 3.2875545297| 01045584) Previously defauited No st) Previously defaulted: se è capitato che non pagasse o meno -> usare questa come variabile dipendete (yes/no) e le altre sono predittori -> quali fattori prevedono meglio? Riesco a prevedere se un cliente è più yes o no? 1. guardo ANOVA: significatività globale 2. poi scendo ai coefficienti: più uno è stabile, anziano meno probabile è che faccia default -> la stabilità diminuisce il rischio di insolvenze 3. significatività coefficienti: es. l’indebitamente sulla carta di credito aumenta il rischio di non pagare abbiamo due tipi di debiti: uno è significativo l’altro no -> quello che rischia di non farti pagare è quello sulla carta di credito (<0,001), mentre il mutuo non rischia perché ti organizzi e non rischi di stare fuori (0,0331) la r. logistica non ha i limiti di quella normale: - nessuna assunzione sulle variabili esplicative o sui residui - si possono utilizzare insieme predittori numerici e categorici - numerosità del campione -> la regressione logistica ha bisogno di tantissimi dati perché non usa il criterio dei minimi quadrati, bisogna usare un criterio diverso più esigente che non vedremo: N = 10 k / p (min 100) k numero di variabili p proporzione del gruppo più piccolo della variabile risposta - la regressione logistica binaria può essere estesa a variabili risposta categoriche non binarie-> il ragionamento è simile a quello fatto con la r. binaria 10. MAPPING Brand Mapping: rappresentazione grafica di brand (o alti oggetti) in uno spazio (mappa) che mostri le similarità in modo semplificato e intuitivo - si tratta di individuare due dimensioni rispetto alle quali collocare gli oggetti - gli oggetti si dispongono tanto più vicini quanto più sono simili (relativamente alle dimensioni individuate) -> il concetto di similarità di trasforma in vicinanza sulla mappa - lo scopo del mapping è descrittivo ed esplorativo esempi: Identifica due assi sulla mappa rispetto ai quali si collocano dei punti, che spesso sono marche. La vicinanza tra le marche indica che sono marche simili Mappa social media: intimo/non intimo – basato o meno sulle immagini Mappa cioccolato: qualità – prezzo; è la mappa peggiore perché rappresentare queste due dimensioni significa mostrare due variabili che variano assieme-> al variare della qualità varia anche il prezzo Mappa creme: etica – prezzo. Quadrante crema etica che costi poco è vuoto, questa è una opportunità per creare nuovi prodotti che possano occupare questa fetta di mercato Mappa modelli Rayban: classico/moderno-costosi/economici. Tutti i quadranti sono pieni perché sono tutti modelli della stessa marca. la differenza tra l’analisi fattoriale e la segmentazione (cluster analysis)  l’analisi fattoriale raggruppa colonne, mette insieme le colonne più correlate genera idee e concetti, i fattori sono dei significati es. attenzione al prezzo: non devo dire “questi sono quelli che stanno attenti al prezzo”, ma devo dire “questa rappresenta l’attenzione, poi ci sono quelli che stanno attenti e altri no” l’analisi cluster mette insieme righe, cioè mette insieme le unità, cioè le righe più vicine tra di loro in genere degli oggetti che sono dello stesso tipo delle unità, es. se le unità sono azienda la cluster genera aziende Distanza tra unità: Per generare gruppi omogenei di unità si utilizza il concetto di prossimità o vicinanza tra unità statistiche (non tra variabili)  prossimità = similarità. Es. Boiano e Cuomo: sono le due marche più simili; prod. Locali e Granarolo: sono le marche più lontane tra di loro Occorre misurare la vicinanza tra unità e tra gruppi di unità Distanze più comuni: Distanze diverse possono dare ordinamenti diversi Euclidea: distanza regolare City block: La distanza non è sempre simmetria, es. se invece di misurare la distanza in metri la misuro in costo per andare da A a B, allora basta andare in montagna per capire che una strada è più costo di un’altra. Euclidea al quadrato: usare questa distanza vuol dire penalizzare i punti che sono più lontani Distanza tra gruppi di unità (criteri di aggregazione) come si calcola la distanza tra gruppi di punti? - tra i due punti più vicini oppure - tra i due punti più lontani - media delle distanze a coppie - tra i centroidi - metodo di Ward: i gruppi più vicini sono quelli unendo i quali si ha il minimo aumento della varianza interna ai gruppi nessuno modo è meglio degli altri -> il prof suggerisce di usare sempre la distanza di Ward, quella che dà il risultato migliore quasi sempre Indici di similarità (per variabili binarie) le unità u e v sono rappresentate da zeri e 1: 1 = sì, presenza (es. quella persona ha visto quella serie) 0 = no, assenza (es. la stessa persona non ha visto quella serie) i valori possono essere riassunti in una tavola di frequenza: Numero dei possibili raggruppamenti → bisogna usare delle strategie senza esplorare tutte le possibilità - metodi gerarchici - metodi non gerarchici - altri metodi Metodi gerarchici (agglomerativi): algoritmo 1. si parte dalla soluzione con n cluster di una sola unità 2. si aggregano i due cluster più vicini (al primo passo: le due unità più vicine) 3. si procede iterativamente aggregando i due cluster più vicini: ad ogni passo il numero dei cluster diminuisce di 1 4. l'ultima soluzione è un unico cluster con tutte le unità Metodi non gerarchici: k-means Bisogna indicare prima il numero dei cluster è il metodo non gerarchico di uso più comune - utilizza la distanza euclidea - massimizza le distanze tra i centroidi - richiede di indicare a priori il numero dei cluster - di solito i centri iniziali sono scelti dall'algoritmo di calcolo Come usare l’algoritmo k-means? 1. si fissa il numero di cluster (e si ottiene solo quello) 2. si scelgono i centri iniziali dei cluster, anche casualmente 3. si associa ogni unità al centro al quale è più vicina-> per ogni punto mi chiedo “il centro iniziale scelto a quale punto è più vicino?” 4. si ricalcola la posizione dei centri, es. ricalcolo la posizione di ogni centro, nell’esempio il centro rosso e il centro azzurro 5. si ripetono i passi 3 e 4 fino a quando i centri si stabilizzano ultimo punto “centri finali” -> il cluster rosso si arricchisce di un punto, mentre quello azzurro ne perde uno; continuo così fino a quando i centri non si spostano più Allora quale dei due metodi scelgo? k-means è obbligatoria se ho molti casi, lavora bene su milioni di righe, mentre se ne ho pochi scelgo tra le due se le singole unità hanno un significato noto (marche, paesi ecc.) e le voglio interpretare singolarmente  metodi gerarchico se invece ho un campione con tanti dati  metodo k-means Machine learning supervisionato supervisionato = c'è una variabile target problemi di stima e di classificazione * modelli di regressione * alberi * reti neurali ML: come si valuta la bontà dei risultati? *. nel MLun classificatore è fatto per classificare nuovi casi: l'algoritmo potrebbe classificare benissimo i casi sui quali è stato creato ma funzionare male su nuovi casi è il dataset disponibile viene diviso in training set e test set: il classificatore viene addestrato sul training set la bontà del risultato viene valutata sul test set Machine learning vs statistica * statistica: modelli per rappresentare la realtà 3 criteri "interni" per valutare la bontà dei risultati (es. R2) *. ML: algoritmi per prevedere fenomeni reali non c'è nessun modello di riferimento le relazioni tra le variabili sono desunte solo dal training set la validazione dei risultati dipende solo dal test set > il fattore critico sono i dati variabili utilizzate, rappresentatività, numerosità Deep learning * il ML elabora i dati nella forma originale e richiede competenze specializzate per individuare le variabili utili * il DL parte dai dati grezzi e scopre automaticamente le rappresentazioni intermedie necessarie 3 criticità: dati, complessità, dipendenza dall'applicazione TEA ———- MACHINE LEARNING . aio TÀ GIS DO +>@ -@ = DEEP LEARNING -- Text analytics > analizzare e interpretare testi in modo automatico 1. il primo passo è trasformare i testi in matrici di numeri (due modi diversi: bag of words e word embedding) 2. poisi possono applicare tecniche generali (es. cluster) o specifiche (es. topic detection, sentiment analysis, NLP) tosto importa | prend* | strada arrivi la fermi | posto | prima | via 1 quale sad devo prendere per andare vie de qui v 1 1 e o o Ù 1 2 dipende da dove vuoi ancare oe ° 1 o o olè 3 nonm Importo ° ° o e 9 o 0 e 4 allera non importa che stia prendi 1 1 o o a a oe £ purché ardvlin qualche posto DC) ° ' e o oe 6 basta che non ti fermi prima oe ° ° e 1 o 1 o ' ‘quale strada devo prendere per ancare via da qui | 0.0483528 00125997 0032925. CCO344255 00115785 2 dipende da dora vuoi andate 00377081 -000886226 -0.0652554 00155435 00152166 ai nen mi importe 0O274SII 00381882 -0232955 00361067 a allora ner importa che strada prendi 00360655 0019922 D044s0s8 0047941 s purché arivi in qualche posto 000264882 00115395. 000835681 00137115 00449148 6 aste che nen tieni arma. DOTISIOI -OOISOM 0131489 00076016. -0.00923364 Sentiment analysis: criticità - mancanza di contesto - eccesso di semplificazione - ambiguità, ironia, sarcasmo, negazioni
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved