Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Appunti Data analysis, Appunti di Management Analysis And Systems

Appunti Data Analysis prof.Della Beffa e prof.Ivaldi

Tipologia: Appunti

2022/2023

Caricato il 30/12/2023

simone-robbiati
simone-robbiati 🇮🇹

Anteprima parziale del testo

Scarica Appunti Data analysis e più Appunti in PDF di Management Analysis And Systems solo su Docsity! DATA ANALYSIS Lezione 1 (26/09/2023) Analisi di mercato: x volontà di rispondere a Bisogni e Domanda WHO:  Strutture interne ad azienda MA a volte si fa aiutare  Da fornitori esterni  generalisti (Nielsen, Doxa, Ipsos …) Specializzati (x segmento / attività / tipo di analisi) SUO PROCESSO:  Obiettivo  capire cosa si vuole analizzare (senza aggiungere troppi obiettivi)  Quale formula di ricerca?  Descrittiva: data visualization Diagnostica: cosa fa la ≠enza (genere, età) Predittiva Prescrittiva  Quali dati  Raccolta di dati  Analisi dei dati  Interpretazione e presentazione dei risultati  Follow up e messa in produzione Analisi Qualitativa: A sé stante in molti ambiti MA in analisi di mercato è un passo propedeutico dell’analisi quantitativa quando non ne so di un certo argomento. (es. definire il problema/obiettivo, per fare domande giuste) Focus group  moderatore con gruppo ristretto Interviste in profondità un intervistatore con 1 consumatore Fonti informative: decidere quali dati usare  Dati primari  rilevati apposta x quell’obiettivo Sono per lo + rilevati da fonti esterne (i fornitori est.)  Dati secondari  già ∃!nti e raccolti x altri scopi Provenienti da Fonti Est. (ISTAT) “ “ Fonti int.  deriva da operatività quotidiana dell’azienda CRM (web, social, call center) Sono big data oggettivi di alta qualità MA non sono specializzati ≠ Dati: 1) Classificazione  sociodemografici per le persone X imprese (descrittivi delle aziende): dimensioni Settore Fatturato NO rilevati da dati secondari (MA in ℝtà è possibile es. commenti sui social attraverso la sentiment analysis) 2) Opinioni  valori, preferenze, soddisfacimento 3) Comportamenti  acquisti (frequenza) Pagamenti Web Lezione 2 (27/09/2023) Software: JMP Applicazione:  Statistica (storici) c’è una certa sovrapposizione x mansioni  Machine learning Politica commerciale:  Shareware (limitaz. severe a scadenza, con trial)  Freeware (concesso in uso free con limitaz)  $ $  Linguaggi opensource (Pyton) Tipo di utilizzo:  Interfacce grafiche (a menù / workflow)  Controllo a comando (programmaz) Sondaggi e questionari Campione + grande mi dà variabilità int. Minore All’ aument. Campione diminuisce Varianza Affidabilità e Precisione Metodi di contatto: CAPI  Computer Assisted Personal Interviewing Interviste con persone Es. al banchetto del supermercato (campionam. di convenienza) Pro: si può esplorare qualunque target senza limitaz. Qualità ALTA Accuratezza Contro: tempi lunghi Co$ti Rischio di Bias (distorsioni) da pte. intervistatore (influenzare risposta) Desiderabilità sociale (teoria della spirale / omologazione) CATI  Computer Assisted Telephone Interviewing Interviste telefoniche Pro: Qualità Tempi brevi Accuratezza (≈ CAPI x controllo e rilevaz) Contro: costi (15 euro a intervista per mille casi) (?) CAWI  Computer Assisted Web Interviewing Interviste sul web Invito a rispondere via @/web/ social Pro: Costi (nulli) Tempi brevi (non sempre) nell’immediato rapidi MA poi x rilevaz. molto lunghi Contro: minor accuratezza = distorsione Filtro internet (es. spam) Autoselezione  risponde chi vuole NO casuale (risponde pubblico polarizzato, chi è indifferente no) Creazione questionario: Keep It Short and Simple (KISS) 1) Cosa voglio scoprire 2) Costruire sequenza logica delle domande Cosa va prima e cosa va dopo Le ultime domande sociodemografiche MA se alcuni di questi caratteri fanno parte dei criteri di ESCLUSIONE e INCLUSIONE li devo chiedere subito Es. prima gradimento globale o gli attributi del prodotto?  Se metto x prime le domande sul gradim. Globale intervistato mi risponde nel modo + libero possibile se quel prodotto gli piace o no  risposta NO condizionata  Se chiedo prima gli Attributi del prodotto  intervistato è portato a rispondere al gradim. solo sulla base degli attributi del prodotto = È meglio prima chiedere gli attributi del prodotto che mi interessano e poi chiedere gradim. se voglio sapere cosa Rmente pensa su prodotto. 3) Formulaz. delle domande e decidere forma delle risposte (aperte/chiuse, in quale scala: molto/ non so (impone alla gente di rispondere MA rischio che rispondano a tutto “non so” e non diano dati sostanziosi) / x niente Esempi di domande sbagliate: - Nella sua famiglia ci sono bambini?  manca età e termine “nucleo familiare” - Evitare le negazioni  la risposta ad esse si/no risulta ambigua - Risposte devono essere mutualmente esclusive - Dare x scontato situazioni che non sono state precedentem. richieste (es. dove è andato in vacanza l’estate scorsa? Magari no andato in vacanza) - NO domande basate sul ricordo - Domande sensibili  troppo personali (prima liberatoria da firmare) X i bambini bisogna avere accortezze simili x tutto il questionario - Domande faziose - Domande Replicate  se INFO ci interessa risulta molto utile rifare la stessa domanda in forma diversa - Domande a scala invertita  x contrastare risposte incolonnate e inerzie dell’intervistato (rispondere sempre con “bene” solo xkè in colonna + comodo) Google forms X fermare questionario a persona che non è il nostro campione di ricerca si clicca su sezione “aggiungi sezione”  inserire “fine del questionario” Bisogna rendere la domanda obbligatoria (in basso a dx vai su tre puntini in verticale e poi “sezione in base a risposta”  X fare domande a tappeto su det. prodotto faccio stesso procedim. Lezione 3 (3/10) Se JMP non va scrivere a service desk DATI  sono disposti per matrici x unità variabili (es. dataset slide) Matrice dei dati  spazio nel quale le unità sono punti e le variabili (colonne matrice) sono dimensioni È un’interpretaz. geometrica della matrice 1) Rappresentaz. a due piani (asse cartesiano) 2) “ a tre variabili  3 dimens. 3) Se + variabili rappresentaz. geometrica no possibile MA concettualmente spazi a tante dimens. in cui ogni unità vale un pto. TIPOLOGIA DATI: (pto. di vista tecnico) (dati primari e secondari e di classificaz. e di opinione) - Numerici  rappres. Info numeriche Qualunque operazione su di essi è lecita - Categorici  espressi da categorie (etichette) No operaz. aritmetiche  unica cosa è la Distribuz. di frequenza Devono essere:  Esclusive (appartenenza ad una categoria esclude appartenenza ad un’altra)  Esaustive (devono rappresentare tutte le info di quel dato) o Dati Ordinali  via di mezzo tra dato categorico puro e i numeri Esiste un ordinamento, si sa quale categ. viene prima e quale dopo MA tra di loro non hanno le stesse distanze es. istruzione scolastica (elementari - medie – superiore) NON sono del tutto numeri xkè non hanno distanze fisse le une dalle seguenti (es. medie 3 anni ma superiori 5 anni  distanza variabile) Scale di Likert  modo di chiedere le opinioni (per niente - poco - così così - abbastanza - molto) Sono molto usate Usate spesso come scale numeriche (associare numeri a richiesta opinioni) o Dati nominali  NULLA di numerico es. la marca o stato civile  Dati Binari  possono assumere solo 2 valori sono formalmente dati categorici MA si possono usare come dati numerici (0, 1) in molte analisi  xmette di fare analisi che richiedono dati numerici anche su dati categorici. Variabili Dummy un dato con k categorie può essere trasformato in k dati binari es. 3 variabili area geografica (nord – centro – sud)  affiancare a quella colonna 3 colonne che varranno ognuna 0-1 in base ad appartenenza dell’unità statistica esaminata. Probabilità  misura della possibilità che un evento possa accadere P= numero di casi favorevoli / n di prove Se numero di prob = 1 è evento certo Se prob = 0 evento impossibile La somma delle prob. di tutti gli eventi è = 1  Σ𝑝 = 1 DISTRIBUZIONI DI PROBABILITA’ Sono modelli teorici che idealizzano, generalizzano le Distribuz. di frequenza (queste ultime sorgono da rilevam. di campione) 2 tipi di Distribuz. di Probabilità: - Distribuzioni Discrete  vedi slide n. 6 La probabilità è concentrata nei punti, altrove è 0  lancio di un dato e sua probabilità di lancio (6 possibili valori tutti ugualmente possibili di verificarsi = ogni valore vale 1/6)  Lancio di due dadi: distribuz. di probabilità della SOMMA del lancio dei 2 dadi  può assumere valori da 2 a 12 In totale abbiamo 36 possibilità di lancio (6x6)  probab. dei 2 dati è 1/36 MA il numero + probabile di uscire è il 7  Lancio dei 2 dati con il val. + alto (max)  conto quante volte uscirebbe il numero 6 (11/36) Es. Il call center: modello teorico: - Successo (dati binari)  prendere la linea - Tentativi ripetuti - I tentativi sono indipendenti - La probab. è = a ogni tentativo (p=0,2) Eventi, distribuz., probabilità 1. Probab. di prendere la linea con 1 solo tentativo 2. Probab. di chiamare n. volte x trovare una persona (quante call devo fare x avere 1 persona) 3. Probab. di trovare k persone in n tentativi (se faccio 100 telefonate qual è la prob. di avere n. risposte?) 4. Probab. di dover fare n tentativi x avere k persone (quante chiamate devo fare x raggiungere n. persone?) - Distribuz. Continue  la probab. di avere valori in certo intervallo è l’area compresa tra A e B sotto la curva (che rappresenta la distribuz. di probab)  L’area intera sotto la curva deve valere 1 (xkè si verifica sicuramente uno di quei casi)  La probab. di un singolo punto è 0 (diverso da probabile discreta)  geometricamente ha senso xkè l’area relativa a un punto è un segmento ed è quindi = 0 MA questo ci infastidisce xkè nella Rtà esiste la probabilità di un singolo punto ANCHE SE nella Rtà si approssima per intervalli (es. non si è alti esattamente 1.70 MA si arrotonda (1,69-1,70) - Distribuz. Normale (Gaussiana)  distribuz. continua a forma di campana (-∞< x< +∞) Ha sempre a forma a campana MA non è una distribuzione sola, può variare rispetto a 2 parametri che fanno si che distribuz. scorra + a destra che a sin (Media) o che sia molto appuntita o appiattita (Deviaz. Standard) Nel grafico slide 9 la linea verde ha varianza + grande (xkè + lontana da linea) Proprietà:  Simmetrica, con forma a campana  Alte probab. vicino al centro, tendenti a 0 nelle code  Media = mediana Esempi di variabili con buone approssimazioni normali - Le precipitazioni annuali - Valori biologici - Tempo percorso casa lavoro - Dimens. pezzi prodotti da macchina - Errori casuali - Distribuz. limite di altre distribuz. Esempi di variabili non normali:  Reddito (curva alta all’inizio e poi molto lunga al diminuire del reddito)  Dimens. aziende italiane  Lunghezza dei fiumi  Numero di follower  Tempo di attesa della metropolitana (distribuz. uniforme xkè metro passa ogni 3 minuti e io posso capitare formalmente in ogni momento entro quei 3 minuti) Il prezzo dei funghi intorno ad un mese oscilla intorno al prezzo medio  è una variabile con distribuz normale QI  variabili con distribuz. normale (c’è un quoziente medio e probab. di essere sopra o sotto la media è straordinario) Permanenza utenti in pagine sito web  distribuz. con variabile NON normale Importo dello scontrino  esiste valore medio e ci sono valori più alti e più bassi = distribuz. normale Vantaggio delle Distribuz. di Probabilità  la distribuz. teorica risponde a tutte le ipotesi su quel fenomeno xkè approssimizza Si evita di rilevare i dati (serve solo a capire quale modello teorico è adatto a rilevare quel fenomeno) Vedo esempio slide 13-14 Sito statdistribution: http://www.statdistributions.com/normal/ p-value: 0.691  è la probabilità che i valori siano superiori a 700 (69,1%) z-value: 700 mean: 750 std. dev: 100 right tail distribuzione normale standard: Se 𝜇 = 0 e 𝜎 = 1 la distribuzione è una normale standard Qualunque variabile casuale normale con qualunque media può essere convertita in variabile standard con l’operazione di standardizzazione: Variabili standardizzate  servono per risolvere mnemonicamente valori molto alti o molto bassi Utilizzo JMP con file mozzarella (vedi appunti su quaderno x funzionamento) Lezione 5 10/10/23 Analisi Bivariata: studio del legame tra 2 variabili outlier ci danno seri problemi in fatto di media e indicatori (deboli) prima cosa da fare quando si analizzano variabili quantitative devo posizionarle sul grafico  Grafico di Dispersione La covarianza è positiva se al numeratore prevalgono i prodotti di scostamenti concordi mentre è negativa se prevalgono i prodotti di scostamenti discordi. Il coefficiente di correlazione lineare di Bravais e Pearson che esprime l’intensità del legame lineare tra due variabili. −1≤ρ xy≤+1 r=±1 variabili perfettamente correlate, punti allineati r>0 correlazione positiva, diretta r<0 correlazione negativa, inversa r=0 variabili incorrelate, nessuna relazione lineare Matrice di correlazione Interpretazione convenzionale: tra 0,50 e 1: correlazione forte tra 0,30 e 0,49: correlazione media tra 0 e 0,29: correlazione debole (e simmetrica per valori negativi) I punti di attenzione per la correlazione -Il coefficiente di correlazione misura la presenza di relazioni lineari. -La correlazione non implica una relazione di causa-effetto. -Correlazioni spurie= correlazioni che vengono fuori per pura casualità Correlazione con Excel E’ necessario creare due colonne e inserire la formula =correlaz (x ; y) media varianza Scarto Quadratico Medio covarianza correlazione Con JMP= ricordarsi che i dati devono essere continui. LA RELAZIONE TRA UNA VARIABILE CATEGORICA E UNA NUMEIRCA → la relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media • la variabile categorica identifica i gruppi • si confrontano le medie della variabile numerica nei gruppi se le medie nei gruppi sono diverse c'è una relazione se le medie sono uguali non c'è relazione Correlazione e differenza in media sono relazioni e concetti diversi e indipendenti. Relazione tra due variabili categoriche Bisogna costruire come prima cosa la tabella di indipendenza. Una volta creata la tabella di indipendenza bisogna creare la tabella delle contingenze. Più i valori delle frequenze attese si discostano da quelli delle frequenze osservate, più si dice che l’associazione tra le due variabili è forte. Viceversa, più le frequenze attese hanno numeri vicini a quelli delle frequenze osservate, più si dice che l’associazione tra le due variabili è debole. Per misurare l’intensità delle associazioni nel 1900 K.Pearson ha inventato il chi quadro L’indice chi quadro cresce al crescere del collettivo Per ovviare il problema: Indice V di Cramer (1946) Per definire un indice che sia pari a 1 nel caso di perfetta interdipendenza occorre innanzitutto calcolare il valore massimo che può assumere l’indice Φ2. - Varia tra 0 e 1 - Vale 0 nel caso di indipendenza. - Vale 1 se:  i due caratteri sono perfettamente associati e il numero di righe della tabella è uguale al numero di colonne (k=h¿;  X dipende perfettamente da Y ed il numero di righe della tabella è maggiore del numero di colonne (k>h¿ ;  Y dipende perfettamente da X ed il numero di righe della tabella è minore del numero di colonne ( k<h¿. cij = nij - n’ij Φ2= χ2/n Questo indice, nel caso di indipendenza, assume il suo valore minimo che è zero. Il valore massimo è pari a 1 solo quando il numero di righe o il numero di colonne è uguale a 2, altrimenti risulta maggiore di 1 Se si avvicina a zero c’è scarsa connessione mentre se si avvicina a 1 c’è uno stretto legame tra le due variabili. L’analisi della varianza (ANOVA) è un test per verificare la significatività delledifferenze tra due o più medie. - Variabile categorica - Variabile numerica L’ANOVA verifica se almeno due medie sono diverse, non dice quali medie sono diverse. La statistica test per l’ANOVA si chiama F e ha una distribuzione F con due parametri (gradi di libertà)𝐹 ≈ 1 → medie uguali (accettare 𝐻0)𝐹 ≫ 1 → medie diverse (rifiutare 𝐻0) il p-value è la probabilità di ottenere valori ≥ 𝐹: • p-value "piccolo" (es. 𝑝<0,05) → test significativo: ci sono differenze statisticamente significative tra le medie • p-value "grande" (es. 𝑝>0,05) → test non significativo: le differenze tra le medie si possono considerare casuali DATA VISUALIZATION - LEZIONE 17/10/2023 Le origini: William Playfair Obiettivi delle rappresentazioni grafiche: presentare risultati, descrivere i dati ma anche esplorarli BOX PLOT= sintetizzano la distribuzione di una variabile numerica, evidenziando possibili outlier. È la rappresentazione più sintetica per rappresentare le variabili numeriche. Sotto Q1 troviamo il 25%, il box centrale il 50%, mentre Q3 il 75%. 1 e 3 sono chiamati interquartili, mentre la linea che taglia il box in due è la mediana. La lunghezza del baffo è una volta e mezza la distanza interquartile. La lunghezza del baffo convenzionalmente indica la soglia oltre alla quale i punti, se esistenti, sono dei potenziali outlier. ISTOGRAMMI= mostrano la distribuzione di frequenza di una variabile numerica. Sull’asse verticale troviamo le frequenze, sull’asse orizzontale troviamo i numeri. Per utilizzare istogramma è necessaria la distribuzione in classi. La variabile è numerica. Nell’istogramma l’ordine della variabile è implicito. GRAFICI A BARRE= la variabile osservata è categorica. Rappresentano frequenze o altri indici di variabili categoriche. Sull’asse verticale troviamo le frequenze, sull’asse orizzontale la variabile non è numerica come nell’istogramma. Con un grafico a barre posso rappresentare anche la preferenza media, in questo caso sull’asse verticale possiamo trovare la media e non la frequenza. GRAFICI A TORTA E AD ANELLO= mostrano la distribuzione di una variabile categorica. Non mostrano chiaramente la relazioni tra le parti. Funzionano bene quando ho poche categorie molto differenti tra di loro. GRAFICI A LINEA/AD AREA= sull’asse verticale ci può andare qualsiasi variabile. Asse orizzontale c’è sempre una variabile numerica ordinale. GRAFICI A DISPERSIONE= rappresentano due variabili numeriche in un piano cartesiano. GRAFICO A BOLLE= Le bolle aggiungono una terza dimensione rispetto al grafico a dispersione. Le bolle più grandi in base al terzo valore che è stato assegnato. Posso aggiungere ancora una dimensione, con il colore. CHART GALLERY= rappresentazioni grafiche più fantasiose. Es. rappresentazione di una tavola a doppia entrata. HEATMAP= prendo una tabella di numeri, ma per alleggerirne il peso coloro le aree più affollate con un colore più intenso. Best practice: - Adattare il grafico all’audience - Mostrare i valori, usare etichette, titoli, legenda - Evitare di precisione inutili - Per confrontare grafici usare scale e basi di dati coerenti - Evitare distorsioni e forzature dei dati DATA VISUALIZATION: CARATTERISTICHE - Grafici multipli simultanei combinati in una dashboard - Collegamento diretto alla base dati - Interattività: modifiche ai grafici facili, rapide, reversibili - Grafici collegati tra di loro LEZIONE 18/10/2023 Varianze entro i gruppi e tra i gruppi Nella variabile numerica ci sono due fonti di variabilità: 1. Tra gruppi (between) 2. Entro i gruppi (within) Sulla significatività La relazione è statisticamente significativa se supera un test appropriato ma dipende dalla numerosità del campione. È una condizione necessaria. La relazione è sostanzialmente significativa se è abbastanza grande da essere rilevante nel contesto applicativo in esame. È una valutazione soggettiva. Errore di I tipo e di II tipo Lezione 24/10/2023 Cosa succede quando aumenta il volume dei dati? 1. Numerosità= il tempo di elaborazione aumenta linearmente 2. Dimensionalità= complessità del problema. Il tempo di elaborazione aumenta più che linearmente, gli algoritmi tradizionali possono non funzionare più e c’è ridondanza informativa e difficoltà di interpretazione. Se la dimensionalità aumenta è un problema, bisogna quindi ridurre il numero di colonne. A che scopo? • le variabili devono presentare correlazioni non nulle (si può verificare col test di Bartlett, deve essere p < 0,05) • l'analisi è influenzata da outlier e missing • numerosità del campione: 10 casi per ogni variabile (min 100) Lezione 31/10/2023 Lavorato solo su jmp Lezione 14/11/2023 L'analisi della regressione è una tecnica usata per analizzare una serie di dati che consistono in una variabile dipendente Y e una o più variabili indipendenti (x1, X2…Xn). Lo scopo è stimare un'eventuale relazione funzionale esistente tra la variabile dipendente e le variabili indipendenti. Quando l’analisi delle relazioni tra variabili evidenzia l’esistenza di un legame di Y da X, sorge naturale l’esigenza di formalizzare la natura della dipendenza mediante un opportuno modello di tipo matematico. A tal fine si può ricorrere ad una funzione interpolante del tipo: Ŷ=f (X) Dove f denota una qualche funzione di X e Ŷ indica che si sta approssimando la realtà osservata ( Y ) con una curva (f ) più semplice e regolare. LA STIMA DELLA FUNZIONE INTERPOLANTE Il più semplice modello di regressione è il modello di regressione lineare semplice. In esso si assume che la funzione di regressione f ( X ) sia lineare, e si considera una sola variabile esplicativa. Questa retta di regressione descrive come cambia una variabile dipendente Y quando cambia la variabile esplicativa X. a= intercetta b= coefficiente angolare È necessario stabilire un criterio con cui si sceglie la migliore retta interpolante. Il criterio maggiormente usato è quello dei minimi quadrati. Per ogni punto c’è una componente di errore ei (residuo). b= σ xy σ x 2 a=μy−b μx Ŷ=a+bx La covarianza può avere segno positivo o negativo. COEFFICIENTE DI REGRESSIONE → il coefficiente di regressione (b) indica di quanto aumenta la variabile risposta per un aumento unitario del predittore. BONTÀ DELLA REGRESSIONE → Come misura della “bontà” della retta di regressione è possibile utilizzare il coefficiente di determinazione RXY 2=R2= σ XY 2 σ X 2 σ Y 2=( σ XYσ Xσ Y ) 2 =ρ2 È noto che se ρXY assume valori tra -1 e +1, allora la bontà di adattamento ρ2 assumerà valori fra 0 e 1. REGRESSIONE VS CORRELAZIONE → la correlazione misura l'esistenza di una relazione (lineare) tra variabili → la regressione fornisce anche la stima del coefficiente di regressione (b) REGRESSIONE MULTIPLA Ogni modello ha diverse ipotesi che devono essere soddisfatte affinché i risultati siano considerata affidabili. Le seguenti ipotesi dovrebbero essere testate e soddisfatte quando si effettua una regressione multipla con il metodo dei minimi quadrati: I. Il modello deve essere lineare. II. I dati devono essere campionati casualmente. III. Le variabili esplicative non devono essere collineari. IV. Gli errori devono avere media nulla, cioè i residui per eccesso e per difetto devono compensarsi. V. I residui sono distribuiti normalmente con media zero e varianza costante Lezione 15/11/2023 Il calcolo dei coefficienti si basa ancora sul criterio dei minimi quadrati e i coefficienti stessi mantengono la loro interpretazione con una precisazione: il coefficiente 𝑏𝑖 rappresenta la variazione della variabile dipendente (y) per un aumento unitario della i-esima variabile esplicativa (𝑥𝑖) tenendo fisse le altre variabili. La regressione multipla non vuol dire fare 3 regressioni semplici. Analizza come varia x1 a parità di x2 e x3 e così per tutte le altre. Nel caso della regressione lineare semplice invece analizziamo come varia x1. JMP advertising osservazioni - p<0,05= modello accettabile - R^2= i predittori stimano molto bene sales - Guardando R^2, la TV sembra avere una relazione migliore - Collinarità poco elevata, non si elimina nessuna variabile - Tv e radio hanno dei coefficienti significativi, a differenza di internet e newspaper Lezione 21/11/2023 Il problema nella regressione logistica è che al variare della x i pti sono o su 0 o 1 (in mezzo non c’è nulla)  stimare insieme di pti sopra o sotto non avrebbe senso Obiettivo è trovare maniera di come approssimare l’insieme di pti da una retta la curva che la regressione logistica deve trovare ha forma ad “S” Individua una funzione che assume valori compresi soltanto tra 0 e 1 (0,2;0,759) Questi valori che assume la funzione sono la probabilità di essere 1 o prob di essere 0 Se i pti sono tutti allineati come 0 o 1 (la dipendente è binaria) una retta non li può approssimare e si usa una sigmoide (curva ad s) che approssimi i pti meglio possibile I valori della funzione vengono interpretati come probabilità e servono x classificare i casi Nell’esempio della slide il valore 0,704 sancisce la divisione tra i valori che appartengono a 0 (<0,704) o a 1 (>0,704) = Se probabilità supera certa soglia i valori vengono classificati come 1 se sotto come 0 Identificare la soglia serve a identificare linea verticale che lascia a dx tutti quelli classificati come 1 e sin come 0 MA a dx ci sono in rtà degli 0 che xò vengono classificati come 1  sono dei falsi positivi E viceversa a sin degli 1 classificati come 0  falsi negativi Problema dei falsi positivi e falsi negativi La soglia viene posta x minimizzare i falsi positivi e negativi  non si riesce a toglierli completamente Apriamo JMP file bankloan Verifichiamo se e con quali variabili è possibile predire le insolvenze  capire se fare prestito o no ai clienti della banca Uso i dati sui clienti che conosco (700) che nei 517 casi hanno pagato tutti e nei 183 no Voglio trovare un algoritmo x distinguere i NO dai SI (0 e 1) In questo modo potrò in futuro predire se un nuovo cliente potrà pagare debito o no Questo è un tipico problema di regressione logistica xkè bisogna trovare appartenenza ad una delle due categorie Iniziamo con una variabile esplicativa e poi con tutte le altre Stima modello  variabile y “previously defaulted”  variabile household  logistica nominale  livello target yes Mi concentro su tabella test del modello completo  corrisponde all’ANOVA Noto che funziona (chi quadrato va bene) R2  di solito è un disastro nella regressione logistica (ma vicino a 0) no grande valore x regressione logistica Stime dei parametri  ci dice che il reddito non è significativo (di poco ma non lo è) = la prima analisi x capire l’insolvenza del reddito della banca è un po’ fallimentare (significatività bassissima, il predittore non significativo) = Il fattore Reddito da solo è un predittore delle insolvenze pessimo  non le prevede Miglioro modello inserendo nella stima modello tutti i fattori x capire cosa influenza il pagamento del debito Noto che: - Il modello nel complesso va meglio  è significativo - Tutte le variabili insieme prevedono il yes / no del pagam debito - R2 - Stime dei parametri  analizzo i vari fattori e quali sono + importanti (years w/ current address – years at current adress – debt to income ratio – credit card debt in thousands) - Stiamo prevedendo il si (cosa fa aumentare o diminuire le probabilità di default) - Se il segno è negativo se all’aumentare di questi fattori la probabilità di default diminuisce - E notiamo che la prob di default diminuisce x chi è stabile (chi lavora da tanti anni nello stesso lavoro, chi ha la stessa casa - Chi invece ha carta addebitata ha + possibilità di default diminuisce Con la regressione logistica ci possiamo salvare il logaritmo X fare questo sulla tabella stima logistica  triangolo rosso  salva formula di probabilità Ci compaiono 3 colonne nel dataset  prob yes – prob no – molto probabilmente Somma di prob yes e prob no è = 1  es. prima riga yes = 0,74 no = 0,25  1 Immaginiamo che applicazione di questo modello sia x prevenire possibilità di churn (abbandono della banca)  si me ne vado – no non me ne vado Usiamo la regressione logistica: - x capire se cliente è a rischio di andarsene  preventivo - Se a rischio di andarsene so che devo fare intervento x tenermelo  entra in gioco seconda pte della regressione  la significatività dei predittori mi dice cosa è importante e cosa no (quali fattori sono preferiti e quali no  es. x servizio di telefonia so che a miei clienti piacciono giga in + = offro giga in + a chi se ne sta x andare) La logistica binaria può essere ampliata a variabili risposta categoriche non binarie (es. a 3 variabili)  la logistica genera probab x ciascuno dei 3 valori e quello con prob + alta vince  logistica multinominale Non ha problemi con variabili esplicative (possono essere qualunque cosa) Apro file Mozzarella.jmp Faccio regressione logistica con le 2 variabili categoriche che ho (età giovane / vecchio) Test del modello completo non è significativo  chi quadrato = 0,2 Proviamo allora a vedere se si riesce a stimare a priori il consumo di una marca o l’altra (variabili binarie) Stima modello  y granarolo  sotto inserisco componenti ruotate (8) - Modello funziona  chi quadrato < 0,0001 - R2 è piccolissimo - Ci sono variabili con coeff positivo (es. + è economica + possibilità di essere consumatore di granarolo) - Altre con coeff negativo (es. il gusto non è variabile su cui deve lavorare, va bene se non sa di molto, anche avvalorata da fattore gusto forte che è anche esso negativo) Lezione 28/11/2023 Data mining= attraverso il computer possiamo lavorare su una grande mole di dati. Fare data mining vuol dire fare una classificazione. Ad esempio capire certi cognomi se sono più comuni in certe regioni o meno. Lo scopo del data mining è quello di scoprire pattern significativi. Un pattern è una rappresentazione sintetica e ricca di semantica di un insieme di dati. Soggettività della cluster analysis. La cluster analysis non richiede ipotesi sulle variabili, né sulle relazioni tra di esse. Con la cluster analysis si lavora sulle distanze. Ci sono fondamentalmente due tipi di clustering: - Clustering gerarchici= consentono di ottenere soluzioni da n a 1. Offrono la soluzione più estesa. (metodi gerarchici aggregativi) - Clustering non gerarchici= è il ricercatore a richiedere quanti cluster vuole e ci viene dato un risultato. Con l’analisi fattoriale cerco come le variabili vengono disposte su un fattore o su più fattori latenti, mentre con la cluster analysis segmento. Se un individuo è un cluster non c’è variabilità, man mano che ci sono più individui la varibilità aumenta. Cluster gerarchia con jmp Se i dati sono standardizzati più il valore delle medie è positivo tanto più per quel cluster quella variabile incide molto. Tra i metodi non gerarchici l’algoritmo K-means è probabilmente la tecnica di clusterizzazione più famosa. - range di cluster scrivo 5 - salvo cluster=3 e cluster=4 - torno nel documento principale e cancello colonne distanza - modifico nome in k means 3 e k means 4 - in file principale analizzo x rispetto a y - inserisco k means 3 in y e k means 4 in x nel file principale - analizza - stima y rispetto a x - inserisco le 5 variabili usate prima in y e k means 4 in x - vado su analisi e metto anova rifaccio di nuovo lo stesso procedimento ma prendendo come variabili in y “preferenze” e in x “k means 4” - file principale - stima y rispetto a x - y= marca 100+ - x= k means 4 - copio tabella conteggio - su excel modifico conteggio in residuo std - applico formula deviazione/radice quadrata previsto - copio e incollo come valori - cancello deviazione e previsto - evidenzio valori e formattazione condizionale - regole evidenziazione celle maggiore di 2 in rosso e minore di -2 in verde Lezione 12/12/2023 Mapping= rappresentazione grafica di brand o altri oggetti in una mappa che mostri le similarità in modo semplificato e intuitivo. Si tratta di individuare due dimensioni rispetto alle quali collocare gli oggetti. Gli oggetti si dispongono tanto più vicini quanto sono più simili. Lo scopo del mapping è il processo descrittivo. Il brand mapping mostra la percezione che i consumatori, gli utenti, hanno della posizione del brand e quindi della sua posizione relativa rispetto agli altri brand. Quali dimensioni scegliere per la mappa? La soluzione più semplice è usare come assi due variabili note relative agli oggetti. Dimensioni della mappa: fattori Invece che due variabili si possono utilizzare due fattori. La prima cosa da decidere è “quali fattori scegliere?”. Possono essere già esistenti oppure generati apposta I pro dell’utilizzare i fattori sono: - ortogonalità - maggiore quantità di informazione (varianza) nella mappa gli svantaggi invece sono: - discrezionalità dei fattori - più varianza spiegano i fattori, meno specifici sono aprire jmp file mozzarella - analizza multivariata - prendo tutte da “sono economiche” fino alla fine - triangolo rosso - componenti principali sulle correlazioni - andando su componenti principali (triangolo rosso)= rotazione dei fattori - metto asse principale, componenti principali e 2 - analizza stima di y rispetto a x - in y qualità e conf prezzi - in x marca 100+ - poi faccio anova - analizza stima di y rispetto a x - in y “preferenze” - in x “marca 100+” - poi anova nel file excel - evidenzio qualità e confezioni - inserisci grafico a dispersione -
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved