Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Slides Data Analysis, Sintesi del corso di Statistica

Slides del corso di Data Analysis con Della Beffa (magistrale in Marketing)

Tipologia: Sintesi del corso

2021/2022

Caricato il 16/01/2023

beatrice-lattanzio-3
beatrice-lattanzio-3 🇮🇹

4 documenti

Anteprima parziale del testo

Scarica Slides Data Analysis e più Sintesi del corso in PDF di Statistica solo su Docsity! 1 DATA ANALYSIS SONDAGGI E QUESTIONARI • SURVEY = la rilevazione di dati primari attraverso interviste strutturate a un campione di soggetti (molto generale; potenzialmente costoso; richiede competenza e rigore nel definire gli obiettivi) • CENSIMENTO = rilevazione su tutta la popolazione • analisi di dati secondari da fonti esterne (ISTAT, Aida) • analisi di dati secondari interni (banche, telefonia, assicurazioni…) • POPOLAZIONE = insieme di tutte le unità oggetto di studio (es. persone, prodotti, aziende), deve essere identificata inequivocabilmente attraverso almeno una caratteristica osservabile • UNITÀ STATISTICA = ogni singolo elemento della popolazione • CAMPIONE = il sottoinsieme della popolazione sul quale si rilevano i dati. Il processo con il quale si estrae un campione può essere: 1. non probabilistico (campione di esperti; campionamento “a valanga” o “per convenienza” 2. probabilistico A. campionamento casuale semplice; B. campionamento stratificato: si usano delle caratteristiche note della popolazione per suddividerla in strati omogenei all’interno, eterogenei tra loro C. campionamento a grappoli (cluster): quando la popolazione è naturalmente suddivisa in gruppo (es. comuni, classi scolastiche), e sono eterogenei all’interno, omogenei tra loro Campioni più grandi migliorano la precisione delle stime, ma: sono costosi; il guadagno in precisione per ogni unità aggiuntiva diminuisce al crescere del campione; la dimensione del campione non dipende da quella della popolazione (se popolazione > 10mila); Le caratteristiche di un buon campione sono: • casualità • rappresentatività: deve rappresentare tutte le caratteristiche della popolazione in proporzione ridotta, non deve essere distorto (validità, accuratezza) • numerosità (affidabilità, precisione) Le fasi di un sondaggio sono: 1. definizione dell’obiettivo - formula di ricerca - popolazione - campione 2. scelta del metodo di contatto - CAPI (Computer Assisted Personal Interviewing): nessun limite di target, maggiore qualità e accuratezza, ma tempi e costi alti - CATI/CAMI (Computer Assisted Telephone/Mobile Interviewing): tempi brevi, qualità, accuratezza e controllo rilevazione 2 - CAWI (Computer Assisted Web Interviewing): costi contenuti e tempi brevi, ma minore accuratezza, filtro internet e autoselezione 3. costruzione del questionario: i principi fondamentali per costruire un questionario sono chiarezza, semplicità e brevità (NON inserire domande replicate o con scala invertita) - identificare le informazione di interesse primario e accessorie (cosa chiedere) - stabilire la sequenza logica delle sezioni e delle domande (struttura del questionario) - decidere la forma delle risposte e formulare le domande (come chiedere) 4. test del questionario 5. somministrazione del questionario al campione 6. raccolta dati 7. analisi 8. reporting DATI Tutte le analisi si basano su matrici di dati unità per variabili • n righe: le unità statistiche (casi, osservazioni). Ogni unità si può interpretare come un punto nello spazio a k dimensioni • k colonne: le variabili (attributi, feature). Ogni variabile si può interpretare come una dimensione I dati possono essere: 1. numerici (quantitativi): rappresentano informazioni intrinsecamente numeriche e si può eseguire ogni tipo di calcolo (es. media) 2. categorici (qualitativi): non si possono eseguire operazioni aritmetiche, ma si possono calcolare frequenze e percentuali - nominali (es. marca): esistono i dati binari (dicotomici) che sono dati nominali che si possono utilizzare come dati numerici in molte analisi (un dato categorico con k categorie, si può trasformare in k dati binari) - ordinali: categorie ordinate, ma distane non uguali (es. istruzione, classifiche e ordinamenti, scale di Likert) 5 Per le relazione bivariate tra dati numerici, si va a vedere l’andamento relativo di una variabile rispetto all’altra. Se c’è concordanza, a valori elevati di una variabile corrispondono perlopiù valori elevati dell’altra; se c’è discordanza, a valori elevati di una variabile corrispondono perlopiù valori bassi dell’altra. La covarianza con variabili X e Y, se è maggiore di 0 allora esiste una concordanza, se è minore di 0 esiste una discordanza. Si ha una covarianza minima quando Cov (X;Y) = 0 (nessuna relazione); si ha una covarianza massima Cov (X;Y) = devstdX devstdY (relazione perfetta, punti allineati). La covarianza dipende dall’ordine di grandezza delle variabili: per eliminare questa dipendenza la si può normalizzare. Il coefficiente di correlazione misura la presenza di relazioni lineari. La correlazione non implica una relazione di causa-effetto: afferma che tra due variabili c’è una relazione sistematica, ma non che una determina l’altra. Interpretazione convenzionale: • tra 0,50 e 1: correlazione forte • tra 0,30 e 0,49: correlazione media • tra 0 e 0,29: correlazione debole (e simmetrica per valori negativi) La relazione tra una variabile numerica e una categorica si analizza mediante le differenze in media. La variabile categorica identifica i gruppi, e si confrontano le medie della variabile numerica nei gruppi. Se le medie nei gruppi sono diverse, allora esiste una relazione; se le medie nei gruppi sono uguali allora non c’è relazione. Correlazione e differenze in media sono relazioni e concetti diversi e indipendenti. Per quanto riguarda la relazione tra due variabili categoriche, esse sono: • indipendenti (nessuna relazione) se la distribuzione di una non dipende dai valori dell’altra. Si analizza con el frequenze congiunte, le quali si rappresentano con tabelle a doppia entrata. Se le due variabili categoriche sono indipendenti: 1. la distribuzione è approssimativamente uguale in tutte le colonne e nella distribuzione marginale (idem per le righe) 2. le frequenze congiunte teoriche dipendono solo dalle marginali freq teorica=(tot riga) x (tot colonna)/ num totale unità 3. le frequenze osservate sono uguali a quelle teoriche 6 Le frequenze osservate e teoriche si possono sintetizzare in un unico indice χ² (chi-quadrato) che misura la distanza dall’indipendenza. Se χ² = 0 allora c’è indipendenza Se χ² >> 0 allora c’è dipendenza DATA VISUALIZATION L’obiettivo delle rappresentazione grafiche è: presentare i risultati, descrivere i dati ed esplorarli. 1. Box plot: sintetizza la distribuzione di una variabile numerica ed evidenzia i possibili outlier 2. Istogrammi: mostrano la distribuzione di frequenza di una variabile numerica 7 3. Grafici a barre: rappresentano frequenze o altri indici di variabili categoriche 4. Grafici a torta e ad anello: mostrano la distribuzione di una variabile categorica (limite: non costano chiaramente le relazioni tra le parti; evitare le versione 3D) 5. Grafici a linee: mostra la relazione tra variabili numeriche e ordinali 10 L’analisi della varianza (ANOVA) è un test per verificare la significatività delle differenze tra due o più medie • variabile categorica (es.marca) che identifica i gruppi (variabile indipendente, fattore, X) • variabile numerica (preferenza) di cui si confrontano le medie (variabile dipendente, risposta, Y) Ipotesi dell’ANOVA: l’analisi verifica se almeno due medie sono diverse, non dice quali sono diverse H0 = tutte le medie sono uguali H1 = almeno due medie sono diverse tra loro Per le ipotesi probabilistiche, le osservazioni devono essere indipendenti (casualità); la variabile numerica deve avere una distribuzione normale e varianza uguale in tutti i gruppi. La statistica test per l’ANOVA si chiama F e ha una distribuzione F con due parametri (gradi di libertà): F=1 le medie sono uguali, si accetta H0; F>>1 le medie sono diverse, si rifiuta H0 Il p-value è la probabilità di ottenere valori > F : • se il p-value < 0,05 il test è significativo e ci sono differenze statisticamente significative tra le medie • se il p-value > 0,05 il test non è significativo e le differenze tra le medie si possono considerare casuali Nella variabile numerica ci sono due fonti di variabilità: 1. tra i centri dei gruppi: devianza tra gruppi 2. all’interno dei gruppi: devianza entro i gruppi Lo schema delle analisi bivariate - • iangolini neri sono tutti nella stessa posizione 11 α è la probabilità di rifiutare H0 quando invece è vera; β è la probabilità di accettare H0 quando in realtà è falsa. • α è scelta dal ricercatore • β dipende da α e H1 • se α diminuisce β aumenta • per diminuire sia α che β si aumenta la numerosità Cosa succede quando aumenta il volume dei dati? 1. numerosità → aspetti computazionali: il tempo di elaborazione aumenta linearmente 2. dimensionalità → complessità del problema: il tempo di elaborazione aumenta più che linearmente, gli algoritmi tradizionali possono non funzionare più, ridondanza informativa e difficoltà di interpretazione L’obiettivo è: • ridurre il numero delle variabili (preprocessing dei dati per analisi successive), ossia generare delle nuove variabili da aggiungere a quelle originali nella matrice dei dati allo scopo di sostituirle nelle analisi • individuare strutture nelle relazioni tra le variabili (sintesi di valutazioni espresse da intervistati, sintesi di dati secondari e generazione di KPI) Ci sono diverse tecniche di riduzione della dimensionalità: • analisi fattoriale • analisi delle componenti principali 1. calcolo della matrice di correlazione 2. estrazione delle componenti principali 3. rotazione (opzionale) 4. interpretazione (opzionale) 5. generazione dei punteggi (opzionale) Matrice dei dati: p variabili xi e n unità; ipotizziamo di lavorare su variabili xi standardizzate; le relazioni tra le p variabili sono riassunte dalla matrice di correlazione. Lo scopo dell’estrazione della prima componente principale è individuare k componenti yi, con k<p, costruite come somme ponderate delle variabili xi. La prima componente ha la forma: !1 = "1#1 + "2#2 +  + "$#p. I pesi ai sono calcolati in modo che la varianza di y1 sia massima. Queste condizioni si traducono in un'equazione le cui soluzioni sono gli autovalori λ della matrice di correlazione: la prima componente è identificata dall'autovalore maggiore !1, e !1 rappresenta la varianza della prima componente. Per la seconda componente principale "2 = #1$1 + #2$2 +  + #%$% si procede allo stesso modo, aggiungendo il 12 vincolo che le due componenti devono essere ortogonali (= non correlate): la seconda componente è identificata dal secondo autovalore λ2, e λ2 rappresenta la varianza della seconda componente. In modo o analogo si possono estrarre in successione k componenti (& ≤ %) tutte ortogonali tra di loro e con varianze decrescenti. La percentuale della varianza totale spiegata da una componente è il rapporto tra la sua varianza !' e la varianza totale dei dati. La percentuale della varianza spiegata complessivamente dalle k componenti estratte è la somma delle percentuali delle k componenti. L’interpretazione delle componenti si basa sulla matrice di struttura che rappresenta la relazione tra variabili e componenti. Gli elementi della matrice sono i coefficienti di correlazione tra variabile e componente: ogni componente è caratterizzata dalle variabili con cui ha le correlazioni più alte (in valore assoluto). Le componenti principali costruiscono un sistema di assi ortogonali a k dimensioni. Per favorire l'interpretazione si possono semplificare le relazioni tra componenti e variabili, modificando i coefficienti della matrice di struttura in modo da avvicinarli a ±1 o a zero. L’operazione si compie con una rotazione degli assi, mantenendo fissa l’origine: • non cambiano la varianza totale spiegata, le comunità e la posizione relativa dei punti • cambiano i coefficienti della matrice di struttura, la varianza delle singole componenti e i punteggi fattoriali La comunità è la percentuale della varianza di una variabile spiegata dalle k componenti estratte, dovrebbe essere maggiore di 0,5 (50%) per tutte le variabili. Il numero massimo di componenti è uguale al numero di variabili: se si estraggono tutte le componenti si riproduce esattamente la varianza della matrice dei dati • con meno componenti si sintetizza maggiormente il fenomeno • con più componenti se ne spiega una percentuale maggiore Esistono diversi criteri per scegliere il numero di componenti 1. l’importanza della componente: : le componenti corrispondenti ad autovalori maggiori di 1 (default) 2. la varianza totale spiegata: le componenti necessarie perché la varianza totale spiegata raggiunga una soglia ritenuta accettabile (es. 60%) 3. grafici: scree plot 4. interpretabili del risultato Dopo aver scelto la soluzione, si possono generare i punteggi fattoriali (con i pesi di ciascuna componente). Le nuove variabili non sono correlate tra loro (ortogonali), hanno una media 0 e varianza 1. L’analisi è influenzata da outlier e missing, e richiede: • variabili numeriche (ma l'uso di scale di Likert è comune) • le variabili dovrebbero appartenere alla stessa area semantica 15 Il modello causale descrive le variabili rilevanti e la catena delle dipende tra di esse. L’obiettivo è verificare e stimare l’impatto dei diversi aspetti dell’esperienza del cliente/utente sulla soddisfazione per un prodotto/servizio. I parametri del modello sono i valori da associare alle frecce. La regressione è il modello causale più semplice; l’analisi fattoriale è un modello causale nel quale alcune variabili (i fattori) si ottengono come risultato dell’analisi. Analisi del modello causale (path analysis) 1. descrizione del modello causale 2. stima dei parametri, la quale può essere eseguita in vari modi: l’approccio più semplice è una sequenza di regressioni, l’approccio più avanzato è quello dei modelli di equazioni strutturali Quando la variabile risposta è binaria (es. successo/insuccesso, presenza/assenza, 0/1) è obbligatorio usare la regressione logistica. Gli obiettivi di quest’ultima sono quelli di tutti i modelli di regressione: identificazione dei migliori predittori della variabile risposta e la classificazione e di nuovi casi come successo o insuccesso. MAPPING Il brand mapping è una rappresentazione grafica di brand (o alti oggetti) in uno spazio (mappa) che mostri le similarità in modo semplificato e intuitivo, il cui scopo è di tipo descrittivo e esplorativo. Si tratta di individuare due dimensioni rispetto alle quali collocare gli oggetti, i quali si dispongono tanto più vicini quanto più sono simili (relativamente alle dimensioni individuate). •Le dimensioni della mappa devono essere chiaramente e utilmente interpretabili. La soluzione più semplice è usare come assi due variabili note (possibilmente poco correlate). Le dimensioni possono essere scoperte con diverse tecniche: analisi fattoriale, analisi delle corrispondenze, multidimensionale scanning… Le tecniche differiscono soprattutto per i tipi di dati ai quali si applicano. Mapping con analisi fattoriale: 1. si scelgono come assi due fattori (esistenti o generati apposta) 2. si calcolano le medie dei fattori per gli oggetti da rappresentare 3. si verifica che le medie siano significativamente diverse 4. si usano le medie come coordinate degli oggetti 16 SEGMENTAZIONE (CLUSTER ANALYSIS) L’obiettivo della cluster analysis è classificare unità statistiche in gruppi omogenei. L’idea è di generare gruppi di unità: • sulla base di variabili scelte opportunamente • in modo che la variabilità sia minima all’interno dei gruppi e sia massima tra gruppi • senza indicazioni a priori sul gruppo di appartenenza delle unità Per generare gruppi omogenei di unità si utilizza il concetto di prossimità o vicinanza tra unità statistiche (non tra variabili). Occorre misurare la vicinanza tra unità e tra gruppi di unità (prossimità = similarità). Distanze più comuni (per variabili numeriche) Distanza tra gruppi di unità (criteri di aggregazione). Come si calcola la distanza tra gruppi di punti? • tra i due punti più vicini • tra i due punti più lontani • media delle distanze a coppie • tra i centrini • metodo di Ward: i gruppi più vicini sono quelli unendo i quali si ha il minimo aumento della varianza interna ai gruppi - 17 Indici di similarità per variabili binarie Le unità u e v sono rappresentate da 0 (= no, assenza) e 1 (= si, presenza) I valori possono essere riassunti in una tavola di frequenza Indici di similarità principali tutti i valori compresi tra zero (minima similarità) e 1 (massima similarità) Per creare i cluster esistono due tipi di metodo: • metodo gerarchico (agglomerativo) 1. si parte dalla soluzione con n cluster di una sola unità 2. si aggregano i due cluster più vicini (al primo passo: le due unità più vicine) 3. si procede iterativamente aggregando i due cluster più vicini (ad ogni passo il numero dei cluster diminuisce di 1) 4. l’ultima soluzione è un unico cluster con tutte le unità Con meno cluster le soluzioni sono più semplici da capire e da gestire, con più cluster i raggruppamenti sono più precisi. La lunghezza dei rami rappresenta la distanza tra i due cluster uniti a ogni passo: un "salto" nella sequenza delle distanze suggerisce di scegliere la soluzione prima del salto. L’interpretazione dei cluster (profanazione) consiste nell’esame dei centri dei cluster, ossia le medie delle variabili all’interno di ogni gruppo. L’ideale è ottenere medie molto diverse su tutte le variabili. Quando le unità sono in numero ridotto e sono interpretabili individualmente, l’interpretazione dei cluster è definita anche implicitamente dalle unità che li compongono.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved