Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Appunti di Data Analysis, Appunti di Analisi Dei Dati

Appunti presi in aula di Data Analysis

Tipologia: Appunti

2020/2021

Caricato il 03/01/2021

ValerioTumiatti
ValerioTumiatti 🇮🇹

5

(1)

5 documenti

Anteprima parziale del testo

Scarica Appunti di Data Analysis e più Appunti in PDF di Analisi Dei Dati solo su Docsity! Data analysis Lezione 1 Libri di testo: -Ricerche di marketing Molteni, Trolio, Ricerche di marketing, Egea, Milano, 2012 (guardare che capitoli su slide community) -Materiale sulla community ( password comumunity data2021) (nome corso: data analysis 2020-2021) -Software: excel, JMP Per teams usare i codici del gurppo 1. CONTESTO (cap1,cap2,cap11) Ipotesi: la conoscenza è fonte doi vantaggio competitivo la soddisfazione dei clienti produce redditività ( questo non è certo, è certo che l'insoddisfazione abbatte la redditività.) Requisiti dell'impresa: -apertura: ottenere e mantenere aggiornata la conoscenza -trasparenza: fare circolare la conocenza al proprio interno, una volta acquista la conoscenza deve essere condivisa con i collaboratori -innovazione: saper rispondere agli stimoli del mercato, sfruttare la conoscenza. -sistema informativo di marketing: raccogliere dati sugli aspetti di interesse e traformarli in informazioni utili per le decisioni Cos'è un sistema informativo di marketing? è l'insieme strutturato di persone, modelli organizzativi di analisi, tecnologie disegnato per generare un fluso ordinato e continuativo di informazioni destinate ad essere utilizzate come supporto alle decisioni del marketing aziendale. Fonti informative: fonti interne fonti esterne dati prodotti dall'azienda istituti di ricerca di mercato, fonti istituzionali Dati primari area vendite indagini ad hoc, survey, approccio qualitativo, approccio quantitativo rilevati per l'obiettivo Dati secondari ERP, CRM Istat, PA, Banca d'italia, UE, WTO/OMC prodotti per altri scopi TIPI ED UTILIZZI DI DATI: fonti interne fonti esterne Sociodemografici età, genere, reddito analisi quantitative analisi quantitative e campionamento opinioni analisi quantitative, analisi qualitative valori,stili di vita comportamenti analisi quantitative, micro mkt e micro targeting analisi quantitative (con dati dichiarati) acquisti, frequenza, social C'è differenza tra dati oggettivi e dati dichiarati, in quanto i dati dichiarati possono non essere sempre veritieri. Distribuzione di frequenza: associano ogni possibile variabile la loro frequenza (relativa o assoluta) con la quale si presentano. Si può applicare a qualunque tipo di dato. Per le variabili discrete fornisce tutta l’informazione disponibile, per le variabili continue raggruppano i valori in classi. Il motivo dell’esistenza delle frequenze relative esiste per consentire un confronto tra le frequenze assolute Media: Mediana: metà dei valori sono maggiori e metà dei valori sono minori Moda: valore più frequente Percentili Quartili: dividono in quarti Varianza: è il quadrato della deviazione standard , il problema della varianza non è espressa nella stessa scala della variabile originale ( se il dato originale è espresso in euro, la varianza è euro al quadrato) Deviazione standard: è la radice quadrata della varianza , esprime la varianza ma nella stessa misura del dato originale. Scarto interquartile Probabilità: è una misura della possibilità che un evento possa verificarsi. definizione frequentista: p= numero di casi favorevoli/numero di prove quando il numero di prove tende a infinito. 0<p<1 (minore o uguale a uno) evento probabile p=1 corrisponde ad un evento certo p=0 corrisponde ad un evento possibile La somma di tutte le probabilità è 1, Sommatori P=1 Distribuzione di probabilità Le distribuzioni di frequenza sono in genere basate su dati osservati. Le distribuzioni di probabilità discrete, qui la probabilità è concentrata nei punti, per le variabili continua la probabilità è l’area sotto la curva. L’area sotto la curva tra a e b rapprensenta la probabilità che x sia compreasa tra a e b: Prob(a<x<b). Per le variabili continue la probabilità di u singolo punto è 0 perché è un valore approssimativo. Lezione 4 Box Plot Schematizzano la distribuzione di una variabile numerica, evidenziano i valori anomali (outlier) Istogramma Mostra la distribuzione di una variabile numerica Ciò che conta è che la variabile che proiettiamo rispetto alle frequenze (y) sia una variabile numerica (x) [x e y sono intercambiabili, non importa se sia una proiezione orizzontale o verticale]. Grafici a barre riassumono categorie o valori di variabili categoriche, se per gli istogrammi la variabile associata alle frequenze è una variabile numerica, in questo caso è categorica. (anche in questo caso di x e y può essere invertito) Diagramma di Pareto è un grafico a barre ordinato per frequenze decrescenti Grafici a torta mostrano la distribuzione di una variabile qualitativa (la somma degli spicchi considera sempre il 100%) I grafici a torta funzionano molto bene se si espongono variabili distinte tra di loro, il loro limite consiste nel non evidenziare precisamente le differenze tra le parti. Quando i valori sono molto simili tra loro fare confusione è semplice, meglio utilizzare un istogramma. In particolare sono sempre da evitare i grafici a torta 3D, sono belli ma inutili, non mantengono le proporzioni. Grafici a linea tipicamente utilizzati per esporre dei trend, solitamente l’asse orizzontale è il tempo. ( l’asse orizzontale, come per l’istogramma deve essere numerico). Grafici a dispersione a bolle rappresentano due variabili numeriche in un piano cartesiano, le bolle possono raggiungere una terza dimensione che non considera solo un fatto estetico, ma la dimensione delle bolle è data da appunto una terza variabile. Campionamento Il processo col quale si estrae un campione può essere probabilistico o non probabilistico (a valanga, per convenienza). A livello di statistica inferenziale l’unico valido è il campione probabilistico, risultano però, per alcune analisi, utile anche quello probabilistico. Il campionamento probabilistico può essere:  Casuale sempliceestrazione casuale ad esempio da un’urna  Campionamento sistematico ogni k unità  Campionamento stratificato si utilizzano delle caratteristiche note della popolazione per suddividerle in strati es. età, area.  Campionamento a grappoli quando una popolazione è naturalmente divisa in gruppi ad esempio classi scolastiche, comuni etc. Nulla vieta di combinare campionamento a grappoli e stratificato. Caratteristiche di un buon campione:  Casualità  Rappresentatività deve rappresentare tutte le caratteristiche della popolazione in modo diretto  Numerosità più il campione è grande, più l’intervallo di confidenza è minore Non bisogna confondere la numerosità con la rappresentatività, non sempre un campione numeroso significa anche rappresentativo. Alle volte la numerosità è negativa ad esempio se non c’è rappresentatività. Data cleaning: ponderazione La ponderazione serve a modificare artificialmente la numerosità, totale o parziale, di un campione. Esistono tecniche per ovviare al problema della rappresentatività. La ponderazione consiste nell’associare a ogni unità un peso in modo che le unità non abbiamo tutte la stessa importanza (abbiamo un campione di due donne e un uomo, se consideriamo le don e ½ e l’uomo 2 abbiamo una ponderazione) (abbiamo 50 donne e le facciamo valere 1, mentre se abbiamo 49 uomini li facciamo valere 50/49 così da ottenere ancora una perfetta ponderazione). La ponderazione serve appunto a correggere le distorsioni in dati provenienti dai campioni, ma serve anche correggere la scala, ovvero esprime i risultati campionari nella scala della popolazione. Serve, inoltre, ad attribuire importanza o dimensione diversa alle unità statistiche per analizzare i parametri demografici dei comuni italiani bisogna ponderare rispetto al numero di abitanti. Quando viene corretta la numerosità degli strati di un campione correggendone un peso bisogna pur sempre mantenere la numerosità totale del campione senza variarla. La media dei pesi deve essere 1, bisognerebbe mantenersi a pesi compresi tra 0.5 e 2. I dati mancanti (missing) sono un problema per l’analisi e ciò può avvenire poiché dai sondaggi risultano domande non applicabili, mancate risposte parziali o mancate risposte totali. In dati ufficiali può avvenire una mancata pubblicazione oppure in generale si possono verificarsi errori o vari problemi tecnici. La presenza di dati mancanti va indagata: la caratteristica che rende i dati mancanti poco gravi è la casualità (può capitare che qualche dato sia assente e che gli altri dati possono compensare la lacuna), se i dati mancanti sono distribuiti in modo sistematico il problema diventa grave, l’informazione mancante non si può desumere dai dati presenti. Es: valori mancanti concentrati in uno strato. La percentuale accettabile di missing dipende dal problema e dalla variabile generale, non esistono indicazioni generali. Con mancanza di dati di casi interi (mancanza di risposta totale) si può procedere con la ponderazione. In mancanza di singoli valori (mancata risposta parziale) si può procedere in maniera differente ed il più utilizzato è l’imputazione, ovvero sostituire il valore con un altro valore, di solito si fa con la media degli altri. I valori anomali (outlier) sono valori di una variabile numerica che si discostano molto dagli altri. Non necessariamente sono errori, alle volte sono solo casi rari. Esistono outlier univariati e outlier multivariati (combinazioni inusuali di valori di più variabili). L’individuazione di outlier può essere l’obiettivo dell’analisi come ad esempio l’identificazione delle frodi. Gli outlier possono essere trattati in maniera differente: eliminazione, filtro (confronta i risultati con e senza outlieri), capping ( x>xmaxx=Xmax, ad esempio per l’altezza se supera i 2mt si mette 2mt, si istituisce un tetto massimo), stimatori troncati (trimmed), ranking (sostituisce ai valori il loro ordinamento, li si mette in fila e li si ordina ordinalmente e ora quindi l’ultimo è solo x+1). SI possono annullare le differenze di scala e di variabilità tra le variabili. Tramite:  Standardizzazione media zero, varianza 1 z= x- media/S  Normalizzazioneintervallo [0;1]. V=x-min(x)/max(x)-min(x) Generazione di nuove variabili: dalla popolazione e dalla superficie si può arrivare la densità, da altezza e peso il BMI, da tempo e spazio la velocità etc.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved