Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

BUSINESS ANALYTICS APPUNTI, Appunti di Statistica

Appunti di business analytics del corso di A.Fornciniti integrati con slide Voto: 30 e lode

Tipologia: Appunti

2023/2024

In vendita dal 21/02/2024

noemi.masut
noemi.masut 🇮🇹

4.9

(56)

28 documenti

1 / 107

Toggle sidebar

Anteprima parziale del testo

Scarica BUSINESS ANALYTICS APPUNTI e più Appunti in PDF di Statistica solo su Docsity! BUSINESS ANALYTICS 1 INTRODUZIONE ALLE BUSINESS ANALYTICS DEFINIZIONE DI BUSINESS ANALYTICS • Le Business Analytics (BA) fanno riferimento alla combinazione di competenze, tecnologie e pratiche orientate a: o indagare le prestazioni aziendali già attuate o pianificare e guidare le future decisioni strategiche di business • Le BA si basano sulla comprensione dei dati aziendali e sull’utilizzo di metodi quantitativi, in particolare analisi statistiche e modelli computer-based finalizzati a supportare i manager nel processo di determinazione degli insights, per prendere decisioni utili a migliorare il proprio business. IL PROCESSO DELLE BA • Le BA rappresentano quindi un processo di trasformazione dei dati in azioni, attraverso analisi ed insights nel contesto delle decisioni aziendali finalizzati alla risoluzione di un problema/bisogno. • Una serie di metodi e strumenti di analisi (come ad esempio Microsoft Excel, software e pacchetti statistici open-source e/o commerciali ed altri strumenti di data analysis) vengono integrati in molte realtà professionali per prendere decisioni connesse a problemi o bisogni aziendali • Processo delle business analytics: 1. Avere un obiettivo, qualcosa da analizzare 2. Acquisizione di dati (data collection) che possono essere collezionati in prima persona sul campo (dato primario) o dati già raccolti da altri (dati secondari) 3. Analisi dei dati 4. Prevedere il futuro 5. Presentare/interpretare il risultato e trovare la soluzione al problema 6. Prendere una decisione IMPATTO DELLE BA • Le decisioni che derivano dalle BA costituiscono un vantaggio competitivo ed hanno impatto sull’intera organizzazione poiché sono finalizzate a: o migliorare le relazioni con i clienti; o potenziare le prestazioni e le attività finanziarie e di marketing; o aumentare la quota di mercato; o fornire un maggiore ritorno ai potenziali azionisti; o ridurre al minimo i rischi orientando le scelte future; o ispirare cambiamento e innovazione rispondendo alle domande del consumatore EVOLUZIONE DELLE BA • L’evoluzione moderna dell’analisi dei dati aziendali ha avuto inizio alla fine degli anni’40 con l’introduzione dei primi computer, i quali fornivano una capacità di archiviazione e analisi dei dati articolata e complessa, non paragonabile a quella manuale, portando così le tecniche di data analysis ad un livello completamente innovativo. • Tuttavia, maggiore attenzione si registra alla fine degli anni '60, quando i computer vengono usati nei sistemi di supporto alle decisioni trasformandosi nello sviluppo di sistemi ERP (Enterprise Resource Planning), data warehouse, strumenti e processi. La facilitata capacità di collezionare i dati, di organizzarli, di analizzarli e di fornire una corrispondente reportistica è spesso denominata come BUSINESS INTELLIGENCE (BI) • La BI è un termine coniato nel 1958 da Hans Peter Luhn, ricercatore presso IBM, che definisce l’attività di BI come la ‘capacità di apprendere le interrelazioni dei fatti presentati, in modo tale da guidare l’azione verso un obiettivo desiderato. • Successivamente, nel 1989, Howard Dresner - analista presso la Gartner Inc., una società di consulenza strategica, ricerca e analisi nel campo della tecnologia - propone la BI come un termine umbrella per descrivere ‘concetti e 4 IL PROCESSO DI PROBLEM SOLVING ATTR AVERSO LE BA INTRODUZIONE ALLA STATISTICA COS’È LA STATISTICA? • La Statistica è la scienza che consente di collezionare, organizzare, sintetizzare e analizzare le informazioni al fine di trarre conclusioni o rispondere alle domande di ricerca. • Punti principali si cui si basa la Statistica sono: o Collezionare i dati o Sintetizzare i dati o Analizzare i dati per intercettare le implicazioni contestuali o Formulare conclusioni appropriate e generalizzare i risultati ottenuti UNITÀ STATISTICA • Le analisi statistiche vengono performante su diverse unità elementari dette unità statistiche che fanno parte di un insieme più ampio definito collettivo. • Le unità statistiche possono essere oggetti, persone, animali. POPOLAZIONE VERSUS CAMPIONE • L’oggetto di studio può essere una popolazione o un campione: o POPOLAZIONE (indagine censuaria) → La popolazione indicata come N rappresenta l’intero gruppo di individui presi in esame o CAMPIONE (indagine campionaria) → Il campione indicato come n indica un sottoinsieme che viene selezionato dalla popolazione (N) STATISTICHE TRA PASSATO E PRESENTE 5 STATISTICA DESCRITTIVA VERSUS STATISTICA INFERENZIALE • STATISTICA DESCRITTIVA → La Statistica descrittiva è usata per descrivere e sintetizzare informazioni attraverso misure, grafici, tabelle. Può essere utilizzata per formulare conclusioni in base ai risultati emersi dai dati analizzati • STATISTICA INFERENZIALE → La Statistica inferenziale usa metodi capaci di trasferire i risultati ottenuti da un campione alla popolazione, estendendoli attraverso un principio di affidabilità e rappresentatività STATISTICA VERSUS PARAMETRO • STATISTICA → è un descrittore (misura del campione) • PARAMETRO → è un descrittore (misura) della popolazione PROCESSO STATISTICO • Fasi di un processo statistico: 1. Identificazione di un obiettivo di ricerca: definizione chiara degli interrogativi di ricerca e del collettivo da analizzare 2. Data collection per rispondere al punto 1: collezionare i dati di una popolazione è molto dispendioso sia come tempo che risorse personali ed economiche 3. Analisi dei dati: scelta della(e) metodologia(e) finalizzate ad indagare il tipo di dati e orientate a rispondere alla(e) domanda(e) di ricerca 4. Inferenza: utilizzare tecniche appropriate a generalizzare i risultati dal campione alla popolazione IL DATO STATISTICO DATI E INFORMAZIONI • DATI e INFORMAZIONI non sono sinonimi, nonostante spesso vengano usati come tali. • I dati di solito sono risorse grezze e non elaborate a cui non viene riconosciuto alcun significato; possono essere gestiti e organizzati in serie di forme, quali nomi, numeri, età, segni, caratteri o simboli (Yeung, 1998; Bellinger, Castro, & Mills, 2004, Zins, 2007) e in diverse contesti (es. business, comunicazione, scienze sociali, medicina, ecc...). In statistica, il dato si riferisce a una descrizione originaria non interpretata delle informazioni; è il risultato dell’operazione di rilevazione di una data caratteristica su un individuo o entità. • L'informazione è il prodotto dell'analisi dei dati che ha un significato e quindi un potere comunicativo I DATI STATISTICI 6 • I dati statistici si distinguono in: o Microdati: sono dati elementari rilevati ad una singola unità. L’insieme dei dati rilevati su una singola unità ne costituiscono il profilo. o Macrodati: si definiscono tutti i dati che sono il risultato di un calcolo effettuato sui microdati, secondo criteri definiti. o Metadati: fanno riferimento a tutte le informazioni di carattere qualitativo e quantitativo riguardanti le modalità di produzione di microdati e macrodati NON TUTTI I DATI SONO UGUALI • La raccolta dei dati rappresenta un aspetto cruciale nel processo di un’indagine statistica, in quanto la qualità dei risultati dipende dalla qualità dei dati di partenza. • In letteratura, esiste un principio chiamato ”garbage in, garbage out” (GIGO) utilizzato nella computer science per indicare il processo di dati input errati o senza senso (“dati spazzatura” I quali producono conseguentemente output errati o senza senso che conducono a conclusioni sbagliate QUALITÀ DEL DATO STATISTICO QUALITÀ DEL DATO • Nell’indagine statistica, sia essa censuaria che campionaria, è fondamentale la qualità del dato (come esigenza di soddisfare le informazioni statistiche). • « La qualità del dato indica quanto un bene, prodotto o servizio soddisfi le esigenze dei clienti» (ISO 8402-1984), mettendo in luce due questioni rilevanti: 1. Il soggetto fruitore della qualità è l’utente al quale è rivolto il bene o servizio; 2. La qualità del bene o servizio consiste nel possesso di determinate caratteristiche • Eurostat (Assessment of Quality in Statistics, 2000) ha fornito 7 dimensioni che definiscono la qualità dei dati nell’informazione statistica: 1. Rilevanza: capacità di soddisfare le esigenze conoscitive dell’utente (ad esempio committenti, organi di governo, ricercatori, ecc) quale dimensione strettamente collegata agli obiettivi dell’indagine. 2. Accuratezza: grado di corrispondenza tra la stima ottenuta dall’indagine e la reale caratteristica (ignota) studiata con riferimento alla popolazione. 3. Tempestività o puntualità: intervallo di tempo che intercorre fra il momento di diffusione dell’informazione prodotta e l’epoca di riferimento dell’indagine da non pregiudicarne l’utilità 4. Accessibilità: nota anche come trasparenza corrisponde alla facilità di reperimento da parte di terzi (diffusione e spesso meta-dati a corredo). 5. Confrontabilità: possibilità di paragonare i dati nel tempo e nello spazio le statistiche riguardanti un dato fenomeno. 6. Coerenza: per statistiche derivanti da una singola fonte, si tratta della possibilità di combinare le inferenze semplici ad induzioni più complesse. Qualora vi fossero statistiche derivanti da più fonti e con diversa periodicità, si presuppone coerenza ma solo se basate su standard metodologici, classificazioni e definizioni condivise. 7. Completezza: capacità delle statistiche prodotte di integrarsi e fornire quadri informativi soddisfacenti. • Tra le caratteristiche importanti seppure non esplicitata da Eurostat, vi è la tutela della riservatezza dei rispondenti QUALITÀ DEL DATO E FONTI STATISTICHE • La qualità del dato rappresenta quindi il suo grado di attendibilità. • L’attendibilità è strettamente dipendente dall’affidabilità della fonte statistica da cui derivano i dati, dove nel caso di dati secondari fa riferimento al rispetto di specifiche regole di qualità nel tempo. • Si parla di qualità del dato e della sua attendibilità ma come si valuta l’affidabilità delle fonti statistiche? 9 CAMPIONAMENTO CASUALE SEMPLICE • Nel campionamento casuale semplice ciascuna unità della popolazione (N) ha la stessa probabilità di essere inclusa nel campione (n) • Per ottenere un campione casuale abbiamo bisogno di: o conoscere a priori tutte le unità che appartengono alla popolazione (lista di campionamento o frame); o Tutte le unità devono avere la stessa probabilità di essere incluse nel campione. • Un campione casuale può essere: o con reinserimento: l’unità selezionata viene reinserita nella popolazione e può essere nuovamente selezionata nel campione; o senza reinserimento: l’unità selezionata nel campione viene rimossa dalla lista e quindi non può essere selezionata nuovamente. CAMPIONAMENTO STRATIFICATO • Il campionamento stratificato si ottiene separando la popolazione in gruppi non sovrapposti, chiamati strati e ottenendo da ogni strato un campione casuale semplice. I componenti di ogni strato devono essere omogenei rispetto ad alcune caratteristiche (esempi di strati: genere, età, residenza, reddito, etc…) 10 • Supponiamo di indagare la satisfaction sulla qualità del lavoro dello staff che lavora presso un ristorante. Siamo interessati a conoscere la loro opinione in base al ruolo che essi svolgono. Ciascuna categoria di ruolo rappresenta uno strato del campione. Per questa indagine chiediamo un campione di ampiezza 10 (n= 10). CAMPIONAMENTO SISTEMATICO • Nel campionamento sistematico, la popolazione è divisa in k gruppi (N/n) dove il primo individuo corrisponde ad un numero casuale compreso tra 1 e k. • Questa tecnica non richiede una lista di campionamento (o frame). • STEP: 1. Approssimare l’ampiezza della popolazione (N) 2. Determinare un’ampiezza del campionare (n) 3. Calcolare il valore di k dato dal rapporto tra popolazione e campione: N/n 4. Selezionare casualmente un numero compreso tra 1 e k che rappresenta il p-esimo individuo. 5. Il campione sarà composto da: p, p+k, p+2k , .... , p + (n-1)k • Supponiamo di analizzare la customer satisfaction di un evento virtaule inaugurale tenuto a Brera, il ’metaverso- museum’. Siamo interessati ad intervistare 40 visitatori (n= 40). Considerare che non abbiamo il listato completo di tutti i visitatori, quindi selezioniamo ogni k-esimo visitatore che lascia il museo, supponendo che gli ingressi totali siano pari a 248 visitatori. STEP 1. N/n = 248/ 40 = 6.95 ~ 7. Decidiamo di includere nel campione un visitatore ogni 7, iniziando da un nuomero casuale compreso tra 1 e 7. Ad esempio: 5. 2. Pertanto, il visitatore successivo sarà uguale (5+7) = 12esimo visitatore. 3. L’indagine includerà quindi i visitatori: 5, 12, 19, …, k CAMPIONAMENTO A GRAPPOLO • Nel campionamento a grappolo la popolazione è divisa in gruppi internamente eterogenei dove gli individui all’interno di ogni gruppo sono selezionati casualmente • Supponiamo di indagare i guadagni dei musei della città di Parigi ottenuti durante la prima fase post-Covid 19. Noi sappiamo che Parigi ha109 musei e che la città è divisa in 20 unità locali chiamate arrondissement. STEP: 1. Identificare gli arrondissement e numerarli progressivamente da 1 a 20. 2. Selezionare in modo casuale Random 10 arrondissement (n= 10). 3. Indagare i guadagni di tutti i musei che si trovano nei 10 arrondissement selezionati 11 CAMPIONAMENTO NON PROBABILISTICO • Di comodo o convenienza: il ricercatore sceglie in modo arbitrario le unità statistiche più facilmente reperibili (probabilmente per le relazioni sociali che vi intrattiene o per la facilità di contatto come ad esempio le interviste via Internet ). • A scelta ragionata: le unità del campione vengono selezionate in base alle caratteristiche che secondo il ricercatore meglio rappresentano il fenomeno. Questa tipologia è spesso utilizzata quando l’ampiezza del campione è limitata. • Per quote: simile al campionamento stratificato nella procedura ma le dimensioni interne a ciascun gruppo o strato sono selezionate seguendo criteri non probabilistici. ERRORI DI CAMPIONAMENTO • Nel campionamento abbiamo 3 fonti di errore: 1. Errore di campionamento → le tecniche usate per il campionamento tendono a favorire una parte della popolazione rispetto ad un’altra. Questo tipo di errore può includere la sotto-copertura che si verifica quando la proporzione di un segmento della popolazione è più bassa nel campione che nella popolazione. 2. Errore legato ai non rispondenti → si verifica quando gli individui di un campione non rispondono alle domande di un’indagine oppure quando l’intervistatore non riesce a contattarli. 3. Errore legato ai rispondentI → si verifica quando le risposte non riflettono i reali pensieri degli intervistati. Questo fenomeno può dipendere da vari fattori, ad esempio, errori da parte dell’intervistatore: a) non mettere a proprio agio l’intervistato; b) travisare le risposte; c) formulare in modo errato la domanda oppure usare una sequenza errata delle domande o dell’ordine delle parole VARIABILI E MODALITÀ VARIABILI O CARATTERI • Dopo aver definito l’obiettivo di ricerca e dopo aver individuato l’insieme di individui o unità statistiche su cui condurre l’indagine, ci focalizziamo sulle caratteristiche dell’individuo che appartiene alla popolazione che sono indicate come VARIABILI O CARATTERI VARIABILI QUALITATIVE E QUANTITATIVE 14 SCALE DI MISURA SCALE DI MISURAZIONE DELLE VARIABILI SCALA NOMINALE • Supponiamo di voler conoscere il genere (sesso) di un campione (n = 25) di dipendenti presso un albergo. o VARIABILE: Genere (qualitativa- nominale) o MODALITA’: M, F o SCALA: NOMINALE → le osservazioni sono etichette, nomi o categorie e NON è possibile stabilire alcun ordinamento SCALA ORDINALE • Supponiamo di voler conoscere il livello di soddisfazione di un campione (n= 250) ospiti di un hotel. La satisfaction è espressa tramite variabili qualitative o VARIABILE: Customer satisfaction o OSSERVAZIONI: Alta, Media, Bassa (gerarchia, ordinamento modalità) o SCALA: ORDINALE → Le osservazioni sono etichette, nomi o categorie sulle quali è possibile stabilire un ordinamento coerente SCALA A INTERVALLI • Supponiamo di voler misurare la temperatura delle varie aree di una struttura turistica: stanze, reception, area colazione, spa. o VARIABILE: Temperatura o OSSERVAZIONI: gradi ma su Celsius o Fahrenheit? o SCALA: A INTERVALLI → Stesse proprietà della scala ordinale. Le differenze tra le modalità hanno un significato. Diversa origine. Non c’è un punto zero comune. Valori uguali a zero non significano assenza di quantità. Operazioni: somma e sottrazione SCALA DI RAPPORTI 15 • Supponiamo di voler conoscere i km tra la sede della struttura alberghiera e le aree di escursione della città. o VARIABILE: km o OSSERVAZIONI: 2.5 km, 7 km, … , kmn o SCALA: DI RAPPORTI → Stesse proprietà scala a intervalli. I rapporti hanno un significato. Hanno un punto zero condiviso. Valore uguale a zero significa assenza di quantità. Operazioni: divisioni e moltiplicazioni • Esempi di scala di rapporti: o Consumi dell’ultimo mese o Risparmio o Distanza percorsa o Giorni di vacanza o Litri di benzina o Calorie QUALE SCALA DI MISURA? • Nazionalità-nominale • Tempo misurato secondo calendari differenti-intervalli • Terremoto- chiedere? • Vacanza-rapporti 16 IL QUESTIONARIO DEFINIZIONE E CARATTERISTICHE • Il questionario è lo strumento utilizzato per raccogliere informazioni in un’indagine. • Si compone di una serie di domande strutturate, eventualmente corredate dalle possibili risposte. Il questionario è registrato su un supportato adeguato per la somministrate. • I criteri che lo caratterizzando sono: o Chiarezza o Semplicità o Brevità • Spesso la sua costruzione può essere preceduta da una ricerca qualitativa (come interviste in profondità o focus group) per raccogliere informazioni preliminari sul fenomeno studiato. CLASSIFICAZIONE DELLE DOMANDE • Sociodemografiche: caratteristiche dei rispondenti (e.g., genere, età, titolo di studio, component del nucleo familiare, reddito, area geografica, etc…). • Di informazione: se l’obiettivo è rilevare la conoscenza di fatti o eventi legati ad un fenomeno sociale (es domande informative: quanti sono coloro che sono a conoscenza degli 8 misteri che di celano dietro le tele più famose del mondo? Quanti conoscono l’anno in cui sono iniziati i lavori della Cappella Sistina?) 19 CARATTERISTICHE DEL QUESTIONARIO • VANTAGGI o Poco costoso o Pratico o Risultati veloci o Scalabilità o Comparabilità o Validità e affidabilità o Standardizzazione o Anonimato rispondenti • SVANTAGGI o Risposte disoneste o Risposte mancate o Interpretazione dei problemi o Mancanza di sfumature o Problemi di analisi o Agenda nascosta o Mancanza di personalizzazione o Inconsapevolezza o Problemi relati all’accessibilità o Fatica nel sondaggio STEP DI UN’INDAGINE STATISTICA DA QUESTIONARIO • Step: 1. DISEGNO DEL QUESTIONARIO 2. CAMPIONAMENTO 3. SOMMINISTRAZIONE QUESTIONARIO 4. DATA ENTRY DELLE RISPOSTE DAL QUESTIONARIO ALLA DATA ENTRY • La fase di data entry rappresenta il nostro insieme di dati o dataset. • La procedura di data entry avviene in una struttura chiamata tabella o matrice. • Le tabelle sono set di osservazioni per unità statistica, che consistono in una o più variabili (campi) e contengono i dati da processare. • Ciascuna riga corrisponde ad un intervistato (unità statistica) • Ciascuna colonna corrisponde ad una variabile (domanda/risposta) 20 • Nella fase di data entry, le risposte possono essere codificate. o Ad esempio si possono trasformare modalità qualitative in quantitative o viceversa) o Per le risposte multiple, si può creare un numero di variabili dicotomiche (0/1) uguali al numero di modalità definite dalla domanda. TECNICHE DI SOMMINISTRAZIONE 21 ESEMPIO DI COSTRUZIONE DI UN QUESTIONARIO ORGANIZZARE I DATI: DISTRIBUZIONE DI UNA VARIABILE VARIABILI, MODALITÀ E INTRODUZIONE ALLE FREQUENZE • Cosa rileviamo? ASPETTI o CARATTERI • Come si presentano? Diversi modi → MODALITÀ • Quante volte si presentano? FREQUENZE FREQUENZE E TABELLE DI FREQUENZA • Come si organizzano i dati (variabili e modalità) per le BA? • Supponiamo di aver rilevato su un campione di 8 hotel le seguenti variabili: anni di attività, area geografica, ranking, numero di impiegati. Ogni linea rappresenta un’unità statistica e quindi un hotel. Su ciascuna di queste unità abbiamo rilevato più variabili • Per organizzare i dati dobbiamo creare una tabella che consente di sintetizzare i dati di ciascuna variabile ed unità statistica. • Ogni riga della tabella descrive il profilo di un hotel e ogni colonna illustra la distribuzione unitaria delle variabili. 24 FREQUENZE CUMULATE • Quando le variabili sono ordinali o quantitative, si può calcolare la distribuzione delle frequenza cumulate. • N.B se sono variabili nominali non posso calcolare la frequenza cumulata • La frequenza cumulata riferita alla modalità i-esima è indicata con Ni , è data dalla somma della frequenza assoluta associata ad una data modalità con quella delle modalità precedenti. Il suo utilizzo è utile per indicare: ‘fino a’, ‘maggiore o uguale a’ , un data valore quante osservazioni vi ricadono. • Quanti sono gli individui che hanno un titolo di studio uguale o inferiore a ‘media inferiore’? E quelli con ‘età minore o uguale a 21 anni’? • La frequenza cumulata relativa riferita alla modalità i, indicata con Fi , è data dalla somma della frequenza relativa associata a quella modalità con quella delle modalità precedenti. 25 • La frequenza cumulata percentuale riferita alla modalità i, indicata con Pi , è data dalla somma della frequenza percentuale associata a quella modalità con quella delle modalità precedenti. CALCOLIAMO INSIEME FREQUENZE E TABELLE DI FREQUENZA • Quanti tipi di tabelle possiamo avere? o Tabelle caratterizzate da modalità non aggregate Distribuzioni di frequenze o Tabelle caratterizzate da modalità aggregate Distribuzione di frequenze in classi (solo per dati discreti e continui, es età o altezza) DISTRIBUZIONI DI FREQUENZE IN CLASSI 26 • Quando i dati sono quantitativi la costruzione delle distribuzioni di frequenze si può fare raggruppando le singole modalità in classi → intervalli numerici • La suddivisione in classi è opportuna quando: o Variabili quantitative discrete → se hanno molte modalità o Variabili quantitative continue → sempre perché c’è oltre • Le classi sono caratterizzate da: o Limite inferiore → il più piccolo valore contenuto nella classe o Limite superiore → il valore più elevato contenuto nella classe o Ampiezza → differenza tra il limite inferiore di una classe e il limite inferiore della classe successiva • Determinare classi di uguale ampiezza: 1. Decidere il numero delle classi (k) → determinare il valore di k in modo soggettivo 2. Calcolare: 3. Arrotondare per eccesso • Esempio: variabile quantitativa discreta → età 29 FREQUENZE PERCENTUALI • Dalle frequenze relative passiamo a quelle percentuali ARROTONDARE • Per arrotondare → =ARROTONDA(cella; n cifre decimali a cui voglio arrotondare) MIN • Per conoscere la quantità minima • =MIN(intervallo) • Attenzione tra i due valori non ; ma : MAX • Per conoscere la quantità massima 30 • =MAXintervallo) SOMMA CONTA.SE • Se ho un dataset molto grande diventa difficile calcolare quante volte compare un dato per poi calcolare la frequenza, per questo si usa il contase • =CONTA:SE(intervallo;”parola da cercare”) CONTA.SE (CON VALORI >, < E/O UGUALI A …) • Voglio trovare nella serie un dato maggiore di, minore di etc • =CONTA.SE(intervallo;”</>/=numero” 31 SOMMA.SE • Supponiamo di voler conoscere la quantità di materiale che ho ordinato solo se considero l’articolo x • =SOMMA.SE(intervallo;”criterio”;intervallo in cui fare la somma) CERCA.VERT (‘VLOOKUP’) • Quando voglio trovare un elemento tra i nostri dati, es costo di un articolo • =CERCA.VERT(valore;intervallo;n tabelle;FALSO) • Vero: approssimativo • Valore esatto: falso 34 • Un grafico a torta presenta i dati in un grafico circolare diviso in settori. • Ciascun settore identifica una parte del tutto ed aiuta a interpretare e rappresentare il confronto tra i dati in modo più chiaro. • Accanto al diagramma a barre, il grafico a torta è tra i grafici più utilizzati per rappresentare dati qualitativi. • Il grafico a torta presenta sei settori dove ogni settore è proporzionale alla frequenza percentuale della categoria corrispondente. VISUALIZZARE DATI QUALITATIVI: CARTOGRAMMA VISUALIZZARE DATI QUALITATIVI: GRAFICO A BARRE • Un diagramma a barre è un grafico utilizzato per rappresentare caratteri spesso qualitativi. Il diagramma consiste in una successione di rettangoli (barre, colonne o nastri) equidistanti, tanti quanti sono gli attributi del carattere, la cui altezza o lunghezza delle barre è proporzionale alla frequenza dell’attributo corrispondente. • Tutti i rettangoli devono essere distanti l’uno dall’altro con la medesima distanza. • Le barre possono essere tracciate sia in modo orizzontale che verticale . • Le barre devono avere una base comune. • I diagrammi a barre possono essere di due tipi: 1. a colonne o verticali: i rettangoli sono disegnati verticalmente sull’asse x e l’asse y mostra il valore dell’altezza delle barre rettangolari in base al valore della frequenza. 2. a nastri o orizzontali: i rettangolari sono disegnati orizzontalmente sull’asse y e l’asse x mostra il valore dell’altezza delle barre rettangolari in base al valore della frequenza. • I rettangoli nei grafici a barre possono essere tracciati sia orizzontalmente che verticalmente, ma il grafico a barre più comunemente utilizzato è quello a barre verticali. • Oltre ai grafici a barre verticali e orizzontali, possiamo distinguere: 1. ¡ diagramma a barre raggruppate o affiancate: Le barre rettangolari sono raggruppate per posizione in base ai diversi livelli o categorie della variabile. Ciascuna categoria all’interno di ciascun gruppo viene rappresentata con gli stessi colori. 2. ¡ diagramma a barre in pila: un’intera barra viene invece divisa in diverse parti o categorie. Ogni parte della barra è rappresentata utilizzando colori diversi per identificare facilmente le diverse categorie e richiede un'etichettatura specifica per indicare le diverse parti della barra 35 DISTRIBUZIONI DI FREQUENZE IN CLASSI • L’organizzazione delle distribuzioni di frequenze possono essere tabelle di distribuzione di frequenza non raggruppate e tabella di distribuzione di frequenza raggruppate. • Ad esempio, si supponga di aver rilevato la seguente distribuzione (in euro) delle spese settimanali dei clienti di un ristorante su un campione casuale di 20 incassi: 150 , 312, 400, 130 , 255, 201, 454, 255, 180, 305, 320, 500, 323, 105, 213, 421, 401, 415, 167, 188. • Per organizzare queste osservazioni, dividiamo i valori osservati in gruppi o intervalli di classi e indichiamo (come ni ) quanti valori osservati cadono in ciascuna classe. • Questa configurazione è chiamata per l’appunto tabella di distribuzione di frequenza raggruppata • La tabella seguente mostra due colonne: una è data dall'intervallo delle classi (spesa in euro) e la seconda rappresenta la frequenza. VISUALIZZARE DATI QUANTITATIVI: ISTOGRAMMA • Per visualizzare le distribuzioni di frequenza raggruppate utilizziamo l’istogramma. • Un istogramma è una rappresentazione grafica a barre dei dati ma i dati sono raggruppati in intervalli di numeri continui e ciascun intervallo corrisponde ad una barra verticale. • Sull’asse orizzontale possiamo vedere le basi dei rettangoli che indicano l’intervallo di numeri (ovvero i confini delle classi). • Le basi dei rettangoli possono avere ampiezza uguale o diversa. • Sull’asse verticale troviamo le altezze dei rettangoli che corrispondono al valore delle frequenze. • Rispetto al grafico a barre, nell'istogramma i rettangoli sono adiacenti. • Suggerimenti per visualizzare i dati attraverso l’istogramma: o Non utilizzare classi che si sovrappongono. o Non lasciare spazi tra le classi. o La prima classe deve iniziare con un valore sufficientemente ‘basso’ da includere l’osservazione più piccola e l’ultima classe deve finire con un valore sufficientemente ’alto’ da includere l’osservazione più grande DISTRIBUZIONI DI FREQUENZE IN CLASSI • Ciascuna classe è composta da un limite inferiore (valore minimo della classe) e da un limite superiore (valore massimo della classe). • La differenza tra il limite superiore e inferiore della classe è l’intervallo della classe. Per quanto riguarda la scelta del numero e dell’intervallo delle classi, puoi scegliere: 36 o arbitrariamente; o classi di uguale intervallo; o classi di diverse gamme • Nell’esempio precedente le classi sono costituite da uno stesso intervallo pari a 19 euro, ma le classi possono presentare intervalli differenti. • L’intervallo di ogni classe - come differenza tra il limite superiore e il limite inferiore della classe - rappresenta la base del rettangolo per la visualizzazione dell'istogramma; mentre, l’altezza dei rettangoli è data dalla frequenza specifica o dalla densità di frequenza. • Per rilevare la densità di frequenza (di ) abbiamo bisogno di due elementi: o frequenza della classe (ni ) o intervallo della classe (ai) • Si supponga di rilevare la densità di frequenza di una distribuzione della spesa mensile (in euro) di un hotel • Ispezionando graficamente i dati, possiamo rilevare quale forma assume la distribuzione. L’istogramma può essere utilizzato per ispezionare la forma di una distribuzione. • Tipicamente, la forma di una distribuzione può essere: o uniforme o simmetrica o asimmetrica a destra o asimmetrica a sinistra VISUALIZZARE I DATI E LA FORMA DI UNA DISTRIBUZIONE • UNIFORME → La frequenza di ogni modalità della variabile è distribuita uniformemente tra i valori della variabile stessa • SIMMETRICA → La frequenza più alta si trova nel mezzo (al centro) della distribuzione e poi diminuisce nelle code di sinistra e di destra • ASIMMETRICA A DESTRA → Chiamata anche ‘distribuzione asimmetrica positiva’ presenta una coda allungata a destra. La coda a destra del picco (frequenza più alta) è più lunga di quella a sinistra • ASIMMETRICA A SINISTRA → Chiamata anche ‘distribuzione asimmetrica negativa’ presenta una coda allungata a sinistra. La coda a sinistra del picco (frequenza più alta) è più lunga di quella a destra 39 • Su struttura del grafico posso modificare • Se vado su seleziona dati posso modificare dopo che ho già avuto la rappresentazione. 40 • Ora faccio invece grafico colonne in pila IL GRAFICO A TORTA • Guardare file esercitazione 2 foglio 2 41 • Quando ho una dataset grande è utile utilizzare i filtri cliccando su Ordina e filtra • Ora calcolo con SOMMA.SE la somma della quantità dei vari Item per poter fare la frequenza assoluta. Poi di conseguenza calcolo frequenza relativa e percentuale • Poi vado su inserisci grafico a torta, poi su seleziona dati, poi evidenzio le celle con i dati (pi arrotondato) , poi su etichette asse orizzontale evidenzio le celle col nome dei dati (“item”) 44 • Poi vado su inserisci mappa colorata, seleziona dati ed evidenzio celle frequenza assoluta e poi su modifica etichette asse orizzontale evidenzio la regione • Il colore più chiaro indica un minor numero di visitatori; il colore più scuro indica un maggior numero di visitatori IL DIAGRAMMA AD ALBERO • Guardare file esercitazione 2 foglio 3 • Una mappa ad albero o treemap è una rappresentazione grafica che si presenta sotto forma di rettangoli mostrando il ‘peso’ dei dati all’interno della distribuzione. In origine, queste mappe venivano usate per mostrare una struttura gerarchica e le relazioni tra le variabili; mentre oggi vengono applicate ad un’ampia gamma di situazioni, incluse quelle che non prevedono una gerarchia, poiché consentono di mostrare un gran numero di dati in uno spazio ridotto. 45 • Con lo scopo di creare strumenti adatti a valorizzare i centri nascosti delle varie destinazioni italiane, è stata analizzata l’offerta turistica che per peculiarità è stata suddivisa in undici categorie. • Seleziono tutti i dati, poi inserisci grafico ad albero 46 L’ISTOGRAMMA • Guardare file Esercitazione 3 • Si consideri il seguente dataset riferito alla customer satisfaction rilevata su un campione di 1232 cliente di una catena di negozi monomarca in Italia. Si supponga di essere interessati alla variabile età (‘Age’) dei clienti • Determinare: o Il valore minimo della distribuzione (MIN); scrivo =MIN(numero cella: numero cella) o Il valore massimo della distribuzione (MAX); scrivo =MAX(numero cella: numero cella) o Il numero di classi desiderate (K) (in modo soggettivo) o L’ampiezza di ciascuna classe ((MAX – MIN)/K) e arrotondo • Poi mi calcolo le classi: quindi parto dal numero più piccolo (18) e faccio + ampiezza classe (10), quindi 18+10=28; poi 29+10=39; poi 40+10=50 etc • Clicco su Bin (le classe che ho creato), vado su Dati e poi Analisi dati e seleziono Istogramma: 49 • Guardare file Esercitazione 3 Foglio 2 • Si consideri la seguente distribuzione delle vendite annuali (in dollari) di un negozio di souvenir situato una località balneare del Queensland (Australia) dal dicembre 1987 al 1993 (Dati originali da Wheelwright & Hyndman, 1998) A e G D E F 6 H ' 1 K L M Jan Mar Apr May Jun Jul AUg Sep det Nov Dec 1987 166481 2840,71 | 3547,29 | 375296 371874 | 434961 3566,33 SOZIW2 642348 | 76006 1975621 1988 249981 725,14 4806,03 | 590088 | 495134 | 617912 | 4752,15 549643 58351 1260008 2854172 1989 4717,02 957,58 5304,78 | 549243 66308. 7349,62 817662. 8573,17 96905 | 1515184 3406101 5971,1 1742125 6369,77 | 750912. 722475 | 812172 | 7979,25 . R09306 84767 | 1791466 3011441 1991 4826,64 9638,77 | 882117 | 872237 10209,48 1127655 1255222 11637,39 13606,59 21822,11. 45060,69 1992 7615,03 145584 | 1158733 933256. 13082,09 | 16732,78 | 1988861 23933,38 25391,35 | 360248 | 8072171 1993. 10243,24 | 11266,88 2182684 1735733 15997,79 1860153 26155,15 2858652 3050541 3082133 45634,38 104660,67 é @ Excel File Composizione Visualizza Inserisci Formato Strumenti _ Dati DISSE IO Iv | (i) ottenere nti giunti i Filtro dat 7 na P 4 Grafico1 è A 8 © D E F 6 H ] xx Il R 1987 1664, 2397,53 | 2640,71 354729 3714,76 4349,61 A ad K 819824 722518 480603 1969 | arizo2 | stozsa | sosrse 530478 1 3 assise 617912 $ 1590 | sozii selas8 1242125 636977 7 sos08 | 72062 722475 | 812122 1020948 1127655 1308209 1673278 186053 2615515 Linee in pila con indicatori 1991 | as6sa 647023 963877 882117 1992 | 761808 sssoso | 1ussaa 156733 1993 | 1024324 1126688 2182688 1735733 Vas Linee 3D v 1987 1988 + 120000 Area 2D n ao MI —+ 1987 —+1988 1989 —1990 —+1991 —+1992 1993 120000 100000 80000 60000 40000 20000 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec DIAGRAMMA A PUNTI: SCRATTER PLOT 50 51 DIAGRAMMA A PUNTI: GRAFICO A BOLLE • Guardare file Esercitazione 4 foglio 3 • Entriamo nell’ambito della statistica bivariata: ci consente di studiare contemporaneamente 2 variabili e ci permette di stabilire o meno la relazione tra queste 2 variabili • Es: reddito e consumo • Vado su inserisci grafico a dispersione e clicco su bolle 3D, evidenzio le prime due colonne • Da questo grafico capiscono che le due variabili sono direttamente proporzionali LE TABELLE PIVOT • Guardare Esercitazione 4 Foglio 4 • Una tabella pivot fornisce una visualizzazione interattiva dei dati, consentendo di guardare gli stessi dati da molte prospettive diverse • Questa rappresentazione può avere sia un totale di riga che di colonna. Attraverso il totale di riga leggiamo il profilo di ogni riga, es nella’area geografica est quanti musei, teatri, siti religiosi etc ci sono. Per cui faccio per ogni riga e ogni colonna =SOMMA(evidenzio intervallo) 54 SINTETIZZARE LE OSSERVAZIONI DI UNA VARIABILE: MISURE DI POSIZIONE STATISTICHE DESCRITTIVE • Le misure di sintesi si basano su metodi ampiamente utilizzati per comunicare l’essenza di un insieme di dati e sono molto efficaci per confrontare due o più distribuzioni. • Ci sono due aree principali che caratterizzano le misure descrittive: 1. la prima area si basa sul resoconto della risposta “media”. Pertanto, fornisce informazioni sul “livello medio” o “tipico” di una distribuzione; 2. la seconda area si basa sulla “dispersione o variabilità” all'interno della distribuzione (quanto variano i valori all'interno del campione o della popolazione) MISURE DI POSIZIONE E MISURE DI DISPERSIONE • Per sintetizzare numericamente i dati e con scopi differenti usiamo due misure o indici: 1. INDICI DI POSIZIONE o MISURE DI TENDENZA CENTRALE → Il termine ‘indici di posizione’ viene utilizzata perché tali misure ci indicano dove i dati si posizionati su una scala numerica di valori. Mentre, ‘misure di tendenza centrale’ è un’espressione volta ad indicare il punto centrale (la metà) di una distribuzione. 2. INDICI DI VARIABILITÀ o MISURE DI POSIZIONE → Entrambe le ‘denominazioni’ sono utilizzate per indicare quanta variabilità caratterizza un insieme di osservazioni. INDICI DI POSIZIONE • Gli indici di posizione più comunemente utilizzati sono • Esistono altri tipi di media diversi da quella aritmetica, ma in questo corso ci limiteremo ad affrontare quella aritmetica MODA • La moda o valore modale di una variabile è la modalità (o valore) che si presenta con la frequenza più alta (assoluta o percentuale). Questo valore ci dà un’idea approssimativa di quali elementi in un set di dati tendono a verificarsi più frequentemente. • In un insieme di dati possono esserci o non esserci valori modali; questo dipende dal set di dati. Inoltre, possiamo trovare dati con una sola modalità, due modalità, tre modalità o più modalità • Unimodale: se l’insieme dei dati presenta una sola moda. • Bimodale: se l’insieme dei dati presenta due mode (valori più frequenti). 55 • Multimodale: se l’insieme dei dati presenta più di due mode. • Su un campione di 15 dipendenti presso un museo sono state rilevate le seguenti età: • Su un campione di 18 concerti presso lo stadio di una città è stata rilevata la variabile X = ‘numero di spettatori in migliaia’. • Quale è o quali sono le modalità con la frequenza più alta? • 31 e 39 sono le modalità con la frequenza più alta (ni = 3). Quindi 31 e 39 mila rappresentano la moda degli spettatori presso lo stadio della città. Questa distribuzione è bimodale (presenta 2 mode) MEDIA ARITMETICA • La media è la misura di tendenza centrale più comunemente conosciuta ed utilizzata. In statistica, la media aritmetica di una variabile si ottiene sommando tutti i valori e dividendo per il numero di osservazioni. • A seconda che si tratti della media di una popolazione o di un campione, la notazione cambia: • La formula per il calcolo della media aritmetica NON cambia a seconda che si tratti di un campione o una popolazione, MA cambia la sua notazione: • Distribuzione unitaria → Si supponga di aver rilevato su un campione di n = 8 teatri italiani la variabile X = ‘ Numero di spettatori’ per lo spettacolo di Romeo & Juliet presentato dalla compagnia Y • La media di visitatori dello spettacolo di Romeo & Juliet della compagnia Y è pari a ~ 39. • Quando i dati sono distribuzioni di frequenze il calcolo cambia 56 • Distribuzione di frequenze assolute → Si supponga di aver rilevato la variabile X= ‘ prezzo del biglietto’ per spettacoli teatrali acquistati da uno spettatore nel corso di 15 serate. • Il prezzo medio del biglietto per spettacoli teatrali è pari a euro 39.87. • Distribuzione di frequenze relative → nel caso di una distribuzione di frequenze relative: • Distribuzione in classi → Si consideri la seguente distribuzione in classi dei km percorsi da un campione di 67 ospiti di un hotel per attività di turismo sostenibile 59 o Le posizioni 8 e 9 sono incluse in Ni =10. o La mediana è pari a 6 (x(3) • Se i dati sono qualitativi su scala ordinale: MEDIANA DISTRIBUZIONE IN CLASSI • Si supponga di calcolare la mediana dei metri quadrati (mq) delle camere di un hotel situato nel centro storico di Firenze. • Dove: o Li indicata il limite inferiore in cui ricade la posizione mediana calcolata sulle frequenze cumulate o n è l’ampiezza del campione o Ni-1 denota la frequenza cumulata della classe precedente a quella mediana o ni rappresenta la frequenza assoluta della classe mediana o ai è l’ampiezza della classe in cui ricade la mediana MEDIANA • In alcuni casi particolari la mediana non esiste oppure è indefinita. Questo accade nel caso di variabili misurate su scala ordinale, quando la posizione mediana ricade tra due diverse categorie. • ESEMPIO: Supporre di aver rilevato il livello di satisfaction su un campione di 8 turisti dopo aver trascorso un weekend in un hotel. • Per niente soddisfatto, Per niente soddisfatto, Parzialmente soddisfatto, Parzialmente soddisfatto, Soddisfatto, Soddisfatto, Più che soddisfatto, Molto soddisfatto • Se n= 8, allora M= 8/2 = 4 e (8/2) +1 = 5 (quarta e quinta posizione). La mediana ricade tra “parzialmente soddisfatto”e “soddisfatto”. Pertanto, è indefinita LA ROBUSTEZZA STATISTICA • Il termine ‘statistica robusta’ si riferisce alla caratteristica di una statistica di essere resistente ai valori anomali, dove per valori anomali vengono considerati quei valori estremi, troppo piccoli o troppo alti. Pertanto, una misura di sintesi di una distribuzione si dice robusta se non è particolarmente sensibile a valori estremi • La media è una misura statistica che riassume il fenomeno analizzato attraverso un unico valore MA o è influenzato da valori ‘anormali’. Conseguentemente, LA MEDIA non è una misura ROBUSTA. 60 o Fornisce alcune indicazioni ma non è una misura completa per descrivere il collettivo • Al contrario, la mediana NON E’ INFLUENZATA DAGLI OUTLIER e quindi è più robusta della media SINTETIZZANDO LE MISURE DI POSIZIONE SINTETIZZARE LE OSSERVAZIONI DI UNA VARIABILE: LE MISURE DI VARIABILITÀ O DISPERSIONE MISURE DI VARIABILITÀ • La variabilità si può misurare con diversi tipi di indicatori. Una misura di variabilità deve soddisfare almeno i seguenti requisiti: o Assumere valore uguale a zero se tutte le unità presentano uguale modalità della variabile → variabilità nulla o Assumere valori positivi quando le modalità assunte dalle unità non sono uguali o Aumentare al crescere della diversità tra le modalità assunte dalle varie unità • Dopo aver appreso le misure di posizione o centralità più utilizzate, affrontiamo le misure di variabilità o dispersione, cosiddette per indicare quanto sia variabile un insieme di osservazioni. • Anche per le misure di variabilità esistono diverse misure: o RANGE O INTERVALLO DI VARIAZIONE o INTERVALLO INTERQUARTILE (IQR) o VARIANZA o DEVIAZIONE STANDARD o Z-SCORE RANGE RANGE O INTERVALLO DI VARIAZIONE • Il range o intervallo di variazione è la misura più semplice di dispersione e rappresenta la differenza tra il valore più alto e il valore più piccolo di una distribuzione. 61 • Si supponga di indagare due agenzie di viaggio, dove ognuna di loro impiega 9 dipendenti. La seguente distribuzione presenta il numero di anni di esperienza nel settore dei viaggi che i 9 dipendenti hanno: • Confrontando gli istogrammi dell’Agenzia A e B o Possiamo notare che la distribuzione degli anni di esperienza del dipendenti che lavorano presso l’Agenzia A ha un centro molto più pronunciato, mentre la distribuzione degli anni di esperienza del dipendenti che lavorano presso l’Agenzia B mostra le sezioni finali (sia destra che sinistra) più pronunciate. o Quindi, nonostante le agenzie A e B abbiano mostrato una identico intervallo di variazione in merito agli anni di esperienza dei dipendenti, l’Agenzia B presenta un’esperienza più variabile o dispersa dei dipendenti rispetto all’Agenzia A LA VARIABILITÀ • Si supponga di considerare l’esempio precedente delle due agenzie di viaggio. Si consideri quindi la distribuzione del numero di anni di esperienza nel settore dei viaggi dei 9 dipendenti 64 • PER UNA DISTRIBUZIONE DI FREQUENZE: • La seguente tabella riporta la distribuzione degli ingressi (in migliaia) presso le Musée Rodin nel maggio 2019. Calcolare la Varianza (Var) e la Deviazione Standard o sqm. I QUARTILI • La misura dei quartili è correlata alla mediana. • I quartili sono quei valori che dividono una distribuzione ordinata in direzione crescente in quattro parti di uguale numero, dove possiamo trovare: il primo quartile (Q1), il secondo quartile (Q2) e il terzo quartile (Q3). • Il 1° quartile è anche noto come quartile inferiore. • Il 2° quartile è uguale alla mediana, ovvero divide i dati in 2 parti uguali. • Il 3° quartile è anche noto come quartile superiore. 65 DISTRIBUZIONE UNITARIA • La temperatura in °C rilevata nella città di Mosca durante 23 giorni selezionati in modo casuale è: • Ordinare le osservazioni. • Calcolare il 2° quartile che corrisponde alla Mediana. • Calcolare il 1° quartile (quartile inferiore). • Calcolare il 3° quartile (quartile superiore) 66 • Per quanto riguarda i Quartili, possiamo affermare che durante 23 giorni casuali, a Mosca la temperatura mediana è pari a 1°C. • Il 25% delle volte la temperatura era inferiore a -4°C (Q1) e l’altro 25% delle volte la temperatura era superiore a 19°C (Q3) DISTRIBUZIONE DI FREQUENZE • Chiedere • Quando ho le frequenze il punto di partenza per la mediana sono le frequenze cumulate Ni • Calcolo mediana e trovo la posizione mediana pari a 10. La modalità che corrisponde a questo 10 è 5, quindi 5 è la mediana • Dopo calcolo il primo quartile, quindi la parte che va da 1 a 4. • Per il secondo quartile calcolo la parte che va da 6 a 12 69 o Tracciare i boxplot delle distribuzioni di Mosca e Miami. o Interpretare la variabilità dei dati e il diagramma (boxplot). • SIQR(Mosca) = (16 – (-4))/2 = 10 • SIQR(Miami) = (28 – 23)/2 = 2.5 • Già solo avendo le misure senza la rappresentazione grafica possiamo dedurre che Miami è più stabile, mentre per Mosca abbiamo una maggiore variabilità • Sulla base dell’ SIQR e boxplot, possiamo affermare che la distribuzione della temperatura di Mosca è più variabile di quella di Miami. Infatti, a Miami durante 23 giorni c'è stata una variazione di temperatura minore. • Al momento non ci sono valori anomali (altrimenti avremmo avuto una stellina) LIMITE INFERIORE, LIMITE SUPERIORE E OUTLIER • La lunghezza dei baffi può essere rappresentata attraverso una prospettiva diversa: o Baffo a sinistra tracciato da Q1 al limite inferiore o Baffo a destra tracciato da Q3 al limite superiore • Limite inferiore = Q1 - (1.5 * IQR) • Limite superiore = Q3 + (1.5 * IQR) • Tutti i valori inferiori al limite inferiore o superiori al limite superior sono detti OUTLIER. BOXPLOT E OUTLIER 70 • Sintesi dei 5 numeri: • 8 è inferiore al limite inferiore, quindi è outlier BOXPLOT E FORMA DELLA DISTRIBUZIONE Audio statistica 12 riprendere da min 34 STATISTICHE DESCRITTIVE: • Guardare file Esercitazione 6 • Per sintetizzare un insieme di dati o per confrontare due o più distribuzioni di dati la Statistica ci offre le cosiddette misure di sintesi che attraverso un singolo valore descrivono una o più collezioni di dati MISURE DI CENTRALITÀ • La moda o valore modale è la modalità che si presenta con la frequenza (assoluta o percentuale) più alta nella collezione di dati 71 • Si supponga di avere le distribuzioni delle fatture annue (in migliaia di euro) di 10 fornitori presso due hotel della stessa città (A, B ). • Il valore modale per l’Hotel A è 30.000 euro • Il valore modale per l’Hotel B è 28.000 euro • La Mediana (M) è la modalità che occupa la posizione centrale di una distribuzione ordinata in senso crescente e divide il collettivo in due parti uguali 74 • Le due distribuzioni hanno la stessa media ma la distribuzione dei dati è la stessa? MISURE DI DISPERSIONE • La deviazione standard è la radice quadrata della varianza ed è una misura che esprime quanto ciascuna modalità si discosta dalla media. Popolazione: 0°- 3. Dividere la somma degli scarti al quadrato e il 4. Porre la radice quadrata della Varianza per ottenere numero di osservazioni (N = 10) per ottenere la Varianza la Dev. Standard x v fa 012/10 3]x v fr «RaDopo1a) 4 a colle i vis | comi) Toda 1 | Fomitoe | Hotel jul medi lx)" Gi mela 13) 2 i ; n er 18 sà i ® “ si al a a 5) susa a i ali a 38 tata s si sla a 28 nea 6 # es 20 18 aa 7 a 7| è » co osa è n s|3 s si zo s 28 S| O 22 to 10 sa wi 3 2 18 aa "n 20 w dii lo ci re 12 rome 2 1 core 282 î 1i9g Pt sue BI meDA | 282 anta 14 varianza Ezad d Ya i; 2_È ta Popolazione: o°=f__ o N N A 8 c o A 8 c o 1° Fomitore Hotel A (xi. media di») | {ki media dix) #2 1) Fornitore Hotel B_- (xi - media dix) (x1- media ci x) #2 ? 1 20 18 324 2 1 8 Do) 3 2 n En sL88 3 2 26 asa 4 3 32 38 14M a 3 28 goa s 4 a 28 n s a 19 84,68 6 s 30 18 324 A 5 8 0a 7 6 2 08 oe 5 È = dda s 7 a 52 27,04 a ; 6 asi 9 8 26 22 484 A è do cea 10 9 20 18 324 Le n 20 30 18 328 Li A 36 A 12 TOTAE 282 1196 2 s leon di 12] Totale 282 36 14 VARIANZA 11,96 13] meoa 282 15 DEN. STANDARD 3054323293 16] VARIANZA 17,36 16 15 | Dev. STANDARD 4166533331 w La variabilità dell’Hotel B è maggiore rispetto a quella dell’Hotel A. MISURE DESCRITTIVE PER DISTRIBUZIONI DI FREQUENZA n=! Vara, 721 Yan n 3. Dividere la somma dei prodotti tra i valori di X 1. Moltiplicare ogni valore di X perla 2. Sommare i prodotti trai valori di X ‘OMUpicare ogni Vanore GI peri cpr 1 VOI CIA ® o Ta frequenza assoluta (n) per il totale delle n; frequenza assoluta (n;) frequenze assolute (n;) x i x ila non n i io la î 3 E 3 66 2 28 4 23 1 2 S = sa i qu id 0 ie 9 20 2 58 Si mu io| so i sis n a i = sia RE è AE ss :_ 5 rosa [eee DL: {È Rie en 75 Mediana 1. Calcolare le frequenze cumulate (1 25 n 28 » a n 3 35 * »” 3 Varianza Xv A 8 1 si, on 2 8_| 1 3 2 3 4 = 1 s 2 1 6 26 2 7 2 2 s 28 2 9 2 2 10 30 1 11 ai 1 12 3 2 1 n 2 14| TOTALE 20 15] mena Varianza BB ha nolne lie noli ino nona aa 3. 10 + Mi: N= 20 quindi af f 2 — 104 e 114 posizione 1. Calcolare gli scarti dalla media 3, Moltiplicare gli scarti dalla media al quadrato per la frequenza ussoluta (n) e fare la loro somma sx sd «t8a n i 2001 1681 ti co can 161 sar 1521 o sam 7 1681 26 002 pei sar ssa sez 08 76 20 2. Determinare se N (o n) è pari 0 dispari I 3. Determinare a quale modalità appartengona le posizioni 10 e 11 e fare la loro media. 2. Elevate al quadrato gli scarti dalla media xv f vene 1a # n s s se sa aL n #6 =0202 Gao medina (e media iz 3a ma D 91 51 41 31 2601 1681 sa vo1 asi asl sal ssa 201 dar E î i - media x) ei media x)? ] 26,01 16,81 961 121 001 gs 598 1 ama 1 79 Z-SCORE • La varianza e la deviazione standard sono indici che risentono dell’unità di misura e dell’ordine di grandezza dei dati • Pertanto il confronto della variabilità tra collettivi diversi o variabili è possibile quando: o I collettivi presentano ordini di grandezza simili: medie o Le variabili sono espresse nella stessa unità di misura • Uno z-score rappresenta la distanza di ciascun valore dalla media, in unità di deviazioni standard. Si ottiene sottraendo la media dal valore della variabile e dividendo per la deviazione standard. 80 • Caratteristiche: o Lo z-score non ha unità di misura. o Ha media 0 e varianza 1. o Se un valore osservato nei dati è maggiore della media, lo z-score sarà positivo; o Se un valore osservato è minore della media, lo z-score sarà negativo; o Se un valore è uguale alla media, lo z-score sarà pari a zero. • La tabella riporta il numero di visitatori di sei gallerie d’arte registrati durante una settimana lavorativa per due specifici eventi (EVENTO 1(yi ); EVENTO 2(xi )). In quali di questi due eventi, la galleria 3 ha avuto una migliore affluenza? o y: numero di visitatori all’evento 1 o x: numero di visitatori all’evento 2 • Per confrontare i visitatori dei due eventi, possiamo calcolare gli z-score per ciascuna galleria d’arte: LE MISURE DI POSIZIONE SU EXCEL • Guardare file Esercitazione 5 • Si consideri la seguente distribuzione di ritardi aerei (in minuti) registrati su un campione di 29 clienti abituali di una compagnia aerea. • Calcolare: o Moda dei ritardi; o Media dei ritardi; o Mediana dei ritardi; o Quartili dei ritardi 81 MODA SU EXCEL • =MODA.MULT(intervallo) • È meglio fare MODA.MULT. Quando poi ottengo il risultato devo trascinare in basso per vedere se abbiamo più di una moda, se il numero è uguale allora abbiamo solo una moda come in questo caso 84 LE MISURE DI VARIABILITA’ SU EXCEL • Si consideri la distribuzione precedente dei ritardi aerei (in minuti) registrati sul campione di 29 clienti abituali. • Calcolare: o Range o intervallo di variazione; o Varianza; o Deviazione Standard; o IQR 85 RANGE O INTERVALLO DI VARIAZIONE SU EXCEL VARIANZA SU EXCEL • =VAR.C(intervallo) → campione • =VAR.P (intervallo) → popolazione 86 VARIANZA E DEVIAZIONE STANDARD SU EXCEL • Per calcolare la deviazione standard ho due opzioni: 1. =RADQ(varaianza) 2. =DEV.ST(intevallo) o DEV.ST.C → campione o DEV.ST.P → popolazione 89 • Quindi per capire la correlazione dobbiamo fare una rappresentazione grafica (scatterplot) STEP1 e poi fare il calcolo per trovare il Coefficiente di Correlazione di Pearson STEP2. • Viene visualizzato ora l’esempio di menù in un ristornate per poter applicare lo STEP1 e lo STEP2. • STEP1 → Scatter Plot 90 • Quale è la direzione di questa relazione? Si tratta di una relazione positiva o negativa? • Inoltre, la relazione è forte o debole? • Guardando il grafico potremmo dire che esiste una relazione lineare (i puntini ricordano una linea). Possiamo inoltre dire che la relazione è negativa (perché, quando una variabile aumenta, l’altra diminuisce). Questa relazione è forte in quanto man mano che il prezzo aumenta, la quantità di prodotto venduto diminuisce. • Come interpretare la correlazione lineare? Vedi slide sotto. 91 • Il grafico di dispersione, quindi, consente di identificare visivamente la presenza di una correlazione lineare, se positiva o negativa, se forte o debole. Tuttavia, quanto è forte questa relazione? Posso quantificarla e descriverla con un dato numerico? • STEP2 → Coefficiente di correlazione di Pearson, che quantifica in modo esatto la relazione fra X ed Y (nel nostro caso in esempio tra il prezzo del menù e il numero di menù venduti). • Il “p” nella slide sotto si legge come RO. • Questa formula non è altro che la moltiplicazione di prodotto fra il Zscore di X e il Zscore di Y. Faremo poi la sommatoria e divideremo infine per N (o n-1 per il campione). 94 • Per dire se sussiste un rapporto di dipendenza, si andrà a fare un’equazione lineare. Un metodo è quello di trovare una retta passante per due punti. Questa retta adotta un criterio chiamata il criterio dei minimi quadrati, il quale si basa sulla minimizzazione dell’errore o residuo. Ovvero la retta mi consente di ridurre al massimo l’errore che si può commettere tra il valore che si prevede e il valore che poi in maniera reale si registra. 95 • Nell'esempio del file Excel, si era calcolato 4 come numero di previsione di vendita menù. Il numero reale però è 5, facendo quindi la differenza fra il reale e il previsionale, 1 è l'errore o residuo e quindi si può dire che la retta di regressione si è adattata molto bene ai dati in quanto si è riusciti a ridurre al minimo gli errori che si potevano fare. 96 • Y con ^ (slide sotto) si chiama Y con cappuccio. Questo è il valore previsto ed è il valore teorico.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved