Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Data Analysis & Visualization, Sintesi del corso di Statistica

Data Analysis & Visualization riassunto completo

Tipologia: Sintesi del corso

2019/2020

Caricato il 03/12/2022

Utente sconosciuto
Utente sconosciuto 🇮🇹

4.5

(28)

12 documenti

1 / 44

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Data Analysis & Visualization e più Sintesi del corso in PDF di Statistica solo su Docsity! Data Analysis & Visualization Capitolo 1 Sette tipi di insidie dei dati Insidia 1: errori epistemici, ovvero come pensiamo ai dati L'epistemologia è quell'ambito della filosofia che si occupa della teoria della conoscenza: che cosa è una convinzione ragionevole anziché una semplice opinione. Spesso affrontiamo i dati con una mentalità e presupposti sbagliati, che portano a errori lungo tutta la strada, indipendentemente dal tipo di grafico che scegliamo, come i seguenti. - Assumere che i dati che usiamo rispecchino perfettamente la realtà. - Trarre conclusioni sul futuro sulla base solo di dati storici. - Cercare di usare i dati per verificare una convinzione già formata, anziché sottoporla a prova per vedere se non sia in realtà falsa. Evitare gli errori epistemici, e assicurarsi di avere le idee chiare su ciò che è ragionevole e ciò che non lo è, è un fondamento importante per un'analisi dei dati efficace. Insidia 2: sconfinamenti tecnici, ovvero come elaboriamo i dati Una volta deciso di usare i dati per risolvere un particolare problema, dobbiamo raccoglierli, memorizzarli, unirli con altri set di dati, trasformarli, pulirli e metterli nella forma giusta. Ciò che si ottiene può presentare molti problemi. - Dati "sporchi", con livelli categoriali non corrispondenti ed errori ortografici nell'inserimento dei dati. - Unità di misura o campi di data che non sono coerenti o non sono compatibili. - Unione di set di dati non omogenei, record nulli o duplicati che distorcono l'analisi. Possono essere aspetti complicati e fonte di confusione, ma l'accuratezza dell'analisi dipende dal fatto che siano trattati correttamente. A volte la verità contenuta nei dati viene "persa nella traduzione" ed è possibile andare avanti a testa bassa e prendere decisioni senza nemmeno rendersi conto che si sta lavorando con un insieme di dati seriamente difettoso. Insidia 3: errori matematici, ovvero come calcoliamo i dati Lavorare con i dati comporta quasi sempre effettuare dei calcoli, eseguire operazioni matematiche sui dati quantitativi a nostra disposizione. - Si sommano i dati a vari livelli di aggregazione. - Si calcolano percentuali o rapporti. - Si lavora con proporzioni o percentuali. - Si tratta con unità di misura diverse. Questi sono solo alcuni esempi di come prendiamo dei campi di dati già esistenti e da quelli creiamo nuovi campi di dati. Insidia 4: lapsus statistici, ovvero come confrontiamo i dati Che si parli di statistica descrittiva o inferenziale, le insidie abbondano. - Le misure di tendenza centrale o di variazione che usiamo ci portano fuori strada? - I campioni che usiamo sono rappresentativi della popolazione che vogliamo studiare? - Gli strumenti di confronto che usiamo sono validi e statisticamente corretti? Queste insidie sono numerose e particolarmente difficili da individuare, perché hanno a che fare con un modo di pensare che può indurre all'errore. Insidia 5: aberrazioni analitiche, ovvero come analizziamo i dati L'analisi è al centro di ogni lavoro sui dati. È l'insieme degli strumenti grazie ai quali traiamo conclusioni e prendiamo decisioni. L'analisi dei dati ha raggiunto nuove vette, ma si può finire anche in fondo a qualche nuovo baratro, come nei casi seguenti. - Quando si ottiene un iper-adattamento dei modelli ai dati storici. - Quando si trascurano nei dati segnali importanti. - Quando si estrapola o si interpola in modi che non hanno alcun senso. - Quando si usano metriche che in realtà non hanno alcuna importanza. Insidia 6: gaffe grafiche, ovvero come visualizziamo i dati Sono gli errori che si notano più facilmente e di cui si parla di più. Perché? Perché sono quelli visuali. Sono lì in bella vista e tutti possono rimirarli orripilati Per fortuna queste insidie sono ben documentate e si possono identificare ponendosi poche domande. - Abbiamo scelto un tipo di grafico adatto allo scopo? - Se si deve evidenziare un punto, è mostrato chiaramente o bisogna cavarsi gli occhi per riuscire a vederlo? - Usiamo delle regole empiriche senza esserne indebitamente limitati? Certo, trovare il tipo di grafico perfetto è del tutto inutile, se siamo caduti in una delle prime cinque insidie, ma che peccato quando si fanno tutte le cose giuste fino a questo punto e si casca proprio sul traguardo. Insidia 7: difetti di design, ovvero come abbelliamo i dati Il design conta. - La scelta dei colori confonde chi guarda o aiuta a rendere le cose più chiare? - Abbiamo usato la nostra creatività per abbellire sapientemente i grafici, o ci siamo persi una buona occasione per includere componenti estetici che aggiungono valore? - È facile interagire con gli oggetti visuali che abbiamo creato, oppure disorientano l'utente? Mettere gli elementi di design giusti al posto giusto può fare la differenza: il nostro pubblico presterà attenzione al nostro messaggio, oppure ci ignorerà totalmente. Evitare le sette insidie Il fatto è, però, che spesso non abbiamo il tempo per scorrere una lista di controllo completa, prima di procedere nel nostro viaggio fra i dati. Cosa fare? - Per prima cosa, cercare di uscire dalla trappola: risolvere l'errore. - Secondo, mettere un segno di spunta sulla lista di controllo, vicino alla trappola in cui si è caduti. - Terzo, raccontare a tutti quello che è successo. abbia avuto contato con un caso sospetto, probabile o confermato di Ebola o con un animale morso o malato O qualsiasi persona con un esordio improvviso di febbre alta e almeno tre dei sintomi seguenti: mal di testa, vomito, anoressia/perdita di appetito, diarrea, letargia, mal di stomaca, muscoli o articolazioni dolorante, difficoltà di deglutizione, difficoltà di respirazione, o singhiozzo; o qualsiasi persona con emorragia non spiegata O qualsiasi morte improvvisa, non spiegata. ______________________________________________________________________________ Classificazione Probabile Criteri Qualsiasi caso sospetto valutato da un clinico O qualsiasi persona che sia morta da "sospetto" Ebola e abbia avuto un collegamento epidemiologico a un caso confermato ma non testato e senza conferma della malattia fornita da laboratorio. ______________________________________________________________________________ Classificazione Confermato Criteri Un caso probabile o sospetto è classificato confermato quando un campione ricavato da quella persona viene testato positivo per il virus Ebola in laboratorio. ______________________________________________________________________________ Hank Aaron ha fatto registrare ben 755 home run nel corso della sua carriera nella Major League di baseball, un record rimasto imbattuto per 33 anni. Ma che cosa dire dei sei home run ottenuti nei playoff, dove sono stati decisivi per la sua squadra? O dei due home run nelle partite degli All-Start in rappresentanza della National League nel 1971 e nel 1972? E poi ci sono i cinque home run nelle 26 partite ufficiali in cui ha giocato a livello professionale con gli Indianapolis Clowns nelle Negro American Leagues prima di entrare negli Arlanta Braves. Non dovrebbero contare anche quelli? Non sono incorporati nel conteggio ufficiale, che comprende solo gli home run delle stagioni regolari nella MLB (Major League Baseball). Ma si potrebbe anche sostenere che quegli ulteriori 13 home run ottenuti nella carriera di giocatore professionista di baseball dovrebbero portare il suo record a 768. C'è sempre un divario. Insidia 1B: dati fin troppo umani C'è però anche un altro tipo di divario che creiamo molto spesso noi, esseri umani, quando registriamo valori che noi stessi misuriamo e poi trascriviamo manualmente: arrotondiamo, falsifichiamo, tiriamo a indovinare. Non siamo perfetti e sicuramente non registriamo i dati con totale precisione. Il primo esempio di arrotondamento in dati registrati da esseri umani è il numero dei minuti dopo lo scoccare dell'ora che i piloti indicano quando riferiscono alla FAA che il loro aereo ha colpito qualche animale sulla pista o in volo. Guardando il grafico, è probabile sostenere che lo scrivono manualmente, o dettano a qualcuno, o inseriscono da una tastiera l'ora del giorno. Ovviamente, sappiamo che la probabilità che un aereo colpisca un uccello o qualche altro animale non varia in questo modo in funzione del numero dei minuti trascorsi dallo scoccare dell'ora. Il grafico è ottenuto in base a 85.000 collisioni registrate con animali, avvenute nell'arco di 18 anni. Dati forniti da migliaia e migliaia di singoli piloti in tutto il paese durante quasi due decenni finiscono per produrre questo schema, che sembra quasi generato da una formula matematica. L'altezza delle colonne raggiunge linee di frequenza molto interessanti. E non sono solo gli impatti degli aerei con gli animali che producono questo schema. Operiamo questi tipi di manipolazioni o di arrotondamenti anche quando registriamo altre variabili quantitative. I pesi dei giocatori della NBA della stagione 2017-18 si possono riportare in un istogramma e a prima vista, se usiamo intervalli di 10 libbre, non vediamo indizi di arrotondamenti o di assenza di precisione. Andiamo un po' più in profondità, però. Che cosa succede se cambiamo gli intervalli da 10 a 1 libbra? Ora, invece di raggruppare i giocatori in classi di 10 libbre creiamo una classe per ciascun peso intero: i due giocatori di 160 libbre insieme, quello di 161 libbre finisce in un gruppo a sé, e così via. Così facendo, emerge un altro schema interessante, che ci dice che qualcosa non va nel sistema di misurazione. Il processo di cattura e registrazione dei dati produce di nuovo l'impronta di dati inseriti da un essere umano, questa volta con uno schema diverso da quello visto con i dati temporali. Che cosa succede? Per quasi metà dei giocatori è stato registrato un peso divisibile per 10, e quasi tre giocatori su 4 (74%) hanno un peso divisibile per 5. Ce ne sono altri, però, il cui peso registrato non ricade in queste classi "rotonde". Poco più di 1 su 4 (26%) ha un peso non divisibile per 5, come i tre giocatori di 201 libbre, per esempio. Questi pesi però sono la minoranza. Se scarichiamo le schede online di oltre 2800 giocatori professionisti di football nordamericani, elencati come attivi nelle rose prima della stagione 2018, vediamo raggruppamenti simili intorno ai pesi divisibili per 5 e 10, ma non proprio nella stessa misura: solo metà dei giocatori ricade in queste classi rotonde, l'altra metà finisce in classi non divisibili per 5 o per 10. Il sistema di misurazione e il processo di cattura e registrazione dei pesi dei giocatori di football e di pubblicazione di questi valori nelle schede online dà con una probabilità doppia un valore non divisibile per 5. Può darsi che il peso dei giocatori sia un fattore molto più determinante in questo sport, e che quindi sia registrato e monitorato con maggiore precisione, ma è solo una congettura. Bisognerebbe confrontare i sistemi di misura per entrambi gli sport per capire da che cosa dipenda la differenza di risoluzione. Esiste in effetti una situazione perfetta, che mostra che aspetto hanno i dati, quando la precisione della misura del peso dei giocatori conta moltissimo di più che nelle schede delle rose delle squadre pubblicate online. Ogni anno, i giocatori di football americani che entrato nella carriera professionistica vengono seguiti, esaminati attentamente e misurati dagli scout delle varie squadre, con estrema precisione, in un evento che prende il nome di NFL (National Football League) Combine. Questi giocatori vengono una lunga serie di test delle prestazioni fisiche e viene contato e misurato sottoposti a u praticamente tutto, tranne il numero dei capelli che hanno in testa. Che tipo di profilo dei test produce questo evento? Se esaminiamo i 1305 giocatori che hanno partecipato alla Combine dal 2013 al 2018 e sono finiti a giocare nella NFL, troviamo che più di tre su quattro hanno pesi, registrati e pubblicati, che non finiscono né con uno 0 né con un 5. L'assenza di un processo di arrotondamento dovuto alla registrazione da parte di un essere umano è evidente. Se esaminiamo la frequenza dei giocatori in base all'ultima cifra del loro peso registrato, vediamo che la Combine produce una distribuzione molto uniforme e la probabilità che il peso registrato di un giocatore abbia come ultima cifra uno 0 o un 5 non è maggiore di quella di tutte le altre cifre. Questo che cosa vuol dire? Beh, i sistemi di misurazione possono essere molto diversi, anche quando misurano esattamente la medesima variabile (peso) dello stesso tipo di oggetto (giocatori di football americano). Alcuni sistemi di misurazione comportano un livello elevato di arrotondamento, manipolazione e congettura da parte degli esseri umani, altri ne comportano di meno, qualcuno non ne comporta affatto. Insidia 1C: valutazioni incoerenti Internet vive di valutazioni generate da esseri umani. L'anno scorso conducendo un sondaggio, senza particolari pretese scientifiche, si chiedeva su social media di valutare una serie di dieci fotografie di banane in termini di grado di maturazione. Le banane in ciascuna foto dovevano essere classificate come non mature, quasi mature, mature, molto mature o troppo mature. Ciascuna foto veniva presentata una volta sola a ciascun partecipante, e a ciascun partecipante venivano presentate le medesime foto di banane, sempre nello stesso ordine. Nessuno rimarrà sconvolto, scoprendo che le persone non tendono a valutare il grado di maturazione delle banane nello stesso modo. Due sole fra le dieci fotografie hanno ricevuto meno di tre livelli di maturazione differenti, dalle 231 persone che hanno risposto. Quattro fotografie sono finite in quattro categorie diverse e una delle foto è stata classificata addirittura in tutte le cinque categorie. Ci sono due fotografie che riproducono esattamente le stesse banane, una è solo l'immagine speculare dell'altra. L'immagine del casco di banane presentata per seconda nel sondaggio veniva presentata ancora alla fine, ma ribaltata in orizzontale. Nella proposta del sondaggio non si diceva niente in proposito; veniva richiesto semplicemente di dare una valutazione per ciascuna fotografia. Quel che ero interessato effettivamente a scoprire era quante persone avrebbero dato la stessa valutazione alle due foto, e quante invece no. La mia ipotesi era che una persona su dieci o forse su venti avrebbe dato una valutazione diversa, ma in realtà più di una su tre (il 37%) ha cambiato la propria valutazione. Fra i 231 partecipanti, 146 hanno dato la stessa alla decima e alla seconda foto, ma 85 le hanno valutate in modo diverso. 77 delle 85 persone che hanno cambiato la propria valutazione hanno indicato per la seconda foto un grado di maturazione più elevato (passando, per esempio, da "quasi mature" a "mature" o da "mature" a "molto mature"), mentre solo otto hanno diminuito la loro valutazione. Perché dunque una percentuale così elevata dei partecipanti che hanno cambiato la loro valutazione tra le due foto ha indicato un grado di maturazione più elevato per la seconda? Proviamo a riconsiderare la fotografia presentata alla nona posizione. Queste banane sembrano un po’ verdi, vero? Ancora una volta, la mia indagine era informale, non scientifica e non controllata, ma, anche se è teoricamente possibile che i partecipanti abbiano fatto le loro scelte a caso, non ho ragione per pensare che l'abbiano fatto in massa. Non avevo offerto alcun incentivo o onorario. Che cosa vuol dire, allora? Secondo me significa che è possibile che non siamo modelli perfetti di oggettività e coerenza, quando valutiamo le cose, che le nostre valutazioni e le nostre opinioni abbiano in sé un certo grado di rumore, anche rispetto a brevi orizzonti temporali; e che è possibile che siamo influenzati in qualche misura dal contesto, o dall'ordine in cui offriamo le nostre opinioni. Come evitare di confondere i dati con la realtà Notate che, in ciascuno di questi casi, qualcosa nel modo in cui erano presentati i dati stessi ci ha messo in guardia su un potenziale "divario fra dati e realtà". La visualizzazione dei dati può essere uno dei modi migliori per identificare i divari. All'inizio, però, è utile ricordarci che ogni punto di dati esistente è stato raccolto, memorizzato, recuperato e analizzato attraverso processi imperfetti da esseri umani fallibili con apparecchiature a cui è intrinseco un errore di misurazione. Quanto più sappiamo di questi processi tanto meglio saremo attrezzati a valutare il divario fra dati e realtà. Ecco sette suggerimenti per evitare di confondere i dati e la realtà. - Cercate di comprendere bene le definizioni operazionali di tutte le metriche. - Disegnate i passi della raccolta dei dati come un diagramma di flusso di processo. direzione ovest. Mi chiedo: tutti i mesi sono state registrate più biciclette che andavano a est? 5. Vediamo un po' se le cose sono andate diversamente. Un'ulteriore analisi mostra che in effetti è stato un caso fuori dall'ordinario. Va bene, dunque negli ultimi due anni sembra che la mia ipotesi fosse falsa: in genere il conteggio è maggiore per le bici che vanno verso ovest ("Fremont Bridge SB") e minore per quelle che vanno verso est ("Fremont Bridge NB") e posso vedere uno schema stagionale con numeri più elevati nei mesi estivi. Mi chiedo che cosa sia successo nell'aprile 2014, e dovrò guardare i dati successivi per vedere se la tendenza stagionale si mantiene o se le cose cambiano. Notate che sono stato attento a evitare di cadere nel divario fra dati e realtà, parlando del conteggio fornito dai contatori delle biciclette, invece che di biciclette che effettivamente attraversano il ponte. Come sempre, il diavolo si nasconde nei dettagli. E per il diavolo contano molto i dettagli nel modo in cui pensiamo alle cose. Capitolo 3 Insidia 2: sconfinamenti tecnici Come elaboriamo i dati Dunque, saper identificare e imparare a evitare le insidie in questi passi determinanti, che richiedono molto tempo. Iniziamo con alcuni principi fondamentali del data wrangling. - Praticamente tutti i dataset sono sporchi e richiedono qualche forma di "pulizia". - Le transizioni (riformattazione, fusione, unione ecc.) sono le operazioni in cui si verificano molti degli errori. - È possibile imparare delle tecniche che ci aiutino a evitare di procedere con dati sporchi o di fare pasticci nelle transizioni. Insidia 2A: l'insidia dei dati sporchi I dati sono sporchi. Valori di testo con errori ortografici, problemi di formato delle date, unità non coerenti, valori mancanti, valori nulli, coordinate geospaziali in formati diversi e incompatibili, e l'elenco potrebbe andare avanti ancora. Gli open data, cioè i "dati aperti", che si possono scaricare liberamente e gratuitamente dai siti delle pubbliche amministrazioni, possono essere particolarmente terribili. Prendiamo un dataset divertente su cui lavorare: i dati sulla rimozione dei veicoli dell'Ufficio dei trasporti del comune di Baltimora, un database scaricabile di oltre 61.300 casi di rimozione, che dal gennaio 2017 risalgono fino all'ottobre 2012. Ogni veicolo è stato prodotto in un particolare anno, e i diligenti dipendenti dei depositi delle auto rimosse ci hanno fatto il favoloso favore di registrare per noi nei dati questa caratteristica. Mi piacerebbe sapere quale sia l'anno di produzione più frequente fra le auto rimosse a Baltimora, perciò semplicemente calcolo la media degli anni di costruzione dei veicoli e arrotondo il risultato all'intero più vicino. E ottengo... 23? Mi sembra strano. Non può certo voler dire 1923, e chiaramente 2023 non è possibile. Che cosa succede qui? Com'è possibile che l'anno medio di produzione dei veicoli sia 23? Diamo un'occhiata più da vicino, come spesso bisogna fare con i dati. Anche uno sguardo rapido alla colonna Year per il veicolo nel foglio di calcolo stesso ci dice che per questo attributo ci aspettano problemi seri. Il primissimo valore è 99, che presumibilmente significa 1999. Il secondo valore è 91, e non abbiamo difficoltà a ipotizzare che con tutta probabilità l'anno di produzione del veicolo sia 1991. Ma che dire del valore nella terza riga, 4? La mia ipotesi migliore è che voglia dire 2004. Poi nella stessa colonna ci sono una cella vuota e una che contiene un "?": vuol dire che nel primo caso la persona che ha registrato il veicolo rimosso ha volutamente lasciato l'anno in bianco, mentre nel secondo non sapeva l'anno di produzione del veicolo? Ci potrebbero essere più spiegazioni per questi valori. Molto si perde nella traduzione. Allora, che cosa facciamo con questo campo quantitativo pasticciato, che ci dovrebbe dire l'anno del veicolo rimosso? Proviamo a visualizzarlo con un istogramma. Possiamo vedere chiaramente che ci sono due gruppi, e a prima vista niente in mezzo. Il primo gruppo a sinistra ha veicoli con anni fra 0 e 17: possiamo immaginare che siano auto costruite fra il 2000 e il 2017. Il secondo gruppo ha valori fra 82 e 99; questi sono veicoli probabilmente costruiti fra 1982 e 1999. Possiamo sistemare gli anni sommando 2000 ai valori compresi fra 0 e 17 e sommando 1900 ai valori superiori. Spesso il primo aggiustamento o la prima correzione sono qualcosa di ovvio, ma serve una messa a punto più fine. Possiamo passare lo straccio sul pavimento, ma a volte bisogna tornare indietro e usare mezzi più robusti per qualche macchia più resistente. Questo dataset in effetti ne ha ancora qualcuna. Vediamo che l'istogramma corretto ha una coda molto lunga a sinistra. Sembra che non ci sia nulla, ma in realtà ci sono brevissime colonne per valori singoli in corrispondenza di 1920 (in origine 20), 1940 (in origine 40), 1960 (in origine 60) e 1963 (in origine 63). Sono proprio macchine molto vecchie? Possiamo essere sicuri che la "Toyota Camray" sia in realtà una Toyota Camry e sicuramente non può essere stata costruita nel 1920. La Volvo $40 sicuramente non risale agli anni Quaranta, ma possiamo anche immaginare come in questo campo sia finito il "40". La Jeep Liberty non può essere del 1960, perché la Jeep ha prodotto questo modello solo fra il 2002 e il 2012. La "Cadillac Sedan Deville" del 1963 potrebbe essere in realtà una Cadillac Sedan de Ville del 1963, perciò possiamo supporre che questo valore sia corretto. Che cosa facciamo allora con quei tre valori che chiaramente non possono essere anni di produzione? La decisione dipende in gran parte dal tipo di analisi che dobbiamo condurre e dal fatto che questi valori possano fare o meno una grande differenza. Come vedremo meglio più avanti, i valori "fuoriclasse" possono avere un forte impatto sulla media aritmetica, perciò dobbiamo essere molto espliciti nella scelta e dobbiamo stendere per il nostro pubblico note molto dettagliate sugli aggiustamenti che operiamo o sui valori chiaramente errati che escludiamo. Per quel che ci serve, lascio nel dataset i quattro valori dubbi e ricalcolo l'anno medio di produzione dei veicoli, che, arrotondato, ora risulta 2005. Ha molto più senso. L'eliminazione dei quattro fuoriclasse modifica il calcolo della media solo di un millesimo di anno, che scompare del tutto nell'arrotondamento agli interi, perciò non mi preoccupa molto includerli per l'analisi, anche se sono abbastanza sicuro che siano valori errati. Non influenzano gli insight che potrei ricavarne. Parliamo invece ancora un po' di quella "Camray". Questo errore ortografico apre una finestra su un altro aspetto di sporcizia del dataset, il campo della marca (Vehicle Make). Cominciamo con questo campo, poiché in teoria dovrebbe avere un insieme di valori possibili più limitato del campo del modello (hide Model): la maggior parte delle matchie (per esempio, Honda) produce molti modelli (per esempio, Civic, Accord ecc.). A quanto pare, ci sono 899 voci diverse nel campo per la marca nel nostro dataset. La nuvola di parole mostra solo le prime 100, ci sono ancora altre 799 voci! Come potremmo mai scoprire quale sia la marca più comune fra i veicoli rimossi che compaiono nell'elenco in questo intervallo di tempo? OpenRefine è un utile strumento che può essere usato per identificare e combinare rapidamente valori simili in una colonna. Se apriamo i dataset in OpenRefine ed eseguiamo una funzione di clusterizzazione (o raggruppamento) sul campo Vehicle Make, scegliendo un metodo di collisione delle chiavi con una funzione di fingerprinting possiamo avere rapidamente un'idea di quanti valori errati esistano per ciascuna marca di automobili. Questo specifico algoritmo ha trovato 113 cluster diversi da fondere; possiamo esaminarli uno per uno. Se si usa l'algoritmo di fingerprint e si effettua una ricerca rapida degli errori ovvi, si può efficacemente ridurre il numero dei valori distinti nel campo Vehicle Make da 899 a 507. Una bella riduzione di complessità. Possiamo continuare, utilizzando metodi di clusterizzazione differenti: se eseguiamo un algoritmo di Levenshtein sui vicini prossimi, possiamo ridurre ulteriormente il numero dei valori distinti, portandolo a 473. Infine, possiamo esaminare visivamente ciascuno di questi 473 valori e sistemarli modificando i valori che non sono stati inseriti corretta mente nei cluster. Perlomeno, gli algoritmi di clusterizzazione hanno ridotto quel numero a quasi la metà. Dopo circa una mezz'ora di esame visivo della lista e di sistemazione manuale delle voci ovviamente sbagliate che non erano state raggruppate con le altre dagli algoritmi di clusterizzazione, mi sono ritrovato con un totale di 336 valori distinti per il campo della marca. Noterete che le due marche più rappresentate, Honda e Ford, occupano ancora le prime due Analytics è la vostra fonte principale per i dati sul traffico, siete più preoccupati perché in questa compaiono 34 paesi che invece non figurano nella lista della World Bank. Google Analytics ha 34 valori senza un corrispondente, le due liste hanno 146 valori in comune e quella della Banca mondiale ha 82 senza corrispondenza, il che genera il diagramma di Venn e la lista dei 34 paesi presenti solo in Google Analytics. Se effettuate un inner join su questo campo in SQL, conservando solo i record con valori di paese in comune questi 34 paesi resterebbero esclusi dalla tabella risultante. Anche se effettuate un left-outer join o, in alternativa, un CERCA VERT in Excel, mantenendo quindi sia i record nell'intersezione, sia quelli che sono solo nella lista di Google Analytics, il valore della popolazione per quei 34 paesi sarebbe vuoto, nullo, perché non hanno una corrispondenza esatta nel dataset della World Bank. Sarebbe importante? Dipende. Ecco l'analisi delle pageview per mille abitanti con l'uso del dataset originale della World Bank (a sinistra) e con l'uso di una versione ripulita (a destra), dove i nomi dei paesi sono stati messi in corrispondenza ed è stata aggiunta la popolazione di Taiwan. Ha comportato una differenza? Tre dei primi 25 paesi in termini di visualizzazioni per mille persone sarebbero stati assenti dall'analisi, se non aveste tenuto conto dei valori senza corrispondenza esatta nel campo dei paesi. Poi effettuate un confronto simile fra la lista di Google Analytics e quella di Wikipedia e trovate che la prima ha 16 valori senza corrispondenza, ci sono 164 valori in comune e la lisa di Wikipedia ha 70 valori senza corrispondenza. A titolo di curiosità, potete confrontare le tre liste e scoprire che ci sono 145 nomi di paesi che compaiono in tutte e tre. Decidete che la lista di Wikipedia corrisponde meglio al dataset di Google Analytics: hanno più record in comune e dovete sistemare solo 16 valori per un allineamento perfetto. Capitolo 4 Insidia 3: errori matematici Come calcoliamo i dati Un errore di calcolo memorabile fu la disintegrazione del Mars Climate Orbiter il 23 settembre 1999, a causa dell'attrito con l'atmosfera di Marte, conseguenza di una traiettoria errata, che l'ha portato su un'orbita troppo vicina alla superficie del pianeta. La causa ultima della traiettoria errata? Un software fornito dalla Lockheed Martin calcolava la spinta fornita dai propulsori usando il sistema imperiale britannico (libbre-forza al secondo), mentre un altro software, fornito dalla NASA, leggeva il risultato e lo trattava come se fosse espresso nel sistema internazionale SI (quindi in newton al secondo). Una libbra-forza equivale a 4,45 newton, perciò i calcoli risultanti erano decisamente sbagliati. Effettuiamo calcoli ogni volta che applichiamo dei processi matematici ai nostri dati. Ecco alcuni semplici esempi - Sommiamo grandezze a vari livelli di aggregazione. - Dividiamo grandezze nei nostri dati con altre grandezze per produrre percentuali o proporzioni - Lavoriamo con proporzioni o percentuali. - Convertiamo da una unità di misura a un'altra. Insidia 3A: aggregazioni fuorvianti Aggreghiamo i dati quando raggruppiamo record che hanno un attributo in comune. Ecco qualche esempio. - Tempo: ora, giorno, settimana, mese, anno. - Geografia: città, provincia, regione, stato, confederazione, - Organizzazione: dipendente, team, reparto, azienda. - Sport: squadra, divisione, lega. - Prodotti: codice articolo, tipo di prodotto, categoria, brand. La Federal Aviation Administration (FAA) degli Stati Uniti consente ai piloti di riferire volontariamente i casi in cui il loro aereo collide con qualche animale durante il decollo, il volo, l'avvicinamento o l'atterraggio. La FAA rende accessibili a tutti questi dati, perciò possiamo farci un'idea di che cosa succede. Possiamo vedere da questo grafico che nel nostro estratto ci sono record che risalgono fino all'anno 2000 e sembrano indicare una tendenza all'aumento del numero delle collisioni registrate, seguita da un calo drastico per l'ultimo anno di cui abbiamo a disposizione i dati, il 2017. La risposta è immediatamente ovvia, non appena si capisce che stiamo guardando solo un estratto che include dati parziali per il 2017. Se aumentiamo il livello di granularità e passiamo al mese o alla settimana, possiamo vedere che i dati arrivano solo fin verso la metà del 2017. Per essere precisi, l'ultima collisione registrata nel dataset è documentata il 31 luglio 2017, la prima collisione registrata, in questo estratto risale all'1 gennaio 2000. Questa è l'estensione del nostro dataset, in termini di date delle collisioni riferite, e ci porta a un suggerimento importante, per evitare di cadere nella trappola comune di confondere livelli non omogenei di aggregazione con tendenze reali nei dati. Una delle prime osservazioni probabilmente sarebbe che il mese con il maggior numero di collisioni registrate è luglio. Il numero delle collisioni è minimo nei mesi invernali di dicembre, gennaio e febbraio, poi i totali aumentano lentamente in primavera, calano un poco in maggio e giugno prima di raggiungere il picco in luglio. Dopo quel picco, i totali calano lentamente mese dopo mese. Bene, quello che sappiamo già dall'aver esplorato in precedenza i contorni dei nostri dati è che le registrazioni finiscono il 31 luglio 2017, perciò nelle colonne da gennaio a luglio c'è un mese di data in più, rispetto ai mesi da agosto a dicembre. Se dividiamo le colonne mensili in segmenti annuali (un segmento per ogni anno di dati) e coloriamo in rosso solo i segmenti del 2017, vediamo che il confronto fra i mesi in questo modo non è un confronto alla pari. Gennaio, febbraio, marzo, aprile, maggio e giugno comprendono i dati di 18 anni, mentre gli altri mesi includono i dati di 17 anni solamente, perché nel nostro dataset il 2017 non è completo. Se eliminiamo i dati del 2017 dal dataset, eliminiamo i segmenti in rosso dalle colonne e ogni colonna mensile comprende i dati esattamente per lo stesso numero di anni. Così facendo, notiamo rapidamente che luglio non è in realtà il mese con il maggior numero di collisioni registrate. Agosto, e non luglio, è il mese con il maggior numero totale di collisioni, una volta regolati i limiti dei nostri dati in modo che i confronti siano realmente fra simili. Vediamo un leggero aumento delle collisioni registrate fra luglio e agosto, poi i totali diminuiscono regolarmente, mese dopo mese, fino alla fine dell'anno. Insidia 3B: valori mancanti Se ripuliamo un po' queste tabelle e costruiamo un grafico con il numero delle opere scritte da Edgar Allan Poe, si vede subito che iniziò a scrivere nel 1824, anno in cui compiva 15 anni, e scrisse fino all'anno della morte, il 1849. Sembra che l'anno più produttivo, perlomeno in termini di numero di opere diverse scritte, sia stato il 1845, in cui scrisse 13 lavori. Ora, vediamo: in quale anno della sua carriera ha prodotto meno opere? Il 1824 e il 1825 hanno un valore 1. In ciascuno di quei due anni, Poe scrisse solo un'opera letteraria. Ed ecco la nostra risposta finale: gli anni in cui ha scritto il minor numero di opere sono stati il 1824 e il 1825. La chiave, come sempre, sta nel guardare molto più da vicino. Gli anni sono riportati sull'asse orizzontale, uno dopo l'altro in successione, ma se esaminate i valori, noterete che alcuni anni mancano. Non ci sono valori sull'asse X per il 1826, il 1828 e il 1830. In quegli anni, evidentemente, Poe non ha pubblicato nulla. Quel che induce in inganno è che, poiché gli anni sono trattati come ordinali qualitativi e non quantitativi, è difficile notare l'assenza di questi anni dalla cronologia. Anche la pendenza della curva intorno a questi anni è distorta. Potremmo essere tentati di passare da una variabile discreta a una continua per l'asse orizzontale, ma in questo modo la situazione non fa altro che peggiorare, perché a quel punto sembra che Poe abbia scritto 6 opere nel 1826, 11 nel 1828 e poi circa 8,5 nel 1830. L'asse X in questo grafico non salta più alcun valori per gli anni, come succedeva nel primo, ma le linee sono ancora tracciate da punto a punto e non danno correttamente il senso di una interruzione nei valori. I suoi tre anni non produttivi rimangono completamente nascosti. Se avessimo visto solo questo e solo questo avessimo mostrato al nostro pubblico, non sapremmo in realtà nulla del suo effettivo schema di produttività. Per vedere chiaramente gli anni mancanti, cioè quelli in cui le opere scritte sono zero, dovremo tornare agli anni discreti sull'asse orizzontale e dire al software di mostrare i valori mancanti nella posizione di default, a zero. In questo modo si ottiene la visualizzazione molto più precisa. Potremmo anche scegliere di rappresentare i dati come una serie di colonne, invece che con una linea continua, e potremmo creare un segmento per ciascuna opera, in modo da dare un senso più chiaro all'altezza delle colonne, senza che chi guarda debba fare riferimento all'asse Y. Le due visualizzazioni fuorvianti delle opere di Poe sono il modo in cui il software ha riportato in grafico i miei dati per impostazione predefinita, ed è esattamente questo il problema. Insidia 3C: inciampare sui totali Nel workshop Californiano si è scelto di visualizzare le malattie infettive contratte dai residenti in California fra il 2001 e il 2015, con dati forniti dal Center for Infectious Diseases del California Department of Public Health. La prima domanda posta a proposito dei dati, era semplice: quanti erano in totale i casi registrati di secondi oppure in gradi decimali. - Lavorare con posizioni nel piano bidimensionale utilizzando coordinate cartesiane (X, Y) oppure polari (r.0). - Lavorare con angoli espressi in gradi oppure in radianti. - Contare o eseguire operazioni matematiche con valori in esadecimale, decimale o binario. - Determinare le date di spedizione quando si lavora con giorni di calendario oppure con giorni lavorativi. Capitolo 5 Insidia 4: lapsus statistici Come confrontiamo i dati Le statistiche non godono di un buon nome presso molte persone. Le reazioni negative alla statistica dipendono da quattro motivi principali. Il primo, e il più comprensibile per la maggior parte delle persone, è che anche i più semplici fra i concetti fondamentali della statistica descrittiva e inferenziale possono essere difficili da afferrare. La seconda causa di diffidenza è che persino gli esperti meglio intenzionati applicano in modo errato gli strumenti e le tecniche della statistica. Il terzo motivo è che chi ha qualche interesse in ballo può facilmente manipolare le statistiche, per mentire quando comunica con noi. Infine, il quarto motivo è che spesso le statistiche possono essere percepite come cose fredde e distaccate e non riescono a comunicare l'elemento umano di un problema. Nessuno vuole finire per "essere solo una statistica", il che vorrebbe dire che non si vuole essere vittime di una circostanza sfortunata ed essere avvolti nell'anonimato per l'aggregazione in un singolo numero, senza un nome e senza un volto. Insidia 4A: disfatte descrittive Il ramo più semplice e più fondamentale della statistica è la statistica descrittiva: ridurre un insieme di dati a valori singoli che lo descrivono o lo riassumono, niente di più, niente di meno. Questo ramo della statistica si distingue dalla statistica inferenziale, dove si cerca di in delle caratteristiche di una popolazione, da cui è stato selezionato un campione. Nello strumentario della statistica descrittiva, le misure di tendenza centrale sono l'equivalente del martello (uno degli utensili più utili), ma spesso sono usate un po' goffamente. Gli errori più comuni non si incontrano nel calcolo di questi indici statistici. Le formule sono molto immediate e un gran numero di pacchetti software le calcola in modo affidabile. La vera difficoltà, per quanto riguarda queste misure di tendenza centrale, sta nel fatto che, quando le usiamo, chi ci legge o ci ascolta le interpreta come valori normali o tipici a cui la maggior parte dei dati nel nostro insieme deve sicuramente essere simile. A seconda della distribuzione dei dati, può essere vero, ma anche profondamente errato. A. Distribuzione uniforme: numeri di maglia In una distribuzione perfettamente uniforme, un valore scelto a caso fra i dati ha la stessa probabilità di ricadere in qualsiasi classe in cui sono raggruppati i dati, un po' come lanciare un dado perfettamente equilibrato. Ovviamente i dataset empirici praticamente non seguono mai una distribuzione perfetta, ma possiamo vedere che, se raggruppiamo i giocatori in classi di 5 numeri di maglia (i giocatori con maglie numero 0-4 nella prima classe, quelli con i numeri 5-9 nella seconda, quelli con numeri 10- 14 nella terza e così via) ogni classe, eccetto la prima contiene circa il 5% di tutti i giocatori. Perché la caduta brusca dopo l'ultima colonna? Semplice: esiste una regola ufficiale per cui i numeri delle maghe della NFL devono essere compresi fra 1 e 99. Per questo vediamo che la serie arriva a una fine brusca dopo l'ultima colonna, che comprende i giocatori con numero di maglia da 95 a 99. Non ci sono giocatori con un numero di maglia uguale a 100. Che cosa comporta allora questa distribuzione, per la nostra interpretazione dell'enunciato che, in media, un giocatore "porta il numero di maglia 51"? Prima di tutto, non saremmo astronomicamente lontani dal vero se ipotizzassimo che un giocatore scelto a caso abbia il numero di maglia 51. Al più saremmo lontani di 50 posti dal valore reale e c'è un motivo per cui il valore reale non può essere maggiore di cosi, cioè il regolamento della NFL (sempre che il regolamento non cambi). Pensatela in questo modo; se la distribuzione dei numeri di maglia avesse un valore massimo 16 volte maggiore del valore medio, ci sarebbe in campo un giocatore con la maglia numero 816. Ancora più interessante, però, è che solo 27 dei 2874 giocatori nella rota attiva del 2018 durante la prestagione erano elencati con un numero di maglia esattamente 51, il che significa che avremmo avuto meno dell'1% di probabilità di essere nel giusto, se avessimo cercato di indovinare il numero di maglia di un qualsiasi giocatore basandoci sul valore medio. Appropriatamente, solo un giocatore che gioca nella posizione di "centro" può avere questo numero di maglia, in base alle regole ufficiali. Oltre a evitare il numero 0 e l'1 avremmo avuto un 1% circa di probabilità di indovinare, quale che fosse il numero scelto. Il numero di maglia con la frequenza di occorrenza più elevata in tutta la lega del 2018 è il 38 e anche in quel caso avremmo solo un 1,347% di probabilità di indovinare. La conclusione finale è che, se abbiamo una distribuzione uniforme, è utile conoscere i valori minimo e massimo (e quindi l'intervallo dei valori, cioè la differenza fra quei due numeri). La media e la mediana si trovano entrambe al centro dell'intervallo e perciò non ci danno realmente informazioni ulteriori, purché siamo consapevoli che la distribuzione è uniforme. Ma il numero di maglia 51 è un numero di maglia "tipico" per un giocatore della NFL? Certamente è all'interno dell'intervallo dei numeri possibili e ovviamente non diremmo che sia atipico, come diremmo per una maglia numero 1. Ma neanche "tipico" sembra un aggettivo adatto. In fin dei conti, non ci sono molti centri in ciascuna squadra. Passiamo alla distribuzione successiva. B. Distribuzione normale: altezza dei giocatori La distribuzione delle altezze dei giocatori della NFL assomiglia molto a una distribuzione normale, o gaussiana. La curva normale è il tipo più famoso di distribuzione, la base di molti confronti statistici, uno strumento potentissimo e anche una fonte di cantonate di proporzioni epiche. L'altezza media dei giocatori nella distribuzione è di 73,7 pollici. La deviazione standard della distribuzione è 3,2 pollici, che cosa significa? La deviazione standard si usa spesso per descrive quanto varia una particolare distribuzione. La deviazione standard si calcola prendendo la radice quadrata della varianza, che è il valore atteso del quadrato della deviazione dalla media. A volte si parla della "regola 68-95-99,7" quando si lavora con la distribuzione gaussiana, il che significa che il 68% dei valori in un insieme di dati si trova entro più o meno una deviazione standard dalla media, il 95% si trova entro due deviazioni standard dalla media e il 99,7% trova entro tre deviazioni standard dalla media. Si tratta di una curva a campana, perfettamente simmetrica. Il fatto che la distribuzione si avvicini a una distribuzione normale significa che la probabilità di trovare un particolare valore nell'insieme diminuisce rapidamente quanto più ci si allontana dalla media. L'altezza del giocatore più alto nel dataset, Nate Wozniak, era indicata con il valore di 82 pollici, ovvero 6'10", che è più di 2,6 volte la deviazione standard rispetto al valore medio. Il valore 2,6 è chiamato Z score. Nel caso di un gruppo con media 73,7 pollici e deviazione standard 3,2 pollici, la probabilità di essere alti almeno 82 pollici è un po' meno della metà di un punto percentuale, 0,47% per essere precisi. Quindi circa 1 giocatore su 215 si può prevedere sia alto quanto Wozniak o più. media e il valore massimo. Una proprietà notevole della curva normale, però, è che non scende mai fino a 0. C'è sempre una probabilità finita di essere a una certa distanza dalla media, non importa quanto si vada lontano. Questa probabilità diventa piccolissima quando si superano, diciamo, le 10. C. Distribuzione lognormale: età dei giocatori Se si guarda a tutte le nostre sei distribuzioni, solo una assomiglia molto alla curva normale, mentre le altre se ne allontanano notevolmente. Prendiamo l'età dei giocatori, per esempio. Questa distribuzione è asimmetrica, si dice in genere finale avesse apportato un cambiamento nel processo di manifattura all'aumento dei volumi, con il risultato di una variazione di una dimensione critica in un aspetto come il diametro di un'asta, anche un cambiamento che producesse componenti che erano ancora "dentro i limini del minimo e massimo consentiti per il diametro”. In che modo quella variazione avrebbe influito sulle prestazioni complessive della linea di produzione? Avrebbe magari influito su qualche test di verifica della qualità provocando una ricaduta negativa sulla produzione? Come avrebbe potuto fare il team per saperlo prima di creare lotti su lotti di pezzi che poi avrebbero dovuto essere buttati via? I tecnici della qualità avrebbero condotto un esperimento (una prova di qualificazione) e avrebbero ottenuto dei dati da un insieme di pezzi campione che avrebbero percorso tutta la linea di produzione con i nuovi componenti e quei dati sarebbero stati confrontati con quelli relativi a pezzi fabbricati con i "vecchi" componenti, cioè quelli utilizzati prima che il fornitore modificasse il proprio processo. Questi studi avrebbero richiesto la conduzione di "test statistici di ipotesi nulla". Questi test sono facili da calcolare, ma sono insidiosi e i concetti che ne sono alla base sono un po' infidi, e anche per gli esperti è molto facile commettere errori. Poiché campioni casuali estratti da una popolazione non avranno sempre esattamente la stessa media e la stessa deviazione standard, è prevedibile che in queste statistiche ci sia qualche variazione. I test delle ipotesi iniziano assumendo che l'ipotesi nulla sia vera, poi cercano di determinare quanto sarebbe probabile osservare delle differenze negli indici statistici del campione, come la media e la deviazione standard. L'output principale del test di ipotesi nulla è il valore p. Il valore p dice semplicemente quale sia la probabilità di vedere una differenza, grande almeno come quella osservata nell'esperimento, assumendo che l'ipotesi nulla sia vera e che non ci siano differenze fra i gruppi sottoposti a test. Questo valore non dimostra né confuta alcunché: un p elevato non dimostra che l'ipotesi nulla sia vera e un p basso non dimostra che sia falsa. In pratica, però, è proprio così che molti lo considerano e lo usano. Qui sono in campo parecchie insidie. - Calcolare semplicemente la differenza nella media fra i diversi gruppi e assumere che qualsiasi differenza si trovi sia statisticamente significativa, ignorando completamente le probabilità statistiche. La chiameremo "insidia del p-cosa?" - Ottenere un p basso per puro caso e quindi rifiutare l'ipotesi nulla quando in realtà è vera è l’insidia di tipo 1. - Se si ottiene un p elevato si corre il rischio di cadere nella "insidia di tipo 2", non rifiutando l'ipotesi nulla quando invece in realtà è falsa. - Fraintendendo completamente il concetto di significatività statistica, si ottiene un p basso - Conducendo un test in cui si raccolgono dati su molte variabili diverse, si calcolano alla cieca valori p per decine su decine di confronti e voilà, si trova in mezzo a tutto il resto un paio di p bassi. Non ci si preoccupa di trovare una conferma, né di chiedere ad altri di replicare i nostri risultati. - Si confonde l'idea di significatività pratica con quella di significatività statistica e si conduce un enorme studio clinico con migliaia e migliaia di pazienti, ad alcuni dei quali viene somministrato un farmaco sperimentale, ad altri un placebo. Si ottiene un p<0,0001 per il fattore fondamentale (la durata della vita), ma si dimentica di esaminare l'entità della differenza fra le medie. La differenza è piccolissima e i soggetti del test possono aspettarsi di vivere in totale due giorni di più. Questo è solo un piccolo numero delle insidie a cui si può andare incontro nei test di ipotesi nulla, il che è almeno in parte il motivo per cui molti scienziati, ricercatori e statistici stanno abbandonando completamente questa procedura a favore di metodi bayesiani, come il criterio di informazione bayesiano o criterio di Schwarz. Insidia 4C: campionamenti scivolosi A qualche livello, sappiamo tutti che i dati che usiamo per trarre conclusioni sul mondo non sono perfetti. Sappiamo che rimane sempre un po' di incertezza su tutto ciò che la mente umana prende in considerazione. Dai risultati dei sondaggi agli studi clinici, per arrivare ai ponti degli ingegneri, c'è sempre qualche errore nei calcoli. Tendiamo a trascurare questa incertezza, e la conseguenza è che portiamo fuori strada noi stessi e gli altri. Un esempio appropriato: la classificazione dei pesci. Sulle etichette dei pesci Quando un'organizzazione no profit nel febbraio 2013 ha pubblicato i risultati di un'inchiesta sulle frodi nell'etichettatura di pesce e frutti di mare, le conclusioni erano sconvolgenti: "oltre 1200 campioni di animali marini, raccolti da 674 dettaglianti in 221 stati" evidenziavano una tendenza inquietante, oltre il 33% dei campioni di DNA non corrispondevano alla specie dichiarata. Un salto inferenziale Vediamo dal report che cosa si può dire di Seattle e Portland. I grafici che seguono sono stati creati da me a partire dai dati grezzi forniti dal report. Se consideriamo solo le percentuali dei campioni mal classificati per le varie città, troviamo Seattle e Portland tra le migliori, accanto a un altro centro importante per la pesca come Boston. I campioni sono stati raccolti da tre tipi di esercizi: negozi di alimentari, ristoranti e sushi bar. Nella Figura sono riportati i risultati per ciascuna città e per i relativi tipi di esercizi. I campioni mal classificati sono le barre in rosso, quelli classificati correttamente le barre un blu. La prima cosa che ho notato è che le dimensioni dei campioni sono molto piccole, una volta che si disaggregano i dati per città e tipo di esercizio. Se si considerano i dati forniti, si può vedere che i sushi bar sembrano dare i risultati più scarsi, con oltre il 73% di pesci mal classificati fra tutte le città. L'altra cosa che si nota è che nelle varie città sono stati raccolti campioni molto diversi di sushi. A Boston addirittura non è stato raccolto neanche un campione. Scomposizione Quindi, a Seattle, Portland e Boston sono stati raccolti campioni relativamente poco numerosi dai sushi bar. Dei campioni di Seattle, il 16% veniva da sushi bar, mentre oltre il 35% dei campioni della California meridionale veniva da questo tipo di esercizi, per fare un esempio. L'organizzazione non ha seguito un piano di campionamento stratificato, quando ha raccolto i suoi 1214 campioni e di conseguenza i tassi complessivi dei pesci mal classificati per ciascuna città non sono correttamente confrontabili. Questo non vuol dire che lo studio non abbia senso; significa solo che i confronti fra i tassi complessivi di ciascuna citti non sono validi. Non sono un confronto alla pari. Confrontare il simile con il simile Anche se nel complesso è stato raccolto un numero relativamente elevato di campioni, la dimensione dei campioni diventa abbastanza piccola se si prende in considerazione ciascuna combinazione città/categoria, perciò dobbiamo aggiungere delle barre di errore ai tassi di cattiva classificazione. Qui dobbiamo parlare di intervallo di confidenza per la proporzione binomiale. Esistono vari modi per calcolare questo intervallo, ma per ora seguiamo la normale approssimazione imparata all'università. La Figura mostra i tassi di cattiva classificazione disaggregati, con la relativa incertezza. Questa visualizzazione dei dati racconta una storia molto diversa: nel grafico non sono comprese tutte le città perché, in qualche caso, non c'erano abbastanza campioni da soddisfare i requisiti dell'approssimazione normale, perciò ho escluso questi casi, Kansas City, per esempio, scompare del tutto: non sono stati raccolti abbastanza campioni in questa città (19,9 e 9). Che cosa possiamo dire delle diverse città? Ecco quello che possiamo (e non possiamo) dire, sulla base di un intervallo di confidenza del 95% (ignorando la differenza nei tipi di campioni di pesci raccolti in ciascun luogo). - Non abbiamo abbastanza evidenze per dire se una città sia meglio o peggio delle altre, per la classificazione del sushi. - C'è una probabilità elevata che i ristoranti di Chicago nel complesso abbiamo tassi inferiori di classificazione errata rispetto al ristoranti nella California settentrionale. - C'è una probabilità elevata che i negozi di alimentari di Seattle abbiano un tasso di cattiva classificazione minore rispetto sia alla California (meridionale e settentrionale) sia a New York. Chi ha riportato questa vicenda ne ha tratto un grosso salto inferenziale. Se si osservano i numeri attraverso la lente della statistica si possono formulate affermazioni più accurate su ciò che è stato raccolto. Certo, questo comporta molto più lavoro rispetto semplicemente a prendere il tasso complessivo di cattiva classificazione e riportarlo su una mappa o un grafico a barre. E sì, l'incertezza può essere irritante, ma ci infiliamo in una trappola e inganniamo noi stessi e gli altri se non comprendiamo come il nostro piano di campionamento e gli intervalli di confidenza incidono sulla nostra possibilità di trarre conclusioni probabilistiche sul mondo in cui viviamo. Insidia 4D: insensibilità alle dimensioni del campione Quello ai reni è una forma relativamente rara di cancro, che rappresenta solo il 4% circa di tutti i nuovi casi di cancro negli adulti. Secondo una stima della American Cancer Society, 73.820 su un totale di 1.762.450 nuovi casi nel 2019 negli Stati Uniti sarebbero stati casi di cancro al reni o alle pelvi renale. Se si esaminano i tassi di cancro al rene negli Stati Uniti suddivisi per contee, emerge uno schema interessante, che Kaleman descrive così: Le contee in cui l'incidenza del cancro ai reni è più basa sono per lo più rurali, poco popolare e situate in Stati tradizionalmente repubblicani del Midwest, del Sud e dell'Ovest. Che cosa ne ricaviamo? Kahneman elenca alcune delle motivazioni come l'idea che gli abitanti delle contee rurali abbiano accesso a cibi freschi o che siano esposte a un minore inquinamento dell'aria. Poi Kahneman evidenzia quanto segue: Ora consideriamo le contee in cui l'incidenza del cancro ai reni è più alta. Queste contre sofferenti sono perlopiù rurali, poco popolate e situate in Stati tradizionalmente repubblicani del Midwest, del Sud e dell'Ovest. Anche qui, sono state proposte varie teorie per spiegare questo fatto: le contee rurali hanno indici di povertà relativamente elevati, dieta a base di molti grassi, o poco accesso alle risorse sanitarie. Però, un attimo: che cosa succede qui? Le contee rurali hanno l'incidenza di cancro ai reni più elevata e anche quella più bassa? Che cosa vuol dire? Questo è un ottimo esempio di una distorsione definita "insensibilità alle dimensioni del campione": se abbiamo a che fare con dei dati, non teniamo conto delle dimensioni del campione quando pensiamo alle probabilità. Queste contee rurali hanno relativamente pochi abitanti e di conseguenza è più probabile che li l'incidenza di una malattia sia o molto elevata o molto bassa. Perché? Perché la varianza della media è proporzionale alle dimensioni del campione. Quanto più piccolo il campione, tanto più grane la varianza. Creando una dashboard interattiva per illustrare visualmente quello che Kahneman, Wainer e Zwerlink spiegano molto chiaramente a parole si notano alcune cose. Nella mappa coropletica, le contee in arancione più scuro (incidenza elevata) e le contee in blu più scuro (bassa incidenza) spesso si trovano vicine fra loro. Inoltre, notate come nel grafico a dispersione sotto la mappa i punti si dispongano in una forma a imbuto, con le contee meno popolose (a sinistra) che è più probabile deviino dalla linea di riferimento (l'incidenza generale per gli Stati Uniti), mentre è più probabile che le contee più come nell'interpretazione degli 1 e 0 importanti nei database che abbiamo costruito meticolosamente. L'uso dell'intuizione in questo modo non è un processo perfetto. Se l'intuizione non funziona perfettamente, però, non vuol dire che vada scartata. Bisogna solo addestrare l'intuizione a lavorare con i numeri, e bisogna sempre diffidarne un po'. 3. Sapere DOVE guardare poi. Spesso l'esito migliore con i dati è che troviamo una domanda ancora migliore da porci. 4. Sapere quando smettere di guardare e invece intraprendere un'azione. 5. Sapere CHI deve sentire e COME raggiungerlo. Insidia 5B: estrapolazioni esuberanti Mentre l'analisi dei dati spesso si occupa principalmente di capire che cosa sia avvenuto in passato, spesso si pensano gli "analytics" come l'applicazione di strumenti e tecniche per usare i dati al fine di prendere decisioni in merito al futuro. Questo comporta prevedere che cosa accadrà e ipotizzare quale probabilità abbiano le azioni che intraprendiamo e i cambiamenti che mettiamo in moto le tendenze future di influenzare. Per esempio, se consideriamo l'aspettativa di vita nella Corea del nord e del sud negli anni Sessanta e Settanta, vediamo che era di circa 50 anni intorno alla metà degli anni Sessanta. I nati in entrambi gli stati della penisola coreana negli anni Sessant avevano una aspettativa di vita di circa 50 anni, quelli nati una quindicina di anni dopo avevano un'aspettativa di vita di circa 65 anni. Lo definisco un "incremento molto stabile", perché le linee di regressione lineare per entrambi i paesi (linee tratteggiate nel grafico) hanno valori p minori di 0,0001 e coefficienti di determinazione, R^2, superiori a 0,95, il che significa che le variazioni nella variabile x (anno) spiegano una percentuale molto alta della variazione osservata nel valore y (aspettativa di vita). In altre parole, una linea retta che minimizzi la distanza verticale fra ciascun punto di dati e la retta stessa tocca o passa molto vicino a tutti i punti. I punti di dati di ciascuna serie si avvicinano molto a formare una linea retta. Se nel 1980 qualcuno si fosse basato esclusivamente sulla natura lineare di questa serie temporale di 20 anni per predire le aspettative di vita dei coreani che fossero nati 35 anni dopo, avrebbe individuato aspettative di vita di 96 anni per la Corea del nord e di 92 anni per la Corea del sud nell'anno 2015. Ovviamente, non è quel che vediamo realmente, e la cosa non dovrebbe sorprendere nessuno. In primo luogo, perché possiamo pensare che l'aspettativa di vita della nostra specie, anche se può aumentare linearmente per un certo periodo di tempo, non può continuare ad aumentare nello stesso modo indefinitamente. I dati finiranno per avvicinarsi a un tetto naturale, perché le persone non vivono per sempre. Dov'è quel tetto, esattamente? Nessuno lo sa per certo, ma se estendiamo la serie fino alla fine del nostro secolo, le persone nate nella penisola coreana potrebbero avere un’aspettativa di vita di circa 170 anni. Poco probabile, e nessuno lo sostiene. Ma questo non è l'unico motivo per cui la previsione del nostro amico negli anni Ottanta sarebbe stata di molto sbagliata. Date un'occhiata a come le linee di tendenza sono evolute nel corso degli ultimi 35 anni, per arrivare dove siamo oggi, con aspettative di vita di circa 82 anni per la Corea del sud e di circa 71 per la Corea del nord. Mentre l'aspettativa di vita per i nati nella Corea del sud ha continuato ad aumentare in modo molto lineare (R^2 = 0,986), si può vedere che inizia a piegare verso il basso e ad assumere una forma non lineare mentre si avvicina a qualche asintoto non noto. Il caso della Corea del nord è molto diverso. Nella parte settentrionale della penisola si è verificato un cambiamento notevole e l'aspettativa di vita in realtà è diminuita di 5 anni nel corso degli anni Novanta, poiché gli abitanti di quel paese hanno dovuto fare i conti con una scarsa disponibilità di cibo e la mancanza di accesso ad altre risorse critiche. Forse qualcuno nel 1980 poteva avere motivo di temere l'evolvere della situazione nella Corea del nord, ma come avrebbe potuto tener conto di ciò che sapeva nelle proprie previsioni? A volte le previsioni funzionano molto bene. Nel caso del Brasile, per esempio, l'aspettativa di vita ha continuato ad avere un andamento lineare sin dal 1960. Estrapolando la tendenza dal 1960 al 1975 in modo lineare, per il 2015 si sarebbe potuta prevedere una aspettativa di vita di circa 79 anni. L'effettiva aspettativa di vita dei brasiliani nati nel 2015. era di 75 anni. Per la Cina, per esempio, un'estrapolazione lineare dal 1975 avrebbe dato una previsione improbabile di 126 anni di aspettativa di vita per i nati nel 2015. Ovviamente, i forti aumenti degli anni Sessanta non sono continuati negli ultimi anni del secolo, e l'aspettativa di vita per i nati in Cina nel 2015 era di 76 anni. Il caso dell'aspettativa di vita in Cina illustra come si debba stare molto attenti quando si adattano le equazioni ai dati empirici. Spesso si adattano molti modelli matematici diversi a una serie di dati e si sceglie quello che si adatta meglio, ovvero con il coefficiente di determinazione più vicino a 1, indipendentemente da quello che il modello implica. La leggera curva "a S" dell'aspettativa di vita in Cina fra il 1960 e i primi anni Settanta segue un'equazione polinomiale molto da vicino. La curva polinomiale che si adatta ai dati di un coefficiente di determinazione, R2, di 0,999899. È davvero notevole quanto la distribuzione dei dati si avvicini a un’equazione polinomiale perfetta: mi viene da chiedermi come sia stata ottenuta. Lasciando da parte questa considerazione, guardate la curva nella Figura 6.8. Non ci vuole un genio per stabilire che questo modello è ancora meno utile, per prevedere le aspettative di vita future, di un modello lineare. Produce una previsione del tutto priva di senso, con le aspettative di vita che crollano a 0 e addirittura diventano negative a nell'arco di una quindicina d'anni. Insidia 5C: interpolazioni improprie Lo slopegraph o grafico a pendenza è un modo molto diffuso per visualizzare i cambiamenti nel tempo. In questo tipo di grafico, semplicemente si collegano con un segmento di retta i dati di un periodo di tempo con i dati di un periodo successivo. Se selezioniamo sette paesi particolari e creiamo un grafico a pendenza in cui mostriamo come siano variate le aspettative di vita in ciascuno, dal 1960 al 2015, otteniamo una rappresentazione come quella della Figura 6.9. In tutti i paesi l'aspettativa di vita è aumentata, dal 1960 al 2015. Non è un'affermazione sbagliata, d'altro canto: è un semplice fatto. Ma è un'affermazione terribilmente incompleta. Vediamo che cosa succede se inseriamo i valori annuali in mezzo ai due anni estremi: oltre mezzo secolo di dati sull'aspettativa di vita. Come cambia la nostra storia? Questa rappresentazione racconta una storia molto diversa, vero? Non mancano più i periodi tragici delle guerre in Cambogia, Timor-Leste, Sierra Leone e Rwanda. Questi paesi hanno visto aumenti notevoli dell'aspettativa di vita nel corso dei 55 anni indicati qui, ma per arrivare a questo punto hanno dovuto superare enormi bagni di sangue. In Cambogia l'aspettativa di vita è scesa sotto i 20 anni d'età nel 1977 e 1978. Il grafico a pendenza fallisce miseramente, poiché omette completamente questi aspetti. Non si avvicina neanche a raccontarci tutta la storia. Anche quello dell'Iraq è un caso interessante. La parte della storia che manca nel grafico 4 pendenza è che l'aspettativa di vita in quel paese non è sostanzialmente variata dalla età degli anni Novanta. I bambini nati in Iraq nel 1998 potevano aspettarsi di vivere fino a 68 o 69 anni, e lo stesso si può dire per i bambini nati in quel paese nel 2015. Due decenni di stagnazione. Nel grafico a pendenza non si vede. Infine, il confronto fra Canada e Islanda è un confronto tecnico, ma comunque interessante. Nel grafico a pendenza, sembra che questi due paesi seguano più o meno lo stesso andamento. Ed è vero, ma se si confrontano i dati nella cronologia completa, si vede che la linea dell'Islanda va un po'a zig-zag, con molto rumore da un anno all'altro, mentre la linea del Canada è molto più regolare. Che cosa succede qui? Posso supporre che abbia qualcosa a che vedere con il modo in cui ciascun paese stima e pubblica ogni anno l'aspettativa di vita, e forse anche con la dimensione della popola rione di ciascun paese. L'elemento principale che volevo evidenziare è che, se si sceglie una frequenza di campionamento bassa, questi aspetti si possono perdere completamente. Insidia 5D: previsioni bizzarre Ogni febbraio, il Bureau of Labor Statistics degli Stati Uniti pubblica il tasso di disoccupazione medio dell'anno precedente. I dati dei vari anni vengono conservati, perciò è possibile vedere i tassi di disoccupazione per tutti gli anni precedenti fino al 1947. Più o meno nello stesso periodo, anche l'Office of Management and Budget del presidente pubblica le proprie previsioni per vari indicatori economici, fra cui anche la disoccupazione. La previsione riguarda l'anno corrente e 10 anni futuri. Durante la presidenza Obama sono stati anche raccolti e pubblicati i dati di tutte le previsioni precedenti, fino a quelle dell'amministrazione del presidente Ford nel 1975. L'orizzonte delle previsioni in realtà è cambiato: da un intervallo di cinque anni si è passati a un orizzonte decennale con l'anno fiscale 1997 della presidenza di Bill Clinton. Tutto questo ci offre una possibilità interessante: confrontare le previsioni della disoccupazione formulate da ciascuna amministrazione con il dato della disoccupazione reale. Nella Figura 6.11, la linea nera più spessa rappresenta la disoccupazione media reale nei vari anni, mentre le linee blu e rosse rappresentano le previsioni fatte sotto i presidenti democratici e repubblicani, rispettivamente. Le linee verticali sottoli indicano i quattro o otto anni in cui ciascun presidente è rimasto in carica. Che cosa ci dice? Indica molto chiaramente che, indipendentemente da quale fosse l'andamento effettivo della disoccupazione in quel momento, che stesse aumentando o stesse diminuendo, lo staff di tutti i presidenti ha previsto un ritorno a una media annua intorno al 5%. Ovviamente, la disoccupazione varia a ondate con l'andamento dell'economia, perciò semplicemente non è realistico prevedere un tasso di disoccupazione quasi perfettamente costante per un intero decennio, come fece il team di George W. Bush nell'anno fiscale 2008, o il team di Clinton nell'anno fiscale 1998. La maggior parte dei presidenti però ha fatto proprio questo: ha previsto un ritorno quasi immediato nell'intervallo fra il 4% e il 6%. Quando la disoccupazione reale ha toccato un picco nel 2009, qualcuna delle previsioni precedenti, comprese quelle pubblicate solo un anno o due prima, aveva previsto la tendenza all'aumento? Ovviamente no. La Figura 6.12 presenta una versione della figura precedente in cui sono indicate la disoccupazione effettiva e le rosee previsioni dell'amministrazione Bush nel 2008. Ci sono le previsioni oneste, e ci sono le cose che ci raccontiamo per sentirci meglio. Insidia 5E: misure stupide Le persone ambiziose e competitive possono reagire molto male se vengono a sapere di aver ottenuto una valutazione scadente delle proprie performance, quale che sia la metrica utilizzata. Questo fatto è risultato evidente durante i playoff del campionato di basket professionistico nordamericano del 2018, quando un giornalista sportivo ha detto a LeBron James, stella del basket globale allora in forza alla squadra di Cleveland, che stava facendo registrare la velocità media più bassa fra tutti i giocatori in campo nella serie finale della Eastern Conference giocata contro la squadra di Boston. Questa metrica si busa su un sistema di tracciamento dei giocatori, relativamente nuovo, della NBA. Il giocatore migliore è davvero quello più lento? anche a un cambiamento nel modo in cui la polizia svolge il proprio compito, non necessariamente a una variazione nell'attività criminale in sé. Non citare queste precisazioni e queste limitazioni è fuorviante in sé e per sé. Può essere spiacevole per noi, perché può sembrare che ci venga a mancare la terra sotto i piedi mentre cerchiamo di costruire una dimostrazione convincente per il nostro pubblico, ma semplicemente non è etico omettere questi dettagli, una volta che ne siamo venuti a conoscenza. 1. Presentare un grafico fuorviante Se volessimo inculcare nel pubblico l'idea che i casi registrati relativi alla droga sono in crescita a Orlando, è probabile che, se mostrassimo loro la cronologia di 40 settimane riusciremmo a incidere in modo convincente sulla loro comprensione. Non c'è nulla di fattualmente errato in questo grafico, non è nemmeno mal progettato. Ma è terribilmente fuorviante. Perché? Perché se estendiamo la finestra temporale sull'asse orizzontale ed esploriamo la tendenza dei casi registrati relativi alla droga per l'intero periodo di otto anni, i dati ci raccontano una storia molto diversa. Il periodo di 40 settimane considerato inizialmente è evidenziato nella regione in grigio della Figura. Ora, questo può essere un caso in cui senza cattive intenzioni se è semplicemente mancato di esaminare la tendenza in un contesto più ampio, ma potrebbe anche essere un tentativo di inganno, mediante una studiata scelta dell'intervallo temporale. É possibile giocare con le configurazioni di molti tipi diversi di grafici per fuorviare il pubblico. Il fatto che sia possibile ingannare le persone in questo modo ha fatto sì che molti abbiano dubitato delle statistiche. Fuorviare le persone con i grafici porta negatività. 2. Mostrare un grafico che confonde Un po' meno scandaloso del precedente tipo di grafico che risulta fuorviante è un grafico che confonde il pubblico. L'unico motivo per cui questo tipo di insidia non è altrettanto sgradevole è che il pubblico non ne ricava l'idea sbagliata; non ne ricava proprio alcuna idea, solo una sensazione sconcertante di essersi perso qualcosa. Esistono molti modi per confondere con i dati. Molti grafici di base sono fonte di confusione, per non parlare poi di quelli più complessi, come i grafici a "scatola e baffi". Uno comunque dei modi più comuni per confondere con un grafico è includere nella visualizzazione troppe cose. Per esempio, se volessimo che il pubblico concentrasse la propria attenzione sui cast registrati di taccheggio e mostrassimo saremmo caduti fino in fondo in questa trappola. Sembra ci sia una tentazione irresistibile di includere nella visualizzazione ogni cosa, come se aggiungere tutti i dati che abbiamo manipolato ci facesse guadagnare dei crediti extra. Vogliamo impressionare il pubblico? No, lo stiamo solo confondendo. Togliete tutte le cose estranee, o almeno fatele sfumare sullo sfondo. Probabilmente vi capiterà di sentir definire "grafico a spaghetti" un grafico del genere: il motivo è ovvio. Per prima cosa, notate che a "Taccheggio" (Shoplifting) è stato assegnato un colore beige chiaro. Non c'è nulla di intrinsecamente sbagliato nel beige, ma di sicuro è difficile individuare la linea beige in mezzo a tutto questo intrico di linee. Se è il colore di default proprio per la linea su cui vogliamo attirare l'attenzione, sarà il caso di cambiarlo in un colore che si noti di più. Poi, guardate quante sono le linee. Se contate i tipi di crimini nella legenda, vedrete che ci sono 24 linee diverse, ma ci sono solo 20 colori diversi nella tavolozza dei colori di default che il software ha applicato alla variabile "tipo di crimine" . Perciò, quando arriva al 21-esimo elemento nell'elenco in ordine alfabetico, il software applica lo stesso colore che ha applicato al primo elemento. Poi, siccome stiamo parlando di crescita di importanza in mezzo agli altri crimini, lasceremo le altre linee, anziché eliminarle completamente, ma le schiariremo o applicheremo un valore di trasparenza, in modo da far emergere chiaramente la serie su cui vogliamo richiamare l'attenzione. 3. Mostrare un grafico che non veicola l'insight che vogliamo comunicare Supponiamo di dover informare un gruppo di cittadini sullo stato dei crimini registrati a Orlando. Abbiamo una slide in cui vorremmo fosse immediatamente chiaro che t categorie (furto, rapina e violenza privata, cioè theft, burglary, assault) insieme costituiscono i tre quarti di tutti i crimini registrati. Quale delle quattro alternative presentate nella Figura 7.8 scegliereste per far arrivare meglio questa informazione al pubblico? lo direi che il grafico a torta e la mappa alberata fanno comprendere bene l'informazione che vogliamo dare, mentre i grafici a barre e a bolle no. Il motivo è che torta e mappa alberata raggruppano gli elementi pertinenti in un'unica unità compatta. Nel caso della torta, le tre "fette" su cui vogliamo cada l'attenzione del pubblico arrivano quasi esattamente alla posizione delle ore 9, ovvero al 75% di tutto il cerchio. Direi anche che usare 12 colori diversi per comunicare un'informazione come questa distrae un po'. Notate come la semplificazione dello schema di colori non renda molto più evidente la proporzione fra i vari tipi di crimini nel grafico a barre e in quello a bolle. Abbiamo dunque due tipi di grafici che rendono molto chiaro, quasi immediatamente apprezzabile, ciò che vogliamo sostenere. Dobbiamo porci però un altro interrogativo importante: è davvero corretto e accurato presentare questi gruppi di crimini registrati come un'unità singola? Ripensate alle precauzioni che abbiamo evidenziato a proposito di questi dati: includono i crimini "Parte 1"e "Parte 2” sulla base degli standard dell'FBI comprendono solo casi che sono stati aperti e chiusi. Nel caso di più crimini, è incluso solo quello più grave. E non sono inclusi i crimini per i quali l'identità della vittima o del colpevole potrebbe essere legalmente protetta. Se decidiamo di presentare al pubblico un grafico del tipo parte-tutto come un grafico a torta o una mappa alberata, e certi elementi sostanziali non sono inclusi nei dati, per un qualsiasi motivo, vogliamo metterlo bene in chiaro a chi ci ascolta o ci legge. Se non lo facciamo, possiamo stare sicuri che la nostra presentazione sarà fuorviante. 4. Mostrare un grafico che non presenta l'insight con sufficiente precisione Supponiamo di voler presentare un’informazione del tutto diversa, cioè che il numero dei casi registrati di violenza privata e crimini legati alla droga (Assault e Narcotics) a Orlando fra il 2010 e il 2017 sia stato molto simile, ma che i casi di violenza privata abbiano di poco superato il numero dei crimini legati alla droga in quel periodo di tempo. Solo il grafico a barre rende evidente l'affermazione: è l'unico dei sette in cui gli elementi grafici per i due tipi di crimini hanno una base comune, il che ci consente di rende barre. Negli altri sei tipi di grafici non esiste in realtà modo di dire quale delle due confrontare con un qualche grado di precisione i loro numeri relativa. È molto chiaro che sono vicine, ma senza fare qualche inferenza sulla base dell'ordinamento non c'è modo di dirlo, se non si aggiungono delle etichette. Se, per qualche motivo, il pubblico deve comprendere le dimensioni relative con una precisione ancora maggiore, che il grafico a barre non può consentire, si possono sempre aggiungere le indicazioni con il conteggio e le percentuali (Figura 7.11). Aggiungere i valori dei dati come etichette, come in queto caso, è un modo efficace per consentire al pubblico di effettuare confronti precisi. Anche un elenco o una tabella di valori da soli darebbero questa precisione, ma non avrebbero quella codifica visuale che permette di cogliere a colpo d'occhio schemi e idee generali di dimensioni relative. 5. Mostrare un grafico che non coglie la cosa importante Un grafico può non riuscire a veicolare il nostro messaggio anche in un altro modo: può non cogliere la cosa importante. Se volessimo far capire al pubblico che il furto è il tipo di crimine registrato più di frequente, fra quelli di Parte 1 e Parte 2, a Orlando, potremmo presentare il grafico a torta o la mappa alberata per rendere evidente che i furti hanno rappresentato quasi la metà di tutti i casi registrati fra 2010 e 2017. Se ci fermassimo qui, ci perderemmo il punto importante. Perché? Perché, se guardiamo la variazione su base mensile lungo questo arco di tempo del numero dei casi registrati di furto a Orlando, vedremmo che la loro percentuale sul totale dei crimini sta crescendo. In effetti, se guardiamo l'insieme dei crimini di Parte 1 e Parte 2 commessi a Orlando nel solo 2017, vediamo che i furti da soli hanno rappresentato un po' più del 55% di tutti i crimini registrati. Per confronto, nel 2010 i furti rappresentavano solo il 45% del totale. La conclusione finale è che non abbiamo espresso l'aspetto più importante con tutta la forza con cui avremmo potuto evidenziarlo. La scelta iniziale del grafico non poteva comunicare il fatto che il numero dei furti registrati era cresciuto, in percentuale, nell'arco del periodo mostrato, e che a quel punto era molto più elevato di quanto non fosse un tempo. Mostrando il grafico originale relativo al periodo 2010-2017, abbiamo dato al pubblico una consapevolezza generale della realtà? Sì, ma non abbiamo comunicato un fatto che forse è ancora più importante. Abbiamo scelto il tipo giusto di grafico, abbiamo scelto i colori in modo da attirare l'attenzione su ciò che volevamo sostenere e sulla categoria che ci premeva, abbiamo addirittura aggiunto le etichette per maggiore precisione. Ma ci siamo resi colpevoli dell'omissione di un fatto cruciale. Visualizzazione di dati per l'esplorazione aperta Per come esploriamo oggi i dati, spesso siamo vincolati da test rigidi delle ipotesi o da un rigore statistico che può rallentare tutto il processo. Però dobbiamo stare attenti anche al ritmo rapido dell'esplorazione: gli strumenti moderni di business intelligence e di analytics ci consentono di fare molto con i dati, così rapidamente che è facile cadere in un'insidia creando un grafico che ci fuorvia nelle prime fasi del processo. Per esempio, pensiamo alla tendenza alla crescita dei furti registrati a Orlando. È stato proprio facile disegnare una linea di tendenza sopra il grafico e vederla inclinata verso l'alto, poi ricavare, da un passo che non ha richiesto più di 10 secondi, come la percentuale dei furti continui a salire ogni mese che passa. In fin dei conti, la linea va verso l'alto, no? Se però consideriamo un grafico di controllo a intervallo individuale come quello della Figura 7.16, un tipo di grafico che aiuta a capire se i cambiamenti in una serie temporale possono essere interpretati come segnali o come semplice rumore, vediamo una storia leggermente diversa. Sì, nel 2010 e 2011 ci sono stati mesi più bassi del previsto e c'è stata una tendenza alla crescita nel 2013 e uno spostamento a fine 2014 - inizio 2015. Dal gennaio 2015, però, il numero dei casi di furto registrati a Orlando non ha visto variazioni significative: sono 35 mesi di fila di rumore. L'idea che i furti stiano aumentando ogni mese è sostenuta dai dati? Se fossimo passati di corsa al grafico successivo senza fermarci a guardare più da vicino, ci sarebbe sfuggita quella conoscenza più profonda che abbiamo ottenuto rallentando e analizzando più in profondità. Insidia 6B: dogmatismo dei dati Come per altre forme di espressione e di comunicazione, non ci sono regole bianco e nero nella visualizzazione dei dati, solo regole empiriche. È vero che certi tipi di grafici funzionano meglio di altri, ma dipende sempre moltissimo dall'obiettivo, dal pubblico a cui ci si rivolge e dal contesto. La scelta di un particolare tipo dipende da molti fattori. E una buona cosa e, francamente, è un Capitolo 8 Insidia 7: difetti di design Come abbelliamo i dati Dato che una gran quantità di altri contenuti online lotta per conquistare l'attenzione di quegli stessi milioni di persone, deve catturare la loro attenzione e coinvolgere la loro immaginazione: da qui il bisogno anche dell'estetica. Questo aspetto è stato studiato scientificamente in vari modi, con test della cognizione, con studi sul tracciamento dei movimenti oculari e molto altro. Insidia 7A: colori che confondono Un'insidia in cui è molto facile cadere quando si creano dashboard con più diagrammi e grafici è quella di usare il colore in modi che possono confondere le persone. Insidia dei colori 1: usare lo stesso colore per due variabili diverse Per evitare confusione, propongo di usare schemi di colore del tutto diversi per l'istogramma e per la mappa alberata (e di non ripetere alcun colore nella mappa alberata stessa), oppure, meglio ancora, di non mettere i due grafici uno vicino all'altro, perché raccontano due aspetti del tutto diversi della storia. Insidia dei colori 2: usare la stessa saturazione di colore per ordini di grandezza diversi della stessa variabile La codifica di colore sul grafico a barre in realtà è ridondante. Sappiamo già le proporzioni relative fra le lunghezze complessive dei diversi tipi di strada, grazie alla lunghezza delle barre corrispondenti, che è già molto efficace. Perché usare dunque il colore, considerato che entrerà in conflitto con la mappa coropletica, dove invece è veramente necessario? Per eliminare il conflitto, togliamo completametne il colore dalle barre e lasciamo solo il contorno. Insidia dei colori 3: usare troppi codici di colore in una stessa dashboard Accade spesso di usare troppi schemi di colore in una stessa dashboard, specialmente nelle grandi dashboard aziendali, quando i vari stakeholder vogliono che alla visualizzazione venga aggiunto di tutto. La mia aspirazione di design: un solo codice di colore per dashboard Cercare di infilare in un'unica visualizzazione tutte le informazioni che potrebbero rivelarsi utili spesso non è necessario, e questo aiuta a non generare quel tipo di confusione dei colori di cui stiamo parlando. Insidia 7B: omissione di opportunità Il grafico della produzione di Poe è un esempio di grafico in cui l'inversione dell'asse non aiuta, né ostacola drasticamente la comprensione, ma certamente contribuisce, sul piano estetico, a un migliore "look and feel". Abbiamo comunque la percezione che Poe abbia pubblicato più opere negli anni in cui i riquadri impilati scendono più in basso, come ci sarebbe più sangue sullo specchio se la goccia fosse scesa fino in fondo. Un punto fondamentale, però, è che esiterei ad aggiungere qualche tocco artistico se così facendo ne derivasse una drastica riduzione della chiarezza o della comprensibilità, o se ci fosse qualche probabilità che l'aggiunta di elementi estetici fuorviasse il mio pubblico. Sono compromessi di cui bisogna essere consapevoli e da mettere alla prova con potenziali membri del pubblico, anche se con test semplici e rapidi. La cosa fondamentale, per evitare l’insidia, è consentire alla nostra creatività di liberarsi e chiederei quali opportunità vi siano di aggiungere componenti di valore estetico che migliorino l'esperienza complessiva per il nostro pubblico. Bisogna stare molto attenti, però, quando si cerca di evitare questa insidia, e per due motivi. Il primo l'abbiamo già citato: c'è sempre da raggiungere un compromesso fra chiarezza ed estetica, che va affrontato con cautela. Il secondo che a volte il nostro pubblico non vuole alcun elemento del genere. Ci sono persone per cui questi tipi di arricchimenti visivi sono proprio spiacevoli, e che si irriteranno molto se li introducete. Insidia 7C: usabilità oh... oh Ovviamente, il design riguarda molto più che scelte dei colori, elementi estetici e il modo in cui qualcosa si presenta. Ecco i cinque punti che mi hanno colpito come particolarmente pertinenti per il nostro campo. 1. Le buone rappresentazioni sono visibili e comprensibili Norman inizia descrivendo due caratteristiche importanti di tutti i prodotti progettati: - Visibilità, è possibile indovinare quali azioni sono possibili e come eseguirle? - Comprensibilità: cosa significa tutto questo? Come si presume che debba essere usato questo prodotto? Che cosa significano i diversi controlli e le varie impostazioni? Quando in una visualizzazione sono presenti più viste (una dashboard) abbiamo un'analoga occasione per fornire corrispondenze chiare, o naturali. Norman dà questi consigli per le corrispondenze (o mapping). - Ottimale: i comandi sono montati direttamente sull'elemento comandato. - Seconda scelta: i comandi sono il più vicini possibile all'oggetto comandato. - Terza possibilità: i comandi sono disposti nella stessa configurazione spaziale degli oggetti comandati. Spesso i software collocano per impostazione predefinita i controlli sul lato destro. 2. Non date la colpa alle persone se si confondono o commettono errori Un principio fondamentale, su cui Norman insiste varie volte nel suo libro, è che l'errore. umano di solito non è colpa degli esseri umani, bensì di sistemi mal progettati. Ecco due significative citazioni in proposito: - È impossibile eliminare l'errore umano se questo è considerato un fallimento personale, piuttosto che il segno di una cattiva progettazione delle procedure o dei dispositivi. - Se il sistema ci lascia sbagliare, è mal progettato. Se poi ci induce a sbagliare, è progettato malissimo. Norman distingue fra due tipi di errori: lapsus ed errori cognitivi. - Lapsus quando si vuol fare una cosa, ma se ne fa un'altra. - Errori cognitivi quando si sceglie l'obiettivo o il piano sbagliato e lo si esegue. Se la persona che è stata disponibile a testare la vostra visualizzazione ha commesso quell'errore, non pensate che molti altri lo commetteranno? E voi non sarete lì a dirgli dove hanno sbagliato. La vostra unica possibilità di risolvere l'errore è prevenirlo. 3. Progettare per il piacere e l'emozione Credo molto in questo principio. Norman dice che "i grandi designer producono esperienze piacevoli" Come può essere piacevole un'esperienza con una visualizzazione di dati? In molti modi. Può rendere facile capire qualcosa di interessante o di importante sul mondo, può usare buone tecniche di design e buoni elementi artistici, può sorprenderci con: una metafora divertente, con una combinazione di tutte queste cose e altre ancora. 4. La complessità è bene, la confusione è male Nella visualizzazione dei dati è in atto una tendenza ad allontanarsi dalle grandi dashboard complesse del 2010 per andare verso grafici "leggeri" e ultra-semplici, addirittura verso le GIF. Perché? Gran parte della motivazione è che funzionano meglio sui dispositivi mobili. Inoltre negli ultimi anni abbiamo capito che non sempre la complessità di quelle grandi dashboard è necessaria. È un ottimo sviluppo e sono perfettamente d'accordo, ma non dimentichiamo che spesso c'era un grande valore nella ricchezza di interazione che è ancora possibile sugli schermi più grandi. Invece di abbandonare completamente la ricchezza di interattività, credo che dovremmo cercare modi nuovi e innovativi di dare ai lettori queste capacità avanzate anche su dispositivi più piccoli. 5. La precisione assoluta non è sempre necessaria Se dovessimo sempre scegliere quella con l'accuratezza maggiore, dovremmo avere sempre solo grafici a punti, istogrammi e grafici a linee, e basta. Il problema di questa linea di ragionamento è che la precisione assoluta non è sempre necessaria per quello che si deve fare. Norman usa l'esempio della conversione delle temperature da gradi centigradi a Fahrenheit o viceversa. Se tutto quello che vi serve è stabilire se sia il caso di indossare un maglione prima di uscire, non importa se siano 12 °C, 13 °C, 13,5 °C 0 13,578 °C: in tutti i casi, almeno un maglione leggero è consigliabile. Dato che a ogni tipo di visualizzazione sono associati degli errori e siccome non siamo macchine né decodificatori perfetti di pixel o inchiostro, a volte è sufficiente poter dare un'idea generale.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved