Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Elementi Di Statistica Descrittiva, Appunti di Statistica

CENNI E FONDAMENTI DI STATISTICA PER CAPIRE LA STATISTICA.<br />

Tipologia: Appunti

2010/2011

Caricato il 05/10/2011

Cadaro
Cadaro 🇮🇹

4.3

(64)

22 documenti

Anteprima parziale del testo

Scarica Elementi Di Statistica Descrittiva e più Appunti in PDF di Statistica solo su Docsity! CAPITOLO I ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE 1.1. La statistica nella ricerca ambientale e biologica 1 1.2. Il disegno sperimentale, il campionamento e l’inferenza 2 1.3. Tipi di dati e scale di misurazione 9 1.3.1 La scala nominale o classificatoria 10 1.3.2 La scala ordinale o per ranghi 10 1.3.3 La scala ad intervalli 12 1.3.4 La scala di rapporti 12 1.4. Classificazione in tabelle 13 1.5. Rappresentazioni grafiche di distribuzioni univariate 20 1.6. Le misure di tendenza centrale 34 1.6.1 Le misure di tendenza centrale o posizione 33 1.6.2 La mediana 37 1.6.3 La moda 39 1.7. Misure di dispersione o variabilità 41 1.7.1 Intervallo di variazione 41 1.7.2 La differenza interquartile 42 1.7.3 Lo scarto medio assoluto dalla media 43 1.7.4 Lo scarto medio assoluto dalla mediana 43 1.7.5 La devianza 44 1.7.6 La varianza 45 1.7.7 La deviazione standard 46 1.7.8 L'errore standard 47 1.7.9 Il coefficiente di variazione 49 1.7.10 La varianza in dati raggruppati: correzione di Sheppard 51 1.8. Indici di forma: simmetria e curtosi 53 1.9. Accuratezza, precisione e scelta del numero di cifre significative 64 1.10. Metodi per calcolare un generico quantile da una serie di dati 70 1.11. Rappresentazioni grafiche e semi-grafiche delle distribuzioni: data plot, box-and-whisker, line plot, stem-and-leaf 77 1.12. Esercizi sulle misure di tendenza centrale, dispersione, simmetria e curtosi 81 1 CAPITOLO I ELEMENTI DI STATISTICA DESCRITTIVA PER DISTRIBUZIONI UNIVARIATE 1.1. LA STATISTICA NELLA RICERCA AMBIENTALE E BIOLOGICA Come in tutta la ricerca scientifica sperimentale, anche nelle scienze ambientali e in quelle biologiche è indispensabile la conoscenza dei concetti e dei metodi statistici, sia per i problemi di gestione, sia per quelli di indagine. Per pubblicare i risultati di una ricerca, tutte le riviste scientifiche richiedono che la presentazione dei dati e la loro elaborazione seguano criteri ritenuti validi universalmente. Il comportamento nella fase di raccolta dei dati, la loro descrizione, le analisi e infine il riepilogo sono in buona parte codificati, in modo dettagliato. Inviare ad una rivista uno studio o una relazione che denotino una conoscenza sommaria della statistica comporta generalmente una critica dei metodi seguiti, che può giungere fino al rifiuto delle conclusioni o almeno a una dichiarazione esplicita della loro ridotta attendibilità. Alla ricerca, seppure valida per gli altri aspetti e importante per l'argomento trattato, può essere negata la dignità della pubblicazione. Una raccolta di dati non corretta, una loro presentazione inadeguata o un’analisi statistica non appropriata rendono impossibile la verifica dei risultati da parte di altri studiosi e il confronto con altre ricerche e analisi del settore. Per il progresso di qualsiasi disciplina sperimentale, una finalità importante di qualsiasi ricerca anche di piccole dimensioni, è la semplice possibilità di sommare le esperienze e confrontare i risultati con altre, effettuate in condizioni simili oppure volutamente differenti. Permette l’accumulo delle conoscenze, la verifica di teorie già proposte, la formulazione di nuove ipotesi. Al fine di facilitare ai lettori la corretta comprensione dei risultati, per pubblicare una ricerca le riviste internazionali e quelle di maggior prestigio richiedono tassativamente agli autori di seguire uno schema preciso che, in linea di massima, è fondato sullo sviluppo di quattro fasi. 1) Una introduzione, che presenti in modo accurato sia l'argomento affrontato, sia le finalità della ricerca, mediante citazione dei lavori scientifici pregressi e della letteratura specifica. 2) La descrizione di materiali e metodi, nella quale devono essere definiti: a) il tipo di scala utilizzato; 4 Per esempio, confrontando il tempo di guarigione tra due gruppi di ammalati ai quali siano stati somministrati due farmaci differenti, con l’ipotesi nulla H0 si sostiene che il risultato ottenuto non dipende da una effettiva differenza tra i due principi attivi, ma che esso è dovuto al caso. Se nell’esperimento il farmaco A è risultato migliore del farmaco B, se si accetta l’ipotesi nulla implicitamente si afferma che, con un nuovo esperimento nelle stesse condizioni, si potrebbe ottenere il risultato opposto. Per giungere a queste conclusioni si deve ricorrere all’inferenza, che può essere definita come la capacità di trarre conclusioni generali (sulla popolazione od universo) utilizzando solo un numero limitato di dati variabili (campione). Il disegno sperimentale ed il campionamento sono le due fasi preliminari - sia alla raccolta dei dati in natura, - sia per una corretta impostazione degli esperimenti in laboratorio. Tuttavia, la presentazione didattica e la corretta comprensione di questi argomenti richiedono concetti complessi e metodologie sofisticate, non sempre facili né intuitivi. Per questi motivi, il disegno sperimentale e il campionamento sono sempre trattati nella fase finale di un corso di statistica applicata, quando è già stata raggiunta sufficiente familiarità con la terminologia, con i concetti e i metodi fondamentali dell’inferenza. Nell’apprendimento e nell’uso della statistica, il primo passo è comprendere come solamente una corretta applicazione del campionamento e una scelta appropriata dei test permettano di rispondere alla domanda inferenziale di verifica dell'ipotesi nulla. Con essa si pone il seguente quesito: " Nell'ipotesi che le differenze fra gruppi di osservazioni empiriche siano dovute a fattori esclusivamente casuali, quale è la probabilità che fra tutte le alternative possibili si presenti proprio la situazione descritta dai dati raccolti o una ancora più estrema?" Se tale probabilità risulta alta, convenzionalmente uguale o superiore al 5%, si imputeranno le differenze a fattori puramente casuali. Al contrario, se la probabilità risulta bassa, inferiore al valore prefissato, si accetta come verosimile che le differenze siano dovute a fattori non casuali, rientranti tra i criteri che distinguono i gruppi di dati. La procedura dell’inferenza statistica è semplice, nelle linee logiche generali. Tuttavia, le analisi e le conclusioni trovano complicazioni per l’elevata variabilità dei dati, a motivo soprattutto di tre cause che, in ordine crescente d’importanza, sono: 5 - gli errori di misurazione, generati da strumenti e da differenze nell'abilità dei ricercatori; - l'operare su campioni, per cui i dati utilizzati in una ricerca non sono mai identici a quelli rilevati in qualsiasi altra; - la presenza di vari fattori contingenti di disturbo che, come il tempo e la località, possono incidere diversamente sul fenomeno in osservazione, con intensità e direzioni ignote. Pure se espressi in modo sintetico, questi concetti definiscono il contenuto della statistica moderna: la raccolta, la presentazione e la elaborazione numerica delle informazioni, per agevolare l'analisi dei dati ed i processi decisionali. In un corso completo di statistica applicata, è importante avere in ogni momento una visione complessiva degli argomenti. Il loro elenco è utile anche per comprendere le diverse parti in cui viene distinta la statistica, nel percorso di apprendimento dei concetti e delle procedure. La statistica moderna può essere distinta in tre parti: descrittiva, matematica, inferenziale. 1 - La statistica descrittiva spiega come i dati raccolti devono essere riportati in tabella, rappresentati in grafici e sintetizzati in indici matematici, allo scopo di individuare le caratteristiche fondamentali del campione. 2 - La statistica matematica presenta le distribuzioni teoriche sia per misure discrete sia per misure continue, allo scopo di illustrarne le caratteristiche fondamentali, le relazioni che esistono tra esse, gli usi possibili; 3 - L’inferenza statistica, la parte nettamente prevalente del corso, serve per la verifica delle ipotesi. Essa può essere distinta in vari capitoli, in rapporto - alle caratteristiche dei dati (se permettono o meno il ricorso alla distribuzione normale: statistica parametrica e non parametrica - al numero di variabili (se una, due o più: statistica univariata, bivariata, multivariata). La prima parte dell’inferenza, di solito affrontata in un corso, è la statistica univariata parametrica. Come argomenti, essa comprende il test t di Student e il test F di Fisher-Snedecor o analisi della varianza: - il primo serve sia per confrontare la media di un campione con una media attesa o teorica, sia per confrontare le medie di due campioni; 6 - il secondo rappresenta la sua generalizzazione e permette il confronto simultaneo tra più medie, considerando uno solo oppure più fattori di variabilità. Appunto perché fondati sulla distribuzione normale, questi test richiedono condizioni di validità restrittive (discusse nei capitoli seguenti), che non sempre i dati raccolti e la misura utilizzata permettono di rispettare. E’ una situazione che si presenta con frequenza elevata nella ricerca applicata, a causa della estrema variabilità dei dati e della presenza di valori anomali. In queste condizioni si ricorre alla statistica univariata non parametrica, che è formata da una serie innumerevole di test. Di norma essi sono raggruppati sulla base dei campioni ai quali viene applicata: test per un campione, per due campioni dipendenti e indipendenti, test per k campioni dipendenti e indipendenti. Quando per ogni individuo o situazione si raccolgono informazioni relative a due variabili, è possibile analizzare le relazioni che intercorrono tra esse, mediante sia la regressione e la correlazione parametriche, sia la regressione e la correlazione non parametriche. Si parla allora di statistica bivariata parametrica e di statistica bivariata non parametrica. Quando i dati raccolti sono relativi a più variabili, si deve ricorrere alla statistica multivariata. Per molte analisi è solamente parametrica. Più recentemente sono stati proposti metodi, detti di ricampionamento, che sono definiti test di statistica non parametrica. In questo corso, verranno presentati i metodi relativi - alla statistica univariata e bivariata sia parametrica che non parametrica. Alla fine sono presentati anche il bootstrap e il jackknife, test non parametrici applicabili sia distribuzioni univariate, sia bivariate che multivariate. La serie completa degli argomenti e il loro ordine sono riportati nell'indice del testo, organizzato in capitoli e entro capitoli in paragrafi. Questi concetti possono essere schematizzati in una tabella, che offre il vantaggio confrontare le finalità dei tre tipi di statistica 9 Lo schema precedente elenca i vari passaggi logici che sono necessari. Nello svolgimento del programma, saranno descritti dettagliatamente in tutte le loro fasi. 1.3. TIPI DI DATI E SCALE DI MISURAZIONE Nell’analisi statistica, occorre porre sempre molta attenzione alle caratteristiche dei dati. Già la fase dell’esperimento che conduce alla raccolta delle informazioni è un punto fondamentale, poiché da essa dipendono sia i metodi di descrizione, sia i test da applicare. Schematicamente, esistono due tipi di variabili casuali, alle quali sono associati due tipi di dati: le variabili qualitative e le variabili quantitative. Le variabili qualitative o categoriali sono quantificate con conteggi, ossia con numeri interi e discreti. Ad esempio, per valutare gli effetti di un tossico è possibile contare quante cavie muoiono o sopravvivono; con un farmaco, quanti pazienti guariscono o restano ammalati, entro un tempo prefissato; con esperimenti sulle leggi di Mendel, quante piante hanno fiori rossi o bianchi. Le variabili quantitative richiedono risposte numeriche, espresse su una scala continua. Ad esempio, per un’analisi del dimorfismo animale, dopo la separazione in maschi e femmine, si possono misurare il peso e l’altezza di ogni individuo. I dati che si raccolgono per analisi statistiche possono quindi essere discreti o continui. Questa suddivisione, ormai storica nella presentazione ed elaborazione dei dati, è stata resa più chiara e funzionale dalla classificazione delle scale di misurazione proposta dallo psicologo S.S. Stevens nel 1946, (vedi l’articolo On the theory of scales of measurement, pubblicato su Science, vol. 103, pp.:677-680). Tale classificazione è stata aggiornata nel 1951 con le operazioni statistiche “ammissibili” e in seguito divulgata da S. Siegel, nel suo manuale "Statistica non parametrica" del 1956. Una presentazione ampia e dettagliata può essere trovata pure nell’ultima edizione del testo di S. Siegel e N. J. Castellan del 1988 (Nonparametric Statistics for the Behavioral Sciences, 2nd ed., Mc Graw Hill, New York), tradotto anche in italiano. Le misure possono essere raggruppate in 4 tipi di scale, che godono di proprietà formali differenti; di conseguenza, esse ammettono operazioni differenti. Come per tutte le discipline, una scala di misurazione dei fenomeni biologici ed ambientali può essere: 1) nominale o classificatoria; 2) ordinale o per ranghi; 3) ad intervalli; 4) di rapporti. 10 1.3.1. La scala nominale o classificatoria è il livello più basso di misurazione. E’ utilizzata quando i risultati possono essere classificati o raggruppati in categorie qualitative, dette anche nominali ed eventualmente identificate con simboli. I caratteri nominali, detti anche “sconnessi”, costituiscono variabili le cui modalità o attributi non assumono alcun ordine precostituito. In una popolazione animale si possono distinguere gli individui in maschi e femmine, contando quanti appartengono ai due gruppi; con una classificazione a più voci, possono essere suddivisi e contati secondo la loro specie. Nella scala nominale o qualitativa, esiste una sola relazione, quella di identità: gli individui attribuiti a classi diverse sono tra loro differenti, mentre tutti quelli della stessa classe sono tra loro equivalenti, rispetto alla proprietà utilizzata nella classificazione. Un caso particolare è quello dei caratteri dicotomici che possono assumere solo due modalità, spesso indicate in modo convenzionale con 0 e 1 oppure + (più) e – (meno). L'attribuzione di numeri per identificare categorie nominali, come avviene per individuare i giocatori nei giochi di squadra, è solamente un artificio che non può certamente autorizzare ad elaborare quei numeri come se fossero reali, ad esempio calcolandone la media. Quando per la classificazione dei gruppi al posto di nomi vengono usati numeri, si utilizza solo la funzione di identificazione degli elementi numerici come se fossero simboli; ma con tale trasformazione non si determina una informazione differente dalla precedente o ad essa aggiuntiva. L’operazione ammessa è il conteggio degli individui o dei dati presenti in ogni categoria. I quesiti statistici che possono essere posti correttamente riguardano le frequenze, sia assolute che relative. Sono possibili confronti tra frequenze osservate (es.: "Una classe è significativamente più numerosa dell’altra? Le varie classi hanno tutte lo stesso numero di individui, escludendo le variazioni casuali?") oppure tra le frequenze osservate e le rispettive frequenze attese sulla base di leggi biologiche, ipotesi od altro (es.: "I risultati ottenuti da un esperimento sulle leggi di Mendel sono in accordo con la sua distribuzione teorica?"). 1.3.2. La scala ordinale o per ranghi rappresenta una misurazione che contiene una quantità di informazione immediatamente superiore a quella nominale; essa assume modalità logicamente sequenziali, non importa se in ordine crescente o decrescente. Alla proprietà precedente di equivalenza tra gli individui della stessa classe, si aggiunge una graduazione tra le classi o tra individui di classi differenti. Con la precedente scala nominale, si ha la sola informazione che gli individui appartenenti a gruppi differenti sono tra loro diversi, ma non è possibile stabilire un ordine. 11 Con la scala per ranghi, le differenti classi possono essere ordinate sulla base dell’intensità del fenomeno. (es.: Si supponga che il risultato di un reagente sia di colorare in verde una serie di provette, secondo la quantità di sostanza contenuta. E’ possibile mettere in ordine le provette secondo l'intensità del colore, per avere una stima approssimata della quantità di sostanza contenuta. Se si confrontano tre o più provette con intensità di colore differente, è facile stabilirne l'ordine; rimane impossibile misurare ad occhio la quantità di colore di ognuna e la differenza esistente tra esse). Questa misura ha un limite fondamentale. In una scala ordinale, non è possibile quantificare le differenze di intensità tra le osservazioni. Alcune risposte, apparentemente definite a livello qualitativo o nominale, in realtà possono contenere una scala ordinale o di rango, seppure con molte ripetizioni. E’ il caso della suddivisione in giovane, adulto ed anziano per l'età; oppure della classificazione in insufficiente, sufficiente, discreto, buono ed ottimo in valutazioni di merito. Forniscono l’informazione di una scala ordinale anche - misure che sono rappresentate con simboli, come --, -, =, +, ++. - raggruppamenti convenzionali o soggettivi in classi di frequenza variabili come 0, 1-2, 3-10, 11-50, 51-100, 101-1.000, >1.000 Resta l’impossibilità di valutare quanto sia la distanza tra insufficiente e sufficiente; oppure se essa sia inferiore o superiore alla distanza tra buono ed ottimo. La scala ordinale o per ranghi è pertanto una scala monotonica. Alle variabili così misurate è possibile applicare una serie di test non parametrici; ma non quelli parametrici. In questi casi, non sarebbe possibile utilizzare quei test che fanno riferimento alla distribuzione normale, i cui parametri essenziali sono la media e la varianza, poiché non si possono definire le distanze tra i valori. Tuttavia questa indicazione di massima sulla utilizzazione della statistica non parametrica è spesso superata dall'osservazione che variabili discrete o nominali tendono a distribuirsi in modo approssimativamente normale, quando il numero di dati è sufficientemente elevato. Per coloro che sono nella fase iniziale delle applicazioni statistiche, permane sempre molta incertezza sulla scelta dei test più appropriati; infatti permane un’ampia varietà di opinioni su quando il numero di osservazioni sia sufficientemente elevato, per ottenere una distribuzione normale. Nel seguito del corso, l’argomento sarà discusso in molte situazioni reali, a chiarimento dei criteri di scelta dei test. 14 Una sua prima ed elementare elaborazione può essere una distribuzione ordinata di tutti i valori, in modo crescente o decrescente, detta seriazione. Il valore minimo e il valore massimo insieme permettono di individuare immediatamente il campo (od intervallo) di variazione. Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria. Si ottiene una distribuzione di frequenza o di intensità, detta anche semplicemente distribuzione. Come prima applicazione, è utile considerare un caso semplice: una variabile discreta ottenuta da un conteggio del numero di foglie, germogliate su 45 rami di lunghezza uguale. Tabella 1. Numero di foglie contate su 45 rami. 5 6 3 4 7 2 3 2 3 2 6 4 3 9 3 2 0 3 3 4 6 5 4 2 3 6 7 3 4 2 5 1 3 4 3 7 0 2 1 3 1 5 0 4 5 Il primo passaggio, quasi intuitivo in una distribuzione discreta, consiste nel definire le classi: - è sufficiente identificare il valore minimo (0, nei dati della tabella) e quello massimo (9), - contando quante volte compare ogni modalità di espressione (cioè quanti sono i rami con un numero di foglie uguali). Queste informazioni di norma sono presentate in una tabella impostata come la seguente: Tabella 2. Distribuzione di frequenze assolute e relative delle foglie in 45 rami. Classe x 0 1 2 3 4 5 6 7 8 9 Freq. Assoluta n 3 3 7 12 7 5 4 3 0 1 Freq. Relativa f 0,07 0,07 0,15 0,27 0,15 0,11 0,09 0,07 0,00 0,02 Freq. Cumulata --- 0,07 0,14 0,29 0,56 0,71 0,82 0,91 0,98 0,98 1,00 15 in cui: - la classe è una modalità di espressione (in questo caso un valore o conteggio); - la frequenza assoluta della classe è il numero di volte con la quale compare ogni valore; - la frequenza relativa della classe è la sua frequenza assoluta divisa per il numero totale; - la frequenza cumulata di una classe (che può essere stimata con quelle assolute e/o con quelle relative) è la somma di tutte le frequenze delle classi minori con quella della classe stessa. La trasformazione da frequenza assoluta a frequenza relativa risulta utile quando si vogliono confrontare due o più distribuzioni, che hanno un differente numero complessivo di osservazioni. La frequenza cumulata offre informazioni importanti quando si intende stimare il numero totale di osservazioni inferiore (o superiore) ad un valore prefissato (ad es.: il 71% dei rami ha meno di 5 foglie; il 56% ha un massimo di 3 foglie). La distribuzione dei dati e la distribuzione delle frequenze cumulate forniscono informazioni non dissimili, essendo possibile passare con facilità dall’una all’altra. Sono diverse nella loro forma, come si vedrà con maggiore evidenza nelle rappresentazioni grafiche. La prima ha una forma a campana, la seconda una forma a S, di tipo asintotico; si prestano ad analisi differenti e la scelta è fatta sulla base del loro uso statistico. La distribuzione di frequenza offre una lettura rapida delle caratteristiche più importanti della serie di dati. Nella tabella precedente, il ramo “tipico” ha 3 foglie; se dovessimo sintetizzare con un solo valore il numero di foglie presenti sui rami raccolti diremmo 3, che rappresenta la tendenza centrale. Altra caratteristica importante è il numero minimo e il numero massimo, 0 e 9, che insieme forniscono il campo di variazione, una indicazione della variabilità o dispersione. La distribuzione del numero di foglie tende ad diminuire in modo simile allontanandosi da 3, seppure mantenga frequenze più alte nelle classi con un numero maggiore di foglie: sono indicazioni sulla forma della distribuzione, che in questo esempio non è simmetrica (ma asimmetrica) rispetto alla tendenza centrale, a causa di un eccesso dei valori più alti. Nella costruzione di tabelle sintetiche (come la tabella 2 rispetto alla 1) uno dei problemi più rilevanti è quante classi di frequenza costruire. La scelta dipende strettamente dal numero totale N di osservazioni e, in misura minore, dalla variabilità dei dati. Se, in riferimento alla dimostrazione precedente, i dati fossero stati in numero inferiore ai 45 presentati (ad esempio i 15 valori della prima riga), il campo di variazione sarebbe stato più ridotto (non più da 0 a 9, ma da 2 a 9). Le classi non sarebbero state 10 come prima, ma solamente 8. 16 Tuttavia, come si può osservare dai dati, 8 classi per 15 osservazioni sarebbero ugualmente un numero troppo alto, per riuscire ad evidenziare e rappresentare in modo corretto le caratteristiche principali e la forma reale della distribuzione. Le distribuzioni di frequenza tendono a mostrare la distribuzione reale del fenomeno solo quando è possibile utilizzare un numero sufficientemente elevato di osservazioni. L’esperienza ha insegnato che il numero di classi abitualmente varia da un minimo di 4-5 (con N = 10-15) ad un massimo di 15-20 (con N > 100), in funzione del numero complessivo di osservazioni. Un numero troppo basso di classi, raggruppando eccessivamente i dati, determina una perdita di informazione sulle caratteristiche della distribuzione e la rende non significativa; è intuitivo che una o due sole classi determinano l’impossibilità di evidenziare qualunque caratteristica della distribuzione. Inversamente, ma con un risultato finale simile, un numero troppo elevato di classi disperde i valori e non rende manifesta la forma della distribuzione. Per stimare in modo oggettivo il numero di classi, sono stati proposti vari metodi; tra essi è utile ricordarne due: 1 - quello di H. Sturges che nel 1926, sulla base del numero di osservazioni N, ha indicato il numero ottimale di classi C con C N= + ⋅1 10 3 10 log ( ) 2 - quello di D. Scott che nel 1979 ha determinato l’ampiezza ottimale h delle classi (dalla quale ovviamente dipende direttamente anche il numero di classi C), mediante la relazione N Sh ⋅= 5,3 dove - S è la deviazione standard, che sarà presentata più avanti tra le misure di variabilità dei dati. Nella costruzione di distribuzioni di frequenza, non è strettamente obbligatorio utilizzare intervalli uguali, anche se è prassi consolidata per una lettura più semplice. Nel caso di classi di ampiezza diversa, la rappresentazione grafica ed il calcolo dei parametri fondamentali esigono alcune avvertenze, non sempre intuitive (di seguito presentate). 19 Ritornando al problema della rappresentazione tabellare dei dati riportati in tabella 3, secondo le indicazioni di Sturges il numero di classi C avrebbe dovuto essere C N= + ⋅ = + ⋅ =1 10 3 1 10 3 40 6 3410 10log ( ) log ( ) , uguale a 6,34 dal quale si deduce anche un’ampiezza h = 140 6 34 22 , ≅ circa 22 centimetri. Secondo le indicazioni di Scott, l’ampiezza h delle classi avrebbe dovuto essere h s N = ⋅ = ⋅ = 3 5 3 5 28 618 6 3246 15 837, , , , , uguale a circa 16, dalla quale si deduce un numero di classi C C = 140 15 837 8 84 , ,= uguale a 9 (8,84). Ovviamente, il numero di classi calcolato (C = 8,84) deve essere arrotondato all’unità. Secondo i due metodi proposti, con i dati della tabella 3 il numero di classi può ragionevolmente variare da 6 a 9; si evidenzia la correttezza della scelta di fare 7 classi, suggerita dalla semplicità di formare classi con un’ampiezza di 20 cm. La rappresentazione dei dati in una tabella di frequenza offre i vantaggi descritti; ma soffre anche di alcune controindicazioni. Lo svantaggio maggiore deriva dal - non poter conoscere come sono distribuiti i dati entro ogni classe. Per stimare i parametri della distribuzione (media, varianza, simmetria, curtosi), viene quindi usato il valore centrale di ogni classe, - nell’ipotesi che in quell’intervallo i dati siano distribuiti in modo uniforme. Rispetto alla distribuzione delle singole osservazioni, questa procedura comporta un’approssimazione, poiché - tale ipotesi operativa implicita non è vera (il concetto sarà ripreso e dimostrato in paragrafi successivi). 20 1.5. RAPPRESENTAZIONI GRAFICHE DI DISTRIBUZIONI UNIVARIATE Le rappresentazioni grafiche servono per evidenziare in modo semplice, a colpo d’occhio, le quattro caratteristiche fondamentali di una distribuzione di frequenza (tendenza centrale, variabilità, simmetria e curtosi). Insieme con i vantaggi di fornire una visione sintetica e di essere di facile lettura, hanno però l’inconveniente fondamentale di mancare di precisione e soprattutto di essere soggettive, quindi di permettere letture diverse degli stessi dati. Pertanto, ai fini di una elaborazione mediante i test e di un confronto dettagliato dei parametri, è sempre preferibile la tabella, che riporta i dati esatti. Nell’introdurre le rappresentazioni grafiche, seppure nel caso specifico parli di diagrammi (come quello di dispersione che in questo testo è presentato nel capitolo della regressione), Sir Ronald A. Fisher nel suo volume del 1958 “Statistical Methods for Research Workers, (13th ed. Oliver and Boyd, Edinburgh, 356 p.) espone con chiarezza i motivi che devono spingere il ricercatore a costruire rappresentazioni grafiche dei suoi dati: - un esame preliminare delle caratteristiche della distribuzione, - un suggerimento per il test da scegliere, adeguato appunto ai dati raccolti, - un aiuto alla comprensione delle conclusioni, - senza per questo essere un test, ma solo una descrizione visiva. “The preliminary examination of most data is facilited by use of diagrams. Diagrams prove nothing, but bring outstanding features readily to the eye; they are therefore no substitute for such critical tests as may be applied to the data, but are valuable in suggesting such tests, and in explaining the conclusions founded upon them”. Le rappresentazioni grafiche proposte sono numerose. Esse debbono essere scelte in rapporto al tipo di dati e quindi alla scala utilizzata. Per dati quantitativi, riferiti a variabili continue misurate su scale ad intervalli o di rapporti, di norma si ricorre a istogrammi o poligoni. Gli istogrammi sono grafici a barre verticali (per questo detti anche diagrammi a rettangoli accostati), nei quali - le misure della variabile casuale sono riportate lungo l'asse orizzontale, - mentre l'asse verticale rappresenta il numero assoluto, oppure la frequenza relativa o quella percentuale, con cui compaiono i valori di ogni classe. 21 0 0,05 0,1 0,15 0,2 0,25 0,3 0 2 4 6 8 10 12 14 60 80 100 120 140 160 180 Figura 1. Istogramma dei dati di Tab. 2 Figura 2. Istogramma dei dati di Tab. 4 ( frequenze relative) (Valore iniz. =60; Valore finale =199; Passo =20; Classi=7 ) I lati dei rettangoli sono costruiti in corrispondenza degli estremi di ciascuna classe. Un istogramma deve essere inteso come una rappresentazione areale: sono le superfici dei vari rettangoli che devono essere proporzionali alle frequenze corrispondenti. Quando le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali; di conseguenza, le loro altezze risultano proporzionali alle frequenze che rappresentano. Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di aree di ogni rettangolo. Ma se le ampiezze delle classi sono diverse, bisogna ricordare il concetto generale che - le frequenze sono rappresentate dalle superfici e quindi è necessario rendere l'altezza proporzionale. Tale proporzione è facilmente ottenuta dividendo il numero di osservazioni per il numero di classi contenute nella base, prima di riportare la frequenza sull'asse verticale. Per esempio, con i dati della precedente figura 2, si supponga di avere raggruppato in una classe sola le frequenze della classe da 80 a 99 e da 100 a 119, per un totale di 13 osservazioni (3 + 10). Nella successiva figura 3, tale somma è rappresentata - nel primo caso (istogramma di sinistra) con un grafico errato - nel secondo caso (istogramma di destra) nella sua versione corretta, che utilizza il valore medio delle classi raggruppate. 24 Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una linea spezzata i punti centrali di ogni classe. La linea spezzata deve essere unita all'asse orizzontale, sia all'inizio sia alla fine, per racchiudere l'area della distribuzione. Questo procedimento viene ottenuto con un artificio, simulando la presenza di un istogramma con presenze uguali a 0 (zero) come punto di partenza. Si unisce il valore centrale della prima classe con il valore centrale di questa precedente classe fittizia di valore 0; l’ultimo segmento viene ottenuto unendo il valore centrale dell'ultima classe reale con il valore centrale di una classe successiva, fittizia, di valore 0. Il poligono rappresentato nella figura 5 corrisponde all’istogramma della figura 2. E' stato costruito con i dati della tabella 4, spostando le classi sull’asse delle ascisse per comprendere i nuovi estremi della distribuzione. 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 50 90 13 0 17 0 21 0 0 0,2 0,4 0,6 0,8 1 1,2 Figura 5. Poligono dei dati di Tab. 4 Figura 6. Poligono cumulato di Tab. 4 Le distribuzioni cumulate sono rappresentate sia con istogrammi cumulati sia con poligoni cumulati. Non forniscono informazioni sostanzialmente differenti da quelle dei relativi istogrammi e poligoni già descritti, poiché - è possibile passare con facilità da una distribuzione di frequenza alla sua cumulata con semplici operazioni di somme o di sottrazioni tra classi. Sono solamente più convenienti, per meglio evidenziare il concetto di maggiore interesse. La figura 6 rappresenta il poligono cumulato corrispondente al poligono della figura 5. 25 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 1 2 3 4 5 6 7 8 9 Figura 7. Istogramma cumulato dei dati di Tab. 2 Tuttavia, per la diversa prospettiva che essi offrono a partire dagli stessi dati, gli istogrammi ed i poligoni cumulati sono un altro metodo utile sia per presentare le caratteristiche di dati quantitativi riportati in tabelle, sia per facilitare l'interpretazione e l'analisi. Servono soprattutto per evidenziare, con lettura immediata, quante sono in totale le misure che sono inferiori o superiori ad un certo valore. Il valore dell'asse orizzontale che corrisponde al 50% dei valori identifica la mediana (riportato come linea tratteggiata nella figura 7 che rappresenta un istogramma cumulato); è un parametro di tendenza centrale estremamente importante, quando la distribuzione non è simmetrica (il suo uso e le sue caratteristiche saranno descritte in modo dettagliato nei prossimi paragrafi). Per le distribuzioni di frequenza di dati qualitativi, le rappresentazioni grafiche più frequenti sono - i diagrammi a rettangoli distanziati, - gli ortogrammi, - i diagrammi a punti, - gli areogrammi (tra cui i diagrammi circolari), - i diagrammi a figure (o diagrammi simbolici). I diagrammi a rettangoli distanziati, detti anche grafici a colonne, sono formati da rettangoli con basi uguali ed altezze proporzionali alle intensità (o frequenze) dei vari gruppi considerati. A differenza degli istogrammi, i rettangoli non sono tra loro contigui, ma distaccati; di conseguenza, sull’asse delle ascisse non vengono riportati misure ordinate ma nomi, etichette o simboli, propri delle classificazioni qualitative. 26 Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche avendo solo un significato simbolico. Si può ricorre quindi sia a diagrammi a punti o line plot, in cui i punti sono disposti uno sopra l’altro fino ad un’altezza proporzionale alla frequenza della classe, sia a diagrammi a barre, che sono un’altra rappresentazione frequente, in cui al posto di rettangoli o colonne di punti vengono usate linee continue più o meno spesse (figura 8). 0 50000 100000 150000 200000 1 2 3 4 0 100000 200000 300000 1 3 5 Figura 8. Rettangoli distanziati Figura 9. Ortogramma Nel caso di dati qualitativi o nominali, non esiste una logica specifica nell'ordine delle classi. Per convenzione, i rettangoli o le colonne sovente (ma non obbligatoriamente) vengono disposti in modo ordinato dal maggiore al minore o viceversa. Se le classi qualitative sono composte da sottoclassi, è possibile una rappresentazione grafica più articolata, dividendo ogni rettangolo in più parti, con altezze proporzionali alle frequenze delle sottoclassi (figura 10). Avendo basi uguali, le aree sono proporzionali alle altezze; pertanto, anche i diagrammi a rettangoli distanziati sono rappresentazioni areali. Gli ortogrammi o grafici a nastri sono uguali ai rettangoli distanziati; l’unica differenza è che gli assi sono scambiati, per una lettura più facile (figura 9 e figura 11). Anche in questo caso è possibile sostituire ai rettangoli una linea, eventualmente punteggiata. Si ottengono diagrammi a barre o a punti e l’intensità o frequenza delle varie classi viene letta con una proiezione sull’asse delle ascisse. 29 sono le proporzioni. Per esempio, se l'unità di misura convenuta è 20 individui, 50 persone possono essere rappresentate in modo corretto da due figure umane e mezza e 105 persone da 5 figure intere più un quarto di figura. In questo modo si rispetta la regola per costruire gli istogrammi in modo corretto: l’altezza delle due figure è proporzionale al numero di dati dei due gruppi A causa degli inconvenienti, i diagrammi simbolici o a figure sono usati molto raramente nelle pubblicazioni specializzate e mai in quelle scientifiche. Sono riservati a pubblicazioni divulgative, quando è più importante l’impressione della precisione, cioè occorre evidenziare l’importanza del fenomeno a persone che non conoscono esattamente il problema. Gli specialisti preferiscono i dati, poiché da essi sanno valutare il fenomeno e se un dato è credibile oppure anomalo con elevata probabilità. Figura 13. Pittogramma della produzione mensile di auto di 3 case automobilistiche: la prima ha prodotto 100 mila auto, la seconda 180 mila e la terza 320 mila. La parte superiore della figura fornisce una rappresentazione corretta. La parte inferiore, fondata sulla proporzione della lunghezza, fornisce una rappresentazione errata: è la superficie coperta dalla figura che deve essere proporzionale, non la lunghezza. 30 Il primo a presentare una trattazione amplia sul problema della rappresentazione grafica dei dati è Edward R. Tufte nel 1983 con il volume The Visual Display of Quantitative Information (Graphics Press, Cheshire, CT). Egli enuncia chiaramente il concetto, dato per implicito nella tradizione statistica e quindi mai chiaramente discusso, che - una rappresentazione grafica di numeri deve essere direttamente proporzionale alla quantità rappresentata: The representation of numbers, as physically measured on the surface of the graphic itself, should be directly proportional to the quantities representeted. Come richiesto dalle applicazioni, fornisce anche un metodo per misurare la violazione di tale principio il Lie Factor (che potrebbe essere tradotto come il Fattore di Imbroglio o il Fattore di Menzogna, ma che non ha ancora avuto una traduzione in Italiano). Il Lie Factor è definito come - il rapporto tra la dimensione di un effetto mostrato nel grafico e la dimensione dell’effetto nei dati: Figura 13b. Esempio tratto da un quotidiano sulle manovre finanziarie in Italia, dal 1992 al 2000 Notare come i numeri diano un’informazione differente dai volumi rappresentati. 31 datineieffettodellrealeDimensione graficonelmostratoeffettodellapparenteDimensione FactorLie ' ' = Lie Factor defined as the ratio of the size of an effect shown in the graphic to the size of the effect in the data. Ovviamente tale rapporto dovrebbe essere uguale a 1. Se si allontana da 1, è l’indicazione numerica di una rappresentazione non corretta. Fornisce i limiti di una variazione casuale o accettabile, come se si trattasse di un test, affermando che il valore del Lie Factor dovrebbe sempre essere compreso tra 1,05 e 0,95. Ma spesso varia da 0,5 a 5. Nel suo testo mostra casi, presi soprattutto dal giornalismo politico, nei quali il Lie Factor è maggiore di 10,0. La figura successiva, anch’essa riportata nel suo testo e ripresa da altri autori come a pag. 218 del volume di B. S. Everitt del 2002 The Cambridge Dictionary of Statistics (2nd edn. Cambridge University Press, UK, IX + 410 p. ) 34 Per rappresentare la variabile ciclica, si divide l’angolo giro in tante parti quante sono le modalità (es.: 12 per i mesi, 24 per le ore). Si devono poi collocare punti nei vari cerchi concentrici, per individuare insieme la modalità (es.: il mese o l’ora) e l’intensità del fenomeno (es.: la quantità di pioggia, la temperatura, la misura d’inquinamento atmosferico o di un corso d’acqua). Il diagramma polare è ottenuto congiungendo i vari punti e l’intensità del fenomeno è rappresentata dalla distanza dal centro. Le figure relative riportano due differenti impostazioni grafiche di costruire un diagramma polare sui valori medi mensili in Italia della radioattività beta totale nell’anno 1993. Per la rappresentazione di dati numerici, è possibile ricorrere anche a diagrammi cartesiani. Essi saranno illustrati nel capitolo dedicato ai dati bivariati; sono utilizzati quando per ogni individuo sono rilevati contemporaneamente 2 variabili, come il peso e l’altezza. Ma possono essere usati anche per una sola variabile, collocando i punti di una distribuzione cumulata su un piano cartesiano: la perpendicolare sull’asse delle ascisse coincide con il valore della variabile e quella sull’asse delle ordinate fornisce le corrispondenti quantità o frequenze; i punti sono uniti da segmenti secondo l’ordine stabilito dal valore riportato in ascissa. E’ di particolare utilità il diagramma quantile, che risulta graficamente simile al diagramma cumulato, soprattutto quando si dispone di poche unità e la variabile è di tipo continuo: vengono eliminate le anomale presenze di classi nulle entro gli estremi. Per la scelta del metodo grafico con il quale presentare i dati, si deve prendere in considerazione il tipo di dati (qualitativi o quantitativi), la misura (discreta o continua), il dettaglio che si vuole ottenere nella forma della distribuzione. I metodi non aggiungono alcuna informazione che già non sia contenuta nei dati; ma garantiscono una rappresentazione più efficace, in particolare a persone non esperte dell’argomento trattato. 1.6. LE MISURE DI TENDENZA CENTRALE Le rappresentazioni grafiche forniscono una sintesi visiva delle caratteristiche fondamentali delle distribuzioni di frequenza. Rispetto alle cifre, le figure forniscono impressioni che sono percepite con maggiore facilità; ma nel contempo hanno il limite di essere meno precise e meno ricche di particolari. 35 Per i caratteri qualitativi, la tabella e le rappresentazioni grafiche esauriscono quasi completamente gli aspetti descrittivi, quando sia possibile leggere con esattezza le frequenze delle varie classi. Per i caratteri quantitativi, si pone il problema di sintesi oggettive che possano essere elaborate matematicamente e quindi che siano numeriche, al fine di un'analisi obiettiva che deve condurre tutti i ricercatori, con gli stessi dati, alle medesime conclusioni. Una serie di dati numerici è compiutamente descritta da 3 proprietà principali: 1) la tendenza centrale o posizione; 2) la dispersione o variabilità; 3) la forma. Queste misure descrittive sintetiche, riassuntive dei dati tabellari, sono chiamate - statistiche, quando sono calcolate su un campione di dati, - parametri, quando descrivono la popolazione od universo dei dati. I ricercatori in ecologia e nelle scienze ambientali molto raramente conoscono tutta la popolazione; di conseguenza, i metodi statistici di norma utilizzati sono riferiti quasi esclusivamente alla descrizione, all’analisi e al confronto di campioni. 1.6.1 Le misure di tendenza centrale o posizione servono per individuare il valore intorno al quale i dati sono raggruppati; la tendenza centrale è la misura più appropriata per sintetizzare l'insieme delle osservazioni, se una distribuzione di dati dovesse essere descritta con un solo valore; è la prima indicazione della dimensione del fenomeno. Le misure proposte sono essenzialmente 3: la media, la moda e la mediana. Più raramente ed in discipline specifiche si utilizzano altre misure, come l'intervallo medio. La scelta della misura di tendenza centrale di una serie di dati dipende dalle caratteristiche della distribuzione e dal tipo di scala. La media aritmetica semplice è la misura di tendenza centrale più comunemente utilizzata. Quando si parla solo di media, si intende la media aritmetica semplice. E' definita come la somma del valore di tutte le osservazioni, diviso il numero di unità. Con simboli, è x x + x + ...+ x n 1 2 n= 36 e, con una notazione più generale, diventa x x n i i 1 n = = ∑ dove: - x = media del campione - xi = i-esima osservazione della variabile X - n = numero di osservazioni del campione - i 1 n = ∑ = sommatoria di tutti gli xi del campione. La media può essere vista come il baricentro della distribuzione campionaria, quando ogni singola osservazione è rappresentata da un peso convenzionale, identico per tutte, lungo l'asse che riporta i valori su una scala di intervalli o di rapporti. Per dimostrare graficamente che la media aritmetica corrisponde al punto di bilanciamento o di equilibrio dei dati, si supponga di avere 5 misure: 10,9 11,5 12,3 12,8 15,4. La loro media X = + + + + =10 9 11 5 12 3 12 8 15 4 5 12 58, , , , , , è uguale a 12,58. La rappresentazione grafica dei dati e della media, riportata nella figura seguente, mostra otticamente come la somma della distanza dalla media dei valori collocati prima sia uguale alla somma della distanza dei valori collocati dopo. 10 11 12 13 14 15 16 media v10.9 11.5 12.3 12.8 15.4 (12.58) Figura 15. Rappresentazione grafica di 5 dati e della loro media aritmetica. In una distribuzione di frequenza raggruppata in classi, come valore rappresentativo di ogni classe è preso il dato centrale, nell’assunzione che, entro ogni classe, i dati siano distribuiti in modo uniforme. 39 La media armonica è la stima più corretta della tendenza centrale, per distribuzioni di dati in cui devono essere usati gli inversi. E’ utilizzata quando i valori di X sono espressi come rapporti di un totale costante od in misure di tempi di reazione. La media armonica è data da m n x h ii n= = ∑ 1 1 La media quadratica è la radice quadrata della media aritmetica dei quadrati: m x nq i i n = = ∑ 2 1 Sotto l'aspetto matematico può essere calcolata per valori positivi, nulli o negativi; ma essa ha senso come misura di tendenza centrale solamente se i valori sono positivi o nulli. E' un indice che trova applicazioni quando si analizzano superfici. 1.6.2 La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati. E’ una misura robusta, in quanto poco influenzata dalla presenza di dati anomali. La sua utilizzazione è indispensabile nel caso di scale ordinali o di ranghi. La sue caratteristiche più importante sono due: - è calcolata sul numero di osservazioni; si ricorre al suo uso quando si vuole attenuare l'effetto di valori estremi o comunque prendere in considerazione solo l’informazione fornita dai ranghi; - in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana. Come la media è la misura di tendenza centrale nella statistica parametrica, la mediana è la misura di posizione o tendenza centrale utilizzata in quasi tutti i test non parametrici. Per calcolare la mediana di un gruppo di dati, occorre 1 - disporre i valori in una fila ordinata in modo crescente oppure decrescente e contare il numero totale n di dati; 2 - se il numero (n) di dati è dispari, la mediana corrisponde al valore numerico del dato centrale, quello che occupa la posizione (n+1)/2; 40 3 – se il numero (n) di dati è pari, la mediana è stimata utilizzando i due valori centrali che occupano le posizioni n/2 e n/2+1; con poche osservazioni, come mediana viene assunta la media aritmetica di queste due osservazioni intermedie; con molte osservazioni raggruppate in classi, si ricorre talvolta alle proporzioni. ESEMPIO. Calcolare la mediana nella serie di 6 dati: 10,1 10,8 13,1 13,9 14,2 14,5 . Risposta: Il numero di osservazioni è pari e i due valori centrali sono 13,1 e 13,9; la mediana è individuata dalla loro media aritmetica e quindi è uguale a 13,5. Per meglio comprendere le differenze tra media aritmetica e mediana, con la stessa serie di 6 dati (10,1 10,8 13,1 13,9 14,2 14,5 ) in cui - la media è 12,85 e - la mediana 13,5 la rappresentazione grafica evidenzia come la media sia il baricentro della distribuzione e la mediana sia collocata tra i valori più addensati. 10 11 12 13 14 15 I I I I II 10.1 10.8 13.1 13.9 14.2 14.5 media (12.85) mediana 13.5 Figura 16. Rappresentazione grafica della media e della mediana di 6 dati. Nella precedente figura 16, il grafico mostra come, nel caso di dati distribuiti in modo non simmetrico, la mediana rappresenti in modo più adeguato della media l’addensamento dei dati, il valore “normale o tipico“ della serie. La media infatti è maggiormente influenzata dalla presenza dei due valori più distanti, che la allontanano dal gruppo dei valori più frequenti e la rendono diversa da essi. Se i due valori anomali fossero più vicini (o più lontani) rispetto agli altri 4, la media cambierebbe mentre la mediana rimarrebbe invariata. 41 1.6.3 La moda (detta più raramente anche dato prevalente) è il valore più frequente di una distribuzione. Essa non è influenzata dalla presenza di nessun valore estremo; tuttavia viene utilizzata solamente a scopi descrittivi, perché è meno stabile e meno oggettiva delle altre misure di tendenza centrale. Può infatti differire nella stessa serie di dati, quando si formano classi di distribuzione con ampiezza differente. Per individuare la moda entro una classe di frequenza, non conoscendo come i dati sono distribuiti, si ricorre all'ipotesi della uniforme ripartizione. Oltre alle distribuzioni di frequenza che hanno una sola moda e che si chiamano distribuzioni unimodali, si trovano distribuzioni di frequenza che presentano due o più mode; sono denominate distribuzioni bimodali o plurimodali. Le distribuzioni plurimodali possono essere il risultato della scarsità di osservazioni o dell’arrotondamento dei dati; di norma, sono dovute alla sovrapposizione di più distribuzioni con tendenza centrale differente. Per esempio, misurando le altezze di un gruppo di giovani in cui la parte maggiore sia formata da femmine e la minore da maschi si ottiene una distribuzione bimodale, con una moda principale ed una secondaria, come la seguente. 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 -3.98 -1.98 0.02 3.38 Figura 17. Distribuzione bimodale Quando la distribuzione dei dati evidenzia due o più mode, il ricercatore deve quindi sospettare che i dati non siano omogenei, ma formati da altrettanti gruppi con differenti tendenze centrali. E’ pertanto errato fondare le analisi sulla media generale della distribuzione, poiché non è vera l’assunzione fondamentale che siano dati tratti dallo stesso universo o popolazione con una sola tendenza centrale. 44 Come misure di posizione non-centrale, ma con finalità esclusivamente descrittive, sono spesso usati i quantili, chiamati anche frattili, in quanto ogni sottogruppo contiene la stessa frazione di osservazioni. Quelli più comunemente usati sono i decili, che classificano i dati ordinati in decine, ed i percentili, che li suddividono in centesimi. Con i quantili, si possono individuare quali sono i valori che delimitano, nel margine inferiore o superiore della distribuzione, una percentuale o frazione stabilita di valori estremi. Per esempio, nello studio dell'inquinamento, come di qualunque altro fenomeno, può essere utile vedere quali sono le zone o i periodi che rientrano nell’1, nel 5 o nel 10 per cento dei valori massimi o minimi. A valori così rari, facilmente corrispondono cause anomale, che di norma è interessante analizzare in modo più dettagliato. Nello studio di qualunque fenomeno biologico od ecologico, le misure particolarmente piccole o eccezionalmente grandi rispetto ai valori normali quasi sempre evidenziano cause specifiche, meritevoli di attenzione. Quando la forma della distribuzione è ignota o risulta fortemente asimmetrica, l'uso dei quantili fornisce indicazioni operative semplici e robuste per individuare i valori più frequenti, da ritenersi “normali” e quelli meno frequenti od “anomali”. Gli scarti dalla media sono la misura più appropriata della variabilità di un insieme di dati. Ma poiché la loro somma è sempre nulla per definizione, in quanto la media è il baricentro della distribuzione, è necessaria una trasformazione che potrebbe essere attuata in due modi: a) gli scarti assoluti dalla media; b) i quadrati degli scarti dalla media. 1.7.3 Lo scarto medio assoluto ( )Sm dalla media ( )x per dati semplici è dato da S x x nm i= −∑ e per raggruppamenti in classi è ottenuto con S x x n nm i i= − ⋅∑ dove - xi = valore dell’i-esimo dato in una distribuzione semplice, - x = valore centrale della classe in una distribuzione di frequenza, - n = numero totale di dati, - ni = numero di dati della classe i in una distribuzione di frequenza. 45 Un indice analogo, usato nelle discipline sociali ed economiche per valutare la diversità tra due distribuzioni di frequenze relative, è l’indice semplice di dissomiglianza (D) D = 2 1 21∑ = − k i ii ff dove 1 e 2 sono i due gruppi e k sono le classi. D è uguale a 0 quando le due distribuzioni di frequenza relativa sono identiche e uguale a 1 quando la prima distribuzione è tutta concentrata in una classe e l’altra distribuzione in una classe diversa. 1.7.4 In alcuni test di statistica non parametrica, come misura di dispersione è utilizzato lo scarto medio assoluto dalla mediana, che è la media degli scarti assoluti dei singoli dati dalla loro mediana; le formule sono uguali alle due precedenti, sostituendo la mediana alla media. E’ proprietà specifica della mediana rendere minima la somma degli scarti assoluti. Di conseguenza, lo scarto medio assoluto dalla mediana è sempre inferiore allo scarto medio assoluto dalla media; i due valori sono uguali solamente quando la distribuzione è simmetrica e quindi media e mediana coincidono. 1.7.5 La Devianza o Somma dei Quadrati (SQ) degli scarti dalla media (SS = Sum of Squares, in inglese) è la base delle misure di dispersione dei dati, utilizzate in tutta la statistica parametrica. Tutta la statistica parametrica è fondata sulla devianza e sulle misure da essa derivate. (1 ) ( ) ( )devianza SQ x xi= −∑ 2 L'equazione precedente è la formula di definizione od euristica. Spesso è poco pratica, in particolare quando la media è un valore frazionale, con vari decimali. Diviene allora conveniente ricorrere a un'altra formula, algebricamente equivalente, che permette di effettuare i calcoli manuali in tempi più brevi e con una sola approssimazione finale, chiamata formula empirica od abbreviata: (2) ( ) devianza SQ x x n ( ) = −∑ ∑2 2 dove: 46 - x2∑ = sommatoria dei valori dopo che ogni osservazione è stata elevata al quadrato, - ( )x∑ 2 = sommatoria di tutti i dati, elevata al quadrato, - n = numero di osservazioni sulle quali è stata calcolata la somma. ESEMPIO. Calcolare con la formula euristica (1) e con quella abbreviata (2) la devianza (SQ) dei 6 numeri seguenti: 5, 6, 7, 7, 8, 10. Risposta. 1. Con la formula euristica, si deve calcolare dapprima la media: x = + + + + + = =5 6 7 7 8 10 6 43 6 7 16, ed in seguito la devianza (SQ), intesa come Somma dei Quadrati degli scarti di ogni valore dalla media: ( ) 8356,140656,87056,00256,00256,03456,1665,4 )61,710()61,78()61,77()61,77()61,76()61,75( )( 222222 2 =+++++= =−+−+−+−+−+−= =−= ∑ xxSQdevianza i 2. Con la formula abbreviata, calcolare direttamente il valore della devianza (SQ), dopo aver fatto sia la somma dei dati precedentemente elevati al quadrato, sia il quadrato della somma dei dati, secondo l’annotazione algebrica seguente ( ) devianza SQ x x n ( ) ( ) , , = − = = + + + + + − = − = − = ∑ ∑2 2 2 25 36 49 49 64 100 43 6 323 1849 6 323 30816 14 84 I due valori della devianza spesso non risultano identici, in particolare quando stimati con più cifre decimali, a causa dell’approssimazione con la quale è calcolata la media, se non risulta un valore esatto. In questi casi, è da ritenersi corretta la stima fornita dalla formula abbreviata, che non richiede approssimazioni nei calcoli intermedi. E’ utile ricordare che, per distribuzioni di dati raggruppati in classi, la formula euristica diventa ( ) ii nxxSQdevianza 2)( ∑ −= 49 ESERCIZIO. Calcolare media, devianza, varianza e deviazione st. e errore st. di : 9 6 7 9 8 8. Risposta: media = 7,833; devianza = 6,8333; varianza = 1,367; deviazione st. = 1,169; errore standard = 0,477 Per l’uso della varianza, che sarà fatto nei capitoli dedicati all’inferenza, è importante comprendere che la varianza tra una serie di dati rappresenta una misura di mutua variabilità tra di essi. Essa può essere calcolata in tre modi: 1 - come la metà della media aritmetica del quadrato di tutti gli n(n-1)/2 scarti possibili tra coppie di osservazioni, 2 - mediante gli scarti tra i dati e la loro media, 3 - mediante la formula abbreviata. 1 - Il primo metodo utilizza gli scarti tra tutte le possibile coppie di dati; è una procedura molto lunga, che serve per comprendere il reale significato della varianza tra dati o tra medie: s x x f f n n i j i j j i J i J 2 2 11 1 1 2 1 2 = ⋅ − ⋅ ⋅ − = += − ∑∑ ( ) ( ) 2 - Il secondo metodo rappresenta la formula euristica, quella che definisce la varianza, come confronto con il valore medio: s x x f n j i j J 2 2 1 1 = − ⋅ − = ∑ ( ) 3 - Il terzo metodo è una delle varie versioni della formula abbreviata, quella che serve per semplificare i calcoli manuali e ridurre i tempi per il calcolo 50 s x f x f n n j j j j j n j n 2 2 1 2 1 1 = −       − = = ∑ ∑ ESEMPIO. Calcolare la varianza di 6 dati (5, 6, 7, 7, 8, 10) mediante le 3 formule proposte, per dimostrare empiricamente la loro equivalenza (ricordando che, in questo esempio, fi = 1). Risposta: 1. Utilizzando gli scarti assoluti (j - i) tra tutte le possibili coppie di dati, riportati nella matrice triangolare sottostante: j\i 5 6 7 7 8 10 5 0 6 1 0 7 2 1 0 7 2 1 0 0 8 3 2 1 1 0 10 5 4 3 3 2 0 si ottiene s2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 21 2 1 2 2 3 5 1 1 2 4 0 1 3 1 3 2 15 90 30 3= ⋅ + + + + + + + + + + + + + + = = 2. Mediante gli scarti dalla media ( X = 7 16, ) si ottiene s2 2 2 25 7 16 6 7 16 10 7 16 6 1 15 5 3= − + − + + − − = = ( , ) ( , ) ( , )L 3. Ricorrendo alla formula ridotta si ottiene 51 s2 2 2 2 2 6 10 43 6 6 1 323 308 16 14 83 5 2 96= + + + − − = − = = (5 ) , , , L 1.7.9 Il coefficiente di variazione (coefficient of variation oppure coefficient of variability) è una misura relativa di dispersione, mentre le precedenti erano tutte misure assolute. E' quindi particolarmente utile ricorrere ad esso, quando si intende confrontare la variabilità di due o più gruppi con medie molto diverse oppure con dati espressi in scale diverse. Consideriamo come esempio il confronto tra la variabilità di due specie animali con dimensioni medie sensibilmente diverse, come tra i cani e i cavalli. La varianza tra cavalli di razze diverse è superiore a quella esistente tra i cani, perché gli scarti assoluti dalla media della specie sono maggiori. Ma spesso il problema consiste nel fare un confronto relativo tra variabilità e dimensioni medie delle due specie; allora il rapporto tra il cane di dimensioni maggiori e quello di dimensioni minori risulta superiore a quello esistente nei cavalli. Il Coefficiente di Variazione (CV oppure semplicemente con V in molti testi recenti) misura la dispersione percentuale in rapporto alla media. Per una popolazione: 010CV ⋅      = µ σ dove − σ = deviazione standard della popolazione − µ = media della popolazione Per un campione: 010 CV ⋅     = X s dove - s = deviazione standard del campione - X = media del campione Quando è calcolato su dati campionari, in particolare se il numero di osservazioni è limitato, il coefficiente di variazione CV deve essere corretto di una quantità 1/4N, dove N è il numero di osservazioni del campione. Di conseguenza, il coefficiente di variazione corretto V’ diventa       += N CVCV 4 11' 54 Il coefficiente di variazione è un numero puro, svincolato da ogni scala di misura e dalla tendenza centrale del fenomeno studiato. Secondo molti, appunto perché un rapporto, avrebbe significato solamente se calcolato per variabili misurate con una scala di rapporti. Per il calcolo della varianza, le approssimazioni di segno opposto nelle due parti della media sono elevate al quadrato: di conseguenza, non si compensano, ma si sommano. In una popolazione con un numero molto alto di dati, la varianza calcolata dal raggruppamento in classi è sistematicamente maggiore di quella reale, quella calcolata direttamente dai dati originari. Le differenze crescono all'aumentare della misura dell'intervallo di ogni classe, poiché aumenta l’imprecisione. Pertanto si deve apportare una correzione, detta correzione di Sheppard, proposta appunto da W. F. Sheppard nel 1898 sulla rivista Proceeding London Mathematical Society e riportata in vari testi, tra cui Statistical Methods di George W. Snedecor e William G. Cochran (1967, Iowa State University Press). Consiste nel sottrarre alla varianza calcolata un valore pari a h2 12 per cui σ σ2 2 2 reale calcolata = h 12 − dove - h è l'ampiezza delle classi e - 12 è una costante. ESEMPIO. In una distribuzione di frequenza, in cui le classi hanno ampiezza costante con intervallo h = 10, è stata calcolata una varianza s2 = 50; la varianza corretta, quella che si sarebbe ottenuta utilizzando i singoli valori, secondo Sheppard dovrebbe essere σ2 2 reale = 0 1 12 5 0 50 8 33 41 66− = − =, , uguale a 41,66 come risulta dal calcolo mostrato. Questa relazione è ritenuta valida per le popolazioni. 55 Con campioni formati da pochi dati, non è facile, spesso non è possibile, verificare se la distribuzione sperimentale utilizzata rispetti le tre condizioni fissate da Sheppard per applicare la correzione: - essere continua; - avere un intervallo di ampiezza finito; - tendere a zero in modo graduale nelle due code della distribuzione. Quando si dispone solo di piccoli campioni, la correzione potrebbe essere non adeguata alla forma della distribuzione e determinare un errore maggiore. Di conseguenza, per piccoli campioni come quelli usati nella ricerca ambientale, la quasi totalità dei ricercatori preferisce non applicare questa correzione, ma usare direttamente la varianza calcolata dalla distribuzione di frequenza, in qualunque modo sia stato fatto il raggruppamento in classi. 1.8. INDICI DI FORMA: SIMMETRIA E CURTOSI Gli indici di forma di una distribuzione riguardano 2 caratteristiche: la simmetria e la curtosi. A differenza di quanto avvenuto nello studio della variabilità, nell'analisi della forma di una distribuzione statistica le misure elaborate sono rimaste rudimentali e le stesse definizioni sono sovente equivoche. Inoltre l’uso degli indici di forma non rientra nei test d’inferenza, ma è limitato alla semplice descrizione della forma della distribuzione. Nelle distribuzioni unimodali si ha simmetria quando media, moda e mediana coincidono; se la distribuzione è bimodale, possono essere coincidenti solamente la media aritmetica e la mediana. Di norma, le distribuzioni dei dati sono unimodali; pertanto, l’analisi della simmetria è accentrata su di esse. In una distribuzione, - l'asimmetria è detta destra (più correttamente, a destra) quando i valori che si allontanano maggiormente dalla media sono quelli più elevati, collocate a destra dei valori centrali (figura 19); nell’asimmetria destra, la successione delle 3 misure di tendenza centrale da sinistra a destra è: moda, mediana, media; - l'asimmetria è detta sinistra (o a sinistra) quando i valori estremi, quelli più distanti dalla media, sono quelli minori (figura 20). Nell’asimmetria sinistra, la successione delle 3 misure di tendenza centrale da sinistra a destra è invertita rispetto all'ordine precedente: media, mediana, moda. 56 Quando media, mediana e moda non coincidono, la distribuzione è asimmetrica; ma quando queste tre misure coincidono non sempre la distribuzione è simmetrica. Per avere una distribuzione simmetrica, la perfetta coincidenza delle tre misure di tendenza centrale è condizione solo necessaria, non sufficiente. Infatti, supponendo di analizzare una distribuzione come - 16 20 20 20 30 30 troviamo che - la media (140/7 = 20), - la mediana (su 7 valori è il 4° = 20) e - la moda (il valore più frequente è 20) sono coincidenti (20); ma, come si evidenzia dalla semplice lettura dei dati, la sua forma non è simmetrica poiché i dati non declinano in modo regolare ed identico dalla tendenza centrale verso i due estremi. Un altro metodo proposto per valutare la simmetria utilizza la distanza delle classi di frequenza dalla mediana: una distribuzione è simmetrica, se i valori che sono equidistanti dalla mediana hanno la stessa frequenza. Ma è possibile dimostrare che si tratta di una condizione che si realizza sia in distribuzioni unimodali che plurimodali; è quindi una definizione che non caratterizza la distribuzione simmetrica in modo biunivoco, non è vera esclusivamente in una distribuzione normale. I grafici di seguito riportati evidenziano la forma di una distribuzione simmetrica (Fig. 18), . 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 10 11 0 2 4 6 8 10 12 1 2 3 4 5 6 7 8 9 10 11 Figura 18. Distribuzioni simmetriche, con istogrammi e con poligoni 59 Per ottenere una misura del grado di asimmetria, che possa essere confrontato con quello di qualsiasi altra distribuzione in quanto indipendente dalle dimensioni delle misure, occorre utilizzare indici relativi, quali skewness di Pearson; γ1 di Fisher; β1 di Pearson. L’indice skewness di Pearson (sk) è un rapporto: la differenza (d) tra la media e la moda è divisa per la deviazione standard (σ) o scarto quadratico medio. Nel caso di una distribuzione campionaria, dove la deviazione standard è indicata con s, è sk d s = Come per il valore d precedente, sk può essere nullo, positivo o negativo secondo la forma della distribuzione. Essendo un rapporto tra misure statistiche della stessa distribuzione, è divenuto una misura adimensionale, indipendente dal valore assoluto degli scarti dalla media; quindi può essere utilizzato per il confronto tra due o più distribuzioni. Un altro indice di simmetria, proposto da A. L. Bowley nel 1920 ( vedi il testo Elements of Statistics, Charles Scribner’s Sons, New York), chiamato appunto Bowley coefficient e riproposto in alcuni programmi informatici, utilizza i quartili ( Skewness = 13 213 2 QQ QQQ − −+ dove - Q2 = valore della mediana o del secondo Quartile - Q1 = valore del primo quartile, - Q3 = valore del terzo quartile. Il valore ottenuto è uguale a zero se la distribuzione è perfettamente simmetrica, mentre è negativo o positivo in rapporto al tipo di asimmetria, in modo analogo alle formule precedenti. Anche la curtosi, la concavità della distribuzione di dati (più ampiamente spiegata nel prosieguo del paragrafo), può essere misurata con i quantili o meglio gli ottili, come proposto da J. J. A. Moors nel 1988 (nell’articolo A quantile alternative for kurtosis, su Statistician Vol. 37, pp. 25-32). 60 Il concetto di base è che la curtosi può essere interpretata come una misura di dispersione intorno ai due valori limite dell’intervallo σµ ± , con una misura alternativa a quella parametrica, che è fondata sul momento di quarto ordine. Quando si confrontano testi differenti, l’interpretazione della curtosi è controversa, poiché molti la descrivono come un eccesso o un difetto di valori solo nella classe centrale, mentre la differenza dalla normale riguarda più punti. Utilizzando i quantili o meglio gli ottili (indicati ovviamente con E nel testo in inglese), si ottiene T = ( ) ( ) 26 5713 EE EEEE − −+− dove - E1 è la metà di un quartile, cioè il valore che occupa il 12,5 percentile, - E2, E3, … sono multipli di esso, fino a E7 corrispondente al 87,5 percentile. Figura 23. Grafico degli ottili Dal grafico risulta con evidenza come i due termini del numeratore, (E3 – E1) e (E7 – E5), valutano la concentrazione di dati intorno a E6 e E2, corrispondenti ai punti σµ ± . L’indice T è analogo alle misure di dispersione e simmetria più familiari fondate sui quantili e offre gli 61 vantaggi simili; inoltre esclude i valori estremi e quindi è più robusto dell’indice parametrico fondato sui momenti.. Il denominatore (E6 e E2) è una costante di normalizzazione, che garantisce l’invarianza dell’indice T, nel caso di trasformazioni lineari (Vedere capitolo sulle trasformazioni). Per distribuzioni che sono simmetriche intorno a 0, la formula precedente può essere semplificata in T = 6 57 E ER − Gli indici relativi della forma di una distribuzione attualmente più diffusi sono derivati dai momenti. I momenti (m) di ordine k rispetto ad un punto c sono calcolati con ( ) m x c nk i k = −∑ per una serie di dati e con ( ) m x c f nk i k i= − ⋅∑ per una distribuzione di frequenza suddivisa in classi. Abitualmente, con c si indica l'origine (c = 0) oppure la media (c = media). Nel primo caso, si parla di momento rispetto all'origine; nel secondo, di momento centrale. Il momento di ordine 1 (k = 1) rispetto all'origine dei valori (c = 0) è la media; il momento centrale (c = m) di ordine 1 (k = 1) é uguale a 0 (è la somma degli scarti dalla media). Il momento centrale (c = m) di ordine 2 (k = 2) è la varianza. Nello stesso modo del momento centrale di secondo ordine (m2), si possono calcolare i momenti centrali di ordine terzo (m3), quarto (m4), quinto (m5),...ennesimo (mn). I momenti centrali di ordine dispari (m3, m5,...) sono utilizzati per indici di simmetria. Essi sono nulli per distribuzioni simmetriche e differiscono da zero quando le distribuzioni non sono simmetriche; quanto maggiore è l'asimmetria, tanto più il valore del momento centrale di ordine dispari è grande. Inoltre, in distribuzioni con asimmetria destra ha un valore positivo ed in quelle con asimmetria sinistra ha un valore negativo. 64 L'indice γ 2 di Fisher è fondato sul rapporto γ σ2 4 4= m Se la distribuzione è perfettamente normale, il risultato del calcolo è uguale a 3; è maggiore di 3 se la distribuzione è leptocurtica, mentre è minore di 3 se la distribuzione è platicurtica. Per spostare la variazione attorno allo 0, l'indice di curtosi di Fisher è scritto come γ σ2 4 4 3= − m Ovviamente, il risultato diviene 0, se la distribuzione è normale o mesocurtica, positivo, se la distribuzione è leptocurtica o ipernormale, negativo, se la distribuzione è platicurtica o iponormale Mentre l’indice γ1 può variare tra ± ∞, l’indice γ2 può variare tra - 2 e + ∞; non è quindi possibile associare ad esso una gradazione in valore assoluto che valuti l’intensità della curtosi. Come già precedentemente discusso, le condizioni che γ1 e γ2 = 0 sono necessarie ma non sufficienti, affinché la curva sia simmetrica e mesocurtica. L'indice ß2 di Pearson è il rapporto fra il momento centrale di quarto ordine e la deviazione standard, elevato alla quarta potenza: β σ2 4 4 m = Il suo legame con γ2 di Fisher è semplice, di tipo lineare: β γ2 2 3= + Come l'indice γ2 varia attorno a 0, ß2 varia attorno a 3. Tutti gli indici presentati, dalle misure di tendenza centrale a quelle di dispersione e di forma, sono validi sia per variabili discrete che continue, con l'ovvia approssimazione data dal raggruppamento in classi. 65 Quando simmetria e curtosi sono stimate non sulla popolazione (γ1 e γ2) ma su un campione (quindi indicate con i corrispondenti simboli latini g1 e g2), g1 in valore assoluto tende a sottostimare γ1 ( |g1| < |γ1| ); infatti è possibile dimostrare che, in un campione di dimensioni n, non supera il valore della radice di n ng ≤1 Problemi simili esistono per la stima di γ2 in piccoli campioni con forte curtosi. I limiti di g2 sono Ng n n ≤≤ − −− 23 )1(2 Con dati campionari, simmetria e curtosi sono ovviamente calcolati da distribuzioni di frequenza raggruppate in classi. Definendo - k = numero di classi di frequenza - fi = frequenza della classe i, - ix = valore centrale della classe i - x = media generale del campione - s = deviazione standard del campione e da essi avendo ricavato ( )∑ ∑ = −= k i ii xxfx 1 33 e ( )∑ ∑ = −= k i ii xxfx 1 44 si calcola g1 con ( ) ( ) 3 3 1 21 snn xn g ⋅−⋅− ⋅ = ∑ e g2 con ( ) ( ) ( ) ( ) ( ) ( ) ( )32 13 321 1 2 4 4 2 −⋅− −⋅ − ⋅−⋅−⋅− ⋅⋅+ = ∑ nn n snnn xnn g I valori di g1 e g2 sono adimensionali: in altri termini, il risultato è identico, qualunque sia la misura utilizzata o la trasformazione applicata alla variabile X. 66 Alla fine del capitolo 10 sono riportati i test proposti da Snedecor e Cochran sul loro testo Statistical Methods, per valutare la significatività di g1 e g2 in campioni di grandi dimensioni (oltre 100 dati). 1.9. ACCURATEZZA, PRECISIONE E SCELTA DEL NUMERO DI CIFRE SIGNIFICATIVE Un conteggio di poche unità fornisce una misura precisa: con alta probabilità, la sua ripetizione determina lo stesso valore. Un conteggio ripetuto di un campione grande, formato da varie centinaia o migliaia di unità, difficilmente conduce allo stesso risultato, per la frequenza con la quale si commettono errori. D’altronde tale conteggio non è sostanzialmente modificato, se gli individui risultassero 15.612 oppure 15.623. Quando si utilizza una scala continua, cioè da uno strumento si ricava la misura di una lunghezza o di un peso, quasi sempre la ripetizione conduce a valutazioni differenti. Inoltre, a causa della variabilità biologica ed ambientale, se effettuate su più individui e non determinate con troppa approssimazione, queste misure non conducono mai a risultati identici. Quando si dispone di misure ripetute, la distribuzione dei valori può essere rappresentata e quantificata con gli indici di statistica descrittiva già presentati. Essi servono per rispondere a due domande: - Quale è il valore reale del fenomeno? - Come descrivere la variabilità del fenomeno o l’errore commesso nella sua misura? Al momento della raccolta dei dati, occorre quindi tenere presente che i valori devono essere misurati con la precisione utile per fornire una risposta accurata alle due domande precedenti. E’ ovvio che quando la misura è approssimata, come il peso di una persona che sia arrotondato al chilogrammo, è impossibile valutare l’errore di una bilancia, se esso è limitato a uno o al massimo due ettogrammi. Nello stesso modo, ma simmetricamente, è assurdo pretendere misure precise al grammo con una bilancia pesa – persone. Tale concetto è insito nella convenzione con la quale i dati sono espressi. Se si afferma che un individuo pesa 68 Kg., non si intende dire che è esattamente Kg. 68,000 (cioè 68.000 gr), ma un valore compreso tra Kg. 67,5 e 68,5 o, se si vuole una misura più precisa, tra Kg. 67,50 e 68,49. Sulla base dello stesso principio, se si scrive che quell’individuo è alto 1,71 metri, si intende affermare un valore con approssimazione al centimetro; quindi che egli varia tra mm. 1705 e 1715 (o meglio 1,7149). 69 Nella figura D le misure sono non accurate (biased) e con poco precise (low precision). Un valore può essere preciso ma inaccurato. Un esempio didattico riportato in alcuni testi, applicato a una misura bidimensionale, è il tiro ad un bersaglio con un’arma, dove la media delle varie prove permette di misurarne l’accuratezza e la loro variabilità la precisione. Se tutti i colpi centrano esattamente il bersaglio o sono molto vicini a esso, con media esattamente sul centro, si ha accuratezza (il fucile è tarato esattamente per le caratteristiche visive di chi spara) e precisione (il tiratore è abile). Se i colpi sono tutti nello stesso posto, ma lontani dal centro del bersaglio, si ha inaccuratezza o misure biased, ma precisione. Il fucile è tarato male, ma il tiratore sa sparare. Se i colpi sono molto dispersi intorno al bersaglio e la loro media coincide con quella del centro, si ha accuratezza ma bassa precisione: il fucile è tarato esattamente, ma il tiratore non sa sparare con precisione (ad esempio, gli trema la mano). Se i colpi formano una rosa molto ampia e la loro media è distante dal centro, si ha inaccuratezza e bassa precisione: lo strumento è biased e l’individuo non sa usarlo correttamente. Per valutare in modo appropriato questi due fenomeni, soprattutto la dispersione o variabilità dei dati, è importante che le misure raccolte abbiano un numero di cifre significative che sia adeguato. E’ un concetto sfumato, per la soluzione del quale sono state proposte varie metodologie, che si fondano sulla variabilità delle misure campionarie. Il testo di Krebs già citato, sia nella prima edizione del 1989 (pubblicato da Harper Collins) sia nella seconda del 1999 (pubblicata da Benjamin/Cummings), riporta due metodi A - il primo attribuito a Sokal e Rohlf, B - il secondo a Barford. che non forniscono risultati identici. Il secondo è giudicato più conservativo, cioè induce a raccogliere misure con un numero minore di cifre significative. A - Il metodo di Sokal e Rohlf, proposto sia nel loro testo del 1981 (Biometry, edito da W. H. Freeman, San Francisco) che nella edizione del 1995 (Biometry, editi da W. H. Freeman and Co., New York), non ha alcuna base teorica ma è fondato solo sull’esperienza. Secondo alcuni autori si richiama al buon senso statistico, che ovviamente possono avere solo persone con esperienza. Secondo altri, più critici, è una indicazione a “lume di naso”; ma questi autori non hanno formulato proposte migliori. 70 R. R. Sokal e F. J. Rohlf affermano che, tra la misura minore e quella maggiore, il numero di valori possibili dovrebbe variare tra 30 e 300. Per ottenere questo risultato, è sufficiente che il campo di variazione (range) delle misure da effettuare sia diviso prima per 30 e poi per 300. Ad esempio, per misurare l’altezza di un gruppo di giovani, dove è noto che il fenomeno varia approssimativamente da 150 a 200 cm, - dopo aver determinato il range o campo di variazione range = valore massimo – valore minimo 50 = 200 - 150 - si ricavano il livello minimo di misurazione con il rapporto livello minimo di misurazione = range / 30 livello minimo di misurazione = cm. 50 / 30 = cm. 1,67 dove essa risulta uguale a cm. 1,67 - e il livello massimo di misurazione con il rapporto livello massimo di misurazione = range / 300 livello massimo di misurazione = cm. 50 / 300 = cm. 0,167 dove essa risulta uguale a cm. 0,167. In termini semplici, quasi banali, è possibile affermare che in questa ricerca il livello di misurazione può variare tra un minimo di circa 1,5 cm. e un massimo di circa 2 mm. Poiché è conveniente ottenere circa 50 valori differenti, un numero compreso nell’intervallo tra 30 e 300, il livello di misurazione può essere il cm. Ma sarebbe ugualmente accettabile volere 100 misure differenti, cioè l’approssimazione a cm 0,5. Invece, se la misurazione avesse come unità 2 cm o peggio ancora 5 cm, si otterrebbero rispettivamente solo 25 e 10 possibili valori differenti, un numero troppo basso. All’opposto, misure che rilevino il mm determinerebbero 500 possibili valori, un numero eccessivamente alto. ESEMPIO. Qual è il numero di cifre significative per effettuare misurazioni di un fenomeno che varia approssimativamente da gr. 3 a 5? Risposta. Il campo di variazione è range = gr. 5 – gr. 3 = gr. 2 uguale a gr. 2. Il livello minimo di misurazione è livello minimo di misurazione = gr. 2 / 30 = gr 0,0667 71 uguale a gr.0,067 mentre il livello massimo è livello massimo di misurazione = cm. 2 / 300 = cm. 0,0067 uguale a gr. 0,0067. In altri termini, - con un solo decimale potrei avere solo 20 valori differenti: è un numero troppo basso; - con due decimali 200 valori, cioè un numero compreso tra 30 e 300; - con tre cifre 2000 valori: un numero troppo alto. In conclusione, la misura corretta dovrebbe valutare il centesimo di grammo; se il numero appare eccessivo per la precisione dello strumento è possibile accettare una misura approssimata a due centesimi (corrispondente a 100 possibili valori differenti) o al massimo a 5 centesimi di grammo (corrispondenti a 40 valori). B - Il metodo proposto da N. C. Barford nel suo testo del 1985 (Experimental Measurements: Precision, Error and Truth. John Wiley & Sons, New York) è fondato sulla stima dell’errore standard (che misura la dispersione delle medie di n dati). Poiché l’accuratezza relativa dell’errore standard (relative accuracy of standard error) può essere determinata, in modo approssimato, sulla sola base del numero di dati (n) che si vogliono raccogliere Accuratezza relativa di es 2 1 − ≅ n una volta che sia stata effettuata una misurazione pilota dell’errore standard è possibile stimare l’intervallo di variazione dell’errore probabile dell’errore standard (range of probable error of the standard error) attraverso la relazione Errore probabile dell’errore standard = (es) • (accuratezza relativa di es) Da esso si ricava il campo di variazione probabile dell’errore standard e si deduce logicamente il numero di cifre significative. Riprendendo l’esempio di Krebs, se - si intendono determinare 100 misure (n = 100), - e, con uno studio pilota, sono state stimate sia la media del campione ( x = 173,86 mm), - sia la sua deviazione standard (s = 12,26) 74 Dopo aver ordinato gli n dati in modo crescente, ottenendo 1, 2, 4, 7, 50, 51, un primo metodo richiede di 1 - Calcolare R, che è dato da R = ((n - 1) • Px) + 1 Con n = 6 dati e Px supposto uguale al 3° quartile, (3/4 oppure 75/100, espresso nell’intervallo 0-1) e quindi Px = 0,75 R = ((6 - 1) • 0,75) + 1 = 3,75 + 1 = 4,75 si ottiene R = 4,75. Il valore di R (che nell’esempio è uguale a 4,75) indica che il quantile da stimare si trova tra il 4° e il 5° valore nella serie ordinata dei dati ed esattamente nella posizione 0,75 della distanza tra i valori di rango 4 e rango 5. Per l’individuazione di tale valore, il metodo qui presentato (valido anche per la mediana con Px = 0,5) chiede ulteriori passaggi, quali 2 – Prendere I, la parte intera di R, I = Int ( R ) per cui, nell’esempio, I = Int (4,75) = 4 I risulta uguale a 4. 3 – Calcolare D per differenza tra R e I D = R - I che, sempre con i 6 dati dell’esempio D = 4,75 – 4 = 0,75 risulta uguale a 0,75. 4 – Individuare nella serie ordinata dei dati X(I) e X(I+1) cioè (con I = 4) i valori che occupano il rango 4° e 5°, per cui, con i dati dell’esempio, X(4) = 7 e X(5) = 50 5 - La stima del quantile (Q) è determinata dalla relazione = (1 - D) • X(I) + D • X(I +1) Con i dati dell’esempio, il 3° quartile (Q0,75) è Q0,75 = (1 – 0,75) x 7 + 0,75 x 50 = 1,75 + 37,5 = 39,25 uguale a 39,25. 75 Dopo aver calcolato che il quantile (Q0,75) desiderato si trova in posizione 4,75 su 6 dati, una variante del primo metodo appena descritto è fondata sull’interpolazione lineare a 0,75 tra il valore che occupa il 4° rango (X(4) = 7) e quello che occupa il 5° rango (X(5) = 50). Dopo averne stimato la differenza d d = X(I+1) – X(I) = 50 - 7 = 43 si calcola la quota dovuta alla proporzione P (0,75) che eccede il rango I mediante la proporzione P = 43 x 0,75 = 32,25 e viene sommata al valore del rango I Q0,75 = 7 + 32,25 = 39,25 per ottenere un valore (39,25) uguale al precedente. Un secondo metodo calcola il quantile Px mediante la relazione Rx = n • Px + 0,5 per cui il 75° percentile o terzo quartile con n = 6 dati è R0,75 = 6 x 0,75 + 0,5 = 5,0 esattamente il 5° valore. Con i 6 dati dell’esempio precedente Q0,75 risulta uguale a 50. Per la quota eccedente l’intero I, quando esiste, si può usare l’interpolazione come calcolata prima, fra il valore X(I) e X(I+1). Altri autori, con un terzo metodo, definiscono il valore Qx del quantile Px nei termini della relazione Rx = Px• (n + 1) per cui il 75° percentile o terzo quartile con n = 6 dati è Rx = 0,75 x (6 + 1) = 5,25 il valore che occupa la posizione 5,25. Di conseguenza Q0,75 può essere stimato per interpolazione, tra il 5° e il 6° valore, risultando Q0,75 = 50 + 0,25 (51 – 50 ) = 50,25 uguale a 50,25. 76 Anche questo metodo presenta varianti, fondate sulla logica di non voler stimare un valore che pretende di essere molto più preciso di quanto siano oggettivamente i dati: - una prima è l’arrotondamento all’intero più vicino, per cui è il 5° valore e Q0,75 risulta uguale a 50, una seconda è l’interpolazione come media tra i due valori, calcolando quindi Q0,75 uguale a 50,5. Anche il primo metodo, al quale ricorrono vari programmi informatici a grande diffusione, presenta inconvenienti logici, come evidenzia l’esempio seguente. Le misure dell’inquinamento idrico spesso sono fornite come medie mensili; in Italia spesso manca il dato di agosto, coincidente con il mese di ferie. Calcolare il 9° decile della serie di 11 valori 12, 10, 8, 7, 14, 27, 29, 21, 14, 11, 9 Dopo aver ordinato per rango i valori 7, 8, 9, 10, 11, 12, 14, 14, 21, 27, 29 il 90° percentile R0,9 = (11 – 1) x 0,9 + 1 = 9 + 1 = 10 risulta il 10° valore, per cui Q0.9 è uguale a 27. Se è corretto che la mediana o R0,5 sia uguale esattamente al sesto valore, è indubbiamente una stima approssimata che tutti i decili da 1 a 9, come indicano i calcoli, risultino esattamente i valori che occupano le posizioni dalla seconda alla decima. E’ utile ricordare quanto affermato da Peter Armitage e Geoffry Berry (in Statistica Medica, metodi statistici per la ricerca in medicina, 3a edizione, in italiano, McGraww-Hill Libri Italia srl, Milano 1996, a pag. 33): - ” Si noti che non esiste un’unica procedura standard nel calcolo dei quartili (e dei quantili). Le diverse convenzioni conducono, comunque, a piccole e insignificanti differenze tra i risultati finali”. Con eccezione della sola mediana, non appare possibile definire quale sia il metodo migliore. Le differenze tra i diversi risultati, come nel caso di dati fortemente anomali, possono anche essere di quantità rilevanti, contrariamente a quanto affermato da Armitage; ma è un’incertezza insita nella variabilità delle osservazioni campionarie e nel numero limitato di osservazioni. Di conseguenza, - è evidente la difficoltà di pervenire a conclusioni generali e condivise, attraverso analisi fondate sui quantili. 79 Servono per rappresentare visivamente quattro caratteristiche fondamentali di una distribuzione statistica di dati campionari: 1 - la misura di tendenza centrale, attraverso la mediana e/o la media; 2 - il grado di dispersione o variabilità dei dati, rispetto alla mediana e/o alla media; 3 – la forma della distribuzione dei dati, in particolare la simmetria; 4 – sia la semplice presenza che l'individuazione specifica di ogni valore anomalo o outlier. Secondo il metodo proposto da Tukey nel 1977, riportato nella figura precedente con i termini in italiano, un diagramma Box-and-Whisker o boxplot è costruito a fianco di una scala, che riporta le modalità o i valori del carattere. La sua realizzazione richiede una serie di passaggi logici, che può essere riassunta in uno schema composto da 8 punti, dalla quali derivano gli elementi metodologici: 1 - Ha origine da una linea orizzontale, interna alla scatola, che rappresenta la mediana (median). 2 - La scatola (box) è delimitata da due linee orizzontali: - la linea inferiore, indicata con Q1, che rappresenta il primo quartile o quartile inferiore (lower quartile oppure più raramente lower fourth); - la linea superiore, indicata con Q3, che rappresenta il terzo quartile o quartile superiore (upper quartile o più raramente upper fourth). Quartiles e fourths nel linguaggio di Tukey non sono esattamente sinonimi: i fourths sono quartili approssimati, che segnano i limiti del box. Ma sono distinzioni spesso ignorate, nel linguaggio scientifico più diffuso nella statistica applicata. 3 - La distanza tra il terzo (Q3) e il primo quartile (Q1), detta distanza interquartilica (interquartile range o IQR), è una misura della dispersione della distribuzione. E’ utile soprattutto quando sono presenti valori anomali, poiché - tra il primo e il terzo quartile (Q3 - Q1) per costruzione sono compresi il 50% delle osservazioni collocate intorno al valore centrale. Un intervallo interquartilico piccolo indica che la metà delle osservazioni ha valori molto vicini alla mediana. L’intervallo aumenta al crescere della dispersione (varianza) dei dati. Inoltre, esso fornisce informazioni anche sulla forma della distribuzione (soprattutto sulla simmetria): - se la linea inferiore e la linea superiore della scatola (cioè Q1 e Q3) hanno distanze differenti dalla mediana, la distribuzione dei valori è asimmetrica. 80 4 - Le linee che si allungano dai bordi della scatola e che si concludono con altre due linee orizzontali, i baffi (whiskers), delimitano gli intervalli nei quali sono collocati - i valori minori di Q1 (nella parte inferiore) - e quelli maggiori di Q3 (nella parte superiore). Questi punti estremi, evidenziati dai baffi, in italiano spesso sono chiamati valori adiacenti. 5- Indicando con r la differenza interquartilica 13 QQr −= si definiscono le quantità che individuano - il Valore Adiacente Inferiore (VAI), definito come il valore osservato più piccolo che sia maggiore o uguale a Q1 - 1,5r: VAI ≥ Q1 - 1,5r - il Valore Adiacente Superiore (VAS) definito come il valore osservato più grande che risulta minore o uguale a Q3 + 1,5r: VAS ≤ Q3 + 1,5r Una attenzione particolare deve essere posta alla quantità 1,5 delle due formule, per calcolare il VAI e il VAS. E’ stato proposto da Tukey, ma non ha particolari proprietà. Alla domanda del perché avesse indicato 1,5 e non un altro valore, la risposta di Tukey è stata che la sua scelta era fondata sulla sua esperienza, sul suo “buon senso” statistico. 6 - Se i due valori estremi sono contenuti entro l’intervallo tra VAI e VAS, i due baffi rappresentano i valori estremi e nei dati raccolti non sono presenti valori anomali. 7 - I valori esterni a questi limiti sono definiti valori anomali (outliers). Nella rappresentazione grafica del box-plot, gli outliers sono segnalati individualmente, poiché - costituiscono una anomalia importante rispetto agli altri dati della distribuzione - e nella statistica parametrica il loro peso sulla determinazione quantitativa dei parametri è molto grande. I valori che - si discostano dalla mediana tra 1,5 e 3 volte la distanza interquartile possono essere considerati nella norma, 81 - mentre quelli che si discostano oltre 3 volte la distanza interquartile dovrebbero essere molto rari e meritano una verifica ulteriore, per distinguere con sicurezza gli outliers da quelli che possono essere stati determinati da banali errori di misura o di trascrizione. Gli ipotetici outlier dovrebbero essere sempre verificati, per capire le cause che li hanno determinati e quindi apportare le eventuali correzioni, se si trattasse di errori effettivi. 8 - Anche i due valori adiacenti (VAI e VAS), con la loro distanza dai quartili Q1 – VAI e VAS – Q3 forniscono informazioni - sia sulla variabilità dei dati sia sulla la forma della distribuzione. Se la distribuzione è normale, - nel box-plot le distanze tra ciascun quartile e la mediana saranno uguali - e avranno lunghezza uguale le due linee che partono dai bordi della scatola e terminano con i baffi. In una distribuzione normale, i due baffi (whiskers) distano dalla mediana (me) una quantità pari a 2,69796 volte la deviazione standard (σ). Questo intervallo comprende il 99,3% delle osservazioni e per valori estremi ha σ⋅± 69796,2me I diagrammi Box-and-Whiskers hanno avuto una serie di adattamenti e evoluzioni. Tra le versioni più diffuse nei programmi informatici internazionali, sono da ricordare due tipi: - quelli che impiegano la mediana come valore di tendenza centrale ed utilizzano la distribuzione dei quartili o dei percentili e si rifanno al modello descritto; - quelli che riportano la media, insieme con l’errore standard e la deviazione standard. I primi forniscono una descrizione non parametrica della forma della distribuzione, evidenziando dispersione e simmetria. I secondi rappresentano indici parametrici, presupponendo una distribuzione normale. Essi evidenziano sia la dispersione dei dati sia quella della media campionaria (questi argomenti saranno trattati in modo dettagliato quando si discuterà l’intervallo fiduciale o di confidenza). Nei due Box-and-Whisker della figura 28, il valore di riferimento centrale è la mediana, la scatola delimita il primo ed il terzo quartile, mentre i baffi individuano il valore minimo e quello massimo. Le due distribuzioni non sono perfettamente simmetriche: la loro mediana non è equidistante dal 1° e dal 3° quartile, individuato dall’altezza della scatola, né dal valore minimo e massimo, rappresentato dai baffi. 84 il Box-and Whiskers Plot risulta Figura 30. Box-and-Whishers Plot non parametrico Per la sua costruzione, la serie di passaggi logici è: 1 - Dopo aver ordinato i valori in modo crescente, allo scopo di semplificare le operazioni richieste dal metodo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 18 27 34 52 54 59 61 68 78 82 85 87 91 93 100 2 - si identifica la mediana che, su 15 dati, è esattamente l’ottavo valore: Mediana = 68 3 – Considerando solo la prima metà, i sette valori minori della mediana, si individua la loro nuova mediana, che rappresenta il primo quartile ( 1Q ) o quartile inferiore (lower quartile, lower fourth); con 7 dati, 18 27 34 52 54 59 61 è esattamente il quarto valore: 85 Primo quartile = 52 4 – Considerando solo la seconda metà, i sette valori maggiori della mediana, si individua la loro nuova mediana, che rappresenta il terzo quartile ( 3Q ) o quartile superiore (upper quartile, upper fourth): anche negli altri 7 dati 78 82 85 87 91 93 100 è esattamente il quarto valore Terzo quartile = 87 La scelta della mediana e dei due quartili è stata semplice poiché i dati utilizzati sono sempre risultati dispari: se fossero stati pari, come nel caso seguente 78 82 85 87 91 93 la mediana relativa sarebbe caduta tra il terzo valore (85) e il quarto (87); quindi identificata dalla loro media: 86. 5 – Dalla differenza tra il terzo e il primo quartile si ricava la distanza interquartile (interquartile range o IQR) distanza interquartile (IQR) = 87 – 52 = 35 6 – Infine di individuano i due estremi: - il valore minimo o estremo inferiore (lower estreme) è 30; - il valore massimo o estremo superiore (upper extreme) è 100. C – LINE PLOT Un secondo tipo di rappresentazione semigrafica è il diagramma a linee o line plot, in italiano più frequentemente chiamato diagramma a barre. Esso rappresenta il modo più facile e immediato per organizzare i dati. La sua costruzione è molto semplice: 86 - la linea orizzontale rappresenta i valori rilevati, riportati in modo completo e ordinati dal minore al maggiore; - ogni valore rilevato è individuato da una X, riportato in corrispondenza del valore rappresentato sull’asse orizzontale; il numero di X corrispondente a ogni punteggio indica quante volte un valore compare tra quelli rilevati. ESEMPIO 2. Dai seguenti 30 valori 58 30 37 34 36 40 35 49 54 39 47 47 50 54 48 47 35 40 38 47 48 34 40 46 49 47 35 48 47 46 per costruire il line plot Figura 31. Line plot della tabella precedente si richiede la serie di passaggi logici seguente: 1 – dopo aver ordinato i dati per rango 30 34 34 35 35 35 36 37 38 39 40 40 40 46 46 47 47 47 47 47 47 48 48 48 49 49 50 54 54 58 2 – si conta quante volte compare ogni valore, compreso tra il minimo e il massimo. Minimo e massimo del grafico, allo scopo di descrive un intervallo completo, possono iniziare prima del valore più basso e terminare dopo il valore più alto tra quelli che sono stati effettivamente osservati. 89 6,7 8,5 8,7 8,8 9,1 9,1 9,3 10,2 10,2 10,3 10,5 10,5 10,9 11,2 11,4 11,5 11,7 11,7 11,7 12,8 13,2 13,3 13,5 14,0 14,1 14,2 20,0 20,5 21,5 22,0 Per costruire un diagramma stem-and leaf è utile seguire alcuni passaggi logici e metodologici. 1 - Dapprima nei valori rilevati si devono individuare le cifre che formano gli stem e i valori che formano le leaf: - i primi sono quelli che danno una misura approssimata del fenomeno, in questo caso, la parte intera del valore rilevato; - i secondi sono quelli che rendono la stima più precisa, in questo caso i valori decimali, poiché ne è stato rilevato solamente uno. 2 – Successivamente, i valori stem sono ordinati modo crescente lungo un’asse verticale, riportando anche le classi vuote. 3 – Le cifre che formano le leaf sono riportate in ordine crescente lungo l’asse orizzontale, costruito lateralmente ai valori stem. La disposizione dei numeri assume la forma della figura successiva, che ha l’aspetto grafico di una tabella: Stem Leaf 6 7 7 8 5 7 8 9 1 1 3 10 2 2 3 5 5 7 11 2 4 5 7 7 7 12 8 13 2 3 5 14 0 1 2 15 16 17 16 18 20 0 5 21 5 22 0 90 E’ una specie di istogramma il cui l’asse delle ascisse è verticale e quello delle ordinate, nel quale sono riportate le frequenze, è orizzontale. Rispetto ad esso, spesso è caratterizzato da un numero di classi differente da quello richiesto per un istogramma corretto. Nella costruzione di un stem-and-leaf abitualmente non si pone particolare attenzione a questo aspetto, che invece è di importanza rilevante nell’istogramma, che dovrebbe assumere forma normale. In questa rappresentazione grafica, - l’altezza di ogni classe è fornito dal numero di decimali riportati di fianco alla parte intera, che corrisponde al totale delle leaves rilevati per lo stesso stem. La lettura dettagliata della rappresentazione semigrafica riportata nella pagina precedente permette di ricavare varie informazioni, che è utile elencare in modo dettagliato: 1 - l’intervallo di variazione del fenomeno: da 6 a 22; 2 - gli stem modali: i valori 10 e 11; 3 - la mediana: tra 10,5 e 10,7 trattandosi di 30 dati (quindi un numero pari); 4 - i quantili più utili ad una descrizione dettagliata: l’80% dei valori è compreso tra 8,7 (il 10° percentile) e 20,5 (il 90° percentile); 5 - la forma della distribuzione: fortemente asimmetrica a destra (nei valori alti) e forse bimodale; 6 - la presenza di outliers (valori anomali rispetto alla distribuzione; se essi distano molto dagli altri stem, non è necessario riportare tutti i valori stem intermedi); 7 - la precisione con la quale i dati sono stati rilevati: gli ultimi 4 valori sembrano arrotondati alla mezza unità (terminano infatti con 0 e 5), mentre i primi sembrano stimati con una precisione al decimale (sono infatti presenti tutti i valori da 1 a 9). La costruzione di un diagramma stem-and-leaf deve essere adattata alle dimensioni del campione e alle caratteristiche dei dati raccolti. Ad esempio, sempre nella misura della qualità dell’aria, i valori guida o livelli di attenzione sono da 100-150 mcg/mc come valore medio di 24 ore per SO2. Le misure possono quindi essere approssimate all’unità; di conseguenza, gli stem possono essere indicati dalle decine e le leaf dalle unità. Se i dati sono stati raccolti con troppa approssimazione, ad esempio i dati di CO rilevati con arrotondamento dell’unità, non è più possibile costruire un diagramma come quello presentato. Non sempre a posteriori è possibile costruire questo diagramma. Simmetricamente, se i dati sono raccolti con precisione eccessiva rispetto alla loro variabilità, ad esempio i valori di CO alla seconda cifra decimale, risulta necessario arrotondarli. 91 Gli esempi seguenti, sono tratti da indicazioni dei manuali di programmi informatici accessibili gratuitamente in internet. ESEMPIO 4. Con la seguente serie di dati 23 12 6 19 7 10 15 12 25 21 costruire lo stem-and-leaf: Stem Leaf 0 6 7 1 0 2 2 5 9 2 1 3 5 ESEMPIO 5. Con la seguente serie di dati 8 9 3 7 2 0 4 0 1 3 5 9 5 7 9 costruire lo stem-and-leaf: STEM LEAF 0(0) 0 0 1 2 3 3 4 0(5) 5 5 7 7 8 9 9 9 Quando gli stem sono pochi, per ottenere una distribuzione di frequenza che riesca a descrivere almeno le caratteristiche più importanti della distribuzione di frequenza, è possibile e vantaggioso raddoppiarli, come è stato fatto in questo grafico. Poiché gli intervalli degli stem sono uguali, le leaf hanno uguali possibilità di cadere nei due stem. ESEMPIO 6. Con la seguente serie di dati 94 I tre metodi sono anche utili indicazioni di come è possibile pubblicare i dati originali, in alternativa alla tabelle. Nell’esempio riportato, si tratta dei galloni di carburante necessari per percorrere 15.000 miglia. Il consumo è stato stimato per 1990 auto, classificate in 7 categorie, sulla base di una estrapolazione fondata sui dati raccolti in test standard di guida. Seppure con forme differenti, che evidenziano diversamente le caratteristiche della stessa distribuzione dei dati, la semplice lettura di ognuno dei tre grafici mostra: 1 - il consumo medio nettamente minore delle smalls cars e quello chiaramente maggiore delle ultime tre categorie; 2 - la diversa variabilità delle sette categorie di auto: la seconda categoria (sporty cars) e la settima (sport/utility) hanno una variabilità nettamente maggiore, in particolare se contrapposta a quella della categoria quattro (medium cars) e sesta (small vans). 3 - poiché le categorie sono state ordinate su una scala di rango della cilindrata, si evidenzia una tendenza sistematico all'aumento dei valori medi e mediani, passando dalle categorie inferiori (a sinistra) a quelle superiori (a destra). Figura 33. Data plot o dotplot 95 Figura 34. Box and whisker Figura 35. Stem and leaf 96 La figura stem and leaf è una ulteriore variazione dei due modelli presentati: le dieci possibili foglie (leaves) sono classificate in cinque gruppi, indicati da simboli differenti: - le foglie 0 e 1 con il simbolo * (asterisco), - le foglie 2 e 3 con il simbolo t (lettera t), - le foglie 4 e 5 con il simbolo f (lettera f), - le foglie 6 e 7 con il simbolo s (lettera s), - le foglie 8 e 9 con il simbolo • (punto). A conclusione della presentazione di questi metodi di rappresentazione grafica e semigrafica, è utile riportare l’avvertenza dei tre autori citati sull’uso di programmi informatici, in particolare nella costruzione di box-plots, ma estensibile a tutti i metodi: - spesso forniscono una impressione errata dei dati; - per una impostazione corretta, è sempre necessario leggere attentamente la documentazione che accompagna il software. Segnalando l’articolo di M. Frigge, D. C. Hoaglin e B. Iglewicz del 1989 Some implementation of the boxplot (pubblicato su The American Statistician Vol. 43, 50-54), Hoaglin, Mosteller e Tukey nel loro articolo prima citato, dopo aver illustrato il modello standard di box and whiskers, affermano (pag. 45): Some popular computer software produces boxplots that depart from the above standard in unexpected ways. To avoid getting a mistaken impression of the data, it may be necessary to check the documentation that accompanies the software.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved