Scarica Introduzione alla Statistica: Tipi di Dati e Descrizione dei Metodi e più Schemi e mappe concettuali in PDF di Probabilità e Statistica solo su Docsity! La statistica NR SITL
la statistica: concetti base
SS
Mea
5 si pensa …… alle pagine di un quotidiano che riportano le quotazioni in Borsa di tutti i titoli azionari; i grafici relativi alle variazioni di una moneta (ad esempio il dollaro) nei confronti dell’euro in un determinato arco di tempo; alle tabelle che vengono spesso pubblicate relativamente alla variazione della produzione industriale nel nostro paese; alle ricerche che vengono effettuate in campo medico sull’efficacia di alcuni farmaci per curare un certo tipo di malattia o all’incidenza del fumo nei casi di tumori al polmone 6 Potremmo fare un elenco infinito di problemi connessi con l’analisi di grandi quantità di dati, ma il problema comune è sempre lo stesso: in che modo ed quale misura tenere conto di questi dati per poter prendere decisioni in merito al problema analizzato. Se in alcune situazioni ci possiamo fidare del nostro intuito e della nostra esperienza, nella maggior parte è meglio affidarsi ad una ANALISI STATISTICA DEI DATI 7 Lo studio statistico dei fenomeni riveste oggi grande importanza per affrontare e risolvere molti problemi. Ad esempio: uno studio sulla vita media di una popolazione può far prendere ad un governo decisioni importanti in campo pensionistico; uno studio sulla produzione industriale, può aiutare a compiere scelte sulla programmazione o a prevedere la variazione percentuale di disoccupazione; uno studio sulla natalità può far prevedere quanti pediatri saranno necessari o quanti insegnanti dovranno essere assunti in futuro per coprire le cattedre del corso di studi obbligatorio. 10 Il linguaggio della statistica saper come e su cosa indagare 11 I DATI sono una raccolta di informazioni L’insieme (di individui, o animali, o oggetti, o ………) a cui si fa riferimento costituisce l’insieme delle UNITA’ STATISTICHE L’insieme di tutte le unità statistiche è detto convenzionalmente POPOLAZIONE di riferimento Un aggregato di unità statistiche, ovvero una parte della popolazione, è detto CAMPIONE 12 Esempio 1 La vendita dei telefonini cellulari Negli ultimi anni si è verificato un boom nelle vendite dei telefoni cellulari I cellulari hanno prodotto un cambiamento nel nostro modo di vivere e lavorare Vi e’ una differenza nella durata di telefonate tra i sessi? SCOPO dello studio Si raccolgono i dati sul numero di minuti che dieci uomini e dieci donne hanno trascorso al telefono 15 Nello specifico, si hanno dati: QUALITATIVI, se si vuole descrivere una caratteristica particolare di una osservazione campionaria, e le modalità della variabile sono espresse in forma verbale (sesso, istruzione, residenza, …). A loro volta, questi dati possono essere: NOMINALI, se non esiste nessun ordinamento tra le modalità (sesso, residenza, …) ORDINALI, se è possibile individuare un ordinamento naturale delle modalità (istruzione, livello di soddisfazione,…) 16 Nello specifico, si hanno dati: QUANTITATIVI, se i dati sono intrinsecamente numerici, e dunque le modalità sono espresse da numeri (età, altezza, minuti trascorsi al telefono, …). A loro volta questi dati possono essere: DISCRETI, se le modalità sono numeri interi o comunque non decimali (età, numero di figli, …) CONTINUI, se possono assumere un infinito numero di valori possibili entro un intervallo di valori della scala numerica, e le modalità sono dunque numeri reali (altezza, minuti trascorsi al telefono, …) 17 Il seguente schema riassume la classificazione delle variabili enunciata 20 Risposte all’Esempio 2 1. L’unità statistica è il singolo studente che ha sostenuto il particolare esame. La popolazione di riferimento è l’insieme delle unità statistiche ovvero l’insieme degli studenti che hanno sostenuto l’esame. 2. Le variabili rilevate sono: Voto, Anno di corso, Residenza, Diploma Superiore e Frequentante. 3. Le modalità rilevate dalla variabile Diploma Superiore sono: Liceo, Ist. Tecnico, Ist. Commerciale e Ist. Professionale. 4. Le modalità rilevate dalla variabile Voto sono: 18, 21 e 28. Le modalità che la variabile può assumere sono i numeri interi da 18 a 30, e 32 (con 32 si indica 30 e lode). PARTE SECONDA
definizione di:
statistica descrittiva ed' inferenziale
SS
Mea
22 La statistica moderna può essere divisa in due parti: statistica descrittiva statistica inferenziale 25 Inferenza statistica: processo che partendo dalle informazioni contenute in un campione consente di giungere a delle affermazioni relative alla popolazione da cui proviene il campione :::::::::::::::::::::::::: :::::::::::::::::::::::::: :::::::::::::::::::::::::: :::::::::::::::::::::::::: :::::::::::::: POPOLAZIONE CAMPIONE c a m p io n a m e n t o in fe re n z a 26 La statistica inferenziale Le conclusioni che la statistica inferenziale ci permette di trarre sulla popolazione complessiva a partire dall’indagine sul campione, non sono certezze, ma asserzioni formulati con opportuni metodi del calcolo delle probabilità. 27 La statistica inferenziale Il calcolo delle probabilità costituisce una base per l’inferenza statistica. Per mezzo del calcolo delle probabilità si può fare una trattazione matematica dell’incertezza, ossia delle regole con cui si può dare un certo grado di fiducia al realizzarsi di un certo evento. 30 Per ottenere un risultato sicuro si dovrebbe aspettare fino alla conclusione delle elezioni, quando siano stati computati tutti i voti, ma questo non costituirebbe più una previsione. Però, se il campionamento è compiuto correttamente e con metodi adeguati, si possono avere forti speranze che la proporzione campionaria sarà circa uguale alla corrispondente proporzione della popolazione. Si deve, dunque, ammettere la possibilità di essere incorsi in un errore, poiché può essere stato scelto un campione non rappresentativo (eventualità possibile, anche se improbabile). 31 In tale circostanza la conclusione potrebbe essere errata e quindi si può avere soltanto un grado di fiducia nelle conclusioni. Le conclusioni statistiche dunque sono sempre accompagnate da un certo grado di incertezza. PARIE TERZA
DISTRIBUZIONE DI FREQUENZA
N
W—
Mea
35 Consiste nel determinare, per ogni variabile, la frequenza con cui le diverse modalità sono state osservate. Per dati qualitativi si contano quante osservazioni presentano le modalità della variabile in esame (categoria) Per dati quantitativi si procede scomponendo i valori delle osservazioni in una serie di intervalli non sovrapposti ( classi). Quindi si contano quante osservazioni cadono nei vari intervalli. DEF. La distribuzione di frequenza registra ogni categoria, valore, o classe di valori che una variabile potrebbe avere e il corrispondente numero di volte che ognuna di esse ricorre nei dati. Distribuzione di frequenza Tabella di frequenza per dati
quantitativi
Categoria
Frequenza | —T
Categoria 1
Categoria 2
Categoria |]
Categoria k
a
Totale
- Non è importante la sequenza
delle categorie: si può scegliere
un particolare ordine se nei dati
è presente un ordine intrinseco
(per es. dat qualitativi ordinali)
Numero di volte - frequenza -
- che la categoria j è presente
nei dati grezzi
© Numero totale
delle osservazioni
37 Frequenze relative E’ più utile, talvolta, conoscere la proporzione di osservazioni che appartengono a una data categoria in una distribuzione di frequenza e non il numero assoluto. Dividendo una frequenza (assoluta) per il numero totale di unità statistiche, ovvero il numero di osservazioni, si ottengono le frequenze relative DEF. La frequenza relativa regista, per ogni categoria, il numero di osservazioni, in termini di proporzione sul numero totale, che appartiene a ciascuna di esse PARTE QUARTA
Indici statistici di sintesi
X
W—
Mea
41 Indici statistici di sintesi Per trarre delle indicazioni adeguate quando si considerano dati quantitativi, non è sufficiente rappresentare i dati mediante tabelle ed grafici di frequenza. Una buona analisi dei dati richiede anche che le caratteristiche principali delle osservazioni siano sintetizzate con opportune misure, dette Indici Statistici, e che tali misure siano adeguatamente analizzate e interpretate. 42 Indici statistici di sintesi Tipi di indici: Misure di tendenza centrale Misure di Variabilità Misure di Forma Media aritmetica semplice
N = numero di individui di una popolazione
Xx = variabile numerica
x;= valore che la variabile assume sull'i-esimo
individuo della popolazione
La media è definita da
N
Media Aritmetica Semplice
Esempio: “Rossi ha la media del 25”
Popolazione: insieme degli esami sostenuti
da Rossi
Variabile: voto ottenuto nell'esame
a aritmet
somma dei voti ottenuti / numero esami
sostenuti
La media aritmetica può essere calcolata
anche conoscendo solo la distribuzione della
variabile.
Siano x, per J=1,..., m,i valori che la variabile
X può assumere e siano f, le corrispondenti
frequenze. Allora
* La moda è il valore più frequente di una
distribuzione. Può essere definita anche
per variabili qualitative.
* Una distribuzione può avere due (o più)
massimi di frequenze paragonabili. Si
parla allora di distribuzione bimodale.
51 * La mediana è il valore che occupa la
posizione centrale in un insieme ordinato
di dati. E’ definita solo per variabili ordinali.
* In una distribuzione o serie di dati, ogni
valore estratto a caso ha la stessa
probabilità di essere inferiore o superiore
alla mediana.
55 Misure di variabilità La dispersione o variabilità è la seconda importante caratteristica di una distribuzione di dati. Essa definisce la forma più o meno raccolta della distribuzione intorno al valore centrale. 56 Misure di variabilità Indici significati per la misura della variabilità di una distribuzione di frequenza sono: il range di variazione la varianza lo scarto quadratico medio, detto anche deviazione standard (si ottiene dalla radice quadrata della varianza). W = Xmax — min
* Misura puramente descrittiva e poco informativa
Es. Le altezze di 10 esemplari di una pianta sono:
10 22 33 44 46 51 67 747985
W=835-10=75
Le altezze di altri 10 esemplari sono invece
10 11 11 1213 14 15 16 20 85
W=835-10=75
60 GRAZIE E BUON LAVORO fine 61 PAUSA a dopo