Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica Descrittiva, Dispense di Statistica

Programma, domande e risposte teoria, testi e soluzioni esercitazioni, appunti di tutte le lezioni di Statistica Descrittiva M-Z.

Tipologia: Dispense

2016/2017
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 01/08/2017

alberto-maria-radici
alberto-maria-radici 🇮🇹

4.5

(4)

4 documenti

1 / 105

Toggle sidebar
Discount

In offerta

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Statistica Descrittiva e più Dispense in PDF di Statistica solo su Docsity! D I P A R T I M E N T O di E C O N O M I A STATISTICA - Anno accademico 2016/2017 Docente: Francesco Bartolucci – Assistente: Silvia Pandolfi Calendario. - Parte I (Statistica descrittiva): 20 febbraio – 7 aprile; - pausa: 10 aprile – 21 aprile; - parte II (Probabilità e inferenza statistica): 24 aprile – 1 giugno. Attività d’aula. Sono previste sei ore di lezione e due ore di esercitazione settimanali. Esercitazioni. È prevista l’assegnazione settimanale di una esercitazione sulle tematiche affrontate a lezione, che sarà oggetto di discussione e svolgimento in aula nell’orario programmato. Esame. L’esame si può svolgere secondo due modalità. La prima prevede lo svolgimento di una prova intermedia e di una finale. La seconda modalità è basata solo su una prova complessiva. Prima modalità di esame. Sono previste due prove incentrate, rispettivamente, su “Statistica descrittiva” (prova intermedia) e su “Probabilità e inferenza” (prova finale). Entrambe le prove sono strutturate nel modo seguente: • parte teorica composta da tre domande a risposta aperta a cui rispondere entro 45 minuti senza l’ausilio di alcun materiale didattico; • parte pratica basata sullo svolgimento di tre esercizi entro 60 minuti con l’ausilio di un formulario ed eventuali tavole statistiche messe a disposizione dal docente. La prova intermedia avrà luogo il 19 aprile 2017 alle ore 9, mentre la prova finale va obbligatoriamente sostenuta in uno degli appelli di giugno o luglio. Criterio di valutazione delle prove parziali. Il voto assegnato in ciascuna prova sarà pari alla media aritmetica dei voti conseguiti nella parte pratica e in quella teorica. Ogni prova (intermedia e finale) si intenderà superata solo se lo studente avrà conseguito almeno 15/30 in ciascuna delle due parti che la compongono (domande aperte e parte pratica) e il voto medio di tali prove sarà almeno pari a 18. Inoltre, l’accesso alla prova finale è subordinato al superamento della prova intermedia. La valutazione delle prove di esame (domande aperte e parte pratica) seguirà criteri oggettivi tali da assicurare la parità tra le votazioni medie degli studenti afferenti ai due canali didattici (A-L ed M-Z). Al termine di ogni prova (intermedia e finale) lo studente avrà la facoltà di accedere a una prova orale per un’eventuale variazione della votazione fino a un massimo di 2/30. Qualora il candidato non dovesse superare la seconda prova, potrà ripeterla una sola volta nell’ambito degli appelli di giugno, luglio o settembre. L’esame complessivo si intenderà superato se entrambe le prove parziali saranno superate e il voto finale all’esame sarà dato dalla media dei voti alle due prove parziali. Seconda modalità di esame. Chi non partecipa alla prima modalità di esame, o non la supera, dovrà sostenere l’esame completo, consistente in una prova scritta, composta da sei domande a risposta aperta (a cui rispondere entro 90 minuti) e da sei esercizi (a cui rispondere entro 120 minuti) secondo le stesse modalità e gli stessi criteri di valutazione delle prove parziali. Lo studente avrà la facoltà di accedere a una prova orale per un’eventuale variazione della votazione fino a un massimo di 2/30. Bonus. Come riconoscimento per la partecipazione alle lezioni, verrà assegnato un bonus fino a un massimo di 1,5/30 in funzione delle presenze in aula. Tale bonus verrà aggiunto al voto complessivo di ciascuna prova (intermedia e finale), a patto che la prova finale venga svolta in uno degli appelli della sessione estiva (settembre compreso). Il bonus maturato viene mantenuto anche nel caso in cui, non superando la prova intermedia o quella finale, lo studente sostenga l’esame completo in uno degli appelli della sessione estiva (settembre compreso). Frequenza. La frequenza delle lezioni verrà sottoposta a controllo e ad essa saranno condizionati sia l’accesso alle prove (intermedia e finale) sia la misura del bonus, secondo la seguente regola: per ogni assenza rilevata, il bonus verrà ridotto di 0,5 punti, 3 assenze rilevate comporteranno l’esclusione dalla prova parziale. Attività di laboratorio. Come attività complementare verranno organizzate apposite sessioni di laboratorio informatico (dedicato al programma statistico R) della durata complessiva di 16 ore, a cui gli studenti potranno partecipare su base volontaria. Gli argomenti trattati, su richiesta dei singoli interessati, potranno essere oggetto di valutazione specifica per l’attribuzione fino a un massimo di un punto aggiuntivo sul voto finale. Verranno formati due gruppi di 30 studenti. Se la richiesta di partecipazione supererà le 60 unità, si ricorrerà a una graduatoria di merito basata sul numero dei crediti maturati e sulla media dei voti riportati negli esami sostenuti a tutta la sessione di gennaio-febbraio 2017. Il 75% dei posti disponibili sarà, in ogni caso, riservato agli iscritti al secondo anno. La partecipazione al laboratorio, con valutazione finale positiva, farà maturare i 6 crediti dello stage previsto dall’ordinamento didattico. Iscrizioni. Gli studenti che intendono accedere alla prova intermedia e coloro che vogliono partecipare alle attività di laboratorio devono iscriversi entro e non oltre il 1 marzo 2017 all’indirizzo https://www.unistudium.unipg.it nelle apposite liste predisposte, indicando eventualmente il giorno preferito (tra i due proposti) per lo svolgimento del laboratorio. Testo consigliato: Giuseppe Cicchitelli, Statistica - Principi e metodi, Pearson, Milano, 2014 Dipartimento di Economia Corso di Laurea in Economia Aziendale Insegnamento di Statistica Esercitazione n. 1 (Stat. Descrittiva) 1. Si consideri un sottoinsieme di 30 individui osservati nell’ambito dello studio condotto dal Consorzio Interuniversitario AlmaLaurea relativo ai laureati triennali della Facoltà di Economia dell’Università di Perugia, che hanno conseguito il titolo di studio nell’anno solare 2008 (per maggiori dettagli si rinvia al sito: http://www.almalaurea.it/). SESSO Diploma Voto Età Regolarità Voto Condizione diploma alla laurea negli studi laurea occupazionale F ist.profess. 100 22,53 in corso 113 Non lav., non studia M l.scientifico 64 23,85 1 anno f.c. 85 Non lav., studia M ist.tecnico 75 22,82 1 anno f.c. 91 Non lav., studia M l.scientifico 66 31,12 5 anni f.c. 91 Lavora, non studia F altro 100 23,06 1 anno f.c. 113 Non lav., non studia M ist.tecnico 100 22,48 1 anno f.c. 97 Lavora, studia M ist.tecnico 80 23,02 1 anno f.c. 102 Lavora, non studia F l.linguistico 90 22,85 1 anno f.c. 105 Lavora, studia M ist.tecnico 90 21,96 in corso 105 Non lav., studia F ist.profess. 76 28,84 5 anni f.c. 103 Lavora, non studia F altro 84 25,73 4 anni f.c. 97 Lavora, non studia F ist.tecnico 90 26,07 4 anni f.c. 87 Lavora, non studia M l.scientifico 78 26,08 4 anni f.c. 93 Non lav., non studia F l.classico 76 25,34 3 anni f.c. 88 Lavora, non studia F ist.tecnico 90 24,81 3 anni f.c. 94 Lavora, non studia F l.classico 83 24,91 3 anni f.c. 84 Non lav., studia M ist.tecnico 85 23,46 2 anni f.c. 87 Lavora, non studia M ist.tecnico 62 24,09 2 anni f.c. 81 Non lav., studia M ist.tecnico 75 28,03 4 anni f.c. 94 Non lav., studia F ist.tecnico 100 24,26 2 anni f.c. 102 Lavora, studia F ist.tecnico 100 22,35 1 anno f.c. 113 Non lav., studia F ist.tecnico 93 24,37 2 anni f.c. 90 Non lav., studia F l.scientifico 77 22,83 1 anno f.c. 98 Non lav., studia M l.scientifico 84 22,82 1 anno f.c. 101 Non lav., studia M l.scientifico 64 22,99 1 anno f.c. 88 Lavora, studia F l.scientifico 100 22,84 1 anno f.c. 97 Lavora, studia F ist.tecnico 85 22,90 1 anno f.c. 96 Non lav., studia F l.scientifico 63 44,64 in corso 107 Non lav., studia F ist.tecnico 75 22,52 1 anno f.c. 99 Lavora, studia F ist.tecnico 100 23,11 1 anno f.c. 113 Lavora, studia Table 1: Campione di 30 laureati triennali (anno 2008) della Facoltà di Economia dell’Università di Perugia (Fonte: AlmaLaurea) 1 Dipartimento di Economia Corso di Laurea in Economia Aziendale Insegnamento di Statistica Esercitazione n. 1 (Stat. Descrittiva) 1. Si consideri un sottoinsieme di 30 individui osservati nell’ambito dello studio condotto dal Consorzio Interuniversitario AlmaLaurea relativo ai laureati triennali della Facoltà di Economia dell’Università di Perugia, che hanno conseguito il titolo di studio nell’anno solare 2008 (per maggiori dettagli si rinvia al sito: http://www.almalaurea.it/). SESSO Diploma Voto Età Regolarità Voto Condizione diploma alla laurea negli studi laurea occupazionale F ist.profess. 100 22,53 in corso 113 Non lav., non studia M l.scientifico 64 23,85 1 anno f.c. 85 Non lav., studia M ist.tecnico 75 22,82 1 anno f.c. 91 Non lav., studia M l.scientifico 66 31,12 5 anni f.c. 91 Lavora, non studia F altro 100 23,06 1 anno f.c. 113 Non lav., non studia M ist.tecnico 100 22,48 1 anno f.c. 97 Lavora, studia M ist.tecnico 80 23,02 1 anno f.c. 102 Lavora, non studia F l.linguistico 90 22,85 1 anno f.c. 105 Lavora, studia M ist.tecnico 90 21,96 in corso 105 Non lav., studia F ist.profess. 76 28,84 5 anni f.c. 103 Lavora, non studia F altro 84 25,73 4 anni f.c. 97 Lavora, non studia F ist.tecnico 90 26,07 4 anni f.c. 87 Lavora, non studia M l.scientifico 78 26,08 4 anni f.c. 93 Non lav., non studia F l.classico 76 25,34 3 anni f.c. 88 Lavora, non studia F ist.tecnico 90 24,81 3 anni f.c. 94 Lavora, non studia F l.classico 83 24,91 3 anni f.c. 84 Non lav., studia M ist.tecnico 85 23,46 2 anni f.c. 87 Lavora, non studia M ist.tecnico 62 24,09 2 anni f.c. 81 Non lav., studia M ist.tecnico 75 28,03 4 anni f.c. 94 Non lav., studia F ist.tecnico 100 24,26 2 anni f.c. 102 Lavora, studia F ist.tecnico 100 22,35 1 anno f.c. 113 Non lav., studia F ist.tecnico 93 24,37 2 anni f.c. 90 Non lav., studia F l.scientifico 77 22,83 1 anno f.c. 98 Non lav., studia M l.scientifico 84 22,82 1 anno f.c. 101 Non lav., studia M l.scientifico 64 22,99 1 anno f.c. 88 Lavora, studia F l.scientifico 100 22,84 1 anno f.c. 97 Lavora, studia F ist.tecnico 85 22,90 1 anno f.c. 96 Non lav., studia F l.scientifico 63 44,64 in corso 107 Non lav., studia F ist.tecnico 75 22,52 1 anno f.c. 99 Lavora, studia F ist.tecnico 100 23,11 1 anno f.c. 113 Lavora, studia Table 1: Campione di 30 laureati triennali (anno 2008) della Facoltà di Economia dell’Università di Perugia (Fonte: AlmaLaurea) 1 (a) Quali sono le unità statistiche, la popolazione di riferimento e i caratteri rilevati? (b) Indicare la tipologia di ciascuno dei caratteri considerati. (c) Si costruisca la distribuzione di frequenza (con frequenze assolute e assolute cumulate) per il voto di laurea utilizzando le seguenti classi: fino a 99, da 100 a 104, da 105 a 109, almeno 110 (si noti che il voto 110/110 e lode è codificato come 113). (d) Si costruisca la distribuzione di frequenza per il carattere regolarità negli studi (includere le frequenze relative, percentuali e relative cumulate), individuando un’opportuna aggregazione delle modalità di riposta. (e) Si costruisca la distribuzione doppia di frequenza secondo il sesso e la condizione occupazionale a un anno dalla laurea. (f) Con riferimento alla distribuzione di cui al punto precedente, si indichi: - qual è il significato del valore contenuto nella prima riga e prima colonna; - qual è il numero di laureati femmine che non lavorano; - qual è il numero di laureati che lavorano. SOLUZIONE (a) - Le unità statistiche sono i singoli laureati. - La popolazione di riferimento è costituita da tutti i laureati triennali del 2008 della Facoltà di Economia dell’Università di Perugia. - I caratteri rilevati sono: sesso, tipo di scuola superiore, voto di maturità, voto di laurea, età alla laurea, regolarità negli studi, condizione occupazionale ad un anno dalla laurea. (b) - Sesso: qualitativo sconnesso - Tipo di scuola superiore: qualitativo sconnesso - Voto di maturità: quantitativo discreto - Voto di laurea: quantitativo discreto - Età alla laurea: quantitativo continuo - Regolarità negli studi: qualitativo ordinale - Condizione occupazionale: qualitativo sconnesso (c) Si indichino con ni la frequenza assoluta di unità statistiche che presentano la modalità i-esima del carattere studiato e con Ni la frequenza assoluta cumulata, definita come Ni = n1 + n2 + . . .+ ni = iX j=1 nj 2 Contando le osservazioni della Tabella fornita si ricavano le due seguenti distribuzioni delle frequenze assolute e assolute cumulate: ni Ni Voto di laurea  99 19 19 100 104 4 23 105 109 3 26 110 4 30 Totale 30 (d) In primo luogo si aggregano le modalità “4 anni fuori corso” e “5 anni fuori corso”, in modo da pervenire ad una maggiore sintesi dei dati. Poi, si calcolano le frequenze relative (fi), percentuali (pi) e relative cumulate (Fi), secondo le seguenti formule: fi = ni/N, pi = fi ⇥ 100, Fi = iX j=1 fj . I risultati sono riassunti nella seguente tabella: freq. ass. freq. rel. freq. perc. freq. rel. cum. ni fi pi Fi Ritardo alla laurea in corso 3 0,10 10,0 0,10 1 anno f.c. 14 0,47 46,7 0,57 2 anni f.c. 4 0,13 13,3 0,70 3 anni f.c. 3 0,10 10,0 0,80 almeno 4 anni f.c. 6 0,20 20,0 1,00 Totale 30 1,00 100,0 (e) Distribuzione doppia di frequenze assolute secondo il sesso e la condizione occupazionale: Lavora e Lavora e Non lavora e Non lavora, Totale non studia studia non studia studia Maschi 3 2 1 6 12 Femmine 5 5 2 6 18 Totale 8 7 3 12 30 (f) - significato del valore contenuto nella prima riga e prima colonna: numero di laureati maschi che, a un anno dalla laurea, lavorano e non proseguono gli studi; - numero di laureati femmine che non lavorano: 2 + 6 = 8; - numero di laureati che lavorano: 8 + 7 = 15. 3 4. Si consideri la seguente distribuzione del numero di esami sostenuti alla fine del primo anno da un campione di 70 studenti iscritti nel 2009 ad un corso di laurea della Facoltà di Economia dell’Università di Perugia (Fonte: dati amministrativi di Ateneo): Numero di esami Numero di studenti 0 16 1 12 2 6 3 7 4 11 5 16 6 2 (a) Si indichi la natura del carattere numero di esami. (b) Si determini il numero di studenti che hanno sostenuto almeno 4 esami. (c) Si determini la frequenza relativa di studenti che hanno sostenuto al più un esame. (d) Si determini la frequenza relativa di studenti che hanno sostenuto più di un esame. (e) Si determini la frequenza relativa di studenti che hanno sostenuto un numero di esami compreso tra 2 e 4. SOLUZIONI (a) Numero di esami: carattere quantitativo discreto. Per rispondere alle domande successive è utile calcolare le distribuzioni delle frequenze cumu- late, sia assolute che relative, date da: Fi = Ni/N = iX j=1 nj/N = 1 N (n1 + n2 + . . .+ ni) = f1 + f2 + . . .+ fi = iX j=1 fj N. esami N. studenti Freq.rel. Freq.ass.cum. Freq.rel.cum. i xi ni fi = ni/N Ni Fi 1 0 16 0,23 16 0,23 2 1 12 0,17 28 0,40 3 2 6 0,09 34 0,49 4 3 7 0,10 41 0,59 5 4 11 0,16 52 0,74 6 5 16 0,23 68 0,97 7 6 2 0,03 70 1,00 70 1,00 6 (b) Il numero di studenti che hanno sostenuto almeno 4 esami è dato dal numero di studenti che hanno sostenuto 4, 5 oppure 6 esami: n(xi 4) = n5 + n6 + n7 = 11 + 16 + 2 = 29 oppure N N4 = 70 41 = 29. (c) La frequenza relativa di studenti che hanno sostenuto al più un esame è data dal numero di studenti che hanno sostenuto 0 esami o 1 esame diviso per il loro totale: f(xi  1) = f(0) + f(1) = F (1) = n0 n + n1 n = n0 + n1 n = 16 + 12 70 = 0, 40 (d) La frequenza relativa di studenti che hanno sostenuto più di un esame è data: f(xi > 1) = f(2) + f(3) + . . .+ f(6) = 1 [f(0) + f(1)] = 1 F (1) = 1 0, 40 = 0, 60 (e) La frequenza relativa di studenti che hanno sostenuto un numero di esami compreso tra 2 e 4 è data da: f(2  xi  4) = f(xi  4) f(xi  1) = F (4) F (1) = 0, 74 0, 40 = 0, 34 Nota: il risultato è uguale a quello che si sarebbe ottenuto basandosi sulle frequenze assolute osservate ni, cioè: (6 + 7 + 11)/70 = 24/70 = 0, 34. 7 Dipartimento di Economia Insegnamento di Statistica Esercitazione n. 2 Nel seguito si farà riferimento ai dati raccolti tramite rilevazione in aula con apposito questionario, durante l’anno accademico 2014-2015. I file dei dati (risultati questionario1.xls) e il testo del questionario (questionario1.pdf) sono scaricabili dal sito Unistudium. 1. Sulla base delle risposte al questionario: (a) si costruisca la tabella doppia delle frequenze assolute per Tipo di diploma e Numero di libri letti in un anno; (b) si costruisca la tabella delle frequenze relative del carattere Numero di libri letti in un anno dato il Tipo di diploma e si commentino i risultati ottenuti; (c) in base ai risultati ottenuti al punto precedente, si determini la distribuzione delle frequenze relative cumulate per gli studenti provenienti dal liceo scientifico e per quelli provenienti dall’istituto tecnico; (d) si rappresenti graficamente la distribuzione secondo il Tipo di diploma; (e) si rappresenti graficamente la distribuzione secondo il Numero di libri letti in un anno, dis- tinguendo in base al tipo di scuola superiore (si considerino le sole modalità liceo scientifico ed istituti tecnici); (f) si rappresenti l’istogramma della distribuzione di frequenza del carattere Numero ore spese me- diamente al giorno per navigare su social network (si consideri come limite superiore dell’ultima classe il valore 8). Si osservi che il valore codificato come 0 indica che lo studente non ha risposto alla domanda, pertanto deve essere escluso dalla presente analisi. 1 Dipartimento di Economia Insegnamento di Statistica Esercitazione n. 2 - SOLUZIONI Nel seguito si farà riferimento ai dati raccolti tramite rilevazione in aula, con apposito questionario, durante l’anno accademico 2014-2015. I file dei dati (risultati questionario1.xls) e il testo del questionario (questionario1.pdf) sono scaricabili dal sito Unistudium. 1. Sulla base delle risposte al questionario: (a) si costruisca la tabella doppia delle frequenze assolute per Tipo di diploma e Numero di libri letti in un anno; (b) si costruisca la tabella delle frequenze relative del carattere Numero di libri letti in un anno dato il Tipo di diploma e si commentino i risultati ottenuti; (c) in base ai risultati ottenuti al punto precedente, si determini la distribuzione delle frequenze relative cumulate per gli studenti provenienti dal liceo scientifico e per quelli provenienti dall’istituto tecnico; (d) si rappresenti graficamente la distribuzione secondo il Tipo di diploma; (e) si rappresenti graficamente la distribuzione secondo il Numero di libri letti in un anno, dis- tinguendo in base al tipo di scuola superiore (si considerino le sole modalità liceo scientifico ed istituti tecnici); (f) si rappresenti l’istogramma della distribuzione di frequenza del carattere Numero ore spese me- diamente al giorno per navigare su social network (si consideri come limite superiore dell’ultima classe il valore 8). Si osservi che il valore codificato come 0 indica che lo studente non ha risposto alla domanda, pertanto deve essere escluso dalla presente analisi. 1 SOLUZIONE (a) Tabella doppia delle frequenze assolute per Tipo diploma e Numero di libri letti in un anno: Numero di libri letti in un anno Tipo di diploma 0 da 1 a 3 da 4 a 6 7 o più Totale L. classico 3 6 3 0 12 L. scientifico 15 21 7 5 48 Ist. tecnico 9 19 5 2 35 Altro 4 6 1 1 12 Totale 31 52 16 8 107 (b) Tabella delle frequenze relative condizionate del Numero di libri letti in un anno dato il Tipo di diploma: Numero di libri letti in un anno Tipo di diploma 0 da 1 a 3 da 4 a 6 7 o più Totale L. classico 0,2500 0,5000 0,2500 0,0000 1,0000 L. scientifico 0,3125 0,4375 0,1458 0,1042 1,0000 Ist. tecnico 0,2571 0,5429 0,1429 0,0571 1,0000 Altro 0,3333 0,5000 0,0833 0,0833 1,0000 Totale 0,2897 0,4860 0,1495 0,0748 1,0000 Commento: In primo luogo, si avverte che le distribuzioni condizionate relative alle modalità L. classico e Altro non devono essere prese in seria considerazione in quanto inerenti contingenti di ampiezza particolarmente limitata (12 studenti ciascuno su un totale di 107 studenti). Confrontando la distribuzione condizionata del totale degli studenti con le distribuzioni con- dizionate dei due tipi di scuola superiore considerati (L.scientifico e Ist. tecnico), si rilevano alcune sostanziali di↵erenze. Da una parte, poco meno di un terzo degli studenti del liceo scien- tifico (31,2%) non legge alcun libro contro un quarto dei colleghi dell’istituto tecnico (25,7%). D’altra parte, oltre il 10% degli studenti del liceo scientifico legge almeno 7 libri l’anno, contro appena il 5,7% dei colleghi dell’istituto tecnico. A livello complessivo ben il 29,0% degli studenti non legge alcun libro, mentre il 77,6% (frequenza relativa cumulata 0, 2897+0, 4860 = 0, 7757) ne legge al massimo tre. Il 22,4% degli studenti legge almeno 4 libri l’anno (frequenza relativa cumulata 0, 1495 + 0, 0748 = 0, 2243). 2 (c) Distribuzione delle frequenze relative cumulate per gli studenti provenienti dal liceo scientifico e per quelli provenienti dall’istituto tecnico: Numero di libri letti in un anno Tipo di diploma 0 da 1 a 3 da 4 a 6 7 o più L. scientifico 0,3125 0,7500 0,8958 1,000 Ist. Tecnico 0,2571 0,8000 0,9429 1,000 (d) Diagramma a settori circolari per la distribuzione secondo il Tipo di diploma; in alternativa, si può fare un diagramma a nastri. Tabella dei dati: Tipo di diploma freq.ass. freq.rel. L. classico (modalità 1) 12 0,112 L. scientifico (modalità 2) 48 0,449 Ist. Tecnico (modalità 3) 35 0,327 Altro (modalità 4) 12 0,112 Totale 107 1,000 11.21% 44.86% 32.71% 11.21% 1 2 3 4 3 2. Sia data la seguente distribuzione disaggregata dell’altezza (in cm) di un campione di studentesse del secondo anno di Economia: altezza (xi) 152 155 156 159 160 160 160 160 162 163 163 163 163 163 163 163 164 164 164 164 165 165 165 165 165 165 165 165 166 166 166 167 167 167 168 168 168 170 170 170 170 170 170 171 172 172 173 173 174 174 174 186 (a) Si calcoli l’altezza media basandosi su: i. i dati disaggregati; ii. i dati aggregati secondo la distribuzione delle frequenze assolute; iii. i dati aggregati secondo le classi di altezza 150 159, 160 164, 165 169, 170 179, 180 190. (b) Si rappresenti l’istogramma della distribuzione di frequenze, secondo le classi di altezza definite al punto precedente. SOLUZIONE 1. Altezza media delle femmine sulla base dei dati disaggregati: x̄ = 1 N NX i=1 xi = 166, 02, dove N = 52 indica l’ampiezza del contingente esaminato e xi è l’i-esimo elemento del carattere x (altezza). 2. Altezza media delle femmine sulla base dei dati aggregati secondo la distribuzione delle frequenze assolute: x̄ = 1 N kX i=1 (xi · ni) = 166, 02, dove k indica il numero di modalità osservate sul carattere x (altezza) con frequenza assoluta ni. Tabella per i calcoli: xi 152 155 156 159 160 162 163 164 165 ni 1 1 1 1 4 1 7 4 8 xi · ni 152 155 156 159 640 162 1141 656 1320 xi 166 167 168 170 171 172 173 174 186 ni 3 3 3 6 1 2 2 3 1 xi · ni 498 501 504 1020 171 344 346 522 186 6 3. Altezza media delle femmine sulla base dei dati aggregati secondo le classi di altezza 150 159, 160 164, 165 169, 170 179, 180 190. La formula per calcolare la media è uguale a quella usata al punto precedente, con la di↵erenza che adesso xi indica il valore centrale della classe i-esima, k è il numero di classi e ni è la frequenza assoluta delle osservazioni della classe i-esima. x̄ = 1 N kX i=1 (xi · ni) = 166, 87 Tabella per i calcoli: Altezza (classi) Classi reali Valori centrali Freq.Ass. Val.Centr.*Freq.Ass. Ampiezza classi Densità di freq. ci1 ci xi = ci+ci12 ni xi · ni di = ci ci1 ni/di 150 - 159 149,5 - 159,5 154,5 4 618 10 0,400 160 - 164 159,5 - 164,5 162,0 16 2592 5 3,200 165 - 169 164,5 - 169,5 167,0 17 2839 5 3,400 170 - 179 169,5 - 179,5 174,5 14 2443 10 1,400 180 - 190 179,5 - 190,5 185,0 1 185 11 0,091 Totale 52 8677 Per costruire l’istogramma sull’asse delle ascisse si indicano i limiti inferiore e superiore di ciascuna classe, mentre sull’asse delle ordinate si indicano le densità (assolute o relative). 7 Dipartimento di Economia Insegnamento di Statistica Esercitazione n. 3 (Stat. Descrittiva) 1. Un campione di 19 studenti dichiara il seguente peso corporeo (in kg): Num. studente 20 44 65 23 6 49 68 30 70 34 Peso (in kg) 67 54 53 67 42 60 49 67 48 70 Num. studente 56 69 64 106 102 2 56 58 13 Peso (in kg) 72 58 70 79 75 77 72 97 80 (a) Si calcolino media aritmetica e media geometrica e se ne verifichi l’ordinamento (si usino almeno due cifre decimali). (b) Si calcolino la mediana e il primo e il terzo quartile. (c) Si calcolino nuovamente la mediana e la media aritmetica eliminando l’osservazione relativa all’individuo con il peso maggiore. 2. Si consideri la distribuzione secondo le frequenze assolute del carattere Numero di viaggi all’estero e↵ettuati negli ultimi 5 anni per un campione di 127 studenti: Numero di viaggi (xi) Nessuno 1 2 o 3 4 o 5 oltre 5 Totale Frequenza assoluta (ni) 8 29 48 27 15 127 Si determinino il primo e terzo quartile, il secondo decile e il quindicesimo centile. 1 µ = 1 N kX i=1 x i n i = 1 19 1257 = 66, 158; µ g = N vuut kY i=1 x i n i = e 1 N Pk i=1 ln xini = e 1 19 79,267 = 64, 840; (b) Mediana, primo quartile e terzo quartile: Distribuzione delle frequenze relative: i Peso x i n i N i f i F i 1 42 1 1 0,053 0,053 2 48 1 2 0,053 0,105 3 49 1 3 0,053 0,158 4 53 1 4 0,053 0,211 5 54 1 5 0,053 0,263 6 58 1 6 0,053 0,316 7 60 1 7 0,053 0,368 8 67 3 10 0,158 0,526 9 70 2 12 0,105 0,632 10 72 2 14 0,105 0,737 11 75 1 15 0,053 0,789 12 77 1 16 0,053 0,842 13 79 1 17 0,053 0,895 14 80 1 18 0,053 0,947 15 97 1 19 0,053 1,000 N=19 Per determinare i quartili applichiamo la seguente formula (distribuzione aggregata di fre- quenza), per l = 1, 2, 3 (N.B. i indica la posizione d’ordine della modalità i-esima del carattere, N i indica la frequenza assoluta cumulata della modalità che occupa la posizione i-esima): N i1 < N · l 4 < N i => q l = x i N i1 = N · l 4 < N i => q l = x i1 + xi 2 - Primo quartile q1: è la quantità che non è superata da 1/4 dei termini ordinati della distri- buzione: N4 = 4 < 19 · 1 4 = 4, 75 < N5 = 5 => q1 = x5 = 54 - Secondo quartile o mediana q2: la mediana è la quantità che non è superata da 1/2 dei termini ordinati della distribuzione: N7 = 7 < 19 · 1 2 = 9, 5 < N8 = 10 => q2 = x8 = 67 2 - Terzo quartile q3: è la quantità che non è superata dai 3/4 dei termini ordinati della distri- buzione: N10 = 14 < 19 · 3 4 = 14, 25 < N11 = 15 => q3 = x11 = 75 (c) Elimino l’osservazione relativa all’individuo con il peso maggiore: i Peso x i n i x i · n i N i F i 1 42 1 42 1 0,056 2 48 1 48 2 0,111 3 49 1 49 3 0,167 4 53 1 53 4 0,222 5 54 1 54 5 0,278 6 58 1 58 6 0,333 7 60 1 60 7 0,389 8 67 3 201 10 0,556 9 70 2 140 12 0,667 10 72 2 144 14 0,778 11 75 1 75 15 0,833 12 77 1 77 16 0,889 13 79 1 79 17 0,944 14 80 1 80 18 1,000 N=18 1160 - Secondo quartile o mediana q2: N7 = 7 < 18 · 1 2 = 9 < N8 = 10 => q2 = x8 = 67 - Media aritmetica: µ = 1 N kX i=1 x i n i = 1 18 1160 = 64, 44. Quindi, mentre la mediana è rimasta inalterata a fronte di una variazione in uno dei due estremi della distribuzione ordinata, la media aritmetica si è ridotta. 3 2. Si consideri la distribuzione secondo le frequenze assolute del carattere Numero di viaggi all’estero e↵ettuati negli ultimi 5 anni per un campione di 127 studenti: Numero di viaggi (x i ) Nessuno 1 2 o 3 4 o 5 oltre 5 Totale Frequenza assoluta (n i ) 8 29 48 27 15 127 Freq. ass. cumulata (N i ) 8 37 85 112 127 Si determinino il primo e terzo quartile, il secondo decile e il quindicesimo centile. SOLUZIONE formula valore q1 N1 = 8 < 127 · 14 = 31, 75 < N2 = 37 x2 = 1 viaggio q3 N3 = 85 < 127 · 34 = 95, 25 < N4 = 112 x4 = 4 o 5 viaggi d2 N1 = 8 < 127 · 210 = 25, 40 < N2 = 37 x2 = 1 viaggio c15 N1 = 8 < 127 · 15100 = 19, 05 < N2 = 37 x2 = 1 viaggio 3. Si riprenda l’Esercizio 2 dell’Esercitazione 2 con le relative soluzioni, inerente la distribuzione del carattere Statura per un campione di studentesse. (a) Sulla base dei dati aggregati secondo la distribuzione delle frequenze assolute si determini la mediana. (b) Sulla base della distribuzione dei dati aggregati secondo le classi di altezza 150159, 160164, 165 169, 170 179, 180 190 e del relativo istogramma di frequenza (punto (b) Esercizio 2): i. si determini la classe mediana; ii. si determini la classe modale; iii. si calcoli la mediana e si confronti il risultato con quello ottenuto al punto (a); iv. si calcoli la frequenza teorica delle studentesse con altezza compresa tra 162 e 174 (nell’ipotesi di uniforme distribuzione delle unità nelle classi). 4 Classi Pop. Comuni Valori centrali Resid. n i delle classi x̄ i 1 [10; 1.000] 1981 505 2 (1.000-3.000] 2654 2.000 3 (3.000-5.000] 1191 4.000 4 (5.000-10.000] 1154 7.500 5 (10.000-20.000] 649 15.000 6 (20.000-40.000] 289 30.000 7 (40.000-80.000] 121 60.000 8 (80.000-250.000] 50 165.000 9 (250.000; 3.000.000] 12 1.625.000 Totale 8.101 (b) La popolazione media per Comune è data semplicemente dall’ammontare totale della popo- lazione diviso il numero totale di Comuni: µ 0 = 57.321.070 8.101 = 7.076 I due risultati di↵eriscono molto tra loro a causa dell’arbitrarietà con cui sono stati definiti gli estremi inferiore e superiore della prima e dell’ultima classe, rispettivamente. (c) Supponendo noto l’ammontare totale del carattere per la prima e l’ultima classe ottengo: x̄1 = 1.107.695 1981 = 559 x̄9 = 8.820.717 12 = 735.060 Quindi, al punto (a) dell’esercizio, il valore centrale della prima classe è stato leggermente sottostimato, mentre il valore centrale dell’ultima classe è stato fortemente sovrastimato. Ciò ha comportato una sovrastima complessiva della popolazione media nei Comuni italiani. Alla luce di queste nuove informazioni, infatti, la media calcolata sulla base dei valori centrali delle classi è pari a: µ ⇤ = 1 N kX i=1 x̄ i n i = 1 8101 (559⇥ 1981 + ...+ 735.060⇥ 12) = 7.724 un valore molto simile a quello e↵ettivo (7.076). 7 Diaprtimento di Economia Corso di Statistica Esercitazione n. 4 (Stat. Descrittiva) 1. Si consideri la distribuzione di frequenze assolute del carattere numero di sigarette fumate nelle ultime 24 ore e del carattere sesso per un campione di 186 studenti di Economia, riportata nella seguente tabella (nFi e nMi indicano le frequenze assolute rispettivamente per le femmine ed i maschi): Num. sigarette xi nFi nMi 0 67 59 1 2 4 2 3 2 3 1 2 4 1 4 5 2 2 6 2 0 7 3 1 8 1 4 10 5 5 11 0 1 15 4 2 16 1 0 18 0 1 20 1 4 30 0 1 40 0 1 Totale 93 93 Si calcolino lo scostamento quadratico medio, la varianza e il coeciente di variazione del numero di sigarette fumate nelle ultime 24 ore, separatamente per i maschi e per le femmine, e si dica in quale dei due casi la variabilità è maggiore. 1 2. Il quantitativo di merce giacente nei magazzini di una certa ditta alla fine di un certo anno è riportato nella seguente tabella: Magazzino Giacenze A 735 B 112 C 45 D 22 E 75 F 105 G 75 H 75 I 45 L 105 (a) Si determini l’indice di concentrazione di Gini per le giacenze. (b) Si disegni la curva di concentrazione. (c) Sapendo che per l’anno successivo la quantità totale giacente nei dieci magazzini è uguale a 915 e che l’indice di concentrazione di Gini risulta pari a 0,4846, che cosa si deduce rispetto alla quantità totale e alla concentrazione di giacenze nei magazzini della ditta alla fine dei due anni presi in considerazione? 3. È stata analizzata la quantità di ferro (in mg) contenuta in 84 campioni di terreno. I risultati sono riportati nella seguente tabella in cui compare la distribuzione di frequenza e l’ammontare di quantità di ferro per ogni classe: Classi Campioni Ammontare (in mg) di terreno di ferro 0-5 15 20 5-15 18 108 15-40 19 304 40-60 12 600 60-70 6 390 70-100 14 1260 84 2682 Calcolare il rapporto di concentrazione R. 2 SOLUZIONE Tabella per i calcoli: xi nFi nMi xinFi xinMi (xi µF )2nFi (xi µM )2nMi 0 67 59 0 0 348,16 779,33 1 2 4 2 4 3,27 27,76 2 3 2 6 4 0,23 5,34 3 1 2 3 6 0,52 0,8 4 1 4 4 16 2,96 0,53 5 2 2 10 10 14,8 3,73 6 2 0 12 – 27,68 – 7 3 1 21 7 66,85 11,33 8 1 4 8 32 32,72 76,23 10 5 5 50 50 298,03 202,6 11 0 1 – 11 – 54,25 15 4 2 60 30 647,24 258,35 16 1 0 16 – 188,25 – 18 0 1 – 18 – 206,37 20 1 4 20 80 314,01 1071,33 30 – 1 – 30 – 695,14 40 – 1 – 40 – 1322,46 Tot. 93 93 212 338 1944,73 4715,57 Numero medio di sigarette fumate da parte dei maschi e delle femmine: µF = 1 NF kX i=1 xinFi = 212 93 = 2, 28; µM = 1 NM kX i=1 xinMi = 338 93 = 3, 63. Varianza, scostamento quadratico medio e coeciente di variazione per i maschi e per le femmine: 2 F = 1 NF kX i=1 (xi µF )2nFi = 1944, 73 93 = 20, 91; F = q 2 F = p 20, 91 = 4, 57. 2 M = 1 NM kX i=1 (xi µF )2nMi = 4715, 57 93 = 50, 71; M = q 2 M = p 50, 71 = 7, 12. CVF = F µF · 100 = 4, 57 2, 28 100 = 200, 60; CVM = M µM · 100 = 7, 12 3, 63 100 = 195, 93. Confrontando i valori assunti dallo scostamento quadratico medio potremmo pensare che il carattere oggetto di studio presenti una variabilità maggiore per i maschi rispetto alle femmine. In realtà, essendo il valor medio diverso tra maschi e femmine, il confronto di variabilità deve essere svolto sulla base del coeciente di variazione (CV). In e↵etti, si può concludere che il carattere numero di sigarette fumate presenta una variabilità leggermente maggiore tra le femmine rispetto ai maschi. 2 2. Il quantitativo di merce giacente nei magazzini di una certa ditta alla fine di un certo anno è riportato nella seguente tabella: Magazzino Giacenze A 735 B 112 C 45 D 22 E 75 F 105 G 75 H 75 I 45 L 105 (a) Si determini l’indice di concentrazione di Gini per le giacenze. (b) Si disegni la curva di concentrazione. (c) Sapendo che per l’anno successivo la quantità totale giacente nei dieci magazzini è uguale a 915 e che l’indice di concentrazione di Gini risulta pari a 0,4846, che cosa si deduce rispetto alla quantità totale e alla concentrazione di giacenze nei magazzini della ditta alla fine dei due anni presi in considerazione? SOLUZIONE (a) Indice di concentrazione di Gini: G = 2 N 1 N1X i=1 (Pi Qi), con: - Pi = i N , frequenza relativa cumulata delle prime i unità ordinate rispetto all’ammontare del carattere; - Ai = Pi j=1 tj , ammontare del carattere che compete alle prime i unità; - Qi = Ai AN , frazione dell’ammontare totale del carattere che compete alle prime i unità. 3 Tabella per i calcoli: ti Pi Ai Qi Pi Qi D 22 0,1 22 0,016 0,084 C 45 0,2 67 0,048 0,152 I 45 0,3 112 0,080 0,220 E 75 0,4 187 0,134 0,266 G 75 0,5 262 0,188 0,312 H 75 0,6 337 0,242 0,358 F 105 0,7 442 0,317 0,383 L 105 0,8 547 0,392 0,408 B 112 0,9 659 0,473 0,427 A 735 1,0 1.394 1,000 0,000 1.394 2,610 G = 2 10 12, 610 = 0, 5799. (b) La curva di concentrazione si ottiene riportando su un sistema di assi cartesiani i valori di Qi in funzione dei valori di Pi. (c) Commento: in base ai dati forniti la quantità giacente in magazzino alla fine del secondo anno si riduce rispetto al primo anno, cos̀ı come l’indice di concentrazione. Pertanto, possiamo dire che la gestione del magazzino risulta migliorata sia in termini assoluti (minori quantità giacenti) sia in termini di uniformità di comportamento tra i diversi magazzini (minore concentrazione). 4 M F media µ 178,3 161,0 mediana m 177,5 165,5 q1 176,0 163,0 q3 182,0 167,0 q3 q1 6 4 campo var. 10 26 ↵2 0,50 -0,25 Per i maschi l’indice assume un valore positivo e intermedio, denotando una certa asimmetria positiva nella distribuzione. Per le femmine, invece, l’indice è negativo ma sostanzialmente piccolo in valore assoluto, denotando una leggera asimmetria negativa. (b) I due diagrammi a scatola sono costruiti ponendo q1 come base inferiore della scatola, q3 come base superiore e x(1) e x(n) rispettivamente come limiti inferiore e superiore. Come si può osservare, dal grafico emergono con immediatezza gli aspetti salienti delle due dis- tribuzioni. In primo luogo, l’altezza mediana è sensibilmente superiore per i maschi. L’altezza delle scatole, corrispondente alla di↵erenza interquartile, mette in luce che la distribuzione dei maschi presenta una variabilità leggermente maggiore, mentre il campo di variazione evidenzia la presenza di dati anomali nella distribuzione delle femmine. Infine, la comparazione delle distanze del primo e terzo quartile dalla mediana mette in luce una leggera asimmetria posi- tiva nella prima distribuzione (maschi) e una sostanziale simmetria nella seconda distribuzione (femmine). 7 Dipartimento di Economia Insegnamento di Statistica Esercitazione 5 (Stat. Descrittiva) 1. Si faccia riferimento ai dati dell’esercizio 3 dell’Esercitazione 2, relativi alla distribuzione in classi del carattere Altezza delle femmine che frequentano il secondo anno di Economia e riportati di seguito per comodità: Altezza (classi) Classi reali Valori centrali Freq.Ass. Val.Centr.*Freq.Ass. ci1 ci x̄i = ci+ci12 ni x̄i · ni 150 - 159 149,5 - 159,5 154,5 4 618 160 - 164 159,5 - 164,5 162,0 16 2592 165 - 169 164,5 - 169,5 167,0 17 2839 170 - 179 169,5 - 179,5 174,5 14 2443 180 - 190 179,5 - 190,5 185,0 1 185 Totale 52 8677 Calcolare l’indice di asimmetria ↵1. 2. Si consideri la seguente serie storica relativa al numero di richieste di cassa integrazione ordinaria da parte di aziende operanti in una certa area geografica: Anno 2005 2006 2007 2008 2009 2010 2011 Numero di domande 156 147 145 150 180 250 168 Si ricavi: (a) la serie dei numeri indici con base 2006 = 100; (b) la serie dei numeri indici con base 2010 = 100 (si utilizzino i risultati di cui al punto (a)); (c) la serie dei numeri indici a base mobile (si utilizzino i risultati di cui al punto (a)); (d) la serie dei numeri indici con base 2008 = 100 (si utilizzino i risultati di cui al punto (c)); (e) la variazione percentuale del numero di domande dal 2006 al 2009; (f) la variazione percentuale media del numero di domande dal 2006 al 2009; (g) il numero di domande atteso per il 2012 supponendo che la variazione percentuale rispetto all’anno 2011 sarà pari a -3,0%. 1 3. Nella seguente tabella vengono riportati prezzo (in euro per kg) e quantità (in milioni di kg) di due prodotti alimentari venduti in Italia negli anni 1990 e 2010. Prezzo Quantità 1990 2010 1990 2010 Prodotto 1 2,0 3,5 6.523,0 8.734,0 Prodotto 2 10,0 23,0 867,3 589,9 Calcolare il numero indice di Laspeyres. 4. La seguente tavola riporta, per un certo numero di beni alimentari, il valore scambiato nel 2015 (pari al prodotto tra la quantità scambiata e il prezzo) e l’indice dei prezzi dal 2015 al 2016 (dati fittizi): Bene Valore 2015 Indice prezzo 2016/2015 Pasta di semola 6784 1,0354 Pasta fresca 8325 1,0412 Pasta all’uovo 7332 1,0101 Pasta senza glutine 9272 1,0273 Determinare l’indice dei prezzi di Laspayres e commentare il risultato. 2 Anno 2005 2006 2007 2008 2009 2010 2011 N. indici con base 2010 = 100 62,40 58,80 58,00 60,00 72,00 100,00 67,20 (c) Per passare dalla serie dei numeri indice a base fissa h alla serie dei numeri indice a base mobile è necessario e↵ettuare la seguente operazione per ogni tempo t superiore al primo: it ⇥ 100 = h It hIt1 ⇥ 100 La serie richiesta è ottenuta ponendo h = 2006 e t = 2005, . . . , 2011: Anno 2005 2006 2007 2008 2009 2010 2011 N. indici a base mobile – 94,23 98,64 103,45 120,00 138,89 67,20 (d) Per passare dalla serie dei numeri indice a base mobile alla serie dei numeri indice a base fissa h è necessario distinguere i seguenti casi: h < t : hIt ⇥ 100 = ⇣ ih+1 100 ⇥ ih+2 100 . . . it 100 ⌘ ⇥ 100 h > t : hIt ⇥ 100 = ⇣ it+1 100 ⇥ it+2 100 . . . ih 100 ⌘1 ⇥ 100 t = h : hIt ⇥ 100 = 100 (1) La serie richiesta è ottenuta ponendo h = 2008 e t = 2005, . . . , 2011: Anno 2005 2006 2007 2008 2009 2010 2011 N. indici con base 2008= 100 104,00 98,00 96,67 100,00 120,00 166,67 112,00 (e) La variazione percentuale del numero di domande dal 2006 al 2009 è data da: 2006v2009 ⇥ 100 = a2009 a2006 a2006 ⇥ 100 =2006 I2009 100 = 122, 45 100 = 22, 45 (f) la variazione percentuale media del numero di domande dal 2006 al 2009 è data da: 2006v̄2009⇥100 = 20092006 p i2007 ⇥ i2008 ⇥ i2009100 = 3 p 98, 64⇥ 103, 45⇥ 120, 00100 = 6, 98 (g) Il numero di domande atteso per il 2012 supponendo che la variazione percentuale rispetto all’anno 2011 sarà pari a -3,0% è dato da: 168 + 168⇥ (0, 03) = 163 3 3. Nella seguente tabella vengono riportati prezzo (in euro per kg) e quantità (in milioni di kg) di due prodotti alimentari venduti in Italia negli anni 1990 e 2010. Prezzo Quantità 1990 2010 1990 2010 Prodotto 1 2,0 3,5 6.523,0 8.734,0 Prodotto 2 10,0 23,0 867,3 589,9 Calcolare il numero indice di Laspeyres. SOLUZIONE Il numero indice di Laspeyres è definito come il rapporto tra la spesa che si sarebbe sostenuto al tempo t se le quantità fossero rimaste uguali a quelle del tempo base b e la spesa sostenuta al tempo base b. IL · 100 = Pk i=1 pitqibPk i=1 pibqib · 100 = 3, 5 · 6.523, 0 + 23, 0 · 867, 3 2, 0 · 6.523, 0 + 10, 0 · 867, 3 · 100 = 196, 96 Quindi, dal 1990 al 2010, complessivamente i prezzi dei due beni sono aumentati di oltre il 96%. 4. La seguente tavola riporta, per un certo numero di beni alimentari, il valore scambiato nel 2015 (pari al prodotto tra la quantità scambiata e il prezzo) e l’indice dei prezzi dal 2015 al 2016 (dati fittizi): Bene Valore 2015 Indice prezzo 2016/2015 Pasta di semola 6784 1,0354 Pasta fresca 8325 1,0412 Pasta all’uovo 7332 1,0101 Pasta senza glutine 9272 1,0273 Determinare l’indice dei prezzi di Laspayres e commentare il risultato. SOLUZIONE Il numero indice di Laspeyres può essere calcolato come media aritmetica dei numeri indici dei prezzi ponderata con la spesa al tempo base. Per il calcolo è conveniente prima di tutto trasformare la spesa al tempo base nella sua composizione percentuale, ricavando i pesi wi. Bene pit/pib wi pit/pib · wi Pasta di semola 1,0354 0,214 0,221 Pasta fresca 1,0412 0,263 0,273 Pasta all’uovo 1,0101 0,231 0,234 Pasta senza glutine 1,0273 0,292 0,300 1 1,029 L’indice dei prezzi di Laspayres si ottiene quindi da 4 IL · 100 = kX i=1 pit pib · wi ! · 100 = 1, 029 · 100 = 102, 9 corrispondente ad un incremento medio dei prezzi, tra il 2015 e il 2016, del 2,9%. 5 5. La seguente tabella descrive i clienti di un certo negozio in possesso di una carta sconto, in base al genere (X) e al numero di libri acquistati nell’ultimo mese (Y). Numero libri acquistati 0 1 2 3 4 Maschi 9 21 10 6 4 Femmine 7 36 30 20 11 (a) Quali sono le unità statistiche? Qual è la natura dei caratteri osservati? (b) Si rappresentino graficamente i dati della tabella. (c) Si determinino le distribuzioni marginali del “Numero di libri acquistati” e del “Sesso”. (d) Si determini la proporzione di soggetti che hanno acquistato al massimo 1 libro nell’ultimo mese. (e) Si determinino le distribuzioni secondo il “Numero di libri acquistati”, fatte con le frequenze relative, condizionate al “Sesso” e si commentino i risultati, discutendo in particolare se il “Numero di libri acquistati” è indipendente dal “Sesso”. (f) Sulla base dei risultati di cui al punto (e), si consideri la distribuzione marginale secondo il “Numero di libri acquistati” e se ne calcolino i seguenti quantili: mediana, primo quartile, terzo quartile, 15-esimo centile. (g) Si calcolino la media e la deviazione standard del “Numero di libri acquistati” separatamente per i maschi e per le femmine e si confronti la variabilità utilizzando la metodologia più appropriata. 3 A1 1) Si descriva il procedimento con cui si passa da una distribuzione disaggregata a una distribuzione di frequenze e si indichi quando esso produce una perdita di informazione. (si utilizzino esclusivamente le righe a disposizione). _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ A2 1) Si definiscano i rapporti di composizione, di coesistenza e di derivazione fornendo un esempio per ciascuna categoria di rapporti (si utilizzino esclusivamente le righe a disposizione). _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ 2) Si illustri l’indice di concentrazione R con riferimento a una distribuzione di frequenze con modalità raggruppate in classi. Si indichi, poi, come questo indice possa essere espresso in funzione dell’area di concentrazione. (si utilizzino esclusivamente le righe a disposizione). _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ 3) Si illustri il modello di regressione lineare e si indichi la funzione da minimizzare per la determinazione dei parametri della retta tramite il metodo dei minimi quadrati. Si definiscano, poi, la devianza residua e la devianza spiegata e si indichi la relazione che sussiste tra queste due quantità e la devianza della variabile Y. (si utilizzino esclusivamente le righe a disposizione). _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ _________________________________________________________________________________ Dip. di Economia – Prova intermedia di Statistica (Stat. Descrittiva) A1 Cognome ____________________________ Nome _______________________________ Matricola _______________ Firma _______________________________ PARTE PRATICA A. Si consideri la seguente distribuzione di un campione di 414 lavoratori per classe di età (in anni compiuti) e area geografica di residenza: Classi di età Area di residenza Totale nord centro sud 15 - 30 60 16 22 98 31 - 40 31 21 15 67 41 - 50 24 11 52 87 51 - 65 35 27 100 162 Totale 150 75 189 414 1. Si rappresenti graficamente, mediante un istogramma di frequenza, la distribuzione dell’età per i lavoratori del nord. 2. Si calcoli la frequenza teorica dei lavoratori del nord con età compresa tra 25 e 45 anni. 3. Si determinino le frequenze relative delle classi d’età condizionate alle varie aree geografiche e, su questa base, si stabilisca se l’età dipende statisticamente dall’area geografica. Svolgimento (è possibile utilizzare anche la parte posteriore del foglio): B. Si consideri la seguente tabella che riporta la serie dei numeri indici a base mobile degli arrivi negli esercizi ricettivi in Italia tra il 2011 e il 2015: Anno 2011 2012 2013 2014 2015 Numeri indici base mobile 94,12 98,34 102,24 101,13 97,04 1. Calcolare la serie dei numeri indici in base fissa con base 2012 = 100. 2. Calcolare la variazione media percentuale per gli anni dal 2012 al 2015. Svolgimento (è possibile utilizzare anche la parte posteriore del foglio): C. Nella tabella che segue sono riportati il numero dei componenti e il numero di vani dell'abitazione di un gruppo di 10 famiglie: Num. componenti nucleo familiare 1 2 2 2 3 3 4 4 5 6 Num. vani dell’abitazione 3 3 4 6 2 5 5 6 6 6 1. Si determini, con il metodo dei minimi quadrati, la retta di regressione della dimensione abitativa (Y) in funzione del numero dei componenti della famiglia (X). 2. Si determini la bontà di adattamento della retta di regressione trovata al punto precedente. Svolgimento (è possibile utilizzare anche la parte posteriore del foglio): B. Si consideri la seguente tabella che riporta la serie della retribuzione netta annua di un lavoratore dipendente tra il 2000 e il 2005: Anno 2000 2001 2002 2003 2004 2005 Retribuzione 17.166 17.853 18.818 19.552 19.884 20.242 1. Si determini la serie dei numeri indici percentuali a base mobile. 2. Partendo dalla serie di cui al punto 1, si determini la serie dei numeri indici percentuali con base 2003=100. Si riportino dettagliatamente i singoli passaggi algebrici svolti. 3. Si calcolino la variazione percentuale tra il 2002 e il 2004 e la variazione percentuale media per lo stesso periodo. Svolgimento (è possibile utilizzare anche la parte posteriore del foglio): C. La seguente tabella riporta la dose di un farmaco xi (in mg) e la riduzione della pressione arteriosa yi (in mmHg) osservate su un campione di 5 pazienti: xi yi 7 10 12 18 15 20 20 25 22 25 1. Tramite il metodo dei minimi quadrati, si calcolino intercetta e coefficiente angolare della retta di regressione della riduzione della pressione arteriosa sulla dose di farmaco. 2. Si determini quanta parte della variabilità della riduzione della pressione arteriosa è spiegata dalla retta di regressione di cui al punto precedente. 3. Si determinino l’errore medio di previsione e il valore teorico della riduzione della pressione arteriosa associata a una dose di farmaco pari a 10 mg. Svolgimento (è possibile utilizzare anche la parte posteriore del foglio): Statistica M-Z Lezioni Prof. Bartolucci FASE DELLA RILEVAZIONE DEI DATI Esistono, come accennato, diverse metodologie per permettere di poter acquisire queste informazioni, esse vengono classificate come: a) FONTI AMMINISTRATIVE: Già disponibili grazie a qualche ente di ricerca statale o meno, si riferiscono a tutte le unità; b) INDAGINE/SONDAGGIO: Esso può essere effettuato a sua volta attraverso 3 distinte metodologie, che hanno comunque in comune il fatto di non essere in grado di reperire informazioni su tutte le unità desiderate ma solamente su dei “campioni” (si parla appunto di “Inferenza Statistica”): (b1)l’ “intervista diretta”, che permette la maggior precisione ma che ha costi più elevati, (b2) il “questionario postale”, meno costoso ma anche meno preciso ed (b3) l’ ”intervista telefonica”, con costi e precisioni intermedie. c) SPERIMENTAZIONE: Viene in questo caso modificata la realtà, è una tecnica che viene in particolare utilizzata in ambito medico-farmaceutico, ma anche in economia. Il risultato della fase di rilevazione dei dati è “MATRICE DEI DATI. ”: 2 Statistica M-Z Lezioni Prof. Bartolucci II LEZIONE - 22/02/2017 (assente, appunti albi ama) LE GRANDEZZE STATISTICHE 1)DIFFERENZE 1A) DIFFERENZA ASSOLUTA: b-a (poco usata) esempio di differenza assoluta: unità: differenza tra fatturati FARMALUCE: 1300 MARIOTTINI: 1000 1300-1000=300 1B) DIFFERENZA QUALITATIVA: b-a/b esempio di differenza qualitativa: unità: volumi di produzione FARMALUCE: I Anno: 1300 II Anno: 1000 MARIOTTINI I Anno: 130 II Anno: 100 FARMALUCE: 1300-1000/1000=30/1000= + 3% MARIOTTINI: 130-100/100=30/100= + 30% 2)VARIAZIONI RELATIVE E PERCENTUALI 2A)RAPPORTO DI COESISTENZA: x/y esempio di rapporto di coesistenza: indagine: sesso iscritti Ateneo MASCHI:120 FEMMINE: 100 120/100=1,2 Significa che per ogni maschio c’è una femmina 2B)RAPPORTO DI DERIVAZIONE: fenomeno d’origine/fenomeno derivato (si tratta di un rapporto antecedente logico, un “tasso”). esempio di rapporto di derivazione: indagine: tasso d’interesse w(t)=100 w(o)=90 100/90=1,1% 2C) RAPPORTO DI COMPOSIZIONE: x/tot es. portafoglio investimenti OBBLIGAZIONI: 870£ DERIVATI (ETF): 320£ AZIONI: 110£ TOTALE SOMME INVESTITE: 1300 £ 870/1330=67% del totale del portafoglio è costituito da obbligazioni 3 Statistica M-Z Lezioni Prof. Bartolucci 3)DISTRIBUZIONE STATISTICA 3 A ) D I S T R I B U Z I O N E D I DISAGGREGATA: X=CARATTERISTICA N=VALORE ASSOCIATO esempio di distribuzione statistica: unità: fatturato per province del territorio X1= Perugia X2= Arezzo 3B)DISTRIBUZIONE DI FREQUENZA: x=modalità del carattere n=numero di volte che si manifesta la modalità di carattere esempio di distribuzione di frequenza per un carattere qualitativo sconnesso: unità: quante volte imprese delle province del territorio superano i 5,5 min di fatturato. esempio di distribuzione di frequenza per un carattere qualitativo rettilineo: unità: soddisfazione del prodotto tra i clienti della panetteria. modalità: livello di soddisfazione del cliente esempio di distribuzione di frequenza per un carattere qualitativo discreto unità: numero dei dipendenti delle S.p.A del territorio modalità: numero di dipendenti per impresa X1 X2 X3 X4 N1 N2 N3 N4 X PERUGIA AREZZO TERNI N 1 2 2 PER NIENTE POCO ABBASTANZA MOLTO 3 1 6 2 16 2 116 5 1 6 2 17 4 X N 8 , 9 ,P A Statistica M-Z Lezioni Prof. Bartolucci “[“ oppure “]” matematico nell’indicazione di un intervallo di funzioni (o del ≤ o ≥). L’inclusione o meno di una specifica unità in una classe viene quindi effettuata con il simbolo “-|”, che può essere utilizzato anche per una classe chiusa, che si conseguenza assumerà la denominazione di “classe chiusa a destra” o “classe chiusa a sinistra” a seconda di dove è inserita la simbologia: è chiusa a destra se comprende anche l’estremo di destra, è chiusa a sinistra se include anche l’estremo di sinistra, esempio, altezze di una classe scolaresca del secondo superiore: Quando si utilizza una distribuzione in classe si ha una perdita di informazione perché artificialmente si considerano uguali dei soggetti che rimangono comunque diversi tra di loro, anche se di poco: proprio per sopperire a questo problema, per la distribuzione in classi vengono aggiunte anche la rilevazioni due altre grandezze: la densità (h) e l’ampiezza (d). L’ampiezza si calcola sottraendo l’estremo di destra all’estremo di sinistra di un intervallo di ampiezza unitaria (esempio 5-6 o 100-101, una piccola parte di una classe che forma un “sotto-intervallo”). La densità è poi la grandezza che ci permette di calcolare il numero di unità corrispondenti ad un intervallo di ampiezza unitaria (il numero di unità presenti in ciascuna delle classi , essa si calcola facendo il rapporto tra la frequenza cumulata e l’ampiezza (h=Ni/di). n= numero di volte in cui si ripete il carattere; N= frequenza cumulata; f=frequenza relativa; F=frequenza relativa cumulata; p=percentuale; P=percentuale cumulata; d=ampiezza; h=densità. ALTEZZA DESCRIZIONE ALTEZZA DESCRIZIONE ALTEZZA DESCRIZIONE -165cm classe aperta a sinistra (165 cm è un valore escluso dalla classe) -|165 cm Classe aperta a sinistra che include anche il valore 165 cm 150-|165 cm Classe chiusa a destra 165-185 cm classe chiusa 165-185 cm Classe chiusa 150|-165 cm Classe chiusa a sinistra 185 cm- classe aperta a destra ( 185 cm è un valore escluso dalla classe) 185-| Classe aperta a destra che include anche il valore 185 cm. 150-165 cm Classe Chiusa SPESA n N f F p P d h 0-10 EURO 41 41 0,360 0,360 36% 36% 10 4,1 10-20 EURO 50 91 0,439 0,799 43,9% 79,9% 10 5,0 20-50 EURO 20 111 0,175 0,974 17,5% 97,4% 30 0,667 50-100 EURO 3 114 0,026 1 2,6% 100% 50 0,060 tot 114 1 100% 7 Statistica M-Z Lezioni Prof. Bartolucci Iv LEZIONE - 27/02/2017 DISTRIBUZIONI DOPPIE Mentre le altre tipologie di distribuzioni rappresentavano solamente un carattere, questo tipo di metodo di raccoglimento di dati permette di poter rappresentarne due. In particolare tale metodologia può essere utilizzata per le ricerche che riguardano congiuntamente due caratteri: serve a studiare l’associazione tra due caratteri, ovvero il loro rapporto di dipendenza reciproca di causa-effetto. In questo tipo di tabelle per indicare il carattere si utilizza la lettera maiuscola, e per indicare la modalità con la quale il tale si manifesta vengono invece utilizzate le lettere minuscole. Così come per le distribuzioni singole, anche per quelle doppie distinguiamo due sotto-tipologie: DISTRIBUZIONE DOPPIA DISAGGREGATA: (X1, y1) (X2, y2). Si tratta di un sistema di rappresentazione di dati molto difficile da interpretare, in quanto non da la possibilità di eseguire una sintesi adeguata quando le unità rappresentate sono molteplici. esempio: rapporto tra spesa mensile telefonica e sesso (M, 10); (F, 15). DISTRIBUZIONE DOPPIA DI FREQUENZA (O AGGREGATA): La tale viene definita “tabella doppia”, e ci permette di poter riportare sia la modalità distinta della x che quella della y: si dice che essa sia formata da “s” righe e “t” colonne, ove per “s” si intende il numero di modalità distinte della X, e per “t” il numero di modalità distinte della Y. Ciascuna unità statistica deve quindi presentare due modalità “congiunte” tra di loro, matematicamente ciò si esprime: nij= #{X=xi, Y=yi}. In questa rappresentazione possono essere inoltre calcolate ed aggiunte le “frequenze marginali”, ovvero i totali di riga o colonna (somma da destra a sinistra o dall’alta verso il basso). Nel caso in cui la frequenza marginale sia calcolata sommando tutte e frequenze di una riga matematicamente la sua formula sarà la seguente: t(apice)Σ j=1(pedici) nij=#{X=xi}; nel caso in cui invece le frequenze marginali siano calcolate con la sommatoria dall’alto verso il basso esprimeremo questo accento attraverso questa formula matematica: t(apice)Σ j=1(pedici) nij=#{Y=yi}. E grazie a queste due formule potremo quindi passare a concentrarsi solo ed esclusivamente su un singolo carattere (come nella distribuzione semplice) indipendentemente dalla correlazione dello stesso con il secondo carattere analizzato: il valore che troveremo rappresenterà quindi il numero di unità che presentano un carattere indipendentemente dall’altro. N invece, così come nella distribuzione semplice, rappresenta il numero totale di unità analizzate, è già pre-noto al momento della consegna della matrice dei dati, per essere verificato si potranno utilizzare tre diversi x\y Y1 Y2 YT X1 n1,1 n2,1 n3,1 X2 n2,1 n2,2 n3,2 X3 n3,1 n2,3 n3,3 XS ns,1 n2,s ns,t 8 Statistica M-Z Lezioni Prof. Bartolucci metodi: sommando tutti gli elementi presenti nella tabella doppia, sommando le frequenze marginali di riga o le frequenze marginali di colonna. Esempio di distribuzione di frequenza: caratteri: sesso, spesa mensile internet. N= 114; TOT MASCHI=59; TOT DONNE=55; TOT SPESA 0-10=41; TOT SPESA 10-20: 50; TOT SPESA 20-50=20; TOT SPESA DA 50 IN POI=3 DISTRIBUZIONE PONDERATA (DI FREQUENZA E DISAGGREGATA) Questa tipologia di distribuzione permette di poter classificare le unità della popolazione statistica in base alla loro importanza sulla complessiva rilevazione, si tratta di una tecnica che viene spesso utilizzata per rappresentare il fatturato di una impresa di grandi dimensioni, permettendo di poter dare maggiore peso a talune voci piuttosto che ad altre (es. maggiore importanza alle spese sostenute per la gestione caratteristica piuttosto che per quella extra-caratteristica). Il peso che viene dato a ciascuna unità è indicato con “W”. Esempio tipico ne è la media dei voti universitari: esempio di distribuzione ponderata: DISTRIBUZIONE DI QUANTITA’ Si tratta di una tipologia di distribuzione che può essere utilizzata sia per caratteri qualitativi che quantitativi, in cui si fornisce l’ammontare del carattere per ogni unità, modalità o classe. In particolare questo metodo c’è di grande utilità quando le unità statistiche vengono suddivise in classi, in quanto ci SESSO\ SPESA 0-10 10-20 20-50 50- FREQUENZE MARGINALI(X) MASCHI 23 26 8 2 59 FEMMINE 18 24 50 1 55 FREQUENZE MARGINALI(Y) 41 50 20 3 114 (N) Xi Wi X1 W1 X2 W2 X3 W3 XN WN VOTO ESAME CREDITI FORMATIVI ATTRIBUITI (CFU) 21 9 CFU 23 9 CFU 26 6 CFU 24 9 CFU 28 9 CFU 28 9 CFU 29 6 CFU 9 Statistica M-Z Lezioni Prof. Bartolucci Se fossimo invece difronte ad una distribuzione in classe dovremmo utilizzare l’ ISTOGRAMMA DI FREQUENZA: Viene utilizzato in questa situazione a causa del fatto che nella distribuzione in classe si è difronte a delle unità che non sempre hanno la stessa ampiezza: il diagramma ad aste consente infatti di mettere in evidenza anche la sua ampiezza, che sarà quindi coincidente alla larghezza di ciascun rettangolo. Le “aree” dei rettangoli invece, se giustamente rappresentate, ci indicano la frequenza assoluta. Grazie all’istogramma di frequenza potrà esser infatti calcolata una nuova grandezza: la densità relativa, da non confondersi con la densità assoluta. La densità assoluta è infatti, come si è detto, il rapporto tra fa frequenza assoluta e l’ampiezza della classe; la densità relativa al contrario è il rapporto tra la densità assoluta stessa e il numero totale di unità analizzate: hi=Hi/N. L’istogramma di frequenza deve essere sempre utilizzato nel caso in cui debbano essere rappresentati dei “fenomeni di movimento”, ovvero quando devono essere rappresentati dei dati che variano a seconda del periodo temporale indicato sull’asse delle x: non a caso è così per ogni istogramma proposto da iMac su Pages. PASSAGGI: 1)Calcolare la densità di ciascuna classe (hi=Ni/di) 2)Costruire un piano cartesiano nel quale il carattere è posizionato sull’asse delle ascisse, mentre la sua densità sull’asse delle ordinate. 3)Cost ru i re i “ re t tango l i ” che avranno una base=ampiezza e un’altezza=densità. DIAGRAMMA E’ CORRETTO SE: a) base=ampiezza b) altezza=densità. E s e m p i o : S p e s a m e n s i l e t e l e f o n i c a . Xi (Spesa mensile) ni hi 0-10 41 4,1 10-20 50 5 20-50 20 0,667 50- 3 0,060 12 0 1,25 2,5 3,75 5 0-10 10-20 20-50 50-100 Regione 1 Statistica M-Z Lezioni Prof. Bartolucci vi LEZIONE - 01/03/2017 L’Istogramma di frequenza non è però l’unica modalità attraverso la quale effettuare una rappresentazione sintetica per una distribuzione in classi: in molti casi infatti è possibile utilizzare anche la: CURVA SPEZZATA: L a d i f f e r e n z a c o n l e a l t r e d u e rappresentazioni sintetiche fin ora viste è che la tale non presenta dei gradini o dei rettangoli, bensì dei piccoli segmenti che si uniscono tra di loro appunto attraverso una curva , e p ropr io da c iò der iva l a denominazione di curva spezzata. In particolare l’utilizzo della curva spezzata è funzionale grazie a questa è possibile identificare qualsiasi valore della X. PASSAGGI: 1)Calcolare frequenze relative cumulate; 2)Disegnare piano cartesiano: sull’asse delle x vengono messi i caratteri, e quindi le classi, mentre sull’asse delle y le frequenze relative cumulate. 3)Segnare nel piano i punti in ogni estremo di destra della classe correlato con il relativo valore della frequenza cumulata (messa nell’asse delle Y). CURVA CORRETTA SE: a)Vengono congiunti dei punti consecutivi; b)Non decrescente. E s e m p i o : s p e s a m e n s i l e t e l e f o n i c a . Xi (Spesa mensile) ni Fi 0-10 41 0,360 10-20 50 0,799 20-50 20 0,974 50- 3 1 13 0 25 50 75 100 Co C1 C2 Ck 0 25 50 100 0 0,25 0,5 0,75 1 0 10 20 50 100 0,18 0,36 0,799 0,974 1Frequenza relativa cumulata. Statistica M-Z Lezioni Prof. Bartolucci INDICI STATISTICI Gli indici statistici sono dei procedimenti algoritmi che riducono una rilevazione a pochi numeri, il loro obiettivo è quello di agevolare confronti e lettura di un fenomeno, attraverso una sintesi. Di grandissima importanza sono le MEDIE, le quali si dividono in due grandi categorie: 1)MEDIE ANALITICHE: Sono ottenute attraverso delle operazioni matematiche che coinvolgono tutte le modalità della distribuzione: sono applicabili solamente per i confronti quantitativi, e di conseguenza solo ed esclusivamente per modalità numeriche; 2)MEDIE DI POSIZIONE: Sono ottenute tramite dei procedimenti che non sono strettamente riconducibili a delle formule matematiche, per cui permettono di dare una sintesi sia per caratteri qualitativi che quantitativi. Ecco qui elencate tutte le sotto-fattispecie: MEDIE ANALITICHE MEDIE DI POSIZIONE MEDIA ARITMETICA (Tot/Numero Unità) MEDIANA MEDIA GEOMETRICA (utilizzata in ambito finanziario) QUANTILI MEDIA ARMONICA MODA (es. 100 alunni 59 maschi e 41 femmine: moda è essere maschi). MEDIA QUADRATICA (utilizzata nell’ambito di processi produttivi e controlli di qualità degli output). 14 Statistica M-Z Lezioni Prof. Bartolucci Indicando con A un qualunque numero diverso da M, definiamo gli scarti da tale numero: scarto = xi-A.... i=1, 2, …, n La somma dei quadrati di tali scarti è: " Essendo A diverso dalla media aritmetica M, differirà da essa di una certa quantità d, in altre parole: " e anche: " Sostituendo tal espressione nella somma dei quadrati degli scarti dal numero A si ha: " Resta così provato che: " e possiamo quindi affermare che: La somma dei quadrati degli scarti dalla media aritmetica è un valore minimo rispetto alla somma dei quadrati degli scarti da un qualsiasi altro numero. La proprietà che è stata dimostrata per la media aritmetica semplice si estende con analoga dimostrazione alla media aritmetica ponderata. (appunti copiati da internet). Esempio precedente su voti alunno x: 3)PROPRIETA’ INTERNALITA’: La media aritmetica è compresa tra il minimo e il massimo. min≤Media≥max 4)PROPRIETA’ DI INVARIANZA RISPETTO A TRASFORMAZIONI LINEARI: Quando le modalità vengono trasformate secondo una stessa formula, la media cambia alla stessa maniera: x1, x2…xn——>ax1+b, ax2+b, axn+b dove a,b=costanti allora la media da M diverrà aM+b. Xi Xi-media 2 (Xi-Media) 27 1,3333 1,77777 21 -4,667 21,781 28 2,3333 5,443 30 4,3333 18,775 21 -4,667 21,781 27 1,3333 1,7777 -0,0002 71,3333= f(c) 17 Statistica M-Z Lezioni Prof. Bartolucci viii LEZIONE - 07/03/2017 LA MEDIA GEOMETRICA è una tipo di media che viene utilizzata soprattutto in ambito finanziario: ecco la sua formula Il simbolo Pgreco significa “produttoria” e sta ad indicare che ciascun carattere deve essere moltiplicato, per poi essere messo sotto una radice, che a sua volta dovrà avere un valore N=unità analizzate. Quando c’è una distribuzione in classe, si usa il valore centrale, se c’è invece una modalità che si presenta 2 volte anziché aggiungerlo come fattore della produttoria, si eleva al quadrato la modalità (o si eleva per un esponente pari al numero delle frequenze assolute). esempio: tasso d’inflazione del tempo in Italia. Per trovare la media geometrica occorre quindi fare la radice quarta di 1,094=1,0227. Di conseguenza troveremo il “tasso medio” di inflazione facendo (1,0227-1)x100=2,27%: questo tasso sta ad indicare che se ogni anno ci fosse stato un tasso d’inflazione sempre pari a tale cifra, ci sarebbe stata la stessa variazione complessiva di prezzo su un unità di bene. Anche la media geometrica ha delle proprietà: 1)PROPRIETA’ DI INTERNALITA’: La media è sempre compresa tra la modalità più piccola e quella più grande; 2)LA MEDIA GEOMATRICA è SEMPRE ≤ MEDIA ARTIMENTICA se si h a n n o g l i s t e s s i d a t i ( n e l l ’ e s e m p i o p r i m a f a t t o l a m e d i a artimentica=1,028888); 3)PROPRIETA’ DI INVARIANZA RISPETTO A CAMBIAMENTI DI SCALA: Per trasformazione in scala si intende quando si moltiplica la per una stessa cifra ciascuna modalità presente nella rilevazione dei dati. 4)FORMULA ALTERNATIVA: Con questa formula si effettua la media aritmetica dei logaritmi di ciascuna unità. ANNO TASSO IN % VALORE DI UN BENE AL T(0) valeva 1€ 1999 2,3 1,023 2000 1,9 1,19 2001 2,4 1,024 2002 2,5 1,023 1,094 18 Statistica M-Z Lezioni Prof. Bartolucci LA MEDIA QUADRATICA si usa invece quando le modalità sono “errori di misura”, viene proprio per questo utilizzata soprattutto in ambito di processi produttivi. Ecco la sua formula: Anche per quello che riguarda questa tipologia di media, occorre ricordare che nel caso in cui debba essere utilizzata in riferimento ad una distribuzione in classi, occorrerà prendere come riferimento il valore centrale. Esempio: errori di un processo produttivo su delle barre di metallo. Se questi valori sarebbero stati calcolati attraverso l’uso delle media aritmetica, sarebbero stati sbagliati, nel senso che non sarebbero stati in grado di riprodurre una sintesi adeguata per la valutazione del fenomeno in questione: la media quadratica infatti, elevando al quadrato elimina le compensazioni tra i valori positivi e negativi (“compensazioni tra modalità”), e proprio per questo si tratta di una media particolarmente adatta per il calcolo di errori di misura. Anche la media quadratica ha le sue proprietà: 1)PROPRIETA’ DI INTERNALITA’: La media quadratica ha sempre un valore superiore a zero ed un valore inferiore al massimo valore del carattere. 2)A PARITA’ DI DATI LA MEDIA QUADRATICA E’ SEMPRE UGUALE O SUPERIORE ALLA MEDIA ARTIMETICA. 3)SE VIENE MODIFICATA L’UNITA’ DI MISURA DEL CARATTERE, LA MEDIA QUADRATICA SUBISCE LE STESSE TRASFORMAZIONI. (Proprietà delle trasformazioni lineari). LA MEDIA ARMONICA: Si applica quando le modalità sono misurate in unità di tempo, viene utilizzata nella fattispecie soprattutto nello Sport, ad esempio per misurare il tempo medio impiegato da un atleta o da una macchina/moto per percorrere una determinata distanza. Errore (misurato in millimetri) Xi (valore centrale) ni 2 Xi x Ni MEDIA QUADRATICA -10,-5 -7,5 6 337,5 -5,-2 -3,5 12 147 -2,2 0 20 0 2,5 3,5 8 98 5,10 7,5 4 225 N=50 807,5 Radice quadrata di (807,5/50)=4,019 19 Statistica M-Z Lezioni Prof. Bartolucci x LEZIONE - 13/03/2017 IL QUANTILE (l/t): Si tratta di un indice statistico associato ad una particolare funzione: la sua definizione recita infatti “la modalità “q” tale che a popolazione viene divisa in due gruppi con dimensioni arbitrarie, non necessariamente della stessa numerosità, ove il primo gruppo ha modalità≥q e il secondo gruppo modalità≤q”. Nella formula matematica indichiamo al denominatore “t” come l’insieme delle unità analizzate: a seconda del valore di “t” il quantile avrà una diversa denominazione: sarà un “quartile” quando t=4, sarà un “decile” se t=10 o un “centile” se t=100. A seconda del valore indicato al numeratore chiameremo invece “primo quantile” o “secondo quantile” se l=1 o l=2. QUANTILE CON DISTRIBUZIONE DISAGGREGATA: 1)ORDINARE LE MODALITA’ 2)h=N x (l/t). Può essere un numero intero o decimale: 3A)NUMERO INTERO: q=1/2(yh+yh+1) (media dei valori centrali/2) 3B)NUMERO DECIMALE: q=yh+1 [yh=parte intera del numero trovato in (2)] ESEMPIO (B): Numero di figli per famiglia Xi=2,0,2,3,1 1)0,1,2,2,3. 2)h=5 x 1/4=1,25 3A)q=1+1=2(seconda posizione), q=1 ESEMPIO (A): Numero figli per famiglia. X=0,1,2,2. 2)h=4(1/4)=1 3B)q=1/2 x 1=0,5 QUANTILE CON DISTRIBUZIONE DI FREQUENZA NON IN CLASSI: 1)Calcolo le frequenze assolute cumulate (Ni); 2)h=Nh>N x (l/t) (trovare il primo numero tale da essere maggiore di N x l/t; 3A) se Nh-1<N x (l/t)———>q è in posizione di h 3B)se Nh-1=N x (l/t)———>q= 1/2 (Xh-1+Xh) QUANTILE CON DISTRIBUZIONE DI FREQUENZA IN CLASSI: 1)Calcolo le frequenze assolute cumulate (Ni) 2)h=Nh>N x (l/t) 3)Ch-1+[(N x (l/t) - Nh)/nh] x dh esempio di quantile con distribuzione di frequenza in classi: I QUARTILE: N x (l/t)=50x(1/4)=12,5 h=terza riga, perché la prima volta che Nh>12,5 è nella terza riga. q=170+ (12,5-11/35)x 10=170,3 cm ALTEZZA ni Ni 150-160 1 1 160-170 10 11 170-180 35 46 180-200 4 50 N=50 22 Statistica M-Z Lezioni Prof. Bartolucci I quantili possono però essere rilevati anche partendo dalla “funzione di ripartizione”, ovvero quella funzione che per qualsiasi valore della x da la sua frequenza relativa cumulata: F(x)=[frequenza relativa x≥x]. Partendo dallo stesso grafico, utilizzando il procedimento inverso, può essere trovato il quantile, partendo da un valore dell’asse Y anziché da u n valore dell’asse x. es. con mediana (che è un tipo di quartile) LA MODA Si tratta dell’unica media utilizzabile anche per caratteri qualitativi: data una distribuzione di frequenza non in classi, la moda è definita come la modalità con maggiore frequenza. Data una distribuzione di frequenza in classi non si parlerà di moda ma di “classe modale”, che in questo caso si troverà attraverso il seguente calcolo matematico: ni/di (frequenza assoluta/ampiezza della classe). LA VARIABILITA’ Sono stati indicati precedentemente tutti i tipi di media: ora occorre introdurre il concetto di variabilita’: esso infatti ci permette di poter descrivere in modo più completo una distribuzione oltre a quello che viene fatto attraverso una media. A volte infatti la media da una sintesi che riduce in maniera eccessiva le informazioni.“La Variabilità è la tendenza delle unità di un collettivo ad assumere modalità diverse tra di loro”; di conseguenza si parlerà di variabilità nulla quando tutte le unità presentano la stessa modalità, e di “alta variabilità” quando siamo difronte ad una popolazione statistica molto eterogenea. esempio: In entrambi i casi siamo difronte a due popolazioni con N=25, e con la stessa media aritmetica=2,04: come è evidente però, pur essendoci una media uguale, la composizione è completamente diversa: c’è un diverso grado di variabilità. Il grado di variabilità deve però essere trovato attraverso l’utilizzo di due diverse tipologie di indice, entrambe le quali devono presentare due POPOLAZIONE A: X(A) n(A) POPOLAZIONE B: X(B) n(B) 0 1 0 2 1 4 1 6 2 15 2 9 3 3 3 5 4 2 4 3 23 Statistica M-Z Lezioni Prof. Bartolucci fondamentali caratteristiche: essere uguali a 0 quando c’è variabilità nulla, e crescere al crescere del livello della variabilità. A)Indici su “SCONSTAMENTI/SCARTI DELLA MEDIA” (operazioni tra Xi e media) B)Indici su “DIFFERENZE TRA STATISTICHE D’ORDINE”: Indici che per essere calcolati richiedono le modalità ordinate (es. mediana o quartili) LA DEVIANZA: 2 D=∑ (Xi-media) Quando siamo difronte d una distribuzione di frequenza per essere calcolata deve essere aggiunta come colonna, per poi sommare ciascun valore e riportare quella totale nell’ultima riga. Quando si è invece davanti ad una distribuzione in classi, si usa lo stesso procedimento, mettendo al posto della “Xi” i valori centrali della classe. Facendo il rapporto tra la Devianza e il numero totale di unità analizzate è possibile trovare la VARIANZA: Xi ni Di X1 n1 x1-media X2 n2 x2-media ….. ….. ….. XN nk xn-media è N D= [(X1-media)+(X2-media)…+ (XN-media) 24 Statistica M-Z Lezioni Prof. Bartolucci direttamente proporzionale al livello di concentrazione verificato, ed il suo valore si indica con “S”. Il suo massimo valore si calcola facendo: (maxS)=1/2 x (N-1/N). Altro indice di notevole importanza è l’indice “R”= (1/N) x ∑ ni [(Pi’-Qi’)+(Pi-Qi)] xiIi LEZIONE-20/03/2017 Esempio su calcolo di indici della concentrazione: sportelli per banca in Umbria. Al fine di calcolare l’indice “R” viene appositamente aggiunta l’ultima colonna, che rappresenta il valore da assegnare alla seconda parte dell’equazione che ci permette di calcolare l’indice stesso ([(Pi’-Qi’)+(Pi-Qi)]): così facendo infatti basterà moltiplicare ciascun valore che abbiamo trovato in quella colonna per la sua frequenza assoluta in, per poi moltiplicare il tutto per 1/N. In questo caso avremo quindiR= 4,30x1/12=0,36. Se fossimo difronte ad una distribuzione in classi, sarà sufficiente prendere in considerazione solamente i valori centrali. INDICI DI FORMA-INDICE DI ASIMMETRIA Si tratta di indici in grado di consentirci di descrivere in modo ancor più compiuto una distribuzione statistica, essendo gli stessi utilizzati partendo dalle forme del grafico rappresentante qualsiasi tipo di distribuzione. In particolare si dice che una distribuzione sia “simmetrica” quando ruotando opportunamente il grafico di distribuzione su se stesso otteniamo lo stesso grafico; per fare si che una distribuzione possa essere simmetrica occorre che rispetti due requisiti: 1)Le modalità prese a coppie devono essere equidistanti dalla mediana: |X1-m|=|X5-m| 2)Le frequenze assolute, prese a coppie, devono avere lo stesso valore: n1=n5 3)La mediana ha un valore pari alla media aritmetica; m= 4)Il primo ed il terzo quartine sono equidistanti dalla mediana. quando invece questa condizione non si verifica si dice “asimmetrica”. In particolare in statistica si evidenziano due diverse tipologie di asimmetria: A)ASIMMETRIA POSITIVA: Si ha quando le modalità più grandi sono meno frequenti; Xi (numero di sportelli per banca) ni (frequenze assolute) Ni (frequenze assolute cumulate) Xi x ni Ai (modalità del carattere cumulate) Qi=Ai/A Pi=Ni/N Qi-Pi (differenza riga +differenz a riga sopra) 5 2 2 10 10 0,05 0,17 0,12 8 3 5 24 34 0,17 0,42 0,25 15 2 7 30 64 0,33 0,58 0,25 20 4 11 80 144 0,73 0,92 0,19 52 1 12 52 196 1 1 0 N=12 A=196 27 Statistica M-Z Lezioni Prof. Bartolucci B)ASIMMETRIA NEGATIVA: Si ha quando le modalità più piccole sono meno frequenti. Per misurare il livello di asimmetria vengono utilizzati due indici: 3 3 (alfa greco 1) α1=1/σ [(1/N)x∑(x1-media1) x (ni) Quando alfa greco 1 è positivo, significa che c’è asimmetria positiva, al contrario, ci sarà asimmetria negativa. Esempio di calcolo di alfagreco1: numero di figli per famiglia. I passaggi da fare per calcolare alfagreco1 saranno quindi: 1)Calcolo della media aritmetica; 2)Calcolo del sigma; 3 3)alfa1=(4,723/25)x 1/(8,871)=0,286 (c’è asimmetria positiva) . Il secondo indice, molto più semplice da calcolare ma comunque importante è (alfagreco2)α2=(q3-m)-(m-q1)/q3-q1. Quando la distribuzione è simmetrica i quartini come sappiamo sono equidistanti, di conseguenza il risultato sarà pari a zero. Quando al contrario l’operazione verrà positiva saremo difronte ad una asimmetria positiva, e negativa se il risultato del rapporto sarà inferiore a 0. Esempio di calcolo di alfagreco2 su altezze (vedi tabella nelle lezioni precedenti) q1=170,43 cm α2=(177,57-174)-(174-170,43)/(177,57-170,43)=0 m=174 cm q3=177,57 cm Grazie all’utilizzo di questi indici statistici ci è permesso inoltre costruire graficamente un diagramma particolarmente utilizzato in campo economico nell’ultimo periodo: il “BOX PLOT”: esso ha una notevole importanza quando può essere confrontato con quelli riferiti ad altre distribuzioni. Quanto più è alto un box, quanto più la distribuzione risulterà con valori alti, quanto più è alto il valore della mediana quanto più sarà alta l’intensità: quanto più saranno distanti tra di loro i quartili, quanto più ci sarà variabilità. Si verifica simmetria quando c’è stessa distanza tra q1 e q2 nel box. Xi ni 3 (Xi x ni) ni 0 1 -8,489 1 4 -4,450 2 15 -0,001 3 3 2,654 4 2 15,059 N=25 4,723 28 Statistica M-Z Lezioni Prof. Bartolucci xiV LEZIONE-21/03/2017 LE SERIE STORICHE: Una distribuzione statistica che rappresenta dei dati ordinati nel tempo: Esempio di serie storica: richiedenti asilo in Italia I valori riportati nella tabella permettono di semplificare la comprensione del fenomeno mettendo a confronto i valori della modalità del carattere da un anno all’altro, o per una distanza di tempo arbitrariamente più ampia. Questi indici si dividono in due grandi categorie: 1)NUMERI INDICE: Si tratta di rapporti statistici, semplici rapporti tra i vari a(t): 1A)NUMERO INDICE A BASE FISSA (b)I(t)=a(t)/ a(b), dove con b si intende il tempo “base”: ovvero il tempo che si mette a confronto con gli altri. es. base 1996 vuol dire che si mettono a confronto i valori ottenuti negli altri anni rispetto a quelli visti per il 1996. Il valore può essere un numero qualsiasi sia maggiore che minore che uguale di 1, e nel caso fosse 1 significherebbe che il fenomeno è rimasto inalterato tra un anno e l’altro. 1B)NUMERI INDICE A BASE MOBILE: Qui anziché fissare una base si fa sempre riferimento al periodo precedente: l’anno, il mese, la settimana, il giorno o l’ora precedenti, si indica con “i”=at/a(t-1) 2)VARIAZIONI PERCENTUALI V(t)=at-a(t-1)/a(t-1): se il valore è pari ad uno significa, anche in questo caso che c’è invariazione, mentre se v>0 c’è variazione d’aumento e se c’è v<0 c’è variazione di diminuzione. 3)INDICI COMPLESSI: indici calcolati su più unità es. indice di inflazione: prezzo attuale/prezzo a base t su media ponderata t=tempo (in Anni, mesi, giorni, ore o minuti) a(t): intensità del fenomeno 1 a1 2 a2 …. … k ak Anno (t) a(t) (b)I(t) (base=96) (b)I(t) base=1998 i(t)=a(t)/a(t-1) V(t)=a(t)-a(t-1)/ a(t-1) 1996 8391 100% 82,85% - - 1997 11633 113633/8931=1 30,25% 107,91% 130,25% 30,27% 1998 10780 10780/8931=12 0,70% 100% 92,67% -7,23% 1999 13648 13648/8931=15 2,82% 126,61% 126,60% 26,60% 2000 11566 11566/8391=12 9,50% 107,29% 84,57% -15,25% 29 0 3500 7000 10500 14000 1996 1997 1998 1999 2000 Richiedenti asilo in Italia
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved