Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica: Capacità Decisionale attraverso l'Analisi di Unità Statistiche e Informazioni, Appunti di Statistica

Questo testo introduttivo alla statistica spiega come la raccolta e l'analisi di dati quantitativi consentano di prendere decisioni di carattere pubblico, privato e sociale. Il testo copre le diverse unità statistiche, le scale di misura, la raccolta di campioni, la distribuzione delle frequenze, le misure di posizione e la correlazione tra variabili. Le definizioni e le proprietà delle diverse scale di misura vengono esaminate, insieme ai metodi per la raccolta di campioni e la costruzione delle distribuzioni di frequenze. Le misure di posizione come media aritmetica e moda vengono presentate, insieme alla dispersione e alle misure di variabilità come varianza e z-score.

Tipologia: Appunti

2017/2018

Caricato il 01/10/2018

Benedetta153
Benedetta153 🇮🇹

10 documenti

1 / 17

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Statistica: Capacità Decisionale attraverso l'Analisi di Unità Statistiche e Informazioni e più Appunti in PDF di Statistica solo su Docsity! STATISTICA TEORIA 14/02 Italia → Le statistiche elaborate in modo ufficiale dall’Istat che elabora su base periodica un censimento della popolazione che fotografa la popolazione italiana in un determinato momento e ne studia l’evoluzione dei componenti macro (tasso di disoccupazione, reddito procapite ecc..) Le analisi statistiche servono a supportare o criticare determinate tesi o scelte in modo numerico, per il cittadino comune però non è facile orientarsi per mancanza di informazioni e conoscenze per questo serve la statistica, per supportare numericamente scelte e fenomeni naturali, economici, sociali o politici incompleti. Dà consapevolezza. I numeri servono a capire : dove sono, supportare azioni, monitorare l’effetto delle azioni. La statistica attraverso lo studio delle diverse unità statistiche e delle informazioni ci fornisce la capacità di prendere decisioni di carattere pubblico, privato e sociale. • Capitolo 1 : raccolta delle informazioni Processo logico su piccola scala : quando somministro un questionario vado ad indagare le unità statistiche cioè le persone, ne raccolgo le risposte e mentalmente le elaboro per ottenere un risultato. Processo logico su grande scala : il censimento stesso processo logico ma con molte più unità, risposte e 1 risultati elaborati. La statistica serve per studiare un fenomeno collettivo che può essere sintetizzato attraverso la descrizione (statistica descrittiva), analizzato e quindi compreso. studio di un fenomeno collettivo al fine di sintetizzarlo, analizzarlo e comprenderlo, consente di 1 quantificare gli abitanti, e conoscere le caratteristiche della popolazione per prevedere eventuali dinamiche della popolazione di riferimento) !1 Lessico - Informazione : se l’unità è una alla quale pubblico una sola domanda non ho una statistica o un’elaborazione, la statistica è infatti correlata ad una moltitudine di unità o persone. - Raccolta di informazioni : tante informazioni, se raccolte in modo non corretto, producono risultati erronei o meglio distorti e ci sono statistiche che misurano il grado di distorsione. - Parametro : misura di una caratteristica riferita ad una popolazione. - Campione : porzione di una popolazione di riferimento, i risultati di questo possono essere più o meno distorti a seconda dei criteri di costruzione del campione. La statistica quindi permette di raccogliere le informazioni e organizzarle in modo metodico, sintetizzarle al fine di analizzarle per arrivare ad una conclusione e per dare risposte numeriche come supporto a risposte alle domande. !2 Definizioni scale di misura Una variabile è rilevata su scala nominale se i valori che la variabile assume sono nomi, etichette o categorie. Fra le modalità della variabile non è possibile istituire nessun tipo di ordinamento. Una variabile è rilevata su scala ordinare se ha le proprietà della scala nominale e fra le modalità del carattere è possibile istituire uno specifico ordine. Una variabile è rilevata su scala ad intervalli se gode delle stesse proprietà della scala ordinal e le differenze nei valori della variabile sono significativi. Un valore pari a zero nella scala di misurazione ad intervalli non significa l’assenza di quantità. Le operazioni aritmetiche come l’addizione o la sottrazione possono essere effettuate sui valori della variabile. Una variabile su scala a rapporti ha le stesse proprietà della scala ad intervalli e i rapporti dei valori sono significativi. Un valore pari a zero nelle scale a rapporti significa assenza di quantità. Operazioni aritmetiche come la moltiplicazione e la divisione possono essere effettuate sui valori della variabile. Le variabili rilevate su scala nominale o ordinale sono qualitative, mentre le variabili su scala ad intervalli o di rapporti sono quantitative. !5 Campione e campionamento Fattori del campionamento : - Numerosità del campione : - Metodologia di costruzione del campione di riferimento : attraverso il campionamento è la procedura per la selezione di un campione, l’utilizzo di un campione risponde a tre esigenze : risparmio di tempo, risparmio di costi, praticità nella gestione (es. dispersione geografica). Quattro mitologie di campionamento : 1. random sampling o campionamento casuale : in modo assolutamente casuale viene estratto un certo numero che è stato assegnato ad ognuno della popolazione di riferimento. È facile perché non implica nessuna scelta da parte dell’organizzatore. Si può utilizzare quando ho una popolazione di riferimento identificata e chiusa alla quale posso associare ad ognuno un numero. Il campionamento casuale è il processo che utilizza il caso per selezionare gli individui da includere in un campione. A caso non significa a casaccio, il concetto è infatti connesso a quello di probabilità, è intuitivo e collegato all’idea di impossibilità di previsione, di individuare un ordine, un legame. VEDI SLIDE. Può essere con remissione o senza, generalmente si usa quello senza perché se no la risposta varrebbe due volte e si otterrebbe così una risposta distorta. Analisi longitudinali : vado a fare domande sempre allo stesso panel (la loro evoluzione sono le community) in modo periodico. 2. stratified sampling : si suddividono i campioni in base alle nostre decisioni, per poter fare l’estrazione effettuo lo stesso procedimento del campionamento casuale. Si può riscontrare un problema dato dalla diversa numerosità dei campionamenti, per risolverlo si attua un campione stratificato di tipo proporzionale quindi ci dev’essere una percentuale tot che permette di prendere la stessa parte da tutti i campioni. Si usa quando posso dividere la popolazione in strati e da ciascuno di essere prendere degli individui in modo casuale, è una soddisfazione artificiale imposta per avere una maggiore rappresentatività della nostra popolazione di riferimento. 3. systematic sampling : lo uso per conoscere la clientela target, è l’unico metodo probabilistico che non funziona su una lista che facilita la creazione della base di partenza. 4. cluster sampling : la popolazione è divisa naturalmente in gruppi e ne estraggo uno in blocco scelto casualmente e di questo intervisto tutti, se ho campioni molto numerosi posso applicare un campionamento stratificato. → Campionamento a stadi di cui la prima fase è il campionamento cluster e la seconda è quello stratificato. Due tipologie di campionamento : - probabilistico : possibilità di generalizzare i risultati, avviene quando ciascuna unità della popolazione è selezionata in maniera casuale e ha una probabilità positiva e nota, metodi sono quello casuale, sistematico, stratificato, a grappolo e multistadio (combinazione delle 4) - non probabilistico : poco affidabili, auto selezione del campione, ciascuna unità della popolazione è selezionata in maniera non casuale e non è nota la sua probabilità di essere inclusa nel campione, è poco usata. !6 Distribuzione di frequenze in classi Quando i dati sono quantitativi la costruzione delle distribuzione di frequenze si può fare raggruppando le singole modalità in classi → intervalli numerici. La suddivisione è opportuna quando le variabili quantitative discrete (età) hanno molte modalità o sempre in quelle continue. !7 Misure di posizione Le misure di posizione o di tendenza centrale sono indica che consentono di sintetizzare una .. Le più utilizzate sono : - media aritmetica : variabili quantitative, è la più diffusa e si calcola sommando tutti i valori e dividendo per il numero di osservazione. Nel caso della distribuzione di frequenze di classi le classi spesso non hanno la stessa ampiezza per una semplice comodità di rappresentazione. La media non è sempre utilizzata perché non è sempre applicabile, se non con dati particolarmente concentrati, e perché è molto influenzata o sensibile da/a valori anomali e estremi, questo la rende una misura poco stabile. È una misura statistica che sintetizzata il fenomeno analizzato mediante un solo valore che risente dei valori anomali e fornisce alcune indicazioni (in modo particolare la posizione della popolazione) ma non in modo completo. Proprietà : 1. La somma delle differenze tra i valori e la loro media aritmetica (scarti della media) è pari a zero 2. In un collettivo suddiviso in n gruppi la media generale si può ottenere come media ponderata delle medie dei gruppi con pesi uguali alle loro numerosità. - moda : variabili quantitative e qualitative, si riferisce a tutti i dati rappresentabili da diagrammi a barre o istogrammi. Viene tipicamente definita come classe o variabile modale, ed è la variabile che si presenta con la frequenza assoluta o relativa più elevata di tutte. Può capitare di avere distribuzioni di dati unimodale, bimodale (ho due frequenze elevate in due punti diversi) o uniforme (tutte hanno la stessa frequenza quindi non c’è una moda). Se ho una distribuzione bimodale perfettamente simmetrica la media coincide con la moda se asimmetrica non coincidono. - mediana : variabili quantitative e ordinali, è il valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente e divide un collettivo in due sottoinsiemi di uguale numerosità. vedere slide Box Plot 
 !10 Misure di dispersione La media mi dà delle informazioni generali che vanno arricchite con indici come quello di dispersione che dà un’indicazione della dispersione dei dati intorno ad un indice di dispersione (generalmente la media). Dispersione : attitudine delle unità di un collettivo ad assumere differenti modalità di carattere, è necessario verificare se le unità statistiche assumono modalità molto diverse o se presentano modalità simili, vicine ad una misura di tendenza centrale. Una variabile degenere non ha variabilità perché tutti i dati hanno lo stesso valore e coincidono con la media. Requisiti : - se la variabilità è nulla l’indicatore assume valore zero - l’indicatore cresce al crescere della variabilità - l’indice di variabilità deve dare un risultato positivo • Campo di variazione o range Dà la differenza tra massimo e minimo di una distribuzione dicendo quindi che il campione è compreso tra due valori. Range = Xmax-Xmin Svantaggi : ignora la distribuzione interna dei dati e, anche se questi sono molti concentrati, la presenza di un valore anomalo può modificare il range che è molto sensibile ai valori estremi. • Intervallo o differenza interquantile Differenza tra il primo e il terzo interquartile (25%-75%), è molto simile al range ma è compreso tra due valori che vado a calcolare e dà info sulla posizione solo del 50% del campione attorno alla mediana. Più una distribuzione è variabile, più il valore assunto dal IQR sarà alto. IQR = Q3 - Q1 • Varianza Si basa sulla deviazione dalla media. Varianza della popolazione Somma delle deviazioni al quadrato dalla media della popolazione diviso il numero di osservazioni nella popolazione → media delle deviazioni al quadrato dalla media aritmetica. !11 Varianza del campione Si ottiene calcolando la somma delle deviazioni al quadrato dalla media del campione dividendo il risultato ottenuto per n-1. n-1 è definita grandi libertà perché le prime sono osservazioni libere di assumere qualsiasi valore a differenza dell’ultima che deve per forza assumere quel valore che forza a zero la somma delle deviazioni dalla media. Scarto quadratico medio o deviazione standard La deviazione standard di una popolazione si ottiene mettendo sotto radice la varianza della popolazione. 𝞼 = √𝞼2 La deviazione standard di un campione si ottiene ponendo sotto radice quadrata la varianza del campione. s = √s2 • Intervalli tipici Si usano quando i dati si presentano in una forma campanulare per determinare la percentuale delle osservazioni che cadono tra la media e k deviazioni standard della media. Se questo accade : - approssimativamente il 68% delle osservazioni cade tra la media e una deviazione standard. - approssimativamente il 95% delle osservazioni cade tra la media e due deviazioni standard della media. - approssimativamente il 99,7% delle osservazioni cade tra la media e tre deviazioni standard della media. • Approssimazione della varianza e della deviazione standard !12 Equazione di una retta y = a + bx “a” è detta intercetta perché interseca la retta di relazione con l’asse y. “b” è detta pendenza o coefficiente angolare perché tanto più è elevato b tanto più la retta è elevata. Il miglior modo per calcolare a-b è quello dei minimi quadrati grazie al quale si identificano i coefficienti a- b che minimizzano gli scarti o residui. Valore stimato : avendo una retta di regressione è il valore che mi consente di avere un Y stimato da modello dato l’X iniziale. !15 Interpretazione : coefficiente angolare o pendenza e intercetta È la variazione in media della variabile dipendente y in corrispondenza dell’aumento di un’unità della variabile esplicativa/indipendente x. L’intercetta è il punto in cui l’asse di regressione incrocia l’asse y, a meno che non sia 0 e corrisponde al valore della variabile dipendente y quando il valore della variabile esplicativa x è pari a zero. Per interpretarla dobbiamo sapere se è ragionevole che la variabile x assuma valore zero e se esiste qualche osservazione nei dati vicini a x=0, se la risposta alle due osservazioni è no non possiamo fornire un’interpretazione specifica all’intercetta. La retta di regressione dei minimi quadrati può essere utilizzata per fare previsioni della variabile risposta y per valori non osservati della variabile esplicativa x. Al contrario non dovrebbe essere utilizzata per fare previsioni al di fuori del campo di applicazione del modello, non possiamo essere sicuri che la relazione lineare continui ad esistere. Non si possono effettuare delle stime perché non c’è la certezza della continuazione della retta in modo lineare. Questo metodo viene utilizzato perché i residui nella retta di regressione sono i minimi e i migliori possibili. R2 mi dice se e quanto è buona la relazione lineare che ho trovato (coefficiente di bontà di adattamento) Coefficiente di determinazione R2 è la misura la quota di variabilità della variabile dipendente spiegata dalla retta dei minimi quadrati. Ad un coefficiente maggiore corrisponde un coefficiente di determinazione elevato, ha una varianza elevata. Assume valori compresi tra 0 ed 1. Se corrisponde a 0 il modello lineare non è adatto a spiegare la relazione, se corrisponde ad 1 il modello spiega la relazione in modo perfetto. !16 Calcolo del coefficiente : - ρ (coefficiente di correlazione) al quadrato, non può risultare negativo. - rapporto tra la devianza spiegata dalla retta di regressione e la devianza totale dei miei dati. - rapporto tra la devianza residua e quella totale. !17
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved