Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

statistica sociale Analisi monovariata, bivariata, distribuzione di probabilità, inferenza, Sbobinature di Statistica Sociale

appunti di statistica sociale, ben organizzati con parole in grassetto e grafici programma dettagliato Rilevazione delle informazioni 2. Analisi monovariata 3. Trasformazione dei dati 4. Introduzione all'analisi bivariata 5. Analisi bivariata: tabulazione incrociata 6. Analisi bivariata: regressione lineare semplice 7. Distribuzioni di probabilità 8. Inferenza statistica: la stima 9. Inferenza statistica: test di significatività

Tipologia: Sbobinature

2022/2023

Caricato il 22/01/2024

bracxe
bracxe 🇮🇹

4.7

(3)

5 documenti

1 / 118

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica statistica sociale Analisi monovariata, bivariata, distribuzione di probabilità, inferenza e più Sbobinature in PDF di Statistica Sociale solo su Docsity! 1 STATISTICA SOCIALE E DINAMICHE DI POPOLAZIONE CAPITOLO 1  CHE COS’È LA STATISTICA La statistica è la scienza che ha come scopo la conoscenza qualitativa dei fenomeni collettivi Si occupa del disegno di studi, raccolta delle informazioni e dell’analisi dei dati che tali studi producono La statistica aiuta a raccogliere i dati necessari poi per descrivere un dato fenomeno Obbiettivo è quello di arrivare alla traduzione dei dati per ottenere una conoscenza del mondo che ci circonda, l’informazione ottenuta dalla sintesi dei dati ci fornisce una conoscenza del campione per poi ritornare alla popolazione che il campione rappresenta  UTILIZZARE I DATI PER RISPONDERE A QUESTIONI STATISTICHE Siamo sommersi dalla statistica e le informazioni che noi riceviamo possono essere  Rivelazioni numeriche di un generico fenomeno ES: la partita di calcio è finita 2-1, il comune ha costituito 120 nuovi appartamenti  Risultato di un’elaborazione ES: com’è cambiata l’inflazione rispetto all’anno scorso? La statistica ci aiuta a dare un significato a tutte queste informazioni e a comprendere e interpretare i fenomeni del mondo Con l’elaborazione si ottiene una visuale più generale e sintetica dei dati raccolti  INTRODUZIONE ALLA METODOLOGIA STATISTICA Negli ultimi decenni si è assistito a un crescente impiego delle metodologie statistiche in tutti gli ambiti delle scienze sociali Le ragioni che giustificano questo incremento sono numerose  Molte ricerche sociali hanno assunto una spiccata connotazione quantitativa: gli argomenti vengono affrontati partendo dall'analisi di dati empirici  La crescita di Internet ha reso disponibili informazioni quantitative immediatamente utilizzabili  Lo sviluppo di sempre più potenti computer e software ha reso accessibili metodologie di analisi che possono essere impiegate per dare risposte ai quesiti delle ricerche  PERCHE’ STUDIARE LA STATISTICA Il crescente impiego di dati statistici è evidente osservando il cambiamento che si registra nel contenuto degli articoli pubblicati nelle riviste scientifiche e dei report prodotti sia dalla pubblica amministrazione sia da soggetti privati 2 ES: I ricercatori raccolgono informazioni e le elaborano attraverso metodi statistici al fine di a) studiare i fattori che esercitano la maggiore influenza sulle performance scolastiche degli studenti; b) studiare i fattori che esercitano la maggiore influenza sulla scelta dei prodotti da parte dei consumatori  CHE COS’E’ LA STATISTICA Il termine “statistica” viene impiegato per fare riferimento all’insieme di metodologie finalizzate alla raccolta e all'analisi dei dati, ovvero: 1. Progettare: pianificare come raccogliere i dati per rispondere alle domande di ricerca 2. Descrivere: sintetizzare e analizzare i dati raccolti 3. Inferire: fare previsioni sulla base dei dati raccolti per rispondere alla domanda statistica  STATISTICA DESCRITTIVA E STATISTICA INFERENZIALE Sono i tre componenti principali della statistica necessari per rispondere a una domanda di ricerca 1. Disegno: pianificare come ottenere i dati per rispondere alle domande oggetto di interesse 2. Analisi descrittiva = statistica descrittiva. Si riferisce ai metodi per la sintesi e analisi dei dati raccolti (sia che essi costituiscano una popolazione o un campione) Le sintesi consistono in grafici e numeri quali le medie e le % Obiettivo: ridurre i dati a semplici sintesi senza distorcere o perdere troppa informazione 3. analisi Inferenziale = statistica inferenziale Si riferisce ai metodi per prendere decisioni e fare previsioni su una popolazione (risalire alle sue caratteristiche) sulla base dei dati ovvero informazioni raccolte su un campione selezionato da essa Importante sottolineare la distinzione tra statistica descrittiva e inferenziale definendo altri due concetti 5 Procedure mediante le quali si costruisce il disegno di ricerca per produrre i dati che si andranno ad analizzare Dopo aver definito la domanda di ricerca - si individua l’oggetto della ricerca, il luogo, il periodo, il modo in cui fare la rilevazione e come registrare i risultati della rilevazione per poi in fine arrivare ai dati b. Tecniche di analisi Elaborazione dei dati raccolti per rispondere alla domanda di ricerca Non tutti i dati raccolti nelle scienze sociali possono essere analizzati con tecniche statistiche ES: quelli raccolti mediante osservazione partecipante, interviste non strutturate, interviste qualitative  IL PERCORSO DI RICERCA NELL’INDAGINE QUANTITATIVA 1. La prima fase è quella della definizione di un problema 2. Successivamente si effettua la rassegna della letteratura importante per non replicare lavori già fatti e aiuta anche a strutturare il questionario 3. Scelte preliminari (definire tempi, luoghi e budget per effettuare la ricerca) 4. Scelta del tipo di ricerca Dopo questa quarta fase si possono aprire due differenti scenari a) Si può effettuare un’analisi secondaria di dati: effettuata quando sono già disponibili dei dati recenti e quindi si può effettuare subito le ultime tre fasi b) Analisi ex novo: quando non esistono dati oppure sono troppo vecchi per fare un’indagine In questo caso si procede con  costruire lo strumento di rivelazione  effettuare un pre-test del questionario  estrarre il campione selezionato  effettuare indagine pilota  contattare gli intervistati  raccolta dati  codifica e costruzione della matrice le ultime tre fasi del procedimento si articolano in 5.analisi dei dati 6. controllo delle ipotesi ed interpretazione 7.presentazione dei risultati 6  COME SCEGLIAMO LE TECNICHE DI RILEVAZIONE E ANALISI La scelta delle tecniche di rilevazione e di analisi dipende da numerosi fattori  natura del fenomeno da studiare e le sue caratteristiche,  il tempo e le risorse disponibili,  la sensibilità e background metodologico del ricercatore Entrambe le fasi implicano una semplificazione della realtà La rilevazione precede sempre l’analisi, ma le due fasi non sono indipendenti Le analisi dipendono dai dati quindi potrò effettuare certe analisi ma non altre. Es. dati individuali (studenti, casalinghe, immigrati) o aggregati (famiglie, partiti, sindacati, unità territoriali come regioni, Asl,) La rilevazione dei dati dipende dalle tecniche di analisi che utilizzerò, I dati possono essere trasversali (cross-section), oppure longitudinali (per ogni osservazione si hanno a disposizione più punti nel tempo)  LA RILEVAZIONE STRUTTURATA L’analisi statistica richiede che le informazioni vengano  raccolte - questionario strutturato  codificate  registrate - matrice dei dati si seguono schemi tendenzialmente rigidi prestabiliti dal ricercatore che conosce il fenomeno oggetto di studio Questa tecnica di rilevazione prevede la somministrazione di un questionario strutturato ad un insieme di individui – esempio indagine campionaria (survey) Intervista strutturata non lascia libertà di azione all'intervistatore che pone una serie di domande predefinite senza possibilità di modificare né ordine né argomenti se no si Si parte dalla teoria in senso orario 7 creerebbe una distorsione che porta a un problema di analisi  PROPRIETA’, STATI, UNITA’ La rilevazione strutturata si incentra su tre elementi: 1. Unità di analisi: I referenti (gli oggetti) dell’osservazione sui quali si vogliono rilevare le informazioni ES: ciascun individuo di una popolazione 2. Proprietà: Le caratteristiche che si possono attribuire all’oggetto studiato ES: per ogni individuo importante l’età, il luogo di nascita, la statura, il peso, il colore degli occhi, la nazionalità, il numero di fratelli 3. Stati: i diversi modi in cui le proprietà (caratteristiche) possono manifestarsi ES: se analizziamo la nazionalità: modalità «italiana», modalità «inglese»…..  LA CONOSCENZA PRODOTTA DALLA RICERCA SCENTIFICA Ciò che contraddistingue la ricerca scientifica, da altre attività che si prefiggono di acquisire conoscenze, è il tentativo di basare le conoscenze su riscontri empirici mediante un processo di ‘operativizzazione’ Attraverso il disegno di ricerca (il lavoro sul campo) il ricercatore traduce in termini empirici 10  DAL CONCETTO ALLA VARIABILE  DEFINIZIONE OPERATIVA DELLA PROPRIETA’ una proprietà può essere operativizzata in modi diversi e dar luogo a diverse variabili: 11 ES: la proprietà «livello culturale» associata ad un individuo può essere definita operativamente facendo riferimento a: titolo di studio, numero di libri letti negli ultimi mesi, consumi culturali quotidiani Quindi le definizioni operative non sono predeterminate, è il ricercatore che decide come operativizzare una proprietà  GLI INDICATORI Non sempre il passaggio dal concetto alle variabili è diretto, perché molti concetti sono complessi o generali e non si prestano ad essere definite operativamente in maniera diretta. Allora si ricorre a concetti più semplici (comunque legati a quello generale) denominati indicatori a partire dei quali si può costruire una definizione operativa ES: l regione (concetto generale) può essere distinta in dimensioni specifiche che si trasformano in priorità questi indicatori suggeriscono in maniera più semplice (del concetto generale) la definizione operative (sotto forma di domande in un questionario) Ovviamente nessuna di queste proprietà specifiche corrisponde alla proprietà generale religiosità  LE VARIABILI Variabile = proprietà operativizzata rilevata sui casi attraverso la definizione operativa Le variabili vengono classificate in base alle loro caratteristiche logico- matematiche La distinzione tra diversi tipi di variabili è molto importante perché stabilisce le procedure di elaborazione statistica che si possono effettuare Esistono tre tipi di variabili 1. Nominali 2. Ordinaria 3. Cardinale Le definizioni operative che consentono di passare dalla proprietà alla variabile sono diverse 1. Classificazione 2. Ordinamento 3. Conteggio o misurazione  VARIABILI NOMINALI variabile nominale: operativizzazione di proprietà che assume stati discreti non ordinabili 12 La proprietà assume un nr. finito di stati con confini netti tra gli stati e senza la possibilità di stati intermedi Esempio: un individuo può essere cattolico o musulmano ma non può assumere uno stato intermedio non c’è ordine gerarchico tra gli stati: ES: una persona è di nazionalità italiana, o svedese, ma «svedese» non è maggiore o minore rispetto a «italiano Unica relazione possibile è = O ≠ La procedura di operativizzazione che permette di passare dalla proprietà alla variabile nominale è la classificazione ovvero l’individuazione di un insieme di classi (o categorie) che corrispondono agli stati che la proprietà può assumere Queste categorie che corrispondono poi alle modalità della variabile. devono soddisfare due requisiti: 1. Esaustività: ogni caso deve essere collocato in una delle classi/categorie previste 2. Mutua esclusività: un caso deve appartenere ad una sola categoria I valori associati a ogni modalità della variabile prendono il nome di etichetta (lettera o numero) ES: nel caso della nazionalità 1 «italiano», 2 «svedese», 3 «cinese» Questi numeri non hanno alcun significato numerico e non hanno proprietà aritmetiche, quindi, non è possibile fare operazioni matematiche Si tratta di semplici nomi - motivo per cui vengono dette variabili nominali  VARIABILI NOMINALI DICOTOMICHE caso particolare della variabile nominale è quando ci sono solo due modalità: • Maschio/femmina • Occupato/non occupato • Sposato/non sposato • Favorevole/contrario • Si/no Queste variabili sono dette dicotomiche e i valori attribuiti alle due modalità sono generalmente 0 e 1 Molto importanti nella ricerca sociale perché possono essere trattate in sede di analisi con tecniche di analisi tipiche delle variabili cardinali  VARIABILI ORDINALI 15  LA MATRICE DATI Dopo aver ottenuto i dati devo costruire la matrice dei dati Organizzazione dei dati (es. questionari di una indagine campionaria) in forma utilizzabile per l’analisi statistica Matrice dei dati: forma rettangolare (righe x colonne) di numeri • In riga vi sono i casi: leggendo ogni riga possiamo ottenere il profilo di un caso. • In colonna vi sono le variabili: leggendo una colonna conosciamo le risposte date a quella domanda da tutti gli intervistati. • Nella cella derivata dall’incrocio di riga e colonna vi sono i dati, ovvero il valore registrato per una particolare variabile su un particolare caso Per potere essere organizzate in una matrice, le informazioni devono avere due caratteristiche: 1. l’unità d’analisi deve essere sempre la stessa 2. devono essere rilevate le stesse informazioni su tutti i casi  LA MATRICE DATI – I CODICI Codifica: immissione del materiale empirico grezzo nella matrice con l’ausilio di un codice (code-book) Il code book è un documento che indica la posizione di ogni variabile nella matrice e assegna ad ogni modalità di ogni variabile un valore numerico = codice (es. variabile «genere» 1= maschio; 2 = femmina) 16 In genere il codice è incorporato nel questionario e ogni riga fornisce il profilo di ogni caso Ogni colonna corrisponde ad una variabile - fornisce l’insieme delle risposte date a quella domanda da tutti gli intervistati CAPITOLO 3 – ANALISI MANOVRATA  DESCRIVERE I DATI CON TABELLE E GRAFICI La statistica descrittiva si focalizza su 3 aspetti: 1. la descrizione e la forma della distribuzione 2. la posizione o tendenza centrale 3. la variabilità o dispersione due tipi di strumenti per sintetizzare i dati della matrice dati: 1. tabelle/grafici 2. indici di sintesi che esprimono una specifica caratteristica della distribuzione dei dati  indici di posizione o tendenza centrale  indici di variabilità o dispersione La variabilità indica come gli intervistati si distinguono secondo una certa variabile  TIPOLOGIE DI DATI tutto ciò che ci circonda è interessato da variabilità e i metodi statistici ci forniscono il modo per misurare e interpretare tale variabilità ES: Tra i compagni del vostro corso c’è variabilità nelle ore dedicate allo studio, nei voti conseguiti, nei cibi e sport preferito, nel partito votato, ecc. Ci sono caratteristiche che variano tra gli individui e nel tempo. ES: ore dedicate allo studio variano da studente a studente e a seconda del giorno della settimana Con il termine variabile indichiamo le caratteristiche oggetto di interesse. Il termine evidenzia che i valori assunti dai dati sono soggetti a variazione ES: per studiare se il fenomeno del riscaldamento terrestre ha avuto effetti anche nella zona dove vivete dovete raccogliere dati sulle temperature massime giornaliere registrate nell’ultimo secolo nelle stazioni a voi più prossime geograficamente  TIPOLOGIA DI DATI Variabile = caratteristica che assume valori diversi tra i soggetti di un campione o di una popolazione I valori assunti dalla variabile sono soggetti a variazione e formano una scala di misura Variabile quantitativa (continua o discreta) = quando la variabile assume valori che sono numeri (reddito, età, anni di istruzione, nr. di fratelli) Variabile categoriale (o qualitativa) = quando i valori assunti sono un insieme di categorie 17  ANALISI DEI DATI Le tecniche di analisi dei dati si differenziano in base a: Al numero di variabili su cui operano (diversi obiettivi, diverse misure e diversa complessità delle tecniche utilizzate)  Analisi mono variata 1 sola variabile Obiettivo: prevalentemente descrittivo  Analisi Bi variata 2 variabili contemporaneamente Obiettivo: ricerca della relazione tra variabili  Analisi multivariata più di 2 variabili contemporaneamente Obiettivo: stimare, esplorare, sintetizzare le relazioni tra variabili.  ANALISI MONOVARIATA L’analisi monovariata considera una sola variabile per volta tra quelle presenti nella matrice dei dati. Obiettivo 1. propedeutico all’analisi bivariata/multivariata per la pulizia dei dati 2. descrivere il fenomeno rappresentato dalla variabile 3. preparare le variabili per le successive analisi bivariate/multivariate Il punto di partenza è la distribuzione di frequenza della variabile è un modo per rappresentare in maniera sintetica i valori della variabile  RAPPRESENTAZIONE TABULARE Ad ogni modalità viene associata la frequenza (nr. di volte) con cui si presenta nella matrice In pratica contiamo quanti casi appartengono ad ogni modalità della variabile e riportiamo in una tabella accanto al nome della modalità il valore trovato => distribuzione di frequenza 20 ES: se il caso con il dato mancante sulla variabile «genere» (1=M; 2=F) risulta essere «casalinga» sulla variabile «condizione occupazionale» si può inferire che sia una donna, e inserire il codice 2 nel dato mancante; oppure posso controllare che chi va a messa tutte le domeniche si sia anche dichiarato cattolico – controllo di coerenza. Le incongruenze possono emergere anche dal confronto di variabili tra loro concatenate (ad es. condizione lavorativa e tipo di lavoro) Questo non sempre è possibile. È preferibile avere un dato mancante piuttosto che errato Meglio prevedere sin dalla definizione operativa una categoria residuale a cui assegnare tutti i casi per i quali non è possibile rilevare lo stato Altre volte conviene tenere distinte più categorie «mancanti» che possono essere di quattro tipi:  il soggetto «non sa»  il soggetto si rifiuta di rispondere «non risponde»  non applicabile  dato errato non previsto dal codice  DESCRIVERE I DATI CON TABELLE E GRAFICI L'obiettivo delle statistiche descrittive è quello di sintetizzare i dati per rendere fruibili le informazioni in essi contenute. Tabelle e grafici sono utili per sintetizzare tutti i tipi di dati. Spesso un grafico consente di avere un’idea del dataset meglio di quanto succeda guardando i dati grezzi o una distribuzione di frequenza  GRAFICI PER VARIABILI CATEGORIALI Le due rappresentazioni grafiche per sintetizzare una variabile categorica sono il diagramma a torta e a barre. Pie Chart – diagramma a torta: è un cerchio in cui a ciascuna modalità corrisponde uno ‘spicchio di torta’. L’ampiezza di ogni feta corrisponde alla frequenza della modalità corrispondente Bar Graph – grafico a barre: mostra delle barre verticali di uguale base per ogni categoria. L’altezza della barra è proporzionale alla frequenza relativa di ogni modalità (%). 21 I rettangoli sono di solito uniformemente distanziati per enfatizzare che la variabile è categoriale piuttosto che quantitativa  COME SCEGLIERE IL GERAFICO GIUSTO I grafici a barre o a torta sono semplici da costruire, ma il grafico a barre è più facile da interpretare e più flessibile. Con un grafico a torta quando due o più fette sono circa della stessa dimensione non è immediato stabilire quale categoria abbia la frequenza più elevata. Mentre questo è subito intuibile in un diagramma a barre dove confrontiamo le altezze delle barre. Inoltre, il diagramma a barre è un ottimo strumento di visualizzazione grafica in presenza di molte categorie Frequenza Assolute o relative? relative (come per le tabelle di frequenza)  GRAFICI PER VARIABILI QUANTITATIVE Istogramma: diagramma a colonne contigue dove: le basi dei rettangoli sono proporzionali all’ampiezza della modalità quando le basi hanno la stessa ampiezza - l’altezza dei rettangoli è proporzionale alla frequenza quando le basi hanno ampiezza diversa - l’area dei rettangoli è proporzionale alla frequenza  DISTRIBUZINE DI FREQUENZA: DATI QUANTITATIVI In primo luogo, possiamo sintetizzare questi dati con una distribuzione di frequenze. Per fare ciò è necessario dividere il range dei possibili valori in un numero più piccolo di intervalli (classi) in cui raggruppare i dati (contiamo quante osservazioni sono ricomprese in ciascun intervallo) impiegando gli intervalli 0-11 12-23 24-35 36-47 48-59 60-71 72-83 si costruisce una tabella di frequenze per gli intervalli e si rappresenta graficamente la frequenza o la percentuale di quegli intervalli Di solito, gli intervalli di valori nelle distribuzioni di frequenze sono di uguale ampiezza (nell'esempio sono pari a 12). Gli intervalli devono includere tutti i possibili valori della variabile e devono essere mutualmente esclusivi  ISTOGRAMMA 22 Una rappresentazione grafica di una distribuzione di frequenze per una variabile quantitativa è chiamata istogramma. Ogni intervallo viene rappresentato con una barra la cui superficie rappresenta il numero di osservazioni nell'intervallo.  VARIABILI ORDINALI E CARDINALI Per la variabile ordinale e cardinale possiamo anche rappresentare un diagramma di composizione Rettangolo diviso in piccoli rettangoli con altezze proporzionale alla frequenza della modalità corrispondente Permette di cogliere l’incidenza di una modalità sul totale, ma rende difficile il confronto tra diverse modalità CAPITOLO 4 – ANALISI MONOVARIATA  TENDENZA CENTRALE E VARIABILITA’ Per variabile qualitative: il grafico mostra la proporzione di osservazioni che ricadono in ogni modalità e la modalità modale Per variabile quantitative il grafico mostra la forma della distribuzione è sempre meglio partire dal grafico e dopo considerare le sintesi numeriche Per variabili quantitative una sintesi deve rispondere a domande come:  qual è un valore rappresentativo della distribuzione? - centro  i valori osservati si presentano simili fra loro oppure variano molto? - variabilità Vedremo anche come la forma della distribuzione impatti sulle statistiche e condizioni la ns scelta sulla statistica da utilizzare. Valori caratteristici: si usano per sintetizzare una distribuzione con un unico valore 25 3. calcolare indici sintetici della distribuzione: q di tendenza centrale: moda, mediana q di dispersione: differenza interquartile  TENDENZE CENTRALE – MEDIANA Mediana è il valore centrale delle osservazioni ordinate in modo crescente La mediana divide in due parti il campione ordinato in maniera crescente; ciascuna parte contiene un identico numero di osservazioni ES: Esaminiamo la variabile Voto per determinare la mediana si ordinano i dati in modo crescente e si individua il valore centrale, cioè quello che lascia alla sua destra e alla sua sinistra un eguale numero di valori Quando l'ampiezza campionaria n è dispari, abbiamo una sola osservazione centrale. (N+1) /2. Es. se i casi sono 7 si tratterà del 4° caso; se sono 251 à 126° caso Quando l'ampiezza campionaria è pari, si hanno due osservazioni centrali e la mediana è il valore centrale tra i due. N/2 (N/2) + 1 Se i due casi hanno la stessa modalità, quella sarà la mediana. Se due modalità diverse: se la variabile è ordinale ha 2 mediane; se è cardinale la mediana sarà la media dei valori assunti dai due casi In pratica: la mediana corrisponde alla modalità in corrispondenza della quale le frequenze cumulate superano la soglia del 50%  ESEMPIO MEDIANA PER DATI ORDINALI L'ampiezza della popolazione è n = 189 (in milioni). La posizione mediana della distribuzione è occupata dalla (n + 1) /2 = (189 + 1)/2 = 95- esima osservazione. 30 risposte ricadono nella prima categoria, (30 + 56) = 86 nelle prime due, (30 + 56 + 38) = 124 nelle prime tre e così via. Le osservazioni ordinate in maniera crescente che vanno dall'87-esima alla 124-esima posizione ricadono nella terza categoria e, quindi, in tale categoria è contenuta anche la 95- esima osservazione. La mediana è perciò la modalità “Studi universitari senza conseguimento di titolo”  ANALISI MONOVARIATA – VARIABILI ORDINABILI OUTPUT SPSS Grafico a barre/ortogramma: l’altezza delle barre è proporzionale alla frequenza di valori della variabile; i valori vanno collocati seguendo l’ordine della scala ordinale. 26  VARIABILE CARDINALI Con una variabile cardinale (ad es. età; numero di esami sostenuti…) sono possibili le seguenti operazioni: 1. creare una tabella con la distribuzione di frequenza (n, %) di ciascuna modalità di cui la variabile è composta (non di facile lettura se le modalità sono molte) 2. produrre una adeguata rappresentazione grafica (istogramma) 3. calcolare indici sintetici della distribuzione  di tendenza centrale: moda, mediana, media;  indici di dispersione: varianza, deviazione standard, coefficiente di variazione  VARAIBILI CARDINALI – LA MEDIA La media è la somma dei valori assunti dalle osservazioni divisa per il totale delle osservazioni. La media aritmetica di n valori è quel valore che, se sostituito a tutti i valori lascia inalterata la somma totale degli n valori. X = variabile; X= media; N = nr. totale di casi; Il simbolo Ʃ indica una Sommatoria Spesso la media viene interpretata come punto di bilanciamento (baricentro) della distribuzione  PROPRIETA’ DELLA MEDIA Il calcolo della media è appropriato solo per variabili quantitative. 27 La media è il punto di equilibrio nella linea in cui sono riportati, con pesi uguali, tutti i valori di una distribuzione. Il valore assunto dalla media può essere notevolmente influenzato dagli outlier (valore anomalo) un’osservazione che assume un valore molto al di sotto o al di sopra di quello assunto dalla maggioranza delle restanti osservazioni. ES: Calcolo della media aritmetica a partire da singoli valori – variabile cardinale «età» Calcolo della media a partire dalle frequenze – variabile cardinale età  CASI PARTICOLARI 30  VALORE CARATTERISTICO DI VARIABILITA’ – VARIABILI NOMINALI indice di omogeneità assoluta (O) è dato dalla somma dei quadrati delle frequenze proporzionali (o proporzioni) L’indice assume valore massimo = 1 quando una sola proporzione assume valore 1 (ossia tutti i casi si concentrano in quella modalità) e tutte le altre hanno valore 0 (ossia nessun caso si concentra in queste modalità). L’indice assume il valore minimo =1/k quando tutte le frequenze sono uguali fra loro e quindi (k= numero di modalità della variabile). Il valore minimo dipende da k, perché varia al variare di all’aumentare delle categorie aumenta la dispersione  VARIABILE NOMINALI – INDICI DI OMOGENEITA’ Per neutralizzare l’influenza del numero di modalità si può calcolare l’Indice di omogeneità relativa (Orel) non dipende dal numero di modalità e rende possibile il confronto della variabilità di variabili con numero diverso di modalità Valore massimo = massima omogeneità = 1 Valore minimo = massima eterogeneità = 0  VARIABILITA’ – VARIABILI ORDINALI Percentile: il p-esimo percentile è il valore della distribuzione al di sotto del quale si trova una percentuale (p%) delle osservazioni e al di sopra del quale ricade il (100- p) % delle osservazioni ES: Supponi che il tuo punteggio all’esame di statistica è 27 (su 30) cada al 90-mo percentile. Fissa p=90 Allora il 90% di coloro che hanno sostenuto l’esame ha conseguito un punteggio tra il minimo e 27. Il restante 10% dei punteggi sarà più alto del tuo. Sostituendo p=50 si ottiene il 50-mo percentile: osservazione preceduta dal 50% delle osservazioni e seguita dal restante 50%. 31  VARIABILITA’ – VARIABILI ORDINALI Tra i percentili molto utilizzati sono i quartili: 1° quartile Q1 ha p=25 cioè il 25-mo percentile, la modalità che raccoglie al di sotto di sé il 25% dei casi (e al di sopra il 75%). In pratica è la modalità in corrispondenza della quale le frequenze cumulate superano la soglia del 25% 2° quartile coincide con la mediana (50% dei casi sopra e al di sotto della modalità di riferimento) con p=50 → 50-mo percentile 3° quartile Q3 è la modalità che raccoglie il 75% dei casi sotto di sé (e il 25% sopra di sè). È la modalità in corrispondenza della quale le frequenze cumulate superano la soglia del 75% à p=75 → 75-mo percentile I quartili dividono la distribuzione dei i casi (disposti in ordine crescente) in 4 parti di numerosità uguale le modalità che segnano i confini tra i quattro quarti sono chiamati quartili Attenzione: il termine quartili si riferisce al numero di parti in cui è divisa la distribuzione (che sono 4) ma i quartili sono 3! Il modo più semplice per calcolare i quartili, come per la mediana, è quello di basarsi sulla distribuzione percentuale cumulata Ogni quarto contiene lo stesso nr di osservazioni (il 25%) La dispersione della distribuzione di una variabile ordinale la misuriamo con la Differenza (o range) interquartile Maggiore è la variabilità dei dati e più ampie tende ad essere IQR massimamente disperse (eterogenee) quando tutti i casi si dividono equamente tra le due categorie estreme, le code della distribuzione quindi se una distribuzione è molto dispersa la maggioranza dei casi si collocherà nelle code della distribuzione ossia nel primo nell’ultimo quartile poco disperse: se i casi si concentrano intorno alla mediana IQR non è influenzato dagli outliers 32  VARIABILTA’ – VARIABILI CARDINALI  Campo di variazione  Scostamento semplice medio  Deviazione standard  Varianza  MISURE DI VARIABILITA’ – RANGE Il Range è la differenza tra la più grande e la più piccola osservazione Danimarca = 45-35=10 Stati uniti=60-20=40 È facile da calcolare e interpretare ma usa solo valori estremi quindi è molto influenzato da outliers Non è una statistica robusta  CAMPO DI VARIAZIONE Il campo di variazione è la differenza tra il valore più alto e il valore più basso della distribuzione. È il modo più semplice per descrivere la variabilità di una variabile quantitativa. Ma non tiene conto di N Es.: 15-20 à K=20-15=5 15, 16, 17, 18, 19, 20 à K=20-15=5 Dipende solo dai valori estremi: 15, 16, 17, 18, 19, 20 15, 18, 18, 18, 18, 20 K=20-15= 5 5,5,5,5,5,5,5, à K=5- 5=0 Non c’è variabilità  MISURE DI VARIABIITA’ – DEVIAZIONE STANDARD Misura la variazione in una distribuzione calcolando la differenza tra il valore massimo ed il valore minimo. 35 I quartili e i valori minimo e massimo sono cinque misure di posizione spesso impiegate congiuntamente per descrivere la tendenza centrale e la variabilità di una distribuzione. la sintesi-a-cinque-numeri costituisce la base di una rappresentazione grafica chiama Box-plot Il grafico a scatola permette di descrivere in modo sintetico e abbastanza completa una distribuzione. Si basa sulla rappresentazione di cinque numeri, che forniscono una descrizione sintetica di un insieme di dati anche quando il numero di valori considerato è elevato CAPITOLO 5- ANALISI BIVARIATA  UNA VARIABILE NON BASTA Analisi monovariata è importante per diversi motivi  Individuare errore nei dati  Individuare possibilità di aggregazione  Prendere familiarità con i dati  Descrivere il fenomeno: es. quanto è il reddito medio, qual’ è il titolo di studio, sono favorevole/contrario alla pena di morte, ecc. Ma è un’analisi preliminare (povera) e nulla ci dice sulle relazioni tra le diverse variabili! Non ci aiuta a capire se:  gli uomini guadagnano di più delle donne  i laureati e gli analfabeti hanno opinioni diverse rispetto all’eutanasia Queste domande vengono formulate sotto forma di ipotesi  CERCARE LE RELAZIONI CHE COLLEGANO I FENOMENI Le relazioni da esplorare possono essere molteplici  esiste una relazione tra reddito e genere? il genere influenza il reddito?  uomini guadagno più delle donne?  laureati e gli analfabeti hanno opinioni diverse sulla pena di morte come deterrente contro i crimini violenti? 36 Queste domande vengono formulate sotto forma di ipotesi all’inizio del percorso di ricerca – ipotesi che dobbiamo controllare empiricamente attraverso l’analisi dei dati nella matrice Attraverso l’analisi bivariata vogliamo capire se 1. gli individui con caratteristiche differenti (per genere, età, titolo di studio, opinioni politiche, atteggiamenti culturali, preferenze, ecc.) 2. si differenziano per gli attributi relativi a un’altra proprietà (variabile) si deve effettuare l’articolazione degli interrogativi di ricerca ES: Ascolto della musica tra i giovani:  i ragazzi ascoltano più musica delle ragazze  chi ascolta musica ha una maggiore probabilità di acquistare una nuova rivista dedicata alla musica Ascolto della musica è influenzato da…(un’altra caratteristica – il genere) Ascoltare musica può influenzare……(un’altra caratteristica - lettura) Cercare le relazioni che collegano i fenomeni, è un aspetto imprescindibile del lavoro del ricercatore sociale  IL CONTROLLO EMPIRICO DELLE IPOTESI Uno degli obiettivi che il ricercatore si pone quando raccoglie le informazioni su un campione è il controllo empirico di ipotesi precise. L’ipotesi è una affermazione che mette in relazione due o più variabili Minor astrazione e minore generalità rispetto alla teoria È provvisoria, cioè da provare tramite controllo empirico  IPOTESI, VARIABILI, UNITA’ DI ANALISI 37 L’ipotesi «Gli studenti che dedicano più tempo allo studio vanno meglio a scuola» mette in relazione le due variabili 1. ore dedicate allo studio 2. profitto scolastico Il profitto scolastico può essere operativizzato in modi molto diversi (risultati non troppo differenti ma cmq non identici) È sempre meglio formulare ipotesi puntuali! ES: maggiore è il numero di ore dedicate allo studio in una settimana-tipo, più elevato sarà il voto mediano conseguito nella pagella di fine anno  DISTIBUZIONE DI FREQUENZA CONGIUNTA L’analisi statistica delle relazioni tra due variabili si basa sull’analisi delle distribuzioni di frequenza congiunte Ossia l’incrocio di due (o più) distribuzioni di frequenza semplici (monovariate) ES: Confessione religiosa e partito votato – distribuzioni di frequenza monovariate L’assegnazione di ogni caso a una cella tiene conto dei valori assunti su più variabili (a differenza della distribuzione monovariata) 40 Nel complesso potremmo dire che conoscere lo stato di un caso su una sola delle due variabili permette di prevedere il suo stato sull’altra variabile, ma con un margine di errore relativamente ampio Es. protestanti – quasi metà vota partito verde  CANONE DELLE VARIAZIONI CONCOMITANTI (JOHN STUART MILL) Tecniche di analisi statistica per accertare la relazione tra due variabili (la sua forza, forma ed eventuale segno) sono riconducibili al canone delle variazioni concomitanti (ideato da John Stuart Mills) «Qualunque fenomeno, che vari in un qualche modo qualsiasi volta che un altro fenomeno varia in qualche modo particolare:  è una causa o un effetto di quel fenomeno  è connesso a quel fenomeno mediante qualche fatto di causazione" Entra in gioco l’interpretazione in senso ‘causale’, cioè la direzione della relazione Il ricercatore vuole andare oltre la semplice descrizione delle relazioni e capire i rapporti di causa/effetto: 1. se c’è un nesso di causalità tra 2 variabili 2. quale variabile influenza l’altra (direzione causale)  CONVARIAZIONE NON IMPLICA CAUSANZA Quando si parla di rapporto causa-effetto ci si riferisce all’esistenza di un nesso fra eventi tale per cui la manifestazione di un evento è conseguenza diretta e necessaria alla manifestazione dell’altro. Ma per poter parlare di causazione non è sufficiente accertare l’esistenza di una relazione fra due eventi perché «covariazione non è causazione» (correlation is not causation) Per definire causale la relazione tra due eventi bisogna spiegare il meccanismo causale occorre spiegare perché un evento è implicato da un altro  DIFFICOLTA’ NELL’INDIVIDUAZIONE DEI PERCORSI CASUALI L’individuazione dei percorsi causali incontra molteplici difficoltà 1. Difficoltà nel ricostruire la direzione causale di una relazione (quale variabile influenza l’altra Le tecniche di analisi statistica non permettono di stabilire la direzione causale di una relazione, solo un disegno sperimentale (survey based experiments - poco applicabili alle scienze sociali) consente di accertare la direzione causale della relazione 2. Le relazioni che si osservano nelle scienze sociali in genere raramente raggiungono elevati livelli di forza – quasi sempre hanno un carattere solo «tendenziale» 41 i cattolici «tendono» a votare per il partito blu - cioè molti cattolici lo fanno, o lo fanno in misura maggiore rispetto ai fedeli di altre religioni un legame causale stabilisce un rapporto deterministico tra le variabili – la causa genera ossia determina (è questo il termine chiave) sempre l’effetto, effetto che senza quella specifica causa non potrebbe esserci Invece lo studio delle relazioni tra le variabili che si conduce con le tecniche dell’analisi bivariata è di tipo probabilistico e le relazioni si interpretiamo in termini probabilistici ES tra la zona di residenza e la frequenza della preghiera possiamo dire che mediamente i residenti di un’area pregano di più di quelli di un’altra area ma questo non significa che risiedere in quella certa area sia la causa di una maggior frequenza alla preghiera Quindi bisogna fare molta attenzione a evitare qualsiasi riferimento che rimandi a un legame tra le variabili di tipo deterministico ES: l’espressione «la variabile A causa la variabile B» questa frase non andrebbe mai utilizzata 3. Molte relazio 4. ni sono bidirezionali, cioè, esiste una influenza reciproca delle variabili (relazioni simmetriche e asimmetriche) 5. Difficoltà nel ricostruire il meccanismo causale ES: genere e astensionismo (le donne più astensioniste degli uomini) genere è «causa» /» perditore» dell’astensionismo; ma affermare questo, non spiega come il genere dia luogo a comportamenti differenziati di voto 6. La realtà è multivariata - pluralità delle «cause» /fattori che producono un determinato stato su una determinata variabile ogni fenomeno sociale è correlato con un’infinità di altri fattori che interagiscono e si influenzano reciprocamente - l’analisi multivariata, infatti, permette di approssimare meglio la realtà ES: Lo studio determina la riuscita scolastica ma su questa contribuiscono anche altri fattori (es. condizione economica, titolo di studio dei genitori, ecc.) Quindi per tutti questi motivi l’attribuzione di una direzione causale a una relazione fra due variabili si configura come un’attribuzione «debole» Quando si parla di «rapporto causa effetto» o «effetto causale» ci riferiamo quindi all’osservazione di una relazione fra variabili dotata di una determinata forma, forza e direzione  VARIABILI DIPENDENTI E INDIPENDENTI Una prima distinzione importante è quella tra variabili indipendenti (o esplicativa) e dipendenti (o risposta) sulla base del ruolo che esse assumono nell’analisi dei dati. In una relazione tra variabili si dice indipendente è la variabile che influenza l’andamento di un’altra variabile. 42 La variabile indipendente è chiamata così perché non varia al variare degli stati dell’altra variabile. La variabile che invece viene influenzata si chiama variabile dipendente è perché si ritiene che gli stati che essa assume dipendano dalla variabile indipendente L’identificazione della variabile dipendente e indipendente si effettua grazie a due elementi: 1. conoscenza del contesto in cui è inserita la relazione (connessioni logiche e temporali tra variabili) 2. capacità interpretativa del ricercatore - saper individuare i nessi tra le variabili – dipenderà dalle sue competenze, del suo background teorico ES: reddito/consumo è la conoscenza del campo di ricerca che ci aiuta a stabilire che «reddito» è la variabile indipendente che può influenzare i consumi dell’individui così come è la conoscenza del ricercatore che aiuta ad ipotizzare che le risorse economiche e culturali possono giocare un ruolo differente sulle preferenze di consumo degli individui è difficile stabilire tra “orientamento politico” e “orientamento religioso’ quale sia la variabile dipendente e la variabile indipendente – importanza della teoria Nell’analisi dati, la variabile indipendente è la variabile che influenza, mentre quella dipendente è quella che è influenzata. Le stesse variabili potrebbero assumere lo status di variabile indipendente se fossero inserite in un altro contesto (dipende dalla variabile con cui viene messa in relazione) ES: relazione tra titolo di studio e reddito: il reddito è una variabile dipendente che ipotizziamo possa cambiare al modificarsi del livello di istruzione dell’individuo = variabile indipendente Ma se mettiamo in relazione il reddito ai consumi possiamo presumere che il cambiamento nel reddito disponibile - variabile indipendente - influenzi quali beni si consumino - variabile dipendente La natura di indipendente o dipendente non è una caratteristica ascritta della variabile ma può modificarsi sulla base della relazione in cui è inserita 45 Le % di colonna = l’influenza della classe sociale di partenza (dei genitori) su quella di arrivo (dei figli) su 100 figli della borghesia → 37 restano nella stessa classe sociale su 100 figli di impiegati → 17 riescono a passare nella classe della borghesia su 100 figli di operai agricoli → 2 riescono a diventare borghesi % di riga rappresenta l’origine sociale dei ceti attuali – analisi di profilo % sul totale rappresenta il processo generale di mobilità sociale 46  RAPPRESENTAZIONI GRAFICHE Si utilizzano gli strumenti già visti per le distribuzioni di frequenza monovariate (diagrammi a barre, o linee spezzate). asse orizzontale = modalità v. indipendente asse verticale = frequenze % delle modalità variabile dipendente Se la variabile dipendente è nominale si può utilizzare solo il digramma a barre. Se è ordinale o cardinale raggruppata per classi possiamo anche rappresentare la relazione della tabella tramite una spezzata che congiunge i punti corrispondenti ai valori delle percentuali  LA FORZA DELLE RELAZIONI Esistono diversi indici in grado di interpretare il tipo di legame esistente tra due variabili. se la relazione è tra variabili nominali – misure di Associazione se la relazione è tra variabili ordinali - misure di Cograduazione se la relazione è tra variabili cardinali - misure di Correlazione  ANALISI DELL’ASSOCIAZIONE TRA VARIABILI CATEGORIALI Lo scopo principale dell’analisi dei dati con 2 variabili è scoprire se esiste un’associazione e descrivere la natura di questa associazione La v. dipendente (o risposta) è la variabile rispetto alla quale operiamo eventuali confronti. Quando la v. indipendente (o esplicativa) è categorica, essa individua dei gruppi da confrontare rispetto ai valori assunti dalla v. dipendente. Si osserva un’associazione tra due variabili se è più probabile che un determinato valore della variabile dipendente si verifichi in corrispondenza di determinati valori della variabile indipendente ES: il fumo nuoce alla salute: Sopravvivenza dopo n-anni= variabile dipendente Condizione di fumatore = variabile indipendente Data una tabella di contingenza, due variabili categoriche X e Y si dicono indipendenti se le modalità di X non influenzano il verificarsi delle modalità di Y, 47 viceversa, l’indipendenza statistica è una proprietà simmetrica per le due variabili, ovvero è una relazione bidirezionale: se X è indipendente da Y anche Y è indipendente da X. In caso contrario, ovvero in assenza di indipendenza statistica, si parla genericamente di connessione (o di associazione): le due variabili X e Y tendono ad influenzarsi reciprocamente e tra di loro esiste una qualche relazione generica. Per questo motivo, l’indipendenza statistica e la connessione sono concetti che si escludono reciprocamente Concretamente indipendenza significa che: nella popolazione le distribuzioni condizionate sono identiche (quelle di riga e quelle di colonna) se le % di popolazione in qualsiasi categoria di una variabile sono le stesse per tutte le categorie dell’altra variabile (CHIESTA DI LEGGERLA AL PARZIALE) è possibile verificare infatti per l’orientamento politico e gruppo etnico che la distribuzione condizionata in ogni colonna è 74%, 7%, 19% - Le variabili sono statisticamente dipendenti se le distribuzioni condizionate non sono identiche.  FREQUENZE OSSERVATE E FREQUENZE ATTESE Esempio - età e pratica religiosa Domanda: quando esiste indipendenza fra pratica religiosa ed età? Quando le % di praticanti, non praticanti e santuari sono uguali in tutte le classi di età e uguali a quelle sul totale della popolazione  INDIPENDENZA E DIPENDENZA La presenza di indipendenza statistica o di connessione tra due variabili X e Y si misura con l’indice Chi-quadrato X^2, che si basa sul confronto tra le frequenze assolute osservate (contenute nella tabella di contingenza) e le frequenze teoriche (attese) che si osserverebbero in caso di indipendenza tra X e Y 50 Non ammette un massimo assoluto, quindi, non è possibile quantificare la dipendenza tra le due variabili Se tutte le frequenze della tabella vengono moltiplicate/divise per k anche χ2 viene moltiplicato/diviso per k  CHI-QUADRATO Domande: 1. il valore trovato (45,47) è piccolo o grande? C’è molta/poca dipendenza? 2. si può affermare che tra le due variabili esiste una relazione statisticamente significativa Sebbene il X2 risulti ampiamente > 0 non è possibile comunque rifiutare l’ipotesi di indipendenza χ2 non rileva la forza dell’associazione tra le due variabili perché dipende dalla numerosità campionaria un χ2 più grande non significa di per sé che la relazione sia più forte χ2 permette solo di rilevare la significatività statistica di una data configurazione della tabella di contingenza ossia rileva la probabilità che l’associazione non sia un mero effetto del caso  VARIABILE DI CRAMER Il valore del chi-quadrato non può essere utilizzato direttamente come misura della forza della relazione fra due variabili nominali perché esso dipende dalla numerosità dei casi della tabella Per ovviare questo problema e misurare la forza della relazione esistente tra due variabili categoriali, si ricorre ad una serie di misure basate sul Χ^2 ma normalizzate hanno un valore minimo = 0 e un valore massimo =1 definiti indipendentemente dal numero di casi Per stabilire se l’associazione tra X e Y è forte o debole è possibile ricorrere alla normalizzazione dell’indice assumerà valore 0 → in caso di indipendenza statistica, valore 1→ in caso di massima associazione. 51 Supponiamo che nr righe (k) < nr colonne (h) à quindi il valore massimo che Chi Quadro assume è = n(k-1) andiamo a calcolare la V di Cramer Indice V di Cramer (prende il nome dallo statistico svedese Herald Cramèr)  CHI- QUADRATO La misura del chi-quadrato è alla base di uno dei più conosciuti «test di significatività» per «significatività» si intende la probabilità (p) che una relazione tra variabili osservata in un campione sia effettivamente presente nella popolazione di riferimento anziché essere dovuta a fattori casuali. In questo caso effettuare il test di significatività consiste nel confrontare il valore del chi-quadrato ottenuto dai dati campionari con quello che si otterrebbe invece nell’ipotesi che nella popolazione di riferimento dalla quale derivano i dati ci sia indipendenza fra le variabili. Confronto tra X2 dati campione e X2 in caso di indipendenza fra le variabili nella popolazione  TEST CHI-QUADRO DI INDIPENDENZA 52 Il concetto di indipendenza statistica è riferito alla popolazione. Noi, però, in genere disponiamo di dati campionari. Le distribuzioni condizionate campionarie possono essere diverse pur essendo le variabili indipendenti a livello di popolazione. Anche in una situazione di perfetta indipendenza delle variabili nella popolazione non si verificherà mai nei dati campionari un chi-quadrato = 0 poiché i dati campionari sono affetti da molteplici errori (errore di campionamento, errore di rilevazione, ecc.) Per verificare statisticamente la reale esistenza di indipendenza tra due variabili categoriali (a livello di popolazione), si applica il test chi-quadro per l'indipendenza.  CHI-QUADRATO La statistica è in grado di dirci se un certo valore del chi-quadrato è sufficientemente piccolo da poter essere attribuito ad errori casuali e quindi: pur non essendo X^2 = 0 esso è tuttavia compatibile con le ipotesi di indipendenza tra le variabili oppure se è troppo grande per cui dobbiamo respingere tale ipotesi Confrontando su apposite tabelle il valore del chi-quadrato ottenuto, con quello attribuibile con una certa probabilità al caso siamo in grado di respingere o non respingere l’ipotesi nulla di indipendenza fra le variabili  TEST CHI-QUADRO DI INDIPENDENZA Le ipotesi saranno  H0: le variabili sono statisticamente indipendenti.  Ha: le variabili sono statisticamente dipendenti. Requisiti minimi per l'applicazione del test: campionamento casuale o esperimento randomizzato e campione sufficientemente grande. Lo scopo del test del χ2 è quello di conoscere se le frequenze osservate differiscono significativamente dalle frequenze teoriche Per rilevare la significatività statistica:  H0 = Ipotesi nulla: Ipotesi di indipendenza tra X e Y = assenza di relazione statistica fra due variabili  H1 = Ipotesi Alternativa di dipendenza tra X e Y à è necessario calcolare la probabilità (p) che il valore assunto da X2 non sia dovuto al caso (errore) – cioè, che esso derivi da una popolazione con indipendenza fra le variabili  Il p-value ci dice se l’indice è statisticamente significativo o meno. Se l’ipotesi di assenza di relazione viene respinta, automaticamente viene accettata l’ipotesi di ricerca (H1) che sostiene l’esistenza della relazione. Regola pratica: se), P minore 0,05 (5%) l’indice X2 è significativo al 95%. Ovvero: rigetto l’ipotesi nulla H0 (le due variabili non sono dipendenti). E accetto H1 - le due variabili sono dipendenti – possiamo dire che c’è associazione 55 Ma non si possono generare nuovi casi! Aggregazione di valori – per variabili cardinali con molte modalità – ES: Proprietà «popolazione residente» da operativizzare in un’indagine su tutti i comuni italiani. Se la definizione operativa che crea la variabile «popolazione residente» prevede la registrazione del numero preciso di residenti, possiamo ricodificare e creare una nuova variabile: «Dimensione demografica»: 1= fino a 500 residenti; 2= da 501-1.000 residenti; 3= da 1001-1500 residenti ecc. Non si aggiunge nulla di nuovo alla matrice dati ma si rendono le informazioni fruibili diversamente Oppure possiamo decidere di prevedere una definizione operativa con poche modalità sin dall’inizio. La strategia migliore è tenere la variabile continua e successivamente creare le classi, perché così si hanno maggiori possibilità di scelta e si possono usare entrambe le variabili (la prima – cardinale – per esprimere media, deviazione standard; la seconda – ordinale – per tabelle, grafici) Se invece si adotta sin dall’inizio la definizione operativa «riduttiva» allora per rappresentare la tendenza centrale dobbiamo accontentarci della mediana o della moda oppure calcolare una media stimata. Si fa sempre in tempo ad aggregare!  RICODIFICA VARIABILI NOMINALI Se alcune modalità presentano una frequenza molto bassa posso raggrupparle in una sola modalità ES: partito votato = modalità «altri partiti» Posso raggruppare anche se le modalità non hanno frequenze basse Esempio variabile: «provincia di residenza» → variabile «regione di residenza» → variabile «zona di residenza». Nell’ultimo caso avremo: Nord-est - Nord-ovest - Centro - Sud - Isole In generale l’aggregazione delle modalità è una creazione di variabili aggiuntive, allungamento in senso orizzontale della matrice dati Ma posso anche sostituire una variabile con un’altra  RICODIFICA INVERSIONE POLARITA’ SEMANTICA 56 Le variabili ordinali e cardinali per loro natura presentano modalità che possono essere interpretate come alte o basse La ricodifica può essere un modo per invertire la sequenza dei valori riportati in matrice rispetto alla sequenza delle modalità della variabile si parla in questo caso di inversione della polarità semantica ES: livello di analfabetismo (da 0 a 100) può essere operativizzato come % di residenti che non sono in grado né di leggere né di scrivere. la modalità «0» = minimo livello di analfabetismo la modalità «100» = massimo livello di analfabetismo Se fossimo interessati a livello di alfabetismo anziché analfabetismo? occorre trasformare i dati della variabile invertendo la sequenza originaria:  0 deve diventare 100  1 deve diventare 99  100 deve diventare 0 La trasformazione si ottiene applicando a tutti i dati della variabile originaria la formula: Quindi 93 diventerà 7; 5 diventerà 95  TRAFORMAZIONE DELLE VARIABILI Ricodifica → Lo scopo è rendere le informazioni disponibili più leggibili. In altri casi può essere utile trasformare le variabili per poterle confrontare Perché per poter confrontare le variabili è indispensabile rendere le loro distribuzioni omogenee. Il confronto tra variabili può avvenire solo dopo che queste variabili sono state sottoposte a un processo di normalizzazione ossia collocati in un sistema di riferimento comune che ne faciliti l’interpretazione Esempi di normalizzazione = trasformazione delle frequenze assolute in:  frequenze percentuali  proporzioni  l’indice di omogeneità relativa al fine di collocare i valori originari in un sistema di riferimento in cui i valori variano da: Min = 0 a un Max = 100 (freq. %), Min = 0 a un Max = 1 (proporzioni e Orel) 57 Obiettivo: facilitare la comprensione dei dati e la comparazione tra variabili (es. voto di laurea in Italia ed altro paese Europeo)  OMOGENEIZZAZIONE DEI CAMPI DI VARIAZIONE – NOMALIZZAZIONE Un modo semplice di normalizzazione (assoluta) consiste nel mettere in relazione i valori di una variabile cardinale con il valore più basso e il valore più alto che la variabile assume Ni = dato normalizzato Xi = dato da normalizzare Xmin= valore minimo possibile Xmax = valore massimo possibile Posso moltiplicare per un valore K (ad esempio 100) per cambiare il campo di variazione  NORMALIZZAZIONE Diventa agevole interpretare un qualsiasi valore collocato nell’intervallo (0- 100; 0-1; 0- 10; 0-1000) Posso confrontare dati rilevati con scale diverse (esempio voto di maturità in 60esimi o in 100esimi) La trasformazione del campo di variazione può essere utile quando vogliamo confrontare dati appartenenti a variabili che hanno intervalli di variazioni diversi. Basta quindi applicare la funzione di trasformazione a tutte le variabili in modo da ricondurre a uno stesso sistema di riferimento  NORMALIZZAZIONE ASSOLUTA – LIMITI Non è detto che la distribuzione di frequenza della nuova variabile normalizzata presenti valori con un campo di variazione compreso tra 0 e k (0 -1; 0-10; 0-100) Questi valori estremi sono presenti solo se nella distribuzione originaria vi sono casi che assumono valori estremi. La normalizzazione assoluta non tiene conto dell’effettiva distribuzione di frequenza dei dati da normalizzare 60 indicatori statistici = numeri che si ottengono attraverso differenze e rapporti tra i dati, moltiplicando eventualmente tali rapporti per potenze di 10 (100, 1000…). Per misurare le variazioni di uno stesso fenomeno nel tempo e nello spazio posso usare indici assoluti o relativi Indici assoluti = sono espressi nella stessa unità di misura del fenomeno. Si ottengono mediante una sottrazione per differenza tra la dimensione di un fenomeno ad una certa data (o in un certo periodo) e la dimensione dello stesso fenomeno ad un tempo antecedente a quello considerato. ES: Per rispondere alla domanda: di quante unità è aumentata una popolazione tra 2 date successive à Incremento/decremento assoluto Indici relativi = non dipendono dall'unità di misura del fenomeno e si ottengono rapportando l’indicatore assoluto alla dimensione che il fenomeno osservato aveva al tempo antecedente Tasso di incremento (contributo medio annuo alla crescita demografica di ognuno degli individui presenti nella popolazione all’inizio dell’anno) Gli indicatori ottenuti per rapporto si chiamano rapporti statistici Molte variabili (es. matrimoni civili, nr. reati) vengono spesso normalizzate rispetto ad altre variabili (es. nr. matrimoni, nr. abitanti, ecc.) quando i valori assunti da una variabile risentono della dimensione degli aggregati allora occorre relativizzare tali valori in funzione della dimensione di tali aggregati calcolando i rapporti statistici Rapporti statistici = quoziente tra frequenze o intensità (misurazioni, ad es. prezzo, reddito, temperatura, peso) di due fenomeni Indicano il numero di unità della quantità posta al numeratore che corrispondono in media a una unità della quantità posta al denominatore Rapporti statistici – consentono comparazioni spazio-temporali e fra situazione diverse Rapporti di composizione = mettono in relazione una «parte» con il «tutto» Esempi: le frequenze relative proporzioni o percentuali ottenute dividendo la frequenza di ciascuna classe o modalità per il numero totale di unità statistiche esaminate Proporzione di maschi = 61 Rapporto di coesistenza = indica il rapporto fra due parti di un insieme, ossia il rapporto di frequenze tra due modalità di uno stesso collettivo (molto utilizzati in demografia) Un valore del rapporto superiore ad 1 (oppure a 100, 1000, … se il rapporto è moltiplicato rispettivamente per 100, 1000) significa che la quantità posta al numeratore è maggiore di quella posta al denominatore. Rapporto di mascolinità = Indice di vecchiaia = Indice di dipendenza strutturale (o totale) = Rapporto di derivazione corrisponde al rapporto tra la misura di un fenomeno e quella di un altro, che può essere considerato un suo presupposto necessario. Il rapporto di derivazione evidenzia il flusso medio generato da un dato aggregato (intensità del fenomeno). Tasso di natalità CAPITOLO 7- ANLISI BIVARIATA  AAOCIAZIONE Passando dall’analisi Monovariata alla Bivariata → obiettivo diventa studiare il comportamento congiunto rilevando l’eventuale relazione tra due fenomeni e – quando la relazione esiste – cercando di misurarla e spiegarla statisticamente se fra X e Y non esiste alcuna relazione statistica o X e Y sono statisticamente indipendenti Il metodo per stabilire se sono indipendenti è confrontare le frequenze condizionate – che informano sul comportamento di un fenomeno condizionatamente alle modalità dell’altro con le frequenze marginali che invece informano sul comportamento dei due fenomeni indipendentemente l’uno dall’altro (ricordando che le marginali si riferiscono all’intero campione, mentre le condizionate si riferiscono a sottopopolazioni) Supponiamo di avere 2 tipo di agricoltura: per ognuna il 60% dei prodotti presenta residui di pesticidi, mentre il 40% non li ha. In questo caso diremo che la presenza di pesticidi è statisticamente indipendente dal tipo di agricoltura 62 Le proporzioni condizionate per le categorie della variabile risposta (presenza/assenza di pesticidi) sono le stesse per ogni tipo di agricoltura considerata. Se vediamo il grafico a barre side-by-side, che mostra le proporzioni condizionate, vediamo che per ogni categoria della variabile risposta le barre sono della stessa altezza indicando quindi assenza di associazione. La presenza di residui di pesticidi non dipende dal tipo di agricoltura  TABELLE DI CONTINGIENZA – INDIPENDENZA STATISTICA Per ogni tabella osservata di dati si può costruire una tabella teorica di indipendenza statistica che si compila tenendo fisse le marginali (che mostrano il comportamento dei singoli fenomeni indipendentemente l’uno dall’altro) e sostituendo le frequenze congiunte osservate con le frequenze teoriche di indipendenza statistica Quando la condizione di indipendenza statistica è verificata le 2 tabelle – osservata e teorica – coincidono Allora un metodo alternativo per stabilire l’esistenza di indipendenza statistica consiste nel confrontare la tabella osservata con tabella teorica di indipendenza statistica L’indipendenza statistica è una situazione limite che esclude qualunque tipo di relazione statistica nei dati È matematicamente forte e restrittiva e difficile da riscontrare esattamente nei dati reali  CONVENZIONE TERMINOLOGICHE Se concludiamo che X e Y sono statisticamente indipendenti l’analisi bivariata è terminata. In caso contrario il passo successivo è stabilire se la relazione è statisticamente significativa quindi considerare la differenza tra frequenze congiunte nella tabella osservate e freq. teoriche della tab di indipendenza → Chi Quadrato 65 Per rilevare la significatività statistica: H0 = Ipotesi nulla: Ipotesi di indipendenza tra X e Y = assenza di relazione statistica fra due variabili H1 = Ipotesi Alternativa di dipendenza tra X e Y è necessario calcolare la probabilità (p) che il valore assunto da X2 non sia dovuto al caso (errore) – cioè che esso derivi da una popolazione con indipendenza fra le variabili Il p-value ci dice se l’indice è statisticamente significativo o meno. Se l’ipotesi di assenza di relazione viene respinta, automaticamente viene accettata l’ipotesi di ricerca (H1) che sostiene l’esistenza della relazione. Regola pratica: se p minore 0,05 (5%) l’indice X2 è significativo al 95%. Ovvero: rigetto l’ipotesi nulla H0 (le due variabili non sono dipendenti). E accetto H1 - le due variabili sono dipendenti – possiamo dire che c’è associazione È importante sottolineare comunque che il ricercatore non ha mai una certezza assoluta sull’esistenza di un’associazione tra le variabili osservate nel campione - non a caso parliamo di probabilità - ma può solo essere più o meno fiducioso su come stanno le cose Grazie all’applicazione di determinate procedure statistiche si può ottenere uno specifico valore di Chi-quadrato chiamato valore critico, che rappresenta la soglia per accettare o rifiutare con un certo grado di sicurezza l’ipotesi nulla di indipendenza tra le variabili Il valore di x^2 elevato ci dice che le variabili sono associate ma non fornisce una misura della forza dell'associazione, in quanto fortemente dipendente dalla dimensione campionaria. Infatti, x^2 è direttamente proporzionale alla numerosità campionaria  COME DETERMINARE LA FORZA DI UNA ASSOCIAZIONE Quanto è forte l'associazione? Analizzare la forza della relazione permette di valutare se essa è importante oppure no. Utilizziamo una statistica come la differenza di proporzioni, o la V di Cramer.  MISURE DI ASSOCIAZIONE IN TABELLE DI CONTINGENZA L’analisi della forza dell’associazione consente di rivelare se l’associazione è importante o se pur essendo statisticamente significativa e trascurabile dal punto di vista pratico. Una misura di associazione è una statistica o un parametro che sintetizza la forza della dipendenza tra due variabili Una misura di associazione assume un insieme di valori che variano da un minimo a un massimo a seconda che si abbia un’associazione minima/debole oppure massima/forte una tale misura è utile per confrontare associazioni e determinare quale sia più forte 66 La tabella sottostante mostra due ipotetiche tabelle di contingenza che incrociano le opinioni sulle unioni civili con il sesso Il caso A mostra indipendenza statistica e rappresenta l’associazione più debole. Sia i maschi sia le femmine hanno il 60% di favorevoli e il 40% di contrari alle unioni civili tra persone dello stesso quindi l’opinione non è associata con il sesso Al contrario il caso B mostra l’associazione più forte; tutti i maschi sono favorevoli alle unioni civili mentre tutte le femmine si oppongono, In questa tabella l’opinione è completamente dipendente dal sesso - conoscendo il sesso possiamo con certezza conoscere anche l’opinione sulle unioni civili tra persone dello stesso sesso  DIFFERENZA DI PROPORZIONE Una semplice misura della forza dell'associazione in tabelle 2 ´ 2 è costituita dalla differenza tra proporzioni per una data categoria di risposta: la differenza tra le proporzioni di maschi e femmine che sono favorevoli alle unioni civili tra persone dello stesso sesso è: d= 0,6 – 0,6 = 0,0 La differenza di proporzione nella popolazione è = 0 ogni qualvolta le distribuzioni condizionate sono identiche, cioè quando le variabili sono indipendenti Per il caso B tale differenza è (600 ÷ 600) – (0 ÷ 400) = 1,0 il massimo possibile in valore assoluto per le differenze Questo indice varia tra -1 e 1 per la situazione di massima associazione. d = 0 assenza di relazione  DIFFERENZA DI PROPORZIONI Domanda di ricerca: Esiste una differenza nella proporzione di pesticidi presenti tra agricoltura biologica e tradizionale? Per rispondere calcoliamo le proporzioni nelle 2 categorie corrispondenti ai 2 diversi tipi di agricoltura Variabile risposta – presenza o meno di pesticid 67 Queste proporzioni si chiamano proporzioni condizionate perché il loro calcolo è condizionato al tipo di agricoltura Vediamo una forte associazione tra tipo di agricoltura e presenza di pesticidi nei cibi, poiché la proporzione di prodotti con pesticidi è diversa (0,23 rispetto a 0,73) Utilizzando il grafico a barre vediamo le proporzioni condizionate per i 2 tipi di agricoltura. Il vantaggio di vedere il grafico con le barre sideby-side (grafico colorato) è che permette un confronto più immediate dei 2 tipi di agricoltura La proporzione di pesticidi è molto più alta per l’agricoltura tradizionale. Studiare le proporzioni ci aiuta a capire quando è presente un’associazione tra le variabili Supponiamo che per ogni tipo di agricoltura il 60% dei prodotti presenti residui di pesticidi, mentre il 40% non li ha. In questo caso diremo che la presenza di pesticidi è indipendente dal tipo di agricoltura 70 Che cosa ci dicono questi diagrammi? 1. vediamo che il modo in cui punti sono disposti suggerisce che la variabile X è la variabile Y covariano in maniera sistematica, cioè, sono effettivamente legati da una relazione 2. il fatto che questa nuvola di punti va dall’angolo in basso a sinistra verso l’angolo in alto a destra indica che il segno della relazione è positivo, cioè all’aumentare della variabile X tende a crescere anche la variabile Y 3. la disposizione dei punti nel diagramma suggerisce che la forma della relazione è lineare => la variabile X tende a variare con il con la variabile Y sempre nella stessa direzione e misura  CORRELAZIONE Una misura di sintesi chiamata correlazione è in grado di descrivere la forza di una relazione lineare La correlazione ci dà informazioni circa la direzione della relazione tra le 2 variabili quantitative e la forza della relazione La correlazione si indica con r e varia tra -1 e 1 Valori positivi → relazione positiva Valori negativi → relazione negativa Più r è vicina a 1 e più i punti si dispongono vicini alla linea retta e più forte è la relazione lineare Più r è vicina a 0 e più debole è la relazione lineare r è noto come coefficiente di correlazione lineare di Pearson (dal nome dello statistico britannico Karl Pearson che lo ideò nel 1896) z-score = numero di deviazioni standard che separano un’osservazione dalla sua media  MISURE DI ASSOCIAZIONE TRA VARIABILI DICOTOMICHE Tabelle 2 X 2 Se 2 variabili messe in relazione sono dicotomiche (dummy) la V di Cramer coincide con il coefficiente r di correlazione di Pearson Utile perché il coefficiente r si usa per misurare la correlazione tra variabili cardinali 71 CAPITOLO 8 – REGRESSIONE LINEARE SEMPLICE ANALISI BIVARIATA La regressione lineare semplice è una tecnica di analisi utilizzata per una relazione bivariata, per determinare: 1. Forma 2. Strettezza 3. Intensità della relazione tra due variabili cardinali Esempio: relazione tra:  ore di studio e voto all’esame  tasso di occupazione femminile e TFT  Voto di laurea e reddito  benessere e felicità L’obiettivo è quello di stabilire in che misura la variabile indipendente X influisce quella dipendente Y - ovvero rilevare l’intensità dell’effetto esercitato dalla variabile indipendente su quella dipendente L'analisi di regressione lineare semplice viene utilizzata per: 1. Prevedere costruire un modello attraverso cui prevedere il valore della variabile dipendente a partire dai valore di una variabile indipendente ES: qual è il numero previsto di figli per una donna che è molto religiosa (oppure ha un livello medio di istruzione)? 2. Spiegare l’effetto che i cambiamenti nella variabile indipendente hanno sulla variabile dipendente ES: effetto del reddito familiare sugli atteggiamenti verso l'immigrazione? Variabile dipendente Y: variabile quantitativa (Sempre!) Variabili indipendenti, X: quantitativa o qualitativa un modello è una semplice approssimazione della vera relazione che lega due variabili nella popolazione. I modelli sono utili semplificazioni della realtà 1° rappresentare graficamente la relazione: scatterplot asse orizzontale (delle ascisse) valori della variabile indipendente (X) asse verticale (delle ordinate) à valori della variabile dipendente (Y) 72  COEFFICIENTE CORRELAZIONE LINEARE DI PEARSON Quando la relazione mostra un pattern che si dispone secondo una linea retta, la correlazione la descrive e sintetizza numericamente  DIAGRAMMA DI DISPERSIONE Che cosa ci dicono questi diagrammi? 1. vediamo che il modo in cui punti sono disposti suggerisce che la variabile X è la variabile Y covariano in maniera sistematica, cioè, sono effettivamente legati da una relazione 2. il fatto che questa nuvola di punti va dall’angolo in basso a sinistra verso l’angolo in alto a destra indica che il segno della relazione è positivo, cioè all’aumentare della variabile X tende a crescere anche la variabile Y 3. la disposizione dei punti nel diagramma suggerisce che la forma della relazione è lineare => la variabile X tende a variare con il con la variabile Y sempre nella stessa direzione e misura  PREDIRE L’ESITO DI UNA VARIABILE Il diagramma di dispersione non dice nulla sull’intensità della relazione: ES: ogni anno in più di istruzione fa crescere il reddito medio mensile di 50 € o di 300 €? 75 L’equazione lineare rappresenta la base della regressione lineare semplice (tecnica utilizzata per analizzare le relazioni fra coppie di variabili cardinali) L’equazione lineare rappresenta una situazione particolare in cui la relazione (associazione) fra X e Y è perfetta - cioè, a ogni valore di X corrisponde un solo valore di Y; quindi, tutte le osservazioni si collocano esattamente sulla linea retta definita dall’equazione lineare In questa situazione conoscere i valori di X ci aiuta a predire esattamente Y In realtà la relazione tra X e Y è molto più complessa ed è rappresentata da una nuvola di punti – a ogni valore di X possono corrispondere più valori di Y – e non esiste alcuna retta che possa unire tra loro tutti i punti Questo significa che la relazione tra X e Y non può essere rappresentata esattamente da un’equazione lineare perché qualunque retta tracciata all’interno del diagramma di dispersione non potrà mai toccare contemporaneamente tutti i punti  MODELLO DI REGRESSIONE LINEARE SEMPLICE L’obiettivo del ricercatore e quindi quello di stabilire in che misura una linea retta approssimi la covariazione osservata fra due variabili cardinali se la linea retta riesce a sintetizzare bene quello che accade alla variabile dipendente come conseguenza della variazione della variabile indipendente allora tra le due variabili esiste un’associazione lineare In caso contrario si parla di assenza di relazione lineare tra le variabili Come possiamo rappresentare con una equazione lineare – e quindi mediante una semplice linea retta – una relazione complessa? Sappiamo che una relazione complessa non può essere rappresentata esattamente da un’equazione lineare. Ma: Se la nuvola di punti possiede nel suo insieme una forma lineare se si desidera ottenere una rappresentazione parsimoniosa della relazione bivariata oggetto di analisi può esser utile individuare una linea retta – quindi, un’equazione lineare – che, seppure in modo imperfetto e semplificato, approssimi tale relazione La retta di regressione è l’equazione lineare per predire il valore della variabile risposta La retta di regressione è spesso chiamata equazione predittiva poiché predice il valore di y per ogni valore di x. Obiettivo della regressione lineare semplice è stimare i valori dei parametri α e β corrispondenti alla retta che, meglio di ogni altra, approssima la covariazione osservata X e Y. Tale retta assume la seguente forma matematica Accento circonflesso indica che non sono valori osservati ma sono valori predetti/attesi sulla base dei parametri α e β stimati. 76 L’equazione predittiva (o modello di regressione lineare) suggerisce - sotto l’ipotesi che la relazione reale sia perfetta - quale valore dovrebbe assumere Y a partire da un determinato valore noto di X poiché sappiamo che i dati non seguono mai una relazione lineare perfetta, per tener conto delle deviazioni dalla relazione lineare è necessario aggiungere un ulteriore elemento che rappresenta gli errori di predizione: Per i valori osservati la formula matematica diventa Da qui troviamo i Residui  I RESIDUI/ERRORI DI PREDIZIONE ᵋ esprime l’influenza esercitata su Y da tutti i fattori “casuali” che non sono presi esplicitamente in considerazione dal modello di regressione lineare scelto Possiamo classificare questi fattori in tre categorie: 1. relazione non perfettamente lineare fra X e Y - possono esserci delle non linearità che sono assorbite dagli errori di predizione 2. il modello di regressione lineare semplice esprime valore di Y come funzione di un’unica variabile indipendente X senza tener conto del fatto che questi valori possono essere influenzati anche da altre variabili che non sono state incluse nel modello e che hanno comunque un effetto su Y (regressione lineare multipla) 3. il comportamento umano è caratterizzato da una certa dose di casualità che non possiamo tener conto in alcun modello di regressione e che fa sì che il valore di Y non sia mai perfettamente prevedibile (casualità intrinseca) ε= residui rappresenta la discrepanza/distanza fra i valori osservati di Y e quelli predetti modello di regressione lineare la parte di Y che non può essere «spiegata» dall’effetto lineare di X 77 Per ogni caso l’equazione deve incorporare il termine di errore (residuo): ε = y – Ῡ alcuni errori saranno positivi quando il valore osservato è maggiore di quello predetto Y > Ῡ cosicché y - Ῡ > 0 altri saranno negativi quando il valore osservato è minore di quello predetto Y < Ῡ altri ancora saranno nulli quando i due valori sono uguali Y = Ῡ La somma degli errori su tutti casi è sempre uguale a zero perché gli errori negativi e quelli positivi si bilanciano Più piccolo è ε in valore assoluto e più il valore previsto Ῡ è vicino al valore effettivamente osservato Y e migliore è la previsione Con l’equazione di regressione si calcolano quindi i valori attesi/predetti di Y (valore teorico), cioè le stime del valore medio della variabile dipendente Y in corrispondenza di ogni valore fissato della variabile indipendente X, se la relazione tra le due variabili fosse perfettamente lineare  STIMARE I VALORI DEI PARAMETRI ALFA E BETA scopo della regressione lineare semplice stimare i parametri ἁ e ᵦ del modello corrispondenti alla retta che approssima meglio di ogni altra la covariazione osservata fra X e Y occorre trovare tra tutte le possibili rette quella che meglio approssima la nuvola dei punti Si sceglie la retta che minimizza i residui - cioè, quella che produce minori errore di predizione (differenza tra valori osservati e quelli attesi) rispetto agli errori prodotti da qualsiasi altra retta di regressione Quindi la miglior retta di regressione - che meglio sintetizza la nuvola dei punti - è quella che minimizza (Y - Ῡ) cioè, quella che rende minima la distanza tra la retta e i punti della nuvola = che equivale a dire minimizzare la somma degli errori di predizione  IL MODELLO DEI MINIMI QUADRATI FORNISCE LA RETTA DI REGRESSIONE 80 La retta di previsione Ῡ= a+bx è chiamata la retta dei minimi quadrati, perché è quella con la più piccola somma dei residui al quadrato. Oltre a garantire gli errori più piccoli complessivamente, la retta dei minimi quadrati. 1. ha qualche residuo positivo e qualche negativo ma la loro somma (e media) è pari a 0. 2. passa attraverso il punto. La prima proprietà ci dice che le previsioni basse sono bilanciate da previsioni alte. La seconda proprietà dice che la retta passa attraverso il centro (o baricentro) dei dati  GLI ERRORI DI PREVISIONE: I RESIDUI La retta di regressione stimata che attraversa la nuvola di punti è esattamente quella che minimizza la somma degli errori di predizione al quadrato se ad esempio proviamo a modificare - anche di poco - il valore di uno solo o di entrambi i parametri, possiamo vedere che la somma degli errori al quadrato sarà sempre maggiore di quella associata alla retta di regressione che abbiamo stimato La devianza totale SQTotale (somma quadrati totale) indica la variabilità totale è la variabilità di y (oppure indicato come TSS – total sum of squares) ovvero gli scarti di ogni valore osservato yi dalla media, che è dato dalla seguente formula 81 Si individua la retta che minimizza la SSE – la somma dei quadrati delle distanze dei punti empirici dai punti teorici, cioè i corrispondenti punti sulla retta  IL COEFFICIENTE B 1. Misura quanto aumenta Y al variare unitario di x; 2. La sua unità di misura è quella di Y; 3. Il segno + indica che tra le due variabili c’è concordanza (all’aumentare di X aumenta anche Y); il segno – indica discordanza (all’aumentare di X, Y diminuisce); 4. La sua significatività è testata grazie ad un t-test, con ipotesi nulla H0 = 0 significa che la sua pendenza è pari a 0 quindi coincide con la retta che esprime il valore medio di Y (Ῡ) Come interpretiamo i valori della variabile dipendente predetti (Ῡ) da questo modello di regressione lineare? Utilizzando il concetto di media cioè: Se la relazione tra X e Y è effettivamente lineare, nel complesso gli scarti positivi tenderanno ad essere controbilanciati dagli scarti negativi: cosicché in media i valori di Y osservati in corrispondenza di ogni dato livello di X approssimeranno il valore di Ῡ predetto per quel livello di X Ῡ = le stime del valore medio della variabile dipendente Y in corrispondenza di ciascun livello della variabile indipendente X È importante sottolineare che l’obiettivo di un modello di regressione non è quello di riprodurre esattamente la relazione osservata fra due variabili 82 ma di evidenziare le caratteristiche salienti per poter offrire a una rappresentazione parsimoniosa e comprensibile (anche se semplificata) costruire un modello attraverso cui prevedere i valori di una variabile dipendente (quantitativa) a partire dai valori di una variabile indipendente il valore assunto dal parametro β ci dice quanto varia in media il valore di Y per ogni variazione unitaria di X, assumendo che la relazione fra le due variabili sia perfettamente lineare. CAPITOLO 9 – ANALISI BIVARIATA PARTE SECONDA  REGRESSIONE LINEARE SEMPLICE La regressione lineare semplice è una tecnica di analisi utilizzata per una relazione bivariata, per determinare:  Forma  Strettezza  Intensità della relazione tra due variabili cardinali L’obiettivo è quello di stabilire in che misura la variabile indipendente X influisce quella dipendente Y - ovvero rilevare l’intensità dell’effetto esercitato dalla variabile indipendente su quella dipendente Nel costruire il modello statistico per prevedere y in funzione di x, si ipotizza che tra la variabile indipendente x e la variabile dipendente y vi sia una relazione di tipo lineare rappresentato da una retta, la cui equazione è: y = a +bx Una volta determinata la retta, il modello permetterà di stimare il valore della variabile y sulla base del valore assunto dalla x Per ottenere un buon modello, e quindi delle buone previsioni, occorre determinare la retta che meglio di qualsiasi altra descrive la nuvola di punti osservati: Questo significa determinare i due coefficienti a e b dell’equazione della retta  EQUAZIONE LINEARE y = a + bx a = intercetta punto in cui la retta incontra la variabile dipendente = distanza dall’asse X = esprime il valore assunto da Y quando X=0 a è esattamente il valore della variabile dipendente quando quella indipendente è = a 0 b = pendenza/inclinazione retta = gradiente = ci dice di quanto varia il valore di Y per ogni variazione unitaria di X (cioè, quando l’ascissa varia di un’unità) intensità della relazione tra x e y b esprime l’intensità dell’effetto esercitato da X su Y questo effetto è costante 85 Quindi possiamo dire che la retta di regressione associa le medie stimate di Y ai diversi valori di X Ŷ = a + bX descrive la relazione tra X e le medie stimate di Y in corrispondenza dei vari valori di X  IL COEFFICIENTE B 1. Misura quanto aumenta Y al variare unitario di x; 2. La sua unità di misura è quella di Y; 3. Il segno + indica che tra le due variabili c’è concordanza (all’aumentare di X aumenta anche Y); il segno – indica discordanza (all’aumentare di X, Y diminuisce); 4. La sua significatività è testata grazie ad un t-test, con ipotesi nulla H0 = 0 à significa che la sua pendenza è pari a 0 quindi coincide con la retta che esprime il valore medio di Y (Ῡ)  GLI ERRORI DI PREVISIONE: I RESIDUI interpretiamo i valori della variabile dipendente predetti (Ῡ) da questo modello di regressione lineare utilizzando il concetto di media cioè: Se la relazione tra X e Y è effettivamente lineare, nel complesso gli scarti positivi tenderanno ad essere controbilanciati dagli scarti negativi: cosicché in media i valori di Y osservati in corrispondenza di ogni dato livello di X approssimeranno il valore di Ῡ predetto per quel livello di X Ῡ = le stime del valore medio della variabile dipendente Y in corrispondenza di ciascun livello della variabile indipendente X  STRETTEZZA DELLA RELAZIONE FRA X E Y Lo scopo essenziale della regressione lineare semplice è quello di: 1. stimare l’intensità dell’effetto esercitato da X su Y à calcolare il parametro β (inclinazione retta di regressione) 2. stabilire anche la strettezza della relazione fra X e Y, cioè la misura in cui la retta di regressione approssima la covariazione osservata fra la variabile indipendente e quella dipendente Rilevare la strettezza della relazione tra X e Y equivale a calcolare il potere predittivo della retta di regressione stimata cioè stabilire con che precisione la conoscenza dei valori di X ci consente di «indovinare» i valori di Y Misura del potere predittivo:  errore standard della regressione  coefficiente di determinazione  ERRORE STANDARD DELLA REGRESSIONE 86 l’errore standard della regressione è una misura di variabilità (descrive la deviazione standard) degli scostamenti dei valori osservati da quelli previsti. radice della somma degli errori al quadrato divisa per il numero dei casi meno due (il 2 = il numero dei parametri stimati dal modello di regressione) l’errore standard della regressione può essere interpretato come una misura dell’errore di predizione medio Quanto maggiore è il valore assunto da questa misura, tanto minore è il potere predittivo della retta di regressione. Esempio: relazione tra voto di laurea e reddito da lavoro ơ(ᵋ) = 350 significa che in media i livelli di reddito mensile predetti dalla retta di regressione si discostano da quelli effettivamente osservati di 350 euro  COEFFICIENTE DI DETERMINAZIONE R^2 Abbiamo già visto che la forza della relazione tra 2 variabili quantitative può essere descritta con la correlazione r  r ha lo stesso segno della pendenza b  la correlazione r cade sempre tra -1 e 1  più grande + il valore assoluto di r e più forte è l’associazione lineare.  Se r = ±1 i punti giocano tutti sulla retta Esiste una relazione tra r e b per cui r = b(sx/sy) Un’altra misura di potere predittivo ampiamente utilizzata nelle scienze sociali è il coefficiente di determinazione, indicato dal simbolo R2. misura la parte di variabilità di Y spiegata dalla variabile X nel modello di regressione. Se volessimo produrre una previsione di y perché dovremmo usare la retta di regressione? Potremmo ad es. prevedere la y usando il baricentro della distribuzione ossia la sua media Ῡ Il motivo per ricorrere alla retta di regressione risiede nell’associazione che lega x e y. 87 se x e y sono associate allora possiamo prevedere la y con maggiore accuratezza di quella che ci garantisce la Ῡ sostituendo opportuni valori di x nell’equazione di regressione Ῡ = a+ bx esempio: Vogliamo predire il reddito mensile di un campione di 263 individui Supponiamo che abbiamo come unica informazione il reddito medio complessivo - cioè il valore medio di Y = 2.912.400 In mancanza di altre informazioni in questo esempio la sola strategia predittiva percorribile è quella di attribuire a ogni individuo un reddito = al reddito medio Per ogni osservazione l’errore di previsione è la differenza tra il valore osservato e il valore previsto di Y Quindi l’errore dovuto all’utilizzo di Ῡ per fare la previsione è Y - Ῡ Quindi per valutare il potere predittivo della semplice media calcoliamo l’errore di previsione dato dalla somma delle differenze al quadrato fra i valori osservati (Y) e i valori predetti dalla meda (Ῡ): Questa grandezza si chiama Somma totale dei quadrati (total sum of squares) Maggiore è il valore di questa somma maggiore sarà l’errore di predizione complessivo e quindi minore sarà il potere predittivo della media. Ora, supponiamo di avere un’altra informazione i voti di laurea conseguiti dagli individui del nostro campione Se il voto di laurea influisce in qualche misura sul reddito allora ci possiamo aspettare che questa ulteriore informazione migliorerà la nostra capacità di predire i valori di Y rispetto alla sola media (Ῡ). Ma di quanto? Per rispondere dobbiamo stimare la retta di regressione usando l’equazione di previsione attraverso la somma degli errori di predizione al quadrato (errore di previsione) Questa quantità si chiama Somma residua dei quadrati Quindi à la conoscenza dei valori della variabile indipendente ci permette di migliorare in maniera sostanziale la nostra capacità di predire i valori della variabile dipendente. 90 Al contrario, l’errore standard della regressione (dice di quanto il valore predetto Y si discosta in media da quelli osservati) non è influenzato dalle caratteristiche di X ma dipende solo dalla somma degli errori di predizione al quadrato. Quanto maggiore è il suo valore tanto minore sarà il potere predittivo della retta di regressione In sostanza l’errore standard della regressione si può considerare una misura dell’errore di predizione medio attribuibile alla retta di regressione Esempio: un errore standard di regressione = 4,52 à significa che in media il valore della variabile Y predetto dalla retta di regressione si discosta dal valore osservato di 4,52 Il limite del coefficiente di determinazione emerge se lo esprimiamo con la formula: Il valore quindi R2 dipende da 3 elementi: 1. β - l’intensità dell’effetto esercitato da X su Y 2. σ(e ) – errore standard della retta di regressione 3. la varianza di X Quindi due o più valori di R2 uguali possono derivare da combinazioni diverse di questi 3 elementi  BONTA’ DI ADATTAMENTO ≠ INTENSITA’ DELL’EFFETTO Il modello A spiega il 35% della variabilità della variabile reddito Il modello B spiega il 72% della variabilità della variabile reddito  QUALI ASSUNZIONI SONO IMPORTANTI? Il modello di regressione lineare assume che la relazione tra x e la media di y segua una retta. In realtà, la vera forma della relazione non è nota e, quasi certamente, non è esattamente lineare. Ciononostante, una funzione lineare spesso fornisce un’adeguata approssimazione per il vero andamento della relazione  MODELLO DI REGRESSIONE: RAPPRESENTAZIONE PARSIMONIOSA È importante sottolineare che l’obiettivo di un modello di regressione non è quello di riprodurre esattamente la relazione osservata fra due variabili ma di evidenziare le caratteristiche salienti per poter offrire a una rappresentazione parsimoniosa e comprensibile (anche se semplificata) 91 costruire un modello attraverso cui prevedere i valori di una variabile dipendente (quantitativa) a partire dai valori di una variabile indipendente CAPITOLO 10 – DISTRIBUZIONE DI PROBABILITA’  INTRODUZIONE ALLA PROBABILITA’ Nella vita di tutti i giorni capita spesso di dover prendere decisioni in condizioni di incertezza circa l’esito delle scelte:  investiamo del denaro nel mercato azionario?  dovremmo aggiungere alla ns assicurazione auto quella per il tamponamento?  è il caso di avviare una nuova attività?  portiamo l’ombrello nel caso piovesse Tutti i giorni siamo prendiamo delle decisioni – anche banali – dall’esito incerto perché i fenomeni che osserviamo e misuriamo possono avere una natura incerta Il termine “probabilità” viene frequentemente utilizzato quando si fa riferimento a situazioni incerte, è lo strumento che abbiamo per quantificare l’incertezza Se lanciamo una moneta e registriamo il risultato del lancio - testa o croce - si dice che abbiamo effettuato un esperimento (o prova) casuale semplice - prima di effettuare il lancio, entrambi i risultati sono possibili, per cui è incerto a priori Esperimento casuale lancio di una moneta non truccata Evento casuale: l’esito della prova esce testa/croce nel lancio di una moneta; esce uno dei 6 possibili numeri nel lancio di un dado Spazio campionario (Ω): insieme di tutti i possibili esiti di un esperimento casuale (testa/croce nel lancio di una moneta; i 6 numeri nel lancio del dado) Prove indipendenti: ripetizioni di esperimenti causali dove l’esito di ogni prova non influenza le altre L’evento casuale può essere pertanto definito come «un sottoinsieme» dello spazio campionario Un esperimento casuale può dar luogo a più risultati, e quindi a più eventi casuali. Un evento casuale (o aleatorio) può essere:  Certo, come quello riguardante l’estrazione di una pallina rossa da un sacchetto contenente solo palline rosse; lanciando un dado si ottiene un numero compreso tra 1 e 6 (ha probabilità 1, cioè ha il 100% di probabilità di verificarsi)  Possibile, come quello di estrarre una pallina rossa da un sacchetto contente palline bianche e rosse; estrarre il numero 6 dal lancio di un dado  Impossibile, come quello riguardante l’estrazione di una pallina bianca da un sacchetto che contiene solo palline rosse. ottenere dal lancio del dado il numero 8 (ha probabilità = 0) e EVENTI INCOMPATIBILI Consideriamo il lancio di un dado ed esaminiamo due eventi possibili: Consideriamo l'estrazione di una carta da un mazzo di carte napoletane ed esaminiamo due eventi possibili: } è » E;î «esce il numero 4» rg » E; i<esce il numero 3» = Ej: «esce una carta di spade» È 4 pa î Dn » E: «esce Un asso» Si potrà verificare uno solo dei due eventi, in quanto non possono uscire contemporaneamente, in un solo lancio, I due eventi possono verificarsi contemporaneamente: il 4 e il 3, quindi il verificarsi di E; esclude il verificarsi di E, se esce l'asso di spade, si verifica sia l'evento E; (esce una carta Ma è anche possibile che nessuno dei due si verifichi in quanto —diSpade), sia l'evento E (esce un asso). possono uscire |’ 1, il 2, il5 016. Eventi come quelli che abbiamo considerato si dicono compatibili. Eventi come quelli che abbiamo considerato si dicono incompatibili Consideriamo l'estrazione di una lettera da un sacchetto contenente le seguenti lettere STATISTICA ed esaminiamo due eventi possibili: » E): «estrarre una consonante» * E; : «estrarre una vocale» I due eventi sono incompatibili: il verificarsi di E, esclude il verificarsi di E., però uno dei due si verificherà certamente infatti l'evento «estrarre una consonante o una vocale» è un evento certo. Eventi come quelli che abbiamo considerato si dicono complementari. Nel lancio di due monete consideriamo l’evento aleatorio E: «estrarre testa in entrambe le monete» £ (T, T). Tale evento si dice composto in quanto è formato da due eventi singoli: SE: «esce testa nella prima moneta» __, E: (1) »E,:«esce testa nella seconda moneta» x E2(1): Per calcolare la probabilità dell'evento E(T,T) bisogna esaminare i possibili casi che T ESS c si possono verificare. I casi possibili sono 4 d (T,T) (T,C) (CT) (C,C) La LN Il caso favorevole E (T,T) è 1 @ @ @ d (C,) La probabilità è P(E) = 1/4 (T,T) (T,C) (C;T) 95 Qual è l’evento casuale «studente full-time»? Posso valutare la sua probabilità? Trovare lo spazio campionario (Ω): L’insieme dei possibili esiti rappresentati dalla frequenza congiunta di cella: SFT/Nord; SFT /Centro; SFT /Sud; SL/Nord; SL/Centro; SL /Sud Qual è l’evento casuale «Studente lavoratore del Sud»? Posso valutare la sua probabilità? 220/1530 ≅ 14% Qual è l’evento casuale «studente full-time»? Posso valutare la sua probabilità? 820/1530 ≅ 55% 96  LEGGI DI BASE SULLA PROBABILITA’ Sia P(A) la probabilità di un possibile evento (o un insieme di eventi): 1. P(non A) = 1 – P(A). In pratica, nota P(A), la probabilità che A non si verifichi è il suo complemento a 1. 2. Se A e B non si sovrappongono, allora P(A o B) = P(A)+P(B). Siano A e B, rispettivamente, l'uscita di 3 e di 4 nel lancio di un dado. Qual è la probabilità che lanciando una volta il dado esca 3 oppure 4? A e B si dicono eventi incompatibili – non hanno esiti in comune Dati due eventi aleatori incompatibili E1 ed E2 la probabilità che si verifichi o l’uno o l’altro è data dalla somma delle probabilità di ciascuono degli eventi P(E1 o E2) = P(E1)+P(E2) 3. Se A e B sono possibili risultati, allora P(A e B) = P(A) ´ P(B dato A) Ad es., la P(maschio) = 0,48 mentre tra i maschi la P(promosso) = 0,37 Allora la P(maschio e promosso) = P(maschio) ´ P(promosso e maschio) cioè 0,48 ´ 0,37 = 0,18 4. Se A e B sono indipendenti, allora P(A e B) = P(A) ´ P(B) Ad es., siano A = essere maschio e B = risiedere a Roma due eventi indipendenti con, rispettivamente P(A) = 0,48 e P(B) = 0,24 allora la P(A e B) = P(A) ´ P(B) = 0,48 ´ 0,24 = 0,12 Eventi composti L'evento E(T,T) è quindi un evento composto in quanto è il risultato di due eventi semplici, rispettivamente E;(T) ed Ex(T). I due eventi semplici possono essere tra loro indipendenti o dipendenti. Due eventi semplici sono tra loro indipendenti se il risultato di uno non dipende assolutamente dal risultato dell'altro. Due eventi semplici sono tra loro dipendenti se il risultato di uno influenza necessariamente il risultato dell'altro. Probabilità di eventi dipendenti tra loro Da un sacchetto contenente 7 palline rosse e 3 verdi si estrae una pallina e, senza rimetterla nel sacchetto, se ne estrae una seconda. L'evento E(R,R) «estrarre due palline rosse» è un evento composto da due eventi semplici 97 Probabilità di eventi indipendenti tra loro sioni L2 probabilità dell'evento composto E(T,T) mod dell'esempio precedente, P(E) = 1/4, poss è data dal prodotto di P(E,)=1/2 e P(£,)=1/2 Perc cons alle p(E Probabilità di eventi complementari Riconsideriamo l'esempio estrazione di una lettera da un sacchetto contenente le lettere STATISTICA e calcoliamo le probabilità: »E;: «estrarre una consonante» P(E;) = 6/10 *E, «estrarre una vocale» P(E.) = 4/10 L'evento E: «estrarre una consonante o una vocale» è certo corrispondenti alle due estrazioni, E, (R) ed E; (R), quindi P(£)=1. dipendenti fra loro. La somma delle probabilità infatti è P(E) = P(E.) + P(E2) = 6/10 + 4/10=1
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved