Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Introduzione alla Statistica: Fenomeni Statistici, Popolazione e Campionamento, Sintesi del corso di Sociologia

Una introduzione alla statistica, spiegando concetti come fenomeni statistici, unità statistiche, popolazione statistica, numerosità, univariata, bivariata e multivariata statistica, statistica inferenziale, variabili qualitative e quantitative, scala di modalità, rilevazione e disegno di domande. Il documento inoltre discute il campionamento, conteggio e misura, proprietà delle variabili discrete e continue, densità di frequenza, quartili, quintili, decili e percentili.

Tipologia: Sintesi del corso

2019/2020

Caricato il 08/06/2022

Aleots994
Aleots994 🇮🇹

4.4

(17)

19 documenti

1 / 15

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Introduzione alla Statistica: Fenomeni Statistici, Popolazione e Campionamento e più Sintesi del corso in PDF di Sociologia solo su Docsity! STATISTICA 14/11 La statistica è un insieme di metodi e tecniche per la conoscenza quantitativa, analisi e comprensione di uno o più fenomeni che si presentano nella realtà con un insieme di diverse manifestazioni osservabili (che sono fenomeni che posso percepire e osservare) totalmente o parzialmente. L’etimologia della parola statistica deriva dalla parola ‘stato’ e fa riferimento al fatto che sono gli stati che fanno le statistiche, organizzate ad opera di organismi statali che ne sono anche i principali utilizzatori. Ci sono prove di analisi statistiche già dai sumeri (4-3o millennio AC), poi anche l’antico Egitto, ma anche nell’antica Cina e Roma. Solo a partire dall’800 si iniziano a mettere insieme una serie di discipline a carattere matematico per far nascere una nuova scienza statistica come la demografia o il calcolo della probabilità. I metodi e i concetti su cui si fonda il moderno ragionamento statistico appaiono nel XX secolo. Notazione di base - I fenomeni di interesse sono detti fenomeni statistici (lettere maiuscole) — X, Y, Z - I supporti fisici o teorici (persone) delle diverse manifestazioni di un fenomeno statistico sono le unità statistiche (individui) - Le singole determinazioni del fenomeno sono dette manifestazioni statistiche — es. se il reddito è scritto X, il reddito del signor Mario sarà x (piccola) - (U) è l’universo delle unità statistiche. Tutte le U messe insieme formano la popolazione statistica o universo di riferimento — se una persona appartiene ad un universo - (N) è il numero di unità statistiche che compongono la popolazione statistica di riferimento è chiamato numerosità o dimensione di U - X è un fenomeno - x è una modalità - U è un insieme — nel censimento è la popolazione italiana residente - N è un numero — nel censimento è 60 milioni Se la rilevazione è esaustiva (censuaria) di U, e si dispone di tutti gli N dati osservati presso le unità statistiche, la statistica ha la funzione di descrivere il comportamento di X su U. La statistica: - Univariata ha per oggetto un solo fenomeno singolarmente rilevato (quanti maschi e quante femmine ci sono) - Bivariata ha per oggetto una coppia di fenomeni rilevati su U e ha come obiettivo quello di rilevare eventuali relazioni tra i due (quanti maschi di Bergamo ci sono) - Multivariata i fenomeni rilevati sulla stessa U sono più di due e l’obiettivo è descrivere il comportamento congiunto e studiarne le relazioni (provenienza geografia, genere, età, titolo di studio) La statistica inferenzale è quella che viene fatta sui campioni. Ha come obiettivo la descrizione e la comprensione del comportamento di X su U. Prendere 20 persone su 100 è un gruppo di U. n (minuscolo) è il numero del campione. N > n. L’obiettivo è quello di generalizzare, cioè estendere i risultati dei dati del campione sulla popolazione (U). Si tratta di un’induzione dal particolare al generale (inferenza statistica), alla cui base stanno elementi di teoria delle probabilità. Metodologia La conoscenza quantitativa dei fenomeni segue due passaggi: raccolgo i dati, li elaboro e li trasformo in informazione. Un dato ha un contenuto informativo in quanto viene messo in relazione con altri dati. Un dato isolato non serve a nulla, bisogna metterlo in relazione con un altro. Il dato è costruito, cioè bisogna avere una visione critica per poter interpretare i dati. La costruzione del dato segue una metodologia. Bisogna capire che tipo di dati sono. Si distingue tra il modo di fare ricerca e la tecnica (es. il questionario è una tecnica, mentre un’indagine con intervista è un modo della ricerca). Si distingue anche tra ricerca quantitativa e qualitativa. Analisi secondaria di dati è prendere i dati di un’altra persona (es. tabelle dell’ISTAT). Nel 600 è nato il metodo scientifico moderno con Galileo Galilei. Non si può più appoggiarsi alla saggezza del passato. Da quel momento si portano esperienze o esperimenti che devono dimostrare l’esistenza di leggi universali della natura. Nel libro di Galilei “Il saggiatore” viene detto che la natura è un grande libro e bisogna leggerlo. E dice che il libro dell’universo è scritto in lingua matematica, senza i triangoli o cerchi è possibile intendere una sola parola. La scienza è sperimentale, si va sul campo e si studia. L’esito di questo processo è la nascita di un metodo che porta alla conoscenza: il metodo scientifico o sperimentale. Secondo questo metodo le scienze possono raggiungere una conoscenza della realtà oggettiva e verificabile. La conoscenza umana può descrivere la realtà in quanto tale e seguire procedure pubbliche controllabili da chiunque. La società nasce durante la rivoluzione industriale nel 1750 ed è la seconda fase. Anche la rivoluzione facesse (1789) è uno degli esiti della rivoluzione scientifica in quanto evento che metteva al centro della storia umana la Ragione (divinità). L’oggettività sta nel fatto che ciò che ci sta dietro è considerata una visione della scienza. Esista una realtà esterna all’essere umano, che è una autonomia sostanziale e il mezzo per conoscerla è la ragione. La questione metodologica dipende dal paradigma che lo rappresenta. Il paradigma galileiano divenne anche il riferimento delle scienze sociali. La ricerca sociale è un insieme di procedimenti attraverso cui cerchiamo di acquisire conoscenze scientifiche nella realtà. Il metodo che si usa costituisce l’elemento che distingue una ricerca di tipo scientifico da altre forme di indagine. Esistono molti sentieri per raggiungere la meta e questo significa che ci sono molti modi per arrivare alla verità e alla conoscenza. Alcuni percorsi sono scientifici e altri no e portano a conclusioni diverse. 3 caratteristiche: - Essere frutto dell’applicazione rigorosa di un metodo di indagine - Avere un fondamento empirico (dati) - Le procedure devono essere pubbliche 15/11 La riflessione scientifica sul metodo della scienza è definibile come metodologia. Serve a capire se un dato procedimento possa realmente condurre a risultati validi o se invece la nostra impressione della loro validità sia illusoria. Noi siamo pieni di dati, ma molte informazioni non sono supportate da alcun dato (poco verificabili, imprecise o a volte anche false). Per es. ci sono tanti evasori fiscali, ma quanti?. Oltre alle fake news, ci sono le correlazioni spurie. Hanno la tendenza a individuare un nesso di casualità tra fenomeni che presentano una correlazione statistica causale. Di solito quando varia A, varia anche B, quindi i due fenomeni sono collegati (es. A disoccupazione e B povertà). B dipende da A. Nelle correlazioni spurie, non c’è un nesso (es. numeri di suicidi e film in cui appare Nicholas Cage, sono coincidenze). La metodologia esamina le ricerche per esplicitare le procedure e i modi di spiegazioni offerti. Rende possibile la generalizzazione della conoscenza metodologica trasmettendo i contributo specifici di un dato ricercatore al patrimonio della comunità scientifica. L’oggetto di studio della metodologia può essere: - La società - Le relazioni sociali — fenomeni e processi che derivano da relazioni o istituzioni Durkheim dice di studiare la società come un organismo, una realtà a se stante che ha un significato diverso dei singoli elementi che la compongono. Weber invece si interessa del senso che gli individui danno alle relazioni con gli altri individui. Il metodo delle scienze sociali dipende dall’oggetto che si studia. Il primo e il secondo approccio sono maggiormente interessati a studiare “oggetti” differenti e quindi useranno un metodo diverso per arrivare alla conoscenza. Le scienze della natura hanno cercato di spiegare i fenomeni naturali riducendoli ad una legge di tipo universale (es legge di gravitazione). Era quanto riguarda il comportamento umano, si usano paradigmi interpretativi. Nel paradigma umanista e interpretativo non esistono cose come le leggi universali. Il paradigma soggettivista propende per la comprensione circa il significato che gli attori sociali fanno alle loro azioni (significato - Esaustività: la scala della modalità deve prevedere tutte le possibili manifestazioni di X su U, al fine di poter classificare ogni osservazione circa una unità statistica (es. nelle votazioni dire “sono indeciso”) - Mutua esclusività: la scala deve prevedere solo modalità che si escludono l’un l’altro (es. M/F) Le scale qualitative in cui le modalità sono attributi o categorie: - Sconnesse: se gli attributi non ammettono un ordinamento oggettivo ma solo casuale o personale (es. il genere) - Ordinali: se gli attributi possono essere ordinati secondo un criterio oggettivo o convenzionalmente accettato (titolo di studio) Le scale quantitative in cui le modalità sono numeri: - Assoluta: se l’origine della scala è il numero 0 e indica l’assenza del fenomeno (es. esami dati) - Convenzionale: se l’origine della scala (ancora 0) ha significato solamente convenzionale (es. temperatura) Dalla tipologia di scala dipende il livello di analisi statistica: - Una scala qualitativa sconnessa ammette solo relazioni di uguaglianza (=) o differenza (=/=) o presenza/assenza - Una scala qualitativa ordinale ammette anche le relazioni <= e >=, (cioè l’ordine) - Una scala quantitativa di tipo rapporto ammette tutte le relazioni di prima ma anche le 4 operazioni elementari (+, -, x, :) - Una scala quantitativa di tipo non rapporto ammette solo le relazioni ordinali (<=, >=) e le operazioni di somma (+) e sottrazione (-) La natura qualitativa o quantitativa del fenomeno di interesse ha a che fare con la tipologia di scala delle modalità adottabile per la sua rilevazione (anche se non la vincola necessariamente). Sei favorevole o contrario a matrimonio di persone dello stesso sesso? Oltre ai si e ai no, ci possono essere delle sfumature, cioè con delle condizioni. Notazioni Indichiamo con k il numero di diverse modalità previste dalla scala utilizzata per la rilevazione di X su U (regioni italiane k 20). Usiamo l’indice i per distinguere le diverse modalità del fenomeno x del fenomeno X. La rilevazione di X su U avviene con la scala di modalità x1, x2 ... xn. Ni si dice niesimi (i = iesima). L’oggetto di studio può essere l’individuo, come anche le auto vendute, i comuni italiani ecc. Sono tutte UdA, cioè il tipo di oggetto di cui si occupa la ricerca sociale. Per passare dall’astrazione (il generico oggetto di ricerca, le UdA) al concreto, devo prendere in considerazione i singoli casi. Oggetto — unità — caso Dal livello massimo di astrazione — al concreto La disoccupazione giovanile — i giovani tra 16 e 34 anni senza un’occupazione stabile Campionamento: prendo una parte di U e la seleziono per individuare i casi. Ci vuole una delimitazione spazio-temporale e con il campionamento i risultati della ricerca (sui casi singoli) sono generalizzabili, cioè riferibili all’universo. 1. L’individuo è l’unità elementare è non ulteriormente scomponibile 6. L’aggregato — più individui = famiglia; unità territoriali= città, quartiere, regione; enti= istituzioni, organizzazioni 7. Eventi sociali (elezioni, scioperi, Giubileo) 8. Prodotti culturali (es. audience di programmi televisivi, contenuto di pubblicità Un concetto è rappresentato come una proprietà di UdA. Devo passare da un concetto astratto a qualcosa che si può rilevare empiricamente. Il linguaggio utilizzato è quello della variabile (genere M/F). Sulle matrici si può poi inserire lo stato che ogni caso assume su quella proprietà (es. presenza/assenza). Questa traduzione è la operativizzazione. Nella ricerca sociale i concetti sono spesso generici, estesi e astratti e quindi è impossibile la rilevazione diretta di questi soggetti (libertà, partecipazione). Se il concetto non ha stati empiricamente rilevabili, si deve trovare un altro concetto che ha dati empirici, quindi un indicatore. Un contenuto (C) è rappresentato tramite l’indicatore I. I è un concetto più specifico di C è può essere inteso come rappresentazione semantica di C: C: status socioeconomico I: reddito, titolo di studio, posizione occupazionale Poiché C è complesso, si usano spesso diversi I e non solo uno. L’isee è l’indicatore di situazione economica (ise) / N= scala di equivalenza che possiamo tradurre con nucleo famigliare. L’ise a sua volta è composto da Isr (reddito) + 20% dei patrimoni / N. Se il concetto è complesso servono molti indici. Per es. libertà politica: - Libertà di stampa, elezioni, pluralismo politico - Democrazia è C che posso misurare sempre con la libertà di stampa (i) L’indice è la ricombinazione di più indicatori di un concetto. Se il primo passaggio è quello di passare dalle proprietà agli indicatori, il secondo è quello dagli indicatori alle variabili, cioè la definizione operativa. La variabile è una proprietà di cui è stata una definizione operativa, trasformando le situazioni reali in informazioni. La traduzione empirica (definizione operativa): - La proprietà diventa una variabile (titolo di studio) - Gli stati sulla proprietà divengono una modalità (da “senza titolo” a “post-laurea”) Non tutte le proprietà si possono trasformare in variabile. La proprietà deve essere definibile operativamente. Come si distinguono le variabili? Quantitative e qualitative. 1. Quantitative: discrete (conteggio), continue (misurazione) 9. Qualitative: ordinali (possono essere messe in ordine), categoriali o nominali (nessun ordine) Per capire se sono numeri bisogna vedere se sono frutti di conteggio o misura - Conteggio: n. di esami sostenuti, auto vendute... - Misura: reddito in euro, temperature in gradi centigradi.. Proprietà delle variabili: - Discreta: n. finito di stati, n. di figli - Continua: n. infinito di stati, lungo un continuum, in relazione quantitativa tra loro (età) Se associo un numero ad una variabile, non ha significato matematico, ma la variabile n. di figli ha un significato numerico preciso. Se la proprietà è la misura da casa a scuola (continua) può assumere un numero continuo di stati. In questo caso l’operativizzazione restituisce una variabile metrica. La misurazione è un’operazione generata da strumenti di misurazione la cui unità di misura è convenzionale (metro, chilo, litro). Nelle scienze sociali possono essere misurate le proprietà di una persona (anzianità di lavoro, ampiezza dei parchi di un comune, lunghezza delle reti di comunicazione...). Nelle scienze sociali ci sono proprietà psichiche che non possono essere misurate: i valori, gli atteggiamenti e le opinioni. Allora si usano le scale, le producono le variazioni quasi-cardinali, cioè proprietà non misurabili ma trattate come se... (scale di atteggiamento). 22/11 Le fonti statistiche Statistiche ufficiali: 1. Dati amministrativi (coprono la popolazione, scarso valore informativo) 10. Censimenti 11. Survey (es. indagini ISTAT) Ci sono dati prodotti da processi amministrativi. L’anagrafe da dati come n. di nascite e di morti. Famiglia anagrafica è quella con matrimonio, affinità e affetto con dimora abituale nello stesso comune. Convivenza sono carceri, casa dello studente, caserme e navi mercantili. Nell’anagrafe comunale le persone sono registrate su base demografica (età, sesso, stato civile, composizione famigliare). Usano questi dati anche per sapere i bisogni per la popolazione (es. asili). L’obiettivo dell’inchiesta campionaria è quello di generalizzare i dati raccolti (costruiti) attraverso l’analisi delle relazioni tra variabili. Caratteristiche: - L’unità di analisi è l’individuo - I casi da intervistare sono selezionati tramite tecniche di campionamento statistico - Invarianza dello stimolo — stesse domande formulate allo stesso modo L’impostazione teorica di una survey è il tratto caratteristico che la differenzia da sondaggi di opinione. Il sondaggio si limita a esplorare un fenomeno (sondare), cercando di quantificare per es. come si posiziona la popolazione. A volte si usano prima di un’elezione. Il questionario è il campionamento prediletto dell’indagine campionaria: sono un elenco di domande predefinite dal ricercatore ed è rivolto in genere a una parte della popolazione (campione). Chi risponde deve farlo tra una serie di alternative già date dal ricercatore, così che sia uno strumento che garantisca neutralità della rilevazione. Il risultato della rilevazione del fenomeno X sulla popolazione U è un insieme di N osservazioni. Ciascuna di esse coincide con una della k modalità xi previste dalla scala utilizzata. I dati grezzi sono la presentazione dei dati in forma non comprensibile (associare delle variabili con 1, 2, 3...). Si dovrà introdurre il dato grezzo in una informazione intellegibile, cioè una tabella (o grafico) che presenta la distribuzione di frequenza (e le variabili statistiche). Possiamo contare quante volte k si ripete nel campione (frequenza pari a ...). Il numero di volte in cui una modalità xi è stata rilevata in U si chiama frequenza assoluta. La somma delle frequenze assolute riproduce la numerosità N di U. La frequenza assoluta viene indicata con fi (i-esima frequenza). Le modalità xi a seconda del fenomeno X e della tipologia di scala utilizzata, possono essere attributi, categorie, numeri o intervalli. Le frequenze fi sono sempre numeri interi. Una variabile statistica è un insieme di k coppie {xi, fi} e questo significa che dopo il processo (tradotto in tavola di frequenza) con X indichiamo sia il fenomeno statistico di interesse (prima della rilevazione) sia la variabile statistica (dopo la rilevazione). Le frequenze assolute sono solo un tipo di frequenze che si possono costruire a partire da dati grezzi. Ci sono anche le frequenze: - Relative — per effettuare un confronto devo depurare il dato di influenza N, cioè della numerosità della popolazione. Più grande è N, maggiore sarà la frequenza (fi) perché la somma di tutte le fi è proprio N. Per depurare il dato rilevato dall’influenza di N (numerosità della popolazione) si usa la frequenza relativa associata alla modalità xi (rapporto tra la frequenza assoluta e la numerosità di U, cioè N). Le frequenze relative in quanto grandezze adimensionali sono sempre confrontabili. Le frequenze relative sono rapporti particolari che hanno al denominatore il totale del numeratore e quindi sono sempre comprese tra 0 e 1 - Percentuali — è indispensabile avere prima costruito le frequenze assolute. Moltiplicando per 100 le frequenze relative si ottengono quelle percentuali. Sono consigliabili in termini di chiarezza comunicativa - Cumulata — è buona norma ordinare in senso crescente le modalità osservate (valori di minimo e massimo). Ci aiuta a capire quante sono per esempio le unità statistiche (tra le N) che manifestano una modalità grande fino a ...xi. Basta sommare le frequenze associate alle diverse modalità. Densità di frequenza: - Fenomeni quantitativi continui (numeri, si misurano) - Il fenomeno X ha xi modalità che possono essere considerati intervalli - Cioè all’intervallo tra x1 e x2 possono appartenere diverse unità statistiche - La distribuzione di frequenza all’interno degli intervalli è ignota — possiamo però fare 2 ipotesi per ripartire le unità statistiche tra gli intervalli (densità) 1. Il valore centrale — si associa a tutte le frequenze il valore centrale dell’intervallo (es. tra 45 e 55 è 50) 12. La distribuzione uniforme — tutte le unità sono distribuite in modo uniforme ed equidistante, ogni possibilità è alla pari 28/11 Moda, media, mediana (statistica descrittiva) I valori medi ci permettono di passare dai dati singoli al generale — moda, media, mediana. Dopo aver costruito una matrice abbiamo le frequenze. Da quel momento si può identificare un valore unico che ci da l’idea di comportamento di X su U è un ordine di grandezza. Cioè un valore “medio”, una sintesi ulteriore. È possibile costruire medi differenti: la moda, la media e la mediana ci danno differenti risultati nello stesso elenco. Cosa ha in comune il campionato di calcio di serie a, la curva di crescita di un neonato e un laureando di lingue a Bergamo? Tutti hanno valori medi e sono il primo dato statistico identificato. - La moda è la modalità a cui è associata la frequenza più elevata tra le k osservate. È la modalità con maggiore frequenza. È un valore medio di sintesi calcolabile per qualsiasi seconda misura è la devianza, cioè la varianza moltiplicata per N: . Anch’essa ha il senso di semplificare l’analisi perché elimina N dal denominatore. Range, differenza dei due quartili, deviazione standard, varianza e devianza sono misure assolute della variabilità. Sono quindi influenzare dall’ordine di grandezza e dall’unita di misura, quindi non sono confrontabili. Ci vuole una misura di variabilità relativa. Come il coefficiente di variazione (cv). Il cv si costruisce mettendo la deviazione standard a rapporto con la media aritmetica (s/x medio). 5/12 Dalla monovariata alla bivariata Quando si parla di analisi dei dati in modo bivariato, si fa un passo avanti rispetto alla monovariata. La monovariata ci permette di analizzare una variabile. Se prendiamo due fenomeni, analizziamo come x e y variano su U. Si fa la variazione congiunta su una coppia di fenomeni sulla stessa popolazione. Bisogna capire se esiste una relazione tra i due fenomeni (es. relazione tra genere e il tipo di lavoro — le donne fanno più part-time). All’inizio non si sa se c’è una relazione, bisogna stabilirlo dopo (non è scopo della statistica stabilirlo, ma di altre materie come può essere la sociologia). L’analisi bivariata è importante per lo studio dei fenomeni sociali. Es. è collegato fare reati con un certo colore di pelle? È noto che l’occupazione o disoccupazione (x) può dipendere dal titolo di studio (y). Nella relazione tra due variabili ci possono essere due condizioni: - Indipendenza — due variabili sono indipendenti se variazioni nelle modalità dell’una (x) non comportano variazioni nell’altra (y) - Associazione — quando al modificarsi di una variabile (x) si modifica anche l’a,tra (y). Associazioni di tipo statistico, cioè probabilistico (non necessarie). Un laureato corre meno il rischio di essere disoccupato, ma questo non determina il fatto di essere occupato. Se c’è un’associazione tra variabili bisogna considerare due elementi: il tipo di variabili e la direzione del loro legame. Per il tipo: - Variabili categoriali (con categorie non ordinate): concordanza - Variabili categoriali (con categorie ordinate): cograduazione - Variabili cardinali: correlazione Una variabile può essere causa indipendente che ha conseguenze su un’altra variabile detta dipendente. Esistono alcune variabili che sono sempre indipendenti come genere e età. Da esse possono dipendere lo stato civile, titolo di studio, condizione economica ecc. Tra età e titolo di studio la relazione è unidirezionale: la prima influenza la seconda. Un legame bidirezionale è in entrambe le direzioni. Il legame bidirezionale simmetrico è quando non si distingue chiaramente la maggiore influenza di una sull’altra (es. occhi azzurri e capelli biondi). Il legame bidirezionale asimmetrico per es. è il voto del padre che influenza il voto del figlio. Le tabelle a doppia entrata sono definite anche di contingenza o incroci e sono lo strumento per poter analizzare due variabili alla volta. Rappresentano la distribuzione di frequenza per due variabili (es. mettere in relazione i voti degli esami con i cognomi A-L/M-Z). Sulle stesse unità statistiche (N) della popolazione (U) vengono rilevati congiuntamente due fenomeni. Il risultato sono N coppie di tipo (x, y): matrice dei dati grezzi. Per effettuare l’analisi bivariata dei dati è indispensabile avere una tabella a doppia entrata (righe e colonne): - 2 fenomeni (x,y) — 2 indici (i,j) e 2 numeri di modalità: k, h - Modalità xi con cui si manifesta il fenomeno X (dove i=1, 2, ..., k) - Modalità ji — Y (dove j=1, 2, ..., k) Esempio di matrice di dati: U: collettivo di bambini della scuola dell’infanzia N: 15 X: attitudine alla musica Y: attitudine al disegno All’interno della tabella si inseriscono i dati che manifestano la stessa coppia di modalità (x,y). Ai margini della tabella a doppia entrata si trovano le frequenze dei fenomeni X e Y, singolarmente e congiuntamente - Fi.: frequenze marginali di X (cioè la somma delle frequente congiunte sulla stessa riga (fi) - F.j: frequente marginali di Y (cioè la somma delle frequenze congiunte sulla stessa colonna (fj) Nelle tabelle a doppia entrata possiamo trovare informazioni di tipo monovariato (x e y presi separatamente) oppure bivariato (considerati congiuntamente). La frequenza congiunta è quella in cui si manifesta ogni coppia di modalità (incrocio delle righe i e j). Nella casella troviamo la variabile statistica doppia. Con frequenze condizionate si indica il comportamento congiunto di una coppia di fenomeni sulla stessa popolazione: come il comportamento dell’uno è influenzato dall’altro. Le variabili statistiche condizionate si leggono sulle singole righe (o colonne) e sono definite come Y|xi e X|yi (cioè Y dato xi o X dato yi). Come si comporta il fenomeno Y dato il caso xi e il fenomeno X dato il caso yi. Dobbiamo considerare non tutta la popolazione ma solo quella che manifesta la modalità xi di X e questo ci fa capire il comportamento di Y. Ci sono tante variabili statistiche condizionate quante sono le modalità condizionanti. Sulle variabili condizionate si costruiscono le frequenze condizionate. Le frequenze condizionate sono frequenze relative, ottenute dal rapporto tra le frequenze congiunte (della riga o colonna considerata) e la frequenza marginale delle modalità condizionate. Informano sul comportamento del fenomeno condizionatamente all’altro. Esempio: Influenza della variabile X sul comportamento di Y. Il cognome influenza il rendimento: U: studenti dell’esame del 2014 N: 124 X: iniziale del cognome Y: esito dell’esame (h=3, superato (S), non superato (NS), ritirato (R)). X (righe), Y(colonne) S NS R A-L 39 16 4 59 M-Z 42 19 4 65 81 35 8 124 S NS R A-L 66 27 7 100 M-Z 65 29 6 100 Il rapporto ai marginali è più o meno lo stesso. Quindi anche se i superati di M-Z sono di più, non sono collegati i due fenomeni perché i marginali di M-Z sono di più rispetto ad A-L. Divisi in percentuali sono:Variabile esplicativa: nome che viene normalmente dato al fenomeno X che condiziona il comportamento di Y Variabile risposta: nome del fenomeno che viene condizionato (la risposta che si ottiene al variare della variabile) Il fenomeno X che condiziona l’altro fenomeno Y, viene anche definito come variabile indipendente. Il fenomeno condizionato è invece la variabile dipendente. 6/12 Per verificare se non ci sono relazioni (variabili indipendenti statisticamente), gli statistici confrontano le frequenze condizionate con le frequenze marginali. Le frequenze marginali si riferiscono all’intera U (non sono influenzare da nulla), mentre le frequenze condizionate sono delle sotto- popolazioni (se guardiamo le righe Y|x). Ci vogliono le frequenze relative per operare un confronto: le frequenze condizionate sono già relative, per le frequenze marginali bisogna dividere per N (fi./N e f.j /N). Se tutte le frequenze condizionate sono uguali tra loro e uguali alla marginale (relativa) significa che Y si comporta nello stesso modo. Le frequenze che realizzano (rendono vera) la condizione di indipendenza statistica sono definite frequenze attese o teoriche. Formula frequenze attese: (quella in parte. I dati rilevati con la ricerca si chiamano frequenze osservate. Tenendo fisse le frequenze marginali possiamo calcolare le frequenze attese di indipendenza statistica (moltiplicare tra loro i marginali e dividere per i casi). Quando la condizione di indipendenza statistica è soddisfatta, le due tabelle (attesa e osservata) coincidono. Moltiplico i marginali (di riga e di colonna) e faccio diviso il totale. La distinzione
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved