Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Tecniche della ricerca sociale Monovariata-Bivariata, Sintesi del corso di Metodologia E Tecniche Di Ricerca Sociale

Prof.ssa Caputo, sono semplici e un sacco di ragazzi hanno passato gli esami con voti alti

Tipologia: Sintesi del corso

2022/2023

In vendita dal 01/07/2024

daniela-oliva-19
daniela-oliva-19 🇮🇹

5 documenti

1 / 31

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Tecniche della ricerca sociale Monovariata-Bivariata e più Sintesi del corso in PDF di Metodologia E Tecniche Di Ricerca Sociale solo su Docsity! Termini tecnici fondamentali. • Ambito. In una data ricerca si raccolgono informazioni su alcuni argomenti entro certi limiti spaziali e temporali. Questi limiti racchiudono l’ambito di quella ricerca. • Unità È un tipo di referente sul quale si raccolgono informazioni. Le unità che più vengono usate sono: → L'individuo → La famiglia → Il distretto elettorale → Il comune → La provincia → Lo stato Possono essere scelti come unità anche un intervallo temporale (l’anno, il mese) o la data. • Campione Non sempre esistono le risorse economiche, le possibilità tecniche o l’interesse a raccogliere informazioni su tutte le unità. In tal caso si sceglie un campione. Con questo termine intendiamo un sotto insieme di esemplari. Se il procedimento di scelta, l’estrazione, garantisce a tutte le unità la stessa possibilità di essere estratte, il campione si dice campionamento casuale. La garanzia che offre questo procedimento è che, non riporta altre distorsioni oltre a quelle che già si producono casualmente. È possibile attribuire a una popolazione i risultati ottenuti sul campione e calcolare i margini di errore di tale distribuzione. Solo la casualità dell’estrazione garantisce che non vi siano ulteriori distorsioni. • Caso È ogni esemplare dell’unità sul quale si raccolgono informazioni. Si indica con il simbolo: n. Raccogliere su ogni caso solo determinate caratteristiche che fanno parte di un limitato sotto insieme. Queste caratteristiche si chiamano: proprietà. Ogni particolare modo di presentarsi di una proprietà si dice: stato su quella proprietà. Quando decidiamo di raccogliere informazioni su una proprietà stiamo facendo una: definizione operativa. come fare? 1. Dobbiamo redigere un elenco di stati distinti tra loro, che diventano modalità della variabile. 2. Assegnare a ciascuna di queste modalità un valore simbolico 3. Stabilire delle regole per attribuire a una o all’altra modalità i vari stati specifici. 4. Assegnare al vettore che raccoglie e organizza queste informazioni una determinata posizione nella matrice dei dati 5. Elaborare delle procedure per individuare e correggere gli errori • Vettore È una sequenza ordinata di informazioni relative allo stesso referente. Due fasci di vettori paralleli costituiscono una matrice. L'incrocio di ogni singolo vettore costituisce una cella della matrice. Questa matrice si chiamerà: matrice dei dati. • Variabile È una proprietà di cui sia stata data una definizione operativa • Dato È il valore convenzionale assegnato a uno specifico caso su una specifica proprietà. • File Insieme dei dati di una specifica ricerca, considerata in sequenza. • Il codice (Codebook), di un file riporta la sequenza delle variabili che costituiscono i vettori colonna della relativa matrice. • Valore caratteristico È una cifra che dà informazioni su alcune caratteristiche di una distribuzione monovariata. • Coefficiente È una cifra che dà informazioni su alcune caratteristiche di una distribuzione congiunta, bi o multivariata. ANALISI MONOVARIATA. L’analisi mono variata è un passaggio obbligato per poter mettere in relazione le variabili. La conoscenza dei dati è infatti un passaggio essenziale per poter eseguire efficacemente le successive analisi più complesse. Lo scopo per cui si raccolgono e si organizzano dati mediante una matrice è di investigare le relazioni fra proprietà (e quindi fra variabili). L'analisi monovariata è un’analisi preliminare per effettuare analisi più complesse, fase obbligatoria in quanto fondamentale. Si raccolgono e organizzano informazioni in una matrice dei dati. Fare ricerca usando la matrice comporta dei costi, quindi è comprensibile se in molti casi, nella ricerca sociale non viene utilizzata. Nell’analisi monovariata si considera una variabile alla volta. Una tecnica di analisi si dice bivariata se si occupa della distribuzione di due variabili insieme. L'analisi dei dati di una matrice si compie sottoponendo ad elaborazioni matematiche i valori contenuti nelle celle. Bisogna solo capire se a quei valori esteriormente numerici, possiamo attribuire tutte le proprietà cardinali dei numeri. L'attribuzione delle proprietà cardinali è legittima per • le variabili metriche, cioè quelle derivate mediante la misurazione per le quali esiste unità di misura. • E per quelle enumerate, cioè delle proprietà discrete che possiamo contare. Non è per niente legittima l’attribuzione di proprietà cardinali per • le variabili derivate da tecniche di scaling, queste variabili si possono chiamare quasi cardinali. A seconda che una variabile sia considerata cardinale, ordinale, o categoriale non ordinata, cambiano radicalmente le tecniche di analisi che possiamo applicare. CAPITOLO 3 DISTRIBUZIONE DEI DATI IN CATEGORIE NON ORDINATE. Quando assegniamo i valori alle modalità di una variabile categoriale non ordinata, questi valori sono numerici solo in apparenza. Se ad esempio abbiamo come variabile le regioni, alle Sicilia associo il numero 20, non significa che esistono 20 Sicilie. Sono solo segni per contraddistinguere le modalità. Purtroppo, la maggior parte dei programmi di elaborazione elettronica non prevedono questa distinzione, a parte alcune eccezioni. Queste modalità dispongono di un alto grado di autonomia semantica, cioè il fatto che quel termine assume significato senza dover ricorrere alle etichette delle altre modalità o all’intera variabile per capire di cosa stiamo parlando. Questo alto grado di autonomia semantica delle modalità non ordinate ha 3 conseguenze importanti: 1. È opportuno che il numero delle modalità non sia eccessivo. 2. Le frequenze relative a una modalità hanno pieno significato anche senza far riferimento alle frequenze delle altre modalità 3. È opportuno che le frequenze delle varie modalità non siano eccessivamente squilibrate Le modalità di una variabile non devono essere eccessive poiché questo potrebbe diventare un problema al momento di mettere in relazione una proprietà con un’altra in una tabella di contingenza. In tal caso, le celle della tabella di c. possono diventare numerose e ognuna di esse potrà essere capita solo dalla cella posta all’incrocio dei due vettori e non da altre celle, proprio perché ha un'autonomia semantica elevata. Un altro rischio a cui si va incontro è che molte celle potrebbero restare vuote o quasi vuote. Questo ha gravi conseguenze, soprattutto se stiamo lavorando su un campione e non sull’intera popolazione, perché il grado di affidabilità diminuisce. È opportuno ridurre il numero di modalità anche per aver maggior controllo intellettuale sulla tabella, sia perché non si possono trarre conclusioni affidabili in merito alle relazioni che intercorrono fra le categorie con le frequenze più basse. Il numero di celle della tabella è tanto più alto più numerose sono le modalità di una variabile. Anche una distribuzione troppo sensibile può portare a una distribuzione squilibrata. La sensibilità indica il rapporto tra il n. di modalità (=K) e =n, più è elevato il numero delle modalità più la distribuzione è sensibile, quindi squilibrata. Inoltre, le distribuzioni devono essere equilibrate perché: ➢ Le categorie con frequenze troppo basse danno informazioni distorte. Una frequenza limitata ovviamente i calcoli si baseranno su pochi dati e avremmo dei risultati inaffidabili. ➢ Le categorie con frequenze troppo alte danno informazioni scarse. categorie con una quota troppo alta dei dati forniscono informazioni poco specifiche. • Frequenza attesa. In termini matematici essa è il prodotto delle frequenze delle due categorie diviso n. Es. Pensionati 261 su 2085, 391 su 2085 partito conservatore, frequenza attesa = (261 x 391) / 2085 = 49 (arrotondato). • Frequenza osservata Ciò che noi vediamo all’incrocio tra due vettori. In questo caso all’incrocio tra pensionati e conservatori. Il numero che troviamo nella cella all’incrocio è 50. La differenza tra frequenza osservata e frequenza attesa è minima, si conclude quindi che non c’è relazione tra i due stati. Essere pensionati e essere conservatori sono due eventi indipendenti, cioè assenza di relazioni fra le due categorie. Se invece la frequenza osservata sarebbe stata 2 e non 50, la differenza tra le due f. sarebbe stata notevole e se ne sarebbe concluso che i due eventi non sono in relazione. Possiamo dire che: 1. Le frequenze attese in una cella saranno alte solo se entrambe le frequenze delle categorie sono alte. 2. Se le f. attese sono alte e le f. osservate sono alte, avremmo un risultato affidabile, ma non particolarmente interessante. 3. Se le f. attese sono alte e quelle osservate sono basse, avremmo un risultato affidabile e interessante. 4. Se le f. attese sono alte e quelle osservate ancora più alte, avremmo un risultato affidabile e interessante. 5. Se le frequenze delle due modalità sono alte si possono avere conclusioni comunque affidabili. Quando le frequenze attese sono basse, il risultato non è affidabile. Comunque, vediamo ora con quali criteri possiamo operare la riduzione di modalità. (per non avere una distribuzione squilibrata) Un modo è • fare un’aggregazione di queste modalità, cioè unirle quando viene possibile. Ovviamente bisogna stare attenti a non creare modalità troppo eterogenee (con all’interno dati troppo diversi). Quando consideriamo le categorie ordinate la loro analisi ci viene più semplice, perché avendo un grado di autonomia semantica inferiore rispetto a quelle non ordinate, la nostra concentrazione ricadrà su tutta la variabile per poter analizzare meglio il dato. Di conseguenza, il problema di eliminare le modalità, di ridurle, verrà meno, poiché sono spesso necessarie. Per rendere equilibrata una distribuzione di frequenza oltre che aggregare le modalità, possiamo decidere di disaggregare le modalità. Quando decidiamo di ridurre le modalità dobbiamo far sì che esse tra di loro rimangano sempre bilanciate. Una distribuzione squilibrata dei dati nelle modalità di una variabile categoriale non ordinata rende più problematico l’accertamento delle relazioni con un'altra variabile. Il danno sarà più grave più è minore il numero dei casi oggetto di ricerca. Il numero ideale di una categoria non ordinata è n/k, in cui n= numero dei casi, k= numero delle modalità. ? Una delle funzioni dell’analisi monovariata è segnalare dove e quanto la distribuzione dei dati nelle categorie si allontana dall’ideale distribuzione equilibrata. Per equilibrare la distribuzione possiamo modificare la nostra classificazione degli stati sulle proprietà, aggregando fra loro le categorie con pochi dati e disaggregando quelle con troppi dati. Nello scegliere bisognerà tener conto dell’affinità semantica. ☺ FREQUENZE E PERCENTUALI Quando scriviamo un a distribuzione di frequenza solo raramente sarà il caso di omettere le percentuali, specialmente se n è alto. La funzione delle percentuali è infatti facilitare il confronto fra le frequenze di modalità diverse. Solo quando n è molto basso si può fare a meno di rappresentare i dati in percentuale, poiché si può fare ad occhio un’idea dei rapporti fra le frequenze delle varie modalità. ✓ Non rivela Il grado di equilibrio/squilibrio fra le categorie diverse da quella modale non la influenza affatto. (Gli statistici chiamano indici relativi quei valori che variano da 0 a 1.) Gli indici di equilibrio e di squilibrio. Rilevano l’equilibrio e lo squilibrio tra le frequenze di tutte le categorie, cioè come si distribuiscono le frequenze di ciascuna modalità dell’intera distribuzione. • INDICE DI SQUILIBRIO: SI basano sulla probabilità che gli stati di due casi diversi siano stati assegnati alla stessa modalità. Questa probabilità crescerà più sarà basso il n. di categorie e più sono squilibrate le frequenze a favore di una categoria (cioè se tutti i dati, ad esempio, vengono assegnati alla categoria A, allora significa che quasi sicuramente due dati presi a caso siano stati assegnati entrambi ad essa). P, che sarebbe la probabilità si calcola così: Fr/N. Ad esempio, se vogliamo vedere la probabilità dei casi che cadono nella categoria casalinga farò: (Fr= casalinga=443) (N= 2085) Fr/N = 443/ 2085 = 0,2 P= 0,2 La probabilità che due dati qualunque di una distribuzione appartengano ad una stessa categoria j è p elevato 2. cioè il quadrato della proporzione dei casi che cadono in quella categoria. Cioè= 0,2 al quadrato = 0,04 = indice di squilibrio. Il massimo squilibrio si ha quando tutti i dati appartengono a una o all’altra delle due categorie, ad esempio se tutti i dati appartengono ai maschi invece che alle femmine. Sq= 1 Il minimo squilibrio si ha quando entrambe le categorie hanno pari frequenze. Sq= 1/k (cioè diviso per le modalità). Facciamo un esempio: Occupati, 1040 = 1040 /2065 = 0,50 eleviamo al quadrato 0,25 Disoccupati, 443 = 443/2065 = 0,21 0,05 Casalinghe, 284 = 284/2065 = 0,14 0,02 Pensionati, 160 = 160/2065 = 0,08 0,01 Studenti, 138 = 138/2065 = 0,07 0,00 Totale 2065 = 2065/2065 = 1 sommiamo tutto 0,33 Sq= 0,33 • INDICE DI EQUILIBRIO Si basa sulla probabilità che due dati di una distribuzione NON appartengano alla stessa categoria. Se il massimo valore che Sq può avere in caso di MASSIMO SQUILIBRIO, allora basterà aggiungere 1- alla formula per calcolare il massimo equilibrio. Formula: Eq: 1- (Fr/N)2 (2= elevato2) Eq= 1- 0,33 = 0,67 VALORE MINIMO E MASSIMO SQmax= 1 EQmax= 1 – SQmin = 1 – 1/K SQmin= 1/k EQmin= 1 – SQmax = 1-1 ➢ Questi indici di eq/sq sono sensibili al numero di categorie (specie sul valore minimo) ➢ Sq è un indice parabolico Per annullare l’effetto delle categorie si procede alla normalizzazione che trasforma gli indici in indici relativi (tra 0 e 1). Per trasformare Sq in un indice relativo, si pone Sq in rapporto con il valore minimo e il suo valore massimo che esso può assumere dato un certo k. Formula: SQ NORMALIZZATO Per ricavare l’indice relativo di equilibrio normalizzato, è sufficiente aggiungere a questa formula davanti 1 -. INDICE RELATIVO DI ENTROPIA (H) L'entropia è un concetto che si oppone a quello di informazione: il termine indica la tendenza inevitabile e progressiva a disordine e alla riduzione dell’informazione. K * Sq - 1 K - 1 In questo caso: • Il massimo dell’informazione si ha quando i dati si equidistribuiscono tra le modalità • Il minimo dell’informazione si ha quando tutti i dati appartengono ad una sola categoria. Se la variabile è dicotomica allora l’indice varierà tra 0 e 1. Se la variabile non è dicotomica può assumere anche valori superiori a 1. INDICE DI MOLTEPLICITA’ Indica il prodotto di una serie di moltiplicandi designati da un simbolo comune. M non è normalizzato, ed ha esattamente lo stesso campo di variazione di Sq: • Massimo equilibrio: 1/k • Massimo squilibrio: 1 Leti sostiene che M è più sensibile degli altri valori caratteristici. FORME DI RAPPRESENTAZIONE DELLE DISTRIBUZIONI IN CATEGORIE NON ORDINATE. Abbiamo detto che il modo più ovvio di rappresentare una distribuzione dei dati in categorie non ordinate è la distribuzione di frequenza. Esistono altre forme di rappresentazione del dato, che danno le stesse informazioni in una maniera visivamente più diretta, anche se non altrettanto precisa. Queste altre forme si raggruppano in due famiglie: 1. Forme lineari 2. Forme circolari. • Forme lineari: La forma più nota è: l’istogramma. Si presenta come una successione di colonne con base uguale e altezza proporzionale alle frequenze. Se volessimo segnare anche la categoria residuale, cioè “altri, la rappresenteremo isolata dal grafico. Ogni colonna porta di solito sulla base una sigla che richiama la relativa categoria e può esibire una cifra che rappresenta la frequenza. Troviamo anche: il diagramma a barre. Es. Se guardiamo una variabile titolo di studio di uno stato, e diciamo che solo il 23% solo diplomati, sembrerebbe che la soglia di istruzione è bassa, quando magari i laureati sono il 50%. La ridotta autonomia semantica delle categorie ordinate fa sì che le frequenze di ciascuna categoria debbano essere interpretate tenendo presente l’intera distribuzione. Minore è l’autonomia semantica delle singole categorie, più il centro semantico si sposta dalla categoria isolata alla successione delle categorie e all’intera variabile. Questa ridotta autonomia semantica ha delle importanti conseguenze: • Si dovrà far ricorso alle frequenze percentuali cumulate o retro cumulate, che offre anche il vantaggio di rendere più agevole e immediata l’individuazione dei valori caratteristici → Le frequenze cumulate di una categoria indicano quanti casi NON arrivano alla categoria successiva. → Le frequenze retro cumulate indicano quanti casi arrivano a quella categoria e alle precedenti. • Tollerabilità di un numero maggiore di modalità (categorie). La tollerabilità è tanto maggiore quanto è minore l’autonomia semantica. → Ciascuna frequenza richiede una minore attenzione perché fornisce un’informazione non pienamente autonoma, ma inserita in una sequenza. • Perdono rilevanza gli indici di equilibrio e di squilibrio, perché la presenza di una frequenza molto alta o molto bassa cambia il significato interpretativo della variabile. I valori caratteristici delle distribuzioni di dati in categorie ordinate tengono conto sia delle frequenze di ciascuna categoria, sia della sua posizione nell’ordinamento generale, per questo si chiamano: VALORI POSIZIONALI 1. Misure di tendenza centrale. 2. Valori di dispersione. Ps. La moda è un valore caratteristico rilevante anche per le distribuzioni dei dati in categorie ordinate, anche se si determina senza considerare l’ordine delle categorie, è semplicemente la categoria con le frequenze più alte. 1. MISURE DI TENDENZA CENTRALE: LA MEDIANA Data una qualunque serie di cifre collocate in ordine di grandezza, la mediana è quella cifra che bipartisce la serie in modo da lasciare lo stesso numero di cifre dalle due parti. Questo concetto lo elaborarono Wundt e Galton. Se consideriamo delle semplici cifre l’informazione che la mediana fornisce mettendo a confronto due distribuzioni può essere ingannevole. Possiamo trovarci davanti a casi in cui la mediana è uguale, ma le serie sono profondamente differenti. 3 4 15 16 17 13 14 15 31 32 Ma può accadere anche che due serie abbiano delle cifre molto simili ma mediane diverse. La mediana, rispetto alla media, di fronte a valori estremi è molto meno sensibile, reta immutata. Per questo motivo viene usata quando si devono stimare l’altezza o il peso normali ad una certa età. La mediana non muta neanche se vengono aggiunti o eliminati dei valori; infatti, questo condiziona poco il valore da essa assunto. Questa scarsa sensibilità ai valori estremi è uno degli aspetti della ROBUSTEZZA, una proprietà importante. <<La robustezza consiste nella capacità di essere scarsamente influenzati dall’aggiunta di nuovi dati all’insieme dei dati rispetto al quale sono calcolati. Un secondo aspetto della robustezza è la scarsa sensibilità ai valori estremi delle distribuzioni.>> Se costruiamo una tabella con le percentuali sarà facilissimo per noi individuare la mediana, corrisponde al 50%. 2. VALORI DI DISPERSIONE: I QUANTILI Rivelano: → La dispersione dei dati intorno ad un valore di tendenza centrale (mediana) → La dispersione dei dati in generale, considerano l’intera distribuzione La mediana rileva la tendenza centrale di una distribuzione, altri valori caratteristici posizionali come i quantili, rilevano la sua dispersione attorno a questa tendenza centrale. Sono valori di una variabile che ne dividono la distribuzione di frequenza in sottogruppi di eguale numerosità. Divisione della distribuzione: QUANTILI Divisione della distribuzione in 3 parti: TERZILI, ognuna di queste parti contiene il 33,33333% della numerosità totale. Divisione della distribuzione in 4 parti: QUARTILI, ognuna di queste parti contiene il 25% della numerosità totale. Divisione della distribuzione in 10 parti: DECILI, ognuna di queste parti contiene il 10% della numerosità totale. Di questi, i più usati sono i due quartili. Il primo vale il 25% (moltiplico il tot x 0,25), il terzo quartile vale 75% (moltiplico il tot x 0,75). Pone l’attenzione sulla parte centrale della distribuziione eliminando il 25% dei casi con valori più bassi e il 25% dei casi con valori più alti. Q = Q3 – Q1 = INTERVALLO DI VARIAZIONE* Q3= Terzo quartile Q1= Primo quartile. * tutte le misure di dispersione che si basano sulla distanza fra due valori caratteristici posizionali di una distribuzione e il cui risultato è un valore assoluto. (comprende non solo la distanza tra quartili, ma anche tra minimo e massimo). Come misura di dispersione abbiamo anche: lo scarto medio interquartile di Galton. È lo scarto interquartile detto anche quartile deviation, rappresenta la metà della differenza tra il terzo e il primo quartile. Formula: 3^ quartile - 1^ quartile --------------------------------- 2 Altra misura di dispersione: L’indice di Leti (1983) d* È un indice relativo, varia tra 0 e 1. 0 = minima dispersione dei dati tra le categorie 1= massima dispersione dei dati tra le categorie → Se la distribuzione è unimodale centrale le categorie estreme hanno frequenze basse → Se la distribuzione è unimodale la dispersione è minima e l’indice tende a 0. Come si calcola? Booooooo • RAPPRESENTAZIONI GRAFICHE CATEGORIE ORDINATE Gli istogrammi sono le forme più semplici di rappresentazione usate quando le categorie sono ordinate. L'ordine delle colonne deve rispettare l’ordine semantico delle categorie. Quello che più rappresenta al meglio categorie ordinate è l’istogramma di composizione detto anche <<areogramma a rettangolo>>. È costituito da una colonna divisa in fasce di altezza proporzionale alle frequenze delle varie categorie. Per suggerire visivamente l’ordinalità, le fasce possono essere disegnate con un tratteggio di intensità crescente, dalla più alta alla più bassa. Non deve essere usato per raffigurare distribuzioni di dati in categorie non ordinate. Quando due o più istogrammi di composizione vengono avvicinati per confrontare le distribuzioni della stessa variabile categoriale ordinata, la figura prende il nome di “Grafico a colonne suddivise”. È il valore che rappresenta la ripartizione e di una variabile cardinale tra le unità del collettivo. È adatta a manipolazioni matematiche, ma è molto influenzata dai valori estremi. → Media aritmetica: A differenza di moda e mediana, non è un valore posizionale, ovvero non corrisponde ad alcun valore effettivo della distribuzione, ma viene calcolata agendo sui dati. Si ottiene sommando tutti i valori e dividendo per il totale. → Media ponderata: Quando i dati sono organizzati in una distribuzione di frequenza oppure sono raggruppati in classi, ciascuna frequenza rappresenta il “peso” di ciascun valore Xi. In questi casi per individuare la media è necessario ponderare (pesare) le Xi associate a ciascuna frequenza. Midrange: Questo valore sintetico permette di valutare rapidamente il grado di asimmetria di una distribuzione. Midrange= (valore minimo + valore massimo) /2 Se la mediana è MINORE del m. ----> asimmetria + Se la mediana è MAGGIORE del m. ----> asimmetria - • Concetto di DISPERSIONE. I valori di dispersione rilevano quanto la distribuzione è dispersa dai valori centrali (media). Due distribuzioni potrebbero avere anche la stessa media, ma i valori sono distribuiti in maniera diversa. I valori di dispersione sono: • Scarto • Scarto medio assoluto • Intervallo di variazione (Range) • Lo Scarto medio interquartile (Galton) • Le differenze medie assolute (Leti) • Differenza semplice media (Gini) SCARTO DALLA MEDIA. Detto anche scostamento o deviation rappresenta la distanza di un valore dalla media aritmetica della distribuzione. Dovremmo sottrarre a ogni caso la media. Se il caso Xi sarà maggiore della media ovviamente lo scarto avrà segno positivo +, se lo scarto sarà minore della media avrà segno negativo -. La somma degli scarti dalla media è sempre uguale a 0. SCARTO MEDIO ASSOLUTO. Lo SSM è stato ideato per risolvere il problema dell’azzeramento della somma degli scarti. Un modo per evitare questo azzeramento è appunto sommare il valore assoluto degli scarti senza tener conto del segno. Dividendo questa somma per il numero dei casi si ottiene lo SSM. È poco usato in statistica perché è più complesso ricorrere agli strumenti dell’analisi con dei valori assoluti, cioè privi di segno. Quindi; Sommatoria degli scarti senza segno, diviso il numero dei casi. INTERVALLO DI VARIAZIONE (RANGE) viene usato spesso per verificare che non vi siano modalità che cadano oltre limiti prefissati. È dato dal valore assoluto della distanza fra due valori caratteristici posizionali di una distribuzione. → Distanza tra minimo e massimo (Campo di variazione o Range). Data una serie di ordinata di numeri, il CV indica l’intervallo di valori entro cui è raccolta la distribuzione di frequenza. ValMax – ValMin. → Distanza/differenza tra 1° e 3° quartile. Q3 – Q1 LO SCARTO MEDIO INTERQUARTILE (Galton) Detto anche quartile deviation, rappresenta la metà della differenza tra 1° e 3° quartile. (Q3 –Q1) /2 I valori caratteristici delle variabili cardinali e quasi cardinali sono detti sintetici (Marradi). Tutti questi valori si basano sulla media; più precisamente sul quadrato degli scarti dalla media. Un valore sintetico per essere definito tale deve rispondere a 6 parametri (Galtung): 1. Considerare tutte le informazioni della distribuzione 2. Essere applicabile a tutte le distribuzioni 3. Essere semplice da calcolare 4. Non risentire della particolarità dei valori della distribuzione 5. Non risentire delle possibili trasformazioni della distribuzione 6. Variare tra –1 e +1 Non tutti questi requisiti sono applicabili a tutti i valori sintetici. VALORI SINTETICI DELLE VARIABILI CARDINALI. Sono 4 i valori sintetici più utilizzati e si basano sul principio di Gauss dell’elevazione al quadrato degli scarti dalla media. • Devianza • Varianza • Scarto tipo • Coefficiente di variazione DEVIANZA. È la somma dei quadrati degli scarti dalla media. Caratteristiche: − È influenzata dal numero dei casi; all’aumentare di N la dispersione aumenta − Si utilizza per confrontare due distribuzioni con un N simile − È una grandezza quadratica solo idealmente, in realtà è una sovrapposizione di quadrati − È espressa in valori assoluti VARIANZA Per annullare il difetto della devianza, che all’aumentare dei casi aumenta essa stessa, si divide per N. Così si ottiene la varianza. È il rapporto tra devianza e numero dei casi. Sarà quindi; cercando di riportare proporzionalmente la distanza tra uno e l’altro, poi con dei segmenti unico i punti dell’ordinata e dell’ascissa. I poligoni di frequenza possono anche rappresentare le percentuali o frequenze cumulative. C'è invece una maniera molto efficace di rappresentare graficamente il coefficiente di variazione (V). Una rappresentazione che riguarda la dispersione di una distribuzione normalizzata rapportandola alla sua media. Si chiama grafico ad Alberello. L'altezza del tronco è proporzionale alla media, e il raggio della chioma (cerchio) è proporzionale allo scarto tipo. → L'alberello che avrà la chioma maggiore del tronco significherà che la variabilità è alta. Quindi V assumerà valore superiore a 1. → Se invece troviamo un alberello con una chioma ridotta, significa che la variabilità della distribuzione è scarsa. Quindi V assumerà un valore inferiore a 1. TECNICHE ANALISI UNIVARIATA. Fino ad ora abbiamo preso in considerazione solo tabelle che contengono soltanto distribuzioni di frequenza. Esistono però anche tabelle che contengono dati diversi dalle distribuzioni di frequenza. In queste tabelle possono essere riportati dati che riguardano il sociale, come ad esempio, in numero di morti per droga o tassi di suicidi. Sarà importante definire uno spazio temporale. Una delimitazione spazio-temporale, è necessaria perché se no tantissimi oggetti diventerebbero potenziali casi di una ricerca. Inoltre, una delimitazione spazio – temporale è importante anche perché i fenomeni sociali sono mutevoli e ciò che può essere valido per un territorio potrebbe non esserlo in un altro. Troveremo quindi; • Serie temporali; cioè la sequenza di valori assunti da una variabile nello stesso momento in diversi aggregati territoriali. • Serie territoriale: la sequenza di valori assunti da una variabile nello stesso aggregato territoriale in tempi diversi. Ovviamente quando dobbiamo confrontare distribuzioni di frequenze con serie territoriali in periodi diversi o serie storiche in luoghi diversi, sarà necessario ricorrere al calcolo percentuale per rendere i confronti più immediati. È possibile introdurre una distinzione tra tipi di disegni che nasce dall'esigenza di tenere sotto controllo un fattore particolare, il tempo. Troviamo studi trasversali quelli nei quali si rilevano informazioni in un singolo momento su un singolo campione. Anche detti one-shot. Si possono ricavare informazioni sul passato, ma solo facendo affidamento sulla memoria degli intervistati. Ciò che è importante è la rappresentatività del campione intervistato, che deve essere eterogeneo e numeroso in modo tale da permettere confronti statisticamente fondati. Questo tipo di approccio permette di ricavare molte informazioni anche su temi diversi in maniera molto veloce. Oppure possiamo avere gli studi longitudinali che ci permettono di studiare un determinato fenomeno in un periodo di tempo più lungo. → Ciò si può ottenere o con i disegni a serie temporale, cioè vengono contattati campioni equivalenti di popolazione in differenti momenti di tempo. Analisi simili possono essere condotte studiando coorti di soggetti, cioè gruppi di soggetti della stessa età che hanno condiviso uno stesso evento sociale. → O con disegni a contatti ripetuti, in cui sono gli stessi soggetti a essere intervistati con cadenza regolare. Questa modalità viene utilizzata negli studi elettorali, per analizzare i cambiamenti negli orientamenti degli elettori nel corso di una campagna elettorale, e negli studi del marketing. Questo tipo di approccio prevede una durata più lunga, con informazioni più approfondite. ANALISI BIVARIATA. Studia relazioni statistiche e quindi probabilistiche. Ad esempio, se dimostriamo l’esistenza di una relazione tra la variabile genere X e la variabile reddito Y, potremmo dire che probabilmente il genere influenza il reddito. È possibile anche che ci saranno dei casi in cui tale influenza non si manifesta. Date due variabili X e Y, l’analisi bivariata stabilisce: • Se esiste tra loro una relazione di indipendenza o di associazione • In caso di associazione, quantifica il grado di associazione tra coppie di variabili mediante coefficienti. Le procedure dell’analisi bivariata cambiano in base alla natura delle variabili. È necessario stabilire se stiamo studiando la relazione tra due categoriali, o tra una categoriale e una cardinale e così via. NOTA BENE: → Se avessimo 3 tipi di variabili dovrebbero esserci 9 tipi di relazioni (3x3) → Se si aggiungesse lo studio delle relazioni tra variabili dicotomiche, si dovrebbero contare 4 tipi di variabili e quindi esserci 16 tipi di combinazioni di relazioni (4x4) Tipi di relazione tra due variabili: Tipi di variabili messe in relazione Nome della relazione Dicotomiche* e/o Variabili categoriali CONORDANZA 1 Variabile categoriale (dicotomica) e 1 Variabile cardinale NESSUN NOME Variabili cardinali e/o Variabili categoriali ordinate 2 variabili categoriali ordinate 2 variabili cardinali COVARIAZIONE/CONTROVARIAZIONE − COGRADUAZIONE − CORRELAZIONE : * le variabili dicotomiche sono quelle che possono assumere solo uno tra due valori, spesso convenzionalmente indicati con 1 (successo) e 0 (insuccesso). RELAZIONE TRA DUE VARIABILI DICOTOMICHE La relazione tra due variabili dicotomiche è descrivibile attraverso la tabulazione incrociata. Una tabulazione incrociata dà vita alla: tabella di contingenza. Come per le tabelle di contingenza con variabili con più di due modalità è consigliabile prendere sempre in considerazione le percentuali. Basta prendere una frequenza di qualsiasi cella (nij) moltiplicarla per 100 e dividerla per il marginale o di riga o di colonna. 3. D SIMMETRICO Lo usiamo per aggiustare i difetti di Q. Robert Somers ha modificato il denominatore della sua formula, proponendo il nuovo coefficiente. Ad - bc Dsim= -------------- Ad + bc + ½ (a+d) (b+c) Si sommano le due frequenze di cella della stessa diagonale per evitare moltiplicandi troppo piccoli. 4. Tc Quello che funziona meglio. Si pronuncia “tau” 4(Ad – bc) Tc= --------------- N^ N^ significa elevato al quadrato. Tc raggiunge il massimo non solo quando una delle due diagonali è vuota, ma anche quando le frequenze nelle celle dell’altra diagonale sono uguali e quindi due coppie di marginali sono entrambe perfettamente equilibrate. Ogni marginale vale N/2. Questo è il motivo per cui il numeratore è moltiplicato per 4. ✓ Tutti questi coefficienti funzionano bene quando i marginali di entrambe le dicotomie sono bilanciati. ✓ Tutti i coefficienti sono costruiti in modo tale che il loro valore raggiunge il massimo quando una delle due diagonali è vuota. Quando ciò si verifica il coefficiente assume valore 1 e si parla di associazione massima. ✓ Se i marginali di entrambe le dicotomie non sono bilanciati la preferibilità dell’uno o dell’altro coefficiente dipende dal modo in cui sono distribuite le frequenze nelle celle e nei marginali. Può succedere che solo una dicotomia abbia frequenze marginali bilanciate e l’altra no. 1 marginale bilanciato, 1 marginale sbilanciato. In questi casi non è opportuno utilizzare il coefficiente Q, perché tenderà a sovrastimare. Questo perché il prodotto di due moltiplicandi (al denominatore) molto sbilanciati ha un valore molto basso. Quindi se noi questa cifra piccola la togliamo al numeratore, quest’ultimo resterà quasi inalterato, e il risultato che si otterrà sarà alto, tenderà a essere vicino a 1. Sarà sempre più vicino a 1 più ci sarà uno squilibrio nelle frequenze di una delle due diagonali. Vediamo invece, entrambe le dicotomie che hanno marginali sbilanciati. In queste situazioni, l’interpretazione del dato diventa problematica. Potremmo trovare tabelle con associazioni “ad angolo” perché le frequenze si concentrano in un angolo della tabella. In questo caso avremmo 3 celle semi vuote. Corner correlation. I coefficienti dovrebbero essere vicini allo 0. In questi casi Q e il coefficiente di Kendall non sono accettabili, Dsim sovrastima ma è accettabile, Tc è realistico accettabile. Oppure potremmo trovare tabelle con una sola cella semi vuota. Three corner correlation. I coefficienti dovrebbero essere vicini allo 0. In questi casi Q sovrastima molto, coefficiente di Kendall e Dsim sovrastimano ma sono accettabili e Tc sottostima molto quindi non è accettabile. Vediamo, quando entrambe le dicotomie presentano: • Due celle semi vuote sulla stessa riga o colonna Q sovrastima quindi non è accettabile, Kendall Dsim e Tc vanno bene. L'associazione sarà inesistente o molto tenue. I valori dei coefficienti dovrebbero essere vicini allo 0. • Due celle semi vuote sulla stessa diagonale: Ci sarà una concordanza perfetta o quasi. I valori dei coefficienti dovrebbero essere vicini ad 1. Le sproporzioni delle celle influenzano solo il numeratore che viene compresso se i moltiplicandi delle diagonali sono molto differenti. Ci sono anche casi in cui le dicotomie hanno marginali sbilanciati, ma nessuna cella semi vuota. I valori dei coefficienti dovrebbero essere vicini a 0 in quanto la relazione sarà abbastanza debole. In questi casi Q è accettabile.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved