Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Corbetta - Metodologia e tecniche della ricerca sociale, Sintesi del corso di Sociologia

riassunto originale per sostenere l'esame di Sociologia. Il testo consigliato dal professore è il manuale di metodologia e tecniche della ricerca sociale di Piergiorgio Corbetta

Tipologia: Sintesi del corso

2009/2010

Caricato il 06/03/2010

marius
marius 🇮🇹

4.4

(442)

4 documenti

1 / 39

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Corbetta - Metodologia e tecniche della ricerca sociale e più Sintesi del corso in PDF di Sociologia solo su Docsity! Piergiorgio Corbetta METODOLOGIA E TECNICHE DELLA RICERCA SOCIALE 2 LA LOGICA DELLA RICERCA SOCIALE 5 RICERCA QUANTITATIVA E RICERCA QUALITATIVA Ricerca quantitativa e ricerca qualitativa: un confronto Impostazione della ricerca Nei due approcci è fondamentalmente diverso il rapporto instaurato tra teoria e ricerca. Nel caso della ricerca quantitativa neopositivista, il rapporto è strutturato in fasi logicamente sequenziali , secondo un’impostazione sostanzialmente deduttiva (la teoria precede l’osservazione), che si muove nel contesto della giustificazione, cioè di sostegno, tramite i dati empirici, della teoria precedentemente formulata sulla base della letteratura. Nel caso della ricerca qualitativa interpretativista elaborazione teorica e ricerca empirica procedono intrecciate, in quanto il ricercatore vede nella formulazione iniziale di una teoria una possibile condizionamento che potrebbe inibirgli la capacità di comprendere il soggetto studiato. In questo modo la letteratura ha una minore importanza. Anche i concetti sono usati in modo diverso dai due approcci. I concetti sono gli elementi costitutivi della teoria, e tramite la loro operativizzazione (trasformazione in variabili empiricamente osservabili) permettono alla teoria di essere sottoposta a controllo empirico. Nell’approccio neopositivista la chiarificazione dei concetti e la loro operativizzazione in variabili avvengono prima ancora di iniziare la ricerca. Questo metodo, se da un lato offre il vantaggio di poter rilevare empiricamente il concetto, dall’altro comporta anche lo svantaggio di una forte riduzione e impoverimento del concetto stesso, con il rischio ulteriore che la variabile sostituisca il concetto (reificazione). Un ricercatore qualitativo avrebbe invece utilizzato il concetto come orientativo (sensitizing concept), che predispone alla percezione, ancora da definire non solo in termini operativi, ma anche teorici, nel corso della ricerca stessa. I concetti diventano quindi una guida di avvicinamento alla realtà empirica, non riduzioni della realtà stessa in variabili astratte. Per quanto riguarda il rapporto generale con l’ambiente studiato, l’approccio neopositivista non ritiene che la reattività del soggetto possa rappresentare un ostacolo di base, e crede che un certo grado di manipolazione controllata sia ammissibile. Viceversa la ricerca qualitativa si basa sull’approccio naturalistico, vale a dire che il ricercatore non manipola in alcun modo la realtà in esame. I due modi di fare ricerca trovano illustrazioni tipiche e opposte nelle tecniche dell’esperimento e dell’osservazione partecipante. Se passiamo alla specifica interazione psicologica con i singoli soggetti studiati, il ricercatore quantitativo assume un punto di vista esterno al soggetto studiato, in modo neutro e distaccato; inoltre studia solo ciò che egli ritiene importante. Il ricercatore qualitativo invece si immerge il più completamente possibile nella realtà del soggetto e quindi tende a sviluppare con i soggetti una relazione di immedesimazione empatica. Ma in questo modo sorge prepotentemente il problema dell’oggettività della ricerca. Anche l’interazione fisica con i singoli soggetti studiati è differente per i due approcci. La ricerca quantitativa spesso non prevede alcun contatto fisico tra studioso e studiato, mentre nella ricerca qualitativa il contatto fisico è una precondizione essenziale per la comprensione. Il soggetto studiato quindi risulta passivo nella ricerca quantitativa, mentre ha un ruolo attivo nella ricerca qualitativa. 6 Rilevazione (disegno della ricerca) Nella ricerca quantitativa il disegno della ricerca (decisioni operative che sovrintendono all’organizzazione pratica della ricerca) è costruito a tavolino prima dell’inizio della rilevazione ed è rigidamente strutturato e chiuso. Nella ricerca qualitativa invece è destrutturato, aperto, idoneo a captare l’imprevisto, modellato nel corso della rilevazione. Da queste diverse impostazioni deriva la diversa concezione della rappresentatività dei soggetti studiati. Nella ricerca quantitativa il ricercatore è più preoccupato della rappresentatività del pezzo di società che sta studiando piuttosto che della sua capacità di comprendere, mentre l’opposto vale per la ricerca qualitativa, alla quale non interessa la rilevanza statistica bensì l’importanza che il singolo caso sembra esprimere. Anche lo strumento di rilevazione è differente per i due tipi di ricerche. Nella ricerca quantitativa esso è uniforme o uniformante per garantire la validità statistica, mentre nella ricerca qualitativa le informazioni sono approfondite a livelli diversi a seconda della convenienza del momento. Allo stesso modo, anche la natura dei dati è diversa. Nella ricerca quantitativa essi sono oggettivi e standardizzati (hard), mentre la ricerca qualitativa si preoccupa della loro ricchezza e profondità soggettive (soft). Analisi dei dati L’analisi dei dati è completamente differente per le due impostazioni della ricerca, a partire dall’oggetto dell’analisi. La ricerca quantitativa raccoglie le proprietà individuali di ogni soggetto che sembrano rilevanti per lo scopo della ricerca (variabili) e si limita ad analizzare statisticamente queste variabili. Il soggetto non viene quindi più ricomposto nella sua unitarietà di persona. L’obiettivo dell’analisi sarà spiegare la varianza delle variabili dipendenti, trovare cioè le cause che provocano la variazione delle variabili dipendenti. La ricerca qualitativa invece non frammenta i soggetti in variabili, ma li considera nella loro interezza, sulla base del ragionamento che l’individuo è qualcosa in più della somma delle sue parti. L’obiettivo è quindi quello di comprendere le persone, interpretando il punto di vista dell’attore sociale. Le tecniche matematiche e statistiche sono fondamentali per la ricerca quantitativa, mentre sono considerate inutili e dannose nella ricerca qualitativa. Risultati I risultati dei due tipi di ricerca sono naturalmente diversi. Già nella presentazione dei dati notiamo che la ricerca quantitativa si serve di tabelle, mentre quella qualitativa di narrazioni. Le tabelle hanno il pregio della chiarezza e della sinteticità, ma presentano il difetto di presentare uno schema mentale proprio dei ricercatori che può non corrispondere alle reali categorie mentali dei soggetti; inoltre impoveriscono inevitabilmente la ricchezza delle affermazioni dei soggetti. Le narrazioni riescono ad ovviare a questi difetti, perché riportano le parole degli intervistati e quindi si pongono come una “fotografia” dei loro pensieri. Per quanto riguarda la generalizzazioni dei dati, la ricerca quantitativa si pone l’obiettivo di enunciare rapporti causali tra le variabili che possano spiegare i risultati ottenuti. La ricerca qualitativa, invece, cerca di individuare tipi ideali (nel senso weberiano), cioè categorie concettuali che non esistono nella realtà, ma che liberano i casi reali dai dettagli e dagli accidenti della realtà per estrarne le caratteristiche essenziali ad un livello superiore di astrazione; lo scopo dei tipi ideali è quello di essere utilizzati come modelli con i quali illuminare e interpretare la realtà stessa. La ricerca qualitativa non si preoccupa di spiegare i meccanismi causali che stanno alla base dei fenomeni sociali, cerca invece di descriverne le differenze interpretandole alla luce dei tipi ideali. All’opposto, il fine ultimo della ricerca quantitativa è proprio quello di individuare il meccanismo causale. Un’ultima questione è quella della portata dei risultati. A questo proposito notiamo che la profondità dell’analisi e l’ampiezza della ricerca sono inversamente correlate, vale a dire che ad un maggior numero di casi esaminati corrisponde un minore approfondimento dei singoli casi. Data la maggiore quantità di casi necessariamente esaminati dalla ricerca quantitativa, risulta indubbiamente una maggiore generalizzabilità dei risultati rispetto a quelli della ricerca qualitativa. 7 Due diversi modi di conoscere la realtà sociale A questo punto ci si potrebbe chiedere se uno dei due approcci è “scientificamente” migliore dell’altro. A questo proposito si possono individuare tre posizioni. La prima afferma che i due approcci sono incompatibili tra di loro, e quindi i rispettivi sostenitori dei due paradigmi dicono che il proprio è corretto mentre l’altro è sbagliato. La seconda si ritrova nei neopositivisti, che affermano l’utilità dell’approccio qualitativo, ma solo in una prospettiva preliminare di stimolazione intellettuale (ruolo ancillare). La terza posizione infine sostiene la pari dignità dei due metodi, e auspica lo sviluppo di una scienza sociale che, a seconda delle circostanze e delle opportunità, scelga per l’uno o per l’altro approccio. Infatti contributi importanti alle scienze sociali sono arrivati da entrambi i tipi di ricerca, che possono essere rispettivamente adatti per differenti situazioni. Entrambi gli approcci si possono considerare come due diversi modi di fare ricerca che possono contribuire insieme alla conoscenza dei fenomeni sociali, integrandosi vicendevolmente per una migliore comprensione della realtà da punti di vista differenti. 10 Dai concetti alle variabili Nel suo significato più ampio, il termine concetto si riferisce al contenuto semantico (significato) dei segni linguistici e delle immagini mentali. Proprio per questa sua generalità, il concetto può includere ogni specie di segno o di procedura semantica, astratto, concreto, universale, individuale, ecc. Essendo l’ipotesi una interconnessione tra concetti, emerge il fatto che i concetti sono i “mattoni della teoria”, e attraverso la loro operativizzazione si realizza la traduzione empirica di una teoria. Il concetto è il legame tra la teoria e il mondo empirico osservabile. I concetti possono riferirsi ad astrazioni impossibili da verificare empiricamente (potere, felicità, ecc), oppure a entità concrete (oggetti, persone, ecc). Ma se i concetti formano una teoria, come si può verificarla empiricamente? Bisogna passare dai concetti astratti alla loro applicazione come proprietà degli specifici oggetti studiati (chiamati unità di analisi). Una proprietà misurabile di una unità di analisi si chiama variabile. Per esempio, il peso è un concetto, ma il peso di un oggetto è la sua proprietà. Il peso dell’oggetto misurato con la bilancia è una variabile. Oppure, il livello culturale è un concetto astratto, ma se applicato a un individuo diventa una proprietà, e se è misurabile una variabile. In definitiva, una variabile è una proprietà di una unità di analisi a cui sono assegnati valori diversi. Unità di analisi L’unità di analisi rappresenta l’oggetto sociale al quale afferiscono, nella ricerca empirica, le proprietà studiate. Esse devono essere determinate con precisione nel momento in cui si vuole sottoporre a controllo empirico una teoria mediante una specifica ricerca di tipo quantitativo, in quanto sono un elemento importante del disegno della ricerca (il programma di lavoro empirico). Le unità di analisi possono essere concretamente rappresentate dall’individuo (la più comune), dall’aggregato di individui (di solito basate sulla territorialità), dal gruppo-organizzazione-istituzione (quando l’unità di rilevamento è rappresentata dal collettivo stesso), dagli eventi sociali (quando gli eventi stessi sono le unità di analisi) e dalle rappresentazioni simboliche – prodotto culturale (quanto l’unità di analisi consiste da messaggi di comunicazione di massa di ogni genere). L’unità di analisi è singolare ed astratta, mentre chiamiamo casi gli esemplari specifici di quella data unità di analisi che vengono studiati, sui quali si rilevano i dati. Essi sono gli oggetti specifici della ricerca empirica. 11 Variabili Una variabile è un concetto operativizzato, o meglio la proprietà operativizzata di un oggetto, in quanto il concetto, per poter essere operativizzato, ha dovuto essere applicato ad un oggetto diventandone proprietà. Un concetto può essere operativizzato in modi diversi. Le variabili possono variare tra diverse modalità; il caso limite è quello in cui risulta invariante nello specifico sottoinsieme degli oggetti studiati, nel qual caso prende il nome di costante. Le variabili possono variare nel tempo, su uno stesso caso (studio longitudinale o diacronico) oppure fra i casi, nello stesso tempo (studio trasversale o sincronico). Nelle scienze sociali il secondo metodo è il più utilizzato. Le variabili possono esser classificate secondo la loro manipolabilità, la posizione nella relazione causa/effetto, l’osservabilità, il carattere individuale o collettivo e il trattamento dei loro valori. La prima distinzione è quella tra variabili manipolabili e non manipolabili. Le variabili manipolabili sono quelle che possono essere modificate dal ricercatore, viceversa quelle non manipolabili non possono essere controllate. La maggior parte delle variabili sociali non sono manipolabili, anche se esistono dei casi in cui il ricercatore può controllarle. La seconda distinzione è quella tra variabili dipendenti e variabili indipendenti. In una relazione asimmetrica tra due variabili, quando cioè una variabile influenza un’altra, la variabile indipendente è ciò che influenza (la causa), mentre la variabile dipendente è ciò che è influenzato (l’effetto). Nel caso in cui le variabili indipendenti siano più di una abbiamo una relazione multivariata. La terza distinzione è quella tra variabili latenti e variabili osservate. La distinzione si basa sulla osservabilità, ossia sulla possibilità di rilevazione empirica. Le prime sono variabili non direttamente osservabili in quanto rappresentano concetti molto generali o complessi, mentre le seconde sono facilmente rilevabili. In ogni caso, entrambe possono essere operativizzate, per cui anche nel caso delle variabili latenti c’è una sostanziale differenza con i concetti. L’ultima distinzione è quella tra variabili individuali e variabili collettive. Le variabili individuali sono specifiche di ogni individuo, mentre quelle collettive sono proprie di un gruppo sociale. Le variabili collettive si suddividono a loro volta in variabili aggregate, dove la proprietà del collettivo deriva dalle proprietà dei singoli componenti del gruppo, e variabili globali, quando le caratteristiche esclusive del gruppo non derivano da proprietà dei membri che lo compongono. Le variabili sono assolutamente fondamentali nella ricerca empirica, anche se a ogni definizione operativa è lasciata all’arbitrio del ricercatore, che deve solo esplicitare e giustificare le sue scelte. Per questo una definizione operativa non è mai perfettamente adeguata ed esiste sempre uno scarto tra variabile e concetto. Un altro pericolo che porta l’operativizzazione è quello della reificazione, cioè di identificare la definizione operativa di un concetto (necessariamente arbitraria e impoverita) con il concetto stesso. Tuttavia, con tutti i suoi limiti, la definizione operativa è necessaria per fondare scientificamente e oggettivamente la ricerca sociale. 12 Variabili nominali, ordinali e cardinali Un’altra classificazione molto importante è quella tra che riguarda le operazioni logico-matematiche che possono essere effettuate sulle variabili. A questo proposito abbiamo variabili nominali, ordinali e cardinali. Le variabili nominali sono tali quando la proprietà da registrare assume stati discreti non ordinabili, cioè finiti e delimitati che non hanno alcun ordine o gerarchia tra di essi. Gli stati di una proprietà così descritta si chiamano categorie, le categorie operativizzate (cioè gli stati della variabile) modalità e i simboli assegnati alle modalità valori. La procedura di operativizzazione che permette di passare dalla proprietà alla variabile è la classificazione. Nel caso in cui ci siano solo due modalità si parla di variabili dicotomiche. Le variabili ordinali sono tali quando la proprietà da registrare assume stati discreti ordinabili. In questo caso è possibile stabilire non solo relazioni di eguaglianza e disuguaglianza, ma anche relazioni d’ordine. In questo caso la procedura di operativizzazione è l’ordinamento, che tiene conto dell’ordinabilità degli stati della proprietà. Quindi l’attribuzione dei valori alle singole modalità dovrà utilizzare un criterio che presevi l’ordine degli stati. Tipicamente si utilizzano i numeri naturali, che comunque non godono delle loro proprietà cardinali (cioè la distanza che corre tra le varie modalità non può essere confrontata con le altre). Le variabili possono essere ordinali perché derivano da proprietà originariamente costituite da stati discreti oppure perché derivano da proprietà continue che sono state registrate su una sequenza sono ordinale perché non si dispone di una unità di misura. Le variabili cardinali sono tali perché i numeri che ne identificano le modalità non sono delle semplici etichette, ma hanno un pieno significato numerico (hanno cioè proprietà sia ordinali che cardinali). Tra le modalità delle variabili di questo tipo, oltre a stabilire relazioni di eguaglianza e diversità e d’ordine, si possono effettuare operazioni di somma e sottrazione tra i valori e tutte le altre operazioni statistiche. Si possono ottenere variabili cardinali attraverso due processi: la misurazione (quando la proprietà da misurare è continua e si possiede una unità di misura prestabilita che permetta di confrontare la grandezza da misurare con una grandezza di riferimento) e il conteggio (quando la proprietà da registrare è discreta ed esiste una unità di conto, cioè una unità elementare che è contenuta un certo numero di volte nelle proprietà dell’oggetto). Nelle scienze sociali molte variabili cardinali derivano operazioni condotte su altre variabili cardinali. Le variabili quasi-cardinali sono un sottoinsieme delle variabili cardinali. Le proprietà più caratteristiche delle scienze sociali possono essere tutte immaginate come proprietà continue, che però non riescono a passare dalla condizione di proprietà continua a quella di variabile cardinale per la difficoltà di applicare una unità di misura agli atteggiamenti umani. Un tentativo di superare questo limite è dato dalla tecnica delle scale, che cerca di avvicinarsi a misurazioni in senso proprio, cioè a variabili in cui la distanza tra due valori sia nota. Le variabili prodotte da questa tecnica sono dette quasi-cardinali. Concetti, indicatori e indici Nelle scienze sociali esistono concetti che hanno un elevato grado di generalità, e si pongono lontani dall’esperienza. Per poterli definire in modo empiricamente controllabile è necessario darne una definizione operativa (tradurli in termini osservativi) tramite gli indicatori. Gli indicatori sono concetti più semplici, traducibili in termini osservativi, che sono legati ai concetti generali da un rapporto di indicazione, o rappresentanza semantica. Gli indicatori sono quindi dei ancora dei concetti, ma più facilmente operativizzabili. Tuttavia il rapporto tra concetto e indicatore è parziale: da una parte un concetto generale non può essere esaurito da un solo indicatore specifico, dall’altra un indicatore può sovrapporsi solo parzialmente al concetto per il quale è stato scelto, e dipendere per il resto da un altro concetto, anche profondamente diverso. Inoltre la scelta di un indicatore è lasciata unicamente all’arbitrio del ricercatore, il cui unico obbligo è quello di argomentare la sua scelta, non di dimostrarne la correttezza. La rilevazione empirica di un concetto non direttamente osservabile passa attraverso quattro fasi: l’articolazione del concetto in dimensioni (i diversi aspetti e significati del concetto), la scelta degli indicatori, la loro operativizzazione, la formazione degli indici. L’indice è la sintesi globale della pluralità delle variabili che sono state prodotte dai diversi indicatori. 15 Sostanza e forma delle domande Dati sociografici, atteggiamenti e comportamenti Le domande di un questionario possono essere riconducibili alla tripartizione tra proprietà sociografiche di base, atteggiamenti e comportamenti. Domande relative alle proprietà sociografiche di base: riguardano le caratteristiche sociali di base di un individuo (genere, età, luogo di nascita), quelle ereditate dalla famiglia (classe sociale di origine, titolo di studio), quelle temporanee (professione, stato civile, comune di residenza). Queste domande seguono delle formulazioni standard. Domande relative agli atteggiamenti (opinioni, motivazioni, sentimenti, giudizi, valor): interrogare direttamente gli individui è l’unica via per ottenere queste informazioni, ma questo è anche il campo più difficile da esplorare, e le risposte sono influenzate dal modo in cui sono poste le domande. Domande relative ai comportamenti, che rilevano quello che il soggetto dice di fare o di aver fatto. Questo è un aspetto più facile da indagare rispetto agli altri. Domande aperte e domande chiuse Le domande aperte sono quelle in cui si lascia piena libertà all’intervistato nella formulazione della risposta; si rivolgono di solito ad un campione ridotto. Il vantaggio della domanda aperta è quello di concedere una maggiore libertà di espressione e spontaneità, ma la risposta deve essere trascritta per intero. Lo svantaggio consiste nel fatto che la risposta è difficile da classificare successivamente in categorie predeterminate. Questo crea dei problemi di codifica, perché le risposte possono essere generiche o imprecise. Solo un buon intervistatore può sollecitare a precisare meglio il significato delle risposte, ma questo comporta un maggiore impegno dell’intervistato e quindi un maggior rischio di rifiuti, senza contare l’aggravio dei costi. Le domande chiuse offrono la possibilità di scegliere tra risposte prefissate, quindi la risposta sarà standard. Sono il solo tipo di domande che si possono utilizzare con un campione di grandi dimensioni. I vantaggi delle domande chiuse consistono nella maggiore facilità di codifica, nello stimolo dell’analisi e della riflessione e nella maggiore economicità (in un campione ampio). La domande sono poste a tutti con lo stesso schema di risposte e chiariscono all’intervistato qual è il piano di riferimento della ricerca, evitando così risposte vaghe. Gli svantaggi sono il rischio di non considerare tutte le altre possibili alternative di risposta non previste e di influenzare la risposta con le alternative proposte. A volte l’intervistato sceglie una delle alternative anche se non è convinto. Le risposte, inoltre, non hanno significato uguale per tutti, e tutte le alternative possono essere troppe per essere ricordate. Formulazione delle domande La formulazione delle domande è importantissima perché può influenzare pesantemente la risposta; bisogna quindi porre molta attenzione al linguaggio, alla sintassi e al contenuto stesso delle domande. Semplicità di linguaggio: il linguaggio del questionario deve essere adatto alle caratteristiche del campione studiato, il questionario autocompilato deve essere più semplice rispetto a quello con intervistatore e in ogni caso non bisogna far conto sulle sue spiegazioni, perché di solito gli intervistati si vergognano di ammettere di non capire le domande. Lunghezza delle domande: di solito le domande devono essere concise, ma nel caso di tematiche complesse sono preferibili le domande lunghe perché facilitano il ricordo, danno più tempo per pensare e agevolano una risposta più articolata. Numero delle alternative di risposta: non devono essere troppo numerose; se presentate a voce non devono superare il numero di cinque. Espressioni in gergo: è preferibile non utilizzare espressioni gergali perché potrebbero irritare l’intervistato. Definizioni ambigue: occorre fare molta attenzione a non utilizzare termini dal significato non ben definito. 16 Parole dal forte connotato negativo: è bene evitare anche i termini carichi di significato emotivo, soprattutto se questo è negativo. Domande sintatticamente complesse: la domanda deve avere una sintassi chiara e semplice, evitando ad esempio la doppia negazione. Domande con risposta non univoca: bisogna evitare le domande esplicitamente multiple (domande in cui ne sia inclusa un’altra) e quelle dalla problematica non sufficientemente articolata. Domande non discriminanti: le domande devono esser costruite in modo tale da operare delle discriminazioni significative nel campione degli intervistati. Domande tendenziose (viziate o a risposta pilotata): è necessario presentare le domande in modo equilibrato, senza orientare l’intervistato verso una possibile risposta. Comportamenti presunti: è indispensabile evitare di dare per scontati comportamenti che non lo sono. Focalizzazione nel tempo: occorre sempre definire con precisione l’arco temporale al quale si riferisce la domanda. Concretezza – astrazione: la domanda astratta può dare facilmente luogo a risposte generiche o normative, mentre la domanda concreta facilita la riflessione e rende più difficile il fraintendimento. Comportamenti e atteggiamenti: data la difficoltà di determinare gli atteggiamenti, è buona regola, quando possibile, limitarsi ai comportamenti piuttosto che restare nell’ambito dell’opinione. Desiderabilità sociale delle risposte: per evitare risposte normative bisogna formulare domande il più possibile concrete. Altre indicazioni sono quelle di giustificare anche la risposta meno accettabile; considerare normale e diffuso anche il comportamento negativo; equilibrare la desiderabilità delle risposte (“Alcuni dicono che… altri pensano che…”); attribuire all’intervistato il comportamento condannato, lasciandogli il compito dell’eventuale smentita; formulare le domande in terza persona; e così via. In ogni caso è impossibile eliminare del tutto gli effetti della desiderabilità sociale. Domande imbarazzanti: andrebbero studiate attraverso domande aperte e con interviste non-strutturate, con le quali si può conquistare la fiducia degli intervistati. Mancanza di opinione e non so: bisogna far presente all’intervistato che “non so” è una risposta legittima come le altre, per esempio includendola espressamente tra le alternative possibili. Bisogna inoltre evitare di indirizzarlo, anche in maniera indiretta o inconsapevole. Intensità degli atteggiamenti: è importante cogliere anche l’intensità degli atteggiamenti, perché è quest’ultima che determina i comportamenti. La rilevazione dell’intensità degli atteggiamenti necessita di solito di domante ulteriori. Acquiescenza: si riferisce alla tendenza di scegliere risposte che esprimono accordo piuttosto che negative. Un problema simile è quello dell’uniformità delle risposte, quando si tende a scegliere la stessa risposta per una serie di domande che contemplano lo stesso tipo di alternativa. Effetto memoria: per ovviare alla inevitabile distorsione causata dalla memoria si possono stabilire limiti temporali al ricordo; utilizzare punti di riferimento temporali relativi ad eventi più salienti rispetto a quello studiato; presentare all’intervistato liste di possibili risposte; utilizzare diari o strumenti analoghi; ecc. Sequenza delle domande: è meglio mettere all’inizio domande facili, che abbiano lo scopo di rassicurare l’intervistato e di metterlo a proprio agio. Le domande imbarazzanti si posizioneranno quindi a metà questionario, in modo che l’intervistatore abbia avuto un po’ di tempo per conquistare la fiducia dell’intervistato. Anche le domande impegnative dovranno essere collocate a metà dell’intervista, in modo tale da assecondare la curva di interesse dell’intervistato. Alla fine si potranno porre le domande più noiose ma che non richiedono riflessione come quelle sociometriche. È bene seguire anche il passaggio da domande generali a domande particolari, stringendo progressivamente sugli aspetti più specifici. Bisogna tenere conto infine dell’effetto contaminazione, cioè del fatto che in certi casi la risposta ad una domanda può essere influenzata dalle domande che l’hanno preceduta. 17 Batterie di domande Le batterie di domande sono domande che essendo, tutte formulate nello stesso modo (stessa domanda introduttiva e stesse alternative di risposta, varia solo l’oggetto al quale si riferiscono), vengono presentate all’intervistato in un unico blocco. Le batterie di domande hanno gli obiettivi di risparmiare spazio sul questionario e tempo dell’intervista, facilitare la comprensione del meccanismo di risposta, migliorare la validità della risposta e permettere al ricercatore di costruire indici sintetici che riassumono in un unico punteggio le diverse domande della batteria. Gli svantaggi delle batterie di domande consistono nel pericolo che le riposte siano date a caso e che le risposte siano meccanicamente tutte uguali tra di loro. Modalità di rilevazione Interviste faccia a faccia Nel caso che stiamo trattando, vale a dire quello dell’intervista con questionario standardizzato, l’obiettivo è quello di limitare l’effetto dell’intervistatore, standardizzandone il comportamento e limitandone i margini di discrezionalità attraverso una fase di addestramento. In altre parole, l’intervistatore deve inibirsi qualsiasi comportamento che può influenzare l’intervistato; per questo motivo gli intervistatori devono presentare alcuni tratti particolari per raggiungere questo scopo. Le loro caratteristiche: l’intervistatore ideale è donna, sposata, di mezza età, diplomata, casalinga, di ceto medio, con un abbigliamento neutrale. Le loro aspettative: le aspettative degli intervistatori possono essere trasmesse inconsciamente agli intervistati, influenzandone le risposte soprattutto per quanto riguarda intervistati insicuri. La loro preparazione: l’intervistatore deve essere consapevole dell’influenza che ha nella formulazione delle risposte, e per questo deve essere istruito per limitare al massimo questi effetti. La loro motivazione: l’intervistatore deve essere convinto dell’importanza del proprio lavoro, perché un atteggiamento contrario potrebbe riverberarsi in modo negativo sull’intervistato. Interviste telefoniche L’intervista telefonica presenta numerosi vantaggi: permette una grande velocità di rilevazione; ha costi ridotti; presenta minori resistenze alla concessione dell’intervista e maggiore garanzia di anonimato; permettere di raggiungere a parità di costo anche gli intervistati della periferia del paese; facilita enormemente il lavoro di preparazione degli intervistatori e la loro supervisione; consente di utilizzare direttamente il computer in fase di rilevazione. I suoi svantaggi sono: il minore coinvolgimento dell’intervistato che porta a una maggiore incidenza di risposte superficiali; il più rapido logoramento del rapporto con l’intervistato; l’impossibilità di utilizzare materiale visivo; l’impossibilità di raccogliere dati non verbali; l’impossibilità di raggiungere tutti gli strati sociali; il fatto che anziani e persone poco istruite risultano sottorappresentate; il fatto che le domande sono spesso elementari a causa della ristrettezza del tempo a disposizione. I limiti più gravi sono comunque l’assenza di contatto e la mancanza di tempo, che non rendono adatta l’intervista telefonica quando si vogliono analizzare tematiche complesse. 20 LA TECNICA DELLE SCALE L’operativizzazione dei concetti complessi La tecnica delle scale (scaling) consiste in un insieme di procedure messe a punto per misurare concetti complessi e non direttamente osservabili. L’unico modo per poterli registrare è quello di usare un insieme coerente ed organico di indicatori, mettendo anche a punto criteri intersoggettivi per controllare l’effettiva sovrapposizione fra indicatori e concetto e la completezza della procedura. Possiamo quindi dire che una scala è un insieme coerente di elementi che sono considerati indicatori di un concetto più generale. La tecnica delle scale è usata soprattutto nella misura degli atteggiamenti, dove l’unità d’analisi è l’individuo, il concetto generale è un atteggiamento (credenze di fondo non rilevabili direttamente) e i concetti specifici sono le opinioni (espressione empiricamente rilevabile di un atteggiamento). Le variabili prodotte dalla tecnica delle scale non possono essere considerate pienamente cardinali, perché scaturiscono da dimensioni sottostanti immaginate come proprietà continue non misurabili, anche se la teoria delle scale tenta di dare una risposta a questo problema. Per questo le variabili della teoria delle scale vengono chiamate quasi-cardinali. Domanda e risposta graduata: l’autonomia semantica delle risposte Gli elementi di una scala sono tipicamente domande, possiamo quindi affermare che una scale è costituita da una batteria di domande (raramente da una domanda singola). Le domande (sempre chiuse) possono essere proposte in tre modi diversi. Il primo consiste nel presentare risposte semanticamente autonome, cioè ciascuna ha un suo intrinseco significato compiuto che non necessita, per essere compreso, di essere messo in relazione con il significato delle altre alternative presenti nella scala. Il secondo caso è quello in cui le categorie di risposta sono a parziale autonomia semantica, quando il significato di ogni categoria è parzialmente autonomo dalle altre (“molto”, “abbastanza”, “poco”, “per nulla”). Infine ci sono le scale auto-ancoranti, dove solo le due categorie estreme sono dotate di significato, mentre tra di esse si colloca un continuum entro il quale il soggetto colloca la sua posizione. Le variabili prodotte dalla prima situazione sono senza dubbio ordinali, mentre nella seconda è probabile che scatti un processo di comparazione quantitativa. Per quanto riguarda il caso delle risposte auto-ancoranti è ancora più probabile che si metta in moto una procedura mentale di suddivisione graduata dello spazio tra i due estremi, suddivisione che è però soggettiva e non valida per tutti. Per questo si parla di variabili quasi-cardinali. Nel caso delle variabili a parziale autonomia semantica è preferibile offrire la possibilità di un punto neutro e dell’opzione “non saprei”. Il numero delle opzioni disponibili di solito è 5 o 7, tranne nell’intervista telefonica, dove si usano domande con risposte binarie per motivi di semplicità. Nel caso delle graduatorie auto-ancoranti si possono usare diverse soluzioni come quella delle caselle vuotre, della sequenza di cifre oppure della linea continua. Le preferenze possono essere espresse in termini assoluti (quando ogni domanda riguarda isolatamente una singola questione) oppure in termini relativi (nella forma di confronti e scelte tra diversi oggetti). È preferibile scegliere scale con più domande rispetto a scale con una domanda sola per tre motivi: la complessità dei concetti rende improbabile la loro copertura con un singolo indicatore; una rilevazione singola manca di precizione, in quanto non riesce a discriminare in maniera fine tra le diverse posizioni dei soggetti sulla proprietà considerata; infine le singole domande sono più esposte agli errori accidentali. Le domande ad un solo elementi sono quindi meno valide, meno precise e meno attendibili. 21 Scala di Likert La procedura che sta alla base delle scale di Likert consiste nella somma dei punti attribuiti ad ogni singola domanda. Il formato delle singole domande della scala di Likert è rappresentato da una serie di affermazioni per ognuna delle quali l’intervistato deve dire se e in che misura è d’accordo. Di solito le alternative di risposta sono cinque, da “molto d’accordo” a “fortemente contrario”. La costruzione della scala avviene in quattro fasi. Nella prima, la formulazione delle domande, si individuano le dimensioni dell’atteggiamento studiato e si formulano delle affermazioni che coprano i vari aspetti del concetto generale che si vuole rilevare. Nella seconda fase, la somministrazione delle domande, la scala viene sottoposta ad un campione limitato di intervistati con un certo livello di istruzione. In seguito, nella terza fase (analisi degli elementi), si selezionano le domande e si valuta il grado di coerenza interna della scala, cioè se la scala misura effettivamente il concetto in esame. È infatti possibile che alcuni elementi non risultino in linea con gli altri e vadano quindi eliminati. Gli strumenti utilizzati nella terza fase sono la correlazione elemento-scala e il coefficiente alfa. Per la correlazione elemento-scala, si calcola per ogni soggetto il punteggio su tutta la scala e si calcola il coefficiente di correlazione tra questo punteggio e il punteggio di ogni singolo elemento. Il coefficiente di correlazione è una misura che quantifica il grado di relazione tra due variabili cardinali e indica se il punteggio di ogni singolo elemento si muove nella stessa direzione del punteggio globale che tiene conto di tutti gli altri elementi. Se ciò non avviene la domanda non è congruente con la scala e va eliminata. Il coefficiente alfa serve invece a valutare la coerenza interna complessiva della scala. Esso si basa sulla matrice di correlazione tra tutti gli elementi della scala e il loro numero; più alti sono i valori (da 0 a 1) maggiore è la coerenza interna alla scala. Infine si apre la quarta fase, quella dei controlli sulla validità e l’unidimensionalità della scala. Tralasciando i controlli di validità, la tecnica più efficace per il controllo di unidimensionalità è quella dell’analisi fattoriale. Il suo scopo è quello di ridurre una serie di variabili tra loro collegate ad un numero inferiore di variabili ipotetiche tra loro indipendenti, in modo da controllare se dietro agli elementi di una scala che si presume unifattoriale, vi sia un solo fattore o più fattori. I vantaggi della scala Likert consistono nella sua semplicità e applicabilità, mentre i suoi svantaggi sono il fatto che i suoi elementi vengono trattati come scale cardinali pur essendo ordinali (a parziale autonomia semantica), la mancata riproducibilità (dal punteggio della scala non è possibile risalire alle risposte delle singole domande) e il fatto che il punteggio finale non rappresenta una variabile cardinale. 22 Scalogramma di Guttman La scala di Guttman nasce con l’obiettivo di fornire una soluzione al problema dell’unidimensionalità della scala di Likert e consiste in una sequenza di gradini, una successione di elementi aventi difficoltà crescente, in modo che chi ha risposto affermativamente ad una certa domanda deve aver risposto affermativamente anche a quelle che la precedono nella scala di difficoltà. In questo modo, se gli elementi della scala sono perfettamente scalati, solo alcune sequenze di risposte sono possibili; inoltre dal risultato finale è possibile risalire alle risposte date dal soggetto ai singoli elementi della scala (riproducibilità). Questa tecnica prevede solo elementi dicotomici, cioè ogni domanda può avere solo due risposte opposte e distinte. Le due risposte possibili vengono di solito contrassegnate con i numeri 0 e 1. Anche la scala di Guttman segue tre-quattro fasi nella sua costruzione. La prima è quella della formulazione delle domande, con considerazioni analoghe a quelle relative alla scala di Likert tranne che le domande devono essere dicotomiche e disposte secondo un ordine crescente di forza. Anche la seconda fase (somministrazione) è simile a quella della scala di Likert, con il vantaggio che la forma binaria agevola le risposte e rende più veloce la compilazione (anche se talvolta la forte semplificazione indotta dal carattere binario delle scelte può creare problemi all’intervistato). La specificità della scala di Guttman sta nell’analisi dei risultati, quando si valuta la scalabilità degli elementi, si scartano quelli meno coerenti col modello, si stabilisce un indice di scalabilità della scale e se accettarla o meno. In primo luogo si devono individuare gli errori della scala, cioè le risposte che non si inseriscono nelle sequenze previste nel modello. Per questo si utilizza un indice (coefficiente di riproducibilità) che misura il grado di scostamento della scala osservata dalla scala perfetta. Questo indice può variare da 0 a 1; per poter essere accettabile, il valore dell’indice deve essere maggiore o uguale a 0,90 (cioè errori pari o inferiori al 10% delle risposte). Esiste anche un altro indice, detto di minima riproducibilità marginale, che segnala il valore minimo al di sotto del quale il coefficiente di riproducibilità non può scendere, quali che siano le sequenze delle risposte. Esso deve essere confrontato con il coefficiente di riproducibilità: solo se il secondo, oltre ad essere maggiore di 0,90, è anche nettamente superiore al primo, si può affermare che la buona riproducibilità della scala è dovuta ad un’effettiva scalabilità dei suoi elementi e non alla distribuzione marginale delle risposte. L’ultima fase è quella di attribuire i punteggi ai soggetti; per far questo si sommano i punteggi 0/1 ottenuti nelle varie risposte. I problemi della scala di Guttman consistono nel fatto che il punteggio finale è ancora una variabile ordinale; si tratta di una tecnica applicabile solo ad atteggiamenti ben definiti e scalabili; il modello risulta rigidamente deterministico di fronte ad una realtà sociale interpretabile solo attraverso modelli probabilistici. Modelli probabilistici (la scala di Rasch) Nell’approccio probabilistico la probabilità di dare una certa risposta ad un dato elemento non è solo 0 o 1, ma si colloca tra questi due estremi. Questa impostazione presuppone un modello di relazione tra posizione del soggetto sul continuum e probabilità di risposta ad un determinato elemento della scala che viene chiamata traccia. La traccia è quindi una curva che descrive la probabilità di rispondere affermativamente ad un certo elemento a seconda della posizione dell’individuo sul continuum sottostante. La traccia non assume la forma lineare, ma quella di una curva ad “S” detta curva logistica. La posizione di ciascun soggetto è data dal valore v. La “difficoltà” di un elemento della scala (vale a dire la probabilità di una risposta “Sì”) è data dal parametro b che corrisponde al valore della variabile latente per il quale la probabilità di risposta affermativa è il 50%. Maggiore è il valore di b, maggiore è la “difficoltà” della domanda. La probabilità di risposta positiva dipende quindi dalla differenza v – b: se essi coincidono, la probabilità è del 50%; se v > b la probabilità di risposta affermativa è superiore a quella della risposta negativa; viceversa se v < b. I vantaggi di questo modello sono due: esso è una descrizione molto più adeguata ai reali meccanismi che generano le risposte rispetto al modello deterministico e le variabili prodotte da questo modello sono variabili cardinali. In questo modo può dirsi realizzato l’obiettivo della misurazione nelle scienze sociali. 25 Altri campioni probabilistici Campionamento sistematico: è simile al casuale semplice, ma con diversa tecnica di estrazione. I soggetti si scelgono secondo un intervallo stabilito (uno su k). Si usa quando non c’è periodicità e quando la lista non è completa (ad esempio nei controlli di qualità sui prodotti oppure negli exit polls). In ogni caso deve essere rispettato il requisito che tutte le unità abbiano la stessa probabilità di essere incluse nel campione e inoltre deve essere evitata ogni forma di scelta diversa da quella predeterminata dall’intervallo di campionamento. Campionamento stratificato: la popolazione è divisa in strati omogenei rispetto alla variabile e si estrae un campione casuale semplice da ciascuno strato; in seguito si uniscono i campioni dei singoli strati per ottenere il campione finale. Questa procedura richiede che per tutte le unità della popolazione sia nota la variabile posta alla base della stratificazione. Il campione ottenuto può essere stratificato proporzionale (se si decide di riprodurre la stessa composizione degli strati nella popolazione) oppure stratificato non proporzionale (se si decide di sovrarappresentare alcuni strati e sottorappresentare altri). Campionamento a stadi: la popolazione è suddivisa su più livelli gerarchicamente ordinati, i quali vengono estratti in successione con un procedimento ad “imbuto”. Se presumiamo di avere due stasi, il campionamento si effettua in due momenti: prima si estraggono le unità primarie (gruppi di soggetti che costituiscono le unità di analisi vere e proprie) e successivamente si estrae casualmente un campione di unità secondarie (le unità di analisi) in ognuna delle unità primarie selezionate dalla prima estrazione. I vantaggi di questa tecnica consistono nel fatto che non è necessario avere la lista di tutta la popolazione, ma solo delle unità primarie; inoltre la rilevazione viene concentrata sulle unità estratte, con notevole riduzione dei costi. Campionamento per aree: è molto simile al campionamento a stadi e si utilizza quando mancano del tutto i dati sulla popolazione oppure quando le liste sono incomplete. Campionamento a grappoli: si usa quando la popolazione risulta naturalmente suddivisa in gruppi di unità spazialmente contigue (grappoli). Al posto delle unità elementari vengono estratti i grappoli, e poi tutte le unità elementari appartenenti ai grappoli vengono incluse nel campione. Questa tecnica semplifica di molto la rilevazione ed è molto utile quando manca la lista delle unità elementari mentre esiste la possibilità di estrarre con procedura probabilistica i grappoli. Campioni complessi: sono quelli in cui si utilizzano congiuntamente le tecniche ora presentate. 26 Il campionamento nella ricerca sociale L’errore nella ricerca sociale può essere distinto in tre parti: errore di selezione, errore di osservazione ed errore di trattamento dati. La procedura di campionamento produce un errore del primo tipo, che a sua volta può essere distinto in ulteriori tre componenti: errore di copertura, errore di campionamento ed errore di trattamento dati. Finora ci siamo occupati del solo errore di campionamento; tratteremo ora anche gli altri. Errore di copertura. Lista della popolazione Nel caso in cui si conosce la lista della popolazione, è possibile procedere con campionamenti probabilistici. Questo accade di solito quando l’oggetto di studio è l’intera popolazione (anche nazionale), perché esistono anagrafi e liste elettorali che forniscono l’elenco completo della popolazione. Il problema si pone per i sottoinsiemi della popolazione, perché di solito non si è in possesso di una lista completa della popolazione. Quando invece l’unità di analisi non è un individuo ma un collettivo, la situazione è migliore perché in genere un aggregato di individui esiste in forma istituzionalizzata e registrata. Se non c’è la possibilità di conoscere la lista della popolazione bisogna rinunciare a tecniche di campionamento probabilistico, perché in questi casi non è possibile assegnare a tutte le unità della popolazione una certa probabilità di estrazione. Ma non è sufficiente che le liste esistano, bisogna anche che siano aggiornate, complete ed esenti da duplicazioni. Il problema della completezza è il più grave; in questo caso il ricercatore può ridefinire la popolazione, trascurare gli esclusi oppure procedere ad un’integrazione del campione. Errore di campionamento. Ampiezza del campione Se consideriamo il caso di una ricerca monovariata (quando si stimano le variabili ad una ad una) la dimensione del campione può essere adeguata, ma se nella stessa ricerca studiamo le relazioni tra le variabili (analisi bivariata o multivariata) l’errore cresce subito fino a livelli inaccettabili. La dimensione ideale del campione dipende dalla distribuzione delle variabili studiate e dal tipo di analisi che si intende fare. In generale l’ampiezza del campione dovrà essere tanto maggiore quanto più il fenomeno da studiare è minoritario. Errore di non-risposta. Mancati contatti e rifiuti L’errore di non-risposta consiste nel fatto che i soggetti selezionati dal campionamento non sono contattabili o si rifiutano di rispondere. Il problema del mancato contatto con i soggetti può essere causato dalla difficoltà di raggiungerli oppure dalla loro irreperibilità; in ogni caso si tratta di problemi fastidiosi ma risolvibili. Molto più grave è il problema dei rifiuti a rispondere, in quanto spesso coloro che non vogliono rispondere sono diversi dagli altri e quindi non rappresentano una selezione casuale del campione originario. In questo modo si compromette la validità del campione stesso, che sovrarappresenterà alcune categorie di persone a scapito di altre. La percentuale di mancate risposte in Italia varia dal 20% al 50%, a seconda della diversa forma di contatto utilizzata (ad esempio di solito le interviste faccia a faccia hanno un tasso di risposta superiore a quelle telefoniche). Una soluzione per rimediare alle mancate risposte può essere quella di sostituire i soggetti con altri scelti a caso, ma questa tecnica spesso non è efficace perché i sostituti assomigliano più ai rispondenti che non ai non rispondenti. Per contrastare efficacemente il problema delle mancate risposte ci sono due metodi: il primo è quello di tornare il più possibile dalla persone che non rispondono per incontrarle o convincerle; il secondo consiste nella ponderazione, cioè nell’attribuire alle persone non raggiunte dall’intervista le risposte medie date dal gruppo sociale al quale esse appartengono. 27 Campioni non probabilistici Quando il disegno probabilistico non può essere impostato si ricorre sin dall’inizio ai campioni non probabilistici. Campionamento per quote: si divide la popolazione in strati rilevanti e il ricercatore sceglie a sua discrezione i soggetti all’interno degli strati rispettando la proporzione (non c’è casualità). I limiti di questa procedura consistono nel fatto che il ricercatore cerchi i soggetti più facilmente raggiungibili, enfatizzando in questo modo l’errore di non-risposta. Disegno fattoriale: il disegno fattoriale si colloca a mezza strada tra una tecnica di campionamento e un esperimento. Il suo scopo è quello di cogliere le relazioni che vigono all’interno della popolazione; per far questo i gruppi che si creano dalle combinazioni delle variabili (es.: istruzione, età e genere) hanno tutti dimensione uguale e non proporzionale alla popolazione. Il disegno fattoriale non arreca alcun vantaggio allo studio della relazione tra variabile dipendente e indipendente. Campionamento a scelta ragionata: in questo caso le unità campionarie non sono scelte in maniera probabilistica, ma sulla base di alcune loro caratteristiche. Campionamento bilanciato: è una forma di campionamento ragionato, nel quale si selezionano la unità di modo che la media del campione, per determinate variabili, sia prossima alla media della popolazione (deve trattarsi quindi di variabili delle quali sia nota la distribuzione nella popolazione). Esso viene usato soprattutto in caso di campioni molto piccoli. Campionamento a valanga: è caratterizzato da fasi successive: prima si intervistano le persone che hanno le giuste caratteristiche, da queste si ricevono indicazioni per rintracciare altre persone con le stesse caratteristiche, e così via. Per questo è particolarmente utile in caso di popolazioni clandestine. Campionamento telefonico: la particolarità di questo campionamento consiste nel fatto che la selezione è fatta automaticamente tramite computer, a partire da elenchi telefonici oppure da numeri generati direttamente dal computer (random digit dialing). Questa tecnica presenta il vantaggio che il computer registra i motivi dei mancati contatti e gestisce l’esclusione del numero o la ripetizione della chiamata. Questo tipo di campionamento presenta il difetto che chi vive da solo ha maggiore possibilità di essere estratto di chi vive in una famiglia numerosa. Campionamento di convenienza: l’unico criterio di questa tecnica è che si scelgono le persone più facilmente accessibili; naturalmente va il più possibile evitato. 30 L’ANALISI MONOVARIATA Tipi di variabili e analisi statistica Le caratteristiche logico-matematiche delle variabili (nominali, ordinali e cardinali) definiscono le procedure da seguire nella fase di analisi dei dati. Le diverse variabili sono quindi analizzate in modo diverso sin dai livelli più elementari. La maggior parte delle tecniche sono state elaborate per le variabili nominali o cardinali, mentre le variabili ordinali dovrebbero essere trattate come nominali perché non è corretto assegnare loro le proprietà delle variabili cardinali. Un caso particolare delle variabili nominali è quello delle cosiddette variabili dicotomiche, che hanno la proprietà di poter essere trattate statisticamente come variabili cardinali; per questo talvolta il ricercatore “dicotomizza” variabili a più categorie (politomiche). Matrice dei dati La matrice dei dati consiste in un insieme rettangolare di numeri, dove in riga abbiamo i casi e in colonna le variabili; in ogni cella derivante dall’incrocio tra una riga e una colonna abbiamo un dato, cioè il valore assunto da una particolare variabile su un particolare caso. Per potere essere organizzate in una matrice, le informazioni devono avere due caratteristiche: l’unità d’analisi deve essere sempre la stessa e su tutti i casi studiati devono essere rilevate le stesse informazioni. L’operazione di traduzione del materiale empirico grezzo in matrice viene chiamata codifica ed avviene con due strumenti, il tracciato record (la posizione di ogni variabile nella riga della matrice) e il codice (che assegna ad ogni modalità della variabile un valore numerico). Ogni riga della matrice corrisponde ad un caso (leggendo ogni riga possiamo ottenere il profilo di un caso), mentre ogni colonna corrisponde ad una variabile (leggendo una colonna conosciamo le risposte date a quella domanda da tutti gli intervistati). 31 Distribuzione di frequenza Distribuzioni assolute e relative Per dare una rappresentazione sintetica di una colonna della matrice si una la distribuzione di frequenza, che è una rappresentazione nella quale ad ogni valore della variabile viene associata la frequenza con la quale esso si presenta nei dati analizzati. La distribuzione di frequenza può essere assoluta, quando ci si limita semplicemente a contare i casi che presentano quel valore, oppure relativa, quando sono rapportate ad un totale comune. Un modo per operare questa relativizzazione è la proporzione, che consiste nel dividere ogni singola frequenza assoluta per il numero totale di casi; più spesso si usa la percentuale, che si ottiene dalle proporzioni moltiplicandole per 100. Il fatto di relativizzare le frequenze permette di effettuare dei confronti fra distribuzioni di frequenza della stessa variabile ma ottenute da popolazioni di diversa numerosità. Una forma particolare di distribuzione di frequenza è costituita dalla distribuzione cumulativa di frequenza, nella quale in corrispondenza di ogni valore dalla variabile viene riportata la somma delle frequenze corrispondenti a quel valore e a tutti quelli inferiori. Se le variabili da sintetizzare sono ordinali, si tende a raggrupparli in classi di valori adiacenti, perché spesso sono in numero elevato e altrimenti si otterrebbe una distribuzione troppo dispersa. La presentazione delle tabelle Distribuzione di frequenza in forma compatta: il ricercatore deve attenersi al massimo della parsimoniosità nella presentazione dei dati per non confondere il lettore, per cui si limiterà a presentare le percentuali e il totale in valore assoluto (base del calcolo delle percentuali) Cifre decimali: di solito le percentuali si riportano con una cifra decimale oppure senza decimali se la base delle percentuali è minore di 100; questo perché esiste sempre un errore che può essere di diversi punti. Arrotondamenti: se il decimale da eliminare si colloca tra 0 e 4, si arrotonda per difetto, se si colloca tra 0 e 5 si arrotonda per eccesso. Il decimale zero: se si decide di riportare i decimali deve essere presente anche lo zero (es. 22,0%) Quadratura: a causa degli arrotondamenti può succedere che la somma delle percentuali sia diversa da 100; in questo caso è opportuno alterare le cifre per avere delle percentuali la cui somma sia 100. “Pulizia” dei dati e preparazione del file di lavoro Controlli di plausibilità: si tratta di controllare che tutti i valori delle variabili siano plausibili, appartengano cioè al ventagli di valori previsti dal codice. Controlli di congruenza: si possono confrontare le distribuzioni di due variabili per far emergere eventuali incongruenze tra le variabili stesse. Valori mancanti (missing values): ad un certo caso in una certa variabile viene assegnato “valore mancante” se quel caso è privo di informazioni su quella variabile. Esistono quattro casi di valore mancante: “non sa”, “non applicabile”, “non risponde”, “valore implausibile”. Di solito si tende ad esporre i “non risponde” nell’analisi monovariata e ad escluderli nell’analisi a più variabili. Analisi monovariata L’analisi monovariata è un’analisi puramente descrittiva dei fenomeni studiati, che si limita ad esporre come ogni variabile è distribuita fra i casi rilevati, senza porsi problemi sulle relazioni tra le variabili. Essa rappresenta un passaggio inevitabile e necessario di ogni analisi multivariata, perché solo con questa analisi il ricercatore perviene a quella conoscenza diretta dei dati che gli permetterà di analizzarli con piena consapevolezza. Essa inoltre rappresenta una prima descrizione dei fenomeni analizzati e contribuisce alla comprensione della struttura del campione e della sua rappresentatività. 32 Misure di tendenza centrale Le misure di tendenza centrale dicono qual è, in una distribuzione di frequenza, il valore che meglio di qualsiasi altro esprime la distribuzione quando si decidesse di sintetizzarla in un unico numero. Variabili nominali: la moda. Se la variabile è nominale, l’unica misura di tendenza centrale calcolabile è la moda. La moda è la modalità di una variabile che si presenta nella distribuzione con maggior frequenza. Variabili ordinali: la mediana. Nel caso delle variabili ordinali, oltre alla moda si può calcolare la mediana. La mediana è la modalità del caso che si trova al centro della distribuzione dei casi che va dal minore al maggiore (distribuzione ordinata dei casi secondo quella variabile). Variabili cardinali: la media aritmetica. La media aritmetica è la misura di tendenza più nota e comune, ed è data dalla somma dei valori assunti dalla variabile su tutti i casi divisa per il numero dei casi. Se nella distribuzione di frequenza i dati sono raggruppati in classi, per il calcolo della media si assume il valore centrale della classe. La media si può calcolare solo se la variabile è cardinale, in quanto richiede operazioni che possono essere effettuate solo se i valori hanno pieno significato numerico. Tuttavia ci sono dei casi in cui è preferibile usare la mediana anche nel caso di variabili cardinali, tipicamente quando si desidera una misura meno sensibile ai casi estremi (come il reddito medio della popolazione). Misure di variabilità Variabili nominali: indici di omogeneità/eterogeneità. Una variabile nominale ha una distribuzione massimamente omogenea quando tutti i casi si presentano con la stessa modalità; viceversa è massimamente eterogenea quando i casi sono equidistribuiti tra le modalità. Il più semplice indice di omogeneità (assoluta) è dato dalla somma dei quadrati delle proporzioni (cioè delle frequenze relativizzate al totale 1). L’indice di omogeneità relativa invece neutralizza l’influenza del numero delle modalità. Variabili ordinali: la differenza interquartile. I quartili sono i valori che segnano i confini tra i quattro quarti di una distribuzione ordinata divisa in quattro parti di eguale numerosità. La differenza interquartile è la differenza tra il terzo ed il primo quartile; si usa per eliminare il 25% dei valori più alti e il 25% dei valori più bassi. Questa differenza si usa anche per le variabili cardinali. Variabili cardinali: deviazione standard e varianza. La deviazione standard (o scarto quadratico medio) consiste nella somma degli scarti dei singoli valori dalla media elevati al quadrato (per annullare il loro segno) sotto radice. Se togliamo la radice otteniamo la varianza della distribuzione. Essa costituisce l’oggetto primario di tutta l’analisi dei dati. Se si vogliono confrontare tra di loro le variabilità di distribuzioni aventi medie fortemente diverse, conviene utilizzare un indice di variabilità che tenga conto del valore della media (coefficiente di variazione). La concentrazione. Quando la variabile è cardinale e consiste in quantità possedute dalle unità d’analisi si può calcolare la concentrazione di questa variabile nelle unità studiate. La variabile è equidistribuita se il suo ammontare complessivo è distribuito in parti uguali tra le unità, mentre è concentrata se l’ammontare complessivo è tutto attribuito ad una sola unità. Tipicamente gli indici di concentrazione sono utilizzati per studiare le disuguaglianze nella distribuzione della ricchezza. 35 Serie temporali e serie territoriali: numeri indice Serie temporali e territoriali La serie temporale (o serie storica) è la sequenza dei valori assunti da una variabile nello stesso aggregato territoriale in tempi diversi; la serie territoriale è la sequenza dei valori assunti da una variabile nello stesso momento in diversi aggregati territoriali. Pur non essendo distribuzioni di frequenza, a queste serie è possibile applicare molte delle operazioni che si applicano alle distribuzioni di frequenza (tendenza centrale, variabilità, ecc.); di esse si possono dare anche rappresentazioni grafiche. Una rappresentazione grafica molto efficace per le serie territoriali è il cartogramma, che raffigura la distribuzione geografica del fenomeno studiato. Lo studio della variazione: i numeri indice Differenza assoluta e relativa: la differenza assoluta tra due grandezze omogenee ha un significato diverso a seconda dell’entità delle grandezze stesse. Se invece vogliamo calcolare la variazione relativa tra le due grandezze, dobbiamo fare la differenza tra le due e successivamente dividere per quella che si assume per riferimento. Naturalmente la variazione relativa risente fortemente della base di partenza. Numeri indice: il numero indice è una proporzione che serve a mettere in luce le variazioni di una serie temporale o territoriale rispetto ad un tempo o a un luogo assunti come base di riferimento. Esso non dipende dall’unità di misura o di conto in cui è espresso (sono cioè numeri puri) e permettono quindi di fare confronti con variabili più disparate. 36 L’ANALISI BIVARIATA Relazioni tra variabili Affermare che c’è una relazione tra due o più variabili significa dire che c’è una variazione concomitante tra i loro valori (una covariazione). Si tratta di relazioni statistiche, ovvero probabilistiche; ma la statistica non può dire se esiste effettivamente una relazione causale tra le variabili esaminate (covariazione non significa causazione). Sarà il ricercatore a conferire a tale relazione il significato di nesso causale, sulla base di una teoria preesistente che non ha alcun legame con l’analisi statistica. Esamineremo solo l’analisi bivariata, in cui vengono considerate solo le relazioni tra due variabili, dette rispettivamente dipendente e indipendente in quanto il ricercatore di solito interpreta le relazioni in termini di nessi causali. Le tecniche di analisi bivariata dipendono in maniera determinante del tipo di variabili considerate. Se entrambe le variabili sono nominali, la tecnica usata sarà quella delle tavole di contingenza; se entrambe le variabili sono cardinali la tecnica sarà quella della regressione-correlazione; se la variabile indipendente è nominale e quella dipendente cardinale si userà la tecnica dell’analisi della varianza. Tavole di contingenza Direzione delle percentuali (percentuali di riga e percentuali di colonna) La tavola di contingenza consiste in una tabella a doppia entrata in cui è collocata in riga una variabile (variabile di riga) e l’altra in colonna (variabile di colonna), mentre nelle celle definite dall’incrocio fra le righe e le colonne troviamo il numero di casi che presentano le corrispondenti modalità delle due variabili (frequenza). L’ordine di una tavola di contingenza è il prodotto delle righe per le colonne, mentre la dimensione è il numero di variabili in essa implicate. L’analisi bivariata tratta quindi solo tabelle bidimensionali. Dalla tabella con i valori assoluti è possibile ricavare tre diverse tabelle percentuali: le percentuali di riga (che si ottiene ponendo uguale a 100 la variabile di colonna e registrando quindi i corrispondenti valori percentuali della variabile di riga), le percentuali di colonna (che si ottiene ponendo uguale a 100 la variabile di riga e registrando quindi i corrispondenti valori percentuali della variabile di colonna) e le percentuali sul totale (che si ottengono percentualizzando tutte le frequenze di cella sul totale generale). Se la tabella è stata costruita per analizzare la relazione tra le due variabili quest’ultima percentualizzazione è inutile. Lo scopo della percentuale è infatti quello di “pareggiare” basi diverse. È necessario porre molta attenzione nella scelta delle due percentuali rimanenti perché una è corretta mentre l’altra è errata; per compiere la scelta giusta bisogna ricordare che si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile di colonna ha su quella di riga e viceversa. In altri termini, si definisce qual è la variabile indipendente e si percentualizza all’interno delle sue modalità. Talvolta, quando gli obiettivi sono diversi, può essere utile calcolare invece l’altra percentualizzazione oppure calcolarle entrambe. 37 Presentazione delle tavole Gli elementi caratterizzanti di una buona presentazione delle tavole sono cinque. Parsimoniosità: la tabella deve riportare solo le percentuali che servono all’analisi (es. solo quelle di riga). Totali: ogni riga o colonna finisce con il totale 100 per far capire immediatamente al lettore in che direzione sono state calcolate le percentuali. Basi delle percentuali: deve essere sempre riportata la base percentuale, cioè il numero assoluto di casi sui quali è stata operata la percentualizzazione. Cifre decimali, decimale zero, arrotondamenti, quadratura: valgono le considerazioni già sviluppate riguardo alla presentazione delle distribuzioni di frequenza. Intestazione: le tabelle devono sempre essere intestate per poter essere autoesplicative. Somme di percentuali: la somma di percentuali è legittima se i valori sommati appartengono alla stessa distribuzione, ma è errata se le percentuali sommate appartengono a due diverse distribuzioni. Interpretazione delle tavole Nell’interpretazione e commento delle tabelle è opportuno selezionare le modalità più significative della variabile dipendente e centrare su queste l’analisi; inoltre è preferibile trascurare differenze percentuali esigue (inferiori ai 5 punti percentuali). Per fare un commento efficace si prende una modalità significativa della variabile dipendente e si vede come essa varia al variare della variabile indipendente. La scelta della modalità da commentare dipende dalla linea argomentativa del ricercatore. Nel caso di variabili ordinali risulta utile aggregare le modalità estreme e contigue della variabile dipendente per una maggiore chiarezza. Un sistema spesso utilizzato per interpretare le tabelle consiste nell’indice di differenza percentuale, cioè nella differenza tra due modalità di risposta o tra le risposte positive e negative; esso permette di leggere i dati tenendo conto simultaneamente dell’andamento di più modalità della variabile dipendente. Presentazione compatta delle tavole Spesso, per economizzare lo spazio o per facilitare il confronto tra domande aventi la stessa struttura, si compattano più tavole semplici a doppia entrata in un’unica tavola, presentando un’unica modalità. Si possono incrociare diverse variabili dipendenti con la stessa variabile indipendente oppure viceversa. Tavole di mobilità sociale Nelle tavole di mobilità sociale su una dimensione si colloca la classe sociale dei soggetti studiati e sull’altra quella dei loro padri. Essa è di particolare importanza perché offre molteplici linee di lettura. Iniziando dalle celle, poiché le due variabili (classe sociale padre e classe sociale figlio) hanno le stesse modalità, sulla diagonale si trovano i soggetti immobili, mentre nel triangolo superiore alla diagonale ci sono i soggetti che hanno sperimentato un processo di mobilità ascendente e nel triangolo sotto alla diagonale ci sono invece i soggetti che hanno sperimentato un processo di mobilità discendente. In questo caso inoltre tutte e tre le forme di percentualizzazione assumono un significato: le percentuali entro le modalità della variabile indipendente ci dicono qual è l’influenza della classe sociale di partenza su quella di arrivo, le percentuali per riga ci danno informazioni sull’origine sociale dei ceti attuali e infine la percentualizzazione sul totale ci dà informazione sul processo generale di mobilità sociale. Lo stesso approccio viene impiegato nelle tavole di movimento elettorale.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved