Scarica CAPITOLO 1 IL PROBLEMA DELLA MISURAZIONE IN PSICOLOGIA: PROSPETTIVA STORICA e più Appunti in PDF di Psicometria solo su Docsity! CAPITOLO 1 IL PROBLEMA DELLA MISURAZIONE IN PSICOLOGIA: PROSPETTIVA STORICA La Psicometria è quella branca della psicologia che si occupa dello sviluppo dei test psicologici e della ricerca sui metodi di misurazione oggettiva delle variabili psicologiche. Va distinta dalla psicometria ingenua, intesa come un tentativo spontaneo e ascientifico di verificare la presenza di una caratteristica psicologica. La più importante chiave per la rilevazione di una caratteristica psicologica è la possibilità dell’osservazione dei comportamenti umani. Da sempre si è cercato di trovare degli strumenti che permettano di analizzare e categorizzare la psiche umana. È molto utile la psicometria per la formulazione di un’assessment psicologico definita come quella procedura di valutazione dell’individuo che permette di descrivere e spiegare la condizione psicologica, fare diagnosi e proporre prognosi. Non deve essere confuso con i test psicologici che sono basati sull’integrazione di informazioni provenienti da diverse fonti. Inoltre non si può effettuare una diagnosi o basare un assessment psicologico interamente sui test psicologici, in quanto questi test non misurano le persone, ma solo alcune loro caratteristiche psicologiche. La psicologia così come le altre scienze, ha bisogno di metodi di misurazione, che gli diano oggettività e attendibilità. Il primo problema da affrontare è quello della misurabilità dell’unità di analisi, cioè stabilire dei criteri oggettivi o scale di riferimento che permettano di creare un metodo. Lo psicofisico Theodor Fechner, fu uno degli studiosi che cercò di ideare un metodo per poter riuscire ad esprimere la quantità di una sensazione soggettiva in risposta ad uno stimolo fisico, dando l’avvio a diversi studi in questo ambito. Più avanti Friedrich Mohs, attraverso la sua personale scala di riferimento (composta da 10 minerali che gli permettevano di verificare la durezza di altri minerali e cosi stabilire una unità di misura), ci fa capire che anche la psicologia, con i suoi test psicologici, ha bisogno di una unità di misura che permetta di capire quanto un comportamento o un aspetto di personalità si discosti dalla media e quindi definire un punteggio soglia per poter attribuire ad un paziente un possibile disturbo. Una caratteristica che si manifesta in almeno due modi diversi è definita variabile. Questa variabile può essere: • Manifesta, quando è direttamente osservabile; • Latente, quando non è direttamente osservabile. Ciò che vogliamo misurare, invece, è definito attributo/caratteristica/proprietà o unità di analisi di un oggetto. La misurazione si basa sulla possibilità di esprimere come quantità, attraverso il conteggio di unità di misura, le caratteristiche degli oggetti reali. In psicologia la definizione classica di misurazione è quella di Stevens “la misurazione è l’assegnazione di etichette numeriche a oggetti o eventi in base a una regola” che ha introdotto le 4 scale di misurazione (nominale, ordinale, a intervalli equivalenti e a rapporti equivalenti). Stevens riteneva che la misurazione psicofisica fosse possibile e concepiva la storia della scienza, come la storia dei tentativi dell’uomo di escogitare procedure per misurare e quantificare il mondo attorno a lui. Nella misurazione, soprattutto in psicologia, sono fondamentali Indicatori (che rappresentano gli item di un test psicologico), intesi come delle variabili di osservazione che permettono di operazionalizzare un costrutto teorico (questa definizione rappresenta il principio di base di misurazione della psicologica). Nonostante gli studi e le innovazioni condotte in questo campo, la misurazione in psicologia rimane, ancora oggi, un dibattito aperto perché gli strumenti a sua disposizione (test psicologici, self-report, check-list ecc.) non forniscono un punteggio molto oggettivo o attendibile, rispetto ad una misurazione di un oggetto fisico (come la lunghezza di un tavolo), perché nell’essere umano influiscono molteplici variabili, che possono influenzare non solo il punteggio finale di un test psicologico, ma anche il processo di diagnosi compiuto nell’assessment psicologico. CAPITOLO 2 LA COSTRUZIONE DEI TEST PSICOLOGICI: I PRIMI PASSI E LE TECNICHE DI SCALING • Somma dei ratings, fornita ai vari item su una scala d risposta di tipo Likert a più punti. È importante evidenziare che il punteggio di ogni item è una misura di una proprietà che può variare quantitativamente e che è comune a tutti gli item. È necessaria anche la creazione di un modello di misurazione che specifichi la relazione fra la variabile latente (costrutto) e gli indicatori (item). Tutto ciò al fine di attribuire il giusto valore al punteggio di ogni item che può essere rappresentato dalla correlazione fra il costrutto e l’item. La Teoria classica dei test (TCT), prevede che la variabile latente abbia un effetto causale sulle variabili osservate (indicatori riflessivi), in grado di spiegare la maggior parte del punteggio osservato. Un modello di questo tipo prende il nome di reflective indicator measurement model, (anche chiamato modello di Spearman) in quanto gli indicatori “riflettono” la presenza del costrutto, anche se in ogni test psicologico sarà sempre presenta, anche in percentuale minima, un errore di misurazione (determinato principalmente dall’effetto causale della variabile latente sulle variabili osservate). In questo modello le operazionalizzazioni del costrutto sono intercambiabili in quanto possono essere realizzati vari campioni rappresentativi di esso. La formula di Spearman viene utilizzata per i dati ordinali, lavorando sui ranghi. Blalock (1964) e collaboratori, invece, ipotizzano un modello in cui sono gli indicatori a causare la variabile latente (Indicatori formativi), creando il causal indicator measurement model, come per esempio la misurazione di uno status socioeconomico, di cui gli indicatori sarebbero il livello di istruzione, il reddito degli adulti o il prestigio della propria professione. In questo modello l’esclusione di un indicatore può cambiare la composizione della variabile latente. Questi due approcci allo scaling vengono definiti “classici”, perché l’approccio alla misurazione di variabili psicologiche, è che la causa delle variabilità delle risposte è attribuibile alle differenze individuali dei soggetti, senza prendere in considerazioni gli stimoli o le prove che compongono il test. Lo scaling centrato sui soggetti, è basato sulla misurazione dei singoli soggetti e ipotizza che la variabile latente non può spiegare completamente la covariazione delle variabili osservate perché potrebbero esserci altre cause, definiti fattori specifici. Nella teoria classica dei test si ipotizza che la variabile latente abbia un effetto casuale sulle variabili osservate. Quando parliamo di scaling sui soggetti parliamo di tutte quelle forme di scaling che rientrano o che obbediscono alla teoria classica dei test. Lo scaling centrato sugli stimoli, è basato sulla misurazione degli stimoli e non degli individui. Un esempio è il Method of Paired Comparisons di Thurstone, che prevede un elencazioni di tutti gli stimoli da valutare e in seguito una valutazione in base alle opinioni espresse dal campione di soggetti, per esempio chiedendogli di mettere in ordine gli stimoli, secondo la gravità o l’intensità dello stimolo. Altro metodo ideato da Thurstone è il metodo degli intervalli equivalente o soggettivamente uguali, che consente di ottenere una misura degli atteggiamenti degli individui nei confronti di un oggetto, come la guerra o la politica di un governo. Altro tipo di scaling è quello centrato sui modelli di risposta all’item cioè centrato sui soggetti e sugli stimoli. Qui è importante definire il grado di difficoltà di ogni item, le modalità di valutazione del punteggio, i prerequisiti e le abilità dei destinatari del test. Secondo Louis Guttman (1950), il test ideale è quello che ha indicatori ordinati per difficoltà (test di prestazione massima) o ordinati per grado di accordo/ frequenza/intensità (test di prestazione tipica). Guttman, infatti, propone un metodo di misurazione deterministico basato sul principio per cui un insieme di item può essere considerato una scala quando gli individui rispondono correttamente o concordano con l’item più difficile, concordano anche con gli item più facili. Più avanti Georg Rasch (1960), ha posto il problema della misurazione psicologica in termini probabilistici: una persona che ha un’abilità maggiore di un’altra dovrebbe avere una maggiore probabilità di rispondere correttamente a uno specifico item, rispetto a una persona con una minore abilità; mentre se un item è più difficile di un altro significa che per ogni individuo, la probabilità di rispondere correttamente al secondo item è maggiore. Questo tipo di approccio prende il nome di Teoria della risposta dell’item (Item Response Theory), Lo scopo di questa teoria è quella di ottenere una stima dell’abilità del soggetto, cioè del suo tratto misurato dal test, indipendentemente dalla difficoltà degli item. Rasch voleva ottenere una misura di una caratteristica psicologica che avesse quattro specifiche proprietà: • Oggettività specifica, cioè il fatto che le misure che si ottengono dipendono sia dall’insieme di item impiegato, sia dal gruppo di soggetti utilizzato per verificare le proprietà psicometriche del test; • Sufficienza, che afferma che il punteggio totale di un soggetto a un test è esprimibile nei termini della relazione tra l’abilità posseduta dal soggetto e la difficoltà dell’item. Va effettuato attraverso un modello statistico sufficiente sottostante; • Separabilità, ossia che in base al comportamento di risposta osservato, è possibile separare gli effetti dovuti alle persone e quelli dovuti agli item. • Indipendenza locale, secondo cui i punteggi degli indicatori osservabili sono fra loro indipendenti quando la variabile latente viene mantenuta costante. A livello grafico è possibile ottenere due grafici: • La Curva caratteristica dell’Item, che rappresenta la probabilità di rispondere correttamente a un item o la funzione della differenza fra l’abilità del soggetto e la difficoltà dell’item; • La Curva caratteristica del Test, che si ottiene sommando per uno stesso soggetto le probabilità di risposta corretta associate a ogni item e dividendo per il numero di item. In questo modo siamo in grado di rappresentare sull’asse orizzontale le abilità dei soggetti e sull’asse verticale le medie delle probabilità di risposta corretta per ogni item. È importante, però, stabilire una unità di misura arbitraria che in questo contesto prende il nome di logit che ci permette di esprimere in valori le abilità dei soggetti (variabile A) e la difficoltà degli item (variabile B), rendendo possibile un confronto. (Si può utilizzare il software WINSTEPS). Questa impostazione grafica, ci permette di capire la distanza e l’ordine delle variabili A e B. Il modello di Rasch, grazie alla probabilità, rende possibile la creazione di diversi test che misurino diversi parametri, nel caso della costruzione di item, o caratteristiche, nel caso dei soggetti. Questo modello permette anche di stabilire la differenza in termini di “quantità di caratteristica” posseduta da due diversi soggetti o la “quantità di difficoltà” di due diversi item. Infine, poiché le stime dell’abilità degli individui e quelle della difficoltà degli item rispondono alla proprietà dell’oggettività specifica, è possibile confrontare i risultati di test composti da domande in parte diverse, senza dover ricorrere a uno o più campioni normativi (come nel caso dei test sviluppati nell’ambito della Teoria Classica dei test). CAPITOLO 3 SCRIVERE GLI ITEM DI UN TEST Un item è una prova o stimolo che compone un test psicologico e che rappresenta la forma psicometrica di un costrutto teorico. Le caratteristiche chiave degli item di un test sono: • La Chiarezza, cioè il fatto che non vi sia ambiguità o eccessiva generalità nelle domande poste, nelle istruzioni del test e nel modo in cui deve essere fornita la risposta. Infatti le persone non rispondono agli item, ma a quello che comprendono degli item. La chiarezza è uno dei principali requisiti degli item sentimento neutrale. Nel formato ambigui, la scelta degli ancoraggi viene lasciata al soggetto. Nel formato di risposta bipolare, non esistono ambiguità, dato che vengono esplicitate le risposte che indicano uno stato emotivo o l’altro (triste- felice) e la neutralità. Carroll e Russell hanno trovato che l’interpretazione unipolare o bipolare di uno specifico item da parte di un soggetto dipende dal formato di risposta e dai termini utilizzati. Nei test di prestazione tipica gli item sono in genere costituiti da brevi affermazioni in relazione al costrutto misurato e possono descrivere stati d’animo, desideri, atteggiamenti, opinioni, convinzioni, comportamenti, attribuzioni di tratti, interessi, reazioni corporee o comportamentali. In alcuni casi gli item possono essere singole parole come nelle check-list di aggettivi per la valutazione della personalità o degli stati d’animo. Molto importante è la formulazione delle affermazioni o parole che formano un item. A questo proposito Kline (1993) ha proposto delle linee guida per la formulazioni di item di prestazione tipica: 1) Adeguare il linguaggio alle competenze linguistiche dei soggetti; 2) Fare una richiesta a ci il soggetto è in grado di fornire facilmente una risposta; 3) Chiedere una cosa sola alla volta; 4) Riferirsi a comportamenti specifici e non in generale; 5) Evitare riferimenti alla frequenza, soprattutto se generici (cioè evitare le associazioni tra il comportamento e la sua frequenza); 6) Evitare alternative di risposta che facciano riferimento a più dimensioni; 7) Minimizzare la possibilità che il soggetto intuisca lo scopo dell’item; 8) Evitare le negazioni, sia a inizio frase che le negazioni multiple. È necessario formulare gli item al positivo; 9) Evitare le domande suggestive, le insinuazioni e le assunzioni implicite. Fiske (1971), propone un elenco dei possibili fattori distorcenti delle risposte a un test auto-somministrato in base al tipo di auto-descrizione utilizzato. Innanzitutto chi sviluppa il test ha il compito di creare le condizioni perché il soggetto abbia la massima probabilità di rispondere agli item con l’atteggiamento corretto. Una delle caratteristiche dei test che i soggetti tendono a considerare per prima è la lunghezza del test. È molto importante graduare il numero di item di un test in quanto ogni individuo possiede una propria soglia di “sopportazione” e di “attenzione” che influisce sull’attendibilità delle risposte agli item. Altro possibile fattore distorcente è l’effetto attrattore del punto centrale della scala, in quanto diverse ricerche hanno confermato come il punto centrale di una scala di valutazione venisse scelto con una frequenza maggiore rispetto agli altri punti, indipendentemente dal numero di punti della scala di risposta. Converse (1964), ha chiamato questi risultati falsi positivi, cioè persone che non hanno nessun atteggiamento ma che in base alle loro risposte danno l’idea di un atteggiamento intermedio. Una scala in cui viene utilizzato il punto centrale o intermedio è il Goal Attainment Scaling (GAS), che misura l’andamento e il monitoraggio della psicoterapia. Cronbach, invece, nota l’effetto della response sets, cioè la tendenza delle persone a dare risposte sistematiche come Si o No, indipendentemente dal contenuto dell’affermazione o dalla quantità di costrutto posseduta dall’item. Successivamente Jackson e Messick (1958), introdussero la distinzione fra: • Response styles, che corrispondono alle distorsioni sistematiche stabili nei soggetti; • Response set, che corrispondono a distorsioni sistematiche, ma limitate a particolari test, contenuti o contesti. Le due fonti principali di distorsione di questo tipo sono: • L’Acquiescenza, intesa come la tendenza a essere d’accordo con l’item indipendentemente dal contenuto. Broen e Wirt (1958), hanno considerato 15 diversi tipi di response set e la ricerca successiva ha mostrato come essi possono essere raggruppati in sette diverse categorie a partire dai due tipi fondamentali: Acquiescenza e Disacquiescenza. Alcuni autori hanno voluto considerare anche una terza opzione in cui i due tipi fondamentali si alternano chiamata Net Acquiescence. Una delle caratteristiche degli item che possono favorire l’acquiescenza è la similarità nella formulazione dell’item. Gli psicometristi sanno come item con formulazioni simili, anche se di contenuto diverso tendono ad avere varianze di errore in relazione tra di loro. Per poter contrastare l’acquiescenza è opportuno bilanciare gli item formulati positivamente con quelli formulati negativamente rispetto allo stesso concetto. Altri possibili effetti distorcenti possono essere: l’extreme response (tendenza a scegliere le categorie estreme di risposta indipendentemente dal contenuto dell’item); la response range (tendenza ad utilizzare una ristretta gamma di categorie ordinate di risposta attorno al punto medio); la midpoint responding (tendenza a scegliere sistematicamente il punteggio centrale della scala di risposta); la Noncontingent responding (tendenza a rispondere in modo inaccurato, casualmente, senza pensare). Quando si costruisce un test psicologico è opportuno utilizzare sia item con contenuto orientato nella direzione del costrutto (Item Straight), sia item orientati nella direzione opposta rispetto al costrutto (Item Reverse). Alcuni autori hanno individuato tre diverse categorie di item reverse: • Polar opposites, dove viene utilizzato un termine concettualmente contrario a quello impiegato nella versione Straight; • Negated regular, dove viene aggiunta una negazione alla qualità descritta nella versione Straight; • Negated polar opposites, che va ad affermare la stessa versione del formato straight ma con una doppia negazione. Lo scopo fondamentale degli item reverse è quello di contrastare l’acquiescenza fungendo da speed bump (dissuasore di velocità), cioè con lo scopo di rallentare la velocità di compilazione del test. Weijters (2009) ha individuato un altro fenomeno che si può verificare utilizzando questi tipi di item, ovvero l’effetto di prossimità (proximity effect) che consiste in correlazione sostanzialmente diverse in funzione della vicinanza all’interno del test di item che dovrebbero misurare lo stesso costrutto ma che possono essere straight o reverse. Altro effetto distorcente è quello della desiderabilità sociale, secondo cui i soggetti forniscono risposte non veritiere (rispetto alla propria persona), ma forniscono delle risposte che si avvicinano ai modi di comportarsi socialmente accettabili o desiderabili da tutti. Da questo effetto possono nascere i bias di: • Over-reporting, cioè frequenze o accordi maggiori della realtà per i comportamenti desiderabili; • Under-reporting, cioè frequenze o accordo minori della realtà per i comportamenti indesiderabili. Per poter ridurre questo effetto, è opportuno porre, una volta finito il test, in delle buste chiuse (urne), garantendo cosi l’anonimato o minimizzando la relazione tra il somministratore del test e il destinatario. I test di prestazione massima sono quelli che richiedono al soggetto di dare il meglio di sé e i cui item prevedono una risposta corretta. La prima cosa da domandarsi quando si vuole costruire un test di questo tipo è la formulazione della domanda che può essere: • Aperta, dove il soggetto deve produrre la risposta e richiede un processo di memoria di rievocazione (processo nel quale il soggetto deve ricordare verbalmente un contenuto). La rievocazione può essere di tre tipi: libera (quando si ricordano delle informazioni senza che siano fornite indicazioni particolari); guidata (che permette il recupero di informazioni mediante • Motivare il soggetto a impegnarsi e contemporaneamente rassicurarlo rispetto alle risposte che fornirà. Può incidere il layout, cioè la presentazione di un test che si presenta graficamente e quindi facile da comprendere; • Specificare che il test misura semplicemente un attributo del soggetto per cui quale che sia il risultato non sarà in nessun caso rappresentativo di quello che lui o lei complessivamente pensa di essere come persona; • Va specificato se esistono risposte giuste o sbagliate (per i test di prestazione massima, va indicata la risposta corretta, invece, per i test di prestazione tipica non esistono risposte corrette, ma solo risposte). • Indicare come verranno utilizzate le risposte del soggetto; • Vanno fornite informazioni sull’identità, la qualifica professionale e i contatti di chi somministra il test, in modo che il soggetto sappia a chi rivolgersi per ulteriori informazioni in futuro. • Prima degli item vanno inserite le istruzioni o la consegna del test, che specificano come deve essere compilato il test e in che modo vanno fornite le risposte. • La struttura degli item, dovrebbe essere logica e facile da seguire. CAPITOLO 4 LA VALUTAZIONE PRELIMINARE DEGLI ITEM DI UN TEST Dopo la costruzione degli item vi è la fase della valutazione di un test, che ha a che vedere principalmente con: • La validità intesa come la capacità di un test di misurare effettivamente ciò che si prefigge di misurare; • L’attendibilità intesa come la stabilità, l’accuratezza o la precisione di un test di misurare un comportamento in differenti contesti. Il passo successivo quindi consiste nella somministrazione della versione preliminare del test a un campione di almeno un centinaio di soggetti, in modo da raccogliere dati che consentano di verificare le caratteristiche psicometriche degli item e la precisione della misura prodotta dalla somma dei punteggi negli item. La valutazione preliminare di un test comprende principalmente la valutazione di due tipi di validità: • La validità di contenuto, intesa come il grado in cui gli elementi di uno strumento di assessment sono rilevanti e rappresentativi del costrutto target per un particolare scopo di valutazione. Secondo Messick (1993), la validità di contenuto è una caratteristica transitoria di un punteggio ottenuto da uno strumento di misurazione. Essa può variare con le inferenze che possono essere tratte dai dati della valutazione. La validità di contenuto cambia a seconda che si tratta di un test di rilevanza (intesa come l’appropriatezza degli elementi dello strumento per la valutazione del costrutto, oggetto del test) o un test di rappresentatività (cioè il grado in cui i suoi elementi sono rappresentativi delle varie sfaccettature del costrutto target e riescono a coprire in maniera adeguato il dominio di contenuto). La validità di contenuto può essere compromessa e quindi andare incontro all’errore, dall’omissione di un item di una particolare sfaccettatura o dalla costruzione di item che misurino un solo costrutto o sfaccettatura, a scapito degli altri. La valutazione di rilevanza e rappresentatività degli item dipende da una serie di fattori: • L’uso che si intende fare del test e le inferenze che si intende trarre dai dati ottenuti; • Il tipo di comportamento che si intende valutare; • Il parametro di interesse (frequenza, accordo ecc); • La popolazione target di riferimento; • Il dominio concettuale. Un’altra caratteristica della validità di contenuto è la sua natura dinamica, infatti, un test è sviluppato in un particolare contesto storico e in base agli aspetti teorici prevalenti di quel periodo; ma questi aspetti possono cambiare/evolversi nel tempo. Gli elementi specifici della validità di contenuto possono variare in base ai metodi di valutazione (per esempio scala o modalità di risposta psicofisiologica). Due altri importanti elementi di validità di contenuto sono: • La corrispondenza metodo-modalità (method-mode match) che è il grado in cui un particolare metodo di valutazione è appropriato per il costrutto target; • La corrispondenza metodo-funzione (method-function match), intesa come il grado in cui un particolare metodo di assessment è appropriato per gli scopi della valutazione. La validità di contenuto va valutata anche in base al grado in cui gli strumenti selezionati sono rilevanti per le caratteristiche dell’individuo da valutare e per gli scopi della valutazione. Più avanti la Fitzpatrick (1983) individua quattro concetti che a suo avviso sono componenti fondamenti della validità di contenuto: • Il campionamento del dominio, cioè un campionamento del contenuto o del comportamento. Questa caratteristica indica l’adeguatezza del test nel misurare ciò che si prefigge di misurare, o il grado con cui ogni item del test corrisponde a un dominio di contenuto teoricamente definito. Il campionamento del comportamento riguarda il grado con cui le risposte a un test costituiscono un campione adeguato dei comportamenti che il test intende misurare. • La rilevanza del dominio, che riguarda il contenuto del test (il fatto che i domini di contenuto che definiscono una misura siano rilevanti rispetto all’universo concettuale da valutare) e la rilevanza delle risposte (che corrisponde al grado in cui i comportamenti valutati attraverso il test sono rilevanti per l’universo di comportamenti che si desidera valutare); • La chiarezza del dominio che riguarda la chiarezza con cui i domini di contenuto di una misura vengono definiti. Lo scopo è quello di massimizzare la capacità del test di produrre risultati replicabili; • La qualità tecnica degli item, cioè la formulazione o il formato dell’item e la sua capacità di rappresentare il dominio di contenuto. Lo scopo della validazione di contenuto è quello di minimizzare l’errore di misurazione e aumentare la probabilità di ottenere adeguati indici di validità di costrutta. Molti autori hanno proposto diverse linee guida per la validazione di contenuto: • Il dominio di contenuto deve riferirsi a comportamenti con un significato universalmente condiviso; • Definire accuratamente il dominio e le sfaccettature del costrutto e sottoporle a validazione di contenuto prima di sviluppare gli altri elementi dello strumento di valutazione; • Sottoporre tutti gli elementi di uno strumento di assessment a validazione di contenuto; • Per la generazione iniziale degli item e degli altri elementi, considerare il parere della popolazione target e degli esperti; • Impiegare più giudici per la validità di contenuto e quantificare i giudizi utilizzando procedure quantitative, con lo scopo di ottenere una prospettiva esterna e autorevole che aiuti nell’individuazione degli item da eliminare e di quelli che richiedono un raffinamento; • Esaminare la rappresentazione proporzionale degli item; • Riportare i risultati della validazione di contenuto quando si pubblica un nuovo strumento di valutazione; • Utilizzare le successive analisi psicometriche per il raffinamento dello strumento di valutazione. La validazione di contenuto è applicabile a tutti i metodi di valutazione poiché riguarda le inferenze che sono basate sui dati ottenuti e ha implicazioni per la predizione del comportamento e per i modelli causali dei disturbi del comportamento, la diagnosi e le stime dell’efficacia dei trattamenti. Alcuni esempi di metodi per la valutazione della validità di contenuto è il Subject Matter Experts, cioè chiedere ad esperti di valutare quanto è rilevante ogni item; o la strategia di Lawshe, definita Content validity ratio (CVR), secondo cui l’item che riceve la valutazione massima da parte di più della metà dei giudici possiede un certo grado di validità di contenuto (maggiore è la proporzione di giudici oltre il 50% che assegnano alla valutazione massima dell’item, maggiore è la validità di contenuto dell’item). • Correlazione item-totale corretta (rit), cioè quanto ogni item contribuisce al punteggio totale nel test. Tale indice esprime quanto ogni item è rappresentativo dell’intera scala e quanto ogni singolo item è in grado di rappresentare, da solo, il costrutto misurato dall’insieme degli altri item contenuti nel test. Per calcolarla si utilizza la correlazione punto-biseriale. Il punteggio finale risulterà una somma pesata del numero di risposte corrette, errate e omesse. • Ridondanza intesa come il fatto che due o più item non devono essere ridonanti fra di loro, cioè devono avere diversi livelli di difficoltà e non lo stesso. L’analisi degli item per i test di prestazione tipica presenta anch’esso un percorso seguito da diversi punti: • Numero di casi validi intesi come delle osservazioni in cui il dato è presente e i cui valori sono compatibili con quelli possibili per quella variabile. La prima cosa da fare è controllare la fonte cartacea e verificare quale sia il valore effettivamente indicato. Prima di iniziare una qualunque analisi occorre effettuare la procedura di data cleaning (pulitura dei dati) che consente di individuare ed eliminare gli errori di inserimento e i conseguenti dati anomali. In questi tipi di test, possono essere presenti, anche se difficilmente (poiché non vi è una risposta corretta), dei dati mancanti (missing) che corrispondono alla non risposta del soggetto. Pertanto il numero dei casi validi dovrebbe corrispondere al numero di soggetti a cui il test è stato somministrato. Acock (2005), ha classificato i dati mancanti in quattro tipi: Missing per definizione della sottopopolazione (non tutti i soggetti fanno parte della popolazione target al quale il test è rivolto); Missing completely at random (cioè dati mancanti che sono distribuiti casualmente all’interno del database); Missing at random (che si verificano in quei casi in cui la probabilità che un dato sia mancante non dipende dalla caratteristica misurata dal test di cui l’item fa parte, ma da altre variabili); Missing not at random (cioè dati che mancano per fattori sistematici e non casuali). • Forma della distribuzione, cioè la caratteristica di un item di un test di produrre la maggiore variabilità di punteggi o di risposte possibile. Nel caso delle caratteristiche psicologiche e anche delle scienze umane, ci aspettiamo che la distribuzione di quella variabile sia a “campana” o normale (Gaussiana). • Punteggio minimo e massimo, fondamentali per poter stabilire anche il tipo di scala da utilizzare. • Indici di tendenza centrale, cioè calcolare la media, la moda e la mediana, sempre per poter stabilire la distribuzione del test; • Indici di dispersione che ci permettono di capire se le risposte sono sufficientemente disperse attorno al valore della media dei punteggi di un item o il punto mediano. A livello metrico calcoleremo la deviazione standard (DS); a livello ordinale individueremo i valori che corrispondo al primo e al terzo quartile (Q1 e Q3), calcolando poi anche la differenza interquartile (DI). • Indici di forma della distribuzione che ci dicono quanto la distribuzione è simmetrica o asimmetrica rispetto al punto mediano (skewness) e quanta varianza è dovuto a valori meno frequenti, rispetto a quelli che sono più vicini alla media (curtosi). • Discriminatività, che viene valutata nella stessa maniera degli item dei test di prestazione massima, anche se cambiano le procedure statistiche da utilizzare, cambiando la scala del test. Può essere valutata o mediante il valore mediano dell’indice di dimensione dell’effetto, oppure con la variante per item politomici proposta da Hankins dell’indice & di Ferguson (1949). Si possono utilizzare i test t per campioni indipendenti (info metrica); test di Mann- Whitney (info ordinale). • Correlazione item-totale corretta che presenta la stessa definizione precedente, ma viene calcolata con il coefficiente di correlazione prodotto- momento di Pearson ®. • Ridondanza cioè tenere conto di quegli item che mostrano lo stesso livello di affettività (termine coniato da Cristante per indicare quanto è probabile che l’alternativa di risposta corrispondente al costrutto da misurare venga scelta) e sono troppo correlati fra di loro. L’Attendibilità è la proprietà psicometrica relativa all’accuratezza con cui un test o una scala misura una certa variabile psicologica. I principali fattori che da soli o interagendo fra di loro possono produrre una misura più o meno attendibile sono: • Il somministratore del test, solitamente una persona, che con le sue caratteristiche fisiche e psicologiche può dare origine a molte fonti di errore o variabili imprevedibili. In ogni caso il somministratore del test dovrà possedere competenza, integrità e responsabilità sociale; • Il soggetto, destinatario del test psicologico che rappresenta una possibile fonte di molte distorsioni che dovrebbero essere contenute dalle caratteristiche del somministratore del test. • Lo strumento che deve presentarsi come valido e utile per lo scopo in base al quale viene utilizzato. Un fattore critico che influenza l’attendibilità è la lunghezza della somministrazione del test, che dipende dal numero di item utilizzati. • La situazione del test, che comprende le condizioni e le procedure di somministrazione e l’ambiente fisico nel quale il test viene somministrato. L’errore può essere sistematico (bias) che agisce in maniera costante in tutte le misurazioni distorcendo il punteggio sempre nella stessa direzione; oppure casuale, cioè che varia da prova a prova e da soggetto a soggetto in modo imprevedibile, in quanto è legato alle differenze individuali. È stato visto che la somma degli errori causali tende a zero ed è uguale a zero se si eseguono infinite misurazioni. L’errore causale viene anche chiamato variabile aleatoria (o stocastica) perché non può essere previsto. Essa può essere discreta (se assume solo un determinato valore) o continue (se possono assumere valori infiniti). Se ad ogni variabile aleatoria si associa il valore numerico della sua probabilità, si ottiene una distribuzione (funzione) di probabilità. Nella teoria classica dei test vi sono tre assunzioni fondamentali sull’errore: • L’errore di misurazione è casuale ed è distribuito normalmente con un valore atteso uguale a zero; • Punteggio vero ed errore di una misurazione sono indipendenti fra loro, per cui l’entità dell’errore non dipende dalla quantità di punteggio vero; • Gli errori di misurazione di due misurazioni diverse sono indipendenti fra loro, cioè l’errore di misurazione che distorce il punteggio in un item non è in relazione con quello che distorce il punteggio in un altro item. Se una di queste assunzioni non è rispettata, l’errore di misurazione è un bias (errore sistematico). Per poter stimare l’attendibilità si utilizza il coefficiente di attendibilità (rtt), cioè quel valore che esprime la precisione di uno strumento di misura. La formula ci permette di definire l’attendibilità come il rapporto tra varianza del punteggio vero e varianza del punteggio osservato. Se estraiamo la radice dal valore dell’attendibilità (in quanto è sempre un valore a potenza due), otteniamo l’indice di attendibilità che è la correlazione fra il punteggio osservato X e il punteggio vero V. La stima dell’attendibilità, comunque, dipenderà dall’approccio teorico utilizzato per valutare questa caratteristica psicometrica. I vari metodo per la valutazione dell’attendibilità possono essere suddivisi in base al numero di somministrazioni necessarie, due o una: • Il primo metodo di stima dell’attendibilità è basato sulla possibilità di avere a disposizione due versioni dello stesso test che siano parallele (psicometricamente sostituibili) permettendo una misurazione del costrutto equivalente o alternative nelle quali il coefficiente di attendibilità viene calcolato nello stesso modo delle forme parallele (attraverso il coefficiente di attendibilità per forme parallele) ma prende il nome di coefficiente di equivalenza. Se le varianze d’errore sono diverse ma i punteggi veri sono uguali, si parla di forme tau equivalenti e ciò implica che le medie dei punteggi osservati nei due test rimarranno uguali, ma non lo saranno più nelle deviazioni standard. Quando anche i punteggi veri sono diversi e differiscono per una costante uguale per tutti i soggetti si parla di forme essenzialmente tau equivalenti. I test congenerici non presentano nessuna delle conseguenze dei (1996), abbiamo capito che una delle componenti essenziali dell’unidimensionalità è la coerenza interna. In generale per valutare questo aspetto dovrebbe essere sufficiente analizzare la loro matrice di correlazione, cioè la rappresentazione delle relazioni tra gli item. La matrice di correlazione ci permette di verificare se le relazioni fra gli item sono tutte più o meno della stessa forza: se la risposta è si potremmo sostenere l’ipotesi dell’unidimensionalità della scala, altrimenti no. Per poter verificare l’omogeneità di un test, la maggior parte degli studiosi fa riferimento all’analisi fattoriale. Per comprendere l’analisi fattoriale, prima occorre avere presente il concetto di correlazione fra variabili, che si dicono correlate quando condividono una certa quota di variabilità. Per quantificare questa variabilità comune basta elevare al quadrato il coefficiente di correlazione; cosi facendo otteniamo il coefficiente di determinazione. L’analisi fattoriale si propone di individuare: • Raggruppamenti di variabili; • Quanti fattori sono necessari per riuscire a riassumere le relazioni fra le variabili; • Quali variabili appartengono a un fattore e qual è la forza del loro legame col fattore; • Un sistema di riferimento geometrico che permetta di descrivere le relazioni fra le variabili; • Il livello di ogni soggetto in ogni fattore. L’analisi fattoriale si suddivide in: • Analisi fattoriale esplorativa (AFE), che ha lo scopo di individuare quante e quali dimensioni latenti possono essere utilizzate per spiegare le correlazioni fra le variabili osservate; • Analisi fattoriale confermativa (AFC), che ci permette di specificare un preciso modello di misurazione in cui possiamo stabilire non solo il numero di fattori e la loro composizione in termini di variabili osservate, ma anche se i fattori sono correlati fra loro. L’analisi fattoriale esplorativa permette di riuscire a spiegare la varianza condivisa fra le variabili osservate in base a un numero ristretto di dimensioni latenti, dette fattori, che sono individuabili statisticamente, mediante la scomposizione della matrice di correlazione. Questa operazione permette di suddividere la varianza osservata di una variabile in: • Varianza comune, cioè le parti in comune con le altre variabili (item); • Varianza unica, che permette di stimare quanta varianza è specifica di un item. L’analisi fattore esplorativa (AFE) è basata su tre principi fondamentali: • Causazione fattoriale, che stabilisce che il pattern di correlazione fra le variabili osservate sia dovuto all’effetto causale di un certo numero di variabili non osservate (latenti o fattori). Questo principio (che fa riferimento al modello a indicatori riflessivi di Bollen e Lennox) ci porta ad etichettare la relazione fra gli indicatori, come una relazione spuria, cioè come una relazione di covariazione fra le variabili, ma senza che nessuna sia causa dell’altra. Per poter valutare se la relazione fra due o più variabili è spiegabile in base alla relazione che queste hanno con un’ulteriore variabile (variabile di controllo), si utilizza la correlazione parziale (in particolare il coefficiente di correlazione parziale rxy z). Il punto di partenza per una qualsiasi analisi fattoriale, rimane comunque la matrice di correlazione. Altri due modelli di causazione sono: il modello a indicatori formativi (dove gli indicatori sono la causa di questa correlazione) e il component model in cui il punteggio nella variabile latente viene derivato da un calcolo diretto a partire dai punteggi nelle variabili osservate. • Parsimonia, che afferma che fra due soluzioni che spiegano approssimativamente la stessa quota di varianza comune fra gli item, quella con il minor numero di fattori è da preferire. Questo principio rappresenta la necessità della scienza di riuscire a comprendere un numero infinito di fenomeni, con un numero di concetti o costrutti finito. • Struttura semplice, introdotto da Thurstone, che afferma che la matrice delle saturazioni (cioè l’insieme delle correlazioni tra i fattori e gli item), dovrebbe presentare una sola saturazione sostanziale su ogni riga e tutte le altre il più basse possibili, (poiché la saturazione essendo un coefficiente di correlazione, può assumere valori compresi fra -1 e +1). Ciascun item deve avere una saturazione maggiore su un fattore e più unicità negli altri fattori. La saturazione sostanziale deve essere intorno a .30-.40. Il numero di saturazioni sostanziali per ogni riga rappresenta la complessità fattoriale di una variabile e che corrisponde al numero di fattori con cui la variabile ha una relazione sufficientemente forte. Il termine sostanziale, in questo ambito, indica il fatto che il fattore è in grado di spiegare la quota prefissata di variabilità di una variabile. Se facciamo la somma di tutte le saturazioni al quadrato di un item nei fattori otteniamo una quantità, detta comunalità (h al quadrato), che è la quota di variabilità del punteggio nell’item spiegata dall’insieme di fattori. Invece la quota di variabilità del punteggio dell’item non spiegata dai fattori e che è uguale a uno meno la comunalità (che varia da 0 a 1), prende il nome di unicità (u al quadrato). Perché la soluzione di analisi fattoriale sia adeguata occorre, oltre al criterio di struttura semplice, che sia soddisfatta la condizione che ogni fattore sia saturato in modo sostanziale almeno da Tre item. Altra condizione per considerare adeguata l’analisi fattoriale è che le variabili (item) che saturano sullo stesso fattore devono condividere lo stesso significato teorico, mentre le variabili che saturano su fattori diversi devono far riferimento a costrutti concettualmente diversi. A livello statistico il primo modello di analisi fattoriale a essere specificato fu quello di Spearman, denominato modello a due fattori dell’intelligenza generale g dove i punteggio ai test di abilità mentale vengono spiegati da due fattori: una fattore comune di intelligenza generale (g) e un fattore specifico o caratteristico della singola prova. Le principali assunzioni statistiche dell’analisi fattoriale sono 3: 1. L’unica informazione nota è la varianza delle variabili osservate e le correlazioni fra queste; 2. La correlazione fra i Fattori Comuni e quelli Unici è uguale a zero; 3. La correlazione fra i Fattori Unici è uguale a zero. Le fasi dell’analisi fattoriale diverse: • La pianificazione della ricerca e raccolta dei dati, che consiste nel pianificare il pool di item da sottoporre ad analisi fattoriale, che devono necessariamente avere una solida base teorica e un adeguato grado di correlazione reciproca fra le variabili, che devono essere misurate in modo attendibile. A livello statistico un problema da considerare è quello della scala di misura delle variabili. L’analisi fattoriale può essere realizzata con qualunque tipo di dato, ma si deve tener conto che minore è la variabilità delle risposte agli item, più problematico sarà riuscire a individuare una buona soluzione fattoriale. La problematica della scala di misura è collegata al numero degli item, che dipende dal numero di costrutti che si intende misurare e dall’ampiezza concettuale del costrutto. Ultima problematica è quella relativo al numero di soggetti necessari per un analisi fattoriale esplorativa (AFE). Hogarty e collaboratori hanno individuato nella comunalità degli item e nel rapporto fra numero di item e numero di fattori, dei parametri chiave per stabilire il numero ottimale di soggetti. Se la comunalità è alta (maggiore di 60) è positivo; se invece le comunalità sono tutte comprese in una gamma non troppo ampia (intorno a 50), il numero di soggetti sale minimo di 100-200. Ovviamente tutto questo può avere uno scopo a patto che i dati forniti da questi soggetti sono tutti attendibili e testate in condizioni ambientali appropriate. • Esame delle caratteristiche psicometriche delle variabili e degli outlier con lo scopo sia di individuare item che contengono dati mancanti o distribuzioni estreme, sia per poter valutare la presenza di outlier, cioè casi con punteggi estremi o pattern di risposta incoerenti. Occorre verificare anche i casi di outlier multivariati, cioè che presentano combinazioni di punteggi “insoliti” relativamente all’intero insieme di item. Se vogliamo valutare, con punteggi di una scala Likert, la distanza del soggetto da tutti gli altri tenendo conto contemporaneamente di tutti i punteggi agli item, dobbiamo utilizzare la linearmente i punteggi nelle variabili osservate cercando di mantenere la maggior quota di informazione possibile. Il vantaggio di quest’ultimo tipo di analisi è quella di produrre una soluzione unica determinando univocamente il punteggio del soggetto nella variabile latente. Tutti i punteggi dei soggetti negli item vengono standardizzati, pesati in base a un coefficiente di scoring per la variabile latente in esame e infine vengono sommati. Può essere presente il fenomeno dell’indeterminatezza dei punteggi fattoriali, che si verifica quando vi è un numero virtualmente infinito di coefficienti di scoring che possono essere utilizzati per calcolare i punteggi nei fattori. Alcuni metodi di estrazione dei fattori possono essere: il Principal Axis Factoring (PAF); Maximum Likelihood (ML) (che consiste nella soluzione fattoriale che meglio riproduce la matrice di correlazione osservata stimando i valori delle saturazioni della popolazione che hanno la massima probabilità di produrre la matrice delle correlazioni campionaria); l’Unwighted Least Squares (ULS) (quando la distribuzione è libera) e la Weighted Leas Sqares Mean and Variance adjusted (WLSMV) (per le variabili dicotomiche). • La rotazione dei fattori che si propone di ruotare il sistema di riferimento degli assi fattoriale, mantenendo fisse le variabili, in modo da concentrare la loro varianza di queste su un solo fattore. La rotazione dei fattori rafforza la relazione fra variabili e fattori in modo che sia più chiaro quali variabili definiscono ogni fattore. Uno dei vantaggi della rotazione è che concentra la varianza condivisa da due o più variabili su un solo fattore, per cui il segno delle saturazioni rifletterà la direzione della correlazione fra queste. Dal punto di vista grafico quando la rotazione è basata sull’assunzione che l’angolo tra gli assi fattoriali fosse mantenuto fisso a 90 gradi, si parla di assi ortogonali. Quando, invece, l’angolo fra gli assi fattoriali non è più un angolo retto allora si parla di fattori obliqui. La rotazione obliqua ha come effetto fondamentale quello di introdurre nel modello fattoriale un ulteriore parametro, la correlazione fra i fattori (che è uguale al coseno dell’angolo formato dai fattori). Inoltre questa rotazione dà origine a due ulteriori matrici di saturazione: la structure (matrice che contiene le correlazioni fra la variabile e i fattori comuni) e la pattern matrix (seconda matrice che contiene i coefficienti di regressione delle variabili osservate sui fattori comuni, cioè i coefficienti che sintetizzano gli effetti diretti dei fattori sulle variabili osservate, considerando le relazioni fra i fattori stessi). Col passare del tempo sono stati ideati dei metodi analitici di rotazione che si basano su un qualche criterio statistico che permette non solo l’esecuzione della rotazione in maniera oggettiva, ma anche l’automatizzazione della procedura (in quanto viene svolta dal software come il QUARTIMAX, VARIMAX, EQUAMAXper le rotazioni ortogonali e PROMAX, DIRECT OBLIMIN per le rotazioni oblique). È importante è effettuare anche l’esame del livello di correlazione dei fattori che ci permette di valutare meglio la natura concettuale di quest’ultimi e può suggerire l’opportunità di eseguire un’ulteriore analisi fattoriale sulla matrice di correlazione dei fattori per verificare la presenza di fattori di secondo ordine. • Interpretazione dei fattori che consiste, , nel verificare se si è arrivati ad una soluzione di una struttura semplice (cioè controllare se ci sono item che saturano su più di un fattore o su nessuno; devono essere presenti almeno 3 item che saturano un fattore). Se il principio teorico è solido e i contenuti degli item sono attendibili e validi, gli indicatori dovrebbero saturare sui fattori attesi, in base alla teoria di riferimento. L’analisi fattoriale confermativa ci presenta dei criteri statistici e metodi che ci permettono di individuare fonti non misurabili di variabilità dei punteggi a un test. Sono stati ideati diversi metodi: il metodo multi-gruppo per l’analisi fattoriale (che ha il vantaggio di estrarre un certo numero di fattori già correlati tra di loro in una sola operazione); la rotazione di Procruste (che ci permette di specificare la composizione della matrice delle saturazioni, cioè il risultato finale atteso al termine della rotazione dei fattori). Un altro approccio di tipo confermativo, è quello dell’analisi delle strutture di covarianza, affermato da Karl Gustav Joreskog (1969), che permette, a livello statistico, di generare una matrice di covarianza attesa che viene confrontata con la matrice originaria. Quest’ultima analisi, può dar sviluppo a modelli di struttura più flessibili come i modelli bifattoriali, in cui la covariazione fra le variabili è spiegata da un fattore “generale” e da fattori di “gruppo” fra loro correlati. È possibile attuare anche un analisi fattoriale confermativa multi-gruppo, che permette di verificare l’invarianza di misurazione di un test, cioè se il test misura gli stessi costrutti nello stesso modo in gruppi diversi di soggetti. I modelli di misurazione, in generale, sono dei modelli che specificano le relazioni fra le variabili osservate e i costrutti. Se specifichiamo più modelli di misurazione e colleghiamo i costrutti fra di loro con relazioni di semplice correlazione o di causalità formiamo i modelli di equazioni strutturali, che specificano le relazioni fra le variabili latenti. Le analisi di strutture di covarianza non permettono però di verificare la “verità” del modello, ma solo di supportarlo empiricamente. Recentemente sono emersi anche i modelli di equazioni strutturali esplorativi (MESE) di Asparouhov e Muthèn (2009), che sono nati dalla necessità di risolvere l’incoerenza fra i risultati di un analisi fattoriale esplorativa, che produce una struttura semplice. Tutto questo però non ci dice se un test psicologico è valido, cioè se misura effettivamente ciò che si prefigge di misurare. Per poter dimostrare che un test è in grado di predire un comportamento osservabile di un individuo occorre stabilire dei criteri o validità: • Validità di costrutto che ci informa di quanto il test è connesso al costrutto che intende misurare; cioè quanto bene il test svolge il compito per cui è utilizzato. Secondo Messick (1995) essa contiene altri 6 tipi di validità: validità di contenuto (valutazione della rilevanza del contenuto e della sua rappresentatività); validità sostanziale (che riguarda le giustificazioni teoriche fornite per spiegare la coerenza delle risposte ai vari item del test e verificare che i processi definiti a livello teorico sono effettivamente rappresentati dagli item del test); validità strutturale (che riguarda la corrispondenza della struttura del test con la struttura del dominio concettuale del costrutto); generalizzabilità (che esamina il grado in cui le proprietà del punteggio e le sue interpretazioni possono essere generalizzate ad altri gruppi di soggetti o contesti); validità esterna (che riguarda la validità convergente che è dimostrata dalle associazioni fra procedure di misurazione indipendenti progettate per misurare lo stesso costrutto e la validità discriminante che impone che la misura del costrutto mostri correlazioni trascurabili con misure di costrutti concettualmente diversi da quello in esame); validità consequenziale (che esamina il valore delle implicazioni dell’interpretazione del punteggio come base per le decisioni da prendere sul soggetto e le effettive e potenziali conseguenze di queste decisioni). Altri tipi di validità importanti sono: la validità incrementale, che consiste nella capacità di un test di riuscire a migliorare la predizione di un criterio ottenibile in base ai punteggi in altri test e la validità di criterio che ha lo scopo di mostrare come il punteggio del test permetta di predire l’appartenenza a un gruppo di un soggetto o il punteggio del soggetto in una variabile criterio scelta. Per poter valutare la validità di criterio basta solitamente mostrare che il punteggio del test e quello nel criterio sono correlati. A questo scopo occorre individuare un criterio adeguato sia sul piano teorico, sia sul piano della misurazione in modo tale da portare a casa dei risultati attendibili e precisi. Per poter invece valutare la validità di costrutto occorre utilizzare la matrice multi-tratto multi-metodo (MTMM) che ci permette di arrivare al medesimo risultato utilizzando metodi diversi. La diagonale principale della matrice è detta diagonale dell’attendibilità e rappresenta la quota di misurazione dovuta al punteggio vero. Questo metodo si basa su tre capisaldi: • - Tutte le misure sono unità di tratto; • Occorre verificare la validità convergente e discriminante; • Occorre prendere in considerazione la varianza dovuta al metodo, cioè quella quota di variabilità che due misure condividono solo perché sono ottenute con lo stesso procedimento. La validità di costrutto viene valutata anche mediante un approccio definito multi- tratto mono-metodo, in cui si tendono a utilizzare batterie di test che comprendano almeno una misura dello stesso costrutto e almeno una misura di un altro costrutto sempre nella stessa rete nomologica di quello in esame. Infine abbiamo la validità nomologica intesa come la dimostrazione di ciò che è effettivamente il costrutto, cioè Gli intervalli di fiducia permettono di individuare la gamma di punteggi osservati che si può ottenere, con una probabilità prefissata. I punteggi ovviamente possono variare in base a una quota di errore casuale. Un’altra applicazione utile dell’errore standard di misurazione riguarda la possibilità di eseguire confronti fra i punteggi ottenuti da due diversi soggetti allo stesso test, dallo stesso soggetto a due test diversi o dallo stesso soggetto allo stesso test in due momenti diversi. Un ultimo aspetto critico dei punteggi ai test è la loro capacità di discriminare fra due o più gruppi di soggetti. I punteggi di riferimento nella popolazione prendono il nome di punteggi normativi o norme e tali valori corrispondono alle statistiche descrittive dei punteggi al test che sono state calcolate sul campione di standardizzazione o campione normativo. Il punteggio normativo, però non equivale al punteggio “normale” ma ci spiega quanto la prestazione di una persona si allontana dalla popolazione di riferimento. Per poter eseguire correttamente la standardizzazione di un test è necessario seguire 4 fasi: • Identificare la popolazione target, cioè trovare un campione o gruppo normativo. Il campione normativo è quel gruppo di soggetti le cui risposte al test vengono prese come paragone per valutare le risposte di un qualunque soggetto a cui verrebbe somministrato il test. Tale campione deve essere sufficientemente ampio per poter essere rappresentativo di una determinata popolazione-target. La tipologia del campione varia a seconda del costrutto teorico che si intende quantificare. • Determinare il metodo di campionamento e l’ampiezza campionaria adeguata e raccogliere i dati. Innanzitutto, il test deve essere somministrato a tutti i soggetti del campione normativo nelle stesse identiche condizioni. Per poter calcolare il numero di soggetti adeguati per un campione normativo bisogna ottenere la stima della varianza della popolazione, il margine di errore (ME), intesa come la precisione della stima che possiamo raggiungere con il campione a disposizione, e il livello di fiducia che specifica la probabilità con la quale desideriamo che venga raggiunto il margine di errore. Una volta stabilita l’ampiezza campionaria occorre raccogliere i dati. La raccolta dei dati deve avvenire in condizioni di somministrazione standard. • Calcolare gli indicatori statistici e produrre le norme, volta a stabilire se la distribuzione dei punteggi al test può essere considerata sostanzialmente normale oppure no. La prima cosa da fare è calcolare le statistiche descrittive, realizzare una tavola delle frequenza dei punteggi al test e tracciare il relativo istogramma. Gli indicatori statistici possono essere ottenuti mediante la standardizzazione dei punteggi che può essere effettuata in due modi: • Standardizzazione mediante punteggi standard che avviene trasformando i punteggi grezzi in punteggi standard. La normalizzazione dei punteggi standard consiste nel far corrispondere il punto z al rango percentile del punteggio. Tutta la procedura è realizzabile con il software SPSS. Un problema pratico è il fatto che i punteggi attorno alla media della popolazione sono prossimi a zero e quello sotto la media sono negativi. Per poter risolvere questo problema William McCall ha proposto una trasformazione dei punteggi z in una nuova distribuzione che abbia media 50 e una deviazione standard di 10. Tale distribuzione è nota come distribuzione T. I punti T si ottengono moltiplicando il punto z per 10 e aggiungendo 50. All’interno di un manuale del test di solito vengono riportate le tavole di conversione, che sono tavole che consentono di convertire immediatamente il punteggio grezzo, in punteggi standard. Quando si vuole fare il confronto fra punteggi ottenuti da soggetti diversi su test diversi ma che misurano lo stesso costrutto. In questo caso si può eseguire il test equating che consente di stabilire un’equivalenza tra i punteggi ottenuti nei test che vengono confrontati. • Standardizzazione mediante ranghi percentili che ci permette di individuare le posizioni dei punteggi nella distribuzione delle frequenze. Essa fa uso dell’informazione ordinale presente nei dati, cioè se un punteggio è maggiore, minore o uguale a un altro campione normativo. Oltre alle frequenze possono essere utilizzate le bande stanine cioè delle normalizzazioni di punteggi che prevedono una percentuale variabile di soggetti all’interno di ogni banda, per poter in qualche modo “simulare” una distribuzione normale. Essa ha il vantaggio di permettere il riferimento a una scala comune per test diversi, quando la distribuzione dei punteggi non è normale. I percentili rappresentano la posizione relativa del punteggio di un soggetto rispetto al campione normativo in una scala ideale che va da 1 a 100, ma non danno alcuna informazione sull’entità della differenza fra due punteggi. È necessario anche stratificare il campione tenendo conto delle caratteristiche socio-demografiche, per poter indagare in maniera attendibile la relazione fra le variabili socio-demografiche e i punteggi al test. Sono quindi necessarie delle norme differenziate in base alle variabili socio-demografiche. Inoltre bisogna tenere in considerazione quello che gli studiosi chiamano Differential Item Functioning, ovvero il funzionamento degli item in base ad un particolare gruppo di soggetti e calcolare delle norme specifiche per ogni campione o sottocampione. • Manuale del test, che rappresenta una pubblicazione che contiene tutte le informazioni necessarie per un uso corretto dello strumento che abbiamo sviluppato. Il manuale dovrebbe contenere: • La definizione del costrutto e la rassegna della letteratura scientifica del costrutto; • Le procedure di sviluppo degli item, ovvero la descrizione degli item e come è stata valutata la validità di contenuto e di facciata; • La descrizione degli studi di validazione, importante per la descrizione degli obiettivi, ipotesi, metodi e risultati degli studi che sono stati svolti per verificare le proprietà psicometriche del test come la struttura fattoriale utilizzata (attendibilità e validità); • Norme del test, che contiene la descrizione della procedura standardizzata di somministrazione del test, la procedura di scoring, la standardizzazione dei punteggi e la descrizione dei profili prototipici dei punteggi nelle sottoscale, nel caso il test produca più di un punteggio; devono essere presenti anche le informazioni sulla raccolta dei dati del campione normativo, cosi come la sua ampiezza e rappresentatività. Infine, il manuale del test dovrebbe fornire informazioni sull’uso improprio del test rispetto ai soggetti ai quali viene somministrato e agli scopi della somministrazione al fine di utilizzare in modo appropriato lo strumento. Conoscendo l’attendibilità di un test e conoscendo la deviazione standard del test, possiamo calcolare l’errore standard di misura e usarlo per fare delle inferenze sui punteggi al test. Conoscendo l’errore standard possiamo costruire un intervallo di punteggi intorno al punteggio osservato, in cui è molto probabile che cada il vero punteggio del soggetto. SEM consente valutazioni circa la precisione del punteggio al test dei soggetti. Per poter sapere fino a che punto i nostri punteggi sono attendibili, calcoliamo nel caso di un gruppo di testati, il coefficiente di affidabilità, mentre nelle singole persone l’errore standard di misura. APPUNTI: L’errore standard di misurazione è l’oscillazione presente nel punteggio grezzo del soggetto e ci permette di sapere la precisione di un item. Ci dice quanto varia l’errore nella distribuzione. In base all’errore standard noi possiamo fare delle inferenze sul singolo soggetto. Il livello di fiducia viene svolto togliendo un tot di percentuale dall’errore standard di misurazione, in modo tale da capire che il punteggio vero non sia dovuto al caso o da altri fattori disturbanti. Il punteggio standard (Z) serve a convertire il punteggio grezzo in una nuova scala di misura. Per verificare la measurement invariance (cioè se i due gruppi sono omogenei dal punti di vista fattoriale) utilizziamo l’analisi fattoriale confermativa multi-gruppo.