Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

misurare mediante i test, Appunti di Psicometria

appunti presi in classe e integrati con il libro "teorie e tecniche dei test" scritto dalla professoressa stessa.

Tipologia: Appunti

2021/2022

In vendita dal 05/12/2022

elisa_brizi
elisa_brizi 🇮🇹

4.6

(13)

26 documenti

1 / 25

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica misurare mediante i test e più Appunti in PDF di Psicometria solo su Docsity! 2. MISURARE MEDIANTE I TEST CONCETTO DI MISURA Per le misure fisiche o estensive (es: peso, lunghezza, ecc) misurare significa rappresentare eventi/oggetti mediante numeri, e cioè stabilire una CORRISPONDENZA tra certe proprietà degli oggetti/eventi. Queste grandezze sono suscettibili di essere scomposte in parti direttamente misurabili perché dotate di unità campione sulle quali si può operare in termini additivi. Le misure psicologiche o intensive sono, invece, basate su misure indirette, cioè non direttamente osservabili. Si tratta di VARIABILI LATENTI (o costrutti) che vengono inferite dai comportamenti che si possono osservare e che permettono di rilevare la caratteristica latente attraverso un processo di scalini sulla base di qualche teoria del comportamento dell’individuo o del gruppo.  i costrutti psicologici in psicologia sono delle misure indirette. L’obiettivo del processo di misurazione in psicologia è dunque quello di definire dei criteri che rendano possibile la rappresentazione delle DIFFERENZE PSICOLOGICHE INDIVIDUALI mediante differenze di tipo numerico-quantitativo. Tutte le osservazioni di un uomo o di un animale conducono a 4 tipi di misure: o LATENZA intervallo di tempo che intercorre fra uno stimolo e il verificarsi di uno specifico evento. o FREQUENZA  numero delle volte che si presenta un determinato evento. o DURATA  quantità di tempo in cui un singolo comportamento viene mantenuto (es: durata di un gioco). o INTENSITA’  più difficile da definire e misurare; in molti test psicologici la frequenza del comportamento viene assunta come indicatore di intensità del comportamento stesso. PROPRIETÀ DEI NUMERI E SCALE DI MISURA Le proprietà dei numeri sono 4: 1. I numeri hanno nomi diversi (uno, due, cinque ecc..) NOMINARE 2. I numeri possono essere ordinati (1<2<3<4) ORDINARE 3. I numeri possono essere sommati e sottratti tra di loro  SOMMARE/SOTTRARRE 4. I numeri possono essere moltiplicati e divisi tra di loro.  MOLTIPLICARE/DIVIDERE La scala di misura indica quale proprietà dei numeri può essere utilizzata per rappresentare l’evento. Stevens definì differenti regole di corrispondenza a seconda delle caratteristiche della variabile studiata. Queste regole hanno permesso di identificare 4 SCALE DI MISURA, anche definiti LIVELLI DI MISURAZIONE, che possono essere ordinate gerarchicamente secondo il loro livello di complessità dalla più semplice (scala nominale) alla più complessa (scala a rapporti equivalenti): ogni scala di misurazione superiore incorpora le proprietà della scala precedente e ne aggiunge altre. o SCALA NOMINALE: scala di misura di livello più basso e semplice. Proprietà di nominare i numeri (denominazione o categorizzazione). I numeri non servono ad altro che a identificare la categoria di appartenenza di un oggetto. Le operazioni matematiche possibili sono il conteggio delle frequenze per ogni categoria. Le procedure statistiche applicabili sono i test non parametrici che si basano sul conteggio delle frequenze. o SCALA ORDINALE: proprietà di nominare e ordinare i numeri, quindi i numeri non solo servono ad etichettare ma anche a ordinare i soggetti o gli eventi secondo intensità o grandezza di una loro determinata caratteristica. Permette una classifica, una graduatoria, ma senza possibilità di sapere quanto le categorie differiscano tra di loro perché non dispone di un’unità di misura stabile lungo tutto il continuum della graduatoria. Le operazioni matematiche possibili sono il conteggio delle frequenze per ogni categoria. Le procedure statistiche applicabili sono i test non parametrici che si basano sul conteggio delle frequenze e sull’ordinamento o rango delle categorie. o SCALA A INTERVALLI EQUIVALENTI: proprietà di nominare, ordinare e sommare/sottrarre i numeri. Non si hanno più categorie ma valori numerici, in quanto essa utilizza la proprietà dei numeri di poter essere sommati/sottratti tra loro. Parte da uno zero arbitrario, una misura convenzionale che non corrisponde all’assenza della variabile. Le operazioni matematiche possibili sono l’addizione e la sottrazione, ma non è possibile stabilire rapporti diretti tra le misure. Le procedure statistiche applicabili sono i test parametrici. o SCALE A RAPPORTI EQUIVALENTI: proprietà di nominare, ordinare, sommare/sottrarre e moltiplicare/dividere. Il numero rappresenta realmente la quantità vera e propria. Lo zero indica assenza della caratteristica. Le operazioni matematiche possibili sono la moltiplicazione e la divisione. Le procedure statistiche applicabili sono i test parametrici. La scala più usata in psicologia è quella a intervalli equivalenti. Senza la possibilità di stabilire uno zero assoluto si è visto che non si può parlare di vera e propria quantità di caratteristica misurata. SCALA NOMINALE SCALA ORDINALE SCALA A INTERVALLI EQUIVALENTI SCALA A RAPPORTI EQUIVALENTI OPERAZIONI Frequenze Ordinamento Distanza Rapporti STATISTICHE Frequenze, moda Mediana, quantili Media aritmetica, varianza Media geometrica potenziali: ne fanno parte quattro tipologie di test (di livello , di profitto, di sviluppo, attitudinali) in cui il soggetto per rispondere correttamente deve impegnarsi al massimo delle sue possibilità. 1. TEST DI LIVELLO: sono rappresentati da batterie di test che includono un’ampia serie di prove che richiedono il ricorso ad abilità cognitive. Tutte le prove sono intercorrelate in una certa misura e danno origine a un punteggio totale e/o a punteggi parziali, secondo le caratteristiche e la composizione del test usato. Tali test hanno finalità essenzialmente descrittive. Ne fanno parte i test di intelligenza e i test di livello psicomotorio e psicosociale. 2. TEST DI SVILUIPPO: fanno riferimento a uno specifico modello teorico che guida l’interpretazione dei risultati ottenuti dal soggetto in esame, di essi fanno parte, ad esempio, i test che valutano lo sviluppo cognitivo facendo riferimento alla teoria piagettiana. 3. TEST DI PROFITTO O DI RENDIMENTO: misurano il livello di competenza e di conoscenza raggiunto dopo l’apprendimento di informazioni o dopo un certo periodo lavorativo. 4. TEST ATTITUDINALI: includono una serie ristretta di prove cognitive (memoria, attenzione, ragionamento, linguaggio, motricità) selezionate sulla base della loro relazione con un tipo di mansione o compito specifico. Esistono due tipi di test attitudinali: quelli che valutano una singola attitudine e batterie di test di multiple attitudini. Questi test sono spesso utilizzati per predire il successo di un lavoro, di corsi di formazione, ecc. Tra i più comuni vi sono i test d’ammissione ai corsi di laurea. In genere in questo contesto il test attitudinale contiene prove di vocabolario, di comprensione di testi scritti, di ragionamento matematico. La distinzione tra test di profitto e test attitudinali è più una distinzione di forma che di contenuto. I test non cognitivi sono anche detti test di tipica performance in cui al soggetto è richiesto di descrivere in che misura un certo tipo di comportamento lo caratterizza, valutano le preferenze di un individuo, i suoi comportamenti più frequenti, le abitudini e i sentimenti. Nei test di tipica performance un esaminato può anche mentire o simulare un comportamento che in realtà non gli appartiene. Di questi test ne fanno parte: test che conduce a un punteggio riassun i o totale basato sulle ri poste dell’esaminato a un campione di item eterogenei. Naturalmente questi tipi di test possono fornire anche un profilo più peculiare e dettagliato dei punteggi riferito a delle sotto-dimensioni. Esistono vari tipi di test di intelligenza che riflettono diverse definizioni e teorie sull’intelligenza, per cui uno stesso soggetto potrebbe ottenere punteggi diversi in differenti test. 1. TEST DI PERSONALITA’: mirano a fornire un profilo psicologico di un individuo descrivendone aspetti diversi della personalità, più o meno patologici, che aiutano a prevedere il comportamento futuro dell’individuo. Si distinguono in test proiettivi (costituiti da stimoli ambigui più o meno strutturati, in cui si presuppone che il soggetto rifletta su di essi e li interpreti in base ai suoi impulsi e sentimenti) e non proiettivi (gli inventari e tutti i questionari di personalità self-report che indagano le caratteristiche personologiche del soggetto partendo da stimoli definiti e standardizzati che richiedono risposte limitate, alcuni di questi strumenti valutano un’ampia gamma di aree della personalità, altri si basano su un’unica dimensione). 2. TEST DI ATTEGGIAMENTO E OPINIONI: in genere sono scale costituite da insiemi di affermazioni rispetto alle quali il soggetto deve fornire il suo grado di assenso o dissenso. L’ipotesi di fondo è che sia possibile misurare l’atteggiamento di un soggetto rispetto a un dato argomento, lungo un continuum che va dalla favorevolezza alla sfavorevolezza. 3. TEST DI INTERESSI: misurano la preferenza di un individuo per alcune attività o argomenti, sono utilizzati anche per determinare le scelte occupazionali. Questi test si basano sull’assunto che modelli di interessi determinano e predicano il livello di soddisfazione sul lavoro. importante è anche la distinzione tra test individuali e test collettivi. Molti dei più importanti test psicologici sono ad esclusiva somministrazione individuale, rispetto ai test collettivi, di permettere all’esaminatore l’osservazione del livello motivazionale dell’esaminato e la valutazione dell’effetto sui punteggi al test di altri fattori, come ad esempio il livello di ansietà o di impulsività. Tale tipo di somministrazione pone a stretto contatto il soggetto e lo psicologo; il somministratore di test psicologici deve avere una certa esperienza soprattutto in ambito clinico nella somministrazione individuale ciò diventa più necessario. RISPOSTE AI TEST Si definiscono risposte alfa le risposte indicative di un certo attributo oggetto della misurazione. Nei test cognitivi le alfa sono le risposte corrette e le beta sono le risposte errate, mentre nei test non cognitivi la questione è più complessa, poiché non essendoci risposte giuste o sbagliate, il concetto di risposta alfa è più aleatorio. Lo strumento che si usa per la correzione di un test è detto chiave, o più comunemente, griglia di correzione, che può essere perforata, trasparente o scoring informatizzata. Secondo la TCT, Teoria Classica dei Test, dalla somma delle risposte date a un test emerge un punteggio totale che è definito “punteggio grezzo”. Misurare significa confrontare mediante il sistema numerico due entità o grandezze dello stesso genere, di cui una funge da termine di riferimento e viene detta “unità di misura”. Parlare di misurazione senza specificare l’unità di misura non ha alcun senso. Poiché in psicologia le unità di misura non sono direttamente osservabili (ma sono variabili latenti) è più corretto utilizzare il termine di rilevazione: la rilevazione viene messa in atto tramite lo scaling, che può essere unidimensionale o multidimensionale. Lo scaling si effettua tramite la costruzione di una scala, seguita dall’attribuzione di un numero alla risposta del soggetto; tale numero corrisponde al grado in cui il soggetto possiede la proprietà che si sta rilevando. Il processo di scaling consente di differenziare e ordinare, lungo un continuum, oggetti/eventi relativamente ad una caratteristica rilevata. Solitamente si è interessati a conoscere il punteggio ottenuto dal soggetto non tanto sul singolo item, ma sull’insieme degli item che misurano un tratto, un atteggiamento, un’abilità, ecc. in questo senso, le SCALE MULTI-ITEM sono più attendibili e valide. Gli item possono essere indicatori riflessivi (gli indicatori riflettono il costrutto) o, viceversa, formativi (gli indicatori formano il costrutto). La maggior parte dei test psicologici sono costruiti tramite l’uso di item riflessivi. È importante studiare la dimensionalità degli item che compongono una scala: unidimensionale (tutti gli item misurano un unico costrutto latente) o multidimensionale (gruppi di item misurano diversi costrutti latenti). Gli insiemi di item vengono combinati tra loro, sommandoli o facendo la media, ottenendo così il punteggio grezzo. Il punteggio grezzo di per sé non ha significato se non è riportato in una scala, perciò è necessaria la standardizzazione delle misure (media e deviazione standard di una distribuzione di punteggi) per ottenere dei punteggi standardizzati. Standardizzare significa riferire la misura (trasformandola) a una scala standard di cui sono noti i parametri. La scala più usata nella ricerca, anche quella psicologica, è quella standard o Z, che ha media =0 e varianza = 1 (e ds=1). Per passare dalla scala originaria in punti X a quella standardizzata, si trasformano tutti i punteggi grezzi in punti Z con la formula: Z= X−μ σ La curva normale è quella cui più si avvicina la distribuzione di frequenza della maggior parte delle variabili psicologiche se misurate su grandi campioni. Essa ha alcune importanti proprietà: è simmetrica, asintotica e unimodale. Ma la caratteristica fondamentale, ai fini della sua utilizzazione è che data un’ordinata traccia sulla curva a una certa distanza dalla media, è di nota la porzione di area ATTENDIBILITÀ L’attendibilità (o affidabilità, fedeltà) di un test può essere definita come l’accordo tra tentativi indipendenti di misurare lo stesso costrutto teorico; perciò, un buon test, deve essere costruito in modo tale da consentire un grado sufficiente di affidabilità della misura. L’attendibilità è una proprietà di un test o una scala e riguarda l’accuratezza con cui un test misura un certo costrutto psicologico, producendo sostanzialmente gli stessi risultati a fronte dell’errore di misurazione. Il coefficiente di attendibilità (rTT) è un numero che esprime la precisione di uno strumento di misura ed è inversamente proporzionale all’errore presente nella misurazione stessa. L’rTT varia tra 0 e 1: se è 0 l’errore è massimo, se è 1 l’errore non è presente. σ x 2 = ∑(x−x)2 n σ x 2 = ∑(v−e)2 n σ x 2 = ∑(v−e)2 n = ∑ v2 n + ∑ e2 n + 2∑ ve n Considerando le proprietà delle varianze, la formula diventa: σ x 2 =σV 2 +σ E 2 σ X 2 =σV 2 +σE 2 +2σ VE Poiché sappiamo che 2σVE = 0, la formula diventa: 1= σ V 2 σ X 2 + σ E 2 σ X 2 → σV 2 σ X 2 =1− σ E 2 σ X 2 Dividendo tutto per σ X 2 , la formula diventa σV 2 σ X 2 =1− σ E 2 σ X 2 poiché definiamo che rtt= σV 2 σ X 2 abbiamo rtt=1− σ E 2 σ X 2 Da questa formula si evince che minore sarà la varianza d’errore, maggiore sarà l’attendibilità e quindi la precisione dello strumento. L’’indice di attendibilità di un test è rappresentato dalla correlazione tra punteggio osservato e punteggio vero: r XV= ∑ XV nσ Xσ V La relazione tra errore e attendibilità si comprende meglio considerando la varianza del punteggio osservato X, che si calcola con la somma del quadrato degli scarti della media, diviso n. - Somma dei prodotti degli scarti dalla rispettiva media dei punteggi osservati e dei punteggi veri; - Prodotto tra un numero di osservazioni e le deviazioni standard del punteggio osservato e del punteggio vero. È possibile dimostrare matematicamente che tale correlazione è uguale alla radice quadratica del coefficiente di attendibilità: r XV= σV σ X =√rtt STIME EMPIRICHE DELL’ATTENDIBILITÀ Ci sono diversi metodi per stime di coefficienti di attendiblità diversi, specifci e non intercambiabili.  Metodo delle forme parallele: Si tratta di un metodo non più utilizzato ma fondamentale per i metodi successivi. Consiste nella riproposizione, a breve distanza di tempo e agli stessi soggetti, di due test diversi (con item diversi) ma equivalenti (che misurano lo stesso costrutto, hanno lo stesso numero di item, la stessa media, varianza e intercorrelazione con gli item). L’rTT è la correlazione tra le due distribuzioni di punteggi che si ottengono nelle due somministrazioni delle due forme parallele di test. Quindi, l’rTT è un indice informativo dell’interscambiabilità delle due forme equivalenti: più è alto, più sono interscambiabili.  Limiti: non può essere usato quando la variabile psicologica misurata cambia in poco tempo, inoltre fornisce dei coefficienti di attendibilità più bassi rispetto agli altri metodi in quanto è difficile ottenere due forme perfettamente parallele di test.  Metodo del test-retest: Consiste in due somministrazioni dello stesso test agli stessi soggetti a una certa distanza di tempo. L’rTT è la correlazione tra le due distribuzioni di punteggi che si ottengono nelle due somministrazioni dello stesso test. Quindi, l’rTT è un indice informativo della stabilità della misura nel tempo: più è alto, più è stabile nel tempo.  Limiti: un intervallo a breve tempo può risentire dell’effetto d’apprendimento della prova (quindi l’rTT è più alto a causa del ricordo). Se invece l’intervallo è più ampio la variabile misurata può aver subito un cambiamento. A tal proposito, Nunnullay e Bernstein ritengono che intervalli di due settimane di tempo siano adeguate nella la maggior parte dei casi. Metodo dello split-half: Consiste nella divisione a metà di un test e nel confronto tra le due metà. L’rTT è la correlazione delle prestazioni degli stessi soggetti alle due metà del test.  Limiti: si basa sull’assunzione che le due metà hanno la stessa lunghezza e analoghe caratteristiche psicometriche, quindi frome parallele. In tal caso, questa corrleazione sottostima l’attendibilità del test, ma questa sottostima può essere rivalutata, e quindi corretta, tramite la formula profetica di Spearman- Brown: r XX= nr 1+ (n−1 ) r Elevando al quadrato il nuovo coefficiente di correlazione otteniamo il coefficiente di determinazione, mentre facendone la radice otteniamo il coefficiente di attendibilità. Altro limite: è necessario dividere il test in modo oculato, ad esempio correlando gli item dispari con i pari, determinando così una certa arbitrarietà della stima ottenuta, in quanto si possono avere tante stime differenti quante sono le possibili suddivisioni a metà del test.  Metodo della coerenza interna: Consiste nello studio del grado di accordo tra più misure (parallele) dello stesso costrutto teorico (cioè tra gli item che compongono il test): stiamo quindi utilizzando l’informazione contenuta nell’item. Affinché ci sia una buona coerenza interna, è necessario che gli item siano adeguatamente correlati tra loro: maggiore è l’intercorrelazione tra gli item, maggiore darà la loro omogeneità, e più sarà l’attendibilità del test. In questo caso, l’attendibilità esprime il grado di interscambiabilità tra gli item. Formula KR-20 di Kruder e Richardson per item dicotomici: KR20= n n−1 [1−∑ j=1 n p j(1−p j) σ X 2 ] r XX=stimadel coefficiente di attendibilità r=coefficiente dicorrelazione tra≤due metà n=numerodelle parti∈cui il test è statodiviso N= numero di item P j = proporzione di SS che rispondono correttamente agli item j (1−P j) = proporzione di SS che rispondono in modo errato all’item j σ 2x = varianza totale del test. Tuttavia, potrebbe ‘’mascherare’’ la multidimensionalità di un insieme di item, soprattutto quando i costrutti sono (molto) correlati tra loro ma sufficientemente distinti. Esempio di non unidimensionalità, quando un’elevata alpha puà ingannare: L’item 3 è condiviso sia dal costrutto A che dal costrutto B, nonostante essi siano diversi e distinti. Esempio pratico: Spesso queste due caratteristiche vanno di pari passo (chi è ansioso è anche depresso), ma non per forza (chi è ansioso non è depresso). Questi, sono quindi due tratti correlati ma distinti. L’item “non dormo” è ambiguo, perché è molto correlato anche con la depressione, andando bene sia per uno che per l’altro, e con l’alpha di Cronbach non si vedrebbe, inducendoci l’errore. Un’elevata intercorrelazione tra gli item in genere produce un’alpha soddisfacentemente elevata (con test molto lunghi basta anche un’intercorrelazione moderata). costrutto A Item 1 item 2 item 3 Item 4 Item 5 costrutto A Item 1 item 2 item 3 costrutto B Item 4 item 5 item 6 costrutto A Item 1 item 2 item 3 costrutto B Item 4 item 5 item 6 Ansia di tratto sono nervoso sono apprensivo non dormo Ansia di tratto sono nervoso sono apprensivo non dormo Il valore del coefficiente alpha è importante per valutare il peso di un item sull’attendibilità del test: - Se il coefficiente è più basso è un item che contribuisce ad aumentare l’attendibilità - Se il coefficiente è identico è un item che non contribuisce ad aumentare l’attendibilità - Se il coefficiente è più alto è un item che se tolto, aumenta l’attendibilità del test. Inoltre esiste anche il coefficiente di correlazione item-totale che riguarda la correlazione tra l’item e il punteggio totale del test (a cui è stato tolto l’item esaminato).  Coefficiente di attendibilità: informativo sull’attendibilità del test  Coefficiente di correlazione item-totale: informatico dell’attitudine dell’item. Se < 0,25 o < 0,30 il coefficiente è ritenuto basso e quindi ci sarà una ridotta attendibilità del test (come coerenza interna). L’item va correlato con il punteggio totale a cui è stato tolto l’item esaminato oppure usare una formula di correlazione del coefficiente item-totale indice di discriminazione dell’item. LUNGHEZZA DEL TEST E ATTENDIBILITÀ All’aumentare del numero di item di un test, aumenta il valore del coefficiente di attendibilità. È possibile stimare il coefficiente ipotetico che si otterrebbe se si allungasse un test di item utilizzando la formula profetica di Spearman-Brown: rntt= nr tt 1+(n−1)rtt TEORIE ALLA BASE DELLA COSTRUZIONE DEI TEST Ciò che caratterizza un test psicologico e lo distingue da uno pseudo-test è la professionalità e l’attenzione che sono dedicate alla sua costruzione. Alla base dell’uso dei test psicologici vi è la necessità di una valutazione e misurazione di categorie concettuali non direttamente osservabili. È primario interesse per la psicologia che tale valutazione possieda caratteristiche di attendibilità e validità. I modelli teorici psicometrici di costruzione dei test e interpretazione dei punteggi permettono di dimostrare la corrispondenza empirica tra gli item e il costrutto psicologico latente. Sono state elaborate due teorie con caratteristiche e assunti diversi: Teoria Classica dei Test (TCT) e Teoria Risposta all’Item (IRTY). TEORIA CLASSICA DEI TEST Un punteggio x ottenuto in una misurazione può essere inteso come una selezione casuale tra le possibili misure provenienti dall’universo che si vuole studiare. La TCT si basa su alcuni concetti principali:  Importanza della differenza tra punteggio vero e punteggio osservato  Presenza di errori sistematici e casuali ( TCT detta anche teoria dell’errore)  Presenza di tre assunti fondamentali. Il punteggio x può essere scomposto in due componenti, una relativa alla sua parte vera (V) e l’altra relativa alla componente di errore (E).  X = V + E L’errore sistematico riguarda più specificamente lo strumento di misura e può essere dovuto a tre aspetti importanti: rntt=stima del coefficiente diattendibilità n=rapporto tranumero diitemnella versione ipotetica enumerodi itemnella versione esistente rtt=coefficiente di attendibilitàdella versioneesistente Tuttavia, nel valutare la bontà dei valori bisogna anche tenere conto della lunghezza del test. All’aumentare del numero di item in un test aumenta il valore del coefficiente di attendibilità.  aggiungendo item omogenei o paralleli, quanto diventerebbe l’attendibilità del test? È possibile stimare il coefficiente ipotetico che si otterrebbe se si allungasse un test di item con la formula profetica di Spearman- Brown. TEORIA DELLA RISPOSTA AGLI ITEM Permette di valutare la performance del soggetto in funzione di un’abilità latente, attraverso l’identificazione di un modello statistico-matematico che consente la valutazione della prestazione del soggetto tenendo conto delle caratteristiche di ogni item. Poggia sull’assunto di base per cui la probabilità che un compito sia svolto in modo corretto dipende:  Dal livello di sviluppo di un’abilità specifica: fattore o tratto o abilità latente  Da parametri rappresentati dalle caratteristiche psicometriche degli item che compongono il test come: a) Livello di difficoltà degli item, cioè livello di abilità necessario perché un soggetto abbia le stesse probabilità di superare o no l’item. b) Incidenza del caso nel rispondere correttamente a un item da parte di soggetti con bassissimi livelli di tratto. Tra i modelli TRI più utilizzati si trovano quelli che misurano costrutti unidimensionali e fanno uso di item che prevedono una risposta di tipo dicotomico. Modelli più complessi sono usati per test multidimensionali o item politomici. I modelli sono:  MODELLO DI RASH: considera solo il parametro di difficoltà dell’item (a) mentre il parametro di discriminazione/abilità (b) è tenuto costante per tutti gli item e il parametro di guessing (c) non è considerato. In tale modello sia il parametro b che il parametro a possono essere allineati su uno stesso continuum e rappresentati in ordine crescente su una stessa scala definita dal tratto latente theta (θ). La probabilità di risposta all’item può essere rappresentata da una curva chiamata CURVA CARATTERISTICA DELL’ITEM. Questa descrive come la probabilità di dare una risposta all’item varia in funzione del livello di abilità posseduto dal soggetto che risponde. i modelli matematici e gli strumenti statistici della TRI permettono di avere tante curve caratteristiche degli item per ogni item cui si compone un test e tutte queste curve possono essere considerate contemporaneamente per una stima del livello di abilità posseduto dall’esaminato. La presenza dell’abilità è rappresentato dal punteggio theta = 0, poiché il livello di difficoltà dell’item rappresentato dal livello di abilità necessaria a far si che la probabilità di risposta corretta sia pari a 0,50, cioè da quel livello di abilità in cui un esaminato ha esattamente le stesse probabilità di rispondere correttamente (50%) o di sbagliare (50%). I parametri che caratterizzano un item sono tre:  Difficoltà  Discriminazione: (va da 0,50 a 2,5) indica il potere dell’item di distinguere soggetti con abilità elevate da quelli con bassa abilità. È proporzionale all’inclinazione della curva: maggiore inclinazione della curva  maggiore rapidità di cambiamento della probabilità di rispondere all’item in funzione di theta maggiore capacità di discriminare (in tutti soggetti = incidenza del caso).  casualità secondo la TCT una persona con un livello di abilità elevato dovrebbe rispondere correttamente a un maggior numero di item. Secondo la TRI una persona in grado di rispondere correttamente a un item di un livello dovrebbe avere una maggiore probabilità di rispondere correttamente a tutti gli item che presentano un livello di difficoltà inferiore. Limite della TCT: nella valutazione delle abilità non tiene conto della difficoltà dell’item somministrato. Nella TCT il punteggio ottenuto viene interpretato attraverso il confronto con il campione di standardizzazione su cui sono state calcolare le norme dei test. Nella TRI il confronto viene effettuato con gli item. Nella TRI la precisione di un item, e di conseguenza di un test, nello stimare un dato livello di abilità viene definita funzione informativa dell’item (=precisione di un item). Un item può essere molto informativo solo per un’area circoscritta e specifica di THETA, dove la stima di abilità sarà più precisa e meno inficiata dall’errore. QUANDO IL VALORE INFORMATIVO E’ ELEVATO? Gli item migliori sono quelli che hanno b (abilità) vicino alla probabilità del 50% di superare un item (theta) e il parametro a (discriminazione) elevato e c (probabilità che la risposta sia data a caso) è pari a 0. Ogni item con la sua funzione informativa dell’item contribuisce in modo additivo e indipendente al valore assunto dalla funzione informativa del test. La funzione informativa del test fornisce informazioni sulla precisione della misurazione fornita al test nei differenti punti del continuum del tratto latente. FUNZIONE INFORMATIVA DEL TEST ED ERROE STANDARD Maggiore è l’informazione, minore è l’errore (inversamente proporzionali). Al crescere della funzione di informazione, diminuisce l’errore standard (= errore commesso nello stimare l’abilità del soggetto). L’errore standard tende a minimizzarsi (quindi test preciso e accurato, attendibile) quando:  il test è molto informativo  gli item hanno parametro c che tende allo zero  il test è composto da item il cui parametro di difficoltà è vicino a un punteggio theta del soggetto.  Il numero di item aumenta (più item ci sono minore è l’errore standard). La funzione informativa degli item (IIF) e la funzione informativa del test (TIF) sono assimilabili al concetto di attendibilità presente nella TCT. Maggiore è l’informazione fornita dal test a un determinato livello di abilità più precisa è la stima di quel livello di abilità ottenuta dai punteggi del test stesso. VALIDITA’ E COSTRUZIONE DEI TEST Mentre per l’attendibilità ci sono delle teorie matematiche e quindi dei coefficienti di attendibilità che ci dicono l’accuratezza e l’affidabilità di un test, per la validità non abbiamo teorie ma insieme di prove che forniscono indizi sulla validità o meno di un test. Quando ci chiediamo se un test o un questionario è valido ci si domanda se il test misura effettivamente quello che ci poniamo di misurare con esso. La validità è un concetto MULTIDIMENSIONALE, cioè si articola in diversi tipi di validità. Per tale ragione alla domanda se il test misura quello che intende misurare ci sono diverse risposte. Inoltre, la validità è TRASVERSALE/INDIPENDENTE dai modelli teorici utilizzati per costruire il test (TCT e TRI). Secondo l’APA si sono 4 tipi di validità delle misure: 1. DI CONTENUTO: gli item del test coprono tutti gli argomenti trattati dal test? Si verifica, quindi, se lo strumento contiene un campione rappresentativo del comportamento che si ritiene esprima il concetto che si vuole studiare empiricamente. Tanto più è complesso il costrutto tante più manifestazioni ci sono, quindi il test dovrebbe avere item che ricopra tutte le manifestazioni, devono essere rappresentativi. Ma purtroppo non ci sono metodi statistici per verificarlo. 2. INTERNA: gli item del test misurano tutti lo stesso costrutto teorico? Tramite questa validità si potrebbe valutare anche se un test misura una o più dimensioni. 3. DI CRITERIO: c’è una relazione significativa fra il test e una o più misure o osservazioni esterne al test (chiamate criterio)? Può essere stimata attraverso la correlazione tra i punteggi ai test predittori e quelli del test di criterio. Si distingue in due tipi: -criterio concorrente (criterio e test rilevati nello stesso momento). -criterio predittivo (test e criterio non sono rilevati nello stesso momento). r xy = coefficiente di validità di criterio. r xy 2 = coefficiente di determinazione: corrisponde alla porzione di varianza di variabilità del test spiegato dalle componenti rilevanti del test predittore.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved