Heb je wel eens gehoord van de item response theory?

3 minuten

Item response theory vertelt ons dat elk meetinstrument overeen zou moeten stemmen met een idee.

Heb je wel eens gehoord van de item response theory?

Beoordeeld en goedgekeurd door de psycholoog Sergio De Dios González.

Laatste update: 27 december, 2022

Een van de belangrijkste taken van psychologische interventie is evaluatie. Deze evaluatie wordt vaak bepaald door testresultaten. In dit opzicht is item response theory (IRT) een metingstheorie die de klassieke testtheorie aanvult.

Klassieke testtheorie (KTT) en IRT kunnen dezelfde test evalueren. Elk kan de relevantie of score voor elk van de items vaststellen. Daarom kan elke persoon die de test doet een ander resultaat krijgen.

We moeten echter vermelden dat IRT doorgaans leidt tot meer gekalibreerde instrumenten. IRT kost echter ook meer en vereist de medewerking van gespecialiseerde professionals.

Toch hebben deze twee testtheorieën hetzelfde doel: het creëren van instrumenten waarmee je met zo min mogelijk fouten kunt meten wat je maar wilt meten. Dit komt omdat psychometrie een zekere mate van betrouwbaarheid en validiteit vereist.

Hoe beter een test de prestaties van twee testpersonen met hetzelfde expertiseniveau of dezelfde testpersoon bij verschillende gelegenheden nabootst, des te betrouwbaarder de test is. Aan de andere kant verwijst validiteit naar de mate waarin empirisch bewijs en theorie de interpretatie van de testscores ondersteunen.

De gebreken van de klassieke testtheorie die hebben geleid tot de ontwikkeling van item response theory

Hoewel de klassieke testtheorie erg waardevol is, heeft deze ook enkele gebreken. Zo zijn bij KTT de metingen niet onveranderlijk. Stel je bijvoorbeeld eens voor dat een psycholoog drie verschillende tests gebruikt om de intelligentie van drie mensen te meten. In dit geval kun je de resultaten uiteindelijk niet met elkaar vergelijken. Waarom?

Nou, omdat elke test zijn eigen schaal heeft. Om op die manier de intelligentie van een groep mensen met elkaar te vergelijken, zou je daarom de scores op verschillende schalen moeten aanpassen.

Door middel van IRT kun je daarentegen wel de resultaten van verschillende tests met elkaar vergelijken als deze dezelfde schaal gebruiken. Nog een beperking van de klassieke testtheorie is het gebrek aan invariantie van de testeigenschappen met betrekking tot de mensen die je gebruikt om ze te bepalen. IRT kan ook dat aspect verbeteren.

Veronderstellingen van de item response theory (IRT)

Om deze gebreken op te lossen, moet IRT sterkere en beperkendere veronderstellingen maken dan KTT.

Eerste veronderstelling

De belangrijkste veronderstelling van de item response theory vertelt ons dat elk meetinstrument in overeenstemming moet zijn met een idee. Met andere woorden, er zou sprake moeten zijn van een functionele relatie tussen de variabele waarden van de items en de waarschijnlijkheid om ze samen te laten vallen. Deze functie wordt de characteristic curve (ICC) genoemd.

We kunnen dus stellen dat IRT KTT verbetert met dit nieuwe idee. Zo kan het bijvoorbeeld zijn dat alleen de intelligentste mensen in staat waren om de moeilijkste vragen van een intelligentietest te beantwoorden.

Als daarentegen iedereen die de test aflegde op een bepaalde vraag hetzelfde antwoord gaf, dan zou deze vraag niet gebruikt kunnen worden om het expertiseniveau van een individu te bepalen.

Tweede veronderstelling

De tweede veronderstelling houdt in dat de meeste modellen ervan uitgaan dat de items deel uitmaken van een enkele dimensie. Met andere woorden, dat ze eendimensionaal zijn.

Voordat je dit soort modellen gebruikt, moet je er dus voor zorgen dat de gegevens aan deze eendimensionaliteit voldoen. Helaas zijn de meeste instrumenten die psychologen vaak gebruiken gericht op het verzamelen van multidimensionale gegevens.

Derde veronderstelling

De derde veronderstelling van de item response theory heeft betrekking op lokale onafhankelijkheid. Met andere woorden, om deze modellen te gebruiken, moeten de items onafhankelijk van elkaar zijn.

De reactie op één item mogen dus geen invloed hebben op de reactie op andere items. Als er aan de eendimensionaliteit wordt voldaan, wordt er ook aan lokale onafhankelijkheid voldaan.

Dit kan alleen mogelijk zijn als er geen onderlinge afhankelijkheid is tussen de items of een gedeelde variantie die gerelateerd is aan de gemeten dimensie. Beide veronderstellingen zijn dus aan elkaar verbonden.

Muñiz (2010) wees op het belang van vooruitgang op het gebied van psychometrie en testinterpretatie. Het logische om te doen zou dus zijn om nog een stap in deze richting te zetten, aangezien de tests die geanalyseerd worden door middel van IRT verontrustende resultaten tonen over hoe ze op dit moment worden gemeten.