Theorie van reactie op het item - Toepassingen en testen

Theorie van reactie op het item - Toepassingen en testen / Experimentele psychologie

In het veld van Theorie van psychometrische tests Verschillende denominaties zijn verschenen die momenteel de naam "Theory of the Item Response" dragen (F.M. Lord, 1980). Deze denominatie vertoont enkele verschillen met betrekking tot het klassieke model: 1.- de relatie tussen de verwachte waarde van de scores van de proefpersoon en de eigenschap (karakteristiek die verantwoordelijk is voor de waarden), is meestal niet lineair. 2.- is van plan om individuele voorspellingen te doen zonder te hoeven verwijzen naar de kenmerken van de normatieve groep.

Mogelijk bent u ook geïnteresseerd in: Klassieke testtheorie Index
  1. Theorie van de reactie op het item of modellen van de latente eigenschap in de theorie van de tests
  2. Modellen van item response-theorie (tri)
  3. Schatting van parameters
  4. Test constructie
  5. Toepassingen van item response theorie
  6. Interpretatie van scores

Theorie van de reactie op het item of modellen van de latente eigenschap in de theorie van de tests

We zien dan dat deze theorie van de reactie op het item de mogelijkheid biedt om de items afzonderlijk te beschrijven, evenals de individuen; Het is ook van mening dat de respons van het onderwerp afhangt van het vaardigheidsniveau dat in het beschouwde bereik is. De oorsprong van deze modellen is te danken aan Lazarsfeld, 1950, die de term 'latente eigenschap' introduceerde .

Van hieruit wordt aangenomen dat elk individu een individuele parameter heeft die verantwoordelijk is voor de karakteristieken van het subject, ook wel "eigenschap" genoemd. Deze functie is niet direct meetbaar, vandaar dat de individuele parameter de latente variabele wordt genoemd. Bij het toepassen van de tests kun je twee verschillende dingen krijgen, de echte score en de fitness schaal; Dit wordt bereikt als we twee tests met dezelfde geschiktheid aan dezelfde groep doorgeven.

In de Latent Trait Theory of Theorie van het antwoord op het item De echte score is die waarde die wordt verwacht van de waargenomen score. Volgens Lord zijn de echte score en fitheid hetzelfde, maar uitgedrukt in verschillende meetschalen.

Modellen van item response-theorie (tri)

Binomiale foutmodellen: werden geïntroduceerd door Lord (1965), die ervan uitgaan dat de waargenomen score overeenkomt met het aantal juiste antwoorden verkregen in de test (van wie de items allemaal dezelfde moeilijkheidsgraad hebben en lokale onafhankelijkheid hebben, dat wil zeggen, de waarschijnlijkheid om correct te reageren op een item wordt niet beïnvloed door de antwoorden op andere items).

Poisson-modellen: deze modellen zijn geschikt voor die tests met een groot aantal items en waarbij de kans op een juiste of onjuiste respons klein is. Binnen deze groep hebben we verschillende modellen:

  1. Poisson's Rasch-model, waarvan de hypotheses zijn: elke test heeft een groot aantal binaire items die lokaal onafhankelijk zijn. de kans op fouten in elk artikel is klein. De waarschijnlijkheid dat het onderwerp een fout maakt, hangt af van twee dingen: de moeilijkheidsgraad van de test en de geschiktheid van het onderwerp. de additiviteit van de moeilijkheden, begrepen als het resultaat van het mengen van twee gelijkwaardige tests in een enkele test waarvan de moeilijkheid de som is van de moeilijkheden van de twee eerste tests.
  2. Poisson-model om de snelheid te evalueren: Dit model werd ook voorgesteld door Rasch en wordt gekenmerkt doordat rekening wordt gehouden met de snelheid waarmee de test wordt uitgevoerd. Het model kan op twee manieren worden weergegeven: tel het aantal fouten dat is gepleegd en woorden die in een tijdseenheid zijn gelezen. tel het aantal fouten dat is vastgelegd en de tijd die is besteed aan het voltooien van het lezen van de tekst. De waarschijnlijkheid van realisatie van een bepaald aantal woorden van een test (i) door een subject (j), gedurende een tijd (t)
  3. Ojiva Normale modellen: is een model voorgesteld door Lord (1968), dat wordt gebruikt in tests met dichotome items en met slechts één gemeenschappelijke variabele: de grafiek zou als volgt zijn: De basisaannames die dit model kenmerken zijn:
  • de ruimte van de latente variant is eendimensionaal (k = 1).
  • lokale onafhankelijkheid tussen intems.
  • de waarde voor de latente variabele kan zo worden gekozen dat de curve van elk item de normale kernkop is.

Logistieke modellen; Het is een model dat erg op het vorige lijkt, maar het heeft ook meer voordelen ten opzichte van zijn wiskundige behandeling. De logistieke functie heeft de volgende vorm: Er zijn verschillende logistieke modellen afhankelijk van het aantal parameters dat:

  • 2 parameters logistisch model, Birnbaum 1968, onder zijn kenmerken vermelden we dat het ééndimensionaal is, er is lokale onafhankelijkheid, de elementen zijn dichotoom, enz.
  • 3 parameters logistiek model, Heer, wordt gekarakteriseerd omdat de kans op goed raden een factor is die de uitvoering van de test zal beïnvloeden. 4.3. 4-parameter logistisch model: model voorgesteld door McDonald 1967 en Barton-Lord in 1981, waarvan het doel is om die gevallen te verklaren waarin personen met een hoog fitnessniveau niet correct reageren op het item.
  • Logistiek model van Rasch: Dit model heeft het grootste aantal taken gegenereerd ondanks een nadeel, dit is dat de aanpassing aan echte gegevens moeilijker is, maar in tegenstelling hiermee is het voordeel dat het zo gebruikt, dat het geen grote omvang vereist. Monsterformaten voor uw aanpassing.

Schatting van parameters

De methode die het meest is gebruikt, is Maximale waarschijnlijkheid. Naast deze methode worden numerieke benaderingsprocedures gebruikt, zoals Newton-Raphson en Scoring (Rao). De maximale waarschijnlijkheidsmethode is gebaseerd op het principe van het verkrijgen van schatters van de onbekende parameters die de waarschijnlijkheid van het verkrijgen van genoemde monsters maximaliseren. Naast de maximale waarschijnlijkheid, wordt de Bayesiaanse schatting ook gebruikt, gebaseerd op de Bayes-stelling, die bestaat uit het a priori opnemen van alle bekende informatie die relevant is voor het proces van het maken van conclusies. Een meer diepgaande studie van de Bayesiaanse methode voor het schatten van fitnessparameters is die van Birnbaum (1996) en Owen (1975). .

INFORMATIE FUNCTIES

De beste test die kan worden geconstrueerd is degene die de meeste informatie geeft over de latente eigenschap. De kwantificering van deze informatie gebeurt via de "informatiefuncties". De formule van de informatiefunctie, Birnbaum 1968, is de volgende: Er moet rekening mee worden gehouden dat de informatie die in een test wordt verkregen de som is van de informatie van elk item, behalve dat de bijdrage van elk item niet afhankelijk is van de rest van de items die de test vormen. In het algemeen kunnen we zeggen dat de informatie in alle modellen:

  • varieert met fitnessniveaus.
  • Hoe groter de helling van de curve, hoe meer informatie.
  • hangt af van de variantie van de scores, hoe hoger dit is, hoe minder informatie.

Test constructie

De eerste taak en een van de belangrijkste op het moment van het samenstellen van een test is de keuze van de items, het vorige akkoord van de theoretische aannames die de functie moeten definiëren die de test wil meten. Het concept "artikelanalyse" verwijst naar de reeks formele procedures die worden uitgevoerd om die items te selecteren die uiteindelijk de test zullen vormen. De informatie die het meest relevant wordt geacht met betrekking tot de items is:

  1. Moeilijkheid van het item, percentage personen dat het corrigeert.
  2. Discriminatie, correlatie van elk item met de totale score op de test.
  3. Distractors of foutanalyse, de invloed ervan is relevant, beïnvloedt de moeilijkheid van het item en maakt de waarden van discriminatie onderschat.

Op het moment dat indicatoren voor de verschillende indices worden vastgesteld, worden meestal statistieken of indices gebruikt, waarbij het meest wordt gebruikt:

Moeilijkheidsgraad Index van discriminatie Index van betrouwbaarheid Index van geldigheid Bekende indexen waarmee rekening moet worden gehouden bij de selectie van de items die de test zullen vormen, we zullen zien welke stappen nodig zijn voor de constructie van een test:

  1. Specificatie van het probleem.
  2. Een breed scala aan items uitspreken en debuggen.
  3. Keuze van het model.
  4. Test de voorgeselecteerde items.
  5. Selecteer de beste items.
  6. Bestudeer de kwaliteiten van de test
  7. Stel de normen vast voor de interpretatie van de verkregen eindtoets.

Uit de voorgaande punten moet worden opgemerkt dat de keuze van het model, punt 3, zal afhangen van de doelstellingen van de test, de kenmerken en kwaliteit van de gegevens en de beschikbare middelen. Wanneer een model wordt gekozen, gezien de theoretische omstandigheden waarin het kan worden toegepast, nr ondanks de deugden moet in elk geval en specifieke omstandigheden worden geanalyseerd. De eigenschappen die kunnen worden toegeschreven aan de modellen die deel uitmaken van het Theorie van de respons op het item (TRI), kan worden beïnvloed door:

  • de dimensionaliteit van de test de schaarse beschikbaarheid van sample-gebrek aan computerresources Er zijn een aantal voorkeuren bij het gebruik van een of andere modellen, laten we die zien: normale kernkopmodellen worden meestal niet gebruikt in applicaties, hun waarde is theoretisch.
  • Rasch: geschikt voor horizontale vergelijking (vergelijkbare tests op moeilijkheidsgraden met vergelijkbare fitnessverdelingen). om verschillende vormen van dezelfde test te hebben. * 2 en 3 parameters: zijn die die het best bij verschillende problemen passen.
  • om foutieve reactiepatronen te detecteren. voor de verticale gelijkschakeling van tests (vergelijk tests met verschillende moeilijkheidsgraden en verschillende distributies voor fitness).

1 en 2 parameters:

  • geschikt om een ​​enkele schaal te bouwen, zodat u de vaardigheden op verschillende niveaus kunt vergelijken.

De keuze van het model kan, naast het nagestreefde doel, worden beïnvloed door de grootte van het monster; In het geval dat het monster groot en representatief is, zal er geen probleem zijn, noch het klassieke model noch de latente eigenschap. Maar in de TRI ( item response theorie ) een kleine steekproef dwingt je om modellen te kiezen met een klein aantal parameters, zelfs het uniparameter-model.

Toepassingen van item response theorie

Laten we eens kijken wat de meest voorkomende toepassingen zijn: a) Equalisatie van tests, soms is het nodig om de scores die zijn verkregen in verschillende tests met twee mogelijke doelen te relateren:

  • Horizontale egalisatie: er wordt gezocht naar verschillende vormen van dezelfde test.
  • Verticale egalisatie: het doel is om een ​​enkele schaal van bekwaamheid met verschillende moeilijkheidsgraden op te bouwen. Wat betreft de koppeling testen, Lord (1980) het concept van "rechtvaardigheid", wat betekent dat voor elk onderwerp twee tests kunnen worden uitgewisseld en aangebracht op een of de ander de conditie variëren niet geschat voor het onderwerp.

Studie van de bias van de items, een item is scheef wanneer het gemiddeld significant verschillende scores geeft in specifieke groepen die geacht worden deel uit te maken van dezelfde populatie.

Tests aangepast of gemiddeld , Via de TRI kunnen geïndividualiseerde tests worden geconstrueerd die toelaten om de werkelijke waarde van de eigenschap in kwestie nauwkeuriger in te schatten. De items worden opeenvolgend beheerd, de voorinstelling van een item of een ander hangt af van de hierboven gegeven antwoorden. Er zijn verschillende soorten aangepaste tests, we wijzen op het volgende:

  • tweestaps-procedure, Lord 1971; Bertz en Weiss 1973 - 1974. Eén test wordt als eerste behaald en afhankelijk van de resultaten wordt een tweede test toegediend.
  • De procedure in verschillende fasen is dezelfde als de vorige, alleen het proces bevat meer fasen.
  • Vaste vertakkingsmodel, Lord 1970, 1971, 1974; Mussio 1973. Alle onderwerpen lossen hetzelfde item op, afhankelijk van het antwoord is een reeks items opgelost.
  • Variabel vertakt model, is gebaseerd op de onafhankelijkheid tussen de items en de eigenschappen van de maximale likelihoodschatters.

Bank met artikelen, Het hebben van een groot aantal items is iets dat de kwaliteit van de test zal verbeteren, maar hiervoor moeten de items eerst een foutopsporingsproces doorlopen. Om de items te classificeren, moet u rekening houden met welke functie bedoeld is om de test te meten waar dit item onderdeel van zal uitmaken..

Interpretatie van scores

balans: het doel is om een ​​continuüm te bieden om te ordenen, classificeren of weten wat de relatieve grootte is van de geëvalueerde functie; dit zal ons in staat stellen om verschillen en gelijkenissen vast te stellen in mensen met betrekking tot dat kenmerk. De schalen gebruikt in de psychologie zijn: nominaal, ordinaal, interval en reden; deze schalen zijn opgebouwd uit de resultaten van de testen, resultaten worden "directe scores" genoemd .

typeren : het typeren van een test is om de directe scores om te zetten in andere die gemakkelijk interpreteerbaar zijn, aangezien de getypeerde score de positie van het onderwerp ten opzichte van de groep zal onthullen, en ons in staat zal stellen om intra- en intersubjectvergelijkingen te maken. Er zijn twee soorten typen:

  1. Lineair, behoudt de vorm van de verdeling en wijzigt de grootte van de correlaties niet.
  2. Niet-lineair, ze bewaren de verdeling of de grootte van de correlaties niet .

FITNESS SCALE In de TRI is de schaal die wordt gebouwd die schaal die overeenkomt met de fitnessniveaus; Deze schaal wordt gekenmerkt omdat de schattingen en verwijzingen rechtstreeks worden gemaakt met betrekking tot geschiktheid en de schaal ervan. Bovendien hangt deze geschiktheid die wordt geschat alleen af ​​van de vorm van de karakteristieke curve van de items. Binnen de mogelijke schalen geven we er twee aan:

  1. Scale, voorgesteld door Woodcock (1978) en wordt gedefinieerd door de volgende formule:
  2. WITS schaal, voorgesteld door Wright (1977), deze schaal is een aanpassing van de vorige en wordt gegeven door de volgende relatie: