Klassieke theorie van de test
Een test is een wetenschappelijk instrument voor zover het meet wat het bedoelt, dat wil zeggen, het is geldig en het meet goed, dat wil zeggen, het is nauwkeurig of betrouwbaar. Als we een instrument vinden waarvan we de maatregelen die ze bieden niet kunnen vertrouwen, omdat ze van tijd tot tijd variëren wanneer we hetzelfde object meten, dan zullen we zeggen dat het niet betrouwbaar is. Een instrument om te meten juist iets, moet precies zijn, want anders meet je wat je meet, meet je het verkeerd. Daarom is nauwkeurig zijn een noodzakelijke, maar niet voldoende voorwaarde. Bovendien moet het geldig zijn, dat wil zeggen dat wat het nauwkeurig meet, zal zijn wat het is bedoeld om te meten, en niets anders.
Mogelijk bent u ook geïnteresseerd: Artikelreactietheorie - Toepassingen en testenbetrouwbaarheid:
Absolute en relatieve betrouwbaarheid: we kunnen het probleem van de betrouwbaarheid van een test op twee verschillende manieren aanpakken, hoewel ze op de achtergrond samenvallen.
Betrouwbaarheid als de onnauwkeurigheid van de metingen: wanneer een proefpersoon reageert op een test, verkrijgt hij een empirische score, die wordt beïnvloed door een fout. Als er geen fout was, zou het onderwerp zijn echte score krijgen. De test is onnauwkeurig omdat de empirische score niet overeenkomt met de echte echte score. Dit verschil tussen beide scores is de steekproeffout, de meetfout. de typische meetfout zal zijn de standaarddeviatie van meetfouten. de typische meetfout geeft de absolute precisie van de test aan, omdat hiermee het verschil kan worden geschat tussen de verkregen meting en de waarde die zou worden verkregen als er geen fout was.
Betrouwbaarheid als de stabiliteit van de metingen: een test zal betrouwbaarder zijn naarmate de resultaten bij herhaling constanter of stabieler zijn. Hoe stabieler de resultaten zijn bij twee gelegenheden, hoe groter de correlatie tussen beide. Deze correlatie wordt genoemd betrouwbaarheidscoëfficiënt. Dit drukt ons uit, niet de hoeveelheid van de fout, maar de samenhang van de test met zichzelf en de constantheid van de informatie die het biedt. de betrouwbaarheidscoëfficiënt drukt de relatieve betrouwbaarheid van de test uit.
De betrouwbaarheidscoëfficiënt en de betrouwbaarheidsindex: - De betrouwbaarheidscoëfficiënt van een test is de correlatie van de test met zichzelf, verkregen bijvoorbeeld in twee parallelle vormen: rxx. - De precisie-index is de correlatie tussen de empirische scores van een test en zijn ware scores: rxv De precisie-index zal altijd groter zijn dan de betrouwbaarheidscoëfficiënt Om de betrouwbaarheidscoëfficiënt te achterhalen, zijn deze drie klassieke methoden het vermelden waard:
- Zoek de correlatie tussen de test en de herhaling ervan: de methode van herhaling of test-hertestmethode: deze bestaat uit het tweemaal toepassen van dezelfde test op dezelfde groep en de correlatie tussen de twee reeksen scores wordt berekend. Deze correlatie is de betrouwbaarheidscoëfficiënt. Deze methode geeft meestal een hogere betrouwbaarheidscoëfficiënt dan die verkregen door andere procedures, en kan vervuild zijn door storende factoren.
- Zoek de correlatie tussen twee parallelle vormen van de test: De methode van parallelle vormen: bereid twee parallelle vormen van dezelfde test voor, dat wil zeggen twee equivalente vormen die dezelfde informatie geven en van toepassing zijn op dezelfde groep onderwerpen. De correlatie tussen de twee vormen is de betrouwbaarheidscoëfficiënt. Met deze methode, door niet dezelfde test te herhalen, worden storende bronnen van betrouwbaarheid van de re-test vermeden.
- Zoek de correlatie tussen twee parallelle helften van de test: de methode met twee helften: deel de test op in twee equivalente helften en vind de correlatie tussen beide. Het is de te verkiezen methode, omdat het eenvoudig is en voorbijgaat aan de beperkingen van de voorgaande procedures. U kunt de oneven elementen van de test kiezen, de helft vormen en de even elementen om de andere te vormen.
De betrouwbaarheidscoëfficiënt en de correlatie tussen parallelle tests
de betrouwbaarheidscoëfficiënt van een test geeft de verhouding aan dat de ware variantie van de empirische variantie is: gráfico33 De betrouwbaarheidscoëfficiënt van een test varieert van 0 tot 1. Bijvoorbeeld: als de correlatie tussen twee parallelle tests rxx is´ = 0,80, betekent dat 80% van de variantie van de test het gevolg is van de echte meting, en de rest, dat wil zeggen 20% van de variantie van de test, is te wijten aan de fout. de betrouwbaarheidsindex van een test is de correlatie tussen zijn empirische scores en zijn ware scores betrouwbaarheidindex = de betrouwbaarheidsindex is gelijk aan de vierkantswortel van de betrouwbaarheidscoëfficiënt
Nadat twee parallelle vormen van een test zijn ontwikkeld, wordt de variantie-analyseprocedure toegepast om de homogeniteit van de varianties en het verschil tussen de meetwaarden te controleren. Als de varianties homogeen zijn, het verschil tussen de gemiddelden niet significant is en de twee vormen zijn geconstrueerd met hetzelfde aantal elementen van hetzelfde type en psychologische inhoud, kan worden gezegd dat ze parallel zijn. Zo niet, dan moet je ze hervormen totdat ze dat zijn. Het gebrek aan betrouwbaarheid wordt geïdentificeerd met de rxx-waarde´= 0 4.- De typische meetfout: het verschil tussen de empirische en de werkelijke score is de willekeurige fout, meetfout genoemd. De standaarddeviatie van de meetfouten wordt de typische meetfout genoemd. de typische meetfout maakt het mogelijk om schattingen te maken over de absolute betrouwbaarheid van de test, dat wil zeggen schatten hoeveel meetfouten een score beïnvloeden.
Betrouwbaarheid en lengte: de lengte van de test verwijst naar het aantal elementen. Betrouwbaarheid is afhankelijk van deze lengte. Als een toets uit drie elementen bestaat, kan een proefpersoon eens een score van 1 krijgen en op een andere, of parallel daaraan, een score van
Van de ene gelegenheid naar de andere is de score met één punt gevarieerd; een punt boven drie is een variatie van 33%, een hoge variatie. Als de proefpersonen willekeurige variaties van dit type verkrijgen, zal de correlatie van de test met zichzelf of met de twee parallelle vormen van de test sterk worden verminderd en kan deze niet hoog zijn. Als de test veel langer duurt, als u bijvoorbeeld 100 items hebt, kan een onderwerp 70 punten bij één gelegenheid en 67 op een parallelle basis krijgen. Van de een naar de ander is het 3 punten veranderd; het is een relatief kleine variantie in verhouding tot de totale test, in het bijzonder 3%. Deze kleine toevallige wijzigingen van deze omvang, die voorkomen in de scores van de proefpersonen, wanneer ze van de ene vorm naar de volgende gaan, zijn relatief onbelangrijk en zullen niet zoveel verminderen als voorheen de correlatie tussen beide.
De betrouwbaarheidscoëfficiënt zal veel hoger zijn dan in het vorige geval. De Spearman-Brown-vergelijking geeft de relatie weer tussen betrouwbaarheid en lengte. De precisie van een test is nul wanneer de lengte 0 is en deze neemt toe naarmate de lengte toeneemt. Hoewel de toename relatief kleiner is naarmate de lengte van dat deel groter is. Dit betekent dat de precisie aan het begin en relatief later veel groter wordt. Wanneer de lengte tot oneindig neigt, neigt de betrouwbaarheidscoëfficiënt naar
Het vergroten van de lengte van een test verhoogt de nauwkeurigheid omdat het de ware variantie met een hogere snelheid verhoogt dan de foutvariantie. Dit betekent dat de nauwkeurigheid van de test toeneemt omdat het deel van de variantie als gevolg van de fout afneemt. De formule van Rulon, evenals de formule van Flanagan en Guttman, zijn vooral van toepassing bij het berekenen van de betrouwbaarheidscoëfficiënt met de methode van de twee helften. Dit zijn formules die worden gebruikt om de betrouwbaarheidscoëfficiënt te berekenen.
Betrouwbaarheid en consistentie: de betrouwbaarheidscoëfficiënt kan ook op een andere manier worden gevonden, het is de zogenaamde alpha-coëfficiënt of coëfficiënt van generaliseerbaarheid of representativiteit (Cronbach). Deze alfa-coëfficiënt geeft de nauwkeurigheid aan waarmee sommige items een aspect van persoonlijkheid of gedrag meten. Het kan worden geïnterpreteerd als: een schatting van de gemiddelde correlatie van alle mogelijke items in een bepaald aspect. Een maat voor de nauwkeurigheid van de test volgens zijn coherentie of interne consistentie (onderlinge relatie tussen de elementen, in welke mate de testelementen hetzelfde meten) en de lengte ervan. Indicatie van de representativiteit van de test, dat wil zeggen, de hoeveelheid waarin de steekproef van items die het samenstelt representatief is voor de populatie van mogelijke items van hetzelfde type en psychologische inhoud. de alpha-coëfficiënt reflecteert hoofdzakelijk twee basisconcepten in de nauwkeurigheid van een test: 1. De onderlinge relatie tussen de elementen: de mate waarin ze allemaal hetzelfde meten.
De duur van de test: door het aantal gevallen in een steekproef te vergroten en systematische fouten te elimineren, vertegenwoordigt de steekproef beter de populatie waaruit deze is geëxtraheerd en is het onwaarschijnlijker dat er sprake is van een accidentele fout. Als de testitems dichotomisch zijn (ja of nee, 1 of 0, overeenstemming of onenigheid, enz.), Wordt de vergelijking van de alpha-coëfficiënt vereenvoudigd, waardoor de vergelijkingen van Kuder-Richardson (KR20 en KR21). Gezien een bepaald aantal items, zal een test betrouwbaarder zijn, wanneer deze homogener is. De alpha-coëfficiënt vertelt ons de betrouwbaarheid omdat het homogeniteit en consistentie of interne consistentie van de elementen van een test weergeeft.
Normen en betrouwbaarheidscriteria
Volgens het model van de steekproefruimte van items is het doel van de test het schatten van de maat die zou worden verkregen als alle items in de monsterruimte zouden zijn gebruikt. Deze maat zou de echte score zijn, waarvan de werkelijke maten meer of minder benaderen. Afhankelijk van de mate waarin een steekproef van items correleert met de werkelijke scores, is de test min of meer betrouwbaar. In dit model staat de matrix van correlaties tussen alle items in de steekproefruimte centraal.Dit voorbeeldmodel dringt meer direct aan op interne consistentie en garandeert indirect voor zover het dit bereikt, de stabiliteit..
Het lineaire model van parallelle tests benadrukt meer de stabiliteit van scores, en voor zover het stabiliteit oplevert, is het indirect bevorderlijk voor de interne consistentie. Als we een test toepassen om individuele diagnoses en voorspellingen vast te stellen, moet de betrouwbaarheidscoëfficiënt tussen 0,90 en hoger liggen. In prognoses en collectieve classificaties is de vraag niet zo veel, hoewel het niet handig is om veel weg te komen van 0,90 naar 0,80..
Soms is het bij bepaalde soorten tests, zoals persoonlijkheidstests, moeilijk om coëfficiënten van meer dan 0,70 te behalen. Als de parallelle vormen, of parallelle helften worden toegepast, na een min of meer groot interval, kunnen de willekeurige fouten talrijker zijn dan die welke de alfa-coëfficiënt beïnvloeden. Dit is zo omdat wat de correlatie verlaagt, niet alleen de willekeurige fouten zijn die inherent zijn aan de test en bij een enkele gelegenheid, die welke rekening houden met de alpha-coëfficiënt, maar die ook alle fouten beïnvloeden die kunnen voortkomen uit de twee verschillende situaties , die in veel details kan verschillen. Daarom is de alpha-coëfficiënt meestal hoger dan de andere coëfficiënten.
Behalve de coëfficiënt die wordt gevonden door dezelfde test te herhalen, omdat er meer waarschijnlijkheid is dat de willekeurige fouten van de eerste toepassing in de tweede worden herhaald, en in plaats van de correlatie tussen de twee te verminderen, verhogen ze deze. Er moet voor worden gezorgd dat de tweede toepassing volledig onafhankelijk is van de eerste. Als we dit bereiken, is dit de eenvoudigste en goedkoopste methode en is het raadzaam om de stabiliteit van de scores te beoordelen, vooral gedurende lange perioden en met complexe tests. > Volgende: Geldigheid van de tests