Paarsgewijs vergelijken in het onderwijs

Met de introductie van 21ste-eeuwse vaardigheden in het onderwijs rees de vraag hoe dit soort complexe vaardigheden goed gemeten kunnen worden. In dit onderzoek keken we of de methode paarsgewijs vergelijken daarvoor een geschikte manier is. Paarsgewijs vergelijken werkt als beoordelaars heel veel vergelijkingen kunnen maken. Maar dit is voor docenten vaak niet haalbaar. Er is een adaptief algoritme ontwikkeld, waardoor minder vergelijkingen nodig zijn voor een meting die even betrouwbaar is.

CitoLab - twee studenten met laptop op de bank

Dit onderzoek ontstond in een samenwerking met een middelbare school

De school vroeg ons persoonlijkheidskenmerken van leerlingen te meten en leerlingen inzicht te geven in deze kenmerken.
We ontwikkelden een instrument waarmee leerlingen elkaar onderling paarsgewijs konden vergelijken.
De vergelijkingen leverden een meting op, en de leerlingen leerden meer over persoonlijkheidskenmerken doordat ze de vergelijkingen zelf uitvoerden. De samenwerking zette ons aan het denken over andere toepassingen van paarsgewijs vergelijken en hoe deze methode verbeterd kan worden.

Paarsgewijs vergelijken wordt steeds meer ingezet als meetmethode in het onderwijs op verschillende niveaus. Het is fijn als dit zo efficiënt mogelijk kan, maar het is ook belangrijk dat de resultaten van de metingen te vertrouwen zijn. Mijn onderzoek richt zich op deze punten.

Elise Crompvoets, promovendus van 2016 tot 2020 bij CitoLab en Tilburg University

Hoe maken we het meten met paarsgewijs vergelijken efficiënter?

Het eerste deelonderzoek van dit promotieonderzoek richt zich op de efficiëntie van het meten met paarsgewijs vergelijken. Dit doen we door het beantwoorden van de vraag: kunnen we beoordelaars vergelijkingen laten maken die zoveel mogelijk informatie geven, waardoor ze minder vergelijkingen hoeven te maken?

In twee projecten hebben we twee verschillende adaptieve selectie algoritmes ontwikkeld die deze vraag beantwoorden. Één algoritme (Crompvoets, Béguin, & Sijtsma, 2020) selecteert vergelijkingen die ervoor zorgen dat de locatie van alle leerlingen op de eigenschap-schaal zo nauwkeurig mogelijk is. Het andere algoritme (Crompvoets, Béguin, & Sijtsma, 2021) selecteert vergelijkingen die ervoor zorgen dat de rangorde van de leerlingen zo nauwkeurig mogelijk is.

Hoe stabiel zijn de resultaten van een meting met paarsgewijze vergelijking?

De eerste twee projecten van het promotieonderzoek gaven de indruk dat de resultaten wellicht niet zo stabiel zijn als wordt verondersteld in toepassingen van paarsgewijs vergelijken. In een tweede deelonderzoek brengen we daarom de stabiliteit van de resultaten van metingen met paarsgewijs vergelijken in kaart. Dat doen we door onder andere de volgende vraag te beantwoorden: ‘Hoeveel vergelijkingen zijn er nodig om het achterliggende psychometrische model stabiel te schatten?’.

Kan paarsgewijs vergelijken gebruikt worden om twee toetsen aan elkaar te linken zonder gelijke items of gelijke groepen?

Doordat er in een keer veel items van het staatsexamen Nederlands als tweede taal (NT2) op sociale media waren verschenen, konden deze items ineens niet meer gebruikt worden. Hierdoor moesten er nieuwe toetsen komen waar deze items niet in zitten. Het is belangrijk dat deze toetsen even moeilijk zijn als de toetsen met de oude items. Voorheen werd de moeilijkheid van een nieuwe toets gelinkt aan de moeilijkheid van de oude toets door een paar vragen van de oude toets in de nieuwe toets te stoppen.

Deze methode was in dit geval niet bruikbaar. Daarnaast is de groep mensen die een NT2 examen doen zo divers, dat we niet kunnen aannemen dat de groepen even goed zijn in Nederlands. Hierdoor kon de moeilijkheid van de twee toetsen ook niet via de gelijke groepen aanpak worden gelinkt. Deze situatie heeft geleid tot het onderzoek of we twee toetsen zonder gelijke items of gelijke groepen aan elkaar kunnen linken door experts paarsgewijze vergelijkingen te laten maken van items van de twee toetsen met de vraag: welk item is moeilijker?

Meer weten? Bekijk de publicaties:

Crompvoets, E. A. V., Béguin, A. A., & Sijtsma, K. (2022). On the bias and stability of the results of comparative judgment. Frontiers in Education, 6, 1-10.
Crompvoets, E. A. V., Béguin, A. A., & Sijtsma, K. (2021). Pairwise comparison using a Bayesian selection algorithm: Efficient holistic measurement. PsyArXiv.
Crompvoets, E. A. V., Béguin, A. A., & Sijtsma, K. (2020). Adaptive pairwise comparison for educational measurement. Journal of Educational and Behavioral Statistics, 45, 316-338.