
AI gebruiken als hulpmiddel bij het nakijken van centrale examens?

AI gebruiken als hulpmiddel bij het nakijken van centrale examens?
Dat is een begrijpelijke en relevante vraag. Begin april berichtte de NOS over nakijken met AI. Met de centraal schriftelijke examens voor de deur, snap ik dat veel docenten zich afvragen, kan ik daar iets mee? Examens nakijken betekent immers een enorme bak met werk en strakke tijdslijnen. Tegelijk wil je het ook zorgvuldig doen. En dan is er AI; waarvan sommigen roepen dat het je enorm kan helpen, anderen zich op de vlakte houden en weer anderen juist oproepen tot voorzichtigheid. Wat moet je daar nu mee als welwillende docent? Graag schijn ik wat licht op deze zaak aan de hand van drie vragen. Wat kan er, vanuit de techniek bezien? Wat mag er, vanuit de regels bezien? Wat is wenselijk, vanuit onze onderwijswaarden?
Wat kan er?
Als we de vraag stellen of AI je kan helpen bij het nakijken, dan is de vraag eigenlijk of generatieve AI dat kan. Want in de praktijk is dat de AI die we vaak gebruiken. ChatGPT, Gemini, Claude en Le Chat, om er maar een paar te noemen.
Het voordeel van generatieve AI is de gebruiksvriendelijkheid. Het werkt via een chatfunctie in een webbrowser en de gebruikersmogelijkheden lijken eindeloos. Generatieve AI geeft je altijd een antwoord. Vraag je generatieve AI om iets na te kijken, dan krijg je dus een nagekeken werk. En dat gaat over het algemeen best goed.
Wat daarmee meteen een zegen en een vloek is. Want gemiddeld genomen lijkt generatieve AI goed werk te doen, maar nakijken is eigenlijk geen taak voor ‘gemiddeld genomen’. Generatieve AI voorspelt het meest waarschijnlijke antwoord op jouw vraag, terwijl nakijken vraagt om een zo groot mogelijke nauwkeurigheid.
Generatieve AI voorspelt het meest waarschijnlijke antwoord op jouw vraag, terwijl nakijken vraagt om een zo groot mogelijke nauwkeurigheid.
De individuele verschillen die bij het nakijken ontstaan, kunnen significant zijn. Laat generatieve AI hetzelfde antwoord meerdere malen beoordelen, dan kan die beoordeling verschillend uitpakken. Als leerling kan je dus ‘pech’ of ‘mazzel’ hebben.
Er zijn wel handigheden om dit effect te minimaliseren. Zoals het opstellen van een goed prompt, meerdere nakijkruns draaien en de ‘temperatuurinstellingen’ van het model aanpassen. Dat vraagt echter in de praktijk vaak om een flinke dosis achtergrondkennis van generatieve AI.
Idealiter gebruik je AI-tooling die is ontwikkeld voor en is afgestemd op het nakijken in het onderwijs. Zulke nakijkapplicaties zijn wel in ontwikkeling voor nakijken in het algemeen, maar nog niet specifiek voor centrale examens. Het is maar zeer de vraag of deze applicaties al robuust, accuraat en betrouwbaar genoeg zijn voor het nakijken van summatieve toetsen, laat staan centrale examens.
In het bovenstaande schets ik een beeld van het volledig uitbesteden van het nakijkwerk aan AI. In de praktijk merk ik vooral dat docenten dat zelf ook niet willen, maar de AI vooral als hulp zien die een soort eerste beoordeling voor ze doet. Waarna ze zelf het eindoordeel vellen. Dat lijkt an sich een goede benadering, toch twee kanttekeningen. De eerste betreft onze menselijke natuur die beïnvloedbaar is. Gewild of ongewild, bewust of onbewust, je laat je toch beïnvloeden door wat de AI als eerste score voorstelt. De tweede kanttekening betreft de beperkte mate waarin we als mens nog scherp blijven, als een systeem meestal goed functioneert. Als de AI het in zeg 98% van de gevallen goed doet, haal jij als docent dan nog die 2% eruit?
Wat mag er?
Laten we beginnen met een open deur, privacy. Op het moment dat je digitaal met leerlinggegevens aan de slag gaat, vraagt dat om een verwerkersovereenkomst tussen jouw school en de digitale omgeving waar die leerlinggegevens terecht komen. Als je generatieve AI wilt gebruiken, dient jouw school dus een ‘tool’ tot haar beschikking te hebben. Een privé-account gebruiken mag dus niet. Ook het weghalen van namen en leerlingnummers lijkt onvoldoende, daarmee ‘pseudonimiseer’ je eigenlijk. Ik merk dat ik vaak pushback krijg als ik dit argument inbreng, want “ik zit wel heel streng in de leer”. By that as it may, maar ik vind het wel belangrijk te benadrukken dat het om gegevens gaat van anderen. Minderjarige anderen zelfs, die er niet voor kunnen kiezen of hun gegevens bij jou bekend zijn. Dat maakt dat ik ‘streng in de leer zijn’ best verdedigbaar vind.
Verder bespreek ik graag de AI Act. Dat is Europese wetgeving rondom AI gebruik, welke het ‘evalueren van leerresultaten’ (waaronder nakijken) classificeert als ‘hoog risico’ activiteit. Bij een hoog risico toepassing moet de AI aan allerlei voorschriften voldoen die best vergaand zijn. Het achterliggende idee hiervoor is bescherming van het individu (de leerling dus). De wetgever wil borgen dat als AI wordt ingezet om te komen tot significante besluiten over iemand, dat die AI dan voldoet aan hoge standaarden. Bijvoorbeeld dat de AI transparant is, ofwel dat uitlegbaar is hoe de AI te werk gaat. In dit geval betekent dat, dat je moet kunnen herleiden waarom de AI tot een bepaalde beoordeling komt. Een ander belangrijke eis is dat je zoveel mogelijk bias uitsluit. Bias zijn vooroordelen in je AI, waardoor je beoordeling niet meer zuiver is. Die bias komt er vaak in doordat deze al aanwezig was in de data die is gebruikt om het AI-model te maken. Het kan er bijvoorbeeld toe leiden dat antwoorden van leerlingen met Nederlands als tweede taal stelselmatig anders worden beoordeeld. Dat wil je natuurlijk voorkomen.
Feitelijk zijn de hoog risico bepalingen van de AI Act nog niet ingegaan. Maar dat dit soort wetgeving in de maak is, duidt wel op risico’s die de wetgever voorziet. Die, nogmaals, met deze wetgeving ons niet zozeer wil dwarszitten, maar tot doel heeft onze leerlingen te beschermen.
Ook interessant, de gebruikersvoorwaarden van AI. Bijna niemand leest die ooit, maar als je dat wel doet, ontdek je dat de leveranciers zichzelf al flink indekken. ChatGPT stelt dat ’je output zelf moet beoordelen op accuraatheid en geschiktheid’ en dat ’je geen output met betrekking tot een persoon mag gebruiken voor enig doel dat (…) en materiele impact zou kunnen hebben, zoals het nemen van (…) onderwijsbeslissingen over die persoon’. Co-pilot is ‘for entertainment purposes only’. Claude stelt over het gebruik van haar AI bij hoog risico toepassingen dat een ‘een gekwalificeerde professional in het werkveld de inhoud moet reviewen’ en dat ‘wanneer je AI gebruikt voor besluiten je dat moet aangeven bij degenen die daarbij betrokken zijn’. De verantwoordelijkheid ligt dus voor de volle 100% bij jou als gebruiker.
Tot slot is er ook onderwijswetgeving zelf, die een en ander zegt over het nakijken. Zo is er vastgelegd wie nakijkt, namelijk de ‘examinatoren’. Examinatoren kunnen zijn de conrector, adjunct-directeur, leden van de centrale directie en leraren van de school. Er kunnen deskundigen aangewezen worden als examinator, maar ook die opereren onder verantwoordelijkheid van het bevoegd gezag. Verder dient een genomen examenbesluit ook aangevochten te kunnen worden door de kandidaat, waarbij je dan moet kunnen uitleggen waarom je als examinator tot een bepaalde beoordeling bent gekomen. Dat kan ingewikkeld zijn als het nakijken is overgelaten aan generatieve AI gezien het gebrek aan herleidbaarheid.
Wat is wenselijk?
Bij het laten nakijken door AI spelen een aantal waarden op de achtergrond die ook verbonden zijn aan de rol van het centrale examen. Wat verwachten wij als maatschappij van een centraal examen? Allereerst zet het centraal examen een maatschappelijke standaard. Het geeft een diploma, wat maakt dat de kwaliteit en betrouwbaarheid onze bescherming verdient. Iedereen dient daarom zo gelijk als mogelijk beoordeeld te worden. Dit maakt dat waarden als accuraatheid en consistentie belangrijk zijn bij het beoordelen van het examen. Landelijk wordt dit gefaciliteerd en nagestreefd door correctievoorschriften, uitwisselingsfora, 1e en 2e correctie, etc.
Tegelijkertijd is het nakijken van het examen ook een intensief proces voor docenten. De wens om efficiëntie en werkverlichting is begrijpelijk. Dat maakt dat er ook begrip mag zijn voor diegenen die dit pad verkennen. Door alleen naar risico’s te kijken, verliezen we soms uit het oog dat er ook kansen liggen.
Tot slot is er ook een vraagstuk rondom soevereiniteit. Door het uitbesteden van nakijkwerk aan generatieve AI, maken we ons afhankelijker. We oefenen minder met het nakijken zelf, wat op de lange termijn problematisch kan zijn omdat we dan te weinig eigen kennis en kunde hebben. Ook maken we ons afhankelijk van een technologie die veelal in handen is van commerciële partijen (de Big Tech) met niet per se dezelfde waarden en belangen als de onderwijssector.
Dus…
Als we kijken wat er kan, dan zien we dat generatieve AI inherent beperkingen heeft als het op nakijken aankomt. Er zijn daarnaast allerlei (aanstaande) regels en vereisten met als doel de leerling te beschermen tegen oneigenlijk gebruik van AI. Tot slot meen ik dat onderliggende waarden weliswaar ruimte bieden voor verkenning, maar wel op verantwoorde wijze zodat andere waarden gerespecteerd blijven. Als ik dit alles weeg, zou ik zelf, als ik centrale examens zou nakijken, daarom geen generatieve AI gebruiken hiervoor. Waarmee ik tegelijkertijd ook de ruimte biedt voor eenieder om daar een eigen afweging te maken.
Onderliggende waarden bieden weliswaar ruimte voor verkenning, maar wel op verantwoorde wijze zodat andere waarden gerespecteerd blijven.
Wat kan er wel?
Want hoe zit het dan met die verkenning waar ik het eerder over had, kan er dan helemaal niets?
Een aantal docenten heeft in het verleden al aangegeven AI ‘secundair’ te gebruiken bij het nakijken. Dat betekent dat zij zelf het nakijkwerk verrichten en daarna AI gebruiken om hun nakijkwerk te analyseren. Bijvoorbeeld met de vraag of ze consistent hebben nagekeken. Op die manier gebruik je AI om je eigen nakijkwerk te verbeteren. Deze route is bijvoorbeeld ook benoemd in de AI Act en wordt juist niet gezien als hoog risico toepassing. Belangrijk blijft dan natuurlijk wel een verwerkersovereenkomst met het generatieve AI-systeem waarmee je dit doet. En ik betwijfel of deze aanpak recht doet aan de wens tot ‘efficiëntie’, omdat dit eerder tot een verzwaring van het nakijkwerk leidt dan tot een verlichting.
Ook in ‘den lande’ gebeurt er natuurlijk van alles. Vanuit de markt zijn een aantal partijen druk bezig met het vraagstuk en in korte tijd hebben zij al best flinke stappen gemaakt. Aan de wetenschapskant vindt er onderzoek plaats naar wat de ‘beste’ AI is om na te kijken. Want naast generatieve AI is er ook andersoortige AI die wel meer recht doet aan consistentie en transparantie. Verder vindt veldonderzoek vanuit CitoLab en NOLAI[i] plaats naar de effecten van nakijktechnologie in de klas, hoe ervaren docenten en scholieren dat? Binnen het hoger onderwijs is EduGenAI een interessante ontwikkeling waarbij generatieve AI op veilige(re) en verantwoorde wijze wordt ontsloten voor de onderwijssector. En enkele landelijke partijen die betrokken zijn bij de centrale examens kijken binnen het programma Digitalisering Centrale Examens[ii] ook naar de mogelijkheden die AI biedt bij de correctie.
Al met al worden daarmee stapsgewijs bouwstenen gelegd voor de toekomst. Dat kost tijd, maar niet omdat kansen niet gezien worden. De urgentie wordt gevoeld, maar ook gewogen naast het belang van een zorgvuldig proces rondom de centrale examens, die omwille van hun diplomerende werking een groot maatschappelijk belang hebben. Daarin innovatieve stappen voorwaarts zetten vraagt om een gedegen onderzoek zodat we echt snappen hoe nakijktechnologie werkt, met daarnaast een gezonde dosis lef, de bereidheid om binnen marges fouten te kunnen maken, een veilige AI-omgeving en bovenal, samenwerking van alle partijen die hieraan kunnen en willen bijdragen. Want uiteindelijk draait dit alles toch om de leerlingen. Zij hebben jarenlang toegewerkt naar de centrale examens, aan ons de eervolle en belangrijke taak om daar in alle zorgvuldigheid mee om te gaan.
Ik wens iedereen in het onderwijsveld de komende weken enorm veel succes. En bovenal alle leerlingen met het maken van hun centrale examens!!
(En als ik zo vrij mag zijn voor toch een persoonlijke noot, mijn oud-leerlingen op het Corbulo Tech & Design College in het bijzonder veel succes gewenst, zet hem op allemaal!!).

