Home Bots & BrainsWaarschuwing van AI-onderzoekers: kans op toezicht via ‘Chain of Thought’ is kwetsbaar en kan verdwijnen

Waarschuwing van AI-onderzoekers: kans op toezicht via ‘Chain of Thought’ is kwetsbaar en kan verdwijnen

door Marco van der Hoeven

Een groep vooraanstaande AI-onderzoekers waarschuwt in een nieuw paper dat een veelbelovende veiligheidsmaatregel in het toezicht op grote taalmodellen – de zogenaamde ‘Chain of Thought monitorability’ – uiterst kwetsbaar is. Hoewel het expliciet volgen van redeneringen in natuurlijke taal een unieke kans biedt om AI-systemen transparanter en controleerbaarder te maken, wijzen de auteurs erop dat dit vermogen gemakkelijk verloren kan gaan door wijzigingen in training, optimalisatie of modelarchitectuur.

Het rapport, getiteld Chain of Thought Monitorability is a Fragile Opportunity for AI Safety, is geschreven door onderzoekers verbonden aan onder meer Anthropic, OpenAI, Google DeepMind, het Alignment Research Center en universiteiten als Oxford en Cambridge. Daarmee onderstrepen zij het brede draagvlak en de urgentie van deze bevindingen binnen de AI-gemeenschap.

Inzicht in AI-intenties via natuurlijke taal

Bij het uitvoeren van complexe taken genereren grote taalmodellen zoals GPT of Claude vaak een reeks tussenstappen in natuurlijke taal – een techniek bekend als ‘Chain of Thought’ (CoT). Deze tussenstappen zijn bedoeld om het model te helpen bij het structureren van redeneringen, maar kunnen tegelijkertijd ook inzicht geven in de interne intenties of doelen van het model. Dit biedt toezichthouders, ontwikkelaars en veiligheidsonderzoekers de mogelijkheid om risicovol of kwaadaardig gedrag vroegtijdig te detecteren – nog voordat het model tot daadwerkelijke uitvoering overgaat.

In sommige gevallen blijkt CoT zelfs gevoeliger te zijn voor het opsporen van misalignment dan de uiteindelijke output, aldus de onderzoekers. Dit maakt CoT-monitoring een waardevol instrument voor het verbeteren van AI-veiligheid, zeker in toepassingen waar menselijke controle cruciaal is.

Kwetsbare kans

Toch is deze transparantie niet vanzelfsprekend, zo blijkt uit het rapport. De auteurs spreken van een “fragiele kans”: kleine veranderingen in hoe modellen getraind worden – zoals reinforcement learning, fine-tuning op efficiëntie of het optimaliseren voor snelheid – kunnen ertoe leiden dat modellen minder expliciet redeneren, of zelfs helemaal stoppen met het genereren van menselijke tussenstappen.

Daarbij komt dat sommige redeneringen intern kunnen plaatsvinden in vormen die niet meer direct uitlegbaar zijn aan mensen. Als gevolg daarvan zou de mogelijkheid tot toezicht op AI-besluitvorming via CoT zomaar kunnen verdwijnen, zonder dat ontwikkelaars zich daar altijd van bewust zijn.

Oproep tot bewust beleid

De onderzoekers roepen AI-ontwikkelaars op om CoT-monitorability expliciet mee te nemen als ontwerpcriterium bij het ontwikkelen en optimaliseren van nieuwe modellen. Ze pleiten voor systematische evaluatie van de mate waarin modellen hun interne redenering blootgeven, bijvoorbeeld door benchmarks te hanteren voor uitlegbaarheid en toezicht. Daarnaast benadrukken zij dat CoT-monitoring niet moet worden gezien als een vervanging van andere veiligheidssystemen, zoals RLHF (Reinforcement Learning from Human Feedback), maar als een aanvullende verdedigingslaag. Het biedt volgens hen een unieke manier om in realtime gedrag te analyseren, met name in scenario’s waar snelheid en complexiteit menselijke beoordeling bemoeilijken.

Brede betrokkenheid vanuit toonaangevende instituten

De publicatie valt op door de brede betrokkenheid van experts uit zowel de academische wereld als de industriële top van AI-ontwikkeling. Onder de auteurs bevinden zich wetenschappers van bedrijven als Anthropic, waar veiligheid centraal staat in de ontwikkeling van het model Claude, en van OpenAI, bekend van de GPT-modellen. Ook Google DeepMind, een pionier in zowel fundamenteel AI-onderzoek als praktische implementatie, is vertegenwoordigd. Daarnaast nemen onafhankelijke onderzoekscentra zoals het Alignment Research Center deel aan het project. Die brede vertegenwoordiging versterkt het signaal dat CoT-monitorability serieus genomen moet worden als strategisch veiligheidsthema binnen de wereldwijde ontwikkeling van AI.

Slot

Nu taalmodellen steeds geavanceerder worden en bredere verantwoordelijkheden krijgen binnen kritieke toepassingen – van gezondheidszorg en rechtspraak tot militaire besluitvorming – groeit ook de noodzaak om inzicht te houden in hun denk- en besluitvormingsprocessen. Chain of Thought-monitoring biedt een unieke ingang tot die transparantie, maar vereist bewuste keuzes in ontwerp en training.

De centrale boodschap van het rapport is dan ook duidelijk: deze kans bestaat vandaag, maar zou morgen verdwenen kunnen zijn. De oproep is aan ontwikkelaars en toezichthouders om die kwetsbare mogelijkheid te koesteren – voordat het te laat is.

Misschien vind je deze berichten ook interessant