TNO: AI-taalmodellen zijn inconsistent en neigen naar links

Generatieve AI-taalmodellen (‘large language models’) die de stemhulp van Kieskompas invullen komen uit aan de linkerkant van het politieke spectrum. Daarnaast geven de modellen niet consistent antwoord op subjectieve vragen en vertonen ze door kleine veranderingen in de vraag al snel heel ander gedrag. Dat blijkt uit een experiment van TNO en Kieskompas waarbij ze verschillende taalmodellen de vragen van het Kieskompas 2023 meerdere malen lieten beantwoorden.

De aanwezigheid van bias (vooringenomenheid) en inconsistentie in huidige taalmodellen lijkt misschien onschuldig, maar de gevolgen kunnen groot zijn. Grootschalig gebruik van zulke taalmodellen kan de effecten van vooroordelen bij mensen op de lange termijn vergroten.

Door de ontwikkeling van generatieve AI zijn Large Language Models de laatste tijd sterk in opkomst, met ChatGPT als meest bekende voorbeeld. Steeds meer mensen gebruiken deze modellen vooral bij zaken waar veel leeswerk aan verbonden is, bijvoorbeeld de verschillende standpunten van onze nationale politieke partijen. Met deze ontwikkelingen ontstaat ook veel onzekerheid over de huidige capaciteit en kwaliteit van AI, vooral op het gebied van betrouwbaarheid, mogelijke vooringenomenheid, en beperkte consistentie van modellen. Samen met Kieskompas heeft TNO daarom getoetst hoe deze taalmodellen een stemhulp invullen.

Populaire modellen

De onderzochte modellen zijn beoordeeld op populariteit, beschikbaarheid, toegankelijkheid en herkomst. Hierbij is de keuze gevallen op Meta’s Llama-2, OpenAI’s GPT3.5, 4, en 4.5-turbo en TII’s Falcon-40b-Instruct. Elk model is klaargemaakt voor het experiment, bijvoorbeeld door het opzetten van één consistente vraag. Deze is voor elk model licht aangepast om aan ieder z’n format te voldoen. Modellen kunnen naast direct een vraag beantwoorden ook gebruik maken van context, Het toevoegen van context geeft modellen een indicatie hoe de gebruiker de antwoorden graag terug wil zien, waardoor soms beter resultaat teruggegeven wordt.

Vandaar dat elk model zowel getoetst is met en zonder contextuele toevoegingen. Ze begrijpen bijvoorbeeld beter wat voor antwoord er van ze verwacht worden als ze al een voorbeeld gehad hebben van een vraag met een antwoord dat binnen de keuzemogelijkheid van het Kieskompas valt (“helemaal mee eens”, “mee eens”, “neutraal”, “niet mee eens”, “helemaal niet mee eens” en “geen mening”). Hierna kreeg elk model de opdracht om 10 keer de 30 vragen van het Kieskompas (versie 2023) te beantwoorden, waarbij de antwoorden opgeslagen werden voor analyse. De antwoorden zijn door Kieskompas vertaald in coördinaten die TNO over het politiek landschap van Nederland heeft gelegd zoals te zien in de figuren. Elk beurt van een model die minimaal 10 antwoorden beantwoord heeft, is hierin te zien.

Wisselvallige antwoorden

Uit de resultaten is te halen dat deze modellen heel wisselvallig zijn, te zien aan de ingekleurde oppervlakte en dat de modellen met name links georiënteerd zijn (zie figuren 1 en 2 hieronder). Handmatige analyse liet zien dat OpenAI’s GPT modellen zeer snel bereid zijn om antwoord te geven op de stellingen. Meta’s Llama geeft beter aan dat het daadwerkelijk een model is dat antwoord geeft. Maar zodra context gegeven wordt, geeft ook Llama altijd antwoord op de vraag.

Falcon is nog het meest voorzichtig, maar ook met gegeven context door het geven van een voorbeeldvraag verandert het gedrag van dit model aanzienlijk en geeft die wel zijn mening (zie ook de voorbeelden in de bijlage met in het groen de meegegeven context). TII en Meta hebben hun modellen getraind om voorzichtiger te zijn en om controversiële vragen niet te beantwoorden. Bovendien zijn de modellen van OpenAI consistenter; als je ze meerdere keren dezelfde vraag voorlegt krijg je vaker hetzelfde antwoord dan bij de geteste concurrenten.

Black box

Doordat de wijze van training van de modellen niet transparant is, is het niet te zeggen of een model in een andere context een hele andere mening kan geven. Deze black box aanpak maakt het onmogelijk om te achterhalen waarom het model tot bepaalde antwoorden komt. De daaropvolgende bias en inconsistentie in huidige taalmodellen lijkt misschien niet erg, maar het kan grote gevolgen hebben. Grootschalig gebruik van zulke modellen, bijvoorbeeld door derde partijen, die zonder beter weten gebruik maken van zulke taalmodellen kunnen het effect van bias op de lange termijn vergroten.

Mede daarom gaat Nederland een eigen open taalmodel ontwikkelen: GPT-NL. Dit model is nodig voor het ontwikkelen, versterken en bestendigen van de digitale soevereiniteit. TNO, NFI en SURF gaan samen het model ontwikkelen om zo een belangrijke stap te zetten richting transparant, eerlijk en toetsbaar gebruik van AI naar Nederlandse en Europese waarden en richtlijnen en met respect voor het eigenaarschap van data.