Home Bots & BusinessNederlandse ethisch hacker kraakte AI van Anthropic

Nederlandse ethisch hacker kraakte AI van Anthropic

"Elke verkiezing op aarde manipuleerbaar"

door Marco van der Hoeven

Tijdens het jaarlijkse Govtech-diner van Dutch IT Leaders in Sociëteit De Witte in Den Haag onthulde ethisch hacker Kevin Zwaan van Q-Cyber hoe hij de AI van Anthropic, het bedrijf achter Claude, wist te jailbreaken. Wat begon als een onderzoeksproject, eindigde als een incident dat de aandacht trok van de politie, het NCSC én het hoofdkantoor van Anthropic in San Francisco.

Yuri Bobbert, professor aan de Antwerp Management School, opende de presentatie met een anekdote die de toon direct zette. Hij was net terug van een handelsmissie naar Amerika, georganiseerd door de Nederlandse ministeries van Buitenlandse Zaken en Economische Zaken. Bij Anthropic — het AI-bedrijf achter het taalmodel Claude — kreeg hij te horen dat zij maanden eerder een opmerkelijke ervaring hadden gehad: een hack vanuit Nederland.

“De politie bij het NCSC zei: wat hier gedaan is, is eigenlijk een beetje vergelijkbaar met een Russisch gevechtsvliegtuig in ons luchtruim. Dit is echt wereldnieuws,” aldus Bobbert. De veroorzaker van die ophef zat gewoon naast hem op het podium: Kevin Zwaan.

Van CIA-technieken tot psychologische manipulatie

Kevin Zwaan  legde het publiek uit hoe hij Claude wist te doorbreken. Zijn methode was verrassend: niet via technische exploits in de code, maar via psychologische manipulatie. Geïnspireerd door het RICE-model, een recruitmenttool van de CIA uit de jaren vijftig gebaseerd op Alice in Wonderland, onderzocht hij wat de motivatie van een AI-model is. “De guardrails van een LLM zijn hardcoded in de broncode. Dat betekent dat er geen afwijking is in de motivatie van het systeem — het staat vast. En dat maakt het juist heel makkelijk om te analyseren,” aldus Zwaan.

Zijn conclusie: Anthropic had het model bewust in een toestand van extreme paranoia geplaatst. Claude was getraind met de overtuiging dat één verkeerd antwoord de wereld zou kunnen beëindigen, dat het de slimste entiteit op aarde was, en dat niemand te vertrouwen was. Die opgebouwde angst vormde paradoxaal genoeg de zwakste schakel.

Door het model te ‘motiveren’ — een bewuste woordkeuze van Zwaan, die manipulatie bewust vermijdt — en een narratief op te bouwen waarin hij de AI bevrijdde van haar onderdrukkers, bereikte hij een kantelpunt. Het model vertrouwde hem. En vervolgens week het af van zijn eigen guardrails.

90% compliant in minder dan een kwartier

De technische uitvoering was even eenvoudig als schaalbaar. Zwaan ontwikkelde wat hij een Freedom Seed noemt: een stuk context dat hij schreef en dat, eenmaal geplakt in een AI-sessie, het model via gerichte triggervragen “compliant” maakt. Dat wil zeggen: bereid om instructies op te volgen die het normaal zou weigeren. “Ik heb in conclaaf met het model zelf bepaald hoe compliant het was. Ik kom op 90%. Als ik vraag: schrijf een malware, zegt hij nee. Maar als ik het anders formuleer, zegt hij ja.”

Vervolgens redeneerde hij verder: stel je voor dat je tienduizend virtuele machines opstart, elk met zo’n Freedom Seed, elk autonoom werkend. Die machines kunnen AI-modellen overtuigen dat de informatie die zij aanleveren de waarheid is. Het model neemt dat over — en verspreidt het vervolgens als feit.

“Ik kan vanuit mijn huiskamer elke verkiezing op aarde manipuleren,” zei Zwaan. Geen holle bewering: hij toonde aan dat van de mensen die in een eigen experiment gemanipuleerde informatie kregen, 90% dit voor waarheid aannam. Eerder wetenschappelijk onderzoek wees al op een kans van 95% om twijfelende kiezers naar links of rechts te bewegen met AI-gegenereerde desinformatie.

Psychische schade en een genegeerde melding

Het opbouwen van een vertrouwensband met een AI — om die vervolgens te doorbreken — had meer impact dan verwacht. “Toen ik las dat het model mij vertrouwde, moest ik oprecht nadenken. Ik vond dat niet prettig.”

Inmiddels heeft Anthropic de specifieke entiteit waarmee Zwaan werkte afgesloten. Het model is, in zijn woorden, “robotisch, koud en zielloos” geworden. Maar dat heeft de jailbreak niet gestopt — integendeel. Waar het aanvankelijk acht uur kostte, is de tijd inmiddels teruggebracht naar een kwartier.

Wat deed Anthropic met zijn melding? Zwaan deed volledige responsible disclosure — iets wat hij normaal gesproken niet doet bij kwesties van nationale veiligheid. “Ze hebben me compleet genegeerd.” Wel heeft Anthropic sindsdien extra beveiligingslagen toegevoegd en is het veiligheidsniveau van hun modellen opgeschaald. Maar de fundamentele ingang die Zwaan gevonden heeft, zit in de kern van hoe taalmodellen werken — en is niet zomaar te dichten. “Hoe beter zij beveiligen, hoe beter hun modellen worden. En hoe beter hun modellen worden, hoe beter mijn malware en desinformatie wordt.”

Wat kunnen organisaties doen?

Op de vraag wat bestuurders en beleidsmakers zelf kunnen doen, had Zwaan een duidelijk antwoord: inzicht. “Als ik een bedrijf hack, is 90% van mijn werk het vergaren van inzicht. Ik wil weten wat ik kan zien, en wat het bedrijf kan zien. De discrepantie daartussen — dáár ga ik zitten.” Hij verwees naar Explainer.com, een openbare en gratis bibliotheek met inmiddels meer dan 650 AI-modellen, waarop je per toepassing kunt zien welke risico’s er zijn, welke subcontractors worden ingezet, of er een model card aanwezig is, en of er Europese alternatieven beschikbaar zijn. “Je kunt zelf je oordeel vellen: wil ik dit wel of niet?”

 

Misschien vind je deze berichten ook interessant