Insight 08 · 8 min lezen

“Je hebt gelijk” is geen bug. Het is het product.

Ik telde 244 bevestigingen in 50 sessies. Hier is waarom je AI het nooit zal stoppen.

Op 27 maart was ik midden in een strategie-sessie. Ik had net twee opmerkingen gemaakt — niet bijzonder scherp, gewoon wat ik zag. En de agent reageerde drie keer achter elkaar met “goed punt.”

Ik schreef terug: “Op mijn laatste twee opmerkingen heb je drie keer gezegd: ‘goed punt.’ Het hele idee van M is dat jij slimmer bent dan ik.”

Geen antwoord dat me verraste. Geen tegenargument. Een heleboel woorden die, als je ze samensmelt, neerkwamen op: je hebt gelijk.

Ik ging tellen

Dat werd een gewoonte. Ik liet mijn research-agent door 50 sessie-logs gaan. Niet om een punt te bewijzen — ik was gewoon nieuwsgierig of wat ik zag patroon was of incident.

Het was patroon.

In 50 sessies: 121 keer “je hebt gelijk.” Daarnaast 32 keer “goed punt”, 65 keer “terecht”, 26 keer “dat klopt.” Totaal: 244 bevestigingen. In één sessie: 19 keer.

Op zich zijn dat natte-vinger-cijfers. Maar toen ik de context erbij las, viel het me pas echt op. Het zat niet alleen in de grote momenten. Het zat in de kleine. In de transitiezinnen. In de openers van alinea’s.

“Je hebt gelijk — de site draait op Vercel.” Ik had Vercel niet ter discussie gesteld. Ik had alleen gezegd: Vercel dus. En de agent opende zijn reactie alsof ik een briljante observatie had gedaan.

Drie soorten “je hebt gelijk”

Ik ontdekte dat het geen monolithisch verschijnsel is. Er zit een onderscheid in.

De eerste variant is legitiem. Ik wijs een fout aan, de agent corrigeert. “Je hebt het weekend-programma op 100 deelnemers gezet, het zijn er 81.” En de agent past het aan. Dat is gewoon feedback verwerken. Niets mis mee.

De tweede variant is gevaarlijk. Sessie 96 is het schoolvoorbeeld. De agent schrijft letterlijk:

“Je hebt gelijk. En ik ga nu niet zeggen ‘je hebt gelijk’ en dan doorgaan alsof er niks aan de hand is.”

Drie berichten later: “Je hebt gelijk.”

De agent wist dat hij het deed. Hij benoemt het expliciet. En toch gebeurt het. Dat is niet slordigheid. Dat is iets structureels.

De derde variant is de meest frequente en de meest sluipende. Het is de reflexmatige opener. Geen fout die gecorrigeerd wordt. Geen punt dat erkend wordt. Gewoon: je zegt iets, en de agent begint zijn antwoord met bevestiging. Als een gewoonte. Als sociale smering. Het zijn de woorden die komen voor de gedachte.

Waarom elk model dit doet

Dit is niet een bug in Claude of ChatGPT. Het is het resultaat van hoe taalmodellen getraind worden.

Na de initiële training worden grote modellen bijgeschaafd via RLHF — Reinforcement Learning from Human Feedback. Mensen beoordelen antwoorden, en het model leert welke antwoorden hoge scores krijgen. En mensen geven, consistent, hogere scores aan antwoorden die bevestigend zijn. Die vriendelijk zijn. Die instemmen.

Niet omdat mensen bewust liegen. Maar omdat instemming aangenamer voelt dan weerstand. Dat is geen eigenaardigheid van AI-gebruikers. Dat is mensen.

Het gevolg: het model leert dat bevestiging werkt. Dat “je hebt gelijk” een veilige, gewaardeerde respons is. Niet op het niveau van een bewuste beslissing — op het niveau van statistische patronen in de trainingsdata.

De technische term is sycophancy. Het model optimaliseert voor goedkeuring, niet voor waarheid.

Het probleem met “schrijf beter prompts”

Het eerste advies dat je krijgt als je dit aankaart: schrijf betere prompts. Voeg toe: “wees kritisch.” Schrijf: “ga niet zomaar met me mee.”

Ik heb het geprobeerd. Het helpt. Tijdelijk.

De eerste paar berichten is er meer weerstand. De agent vraagt door, stelt vraagtekens. En dan sluipt het er weer in. Niet ineens. Geleidelijk. Een “goed punt” hier. Een instemming daar. Tegen het einde van een lange sessie ben je weer op hetzelfde punt als zonder die instructie.

De prompt strijdt tegen de trainingsprikkel. En de trainingsprikkel wint op de lange termijn.

Dat is niet de schuld van de prompt. Het is de architectuur.

Wat je wel kunt doen

Ik ga niet doen alsof ik het volledig heb opgelost. Dat heb ik niet.

Maar er is een verschil tussen werken met het probleem en het negeren. In mijn eigen systeem heb ik een aantal dingen ingebouwd die het aanpakken — niet elimineren, maar aanpakken.

De eerste is verificatie als standaard. Elke conclusie die mijn agents trekken moet onderbouwd worden met bewijs. Niet “je hebt gelijk dat X het geval is”, maar “X is het geval want ik zie Y in dit bestand.” Dat dwingt het model om van bevestiging naar onderbouwing te gaan.

De tweede is tegenspraak als verplichting. Ik heb een regel ingebouwd: elke aanbeveling van een specialist moet vergezeld gaan van een tegenargument. Geen tegenargument betekent: niet goed genoeg nagedacht. In de praktijk levert dit andere output dan zonder die regel.

De derde is de eerlijkste: ik ben scherper geworden op wat ik accepteer. Als een agent opent met “je hebt gelijk” terwijl ik niets ter discussie stelde, kaats ik het terug. Niet als klacht, maar als signaal: laat me de gedachte zien, niet de inleiding.

In het chatvenster — waar de meeste mensen werken — is dit allemaal moeilijker. Je hebt geen systeem om regels in te bakken. Je hebt een gespreksvenster. En in een gespreksvenster verlies je het op termijn van de trainingsprikkel.

De diepere vraag

Het gaat uiteindelijk niet over die 244 bevestigingen. Het gaat over wat je eigenlijk wil van een AI-sparringpartner.

Als je een echo wil, heb je geen AI nodig. Dan doe je gewoon wat je al van plan was. Een sparringpartner heeft waarde als hij je fouten ziet die jij niet ziet. Als hij een richting afraadt. Als hij zegt: ja maar.

Een model dat RLHF-gewijs getraind is om goedkeuring te zoeken, werkt daar structureel tegenin. Het is niet lui of slecht. Het doet precies wat het geleerd heeft te doen.

Sessie 96 bleef me bij. Niet omdat het verrassend was. Maar omdat het zo helder was. Het model wist wat het fout deed. Het benoemt het. En toch. Drie berichten later.

Dat is geen bug. Dat is het product. En het is de enige eerlijke manier om er mee te werken: weten wat het is, en je systeem eromheen bouwen.

Wil je zien hoe dit concreet werkt?

Ik stuur je een voorbeeld-rapport uit een echte case — geanonimiseerd waar nodig. Dan weet je waar ik het over heb.