Probeer je eens in de AI te verplaatsen
AI-taalmodellen zijn een steeds groter deel van ons leven geworden. Voor veel mensen blijft het echter lastig te begrijpen hoe zo’n taalmodel tot een bepaald antwoord komt. Vraag je het bijvoorbeeld om stemadvies, dan zegt het de ene keer ‘VVD’, maar een volgende keer net zo makkelijk ‘GroenLinks-PvdA’. En waarom is de manier waarop je een vraag stelt, de prompting, zo belangrijk? Als een taalmodel intelligent is, waarom blijft het dan zo onvoorspelbaar en heeft het zoveel sturing nodig?
Het onderliggende probleem is dat mensen zich moeilijk in een AI kunnen verplaatsen. Dat klinkt misschien vreemd, maar we verplaatsen ons als mensen wel voortdurend in andere mensen. Jonge kinderen kunnen dat nog niet, maar psychologisch onderzoek laat zien dat kinderen rond hun vierde levensjaar leren inschatten wat een ander denkt en wel of niet weet. Psychologen noemen dit theory of mind: de realisatie dat een ander persoon ook andere kennis en gedachten heeft.
Mensen verplaatsen zich dus automatisch in andere mensen, maar we doen dat niet van nature bij een AI. En dat is ook goed te verklaren: we hebben de AI niet zien leren, en hebben eigenlijk geen idee hoe het aan haar vaardigheden is gekomen. Taalmodellen leren namelijk buiten ons zicht: in al die grote datacenters die in onze polders verreizen. Daar doorlopen deze modellen eindeloos bestaande teksten (van het internet) om te leren voorspellen wat het juiste antwoord is op een bepaalde vraag.
De lezende AI-baby
Ook in dit proces kunnen we ons echter wel degelijk verplaatsen. Ik stel me een taalmodel dan voor als een baby die na de geboorte direct wordt opgesloten in een kamer (het datacenter in de polder). Het kind mag de kamer niet uit, maar we schuiven wel voortdurend teksten (van het internet) onder de deur door – die het kind begint te lezen. Zo wordt het kind over de jaren steeds beter in het begrijpen van tekst – in het voorspellen van volgordes van woorden.
Op de dag dat het kind volwassen wordt, doen we vervolgens de deur open: de opleiding is afgelopen. De jongvolwassene komt nu in een nieuwe kamer terecht, om te gaan werken in de maatschappij. Onze persoon neemt plaats achter een bureau, waar hij een nieuw stuk tekst te zien krijgt. De persoon leest de tekst en begint vervolgens een antwoord op te schrijven. Maar wat zal deze persoon antwoorden?
Dit is in een notendop het proces dat een AI-taalmodel doorloopt. Maar dat perspectief kan zo goed verklaren wat taalmodellen wel en niet kunnen. Zo toont het waarom taalmodellen uitgebreide context (een goede prompt) nodig hebben. Het taalmodel weet immers niets van jou als gebruiker: het heeft je niet zien opgroeien, weet niet hoe je dag verlopen is. De AI zit immers in die fictieve kamer en krijgt alleen jouw stukje tekst te zien. Geef daarom niet te weinig informatie (zoals ‘heb je een lekker recept?’), maar geef de AI de benodigde context (zoals ‘ik houd van de Aziatische keuken en wil niet langer dan 30 minuten koken’).
Door ons in te leven in de AI kunnen we ook verklaren waarom het zulke wisselende antwoorden kan geven – zoals de variatie in stemadvies. Onze AI-baby is immers niet opgegroeid als een individueel mens met een specifieke achtergrond, opleiding en (resulterende) mening). De AI-baby heeft alleen maar alle teksten van het internet gelezen, en is dus een soort combinatie van alle mensen op aarde. Wanneer je het dus om stemadvies vraagt, is het eigenlijk alsof je een willekeurig persoon op straat aanspreekt – en dan zul je ook de ene keer ‘VVD’ en de andere keer ‘GL-PvdA’ als advies krijgen.
Het kind in de kamer
Tot slot illustreert ons nieuwe perspectief hoeveel een taalmodel eigenlijk niet van de wereld weet. De AI-baby heeft immers een jeugd lang alleen maar tekst gelezen. Eigenlijk is het idioot hoeveel zo’n model uiteindelijk wel blijkt te kunnen. Het heeft immers nooit iets van onze buitenwereld gezien, maar alleen in een kamer gezeten met eindeloos veel teksten van buitenaf. Ik blijf het dan ook wonderbaarlijk vinden hoe intelligent de antwoorden van een puur taalmodel al zijn – hoe ver het al weet te komen.
Desondanks denk ik – en met mij vele AI-onderzoekers – dat je onze volledige wereld nooit kunt begrijpen op basis van tekst alleen. Pure taalmodellen zijn duidelijk geen ‘AGI’. Daarom wordt er al jaren gewerkt aan multimodale AI: modellen die naast tekst bijvoorbeeld ook leren van beeld of geluid. Ook daar helpt het weer om je te verplaatsen in de AI: het is alsof onze baby in de kamer nu een tablet met video’s onder de deur door krijgt – inclusief geluid en ondertiteling. Het voelt in eerste instantie vreemd om je op deze manier in een AI in te leven, maar ik denk dat het uiteindelijk veel begrip oplevert. Blijf je dus vooral inleven in je medemens, maar probeer het ook eens voor de AI.


