Een AI die "klaar" zegt heeft niet per se iets gedaan

Een van mijn systemen verzamelt elke dag het nieuws voor mijn supporterssite. Een dag lang deed het niets, en meldde dat het gelukt was. Wat die stille mislukking me leerde over automatiseren.

Een tijdje geleden schreef ik over de systemen die draaien terwijl ik slaap. Eén daarvan verzamelt vier keer per dag het nieuws over AZ, de club waar ik een supporterssite voor draai. Het haalt artikelen op, gooit dubbele weg, scoort wat de moeite waard is, en legt een lijstje klaar dat ik 's ochtends in een paar minuten doorloop.

Een dag lang deed het niets. En het vertelde me dat het gelopen had.

Klaar is niet hetzelfde als gedaan

Zo'n taak werkt in twee stappen. Eerst start het systeem de opdracht, daarna voert een AI hem uit. Wat er gebeurde: de opdracht startte netjes, de AI noteerde dat hij klaar was, en het echte werk gebeurde niet. Geen foutmelding. Geen rode vlag. In het logboek stond gewoon: gelukt.

Ik kwam er niet achter door een waarschuwing, want die was er niet. Ik kwam er bij toeval achter. Ik vergeleek het moment waarop de taak zei dat hij gedraaid had met het moment waarop er voor het laatst echt nieuws was binnengehaald. Die twee liepen een dag uit elkaar. Het systeem dacht dat het werkte. Het werkte niet.

Het vangnet dat ik zelf had weggehaald

Een paar dagen eerder had ik opgeruimd. Er stond een tweede taak die bijna hetzelfde deed, en die zag eruit als rommel. Dubbel werk, dacht ik, weg ermee.

Die dubbele taak was geen rommel. Het was mijn vangnet. Zolang hij meedraaide ving hij precies dit soort stille mislukkingen op: als de ene het liet afweten, deed de andere het werk alsnog. Door op te ruimen had ik de zekerheid weggehaald zonder het te weten. Het probleem bestond waarschijnlijk al langer. Ik zag het pas toen ik de reserve had weggegooid.

Wat ik heb veranderd

Ik heb die nieuwsverzameling weggehaald bij de denkende AI en op een dom scriptje gezet. Letterlijk dom: het doet elke keer exact hetzelfde, het maakt geen keuzes, het kan niet besluiten dat het vandaag even overslaat. Niet elke taak heeft oordeel nodig. Nieuws ophalen is mechanisch werk. Dat hoort bij een mechanisme, niet bij iets dat nadenkt.

De AI mag blijven doen waar hij goed in is: beoordelen wat de moeite waard is om te lezen. Het ophalen zelf is teruggegaan naar iets wat niet kan twijfelen. Inmiddels is ook dat beoordelen verhuisd: een klein model op mijn eigen Mac doet nu het sorteerwerk.

Wat een ondernemer hieraan heeft

Twee dingen, en ze gelden breder dan voetbalnieuws.

Het eerste. Een AI die meldt dat hij klaar is, heeft niet per se iets gedaan. Het uitblijven van een foutmelding is geen bewijs dat het werkte. Als je iets automatiseert, bouw dan een manier om te zien dat het echte werk gebeurd is, niet alleen dat het programma is gestart. Vertrouw op een resultaat dat je kunt aanwijzen, niet op de melding dat alles goed ging.

Het tweede. Wees voorzichtig met wat je overbodig noemt. Soms is het systeem dat dubbel lijkt precies het systeem dat je opvangt als de rest faalt. Opruimen voelt goed, maar je haalt er soms een zekerheid mee weg waarvan je niet wist dat je hem had.

De AI heeft niet tegen me gelogen. Hij verwarde alleen "ik ben begonnen" met "ik ben klaar." Dat verschil zien is zo'n beetje het hele werk van deze systemen draaiende houden.