
Een kort en eerlijk overzicht van een experiment dat we moeten begrijpen als we AI-systemen inzetten voor productontwikkeling: onderzoekers maakten 15 miljoen synthetische Python‑problemen, trainden een model met 10 miljard tokens daarvan en zagen de HumanEval‑score stijgen van 73 naar 79. Hier leg ik uit wat er precies gebeurde, waarom het relevant is voor jou als ondernemer of marketeer, en welke stappen je praktisch kunt nemen als je met gerichte data‑strategieën wilt experimenteren.
Wat is ‘concept‑gedreven’ synthetische data en waarom zou je er om geven?
De term verwijst naar het gericht genereren van trainingsdata die specifieke kennisgebieden of vaardigheden belichten. In plaats van willekeurige grote hoeveelheden tekst of code, kies je een set relevante concepten (zoals recursie, sets of grafalgoritmen) en laat je op basis daarvan voorbeelden maken. Dat is belangrijk omdat veel modellen juist leren wat vaak voorkomt in de data; als een vaardigheid zelden expliciet voorkomt, blijft die zwak. Voor jou als ondernemer is de gedachtewaardig: je kunt niet altijd meer data verzamelen uit de echte wereld, maar je kunt wel doelgericht voorbeelden ontwerpen om je model beter te maken voor de taken die er echt toe doen.
Hoe het Code Concepts‑experiment werkte — in heldere stappen
De onderzoekers bouwden eerst een taxonomie van programmeerconcepten. Die taxonomie ontstond uit annotatie van bestaande codevoorbeelden en groeide uit tot duizenden concepten, hiërarchisch georganiseerd van basis (strings, lussen) tot geavanceerde patronen (graphalgoritmes, computationele geometrie). Vervolgens selecteerden ze 91 kernconcepten die relevant zijn voor de HumanEval‑benchmark. Met die concepten als ‘seeds’ lieten ze een grote taalmodelvariant (GPT‑OSS 120B) open‑ended problemen genereren: combinaties van concepten plus instructies en randvoorwaarden werden omgezet in een programmeeropgave met bijbehorende oplossing. Elke gegenereerde oplossing werd gecontroleerd op syntactische correctheid met Python’s ast.parse en door filters gehaald. Het resultaat: ongeveer 15 miljoen unieke Python‑problemen die samen de Nemotron‑Pretraining‑Code‑Concepts subset vormen, vrijgegeven onder een CC‑BY‑4.0‑licentie.
Een concreet voorbeeld van de aanpak
Een handige illustratie: combinaties als data‑structures.sets.operation, algorithms.arrays.processing en algorithms.geometry.computational leidde tot een probleem over het tellen van onderscheiden convex‑hull‑oppervlakten uit alle voldoende grote deelverzamelingen van een lijst punten. Anders gezegd: door gerichte conceptcombinaties te gebruiken kunnen generatoren niet alleen eenvoudige tests maken, maar ook vakmanschapsachtige problemen die meerdere vaardigheden tegelijk aanspreken. Dat is precies wat je wilt trainen als je een model robuuster wilt maken in realistische programmeertaken.
De uitkomst: wat het toevoegen van die data opleverde
Om de dataset te testen voegden de onderzoekers ongeveer 10 miljard tokens van Code Concepts toe aan de laatste 100 miljard tokens van Nemotron‑Nano‑v3 pretraining. Het model dat met deze data is getraind steeg op HumanEval van 73 naar 79 procent nauwkeurigheid — een verbetering van zes procentpunt. De meeste andere benchmarks bleven vrijwel gelijk, maar de verbetering op codegeneratie en een betere afhandeling van randgevallen waren zichtbaar in kwalitatieve analyses. Kortom: doelgerichte synthetische voorbeelden kunnen gerichte vaardigheidsgroei opleveren zonder dat je het hele modelprofiel verandert.
Waarom dit relevant is voor jouw bedrijf — praktisch vertaald
Als jij een product bouwt dat op code‑generatie, geautomatiseerde scripts of technische klantenservice leunt, is dit een directe aanwijzing: in plaats van alleen te vertrouwen op generieke, grote datasets kun je gerichte synthetische data gebruiken om zwakke plekken van je model weg te werken. Voor marketeers: het betekent dat tools waarmee je content of scripts automatisch genereert, sneller bruikbare resultaten kunnen leveren wanneer ze zijn bijgeschaafd met taakgerichte voorbeelden. Je hoeft het wiel niet opnieuw uit te vinden, maar je moet wél selectief nadenken over welke vaardigheden het verschil maken voor je gebruikers.
Hoe je klein, praktisch en verantwoord begint met deze aanpak
Begin met een heldere vraag: welke taak levert vandaag de meeste fouten of vragen op? Maak een korte conceptlijst (5–20 items) die die taak direct raakt. Laat een generator voorbeelden maken, maar bouw automatische kwaliteitschecks in: syntaxiscontrole, een set unit tests en steekproef‑review door een engineer. Train eerst op een paar honderdduizend tot een paar miljoen tokens — genoeg om een signaal te zien maar niet zo veel dat je de hele workflow omgooit. Meet op dezelfde benchmarks en in echte gebruikersscenario’s. Houd metadata bij: welke concepten, welke generatorprompt, welke filters. Dat voorkomt dat je blinde plekken introduceert of overfit op je testdata.
Beperkingen en valkuilen om te vermijden
Synthetische data is geen wondermiddel. Er zijn risico’s: overfitting op kunstmatige patronen, bias in de generator‑prompts, en het gevaar dat gegenereerde voorbeelden nooit precies lijken op echte gebruikerscases. Validatie is cruciaal — meer nog dan bij echte data — omdat fouten systematisch kunnen insluipen in duizenden voorbeelden. Daarnaast: openlicenties zoals CC‑BY‑4.0 maken delen mogelijk, maar vereisen veilige omgang met privacy en intellectueel eigendom wanneer je echte bedrijfscode als seed gebruikt.
Concrete aanbevelingen — wat te doen deze maand
1) Identificeer één zwakke use‑case (buggy codegenerator, slechte script‑suggesties). 2) Maak een conceptlijst van 5–10 vaardigheden die die use‑case raakt. 3) Genereer een kleine synthetische set en automatiseer syntaxis‑ en functionele checks. 4) Meet op je eigen KPI’s en op een open benchmark waar mogelijk. 5) Besluit op basis van gemeten winst of je de aanpak op grotere schaal inzet. Doe dit iteratief; je leert meer van drie korte experimenten dan van één groot project dat maanden duurt.
Slot — een nuchtere blik op mogelijkheden
Dit onderzoek laat zien dat gerichte synthetische data een werkbare hefboom is om specifieke modelvaardigheden aan te scherpen. Ik heb gezien dat bedrijven te vaak in twee fouten vallen: niets doen omdat echte data schaars lijkt, of blind opschalen met alles wat beschikbaar is. Beide zijn onnodig. Start klein, meet scherp en bouw je concept‑taxonomie langzaam op. Als je dat doet, hoef je niet te gokken welke data je model beter maakt — dan weet je het.