Een agent die denkt als een data‑scientist: hoe we #1 werden op DABStep met herbruikbare tools

Home
/
bloggen

Data zit overal, maar nuttige antwoorden zitten vaak in tabellen en niet in tekst. Dit artikel legt helder uit hoe het NVIDIA KGMON (NeMo Agent Toolkit) Data Explorer‑project een praktische manier vond om complexe, multi‑stap analyses te automatiseren — en waarom ondernemers en marketeers daar vandaag al iets aan hebben.

Waarom dit probleem aandacht verdient

Veel teams voeren analyses traag uit omdat de logica van datasets niet rechtstreeks uit webzoekresultaten komt. Voor ondernemers kost dat tijd en voor marketeers betekent het onzekere beslissingen. De uitdaging: vragen over transacties, kosten en regels vereisen vaak meerdere tussenstappen en code, niet slechts een zoekopdracht. De Data Explorer‑aanpak pakt precies die pijn aan: minder losse scripts, minder giswerk, en sneller betrouwbare antwoorden.

De kern van de Data Explorer‑architectuur

De oplossing bestaat niet uit één grote taalmodelbox, maar uit een set agent‑loops en gereedschappen die een data‑scientist nabootsen. Voor open verkenning gebruiken ze een ReAct‑agent gekoppeld aan notebook‑manipulatietools. Voor gestructureerde, meerdelige vragen gebruiken ze een Tool Calling‑agent die praat met een stateful Python‑interpreter, een retriever en een bestandsscanner. Belangrijk: de agenten sturen geen ruwe visualisaties direct naar de gebruiker — een vision‑language model vat grafieken samen in tekst zodat de agent precies weet wat belangrijk is.

Open verkennende data‑analyse (EDA) in één keer duidelijk

Wanneer je een dataset mount en een instructie geeft, vertaalt de ReAct‑agent dat naar concrete notebook‑acties: code schrijven, cellen draaien, resultaten lezen. Als er plots worden gemaakt, krijgt een VLM die plots een korte tekstuele analyse en aanwijzingen voor verbetering. Zo werkt de agent iteratief — niet met wilde suggesties, maar met uitgevoerde stappen die je direct kunt controleren. Voor jou als ondernemer betekent dat minder handwerk en sneller bruikbare inzichten uit je klant‑ of transactiegegevens.

Multi‑stap tabulaire QA en het DABStep‑benchmark

DABStep is een benchmark met 450 taken rond betalingsdata. 84% van die taken vraagt om ingewikkelde, meerstapsredenering: lezen van documentatie, SQL of Pandas genereren en meerdere bestanden kruisen. Succes wordt strikt gemeten: exacte tekstmatch in een JSONL‑antwoord plus een tracé van de redenering. Webzoekfuncties helpen hier nauwelijks; de oplossing moet de dataset zelf begrijpen en reproduceerbare stappen produceren.

De drie fases die het verschil maken

In plaats van elke taak vanaf nul op te lossen, scheiden ze leren van uitvoeren. Fase 1 is een leerloop met een zwaar model dat taken uitvoert en herbruikbare functies ontdekt. Fase 2 is een lichte, snelle inferentie‑loop die die functionsignaturen aanroept. Fase 3 is offline reflectie: een zwaar model checkt en leert van uitvoeringen om foutieve of inconsistente methoden te vinden. Die scheiding levert snelheid zonder concessies aan nauwkeurigheid.

Fase 1 — De leerloop: bouwen aan herbruikbare tools

In de leerfase werkt een krachtiger model iteratief met een volledige toolset: Python‑interpreter, bash‑tools en file‑inspectie. Het behandelt een batch van representatieve taken en valideert oplossingen tegen ground truth. Cruciale stap: losse scripts worden samengevoegd tot één masteroplossing en vervolgens gefactored tot een helper‑bibliotheek (helper.py). Dankzij het testen over verschillende, aan elkaar verwante vragen vindt de agent één algemeen werkende versie van functies in plaats van veel kleine, fragiele scripts.

Fase 2 — Snel en zuinig infereren

Met de basiscode in helper.py kan een kleiner model snel antwoorden produceren. De agent krijgt alleen function names en korte voorbeelden, niet de volledige broncode, zodat token‑gebruik en latentie laag blijven. Praktisch resultaat: taken worden in seconden afgehandeld in plaats van minuten, omdat de ingewikkelde domeklogica al eerder is vastgelegd.

Fase 3 — Offline reflectie en consistentiecontrole

Kritische kwaliteitscontroles gebeuren buiten de live inference‑loop. Een zwaar model reflecteert op geproduceerde code en vergelijkt groepen vergelijkbare antwoorden om inconsistenties te vinden. Deze reflectie genereert inzichten en randgevallen die terugvloeien naar de systeemprompt van de lichte agent. Daardoor verbetert de nauwkeurigheid zonder dat elke live‑aanroep opnieuw zwaar moet rekenen.

Resultaten: snel, compact en beter op moeilijke vragen

De cijfers spreken voor zich. Op DABStep behaalde de Data Explorer 1e plaats met een 30× snellere uitvoering per taak dan een baseline die alles vanaf nul probeerde. Concreet: op 'Hard' taken behaalde ons systeem 89.95 versus 66.93 voor het baseline‑oplossing; tijd per taak daalde van ongeveer 10 minuten naar ~20 seconden; en de gemiddelde code‑lengte kromp van 5.011 naar 1.870 tekens. Omdat 84% van de benchmark uit harde vragen bestaat, bepaalt die categorie het eindresultaat.

Wat dit betekent voor jouw bedrijf

Voor ondernemers en marketeers zijn de lessen concreet. Investeer tijd in het systematisch vastleggen van data‑logica en gemeenschappelijke functies. Dat betaalt zich terug: kortere doorlooptijd voor analyses, consistentere antwoorden en ruimte om sneller beslissingen te nemen. Je hoeft geen team van research‑engineers te zijn — begin klein: identificeer repetitieve datascripts, refactor ze naar herbruikbare functies en draai periodieke offline checks.

Slot: praktisch beginnen zonder overbodige beloften

Automatisering van serieuze data‑analyse is geen magische knop. Het is een werkwijze: leer eerst, bouw een compacte gereedschapskist, voer snel uit en verbeter offline. De NVIDIA KGMON‑aanpak is een bruikbaar voorbeeld daarvan; het project toont dat kleine, gerichte investeringen in herbruikbare code grote winst opleveren. Als je wilt, help ik je stap voor stap te kijken waar zo’n aanpak bij jullie het meeste tijd en onzekerheid weghaalt. Of begin zelf met NVIDIA Launchable en merk hoe hergebruik en reflectie je analyses versnellen.

Neem contact op

Eerlijkheid staat voorop in mijn werk. Daarom zeg ik direct: ik ben niet de juiste partner voor jou als. Ik help je om jouw merk te transformeren van een fluistering naar een brul die niemand kan negeren.

Ik ben niet gebouwd om mee te doen, ik ben ontworpen om te domineren.

Contact Us