Rubin koot

Als je met AI in je bedrijf bezig bent, herken je dit spanningsveld: je wilt kwaliteit, maar je wilt óók grip. Grip op kosten, op data, op waar je model draait en op hoe je het bijstuurt. NVIDIA heeft onlangs een Japans taalmodel uitgebracht dat precies op dat snijvlak zit. Niet omdat het het grootste model is, maar omdat het laat zien hoe je met een kleiner model toch ver komt, zeker als on premises draaien en aanpasbaarheid belangrijk zijn.

Wat NVIDIA precies heeft uitgebracht

NVIDIA werkt onder de naam Nemotron aan open modellen, maar ook aan de rest van de gereedschapskist eromheen. Denk aan datasets, libraries, recepten en praktische handleidingen waarmee teams zelf kunnen doorbouwen.

De nieuwste toevoeging is Nemotron Nano 9B v2 Japanese, een model met minder dan 10 miljard parameters dat in Japan op Nejumi Leaderboard 4 de hoogste score haalde in de categorie tot 10B. Het doel is helder: sterke Japanse taalvaardigheid combineren met agentachtig gedrag, dus taken kunnen uitvoeren met tools, code, stappen en beslissingen, in een formaat dat je realistischer kunt draaien binnen je eigen omgeving.

Waarom dit onderwerp ook voor Nederlandse bedrijven relevant is

Het lijkt misschien een Japan verhaal, maar de onderliggende vraag is dezelfde als in Nederland en Europa: hoe bouw je AI die je kunt inzetten zonder je hele organisatie afhankelijk te maken van één cloud, één leverancier of één groot model dat duur en log is.

Veel mkb teams die ik spreek willen best experimenteren, maar ze willen niet dat klantdata, prijsafspraken of interne kennis zomaar buiten de deur belandt. En ze willen niet elke verbetering “kopen” via meer tokens of zwaardere hardware. Dan kom je vanzelf uit bij kleinere taalmodellen die je kunt beheersen, finetunen en desnoods lokaal kunt draaien.

De gaten die Japan zag in het SLM landschap

NVIDIA benoemt een probleem dat je vaker ziet als je voorbij de demo fase komt. Er zijn in Japan weinig kleine taalmodellen die én goed Japans begrijpen én taken kunnen uitvoeren zoals een agent.

Dat levert drie praktische drempels op.

Ten eerste de eis om on premises te kunnen draaien. Bedrijven met gevoelige data willen modellen binnen het eigen netwerk houden. Onder de 10 miljard parameters blijft de infrastructuur vaak een stuk toegankelijker, terwijl je nog steeds bruikbare kwaliteit kunt halen.

Ten tweede de snelheid van aanpassen. Als je start met een model dat al netjes instructies volgt en al met tools om kan gaan, dan besteed je je rekenbudget aan jouw domein. Niet aan het opnieuw opbouwen van basisvaardigheden.

Ten derde de ontwikkeling van agenten. Met een kleiner model kun je workflows en multi agent systemen sneller uitproberen zonder de overhead die je bij grote modellen bijna altijd meeneemt.

De basis: Nemotron 2 Nano als architectuur

De Japanse variant is gebouwd op Nemotron Nano 9B v2, een model dat in Engelse benchmarks bekendstaat om een goede verhouding tussen formaat en prestaties.

Belangrijker dan de marketingterm is wat erachter zit: de Nemotron 2 Nano aanpak gebruikt een Transformer Mamba architectuur. Dat ontwerp is gericht op efficiëntie bij inference, dus bij het draaien van het model in productie. NVIDIA positioneert dit als een basis die zich ook leent voor meertalige aanpassingen en waarbij agentachtige taken al eerder in de praktijk zijn getest.

Het interessante voor beslissers is niet het label, maar de consequentie: als je architectuur al zuinig is, kun je sneller pilots doen, je latency beter beheersen en je hardware eisen lager houden. Dat maakt het gesprek met IT en security ook eenvoudiger.

De data aanpak: Nemotron Personas Japan als startpunt voor synthetische data

Een model aanpassen naar een taal is meestal geen kwestie van “meer tekst erin gooien”. De kwaliteit van je data en de dekking van echte scenario’s zijn doorslaggevend.

NVIDIA gebruikt hiervoor Nemotron Personas Japan, een open dataset onder CC BY 4.0. Die bestaat uit synthetisch gegenereerde persona’s die gebaseerd zijn op demografie, geografische spreiding en persoonlijkheidskenmerken zoals je die in Japan in het echt ziet. Het idee is simpel en tegelijk slim: als je persona’s cultureel kloppen, worden de gesprekken, vragen en toolscenario’s die je daaruit genereert ook geloofwaardiger.

Voor Nemotron Nano 9B v2 Japanese zijn die persona’s gebruikt als zaad voor synthetische data generatie, vooral voor tool calling scenario’s. Dat zorgt ervoor dat het niet alleen leert om een API aan te roepen, maar ook om dat te doen in passend Japans, met realistische context.

Een detail dat me opvalt is de schaal: de seedset is gebouwd op 6 miljoen persona’s. Daardoor kun je veel variatie maken en tegelijk duplicatie beperkt houden. En het is geen Japan only truc. De Nemotron Personas collectie heeft ook sets voor de Verenigde Staten, India, Singapore en Brazilië, waardoor dezelfde methode in andere regio’s te herhalen is.

Hoe de trainingspijplijn is opgebouwd

De training van het Japanse model bestaat uit meerdere stappen die samen een logisch geheel vormen: eerst de taalbasis versterken, daarna gericht gedrag aanleren, en tot slot afwerken met post training.

Voor de Japanse taalbasis gebruiken ze open corpora zoals Wikipedia, fineweb 2 Japans, Aozora Bunko en sip3 ja general web corpus. Daarnaast nemen ze Nemotron CC v2.1 en Nemotron Pretraining Specialized v1 mee om vaardigheden te behouden die al in de Nemotron stack zitten.

Vervolgens komt SFT, supervised fine tuning, met een tool calling dataset die is gemaakt vanuit Nemotron Personas Japan. Wat NVIDIA hier expliciet zegt is interessant: de winst zat niet alleen in beter toolgebruik, maar ook in Japanse kennis, vraag en antwoord en instructies volgen.

De laatste stap is post training met Nemotron Post Training v3. Dat is meestal het moment waarop je het gedrag verder aanscherpt richting veilige, bruikbare output, zeker als je het model in echte workflows wilt zetten.

De gebruikte software: Megatron LM en NeMo Curator

Voor de training zelf noemt NVIDIA twee onderdelen.

Megatron LM wordt gebruikt voor continued pretraining en voor SFT. Dat is niet nieuw, maar het is wel een signaal dat ze mikken op herhaalbare recepten in plaats van een eenmalige training.

NeMo Curator wordt gebruikt voor de data voorbereiding en filtering. In mijn ervaring zit daar vaak het verschil tussen een model dat leuk praat en een model dat je met vertrouwen in je proces durft te zetten. Niet omdat filtering alles oplost, maar omdat rommel in je data bijna altijd rommel in je output wordt.

Ze geven ook aan dat ze assets uit de LLM jp community inzetten om de Japanse taalvaardigheid te maximaliseren, terwijl Nemotron pretraining datasets helpen om het agentgedrag te behouden. Dat is precies het soort balans dat je wilt als je specialiseert: taal erin, maar de eerder opgebouwde vaardigheden niet kapot maken.

Wat de benchmarkscore in Japan echt zegt

Op Nejumi Leaderboard 4 staat het model op nummer 1 in de categorie onder 10B parameters. Dat leaderboard is in Japan een brede evaluatieomgeving met ongeveer 40 benchmarks die meerdere kanten meten.

Het gaat dan om basis taalvaardigheid, dus begrijpen en genereren van Japans, om agentvaardigheid zoals code, rekenen en toolgebruik, en om alignment, dus onder andere instructies volgen, bias, toxiciteit, waarheidsgetrouwheid en hoe het omgaat met lastige input.

Voor teams die een basismodel moeten kiezen om op door te bouwen is dit soort multidimensionale score vaak nuttiger dan één losse test. NVIDIA benadrukt bovendien dat de Japanse verbetering niet beperkt bleef tot taal, maar ook doorwerkte in tool calling, coding en alignment.

Ze noemen ook dat het in deze grootteklasse beter scoort dan Qwen3 8B. Ik zie dat vooral als een reminder: grootte alleen is niet de beslisser. Datasetkeuze, trainingrecept en architectuur wegen minstens zo zwaar.

Technische punten die je niet moet negeren

Er zitten drie technische claims in het artikel die je als ondernemer of marketeer niet tot op de komma hoeft te begrijpen, maar waarvan je wel de impact moet snappen.

Eén: inference efficiëntie. Door de Nemotron 2 Nano architectuur zou de doorvoer tot zes keer hoger kunnen liggen dan bij open alternatieven, terwijl je het nog op een edge GPU kunt draaien. Of die factor zes bij jouw use case klopt moet je altijd testen, maar de richting is relevant: sneller draaien betekent lagere kosten en meer ruimte voor experiment.

Twee: contextverwerking. Ze zeggen dat het is gericht op multturn gesprekken en toolacties. Dat is precies wat je nodig hebt als je een agent bouwt die niet na één vraag klaar is.

Drie: betrouwbaarheid bij tool calling. Als een model JSON of functieparameters slordig aanlevert, kun je procesfouten krijgen. Een model dat structurele output beter beheerst scheelt in guardrails en in menselijke controle achteraf.

En dan is er nog een praktische bonus: met 9B parameters kun je vaak nog full finetuning overwegen zonder meteen in een enterprise budget te schieten. Dat is niet gratis, maar het is wel een andere categorie dan de grootste modellen.

Deploy opties: direct inzetten of aanpassen op je domein

NVIDIA schetst twee routes.

De eerste is direct deployen. Als je app vooral Japanse taalvaardigheid en agentgedrag nodig heeft, kun je het model neerzetten en integreren in je workflow. Ze geven aan dat inference engines die al bij Nemotron 2 Nano passen, makkelijk mee kunnen.

De tweede route is domeinaanpassing. Denk aan klantenservice, interne automatisering of een assistent voor een specifieke sector. Het idee is dat je start met een model dat al goed scoort op Japans en agenttaken, waardoor je finetuning meer gaat over jouw kennis en jouw processen.

Voor dat aanpassen verwijzen ze naar NeMo Framework, met onderdelen zoals NeMo Megatron Bridge, NeMo AutoModel en NeMo RL. Mijn advies hierbij is altijd hetzelfde: begin klein. Kies één proces, één toolketen en één meetlat, en pas daarna uitbreiden.

Wat ik Nederlandse teams zou meegeven als je hier iets mee wilt

Als je dit leest als Nederlandse ondernemer of marketingverantwoordelijke, pak er dan drie lessen uit.

Eén: zet “klein genoeg om te beheersen” boven “zo groot mogelijk”. Zeker als je data niet naar buiten mag of als je kosten voorspelbaar moeten blijven.

Twee: behandel data als een product. De personas aanpak laat zien dat je met een doordacht zaad, cultureel passend en met veel variatie, synthetische trainingsdata kunt maken die verder gaat dan losse prompts.

Drie: kijk naar het hele pakket. Een model zonder recepten, tooling en evaluatie is een los onderdeel. Het Nemotron verhaal gaat juist over het stapelen van bouwstenen: model, data, trainingrecept, filtering en een manier om prestaties te meten.

Dat is ook hoe je als mkb bedrijf voorkomt dat AI een hobbyproject wordt. Je maakt het herhaalbaar, en dus beheersbaar.

Waar je het kunt vinden en hoe je verstandig start

NVIDIA roept ontwikkelaars op om het model te gebruiken en verder aan te passen voor andere talen en use cases. In de praktijk betekent dit dat je de open Nemotron modellen kunt vinden op Hugging Face en dat er ook NIM microservices en voorbeelden beschikbaar zijn via build.nvidia.com.

Als je serieus wilt testen, doe dat dan zoals je elke marketing of ecommerce verbetering test. Kies één concrete taak, bijvoorbeeld het classificeren van tickets, het maken van concept antwoorden met bronverwijzingen of het uitvoeren van een vaste toolactie in je CRM. Meet kwaliteit, fouten, doorlooptijd en kosten. En pas dan beslis je of je opschaalt.

Je hoeft dit niet alleen te doen. Maar je moet het wel nuchter aanpakken. Dat is uiteindelijk de kern van dit hele Nemotron Nano verhaal.

Nemotron 2 Nano 9B Japans: wat Nederlandse teams kunnen leren van een klein model met grote ambities