Rubin koot

AI kan veel economische waarde toevoegen, maar zonder geschikte trainingsdata blijft dat potentieel stoffig in de kast staan. Het Japanse voorbeeld met synthetische persona's laat zien hoe je met weinig eigen data toch modelkwaliteit en privacy kunt combineren. Als je bedrijf in Nederland wil werken met domeinspecifieke AI — voor klantenservice, research of marketing — zijn hier concrete lessen en stappen die direct toepasbaar zijn.

Een andere route

In Japan wordt veel gesproken over de economische waarde van AI. Maar één ding blokkeert vaak vooruitgang: bruikbare trainingsdata. Voor Engels bestaan er enorme datasets; voor lokaal gebouwde systemen die Japanse taal en cultuur moeten begrijpen, ontbreekt die basis vaak. Dat maakt verzamelen, opschonen en labelen traag en kostbaar. NTT DATA laat zien dat je die muur kunt afbreken door synthetische data te gebruiken. Met Nemotron-Personas-Japan — een openbare set van 6 miljoen Japanse persona's gemaakt met NeMo Data Designer — behaalden ze een enorme verbetering in modelnauwkeurigheid zonder gevoelige data te delen. Kort gezegd: met een kleine hoeveelheid eigen voorbeelden kun je je dataset uitbreiden naar productieniveau en toch privacy behouden.

Het experiment

NTT DATA zette een gecontroleerde test op met fictieve juridische documenten, zodat het model écht nieuwe kennis moest leren. Ze gebruikten 500 persona's uit Nemotron om 450 ruwe voorbeelden uit te breiden tot meer dan 138.000 trainingsvoorbeelden — ongeveer 300 keer groter dan handmatig mogelijk is. De uitkomst: accuratesse steeg van 15,3% naar 79,3%. Belangrijker nog, de synthetische data verminderde hallucinerend gedrag: waar het ongetrainde model plausibele maar onjuiste juridische classificaties verzon, leerde het fijngetunede model precieze termen te herkennen zonder extra ruis. Praktisch effect: Continued pre-training (CPT) bleek minder noodzakelijk wanneer er voldoende synthetische fine-tuningdata beschikbaar was. Simpel gezegd: je kunt vaak directe supervisiegerichte fine-tuning (SFT) inzetten en zo besparen op compute en tijd.

Privacy by design

Meer dan 90% van waardevolle bedrijfsdata blijft vaak onaangeraakt vanwege wetgeving, beveiliging en licentiebeperkingen. In Japan speelt de Personal Information Protection Act en de AI-richtlijn van september 2025 een rol: zorgvuldig omgaan met data is geen keuze maar verplicht. Synthetische data biedt een uitvoerbare tussenweg. Door voorbeelden te genereren die gedrags- en taalpatronen nabootsen zonder identificeerbare persoonsgegevens, kun je data-minimalisatie en betere modellen tegelijk bereiken. Dergelijke pipelines zijn ook reproduceerbaar en auditbaar, wat governance- en compliance-teams helpt te controleren wat er precies in het trainingsproces gebeurt.

Soevereine data-ruimtes

Voor organisaties die soevereine AI willen bouwen is het niet genoeg dat data binnen nationale grenzen blijft. Modellen moeten ook lokaal gedrag en normen begrijpen, niet alleen statistiek uit westerse corpora. Nemotron-Personas-Japan is ontworpen als een data-primitive: 6 miljoen persona's gebaseerd op officiële demografie en arbeidsstatistieken, met meer dan 1.500 beroepen en regionale spreiding. Verder werken NTT DATA en anderen aan data-ruimtes — gecontroleerde omgevingen waarin overheden en bedrijven gesynthetiseerde datasets onder gedeelde governance kunnen uitwisselen. Technieken zoals federated learning en end-to-end encryptie maken die aanpak haalbaar. Synthetische representaties laten organisaties bijdragen zonder hun gevoelige bronnen bloot te geven. Dat verandert risicomanagement van 'houd het tegen' naar 'bouw samen', en breekt met het idee dat vooruitgang alleen uit een paar mondiale modellen kan komen.

Begin vandaag

De data-muur is reëel, maar de middelen om hem neer te halen zijn openbaar en bruikbaar. Als je in Nederland een nichemodel nodig hebt — voor klantenservice, doelgroepanalyse of productadvies — kun je met een kleine, zorgvuldig geselecteerde set eigen voorbeelden beginnen en die synthetisch uitbreiden. Praktische stappen: start met een heldere taakdefinitie, verzamel een handvol representatieve voorbeelden, genereer gecontroleerde persona-uitbreidingen en voer supervisiegerichte fine-tuning uit. Let op evaluatie: meet niet alleen accuratesse maar ook hallucinatiefrequentie en privacy-risico's. Wil je zelf aan de slag? Kijk naar NeMo Data Designer, verken Nemotron-Personas-Japan op Hugging Face, en lees NTT DATA's technische uitwerking (Japans). Voor Nederlandse mkb'ers betekent dit: je hoeft niet te wachten op enorme datasets of dure CPT-trajecten. Met verstandige keuzes bouw je praktische, lokale AI die privacy respecteert en direct waarde levert.

Van schaarste naar schaal: hoe synthetische persona's Japanse AI-ontwikkeling op gang brengen

Een andere route

Het experiment

Privacy by design

Soevereine data-ruimtes

Begin vandaag

Neem contact op

Takken

Neem contact met mij op

Our Video

Van schaarste naar schaal: hoe synthetische persona&#39;s Japanse AI-ontwikkeling op gang brengen

Een andere route

Het experiment

Privacy by design

Soevereine data-ruimtes

Begin vandaag

Neem contact op

Van schaarste naar schaal: hoe synthetische persona's Japanse AI-ontwikkeling op gang brengen