
Als je AI inzet voor klanten, medewerkers of beleid, dan wil je dat het systeem mensen begrijpt zoals ze echt zijn. Niet zoals een Engelstalige dataset ze toevallig beschrijft. Dat klinkt logisch, maar in de praktijk zie ik vaak het omgekeerde. Teams bouwen snelle prototypes met ‘handige’ data, om er later achter te komen dat de toon, de namen, de beroepen en zelfs de levenssituaties niet kloppen voor de markt die ze willen bedienen.
Daarom vond ik deze release interessant. Nemotron Personas Brazil is een open dataset met zes miljoen volledig synthetische persona’s in Braziliaans Portugees, gebaseerd op officiële cijfers van IBGE. Geen echte personen, wel echte verdelingen. Voor wie werkt met Braziliaanse doelgroepen, of als je als Nederlands bedrijf daar een stap wilt zetten, is dit precies het soort fundament dat je normaal gesproken mist.
Waarom lokale data het verschil maakt
Een AI die “goed werkt” in een demo kan in het echte leven vreemd aanvoelen. Dat zit vaak niet in het model, maar in de data waarmee je hem traint en test. Brazilië is een groot land met meer dan 200 miljoen inwoners, verdeeld over regio’s met duidelijke verschillen in taalgebruik, opleidingsniveau, werk, leefstijl en sociale context. Als je training vooral leunt op Engelstalige bronnen, of op data die je commercieel niet mag gebruiken, dan bouw je eigenlijk op drijfzand.
Nemotron Personas Brazil probeert dat gat te dichten met data die past bij de lokale realiteit. Het doel is niet om Braziliaanse mensen te “kopiëren”, maar om een dataset te bieden die de verhoudingen uit officiële statistiek volgt, zodat je modellen kunt bouwen en toetsen met meer gevoel voor context.
Wat Nemotron Personas Brazil precies is
Deze release is onderdeel van NVIDIA’s Nemotron Personas Collection, waar eerder al varianten voor de VS, Japan, India en Singapore in verschenen. De Brazil editie bestaat uit zes miljoen synthetische persona’s en is uitgebracht onder CC BY 4.0, wat het bruikbaar maakt voor onderzoek en ook voor commerciële toepassingen, zolang je de bron vermeldt.
Belangrijk detail, er zit geen echte persoon achter. De dataset is synthetisch, maar wél statistisch gegrond. Dat betekent dat kenmerken zoals leeftijd, geslacht, opleiding, beroep en locatie in dezelfde verdelingen voorkomen als in officiële Braziliaanse bronnen.
Wat zit er in de dataset, zonder marketingpraat
De set bevat één miljoen records, met per record zes persona’s. In totaal kom je zo op zes miljoen profielen. Over de hele dataset gaat het om ongeveer 1,4 miljard tokens, waarvan zo’n 450 miljoen tokens echt persona tekst is.
Per record staan er twintig velden. Zes daarvan horen bij de persona zelf en veertien velden geven context die is afgeleid van officiële statistiek. Denk aan demografie en omgeving, niet alleen aan een losse beschrijving.
Qua dekking is het breed. Alle 26 Braziliaanse staten zijn opgenomen, plus het Federaal District. Er zitten ongeveer 457 duizend unieke Portugese namen in en meer dan 1.500 beroepscategorieën die aansluiten op de Braziliaanse arbeidsmarkt. De persona’s vallen ook niet allemaal in hetzelfde stramien. Je ziet onder andere professionele profielen, maar ook typen rondom sport, kunst en reizen.
De teksten zijn geschreven in natuurlijk Braziliaans Portugees en bevatten achtergrond, vaardigheden, doelen, hobby’s en interesses. Dat maakt het geschikt als startpunt voor dialogen en scenario’s, in plaats van alleen tabeldata.
Hoe het is gebouwd, en waarom dat ertoe doet
Synthetische data kan fantastisch helpen, maar ik ben ook voorzichtig. Als het willekeurige fantasie is, train je onzin in je model. Daarom is de opzet hier interessant. Nemotron Personas Brazil is gemaakt met NeMo Data Designer, een systeem voor gestructureerde generatie, validatie en herhaalrondes wanneer de output niet voldoet.
De bouw heeft twee duidelijke pijlers. Voor het statistisch fundament is een Probabilistic Graphical Model gebruikt, met een Apache 2.0 licentie. Voor de verhalende, natuurlijke tekst in Braziliaans Portugees is GPT OSS 120B gebruikt, ook onder Apache 2.0.
NVIDIA geeft aan dat er een uitgebreidere variant direct beschikbaar komt in NeMo Data Designer, zodat teams zelf persona’s kunnen genereren, bijsturen en uitbreiden als onderdeel van een eigen pipeline. Dat is vooral handig als je specifieke sectorcontext nodig hebt, bijvoorbeeld zorg, financiële dienstverlening of publieke dienstverlening, zonder meteen naar echte klantdata te grijpen.
Culturele context, niet alleen een postcode
Wat mij aanspreekt, is dat ze niet blijven hangen bij “leeftijd plus beroep”. Brazilië heeft grote regionale verschillen en die zie je terug in hoe mensen leven, werken en communiceren. De dataset leunt op volkstelling en arbeidsdata van IBGE en probeert die rijkdom te vertalen naar bruikbare profielen.
Geografie wordt niet grofweg als “noord of zuid” gedaan, maar persona’s zijn gekoppeld aan staten en gemeenten, zodat regionale variatie over de vijf macroregio’s zichtbaar blijft. Beroepen zijn meer dan functietitels. Er is aandacht voor vaardigheden, expertise en loopbanen, inclusief micro ondernemers en regionale ambachten.
Ook levensfasen krijgen ruimte, zoals student zijn, werkloosheid en pensioen. Dat klinkt klein, maar in een chatbot of assistent maakt het vaak het verschil tussen een passend antwoord en een antwoord dat iemand wegduwt.
Tot slot is er duidelijk gewerkt aan taalgevoel. Namen, zinsbouw en communicatie passen bij Braziliaans Portugees, wat je nodig hebt voor toepassingen waar toon en vertrouwen tellen.
Privacy by design, en dat is geen bijzaak
Als ondernemer heb je weinig aan een dataset waar je juridisch niet mee kunt werken. En als ouder van een organisatie voel ik ook de verantwoordelijkheid, je wilt geen risico’s nemen met persoonsgegevens. Deze set bevat geen persoonlijk identificeerbare informatie. Er worden wel echte verdelingen gebruikt van leeftijden, namen en beroepen uit publieke bronnen, maar niets is te herleiden naar een bestaand individu, levend of overleden.
Dat maakt het een veilige basis om culturele patronen te trainen en testen zonder dat je klantdata of medewerkersdata hoeft te kopiëren naar een labomgeving. Zeker met de druk van privacywetgeving en interne compliance is dat een groot voordeel.
Voor wie dit bedoeld is, en waarom het ook voor Nederlanders relevant kan zijn
Primair is dit gemaakt voor Braziliaanse ontwikkelaars en onderzoekers die aan soevereine AI werken. Logisch, want zij missen vaak commerciële, lokaal bruikbare trainingsdata.
Maar als je vanuit Nederland werkt met Braziliaanse klanten, partners of teams, dan raakt dit je ook. Denk aan bedrijven die support willen automatiseren in Braziliaans Portugees, recruitment tooling bouwen, lokale content moderation willen testen, of interne assistenten voor sales en service willen uitrollen. Je hoeft niet direct een eigen model te trainen om waarde te hebben van zo’n dataset. Het kan ook dienen om je prompts, scenario’s en evaluaties realistischer te maken, zodat je eerder ontdekt waar je systeem cultureel de plank misslaat.
Praktische toepassingen die ik wél zie werken
In de praktijk zijn er drie manieren waarop ik dit soort persona data terug zie komen in projecten die volwassen worden.
Ten eerste als startpunt voor meerturnsgesprekken. Je gebruikt de persona’s als ‘zaadjes’ om dialogen te genereren die natuurlijk aanvoelen, met situaties die passen bij regio, leeftijd en werk. Dat helpt bij het bouwen van trainingssets voor klantenservice, onboarding of adviesgesprekken.
Ten tweede voor domeinspecifieke assistenten. Als je een assistent bouwt voor bijvoorbeeld retail, telecom of dienstverlening, wil je dat het systeem snapt hoe iemand praat, wat iemand verwacht en welke context meespeelt. Persona’s met doelen, vaardigheden en interesses geven je daar houvast.
Ten derde voor bias en fairness tests. Je kunt expliciet toetsen of antwoorden verschillen tussen stedelijk en landelijk, tussen leeftijdsgroepen of opleidingsniveaus. Niet om een rapport te maken, maar om te voorkomen dat je een assistent uitrolt die één groep klanten consequent slechter helpt dan een andere.
Waarom dit ertoe doet als je serieus bouwt
Veel teams lopen vast op hetzelfde probleem. De beste datasets zijn vaak gesloten, duur of juridisch complex. Dat zet kleinere bedrijven, startups en onderzoekers op achterstand, juist in regio’s die al minder vertegenwoordigd zijn in standaard trainingscorpora.
Een open dataset als deze helpt op drie punten. Je krijgt meer diversiteit, waardoor je minder snel een model krijgt dat te veel lijkt op de beperkte wereld van je trainingsdata. Je krijgt meer culturele echtheid, waardoor je minder hoeft te leunen op Westers en Engelstalig materiaal. En je houdt privacy beter onder controle, omdat je geen echte personen nodig hebt om realistische patronen te benaderen.
Onder de streep is het een stap richting AI die past bij de mensen die hem moeten gebruiken, zonder dat je eerst door een muur van licenties, kosten en risico’s heen hoeft.
Zelf aan de slag met Nemotron Personas Brazil
De dataset staat op Hugging Face en is direct te laden met de datasets library. Dit is de korte route:
from datasets import load_dataset
dataset = load_dataset("nvidia/nemotron-personas-brazil")
Als je meer wilt weten over NVIDIA’s open data initiatieven of als je een dataset wilt mee ontwerpen voor een volgende regio of sector, dan verwijzen ze ook naar hun Discord community.
Mijn advies, behandel dit zoals je elke databron behandelt. Begin klein, toets op relevantie voor jouw use case, kijk of de persona’s aansluiten bij jouw klanttypen, en gebruik het dan om je evaluatie en training betrouwbaarder te maken. Dat bespaart je later veel reparatiewerk, en eerlijk gezegd ook veel gezichtsverlies richting klanten.