NVIDIA Cosmos Policy uitgelegd: robotbesturing op basis van ‘wereldmodellen’

Home
/
bloggen

Soms zie je een stap in AI die niet bedoeld is voor marketing praatjes, maar voor werk dat in de echte wereld moet kloppen. Robotarmen die iets oppakken, vastpakken, wegzetten en doorwerken als er nét iets verandert. NVIDIA publiceerde op 29 januari 2026 een update over Cosmos Policy. Hieronder leg ik je uit wat het is, waarom het interessant is, en vooral wat je er als Nederlandse ondernemer of marketeer praktisch mee kunt als je met automatisering, vision AI of fysieke processen te maken hebt.

TL;DR in gewone mensentaal

Cosmos Policy is een robot “brein” dat NVIDIA heeft gebouwd door een bestaand Cosmos wereldmodel, Cosmos Predict 2, na te trainen op demonstraties van robotmanipulatie. Het opvallende is niet een nieuw trucje in de architectuur, maar de manier waarop acties en robotstatus worden behandeld alsof het extra videoframes zijn. Daardoor kan één model tegelijk acties voorstellen, toekomstige waarnemingen inschatten en een soort “verwachte opbrengst” voorspellen voor planning.

Voor wie zelf wil experimenteren zijn er een model op Hugging Face en code op GitHub beschikbaar. Daarnaast loopt er een open hackathon, de Cosmos Cookoff, waar ontwikkelaars met deze modellen en recepten uit de Cosmos Cookbook aan de slag kunnen.

Wat is Cosmos Policy en waarom zou je ernaar kijken

Als je nog nooit met robots hebt gewerkt, helpt deze definitie. Een policy is het deel dat beslissingen neemt. Het kijkt naar observaties, vaak camerabeelden, en vertaalt dat naar motorcommando’s, zoals een arm iets naar links laten bewegen of de gripper sluiten.

Wat NVIDIA hier doet is die beslisser bouwen bovenop een wereldmodel. Cosmos Predict is namelijk getraind om toekomstige frames te voorspellen. Je kunt het zien als een systeem dat niet alleen “ziet wat er nu is”, maar ook een aannemelijke voortzetting van de situatie kan maken.

Cosmos Policy ontstaat door dat wereldmodel in één post training stap bij te sturen met robotdemonstraties. Dus geen aparte modules voor actie of perceptie die ernaast hangen, maar het bestaande model wordt direct gebruikt en aangepast. Dat maakt het conceptueel simpel: één basis, één extra trainingsfase, en daarna inzetbaar als policy.

Wat er anders is aan de representatie: acties als ‘video’

Het belangrijkste verschil zit in hoe de data wordt aangeboden. In veel robotoplossingen zie je losse netwerken: eentje die “kijkt” en eentje die “stuurt”. Hier wordt dat samengebracht door robotacties, fysieke toestanden en zelfs successcores te behandelen alsof het frames in een video zijn.

Die informatie gaat niet als ruwe pixels door het systeem, maar als latents. Dat zijn compacte interne representaties, de wiskundige taal waarmee het model patronen opslaat. Omdat Cosmos Predict al geleerd heeft hoe scènes zich over tijd gedragen, kan die kennis worden hergebruikt voor controle.

Het gevolg is dat hetzelfde model in één trainingstraject drie dingen leert die je normaal vaak los opbouwt. Het kan actiestukken genereren voor hand oog coördinatie, het kan toekomstige waarnemingen voorspellen voor world modeling, en het kan verwachte returns voorspellen, wat je kunt gebruiken als value functie voor planning.

In de praktijk kun je het op twee manieren inzetten. Als directe policy genereert het tijdens inference alleen acties. Als planningspolicy laat je het meerdere actieopties “doordenken” door te voorspellen wat er daarna gebeurt en welke optie waarschijnlijk beter uitpakt.

Waarom Cosmos Predict als basis ertoe doet, versus VLM’s

De afgelopen jaren zie je veel werk in robotmanipulatie dat leunt op grote vooraf getrainde backbones. Vaak zijn dat vision language modellen, getraind op beeld en tekst. Die zijn goed in herkennen en beschrijven, en ze kunnen ook best high level aanwijzingen geven. Denk aan “pak de paarse beker” of “ga naar links”.

Alleen, in een fabriek, magazijn of keuken heb je niets aan een zin die klopt als de uitvoering net niet klopt. De stap van taal naar motorcommando’s is precies waar het lastig wordt.

Wereldmodellen zijn hier een ander vertrekpunt. Ze zijn getraind op tijd, op verandering, op wat er doorgaans volgt. Dat past bij robotbesturing, omdat elke actie een overgang veroorzaakt in de wereld en in de eigen stand van de robot.

Cosmos Predict is getraind met een diffusion doel op continue spatiotemporale latents. Dat betekent onder andere dat het meerdere mogelijke uitkomsten kan modelleren. Dat is handig, want bij veel taken bestaan er meerdere geldige routes naar succes. De transformer denoiser kan bovendien langere sequenties en meerdere modaliteiten aan.

Cosmos Policy gebruikt diezelfde diffusion aanpak om acties, toekomstige observaties en waarde inschattingen te genereren. Je krijgt dus een policy die de tijdstructuur al “snapt” vanuit de videotraining, en die je daarna gericht richting robotdata stuurt.

NVIDIA noemt ook een update: Cosmos Predict 2.5 is beschikbaar. Wie dit serieus wil volgen doet er goed aan de model card te bekijken, omdat details zoals trainingsdata, beperkingen en aanbevolen instellingen vaak daar het verschil maken tussen een demo en iets dat je kunt testen.

Resultaten in één oogopslag: LIBERO en RoboCasa

NVIDIA test Cosmos Policy op twee bekende benchmarks voor robotmanipulatie: LIBERO en RoboCasa. Dat zijn omgevingen waar je niet één trucje doet, maar veel taken over langere horizons, met variatie.

Op LIBERO ligt het gemiddelde succespercentage van Cosmos Policy volgens de publicatie op 98,5 procent. Ter vergelijking: CogVLA staat op 97,4 procent en OpenVLA OFT op 97,1 procent. In dezelfde tabel zie je dat de sprong ten opzichte van een diffusion policy die van nul af aan is getraind groot is, daar staat gemiddeld 72,4 procent.

Op RoboCasa valt vooral de data efficiëntie op. Cosmos Policy haalt 67,1 procent gemiddeld succes met 50 demonstraties per taak. Een aantal sterke baselines zitten in dezelfde buurt, maar vaak met meer demonstraties. Video Policy wordt genoemd met 66,0 procent bij 300 demonstraties per taak, en GR00T N1.5 met HAMLET met 66,4 procent bij 300.

Wat ik hier als ondernemer altijd bij me houd: benchmarks zijn nuttig, maar ze zijn geen garantie. Ze vertellen je vooral dat een aanpak in gecontroleerde variatie vaak beter overeind blijft dan alternatieven. En dat is precies wat je wilt als je later naar echte processen kijkt waar variatie de norm is.

Direct uitvoeren versus plannen: wanneer het loont om ‘vooruit te denken’

Interessant is het verschil tussen direct uitvoeren en plannen. Als directe policy scoort het systeem al op of boven state of the art op veel taken. Maar zodra je het model ook gebruikt om meerdere actieopties te beoordelen, zie je winst.

In twee uitdagende real world manipulatie taken melden de onderzoekers gemiddeld 12,5 procent hogere taakafronding door model based planning. Dat is logisch: als je vooraf kunt inschatten dat een bepaalde grip of beweging waarschijnlijk misgaat, kies je iets anders voordat je het object uit je vingers laat glippen.

Voor praktische toepassing betekent dit dat je twee smaken hebt. Eén is eenvoudiger en vaak sneller, direct actie genereren. De andere vraagt meer rekenwerk, maar kan fouten voorkomen bij taken die gevoelig zijn voor timing en precisie.

Echte wereld: bimanuele taken op ALOHA

Naast simulatie zijn er tests op een echte robotopstelling, de ALOHA bimanuele platform. Daar gaat het om taken waarbij twee armen samen moeten werken en waarbij je lange stappenreeksen nodig hebt. De claim is dat de policy dit kan uitvoeren direct vanuit visuele observaties.

Dit soort resultaten zijn vooral relevant als je kijkt naar toepassingen zoals orderpicken, assemblage, kwaliteitscontrole met handelingen, of keuken en huishoud taken in omgevingen met veel kleine variatie.

Toch zeg ik er meteen bij, vanuit ervaring met technologie in productieomgevingen: het verschil tussen een labopstelling en jouw werkvloer zit meestal niet in de AI, maar in randvoorwaarden. Licht, reflectie, slijtage, onverwachte objecten, veiligheid, en integratie met bestaande software bepalen of het een pilot blijft of echt werkt.

Wat er nu komt: Cosmos Cookoff en de Cookbook recepten

NVIDIA positioneert dit als een vroege stap in het aanpassen van wereldmodellen voor robotcontrole en planning. Ze werken met vroege gebruikers om dit verder te brengen, en tegelijk maken ze het praktisch via een Cosmos Cookbook recipe. Dat is in feite een handleiding waarmee je de aanpak kunt adopteren en zelf kunt opbouwen.

Daarnaast is er de Cosmos Cookoff, een open hackathon. Die loopt van 29 januari tot en met 26 februari. Teams mogen tot vier personen groot zijn. Er zijn prijzen zoals een cashprijs van 5.000 dollar, DGX Spark en een GeForce RTX 5090 GPU, en de jury bestaat uit mensen van Datature, Hugging Face, Nebius, Nexar en NVIDIA.

Als je met een technisch team werkt kan zo’n periode waardevol zijn, niet omdat je ineens ‘klaar’ bent, maar omdat je snel ziet waar de grenzen zitten en wat je nodig hebt aan data, compute en integratie.

Praktisch starten zonder jezelf rijk te rekenen

Wie wil kijken of dit relevant is, zou ik zo aanpakken.

Begin met de Cosmos Cookbook en kies één klein scenario dat past bij je proces. Bijvoorbeeld een pick and place stap, een inspectiehandeling met een eenvoudige move, of een ‘regrip’ taak. Als je te breed start, leer je vooral dat alles moeilijk is.

Verken daarna de open modellen en datasets op Hugging Face en GitHub, of probeer de modellen via build.nvidia.com. Let daarbij op reproduceerbaarheid: welke versie, welke instellingen, welke data.

In februari zijn er live tutorials, partner talks en AMAs met partijen als Intbot, Milestone Systems en Nebius. Dat soort sessies zijn handig om de praktijk te horen, inclusief de frustraties waar niemand een persbericht over schrijft.

Tot slot: sluit je aan bij de Cosmos Discord als je vragen hebt of mee wilt lezen met wat anderen tegenkomen. En als je al met Cosmos werkt, kijk dan naar bijdragen aan de Cosmos Cookbook. In mijn ervaring is dat een gezonde manier om niet alleen te consumeren, maar ook mee te bouwen, waardoor je sneller van experiment naar een stabiele toepassing gaat.

Neem contact op

Eerlijkheid staat voorop in mijn werk. Daarom zeg ik direct: ik ben niet de juiste partner voor jou als. Ik help je om jouw merk te transformeren van een fluistering naar een brul die niemand kan negeren.

Ik ben niet gebouwd om mee te doen, ik ben ontworpen om te domineren.

Contact Us