
Als je AI tot nu toe vooral kent van teksten en chatbots, dan voelt ‘physical AI’ snel als iets voor labs en robotbouwers. Toch komt het dichterbij dan veel ondernemers denken. NVIDIA heeft begin januari Cosmos Reason 2 uitgebracht, een open vision language model dat niet alleen beelden en video’s herkent, maar ook stap voor stap kan redeneren over wat er gebeurt in tijd en ruimte. Dat maakt het interessant voor iedereen die werkt met camera’s, inspecties, veiligheid, logistiek of productie. Ik neem je mee door wat er nieuw is, waar het al wordt gebruikt en hoe je nuchter kunt bepalen of dit voor jouw organisatie relevant is.
Wat NVIDIA precies heeft gelanceerd
Cosmos Reason 2 is de opvolger van Cosmos Reason 1 en hoort bij NVIDIA’s Cosmos familie. Het is een open reasoning vision language model, een model dat tekst begrijpt én beelden en video’s kan interpreteren, maar dan met extra nadruk op redeneren. NVIDIA zet het neer als een model dat robots en AI agents helpt om te kijken, te begrijpen, te plannen en vervolgens te handelen.
In de aankondiging claimt NVIDIA dat deze versie de vorige overtreft in nauwkeurigheid en bovenaan staat op benchmarks zoals Physical AI Bench en Physical Reasoning, in elk geval binnen de categorie open modellen voor visueel begrip. Dat soort ranglijsten zijn geen garantie voor jouw praktijk, maar ze zijn wel een signaal dat er stevig aan de basis is gewerkt.
Waarom ‘redeneren’ bij video en robotica zo lastig is
Veel vision language modellen zijn goed in het benoemen van objecten en patronen in een enkel beeld. Dat is nuttig, maar in de echte wereld gaat het zelden om één frame. Je wilt weten wat er net gebeurde, wat er waarschijnlijk gaat gebeuren en welke stap daarna logisch is.
Daar lopen klassieke beeldmodellen vaak vast. Mensen plannen vanzelf een paar stappen vooruit, houden rekening met onzekerheid en passen zich aan als er iets verandert. Cosmos Reason is bedoeld om dat gat kleiner te maken door common sense, eenvoudige natuurkunde en voorkennis mee te nemen in de redenering. Niet als magie, maar als een manier om betere beslissingen te nemen in situaties waar beweging, timing en context belangrijk zijn.
Wat er concreet beter is in Cosmos Reason 2
De verbeteringen zitten vooral in begrip van tijd, ruimte en context, en dat zijn precies de onderdelen waar veel toepassingen op stuklopen.
Ten eerste is het spatio temporele begrip verbeterd. In gewone taal betekent dat dat het model beter snapt wat er in een video over meerdere momenten gebeurt en dat het nauwkeuriger kan werken met timestamps.
Ten tweede zijn er twee modelgroottes, 2B en 8B parameters, zodat je kunt kiezen afhankelijk van je eisen en je infrastructuur. NVIDIA positioneert dit nadrukkelijk voor inzet van edge tot cloud, dus van lokale verwerking dichter bij de camera tot zwaardere verwerking in een datacenter.
Ten derde is de set visuele ‘uitvoer’ breder geworden. Denk aan 2D en 3D puntlokalisatie, bounding box coördinaten, trajectdata en OCR. Dat laatste is voor veel bedrijven meteen herkenbaar, want tekst in beeld is overal. Van productlabels en serienummers tot borden, dashboards en veiligheidsinstructies.
Ten vierde is de contextlengte flink opgeschroefd naar 256K input tokens, waar Reason 1 op 16K zat. Dat is vooral relevant als je langere video’s of uitgebreide instructies en context wilt meegeven.
Tot slot wijst NVIDIA op de Cosmos Cookbook, met recepten om sneller te starten. In de praktijk is dat vaak het verschil tussen ‘we hebben een model’ en ‘we hebben een werkend prototype met een duidelijke scope’.
Drie toepassingen die je nu al in je hoofd kunt zetten
Je hoeft geen robotbedrijf te zijn om hier iets aan te hebben. Het gaat erom dat je met beeld en video vaak meer kunt doen dan alleen terugkijken.
Bij video analytics agents draait het om het halen van bruikbare informatie uit grote hoeveelheden video. Cosmos Reason 2 voegt daar OCR, puntlokalisatie en mark begrip aan toe. In de aankondiging wordt een voorbeeld genoemd waarin tekst in de video wordt gelezen om de toestand van de weg tijdens regen te bepalen. Voor ondernemers in Nederland vertaalt dat zich naar zaken als detectie van incidenten in magazijnen, naleving van procedures, of het automatisch signaleren van afwijkingen in een productieproces. NVIDIA koppelt dit aan de blueprint voor video search and summarization, waarbij Cosmos Reason als VLM kan fungeren. Salesforce wordt genoemd als partij die met Agentforce en die blueprint video van Cobalt robots inzet voor veiligheid en compliance.
Bij data annotatie en critique gaat het om iets wat veel AI projecten duur maakt, namelijk het labelen van trainingsdata. Als je ooit video’s hebt moeten laten annoteren, dan weet je hoe snel dat oploopt. Cosmos Reason kan tijdgestempelde beschrijvingen genereren voor echte of synthetische trainingsvideo’s. Uber onderzoekt het gebruik voor betere, doorzoekbare videocaptions voor trainingsdata van autonome voertuigen. NVIDIA noemt ook een co authored recipe waarin Cosmos Reason 2 8B wordt gefinetuned op gelabelde AV video’s, met meetbare verbeteringen zoals een BLEU stijging van 0.113 naar 0.125, een kleine winst in MCQ gebaseerde VQA en een grotere sprong in LingoQA van 63.2 procent naar 77.0 procent. Het punt hier is niet dat jij BLEU moet gaan meten, maar dat domeinaanpassing mogelijk is en effect laat zien.
Bij robot planning en reasoning wordt het model gebruikt als ‘brein’ in een vision language action setup. Nieuw is dat het naast het bepalen van vervolgstappen ook trajectcoördinaten kan leveren. In de voorbeelden laat NVIDIA zien hoe een robotgrijper instructies en een traject krijgt om schilderstape in een mandje te leggen. Encord wordt genoemd als partij die native ondersteuning biedt via hun Data Agent library en platform, zodat ontwikkelaars dit soort ketens makkelijker kunnen bouwen.
Wie dit al inzet en waarom dat ertoe doet
NVIDIA noemt meerdere bedrijven die met deze lijn modellen werken, waaronder Hitachi, Milestone en VAST Data, voor toepassingen in robotica, autonoom rijden en video analytics rondom verkeer en veiligheid op de werkvloer.
Voor jou als ondernemer is de belangrijkste les dat dit geen hobbyhoekje meer is. Zodra partijen in beveiligingsvideo, industriële omgevingen en dataplatformen hiermee integreren, schuift het richting praktische inzet. Niet overal, niet morgen, maar wel snel genoeg om het op je radar te zetten als je organisatie veel met camera’s of fysieke processen werkt.
Zo kun je er praktisch mee starten zonder jezelf te verliezen
NVIDIA maakt Reason 2 te proberen via build.nvidia.com, met voorbeeldprompts voor onder andere bounding boxes en robottrajecten. Je kunt ook eigen beelden en video’s uploaden voor analyse. De modellen zijn als 2B en 8B te downloaden via Hugging Face, of je kunt het in de cloud gebruiken.
Daarnaast zegt NVIDIA dat het model binnenkort beschikbaar komt via Amazon Web Services, Google Cloud en Microsoft Azure. Voor de meeste Nederlandse mkb organisaties is dat relevant, omdat je dan niet meteen zelf zware infrastructuur hoeft te beheren.
Mijn advies is simpel. Begin niet met ‘we willen iets met physical AI’, maar met één concrete vraag waar video nu veel tijd kost. Bijvoorbeeld incidenten terugzoeken, kwaliteitsafwijkingen aanwijzen of compliance checks die nu handmatig gebeuren. Zet daar een kleine pilot op met duidelijke randvoorwaarden rond privacy, bewaartermijnen en wie de output mag gebruiken. En accepteer dat de eerste versie vooral bedoeld is om scope en haalbaarheid scherp te krijgen.
Andere modellen in de Cosmos familie
Cosmos Reason 2 is niet het enige model dat NVIDIA in dit domein positioneert.
Cosmos Predict 2.5 is gericht op het voorspellen van toekomstige states van de fysieke wereld als video, op basis van tekst, beeld of video. NVIDIA noemt dat het goed scoort op Physical AI Bench voor kwaliteit en consistentie. Het kan clips genereren tot 30 seconden die fysiek en temporeel consistent blijven, met ondersteuning voor verschillende framerates en resoluties. Predict 2.5 is getraind op 200 miljoen clips en is beschikbaar als 2B en 14B pretrained modellen, plus diverse 2B post trained varianten voor multiview, action conditioning en training voor autonome voertuigen.
Cosmos Transfer 2.5 is een lichte multicontrol variant voor video to world style transfer. Het idee is dat je één simulatie of ruimtelijke video kunt opschalen naar verschillende omgevingen en lichtcondities, met betere promptvolging en betere aansluiting op fysieke regels. Dit wordt gekoppeld aan NVIDIA Isaac Sim en Omniverse NuRec, onder meer voor een route van simulatie naar realistische data.
NVIDIA GR00T N1.6 is een open reasoning vision language action model, bedoeld voor humanoid robots en full body control. Daarbij gebruikt het Cosmos Reason voor betere context en redenering.
Resources en een nuchtere blik voor jouw beslissing
NVIDIA verwijst naar een demo, de Cosmos Cookbook, modellen en datasets, een hosted catalog, en een community waar je kunt meedoen en bijdragen.
Als je dit leest als ondernemer of marketeer, onthoud dan dit. Het gaat niet om een nieuw speeltje, maar om een stap richting systemen die video en fysieke situaties beter begrijpen en er bruikbare acties uit kunnen afleiden. Dat kan waarde hebben in veiligheid, logistiek, productie en mobiliteit, en indirect ook in marketing, bijvoorbeeld als je betere operationele data krijgt over wat er echt gebeurt in winkels, warehouses of servicepunten.
Maar blijf beschermend over je organisatie. Zet eerst vast waar je data vandaan komt, welke risico’s er zitten in het gebruik van video, en hoe je controle houdt over beslissingen die het systeem adviseert. Als je dat goed regelt, kun je gericht testen en leer je snel genoeg of dit voor jullie een zinvolle volgende stap is.