Rubin koot

Als je met image models werkt in je bedrijf, dan herken je dit: het ziet er vaak indrukwekkend uit, maar je durft het nog niet echt te gebruiken in productie. En eerlijk gezegd is dat gezond verstand. Want in e commerce, marketing en brand assets is ‘het ziet er goed uit’ geen criterium. Je wilt weten of het elke keer weer aan je eisen voldoet, netjes faalt als het misgaat, en voorspelbaar beter wordt als je bijstuurt. Daarvoor heb je image evals nodig: herhaalbare, workflow specifieke checks die verder gaan dan smaak.

Waarom image-evals lastiger zijn dan tekst-evals

Bij tekst kun je vaak vrij duidelijk zeggen wat het goede antwoord is. Bij beelden loopt alles door elkaar.

Je hebt harde eisen, zoals exacte copy, aantallen, kleur, attributen en vooral localiteit: verander alleen dit deel en laat de rest met rust. Tegelijk heb je perceptuele kwaliteit: scherpte, samenhang, realisme en of het past bij je merkstijl. En dan zijn er de verborgen faalmodi, juist bij editing. Een flyer kan op het eerste gezicht prima ogen, maar één fout teken in de aanbieding maakt het onbruikbaar. Een logo edit kan ‘bijna’ goed zijn, maar een klein kleurverschil of vervorming breekt je merk.

Een goede vision eval beoordeelt dus geen “mooie plaat”. Het beoordeelt betrouwbaarheid in een specifieke workflow. Dat klinkt streng, maar het bespaart je later gedoe, rework en discussie.

Wat deze gids precies afdekt

In de praktijk zie ik vier onderdelen die samen een werkbare eval aanpak vormen.

Ten eerste image generation evals: volgt het model de instructies, klopt de tekst in het beeld, kun je stijl sturen en blijft het consistent, en hoe vang je voorkeuren van mensen zodat je niet alleen op één “score” leunt.

Ten tweede image editing evals: is de gevraagde wijziging echt correct uitgevoerd, gebeurt de edit alleen waar het mag, blijft de rest behouden, en wordt het juiste object of de juiste regio aangepast.

Ten derde human feedback alignment: rubrics en voorkeuren van mensen zijn onmisbaar voor het gevoel en de bruikbaarheid, maar je wilt wel consistente beoordelingen. Dat vraagt om kalibratie.

Ten vierde een strategie om evals op te bouwen: eerst de niet onderhandelbare gates, daarna pas de gradaties. En tot slot het taggen van faalmodi zodat je gericht kunt verbeteren.

De kern: bouw een vision eval harness dat je telkens opnieuw kunt gebruiken

Je eval harness is een klein systeem dat “werkt dit beeld?” omzet naar meetbare resultaten die je kunt vergelijken tussen prompts, modellen en instellingen.

De loop is simpel en herkenbaar als je al met LLM evals werkt: input gaat naar het model, het model maakt output, graders geven scores, je verzamelt feedback, en je iterereert.

Wat het verschil maakt, is dat je het harness opzet als drie verwisselbare onderdelen.

Eén: testcases, dus een prompt plus criteria en bij editing eventueel referentiebeelden en een mask.

Twee: runners, dus hoe je een model aanroept en de output opslaat.

Drie: graders, dus hoe je het resultaat beoordeelt. Dat kan een rubric zijn, een LLM als judge, en later ook human labels.

Als je dit netjes scheidt, hoef je niet telkens je tooling opnieuw te bouwen wanneer je van UI mockups naar marketing posters of logo edits gaat.

Een praktische datastructuur die generation en editing aankan

Ik ben fan van simpele, generieke types. Denk aan een TestCase met een id, een taaktype, een prompt en criteria. Voor editing voeg je ImageInputs toe: een of meer image paths en optioneel een mask.

Daarboven zet je ModelRun: een label plus parameters, bijvoorbeeld het model, de outputgrootte of het aantal varianten.

En dan Score: een key, een value en een reden. Niet alleen een cijfer, maar ook waarom. Juist dat laatste maakt je evaluaties bruikbaar in een team.

Dit is niet “mooi voor later”. Het voorkomt dat je na drie weken testen alleen nog een map met plaatjes hebt en niemand meer weet waarom iets goed of fout was.

LLM as judge werkt, maar alleen met strakke rubrics en gestructureerde output

Een multimodale LLM kan prima beoordelen of een output aan je criteria voldoet, zolang je hem niet laat zweven.

Dat betekent: je geeft een duidelijke system prompt met definities, je stuurt de juiste input mee, en je laat het model antwoorden in JSON volgens een schema. Zo kun je het automatisch verwerken.

Voor generation stuur je meestal de prompt, de criteria en de outputafbeelding. Voor editing stuur je de edit instructie, de criteria, de referentiebeelden en daarna de output.

Belangrijk: als je iets als “exacte tekst” nodig hebt, wees dan streng. Maak het een gate. Niet iets wat je wegmiddelt met een hoge stijlscore.

Image generation evals in de praktijk: UI mockups

UI mockups zijn geen kunst, ze zijn communicatie. Als je een checkout scherm genereert, moeten designers en developers in één oogopslag snappen wat de flow is.

Wat ik in UI evals altijd scheid:

Instruction following als gate. Is het echt het gevraagde schermtype, op het juiste platform, met de vereiste onderdelen.

In image tekst als gate. UI tekst is functioneel. Als labels onleesbaar zijn of net verkeerd, gaat de mockup de prullenbak in.

Layout en hiërarchie als score van 0 tot 5. Is de primaire actie duidelijk, staan elementen logisch gegroepeerd, klopt de spacing.

UI affordance als score van 0 tot 5. Zien knoppen klikbaar uit, inputs bewerkbaar, navigatie herkenbaar.

En daarna pas een eenvoudige verdict regel, bijvoorbeeld: instruction following moet goed zijn, tekst moet goed zijn, en de twee 0 tot 5 scores moeten minimaal 3 zijn. Als één onderdeel faalt, faalt het geheel. Dat is streng, maar het sluit aan bij hoe een team een mockup gebruikt.

Image generation evals in de praktijk: marketing flyers

Marketing graphics zijn vaak ‘high stakes’. Je kunt een flyer niet half goed naar buiten sturen. En het meest voorkomende probleem is nog steeds tekst.

Daarom begin je ook hier met gates.

Instruction following: is het duidelijk een flyer of poster en zitten de verplichte onderdelen erin.

Tekst rendering: alle vereiste regels moeten exact kloppen en leesbaar zijn, en er mag geen extra tekst bijkomen. Als je workflow exacte copy vereist, maak je dit niet onderhandelbaar.

Daarna kun je graded scores toevoegen: layout en hiërarchie, stijl en merkfit, en visuele kwaliteit. Alles van 0 tot 5 met duidelijke ankervoorbeelden.

Een extra aanpak die ik in teams vaak zie werken is image to text en vergelijking. Je laat een vision model alle tekst in het beeld uitschrijven, één regel per tekstitem, en je vergelijkt dat met je vereiste set. Dat maakt discussies kort. Je ziet direct wat ontbreekt en wat er extra bij is gekomen.

Image editing evals: virtual try on vraagt om behoud, niet om creativiteit

Virtual try on is een edit taak met meerdere referenties. Je hebt een persoonfoto en één of meer productreferenties. De output moet het kledingstuk geloofwaardig aanbrengen, zonder de persoon of achtergrond te veranderen.

Als je hier te veel metrics maakt, wordt het rommelig. Drie scores zijn meestal genoeg, elk van 0 tot 5.

Gezichtsherkenning: is het nog dezelfde persoon.

Outfit fidelity: lijkt het echt op precies dat product, inclusief kleur, patroon en details.

Body shape preservation: klopt de pose en lichaamsvorm, los van normale effecten van kleding.

Wil je een verdict, dan is een simpele regel werkbaar: fail als één score 2 of lager is. En voor commerce kritische flows kun je outfit fidelity strenger maken, bijvoorbeeld minimaal 4.

Menselijke feedback blijft hier belangrijk. Niet als lange vragenlijst, maar als vaste labels zoals: identiteit behouden ja of nee, match met product ja of nee, en artefacten geen, klein of groot. En zorg voor kalibratie met vaste ‘anker’ voorbeelden die raters periodiek opnieuw scoren.

Image editing evals: logo editing is precisiewerk met nul tolerantie voor drift

Logo editing is de plek waar teams zichzelf vaak in de problemen brengen door te mild te beoordelen. Het voelt pedant, maar het moet echt exact.

Ik hanteer drie 0 tot 5 scores.

Edit intent correctness: is elke gevraagde wijziging precies uitgevoerd, tot op teken niveau.

Non target invariance: is alles buiten de edit echt onveranderd gebleven.

Character en style integrity: past het nieuwe teken naadloos in kleur, lijngewicht, lettervorm en geometrie.

Daarna een harde drempel. Bijvoorbeeld: alle drie minimaal 4, anders fail. En niet middelen. Een logo dat de juiste tekst heeft maar de achtergrond net anders maakt, is niet ‘bijna goed’. Het is gewoon fout, omdat het downstream schade geeft.

Als je ground truth assets hebt, bijvoorbeeld uit je brand library of Figma, gebruik die dan. Dat is beter dan vergelijken met andere gegenereerde outputs. Het maakt je evaluatie minder subjectief.

Menselijke beoordeling: houd het simpel, maar voorkom beoordelaars drift

Mensen voegen het meeste toe bij het oordeel “zou ik dit durven gebruiken?”. Maar zonder structuur wordt het willekeurig.

Werk daarom met twee dingen. Ten eerste rubrics met korte, vaste labels en één of twee open velden voor waarom. Ten tweede pairwise voorkeuren: laat mensen kiezen tussen output A en B op één duidelijke vraag, bijvoorbeeld “welke is bruikbaarder zonder extra werk?”.

En dan het ouderwetse stukje discipline: kalibratie. Bewaar een kleine set vaste voorbeelden die iedereen regelmatig opnieuw scoort. Zo merk je als je team onbewust strenger of juist milder is gaan beoordelen.

Een strategie die ik in echte teams zie werken

Als je dit goed wilt aanpakken, begin dan niet met twintig scores. Start met gates, omdat die regressies vangen die je echt pijn doen: ontbrekende onderdelen, verkeerde copy, edits die uit de hand lopen, of onbedoelde veranderingen.

Pas als die onder controle zijn, voeg je graded metrics toe voor kwaliteit en bruikbaarheid. En tag je faalmodi. Niet voor het rapport, maar zodat je kunt zeggen: “We falen vaak op tekst in kleine font sizes” of “edits lekken naar de achtergrond”. Dan kun je gericht aanpassen aan prompt, instellingen, masks of een extra check.

Zie je harness als iets dat je onderhoudt. Het is je vangnet. Hoe langer je ermee werkt, hoe eerder je problemen ziet en hoe makkelijker je verbeteringen hard kunt maken.

Afronding: maak beelden een betrouwbaar onderdeel van je proces

Image models gaan steeds vaker van experiment naar werkplek: mockups voor interne afstemming, marketing assets die bijna klaar zijn om te publiceren, try on beelden voor productpagina’s, en edits aan merkassets.

Als je wilt dat dit volwassen voelt, moet je stoppen met “ziet er goed uit” als eindpunt. Bouw evaluaties die passen bij jouw workflow, zet correctness boven smaak, en maak de resultaten vergelijkbaar over tijd.

Dan wordt het geen gokwerk meer. Je krijgt grip, je team krijgt vertrouwen, en je iteraties worden ineens een stuk rustiger.

Image-evals voor generatie en editing: zo voorkom je ‘mooi maar fout’ in je workflow