
Je publiceert een pagina die een echt klantprobleem oplost. Helder geschreven, goede voorbeelden, ook de uitzonderingen staan erin. Je zou hem zo naar een klant sturen. Daarna stel je op een AI platform precies dezelfde vraag als waar die pagina antwoord op geeft, en je ziet hem nergens terug. Geen bronvermelding, geen link, zelfs geen parafrase. Gewoon… afwezig.
Dat voelt oneerlijk, en eerlijk gezegd is het ook frustrerend. Maar het is vooral een signaal dat ons oude idee van “kwaliteit” te simpel is geworden. Wat een mens relevant vindt, kan voor een model weinig bruikbaar zijn. Die afstand noem ik, in lijn met Duane Forrester, de “utility gap”.
Waarom dit nu gebeurt
Tot voor kort kon je redelijk vertrouwen op een simpele aanname: als je pagina goed is en je wint in Google, dan win je ook in ontdekking. Niet altijd, maar vaak genoeg om er een strategie op te bouwen.
Nu worden antwoorden steeds vaker samengesteld door systemen die eerst ophalen en dan genereren. Denk aan ChatGPT, Gemini, Perplexity en ook de AI antwoorden die Google zelf toont. Die systemen lezen jouw pagina niet zoals een klant dat doet. Ze trekken stukken tekst binnen, vaak in fragmenten, en proberen daarmee een taak af te ronden. Als jouw beste uitleg niet snel “bruikbaar” is voor dat proces, dan kan hij gewoon wegvallen, zelfs als hij inhoudelijk beter is dan wat wel wordt meegenomen.
Als je dan blijft sturen op één woord, “kwaliteit”, loop je het risico dat je de verkeerde dingen gaat verbeteren. Mooier schrijven, meer voorbeelden, langere uitleg. Terwijl het echte probleem vaak zit in bruikbaarheid voor het antwoordproces.
Wat de utility gap is
De utility gap is het verschil tussen wat een mens relevant vindt en wat een model nuttig vindt om een antwoord te maken.
Mensen lezen om te begrijpen. Ze accepteren opbouw, nuance en een verhaal. Ze scrollen, zoeken het ene stukje dat ze nodig hebben, en nemen daarna een beslissing op basis van het totaalbeeld.
Een retrieval plus generation systeem werkt anders. Het zoekt kandidaten, knipt ze op in brokken, haalt signalen eruit en gebruikt die om het antwoord af te maken. Het heeft jouw verhaal niet nodig, alleen de onderdelen die direct inzetbaar zijn.
Daarmee verschuift de definitie van “goed”. Een pagina kan uitstekend zijn voor een bezoeker en toch lage utility hebben voor een model. En dat kan zelfs gebeuren als je pagina technisch prima in orde is, geïndexeerd is en autoriteit heeft. Op het moment dat het systeem jouw inhoud moet omzetten naar een antwoord, kan hij alsnog buiten de selectie vallen.
Dit is geen onderbuikgevoel. Onderzoek in de hoek van LLM driven retrieval maakt al langer onderscheid tussen relevantie en utility.
Waarom relevantie niet meer universeel is
In klassieke information retrieval is veel evaluatie top heavy. Het idee daarachter is logisch: hoe hoger je staat, hoe meer mensen je zien, en dus hoe meer waarde die plek heeft.
Bij RAG werkt dat anders. Een model consumeert niet één resultaat en klikt door. Het krijgt een set passages en verwerkt die in één keer. Daardoor kunnen klassieke aannames, zoals position discount en pure relevantie, botsen met wat uiteindelijk telt, namelijk de kwaliteit van het antwoord.
Een paper uit 2025 over retrieval evaluatie voor LLM systemen (https://arxiv.org/abs/2510.21440) benoemt twee misalignments die ik in de praktijk herken. Ten eerste: de rol van positie is anders als de ‘consument’ geen mens is. Ten tweede: human relevance is niet hetzelfde als machine utility.
Die studie introduceert een annotatieschema dat niet alleen helpt om bruikbare passages te herkennen, maar ook afleidende passages. Daarna stellen ze een metric voor, UDCG, Utility and Distraction aware Cumulative Gain, en rapporteren ze dat die beter correleert met end to end answer accuracy dan traditionele metrics.
De marketingles is nogal direct. Content kan niet alleen genegeerd worden. Het kan ook het antwoord slechter maken omdat het het model van het pad af trekt. Dan heb je geen schrijfprobleem, maar een utility probleem.
In dezelfde sfeer waarschuwt NIST, via Ian Soboroff in “Don’t Use LLMs to Make Relevance Judgments” (https://www.nist.gov/publications/dont-use-llms-make-relevance-judgments), dat je modeloordelen niet één op één kunt gebruiken als vervanging voor menselijke relevantieoordelen. De mapping is gewoon niet stabiel genoeg, ook al klinkt de output menselijk.
Voor jouw strategie betekent dat iets belangrijks: je kunt niet meer aannemen dat wat een mens goed vindt automatisch door het systeem als bruikbaar wordt behandeld.
Zelfs als het antwoord op je pagina staat, gebruikt een model het niet betrouwbaar
Ik hoor teams vaak zeggen: “LLMs kunnen lange context aan, dus ze vinden het wel.” Dat klinkt logisch, maar het klopt niet altijd.
“Lost in the Middle: How Language Models Use Long Contexts” (https://arxiv.org/abs/2307.03172) laat zien dat prestaties kunnen terugvallen afhankelijk van waar relevante informatie staat in de context. In veel gevallen gaat het beter als het relevante stuk aan het begin of aan het einde staat, en slechter als het in het midden zit.
Vertaal dat naar je webpagina. Een klant scrollt door. Een model kan je middenstuk veel minder consequent gebruiken dan jij verwacht. Als jouw definitie, beslisregel of veiligheidswaarschuwing halverwege staat, kan dat in de praktijk bijna onzichtbaar worden.
Daarmee wordt utility niet alleen een kwestie van “is het correct”, maar ook van “is het makkelijk uit de pagina te halen, snel, zonder ruis”.
Bewijs in de praktijk: dezelfde intent, ander utility doel
Onderzoek van BrightEdge (https://www.brightedge.com/resources/research-reports/brand-visibility-chatgpt-and-google-ai-approaches-industry) vergelijkt hoe ChatGPT en Google AI omgaan met zichtbaarheid per sector. In healthcare rapporteren ze 62 procent divergence en geven ze een voorbeeld dat voor marketeers veel zegt.
Bij de vraag “hoe vind ik een dokter” beschrijft het rapport dat ChatGPT richting Zocdoc duwt, terwijl Google vaker verwijst naar ziekenhuis directories. De intent lijkt hetzelfde, maar het pad naar actie is anders.
Een tweede BrightEdge publicatie (https://www.brightedge.com/news/press-releases/brightedge-uncovers-growing-divergence-between-chatgpt-and-google-ai) trekt dit breder, met name bij actiegerichte vragen waar het platform als het ware een voorkeursroute kiest.
Dat is de utility gap als gedrag. Het systeem selecteert wat het nuttig vindt om de taak af te ronden, en dat kan een marketplace, aggregator of directory zijn, ook als jouw pagina inhoudelijk beter is. Je verliest dan niet omdat je ongelijk hebt, maar omdat iemand anders beter past in het antwoordmechanisme.
De mythe die je moet loslaten: portabiliteit
De oude aanname was: win je in zoek, dan win je in ontdekking. Dat is geen veilige basis meer.
BCG beschrijft in “The future of discoverability” (https://www.bcg.com/ja-jp/x/the-multiplier/the-future-of-discoverability) hoe zichtbaarheid verschuift van rankings naar aanwezigheid op meerdere AI gemedieerde plekken. Ze noemen ook een lage overlap tussen traditionele zoekresultaten en bronnen die in AI antwoorden opduiken. Zie dat niet als een heilig percentage, maar als een richting.
Profound deelt een vergelijkbare boodschap in “The surprising gap between ChatGPT and Google” (https://www.tryprofound.com/resources/articles/the-surprising-gap-between-chatgpt-and-google): top posities in Google geven geen garantie op zichtbaarheid in ChatGPT.
En tegelijk is het goed om nuchter te blijven, want methodes rond overlap studies verschillen. Search Engine Land heeft daar een kritische noot bij geplaatst (https://searchengineland.com/seo-research-lie-truth-460604), met de waarschuwing dat SEO onderzoek vaak te breed wordt doorvertaald.
Je hebt geen perfect percentage nodig om te handelen. Het principe is genoeg: zichtbaarheid is niet automatisch overdraagbaar, en utility is altijd relatief aan het systeem dat het antwoord bouwt.
Zo meet je de utility gap zonder lab of enterprise tooling
Je hebt geen groot platform nodig om hier grip op te krijgen. Wat je wel nodig hebt, is discipline in intent en herhaalbaarheid.
Begin met tien intents die direct invloed hebben op omzet of retentie. Denk aan momenten waarop mensen een keuze maken: een productcategorie kiezen, opties vergelijken, een veelvoorkomend probleem oplossen, veiligheid of compliance beoordelen, of een leverancier selecteren. Focus op intent, niet op zoekvolume. Dit stuk over search intent helpt om dat scherp te krijgen: https://www.searchenginejournal.com/customer-needs-search-intent/455874/.
Gebruik daarna exact dezelfde prompt op de AI omgevingen die jouw klanten gebruiken. In Nederland zie ik vaak Gemini, ChatGPT en Perplexity terugkomen. Je zoekt niet naar perfectie, je zoekt naar verschillen die je steeds opnieuw ziet.
Leg per run vier dingen vast. Welke bronnen worden genoemd of gelinkt. Of je merk voorkomt, als bron, als naam, als parafrase, of helemaal niet. Of jouw voorkeurs pagina verschijnt. En of het antwoord de gebruiker richting jou duwt of juist weg.
Maak de score simpel, anders houd je dit niet vol. Ik gebruik zelf een schaal die voelt als gezond verstand. Soms stuurt jouw content het antwoord echt. Soms komt hij wel terug, maar als bijzaak. Soms ben je afwezig en neemt een derde partij het over. En soms is het antwoord in strijd met jouw advies, of het leidt mensen naar een route die je niet wilt.
Dat is je nulmeting. Herhaal dit maandelijks om drift te zien. Doe het opnieuw na contentaanpassingen om te zien of je de gap kleiner maakt, of alleen de woorden hebt herschreven.
Zo verklein je de utility gap, zonder je site te veranderen in een checklist
Het doel is niet “schrijven voor AI”. Het doel is dat je pagina bruikbaar wordt voor systemen die ophalen en samenstellen. In mijn ervaring zit de winst vooral in structuur.
Zet beslisinformatie vooraan. Mensen vinden een rustige aanloop prima, maar systemen belonen vroege signalen. Als de keuze afhangt van drie criteria, noem die snel. Als er een veilige standaardkeuze is, zet die vroeg op de pagina.
Schrijf zinnen die je kunt citeren. Modellen bouwen vaak met zinnen die klinken als stabiele claims. Duidelijke definities, expliciete voorwaarden en een rechtstreeks oorzaak gevolg verband zijn makkelijker te gebruiken dan poëtische of te omzichtige taal.
Houd de hoofdroute schoon en zet uitzonderingen apart. Een veelvoorkomende fout is dat de kern, de uitzonderingen en commerciële tekst in één blok landen. Dat verhoogt het risico op afleiding, precies het probleem dat in het UDCG werk ook wordt meegenomen (https://arxiv.org/abs/2510.21440).
Maak context zichtbaar. Mensen vullen veel in. Modellen hebben baat bij uitgesproken aannames. Denk aan land, wetgeving, tijdgevoeligheid, doelgroep, voorkennis of vereisten. Als advies verandert per regio of type gebruiker, zet dat er gewoon bij.
Behandel het midden als kwetsbaar. Als het belangrijkste stuk halverwege staat, overweeg dan een compacte versie aan het begin, of herhaal de kern aan het einde. “Lost in the Middle” laat zien dat positie kan bepalen of informatie wordt gebruikt (https://arxiv.org/abs/2307.03172).
Gebruik primaire bronnen waar het telt. Niet voor de sier, maar om je claims te verankeren. Het helpt de lezer, en het helpt systemen om te zien waar je informatie op leunt.
Dit is content engineering. Geen trucje, maar het serieus nemen van hoe moderne discovery werkt.
Wat dit verandert voor content en SEO teams
De utility gap vraagt niet om het loslaten van SEO. Het vraagt om het loslaten van het idee dat kwaliteit overal hetzelfde wordt beloond.
Je werk draait nu in twee sporen. Mensen moeten je content kunnen begrijpen en vertrouwen. Systemen moeten hem kunnen gebruiken zonder ruis.
Voor content writers betekent dat dat structuur geen opmaak detail meer is. Het is performance. Als je wilt dat je beste advies blijft bestaan nadat het is opgeknipt en samengevoegd, moet het vroeg, helder en citeerbaar zijn.
Voor SEOs betekent het dat je content niet langer iets is waar je alleen aan de randen aan sleutelt. Technische SEO blijft belangrijk, onder meer voor crawlability en efficiëntie, maar het draagt niet meer het hele verhaal. Dit artikel geeft daar een goed haakje voor: https://www.searchenginejournal.com/beyond-keywords-leveraging-technical-seo-to-boost-crawl-efficiency-visibility/548988/.
De organisaties die het beter gaan doen, zijn niet degene die eindeloos discussiëren over welke AI gelijk heeft. Ze meten de gap, nemen hem serieus, en sluiten hem stap voor stap, per intent.
Tot slot: dit is te sturen, maar niet met de oude reflexen
Als je pagina’s “ineens” niet terugkomen in AI antwoorden, is dat vaak geen teken dat je inhoud slecht is. Het is een teken dat je inhoud niet goed genoeg aansluit bij hoe het antwoord wordt samengesteld.
Mijn advies aan Nederlandse groeibedrijven is simpel. Kies een klein aantal intents die er echt toe doen, meet consequent, en verbeter vooral de bruikbaarheid van je kerninformatie. Laat de rest even liggen. Je hoeft niet alles tegelijk te fixen, je moet vooral voorkomen dat je energie steekt in het mooier maken van tekst die alsnog niet wordt gebruikt.
Wie hier nuchter mee omgaat, heeft een voorsprong. Niet door harder te roepen, maar door beter te begrijpen wat er tussen jouw content en de klant is komen te staan.
Meer lezen, als je verder wilt: https://www.searchenginejournal.com/how-to-get-your-content-recommended-by-ai-llm/550260/, https://www.searchenginejournal.com/how-llms-interpret-content-structure-information-for-ai-search/544308/ en https://www.searchenginejournal.com/seo-in-the-age-of-ai/.
Dit stuk is een bewerking en hervertelling van het originele artikel van Duane Forrester, gepubliceerd via Search Engine Journal en Duane Forrester Decodes.