Information retrieval (deel 1): disambiguatie zonder gedoe

Home
/
bloggen

Ik merk het bij veel Nederlandse ondernemers en marketeers: jullie doen je best om goede content te maken, maar je krijgt steeds vaker het gevoel dat het speelveld verschuift. Minder klikken, meer antwoorden direct in Google of in een AI chat. En toch blijft de basis hetzelfde: wie helder schrijft en zijn merk goed neerzet, wordt beter begrepen en dus vaker gekozen. Dit eerste deel gaat over één onderwerp dat daar stiekem onder alles ligt: disambiguatie.

Waarom dit onderwerp ineens zo hard binnenkomt

De internetervaring is veranderd. Veel kanalen beginnen op elkaar te lijken en Google schuift steeds meer richting een plek waar mensen blijven, in plaats van een doorgeefluik naar jouw site. Tegelijk zie je dat individuele creators meer invloed krijgen op wat mensen geloven, volgen en kopen (https://www.forbes.com/sites/lowes-creator/2025/06/16/how-the-creator-economy-is-reshaping-modern-marketing--and-why-brands-are-paying-attention/).

En ja, we klikken ook minder. Niet omdat niemand meer nieuwsgierig is, maar omdat de interface ons vaker meteen een antwoord geeft.

Wat ik belangrijk vind om te zeggen: dit verandert niet wat mensen graag lezen of kijken. Goede content blijft goede content. Het blijft gaan om iets dat helpt, iets dat uitlegt, iets dat inspireert of vermaakt (https://www.searchenginejournal.com/content-writing-tips-from-experts/477016/). Alleen de route ernaartoe is veranderd.

Daarom zie je nu veel praat over content “chunking” en allerlei nieuwe afkortingen. Sommige tips zijn prima, maar een deel voelt als rookgordijn. Als iets klinkt alsof het een wondermiddel is, dan is het vaak vooral een verdienmodel van iemand anders. De grap is dat de kern al jaren bekend is: maak het makkelijk voor mensen en machines om te begrijpen wat je bedoelt.

En precies daar wordt ambiguïteit gevaarlijker dan ooit. Als je het toelaat dat je tekst meerdere kanten op kan vallen, dan worden jij en je aanbod sneller vervangen door een bron die wél eenduidig is.

Disambiguatie in gewone mensentaal

Disambiguatie is het wegnemen van dubbelzinnigheid. Je zorgt ervoor dat er zo min mogelijk twijfel is over wat een woord, zin, pagina of merk precies betekent.

Ambiguïteit is het tegenovergestelde: iets kan meerdere dingen betekenen, waardoor een systeem (of een mens) moet gokken. In een wereld met AI antwoorden, passage gebaseerde weergaves en beperkte “ruimte” om bronnen te gebruiken, is gokken niet in jouw voordeel.

Disambiguatie is dus geen trucje. Het is gewoon: duidelijk zijn, context geven, en je definities en termen zo gebruiken dat misinterpretatie lastig wordt.

Een versimpeld voorbeeld is het woord “apple”. Bedoel je het fruit, het bedrijf, of iets anders? Zonder context blijft het vaag. Vroeger leverde zo’n zoekopdracht allerlei richtingen op. Tegenwoordig is het vaker één route, omdat Google met personalisatie en gigantisch veel interactiedata een beter beeld heeft van intentie. Denk aan gedragssignalen op schaal en hoe zoekmachines steeds meer leren van wat mensen klikken, lezen en verlaten (https://www.leadershipinseo.com/p/how-google-uses-engagement-metrics).

Het punt is niet dat Google altijd gelijk heeft. Het punt is dat systemen steeds sneller beslissen wat jij bedoelt. Als jouw content geen richting geeft, pakt het systeem de richting van iemand anders.

Waarom je dit als ondernemer en marketeer wél moet snappen

Informatie ophalen en rangschikken draait steeds meer om vertrouwen en context. Niet alleen om woorden op een pagina, maar om het hele plaatje: wie zegt dit, over welk onderwerp, met welke bewijzen, in welke samenhang met andere bronnen.

Zowel zoekmachines als taalmodellen belonen content die makkelijk te “begrijpen” is. Dat betekent niet automatisch dat die content de beste is, maar wel dat de structuur en signalen kloppen (https://www.searchenginejournal.com/how-llms-interpret-content-structure-information-for-ai-search/544308/).

Als je pagina helder is opgebouwd, met duidelijke koppen, een scherpe uitleg en herkenbare termen, dan is hij lastiger te vervangen. Niet omdat jij onverslaanbaar bent, maar omdat je de interpretatie al voor een deel hebt voorgekauwd.

Daar komt nog iets bij: als een systeem moet “grounden”, dus een antwoord moet onderbouwen met externe bronnen, dan zie je vaak dat het kiest voor bronnen die het al kent of die goed aansluiten bij wat het eerder heeft gezien. Die herkenning komt onder andere uit trainingsdata, maar ook uit reputatie signalen en consistente entity signalen op het web.

Kort gezegd: je moet actief helpen bepalen hoe jouw merk, producten en experts begrepen worden. Als jij dat niet doet, vullen anderen het voor je in.

Zo is Google hier al heel lang mee bezig

Google’s oude missie was: “Organize the world’s information and make it universally accessible and useful.” Dat klinkt ouderwets, maar het verklaart wel waarom ze zo gefocust zijn op betekenis, verbanden en entiteiten.

In het begin was zoeken vooral matchen op woorden. Daarna werd tokenization belangrijker, waarbij zinnen worden opgeknipt in kleinere delen die beter te verwerken zijn (https://www.geeksforgeeks.org/nlp/what-is-tokenization/). Dat was een stap vooruit, maar het echte verschil kwam toen Google niet alleen woorden, maar ook dingen en personen ging herkennen.

De Knowledge Graph was daarin een grote stap. Het is een database van entiteiten en relaties, zodat “dit gaat over díe persoon” of “dit bedrijf hoort bij dié merknaam” consistenter wordt (https://developers.google.com/knowledge-graph).

Wat je in de praktijk ziet: zoekopdrachten worden op schaal herschreven, ranking is vaker gebaseerd op kansberekening in plaats van harde regels, en bij complexere vragen kan een fan out proces worden gebruikt waarbij één vraag wordt opgesplitst in meerdere deelvragen (https://www.searchenginejournal.com/google-query-fan-out-patent/547983/).

Dat maakt uit voor je content, want jouw pagina wordt niet altijd als één geheel bekeken. Steeds vaker gaat het om delen van tekst die los worden opgehaald omdat ze op dat moment het beste passen bij de vraag.

Semantiek: Hummingbird, RankBrain en BERT

Een paar oudere updates zijn nuttig om in je hoofd te houden, omdat ze uitleggen waarom “helder schrijven” nu ook technisch voordeel oplevert.

Hummingbird (2013) duwde Google verder richting betekenis en entiteiten. Niet alleen woordjes tellen, maar begrijpen wat iemand probeert te bereiken (https://www.searchenginejournal.com/google-algorithm-history/hummingbird-update/).

RankBrain (2015) bracht machine learning in om nieuwe of zeldzame zoekopdrachten te koppelen aan bekende patronen en concepten (https://blog.google/products-and-platforms/products/search/how-ai-powers-great-search-results/). Daarbij speelt vectorisatie een rol: teksten en vragen worden als wiskundige representaties geplaatst in een ruimte, zodat verwante betekenissen dichter bij elkaar liggen.

BERT kwam later en hielp Google nog beter om taal in context te interpreteren, vooral bij langere zinnen en nuances. Je merkt dat als je zoekt op vragen waar één klein woordje de bedoeling verandert.

Voor jou als schrijver betekent dit: woorden staan niet op zichzelf. De omgeving van een term, de definitie, voorbeelden en interne verwijzingen sturen de interpretatie.

Vectorisatie en waarom context zo zwaar weegt

In data science is ambiguïteit al jaren een bekend probleem. Vectorisatie, waarbij documenten en queries als vectoren worden voorgesteld, helpt systemen om relaties tussen termen te leggen (https://www.searchenginejournal.com/introduction-to-vector-databases-and-how-to-use-ai-for-seo/533993/).

Dat klinkt technisch, maar de praktische vertaling is simpel: als jij rondom een onderwerp de juiste context bouwt, dan wordt het voor een model makkelijker om te voorspellen welke woorden en concepten “horen” bij jouw pagina. Dit is ook waarom het beantwoorden van verwante vragen en het logisch opbouwen van een topic altijd al goed werkte.

Wie meer wil lezen over die wiskundige hoek kan kijken naar Word2Vec (https://code.google.com/archive/p/word2vec/). Je hoeft het niet te implementeren om het effect te snappen: betekenis ontstaat uit samenhang.

Een detail dat veel mensen missen: passage niveau en grounding budget

Een interessante observatie uit de praktijk is dat Google niet altijd je hele pagina gebruikt wanneer het een AI antwoord onderbouwt. Dan Petrovic beschreef dat Gemini powered systemen werken met een vaste grounding budget van ongeveer 2.000 woorden per query, verdeeld over bronnen op basis van relevantie (https://dejan.ai/blog/ai-search-filter/).

Hoe hoger je organisch staat, hoe meer ruimte je krijgt binnen dat budget. Dat lijkt op het idee van crawl budget, maar dan voor het gebruiken van tekst in een AI context (https://www.searchenginejournal.com/technical-seo/crawl-budget/).

Dit is precies waarom duidelijkheid vroeg in je tekst belangrijk is. Als jouw kern pas na 1.500 woorden komt, is de kans groot dat het nooit wordt meegenomen. Niet omdat je verhaal slecht is, maar omdat het systeem simpelweg moet kiezen.

Kennisgrafiek updates en waarom personen en auteurs vaker tellen

In juli 2023 kwam er een grote update rond de Knowledge Graph die in SEO kringen soms de Killer Whale update wordt genoemd (https://kalicubetuesdays.com/2023/october-2023/2023-e-e-a-t-google-knowledge-graph-update-codename-killer-whale/). Het idee daarachter is logisch: minder afhankelijkheid van externe partijen zoals Wikipedia en sneller groeien van de eigen grafiek.

Daarbij ging het ook duidelijk over classificatie van entiteiten, vooral personen met rollen zoals auteur of schrijver. Er werd gerapporteerd dat de Knowledge Vault in één dag met 7,23 procent groeide naar meer dan 54 miljard entiteiten, en dat het aantal person entities in een paar dagen verdriedubbelde.

Je ziet hier de richting: minder ruis, minder slappe herkauwcontent, meer focus op herkomst en betrouwbaarheid. Als je een Knowledge Panel kunt claimen, is dat geen ijdelheid, maar helderheid. Je kunt bijvoorbeeld checken of je merk of persoon aanwezig is via de Knowledge Graph Explorer van Kalicube (https://kalicube.pro/tools/knowledge-graph-explorer).

Let op: dit is geen garantie op groei. Het is wel een manier om verwarring weg te nemen over wie je bent.

Structured data: niet magisch, wel duidelijkheid

Er is discussie over hoe waardevol structured data nog is voor moderne zoekmachines en AI systemen. Sommigen zeggen dat Google het niet meer nodig heeft om een pagina te begrijpen. Anderen wijzen erop dat het nog steeds helpt om expliciet te maken wat je bedoelt (https://www.searchenginejournal.com/ai-platform-founder-explains-why-we-need-to-focus-on-human-behavior-not-llms/556251/).

Mijn kijk is nuchter: als je het goed doet, kan het vooral dubbelzinnigheid verminderen. Met bijvoorbeeld sameAs (https://schema.org/sameAs) kun je laten zien welke social profielen, merken of entiteiten bij elkaar horen. Dat helpt om te voorkomen dat jouw bedrijfsnaam wordt verward met een andere partij.

Google zegt zelf ook dat structured data expliciete hints geeft over de inhoud van een pagina (https://developers.google.com/search/docs/appearance/structured-data/sd-policies). Je krijgt er soms rich results van, maar de stille winst zit vaak in eenduidigheid.

Wat LLM’s anders doen dan Google en wat hetzelfde blijft

Taalmodellen halen informatie grofweg op twee manieren.

De eerste is uit hun trainingsdata. Dat is groot, maar niet actueel en niet altijd controleerbaar.

De tweede is via retrieval augmented generation, meestal afgekort als RAG, waarbij het model externe bronnen opzoekt en die gebruikt om een antwoord te onderbouwen (https://aws.amazon.com/what-is/retrieval-augmented-generation/). In Google termen valt dat onder grounding (https://docs.cloud.google.com/vertex-ai/generative-ai/docs/grounding/overview).

Omdat veel modellen niet continu worden getraind op realtime webdata, lopen ze achter op recente gebeurtenissen. Er bestaan overzichten van cut off data, wat dat duidelijk maakt (https://www.allmo.ai/articles/list-of-large-language-model-cut-off-dates).

In veel systemen zit bovendien een stap vóór het antwoorden: een classifier die bepaalt of zoeken nodig is of dat het model denkt het antwoord al te hebben (https://visively.com/kb/ai/ai-overview-visibility). Als die stap besluit dat RAG niet nodig is, dan kom je dus niet in beeld met je nieuwste artikel, hoe goed het ook is.

Daarom blijft vindbaarheid via klassieke search relevant. Niet omdat we terug willen naar vroeger, maar omdat retrieval vaak op bestaande zoekinfrastructuur leunt.

Disambiguatie binnen AI systemen: hoe ze twijfel proberen te voorkomen

Als een model onzeker is, probeert het die onzekerheid op te lossen. Dat gebeurt meestal via drie routes.

Eén: context bewuste matching, waarbij woorden als tokens worden bekeken en een vraag soms wordt herschreven naar een duidelijkere vorm. Dat kan leiden tot fan out processen en embeddings voor complexere vragen (https://visively.com/kb/ai/llm-rag-retrieval-ranking).

Twee: RAG architecturen, waarbij externe bronnen worden opgehaald zodra de nauwkeurigheid onder een drempel zakt.

Drie: conversatie, waarbij een agent een verduidelijkende vraag stelt in plaats van te gokken.

De praktische les is simpel: als jouw content niet goed toegankelijk is voor retrieval systemen, dan kan het ook niet worden gebruikt in een onderbouwd antwoord. Er is geen echte scheiding tussen SEO en AI zichtbaarheid. Het is hetzelfde speelveld, alleen met een andere interface.

Wat je er morgen mee doet in je content

Als je al jaren serieus met SEO bezig bent, is dit geen nieuw vak. Het is de oude discipline, alleen met minder foutmarge.

Heldere taal wint het van slimme taal. Je mag best een stijl hebben en je mag best iets van jezelf laten zien, maar niet ten koste van begrijpelijkheid.

Begin met schrijven alsof je lezer haast heeft. Leg begrippen uit voordat je erop voortbouwt. Maak claims controleerbaar. Laat zien waar informatie vandaan komt. Dat is niet alleen netjes richting je klant, het helpt ook systemen om je betrouwbaarheid te plaatsen.

En ja, durf ook iets toe te voegen dat nog niet overal staat. Niet omdat je per se uniek moet zijn, maar omdat een eigen observatie, een praktijkvoorbeeld of data uit jouw bedrijf vaak het verschil maakt tussen herhaling en waarde.

Structuur: noem het geen chunking, noem het gewoon goed schrijven

Je hoeft het niet ingewikkeld te maken. Een pagina die logisch is opgebouwd, werkt beter voor mensen en voor systemen.

Zorg dat het antwoord op de hoofdvraag vroeg komt. Geef daarna verdieping. Gebruik koppen die zeggen wat er komt, niet koppen die spannend klinken maar niets beloven.

Een korte samenvatting bovenaan kan helpen, net als een inhoudsopgave bij langere artikelen. Tabellen en lijstjes kunnen ook, maar alleen als ze echt iets ordenen. Het gaat om leesbaarheid, niet om een format.

Daarnaast: goede HTML structuur, interne links naar relevante verdieping en een duidelijke auteurspagina zijn geen franje. Ze geven context. Ze helpen een systeem om te snappen wat bij elkaar hoort.

Intent verandert, ook als je product hetzelfde blijft

Veel zoekintentie is redelijk voorspelbaar. Iemand die “beste” intikt wil vergelijken. Iemand die “prijs” of “offerte” intikt wil een stap richting aankoop.

Maar intentie kan ook verschuiven. Nieuws en regelgeving zijn daar een goed voorbeeld van. Wat vorige week klopt, kan vandaag achterhaald zijn. Zoekmachines volgen dat door consensus te meten, documenten te vergelijken door de tijd en relevantie opnieuw te wegen. Google praat zelf ook over het monitoren van consensus (https://www.youtube.com/watch?v=_AQ9UDqES80).

Als je daar op wilt sturen, helpt het om vragen en subvragen rond een onderwerp te volgen. Tools zoals Also Asked worden daar vaak voor gebruikt (https://alsoasked.com/).

Voor e commerce bedrijven zie je dit vooral rond seizoenen, trends en productcategorieën. De pagina blijft staan, maar de vragen eromheen veranderen. Als je die vragen niet meebeweegt, wordt je content langzaam minder passend.

De technische laag die veel verwarring voorkomt

Techniek is niet sexy, maar het voorkomt wel dat je online identiteit uit elkaar valt.

sameAs koppelingen kunnen je merk en sociale profielen netjes verbinden. Auteur markup en duidelijke bio’s helpen om te laten zien wie iets geschreven heeft, en ook wie het niet geschreven heeft. Interne links laten bots door je site bewegen op een manier die de samenhang versterkt.

Let ook op consistentie rond datums. Als je “laatst bijgewerkt” op de pagina toont, zorg dan dat structured data en je sitemap niet iets anders zeggen. Verschillen lijken klein, maar ze voeden twijfel.

Dit alles is geen garantie op betere posities, maar het vermindert ruis. En ruis is precies waar disambiguatie over gaat.

Entity matching: je merk is het totaal van je signalen

Uiteindelijk komt alles samen bij entiteiten. Niet alleen je bedrijfsnaam, maar ook je producten, je auteurs, je submerken en je social accounts.

Wat je over jezelf zegt weegt mee, maar ook waar je mee geassocieerd wordt. Denk aan de termen die je consequent gebruikt, de sites waar je genoemd wordt, de events waar je spreekt, en hoe je Over ons pagina je verhaal neerzet.

Op paginaniveau helpt het om je titel consistent te houden, relevante entiteiten al in de eerste alinea te gebruiken, en slim te linken naar tags, categorieën en gerelateerde artikelen. Een goede auteursbio die past bij het onderwerp maakt het plaatje af.

Dit is geen nieuw soort SEO. Het is degelijk vakwerk, alleen met een nieuwe reden om het serieus te nemen.

En een laatste waarschuwing, met de beste bedoeling: wees niet saai. Als je tekst technisch klopt maar niemand hem wil lezen, dan red je het alsnog niet. Mensen blijven het eindstation, ook als een machine de weg wijst.

Bronnen om verder te lezen

Als je hier dieper in wilt, zijn dit nuttige startpunten.

Information Retrieval: An Introduction For SEOs (https://www.searchenginejournal.com/information-retrieval-seo/464164/)

Google’s New User Intent Extraction Method (https://www.searchenginejournal.com/googles-new-user-intent-extraction-method/565840/)

How Search Engines Work (https://www.searchenginejournal.com/search-engines/?itm_source=ebooks-landing-page)

Oorspronkelijke bron waar dit onderwerp mij opnieuw scherp liet kijken: https://www.leadershipinseo.com/p/information-retrieval-part-1-disambiguation

Neem contact op

Eerlijkheid staat voorop in mijn werk. Daarom zeg ik direct: ik ben niet de juiste partner voor jou als. Ik help je om jouw merk te transformeren van een fluistering naar een brul die niemand kan negeren.

Ik ben niet gebouwd om mee te doen, ik ben ontworpen om te domineren.

Contact Us