
Als je nu al rapporten krijgt met een ‘AI positie’ voor jouw merk, dan wil ik even dat je stopt met knikken en één vraag stelt: hoe zeker is dat eigenlijk? Nieuw onderzoek van SparkToro laat zien dat de uitkomsten van AI aanbevelingen zó wispelturig zijn, dat één meting weinig zegt. En dat raakt direct aan hoe je budgetten, verwachtingen en interne discussies over AI zichtbaarheid aanstuurt.
Wat SparkToro precies testte
Rand Fishkin van SparkToro onderzocht samen met Patrick O’Donnell van Gumshoe.ai hoe consistent AI tools merken en producten aanbevelen. Ze draaiden in november en december 2.961 prompt runs over drie omgevingen: ChatGPT, Claude en Google Search met AI Overviews. Als Overviews niet verschenen, werd AI Mode gebruikt.
Het ging niet om één niche vraag, maar om twaalf verschillende prompts waarin om merkaanbevelingen werd gevraagd. Denk aan chefsmessen, koptelefoons, ziekenhuizen voor kankerzorg, digitale marketing consultants en sciencefictionboeken. Elke prompt werd per platform zestig tot honderd keer herhaald.
Dat klinkt misschien overdreven, maar precies dat is de kern. Als je wil weten of een aanbeveling een ‘vaste’ plek heeft, moet je herhalen. En daar zit de pijn: bijna elke uitkomst was anders.
De uitkomst: bijna nooit dezelfde lijst, volgorde of lengte
In de data zag je drie soorten variatie die elke marketeer herkent uit de praktijk, maar hier extreem duidelijk wordt. De genoemde merken verschilden per run, de volgorde verschoof telkens, en zelfs het aantal items in de lijst wisselde.
Fishkin vatte het scherp samen: als je een AI tool honderd keer om merk of product aanbevelingen vraagt, dan is bijna elk antwoord uniek.
Claude was iets consistenter in het twee keer produceren van dezelfde lijst, maar bleek dan weer minder geneigd om dezelfde volgorde aan te houden. Geen van de platforms kwam in de buurt van wat de onderzoekers ‘betrouwbaar herhaalbaar’ noemden.
Voor jou als ondernemer of marketingverantwoordelijke betekent dit vooral één ding. Een screenshot van één AI antwoord is geen bewijs. Het is hooguit een momentopname, en vaak zelfs dat niet, want je krijgt hem morgen waarschijnlijk niet meer terug.
Waarom het nog lastiger wordt: mensen prompten allemaal anders
Alsof de variatie per platform nog niet genoeg is, keken de onderzoekers ook naar hoe echte mensen prompts formuleren. 142 deelnemers kregen dezelfde opdracht. Schrijf je eigen prompt over een koptelefoon voor een reizend familielid.
Bijna geen twee prompts leken op elkaar. De semantische gelijkenisscore kwam uit op 0,081. Fishkin vergeleek het verschil met dat tussen Kung Pao Chicken en pindakaas. Het doel is vergelijkbaar, maar de woorden, details en insteek lopen totaal uiteen.
Dit herken je waarschijnlijk. De één vraagt om ‘beste noise cancelling’, de ander wil ‘comfort voor lange vluchten’, en een derde noemt budget, merkvoorkeuren of een allergie voor leer. AI systemen reageren op dat soort details, en zelfs op kleine nuanceverschillen. Dan is het logisch dat de uitkomsten verschuiven.
Toch zit er een patroon onder: een redelijk vaste ‘consideration set’
Hier wordt het interessant, want de onderzoekers zagen óók iets anders. Ondanks die enorme prompt diversiteit kwamen bepaalde merken opvallend vaak terug.
In 994 antwoorden op de koptelefoon prompts verschenen Bose, Sony, Sennheiser en Apple in 55 tot 77 procent van de reacties. Dus de exacte ranking is onbetrouwbaar, maar de kans dat een merk überhaupt genoemd wordt, blijkt minder willekeurig.
Voor mij is dat een volwassen manier om naar AI zichtbaarheid te kijken. Niet alsof het een klassieke top tien is, maar alsof je meet hoe vaak je in het ‘hoofd’ van het systeem opduikt wanneer mensen met een vergelijkbare behoefte zoeken.
Wat dit betekent voor AI zichtbaarheid en rapportages
De grote boodschap is ongemakkelijk, maar wel gezond. Het idee van één vaste ‘AI ranking positie’ is volgens Fishkin onzin. Zijn woorden waren nog directer, maar de strekking is duidelijk: als een tool je een exacte positie geeft, dan moet je kritisch worden.
Dat wil niet zeggen dat alles zinloos is. Alleen de meetlat moet anders. In strakke categorieën, zoals cloud computing providers, kwamen de topmerken in de meeste antwoorden terug. In brede categorieën, zoals sciencefictionboeken, was de spreiding veel groter en dus ook moeilijker te interpreteren.
Met andere woorden, hoe duidelijker de markt en hoe sterker de bekende spelers, hoe stabieler de ‘aanwezigheid’ in AI antwoorden. Hoe breder en smaakgevoeliger de categorie, hoe minder houvast je krijgt.
Voor Nederlandse mkb bedrijven betekent dit dat je voorzichtig moet zijn met KPI’s die doen alsof AI antwoorden een zoekresultatenpagina zijn. Dat zijn ze niet. En als je managementrapportage wel die indruk wekt, dan stuur je op schijnzekerheid.
Dit past in een breder beeld: ook bronnen wisselen voortdurend
De SparkToro studie staat niet op zichzelf. Ahrefs publiceerde eerder data waaruit bleek dat Google AI Mode en AI Overviews bij dezelfde zoekopdracht in 87 procent van de gevallen andere url’s citeren.
Dat is een andere invalshoek, want daar vergelijk je twee functies binnen hetzelfde platform. SparkToro keek juist naar hetzelfde platform en dezelfde prompt, maar dan herhaald over meerdere runs.
Toch wijzen beide richtingen dezelfde kant op. Variatie zit overal. Tussen platforms, binnen één platform tussen functies, en zelfs binnen één functie als je exact dezelfde vraag opnieuw stelt. Wie dit negeert, gaat in dashboards en tools iets proberen vast te spijkeren dat van nature beweegt.
Methodologie, belangen en beperkingen, even normaal kijken
Het onderzoek is gedaan met Gumshoe.ai, een partij die AI tracking tools verkoopt. Fishkin vermeldde dat, en gaf ook aan dat zijn startpunt juist was dat AI tracking mogelijk ‘zinloos’ zou blijken. Die transparantie vind ik prettig, al blijft het een factor om mee te wegen.
De volledige aanpak en de ruwe data zijn gepubliceerd op een openbare minisite. Respondenten gebruikten hun eigen instellingen, zonder standaardisatie. Dat was bewust, omdat het realistisch gedrag nabootst. Tegelijk maakt het wetenschappelijk strakker vergelijken lastiger.
Het is bovendien geen peer reviewed academisch onderzoek. Fishkin benoemt de methodologische beperkingen en roept op tot grotere vervolgstudies. Dat is eerlijk, en het past bij wat je als ondernemer toch al moet doen: niet blind varen op één rapport, maar patronen zoeken die overeind blijven als je vaker meet.
Waar je als ondernemer of marketeer wél op kunt sturen
Als je één praktische les meeneemt, laat het dan deze zijn. Sturen op een exacte plek in een AI lijst is vragen om discussie, teleurstelling en verspild budget. Sturen op hoe vaak je merk genoemd wordt over meerdere runs en over meerdere, realistische prompts, geeft meer houvast.
Dat vraagt om een andere aanpak. Je maakt een set vragen die jouw klanten echt stellen, in verschillende formuleringen, en je draait die niet één keer maar vaak. Vervolgens kijk je niet alleen naar ‘sta ik erin’, maar ook naar welke context je genoemd wordt, met welke concurrenten, en of de bronnen die AI gebruikt aansluiten bij jouw content en reputatie.
En als je een AI tracking tool overweegt, stel dan dezelfde vraag die ik zelf ook stel voordat ik ergens voor betaal. Laat me je methode zien. Hoeveel runs doen jullie, met welke prompts, over welke periode, hoe ga je om met variatie, en wat is de foutmarge? Fishkin verwoordde het scherp: geef geen euro uit voordat de aanbieder deze vragen beantwoordt en zijn rekensom laat zien.
Dat is geen wantrouwen om het wantrouwen. Het is gewoon volwassen omgaan met een kanaal dat nog volop in beweging is.
Vooruitkijken: twee open vragen die je in je achterhoofd houdt
De onderzoekers laten ook een paar vragen open die voor de praktijk belangrijk zijn. Hoeveel herhalingen heb je nodig voordat je iets zinnigs kunt zeggen over zichtbaarheid? En is het gedrag via API calls hetzelfde als handmatig vragen in de interface, met echte gebruikersinstellingen en variaties?
Tot die antwoorden er zijn, zou ik AI zichtbaarheid behandelen zoals je ook met merkbekendheid omgaat. Je meet het als trend, niet als exacte positie. Je kijkt naar aanwezigheid, context en consistentie over tijd. En je blijft vooral investeren in marketing fundamentals die altijd waarde houden. Een duidelijke propositie, een herkenbaar merk, content die echt helpt, en een reputatie die niet instort als één algoritme van stemming verandert.