
Als ondernemer of marketeer wil je dat je content niet alleen door mensen wordt gevonden, maar ook door AI systemen die antwoorden samenstellen, zoals ChatGPT. Kevin Indig publiceerde via Search Engine Journal een analyse op basis van 1,2 miljoen ChatGPT antwoorden en 18.012 geverifieerde citaten. Ik heb die inzichten door een Nederlandse bril bekeken, met één praktische vraag in mijn hoofd: wat kun je morgen anders schrijven zodat de kans groter wordt dat je wordt geciteerd.
Waarom dit anders is dan ‘de ultieme gids’
Twintig jaar lang hebben we geleerd om lange artikelen te schrijven die mensen zo lang mogelijk op de pagina houden. Met een introductie die langzaam opbouwt, inzichten die je pas halverwege echt uitwerkt en een conclusie waarin je eindelijk de kern nog eens samenvat. Dat werkt prima voor aandacht van mensen, maar het blijkt minder handig als je ook zichtbaar wilt zijn in AI antwoorden.
In de data zie je namelijk een patroon dat zó consistent is dat het statistisch eigenlijk geen discussie meer toelaat: ChatGPT haalt zijn citaten vooral uit het begin van een tekst. Dat betekent niet dat je voortaan korte stukjes moet schrijven. Het betekent wel dat je de volgorde moet omdraaien. Eerst de kern, daarna de verdieping. Net zoals een goede journalist dat doet.
De ‘skischans’: waar ChatGPT het vaakst citeert
In de analyse van 18.012 citaten verschijnt een verdeling die Kevin Indig de ‘ski ramp’ noemt. Je kunt het zien als een skischans: bovenaan heel veel aandacht, daarna een lange afdaling.
Ongeveer 44,2 procent van alle citaten komt uit de eerste 30 procent van de tekst, dus grofweg je intro en het vroege deel van je artikel. Het model pakt daar vooral de wie, wat en waar. Zet je belangrijkste inzicht dus niet op regel 80, maar in de eerste paar alinea’s.
Vervolgens komt 31,1 procent van de citaten uit het middendeel, van 30 tot 70 procent. Begraaf je belangrijkste producteigenschap in alinea 12 van 20, dan wordt die ongeveer 2,5 keer minder vaak geciteerd.
De laatste derde van een artikel levert nog steeds 24,7 procent van de citaten op. Interessant is dat het model wel ‘wakker wordt’ richting het einde, maar de echte footer laat het grotendeels liggen. Een samenvatting of conclusie vlak voor de footer is dus slim.
Waarom dit zo werkt, heeft waarschijnlijk twee redenen. Ten eerste zijn veel trainingsbronnen journalistiek en academisch, waar de aanpak ‘bottom line up front’ normaal is. Ten tweede wil een model snel een kader neerzetten. Als het vroeg snapt waar de tekst over gaat, interpreteert het de rest door die bril.
Leest het model dan alleen de eerste zin? Nee, het leest dieper
Een logisch vervolg is: als het begin van het artikel zo zwaar weegt, moet je dan elk antwoord in de eerste zin van elke alinea proppen. De paragrafenanalyse zegt van niet.
In een verdiepende analyse van 1.000 pagina’s met veel citaten komt 53 procent van de citaten uit het midden van een alinea. Slechts 24,5 procent komt uit de eerste zin en 22,5 procent uit de laatste zin. Met andere woorden: het model is niet lui en leest meer dan alleen het haakje.
De praktische les is geruststellend. Je hoeft niet krampachtig te schrijven. Wat wel telt, is de zin met de hoogste informatiewaarde. Dat is vaak de zin waarin je een concept helder afbakent en tegelijk relevante namen, termen en context toevoegt. Combineer je dit met de skischans, dan is de grootste winst te halen in sterke alinea’s die vroeg op de pagina staan, idealiter in de eerste 20 procent.
Vijf kenmerken van tekst die vaker wordt geciteerd
Als je weet waar citaten vandaan komen, wil je ook weten waarom bepaalde zinnen wél worden ‘geplukt’ en andere niet. In de analyse komen vijf kenmerken steeds terug. Zie het niet als trucjes, maar als schrijfdiscipline die je content beter maakt voor zowel een drukke lezer als een AI systeem.
Het eerste kenmerk is definitieve taal. Tekst die wordt geciteerd, bevat bijna twee keer zo vaak duidelijke verbindingswoorden zoals ‘is’, ‘betekent’ en ‘verwijst naar’. Niet omdat definities op zichzelf magisch zijn, maar omdat de relatie tussen begrippen glashelder wordt. Een zin als ‘Demo automatisering is het gebruik van software om demo’s te plannen en op te volgen’ is voor een model eenvoudiger te hergebruiken dan een alinea die er omheen draait.
Het tweede kenmerk is een vraag en antwoord structuur. Tekst met citaten bevat ongeveer twee keer zo vaak een vraagteken. Vooral koppen doen het goed. In 78,4 procent van de gevallen waar een vraag voorkomt, staat die vraag in een heading. Het model behandelt je H2 dan bijna alsof het de gebruikersvraag is, en de alinea eronder als het antwoord. Een kop als ‘Wanneer is SEO ontstaan?’ gevolgd door ‘SEO ontstond in…’ werkt beter dan ‘De geschiedenis van SEO’ met een algemeen verhaal. Indig noemt dit ook ‘entity echoing’, waarbij het eerste woord van het antwoord de belangrijkste term uit de vraag herhaalt.
Het derde kenmerk is entiteitsrijk schrijven. Normale tekst heeft grofweg 5 tot 8 procent ‘entity density’, dus het aandeel echte namen zoals merken, tools, mensen en platforms. Zwaar geciteerde tekst zit rond 20,6 procent. Dat klinkt hoog, maar het idee is simpel. ‘Er zijn veel goede tools’ is vaag. ‘Salesforce, HubSpot en Pipedrive worden vaak gebruikt’ is concreet en verifieerbaar. Voor een probabilistisch model verlaagt dat de onzekerheid.
Het vierde kenmerk is gebalanceerd sentiment. De geciteerde tekst had in de analyse een subjectiviteitsscore rond 0,47 op een schaal van 0 tot 1. Dus niet droog feitelijk zoals een datasheet, en ook niet doorschieten in meningen. De beste toon lijkt op die van een analist: je noemt een feit en je legt rustig uit wat het betekent in de praktijk. ‘De iPhone 15 heeft een A16 chip’ is feit. ‘Dat maakt hem voor makers interessant bij weinig licht’ is interpretatie. Die combinatie landt.
Het vijfde kenmerk is zakelijke, goed leesbare zinsbouw. De ‘winnaars’ scoren rond Flesch Kincaid 16, ongeveer college niveau, terwijl de ‘verliezers’ richting 19,1 gaan, dus erg academisch. Lange, kronkelende zinnen met veel jargon zijn lastiger om als citaat te hergebruiken. Heldere subject werkwoord lijdend voorwerp zinnen, met normale lengte, geven zowel je lezer als het model houvast.
Wat ik je zou aanraden als je wilt ‘meedoen’ in AI antwoorden
Als ik één zorg heb voor Nederlandse mkb bedrijven, dan is het dat we te veel tijd steken in mooie opbouw en te weinig in duidelijke overdracht. Dat kost je niet alleen AI zichtbaarheid, maar ook menselijke aandacht. Mensen scannen ook.
Schrijf daarom meer als een journalist. Zet de conclusie vroeg. Laat in de eerste alinea al zien wat iets is, voor wie het relevant is en wat het oplevert. Gebruik H2 koppen die echte vragen stellen, zoals klanten ze ook stellen in gesprekken of in zoekopdrachten. Antwoord direct in de eerste alinea onder die kop, en werk daarna pas uit.
Durf namen te noemen. Dat voelt soms spannend, zeker als je concurrenten noemt, maar het maakt je advies concreet. Zorg verder dat je toon nuchter blijft: geen overdreven enthousiasme, maar ook niet alleen feiten zonder duiding. En als je merkt dat je zinnen steeds langer worden, is dat meestal geen teken dat je slimmer schrijft, maar dat je het jezelf moeilijk maakt.
Tot slot, vergeet het einde niet. Een korte, duidelijke samenvatting vlak voor de footer wordt opvallend vaak geciteerd, terwijl de echte footer vrijwel wordt overgeslagen.
Waarom dit patroon logisch is, en waarom ‘clarity’ nu een echte investering is
De skischans laat vooral een mismatch zien tussen verhalend schrijven en informatie ophalen. Als je langzaam toewerkt naar je punt, kan dat door een AI systeem worden gelezen als onzeker of als gebrek aan kern. Het systeem wil snel classificeren: wat is dit onderwerp, welke entiteiten horen erbij, en welke zinnen lossen de vraag direct op.
Dat legt een soort helderheidsbelasting bij de schrijver. Niet omdat we alleen nog voor robots schrijven, want dat is niet waar, maar omdat de voorkeuren van mensen en de beperkingen van systemen dichter bij elkaar komen. In zakelijke teksten zoeken mensen ook snel naar de kern. Door die kern naar voren te halen, help je beiden.
Methodologie in gewone mensentaal
De analyse is gebouwd op data van Gauge. Zij leverden ongeveer 3 miljoen AI antwoorden van ChatGPT, met daarbij 30 miljoen citaten. Voor elke citeer URL werd de webpagina op het moment van het antwoord gescrapet, zowel als ruwe HTML als in platte tekst. Daardoor kon men de echte broninhoud direct koppelen aan wat ChatGPT citeerde.
Uit een universum van 1,2 miljoen zoekresultaten en AI antwoorden werden 18.012 geverifieerde citaten gebruikt voor de positieanalyse. Voor de taalanalyse, de ‘linguistic DNA’, waren dat 11.022 citaten. Met deze aantallen kom je uit op een P waarde van 0,0, oftewel p kleiner dan 0,0001. De uitkomst is statistisch extreem stabiel. Indig splitste de data ook in batches om dat te controleren. Batch 1 was iets vlakker, maar batches 2, 3 en 4 lieten vrijwel hetzelfde patroon zien.
Om te achterhalen welke zin precies werd geciteerd, gebruikte men semantic embeddings. De gebruikte sentence transformer was all MiniLM L6 v2. Elke zin uit de bron en elke zin uit het AI antwoord werd omgezet naar een vector van 384 dimensies, waarna men met cosine similarity de beste match vond. Met een strenge drempel van 0,55 werden zwakke matches en mogelijke hallucinaties eruit gefilterd.
Daarna werden twee dingen gemeten. Ten eerste de positionele diepte, dus waar in de HTML de geciteerde zin staat, bijvoorbeeld rond 10 procent of juist 90 procent. Ten tweede de taal kenmerken, zoals het gebruik van definitieve werkwoorden, de entiteitsdichtheid en de subjectiviteitsscore.
Bron en vervolg
De oorspronkelijke analyse is van Kevin Indig en verscheen via Search Engine Journal, met data van Gauge. Als je dit soort onderzoek vaker wilt volgen, kijk ook naar Growth Memo van Kevin Indig: https://www.growth-memo.com/.
Mijn praktische advies blijft: schrijf alsof je lezer weinig tijd heeft, omdat dat meestal zo is. Als je dat goed doet, help je ook de systemen die je content later samenvatten en citeren.