Inbound Marketing en SEO

Voorkom duplicate content met canonical url’s

Deel dit bericht:


Door:

 

Sommige mensen denken dat je gestraft kunt worden door Google als je duplicate (of dubbele) content hebt. Dat is echter niet het geval, je zal er geen ‘penalty’ voor krijgen.

Het is echter wel schadelijk voor je SEO en ik zal je uitleggen waarom.

De meest voorkomende oorzaken van duplicate content

Er zijn verschillende redenen waardoor jij dubbele content kunt hebben, maar de vier voornaamste zijn (1) duplicate content URL’s, (2) blogberichten die in zijn geheel op de homepage gepubliceerd worden, (3) duplicate content door taxonomies en (4) dubbele content doordat anderen content van jou kopiëren en niet linken naar jouw artikel als bron.

Duplicate content URL’s

Veel mensen hebben het niet door, maar over het algemeen kunnen er vier versies van je website bestaan, namelijk http://domein.nl, http://www.domein.nl, https://domein.nl en https://www.domein.nl.

Dit gebeurt meestal als je niet voor één hoofdomein hebt gekozen en de andere drie domeinen daar naar toe hebt laten redirecten. Je kunt in de Search Console van Google aangeven welk domein jouw voorkeur heeft.

Gehele blogartikel op homepage

Heb jij een blog en plaats jij jouw gehele blogartikelen op je homepage, zonder gebruik te maken van de ‘Lees verder’ optie?

Dan is je artikel op minimaal twee pagina’s beschikbaar: op de homepage en op de pagina van het blogartikel zelf.

Het voordeel van de ‘Lees verder’ optie is dat het een link bevat naar het blogartikel, zodat Google weet welke URL zij dienen te indexeren. Dit is handig als het artikel ook nog eens in een categorie of tag staat.

Duplicate content door taxonomies

Stel je schrijft een blog en dat blog plaats je in verschillende categorieën en je voegt ook nog eens verschillende tags toe (ook wel taxonomies genoemd).

Of je hebt een webshop en je plaatst je producten in meerdere categorieën. Dan kan het zomaar zijn dat je content op verschillende URL’s verschijnt, zoals bijvoorbeeld:

http://www.domein.nl/zwemkleding/rode-kortebroek

en

http://www.domein.nl/broeken/rode-kortebroek.

Nog een voorbeeld:

Stel, je verkoopt een heel leuk product, laten we zeggen een speciaal T-shirt. Dan kan het zijn dat je verschillende kleuren van dat T-shirt aanbiedt op je website. Iemand kan dan bij dat artikel op de kleur blauw klikken, waardoor de URL iets verandert.

Maar wat als die persoon in zijn of haar persoonlijke blog naar het blauwe T-shirt wilt linken? Dan krijgt alleen de URL met het blauwe T-shirt de waarde van dat linkje, terwijl het veel beter is als de hoofd URL van dat product de waarde ontvangt.

Gekopieerde content

Als jij goede content publiceert, dan kan het zo zijn dat de content gekopieerd wordt door een andere website, zonder dat men linkt naar jouw website als bron.

Ik zal zometeen uitleggen hoe je gekopieerde content kunt achterhalen.

Het probleem van duplicate content

Welke url moet Google kiezen om te indexeren?

Welke URL moet Google kiezen?

Het probleem van duplicate content is dat je eigenlijk op Google vertrouwt om uit te vogelen welke url zij moeten volgen. Google ziet namelijk de url’s van alle versies van je website en de url’s van de content die in verschillende categorieën en tags staan.

Google wilt echter slechts één url indexeren, omdat zij uiteraard niet twee identieke pagina’s in hun zoekresultaten willen weergeven. Zij gaan dus proberen te bepalen welke url het belangrijkst is en die ranken, terwijl jij dat ook zelf kunt aangeven.

Hetzelfde geldt ook voor content dat is gekopieerd door een andere website. Google moet dan proberen te achterhalen welke pagina zij als eerste moeten ranken. Behoorlijk oneerlijk, aangezien het jouw content is.

Crawl budget

Het crawlen/indexeren van alle websites wereldwijd, kost Google veel geld.

Alle data dat vergaard wordt met het indexeren van websites, moet opgeslagen worden op servers. Dit neemt ruimte in beslag en dat kost natuurlijk geld.

Om geld te besparen wilt Google het crawlen van websites, uiteraard zo efficiënt mogelijk uitvoeren.

Elke keer dat Google je site crawlt, is er een limiet aan het aantal url’s dat ze indexeren, waarna ze beslissen ‘Ok, ik ben klaar’. De hoeveelheid url’s die Google per keer crawlt, is afhankelijk van een aantal factoren.

De autoriteit van je website is één van de factoren, maar hoe goed jouw website is in de ogen van Google, is ook een belangrijke factor. De complexiteit van je website en hoe vaak je site wordt geupdate, zijn dus belangrijke zaken.

Als jouw website niet efficiënt is om te crawlen, dan bespaart Google zichzelf geld, door jouw website minder frequent (en minder pagina’s per keer) te crawlen.

Dat kan dus betekenen dat jij mogelijk vaker je site update dan dat Google je site crawlt. Met als gevolg dat als jij nieuwe content publiceert, het mogelijk even duurt voordat deze wordt weergegeven in de zoekresultaten van Google.

Het opbouwen van autoriteit met interne linkjes

Met een linkje van een pagina van je website naar een andere pagina op je website, geef je aan dat die pagina belangrijk is. Zo help je autoriteit voor die pagina op te bouwen. Hoe meer linkjes een pagina ontvangt, hoe belangrijker hij wordt.

Neem het voorbeeld van de rode kortebroek, die je op twee verschillende URL’s kunt vinden. Dan is het zonde als je de ene keer naar http://www.domein.nl/zwemkleding/rode-kortebroek linkt en de andere keer weer naar http://www.domein.nl/broeken/rode-kortebroek.

Relatieve url’s vs Absolute url’s

Moet je gebruik maken relatieve of absolute url's?Het hebben van verschillende versies van je website is niet direct een groot probleem.

Het wordt pas een probleem als je relatieve url’s gebruikt voor interne linkjes (dus linken van een pagina, naar een andere pagina op dezelfde website), in plaats van absolute url’s.

Wat zijn relatieve en absolute url’s?

Met absolute url’s voer je het volledige domeinnaam in als interne link, dus bijvoorbeeld http://www.domein.nl/pagina.

Echter, bij het bouwen van een website is het heel gebruikelijk dat programmeurs de site zo bouwen dat je alleen een relatieve url hoeft in te voeren, zonder domeinnaam. Dus alleen /pagina.

Hierbij gaat men ervan uit dat de browser begrijpt dat het naar een pagina linkt, op hetzelfde domein waarop je al bent. De reden waarom veel websites zo gebouwd worden, is omdat het makkelijker te programmeren is en testomgevingen van websites makkelijker te kopiëren zijn naar de live omgeving.

Als je gebruik maakt van absolute url’s en altijd consequent één domeinstructuur aanhoudt (dus bijvoorbeeld http://www.domein.nl/pagina, in plaats van http://domein.nl/pagina), dan weet Google welke versie van je website het belangrijkst is en dan zullen zij alleen die crawlen.

Bij relatieve url’s kunnen ze niet zien welke domeinstructuur jouw voorkeur heeft, omdat ze alleen het gedeelte na het domein kunnen lezen, dus de /pagina.

Als je gebruikt maakt van relatieve url’s voor je interne linkjes en je hebt niet aangegeven welke versie van je website het belangrijkst is, dan heb je in feite meerdere websites die gecrawlt dienen te worden. Dit betekent dat het Google vier keer zoveel geld kost om jouw website te crawlen. Na verloop van tijd zullen zij dus jouw website minder vaak gaan crawlen.

Help Google de juiste URL te indexeren met canonical url’s

De canonical url (ookwel rel=canonical of de canonical tag genoemd), is waar zoekmachines naar refereren als zij meerdere versies van een pagina op je website vinden.

Het wordt gebruikt om problemen met duplicate content op te lossen en het is vaak een betere tool dan een 301 redirect. Met een canonical url, kun jij Google vertellen welke url zij moeten indexeren, als jij duplicate content hebt op je website.

Google heeft een goed stuk geschreven over het doel van canonical url’s. Dit artikel kun je hier lezen.

Hoe gebruik je de canonical url in WordPress?

WordPress is het meest gebruikte content management systeem ter wereld en ik maak er zelf ook gebruik van. Ik zal daarom uitleggen hoe je de canonical url kunt toepassen in WordPress. Ik maak hiervoor gebruik van de SEO plugin van Yoast.

Zodra je de plugin hebt geïnstalleerd, geeft de plugin je veel SEO opties. Je kunt onder andere je meta description invoegen, het analyseert je pagina, het geeft je artikel of pagina een SEO score en je kunt je canonical url bewerken/toevoegen.

De plugin wordt standaard onderaan een pagina of bericht toegevoegd. Klik voor de canonical url op ‘Geavanceerd’:

Gebruik de SEO plugin van Yoast voor canonical url's

Bij de optie ‘Canonieke-URL’ geeft de plugin aan dat het bericht al automatisch refereert naar de permalink die je gebruikt voor dit bericht. De permalink is de url van het bericht of pagina die je aan het opmaken bent en vind je direct onder de titel.

Is dit de url waarnaar Google moet verwijzen? Laat dan het veld open. Wil je dat Google naar een andere url verwijst en die indexeert? Vul dan het gehele URL hier in.

Overigens kun je ook van deze optie maken als jij dezelfde content op twee verschillende websites wilt plaatsen.

Interne dubbele content ontdekken met Siteliner

Is er een makkelijke manier om dubbele content op je website te ontdekken? Jazeker, met de tool Siteliner!

Open de tool, vul je website in en je krijgt een uitgebreid rapport over je website, waaronder een duplicate content rapport.

Schrik niet van alle linkjes die je in het duplicate content rapport ziet, zodra je hem opent. De tool meet namelijk alle overeenkomende teksten van een pagina op andere pagina’s.

Klik maar op een linkje, dan wordt het duidelijker. Als je op een linkje hebt geklikt, dan wordt de pagina geopend en zie je rechts in het scherm op welke andere pagina’s dezelfde delen tekst voorkomen. Soms zijn dat slechts 14 woorden in een artikel van wel 1000 woorden. Niet echt iets om je druk over te maken dus.

Gekopieerde content ontdekken met Copyscape

Heb jij een kickass website en schrijf je erg nuttige artikelen? Dan ga je waarschijnlijk meemaken dat andere websites content van jou kopiëren, zonder naar jou te linken als bron.

Gelukkig is er een handige tool om te ontdekken welke website content van jou hebben gekopieerd: Copyscape.

Deze tool spreekt redelijk voor zich: vul de URL van de pagina in waarvan je wilt checken of die is gekopieerd, klik op ‘Go’ en je krijgt een overzicht van de websites te zien die je content geheel of gedeeltelijk hebben gekopieerd. De gekopieerde delen worden ook nog eens gemarkeerd, superhandig dus!

Daarnaast zou je natuurlijk ook delen van je eigen tekst als zoekopdracht in Google kunnen gebruiken, om gekopieerde content te achterhalen.

Samenvattend

Dus wat moet je doen om dubbele content te voorkomen?

  • Kies voor de belangrijkste URL (https://www.domein.nl);
  • Kies voor de ‘Lees verder’ optie als je een blogartikel publiceert op de homepage;
  • Maak gebruik van canonical URL’s om aan te geven welke URL geïndexeerd dient te worden (in geval van bijvoorbeeld categorieën en/of tags);
  • Maak gebruik van absolute URL’s;
  • Check regelmatig op gekopieerde content met Copyscape;
  • Check je interne dubbele content met Siteliner.

Succes!

CTA Inbound & SEO whitepaper

Een gedachte over “Voorkom duplicate content met canonical url’s”

  1. Negeso CMS schreef:

    interesant artikeL!

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Test je kennis en doe de SEO quiz

SEO quiz
 

Het blog voor marketingbazen

Up to date blijven van de laatste ontwikkelingen op het gebied van B2B marketing en SEO? En wil je ook graag tips voor beter bloggen ontvangen?
Vul dan hier je e-mailadres in: