Inbound Marketing en SEO

Wat zijn Robots.txt, Meta Robots tag en Nofollow links?

Deel dit bericht:


Door:

 

Om je website te kunnen indexeren, crawlen zoekmachines je websites met zogenaamde bots. Maar wat als je wilt dat bepaalde pagina’s niet worden geïndexeerd? Bijvoorbeeld je pagina met een overzicht van je klanten, je gastenboek of als je website dubbele content bevat?

En wat als je linkt naar andere websites en je niet wilt dat Google die linkjes volg, omdat het een betaalde link betreft? Google ziet dat dan als een foute linkbuilding tactiek en kan daar dan een penalty voor uitdelen. Dus hoe voorkom je dat?

In dit artikel zal ik uitleggen hoe je de bots van zoekmachines kunt blokkeren voor bepaalde pagina’s, hoe jij de bots de juiste richting op kunt sturen en hoe jij je linkjes controleert.

Daar gebruik je robots.txt, meta robots tag en nofollow links voor. Je zal er ongetwijfeld van gehoord hebben, maar wat zijn het in hemelsnaam? En wanneer gebruik je wat? En hoe pas je het toe?

Wat is robots.txt?

Wat is robots.txt?

Met een robots.txt vertel je de crawlers van zoekmachines welke pagina’s van jouw website wel en welke pagina’s zij niet mogen bezoeken. Dat kunnen individuele pagina’s zijn of meerdere pagina’s die bijvoorbeeld allemaal in een bepaalde categorie staan.

Voordat de bots van zoekmachines jouw website gaan crawlen, chechen zij eerst jouw robots.txt bestand.

Het bestand is een normaal bestandje dat je heel makkelijk kunt opmaken in bijvoorbeeld kladblok. Het bestand plaats je in de root directory van je website. Daarmee bedoel ik dat de locatie van het robots.txt bestand, eigenlijk dezelfde url structuur heeft als elk andere pagina op je website. De locatie van het robots.txt bestand zou dus bijvoorbeeld http://www.jouwdomein.nl/robots.txt kunnen zijn.

Overigens negeren zoekmachines soms het robots.txt bestand. Het is dus een verzoek aan zoekmachines en geen garantie. Dus heb jij een pagina die echt niet in de zoekresultaten van bijvoorbeeld Google mag komen, bijvoorbeeld als de pagina gevoelige klantinformatie bevat? Dan moet je de pagina afschermen met bijvoorbeeld wachtwoordbeveiliging.

Hoe creëer je een robots.txt bestand?

Het is vrij simpel om een robots.txt bestand te maken. Je kunt dat gewoon doen in kladblok.

In kladblok kun je aangeven welke zoekmachines naar je robots.txt moeten luisteren. Zoekmachines benoem je als ‘User-agent’ en pagina’s die je niet wilt laten indexeren geef je aan met ‘Disallow’.

De crawler van Google noem je ‘Googlebot’. Dus als je bijvoorbeeld de pagina’s ‘klanten’ en ‘gastenboek’ niet door Google wilt laten indexeren, vermeld je het volgende in je bestand:

User-agent: Googlebot
Disallow: /klantenoverzicht.html
Disallow: /gastenboek.html

Wil je dat niet één van je pagina’s worden geïndexeerd door Google? Dan dien je het volgende te vermelden:

User-agent: Googlebot
Disallow: /

Met slash (/) geef je aan dat alle pagina’s van je domein genegeerd moeten worden.

Wil je dat alle zoekmachines je pagina’s negeren? Gebruik dan een sterretje:

User-agent: *
Disallow: /

Mogen alle zoekmachines al je pagina’s indexeren? Laat dan beide opties leeg:

User-agent:
Disallow:

Vervolgens sla je het bestand op als robots.txt en plaats je het vervolgens in je root directory. Weet je niet hoe dat moet? Check dan de website van je hostingsbedrijf of vraag je contactpersoon bij het hostingsbedrijf om het even voor je te doen. Het is namelijk zo gebeurd.

Moet je de sitemap toevoegen aan het robots.txt bestand?

Ja, hoe je dat doet leg ik uit in mijn artikel ‘Wat is een XML-sitemap en hoe verzend je die naar Google?‘.

Daarnaast moet je de sitemap handmatig toevoegen aan je Search Console account en kijken naar de feedback die je ontvangt van de console. Je kunt er namelijk niet op vertrouwen dat zoekmachines je sitemap ook daadwerkelijk vinden in je robots.txt bestand.

Check voor meer gedetailleerde informatie over robots.txt, dit artikel van MOZ.

Wat is de meta robots tag?

De meta robots tag is net wat anders dan een robots.txt bestand en bevindt zich in de header van een pagina. Je kunt met de meta robots tag, dus alleen een individuele pagina controleren.

Met de meta robots tag vertel je aan zoekmachines of ze een specifieke pagina moeten indexeren en of ze de linkjes op die pagina moeten volgen. Zoekmachines respecteren de meta robots tag meer dan de robots.txt bestand, omdat het een individuele pagina betreft.

Hoe kun je met de meta robots tag aangeven of een pagina geïndexeerd moet worden?

Dat is voor WordPress-gebruikers heel simpel. Ik ga ervan uit dat je inmiddels de WordPress SEO plugin van Yoast hebt geïnstalleerd.

Scroll naar de Yoast plugin onder je pagina of blogartikel en klik op ‘Geavanceerd’. Selecteer vervolgens bij ‘Meta-Robots-index’ of je de pagina wel of niet wilt laten indexeren:

Meta robots index WordPress SEO Yoast

 

Ook kun je in de optie daaronder aangeven of zoekmachines de linkjes die op de pagina staan vermeld, wel of niet dienen te volgen:

Meta robots tag WordPress SEO van Yoast

Belangrijk is om te vermelden dat zoekmachines de pagina dus wel crawlen, maar niet indexeren, terwijl bij robots.txt de pagina helemaal niet gecrawld wordt.

Wat is een nofollow link?

De nofollow link betreft een link op een pagina of in een blogartikel. Het vertelt zoekmachines niet of ze een link moeten crawlen. Het vertelt alleen aan zoekmachines of ze wat van jouw autoriteit als waarde moeten meegeven aan de pagina waarnaar je linkt.

Stel jij bent een blogger en je schrijft een betaalde advertorial over een product van een bedrijf. In dat artikel zal je dan waarschijnlijk linken naar de website van het bedrijf waarvoor je de advertorial schrijft.

Als jij dan niet aangeeft dat het een nofollow linkje dient te zijn, dan kan Google dat zien als een foute linkbuilding tactiek van het bedrijf waarvoor jij schrijft. Linkjes moet je namelijk op een natuurlijke manier verdienen.

Met een nofollow link kun je dus aangeven, dat het een advertorial betreft.

Hoe geef je aan dat een linkje een nofollow link dient te zijn?

Dat heb ik zojuist al uitgelegd bij de optie ‘Meta-robots-follow’.

Nadeel van die optie is echter dat het meteen alle linkjes op een pagina betreft. Wat als je een aantal linkjes op een pagina wel als follow wilt instellen en een ander linkje niet?

Dan kun je wat code toevoegen in de HTML van de link. Vind de link in de HTML en plaats de volgende code voor het linkje: rel=” nofollow”.

Stel ik wil linken naar een pagina met als titel: ‘Geweldige tips voor SEO’. Dan zou het linkje er als volgt uit kunnen zien:

<a href=“http://www.voorbeeld.nl/geweldige-seo-tips/”>Geweldige tips voor SEO</a>

Om dat linkje nofollow te maken, voeg ik de nofollow code toe:

<a href=“http://www.voorbeeld.nl/geweldige-seo-tips/” rel=“nofollow”>Geweldige tips voor SEO</a>

Ik begrijp dat dit allemaal misschien wat technisch is voor sommige mensen. Voor WordPress is hier (zoals gewoonlijk) een handige oplossing voor middels een plugin.

De ‘Ultimate nofollow’ plugin is de plugin die ik hiervoor gebruik. Als je een link wilt toevoegen, heb je nu de extra optie om een link noffolow te maken:

Nofollow link WordPress

 

Wanneer moet je een robots.txt bestand of een meta robots tag gebruiken?

Kunnen robots.txt en meta robots samenwerken? Nee, dat is niet aan te raden.

Stel je hebt een testpagina op je website: www.voorbeeld.nl/testpagina en je hebt met de volgende robots.txt aangegeven dat alle zoekmachines de pagina niet mogen indexeren:

User-agent: *
Disallow: /testpagina.html

Dan loop je tegen het probleem dat zoekmachines soms de robots.txt negeren, dus voor de zekerheid gebruik je ook de meta robots tag om aan te geven dat de pagina ‘noindex’ dient te zijn.

Het probleem hiervan is echter, dat je met de robots.txt al hebt aangegeven dat ze de pagina niet mogen crawlen, ze kunnen daarom de meta robots tag niet zien.

Dus als je echt zeker wilt weten dat de pagina niet wordt geïndexeerd, is het beter om deze pagina niet in de robots.txt te plaatsen, maar met de meta robots tag aan te geven dat deze pagina noindex is.

Wil je bijvoorbeeld tientallen pagina’s onder een bepaalde categorie niet laten indexeren? Dan zou je kunnen kiezen voor een robots.txt bestand. Wil je een specifieke pagina niet laten indexeren? Dan zou ik kiezen voor een meta robots tag.

Daarnaast kost het zoekmachines geld om websites te crawlen. Heb jij tientallen niet zo relevante pagina’s? Dan zou je kunnen besluiten om deze in een robots.txt bestand op te nemen. Zoekmachines besparen dan geld op jouw website en zullen dan vaker en/of efficiënter jouw website indexeren. Zoekmachines zijn ook gewoon bedrijven die geld willen verdienen. Het crawlen van websites proberen ze daarom zo efficient mogelijk te doen.

Ik heb alleen de bedankpagina’s van mijn landingspagina’s met een meta robots tag als noindex ingesteld. De rest van mijn website mogen alle zoekmachines compleet crawlen en indexeren, op de inlogpagina van mij CMS na.

Dat is een bewuste keuze. Het is namelijk zo, dat als ik een bepaalde pagina blokkeer door die toe te voegen aan het robots.txt bestand, ik niet wat van de linkwaarde ontvangt als een andere website naar desbetreffend pagina linkt. En dat wil ik uiteraard wel!

Mijn robots.txt bestand ziet er daarom als volgt uit:

User-agent: *
Disallow: /wp-admin/

Succes!

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Test je kennis en doe de SEO quiz

SEO quiz
 

Het blog voor marketingbazen

Up to date blijven van de laatste ontwikkelingen op het gebied van B2B marketing en SEO? En wil je ook graag tips voor beter bloggen ontvangen?
Vul dan hier je e-mailadres in: