Wat is ‘Duplicate Content’, voorkom dat je word gestraft door Google


Veel bedrijven maken gebruik van hetzelfde PR materiaal om informatie over zichzelf te publiceren op diverse websites. Dit kan leiden tot ernstige problemen omdat Google dit kan zien als ‘duplicate content’ (gedupliceerde, of ’duplicaat’-content).

Duplicate content is identieke (of bijna identieke) content (inhoud) die kan worden gevonden op meer dan 1 plaats op het internet. Hoewel Google de exacte cijfers hierover niet zal vrijgeven, schat Go Up dat als 70% van de inhoud op een pagina identiek is aan de inhoud van een andere pagina, deze pagina wordt beschouwd als een duplicaat.

Voorafgaand aan Google Panda, (een recente update van Google algoritmes) zou een dubbele inhoud normaal gesproken alleen van invloed geweest zijn op de mogelijke rangschikking van de dubbele pagina’s. Echter, sinds Panda kan een dubbele inhoud ernstige gevolgen hebben voor de rangschikking van de hele site. Vanwege deze ‘duplicate content’, hebben problemen zich ontwikkeld van relatief laag tot zeer ernstig.

Hier volgen een paar van deze problemen vanwege ‘duplicate content’:

  • Zoekmachines willen niet meer dan 1 versie van dezelfde content in de zoekresultaten laten zien, omdat dit de relevantie en de diversiteit zou veminderen.
  • Zoekmachines proberen dit op te lossen door de originele (canonieke) versie van het artikel te zoeken en alleen die te tonen. Om dit te bereiken nemen ze aan dat de pagina met de hoogste Pagina Metrics en Domein Metrics de originele pagina is. Dit is vaak niet het geval.

  • Duplicate content kan vaak beschouwd worden als inbreuk op Copyright.
  • Het kan beschouwd worden als Web-Spam, met als gevolg zware zoekmachine-sancties.
  • Het kan resulteren in een verlies van ‘Link Juice’ en verkeer, of splitsing van ‘link Juice’ tussen andere URL’s.
  • Zoekmachines kunnen niet kiezen bij het leiden van de Link Metrics naar een enkele versie van de pagina, of naar meerdere kopieën van dezelfde pagina.
  • Sinds de lancering van Google’s Panda wordt duplicate content nu beschouwd als een indicator van een site van slechte kwaliteit, die een slechte gebruikerservaring biedt. Google wil vermijden dat deze pagina’s van slechte kwaliteit telkens terugkeren in de zoekresultaten, en straft op deze manier sites met veel duplicate content.
  • Dubbele pagina’s zullen ertoe leiden dat je ‘crawl allowance’ op is. Hoewel er geen exacte limiet is voor het aantalpagina’s dat bezocht wordt door de Google-bots in elk crawl sessie, zijn er bepaalde patronen die wijzen op ‘crawl limit themes’. Zo zal Google, bijvoorbeeld, meestal  meer tijd toewijzen aan een site met een hoge autoriteit om die te doorzoeken dan het geval zou zijn voor een site met een lage autoriteit. Te veel pagina’s met ‘duplicate content’ gebruiken kostbare ‘crawl-tijd’, wat er vaak toe leidt dat meer belangrijke pagina’s niet doorzocht worden.

Duplicate content kan ertoe leiden dat websites hun ranking en hun verkeer kwijtraken. Ze kunnen spam-boetes krijgen, of zelfs juridische problemen. Het kan er voor zorgen dat zoekmachines minder relevante resultaten opleveren. Daarom moet dit onderwerp serieus  behandeld worden.