Le stockage et le traitement de trillions de pages par Google est un source de coût majeure pour le moteur. Pour cette raison, la tendance est à l'indexation de plus en plus restrictive, essentiellement en vue de réaliser des économies. En termes de qualité des résultats, Google a également intérêt à être sélectif dans l'indexation.
Dans une analyse seo d'un site web, la présence de contenu dupliqué est l'une des premières mesures à effectuer
Un des plus gros soucis du référenceur est la création de plusieurs pages sur un même site, avec le même contenu. Il peut y avoir plusieurs raisons à l’origine de ce problème : pages "à imprimer", proposition de plusieurs formats de site (mobile et desktop, par exemple) à l’utilisateur, ou encore la pagination du contenu.
Les blogs sont confrontés à deux inconvénients principaux en termes de contenu dupliqué :
Vous pouvez aisément trouver les copies de chaque mot, chaque phrase et chaque paragraphe de la homepage du blog apparaître sur les pages de billets ("permapages"), ce qui crée naturellement un duplicate problématique.
En effet, quel contenu les moteurs feront-ils apparaître dans les résultats ? La homepage du blog a probablement plus de linkjuice et de PageRank, mais chaque billet, individuellement, est plus ciblé, plus compétitif sur sa requête. La part positive de tout cela est que si vous bloguez fréquemment, le contenu de la page d’accueil changera rapidement, laissant le champs libre aux pages de billets. Mais … et si vous avez une pagination ?
Après quelques nouveaux billets, le problème change de nature mais subsiste. Ce problème peut encore empirer si le blog n’est pas indexé assez fréquemment : Google aura alors dans son cache des articles référencés sur plusieurs pages à la fois (du fait de l’asynchronie entre les caches et les publications), ce qui multiplie encore le duplicate content. Toutefois, les moteurs de recherche voient cette forme récurrente de contenu dupliqué si souvent qu’ils sont en mesure de jongler avec. Bien sûr, vous pouvez rencontrer ce problème sur bien d’autres types de structures : pages pour impressions, forums, boutiques en ligne, …
Une balise meta "noindex" sur les pages de duplicate ou une redirection 301 de ces pages vers l’originale sont deux solutions techniques valables. Le "meta" noindex pour les sites nouveaux est à privilégier quand vous pouvez le placer dès le commencement. Pour les sites les plus vieux avec beaucoup de liens internes et externes pointant sur les différentes version de contenu, une redirection 301 est la plus indiquée.
Certains référenceurs conseillent l’utilisation du cloaking. L’idée est d’utiliser une 301 conditionnelle, juste pour les moteurs, ce qui permet de désigner la version originale comme étant la source. Les visiteurs, dans le même temps, auront accès au contenu, dans le format désiré.