Un blog WordPress bien référencé, le cas du Duplicate Content

Vous êtes l’heureux propriétaire d’un blog WordPress, vous écrivez des articles depuis un certains temps, mais lorsque vous regardez les statistiques de fréquentation de votre blog, la part des visiteurs venus d’un moteur de recherche est faible.

L’optimisation pour les moteurs de recherche — en anglais SEO — est un bon moyen de comprendre les mécanismes propres aux robots qui indexent les pages web. La SEO est un sujet vaste, aussi cette fois allons nous nous intéresser au Duplicate Content et son impact sur le référencement de votre blog WordPress.

Qu’est-ce que le Duplicate Content ou “contenu dupliqu锝 ?

Pour expliquer ce qu’est le Duplicate Content, je vais prendre l’exemple de NoPhysic. Chaque page de ce blog est identifiée par une URL :

Tout comme le mot “pomme” désigne le fruit du pommier et rien d’autre, une URL définit un contenu unique. Seulement voilà, qu’est-ce qu’un contenu unique ?

Si nous allons sur la page du thème internet, on constate qu’elle dresse la liste des articles en rapport avec ce thème; elle reprend donc une partie du contenu de l’article “Réserver un nom de domaine, idées reçues et réalit锝 par exemple.

Mettons nous à la place d’une personne qui fait une recherche sur Google pour “réserver domaine idées reçues”. Quel contenu est-il plus pertinent de lui présenter : la page du thème internet qui reprend une partie de l’article, ou bien l’article lui même ? L’article bien sûr.

C’est cette notion de pertinence de l’information qui définie le Duplicate Content. Si deux pages possèdent un contenu identique, il faudra en éliminer une. Cependant, comme la page du thème internet a une utilité pour l’utilisateur, on ne va pas la supprimer du site, on va tout simplement indiquer aux robots des différents moteurs de recherche de ne pas l’indexer.

Empêcher l’indexation des contenus dupliqués

Il existe deux façons d’indiquer à un crawler qu’il ne doit pas indexer une page : la première est d’insérer une balise meta dans l’entête de la page; la seconde consiste à créer un fichier robots.txt à la racine du site, et d’y préciser les pages auxquelles il ne doit pas accéder.

Il est intéressant de noter que si la méthode de la balise meta demande au bot de ne pas indexer la page, elle lui permet de suivre les liens présents sur celle-ci, alors que la seconde méthode lui interdit tout bonnement d’accéder à la page, empêchant le bot de suivre les liens, mais économisant la bande passante du serveur. La différence est subtile mais importante.

Commençons par bloquer complètement l’accès aux pages que l’on ne veut certainement pas indexer.

robots.txt, le fichier qui murmurait à l’oreille des robots

Une fois le fichier robots.txt créé à la racine du blog, nous allons y préciser les urls à ne pas visiter :

User-agent: *
# l'astérisque ou “wildcard” a fonction de joker, les paramètres s'appliqueront à tous les robots.

Disallow: /wp-
# On interdit l'accès aux répertoires de wordpress tels que wp-includes et wp-content.

Disallow: /search
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
# On interdit l'accès aux pages de recherches, aux trackbacks, aux fils RSS du blog, des billets, et des commentaires.

Disallow: /*?*
Disallow: /*?#
# On interdit l'accès aux urls qui contiennent des paramètres (ex: http://nophysic.com/?s=cinema)

Disallow: /theme/*/*
Disallow: /tag/*/*
# Les pages de catégories et de tags sont un exemple typique de Duplicate Content, on les bloque aussi.

Optionnel : tant que nous sommes dans robots.txt, on peut en profiter pour préciser le comportement de certains crawlers particuliers.

User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google Image indexera toutes les images

User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# Google AdSense aura accès à tout

User-agent: duggmirror
Disallow: /
# digg mirror ne pourra pas sauvegarder une page après qu'elle soit passée sur Digg

Maintenant, puisque j’ai choisi de prendre l’exemple de NoPhysic, si l’on regarde la page des archives, on constate que bien qu’elle présente une part de contenus dupliqués, elle contient une grande quantité de liens. La méthode du fichier robots.txt n’est donc pas de rigueur dans ce cas.

La balise meta no-index

Pour éviter l’indexation mais permettre le suivi des liens, nous allons placer le code suivant, dans l’entête de la page :

<meta name="robots" content="noindex" />

Il existe de nombreuses façons d’y parvenir, mais puisque nous sommes sur WordPress, utilisons un plugin. Cela tombe bien, il existe une vraie merveille en matière de SEO : le plugin HeadSpace 2.

Installez le et configurez le, il permet un vaste panoplie d’actions sur tous les éléments de WordPress. Je ne rentre pas dans les détails de la configuration, tout est expliqué sur le site officiel, en anglais, et sinon il existe de nombreux tutoriaux en français sur le net.

Conclusions

Maintenant que vous avez créé un fichier robots.txt et installé le plugin HeadSpace 2, votre blog sera plus efficacement indexé par les moteurs de recherche, youpi !

Est-ce que cela suffira à être le 1er résultat de Google pour tous ses articles ? Certainement pas. Le facteur déterminant en matière de référencement demeure le nombre de liens de qualité pointant vers vos articles. Néanmoins un blog comme NoPhysic, pourtant très peu linké, s’en sort honorablement, grâce à ce travail de SEO.

Cet article vous a plu ? Abonnez-vous à NoPhysic par RSS ou mail.

Message express à l’auteur