Si vous êtes confortables à lire l’anglais, le blog officiel de Google pour les webmasters (Webmaster Central Blog) vient de publier une compilation importante des 7 articles à lire pour solutionner les problèmes les plus souvent encourus avec un site web et leur moteur de recherche.
Un résumé des 7 points:
1- Leur robot d’indexation Googlebot ne peux accéder à votre site parce qu’il est bloqué par un script anti-spambot: une façon d’authentifier leur robot est de faire un reverse DNS lookup et vérifier que le domaine contient googlebot.com, et pour une technique encore plus avancée (pour ceux qui ont vraiment de gros problèmes), suivre avec un forward DNS->IP lookup.
2- Leur service Outils pour Webmasters indique qu’un URL de votre site est bloqué par votre robots.txt alors que ce n’est pas le cas? Google offre une liste possible de problèmes et solutions pour ce type d’erreur.
3- Le retirement de certaines de vos pages avec leur outil URL removal est refusé: voyez à ce que le contenu soit bel et bien retiré et renvoie un message d’erreur 404. Pour les répertoires, il importe de les bloquer à partir de votre fichier robots.txt. Pour retirer une de vos pages de leur cache, ajoutez le balise meta noarchive dans vos headers.
4- les meilleurs pratiques pour un site qui emploie Flash (dont le contenu n’est pas détectable par leur robot d’indexation): Intégrez des animations Flash dans vos pages html, mais ne l’utilisez pas pour la navigation, ou pire, construire une page complète exclusivement avec Flash sans structure html. Un point surprenant, et rassurant pour ceux qui l’ont intégré à certains de leurs sites, Google recommande une solution comme sIFR pour vos titres de page au lieu d’une simple animation flash. sIFR jongle judicieusement entre l’animation Flash et CSS / Javascript pour permettre alternativement du code html standard, comme les headers H1, H2, etc. Enfin, créer une version alternative du site sans Flash, purement en HTML, est aussi une solution.
Dans tous les cas, assurez-vous toujours que les versions textes alternatives correspondent exactement à ce que Flash affiche, sinon vous pourriez subir une pénalité pour cloaking.
5- Les fameux résultats supplémentaux (Supplemental Results): Sur ce point, Google semble surtout essayer de rassurer les webmasters et justifier son emploi. Pas grand chose d’autre à ajouter.
6- Le contenu dupliqué (duplicate content) est au autre point d’inquiétude pour les webmasters: pour des pages au contenu identique avec différentes addresses (causé par une identification de session ou des paramètres de URL, ce qui arrive parfois avec des logiciels web comme les CMS ou boutiques électroniques), Google nous rassure qu’ils prendront simplement la version de page la plus populaire et la mieux cotée avec leur Google PR comme étant définitive et il n’y aura pas de pénalité pour le site. Il importe, quand même, de minimiser ce problème quand ça nous est possible.
7- Ce point regroupe surtout les questions fréquentes à propos de la soumission d’un plan de site (sitemap) à Google. Personnellement, je recommande un design de navigation qui maximise l’indexation de votre site dans son entièreté plutôt que de se fier à ce genre de service, c’est beaucoup moins de problème (qu’en est-t-il des autres moteurs de recherche?) et ce genre de discipline devrait être maitrisée par tous webmasters sérieux.
Vos articles sont super intéressants :) De longues nuits de lectures en prévision.
Merci :)
« Keep it up » comme dirait nos voisins britanniques !