jeudi 8 août 2019

Google annonce de nouvelles règles pour les robots.txt

Logo GooglebotDans l'optique de la standardisation des règles d'exploration par les crawlers (Robots Exclusion Protocol ou REP), Google vient d'annoncer qu'il ne prendra plus en compte les balises noindex, nofollow et crawl-delay présentes dans les fichiers robots.txt. Cela faisait déjà quelques temps que ces balises étaient déjà plus ou moins respectées par les Googlebots mais à partir du 1er septembre 2019, elles seront totalement ignorées. Alors comment faire ?

Tout d'abord, si vous ne souhaitez pas que Google indexe votre site (cas d'une sandbox par exemple), il vous suffira d'utiliser dans votre fichier robots.txt la balise disallow. Ensuite, si c'est au niveau d'une page, il vous faudra utiliser la balise meta tag noindex sur les pages concernées. Il en sera de même si vous désirez qu'aucun lien ne soit suivi sur une page avec la balise nofollow. Enfin, si ce n'est qu'au niveau d'un lien que vous ne désirez pas que le Googlebot le suive, il vous faudra le préciser directement au niveau du lien en utilisant cette même balise noindex. Pour finir, la balise crawl-delay n'étant déjà pas vraiment suivie par Google depuis longtemps, cette dernière ne sera tout simplement pas remplaçable.

Ne tardez pas à apporter ces modifications, il ne vous reste que quelques semaines et dans le cas des robots.txt des sandbox cela peut rapidement vous pénaliser pour cause de duplicate content...

Aucun commentaire:

Enregistrer un commentaire

Merci pour votre commentaire, celui-ci sera publié après modération.