Blog

Le budget crawl de Google : tout ce qu’il faut savoir

Le 27 janvier 2017 par Alice

google partner

Gary Illyes de Google a publié un article sur le blog de Google pour les Webmaster, à propos de Googlebot et des problèmes de budget crawl (budget d’exploration) que les propriétaires de sites peuvent avoir.

 

Tout d’abord, il est important de noter que tous les propriétaires de sites ne sont pas touchés par des problèmes de budget crawl. Pour la plupart, les sites dont le nombre de pages est de 4 000 ou moins ne sont généralement pas dotés de problèmes de crawl budget. Pour les sites qui fonctionnent avec davantage de pages, le crawl budget peut être un problème qui nécessite un examen attentif.

 

Pour les sites volumineux, un crawl budget mal géré peut induire une différence entre le fait que vos pages soient indexées et qu’elles ne le soient pas du tout.

 

Nous avons également quelques commentaires supplémentaires de Gary Illyes sur certains aspects du crawl budget qui n’ont pas été évoqués dans le blog officiel de Google.

 

Le budget crawl n’est pas un facteur de référencement

Souvent, les propriétaires de sites craignent que Googlebot ne crawle pas leurs pages aussi souvent qu’il le devrait, et cela nuit à leur classement. Google a déclaré plusieurs fois auparavant que la fréquence d’indexation n’est pas liée au classement dans les résultats de recherche. Et Google confirme une fois encore que le taux d’exploration (crawl budget) n’est pas directement lié au classement mais beaucoup de gens croient encore que l’augmentation du budget crawl d’un site = classements plus élevés.

 

« Un taux d’exploration (crawl budget) accru n’entraînera pas nécessairement de meilleures positions dans les résultats de la recherche. Google utilise des centaines de signaux pour classer les résultats, et quand bien même le crawl est nécessaire pour être dans les résultats, ce n’est pas un facteur de référencement. »

 

Cela dit, augmenter le crawl budget peut signifier que certaines pages (sur des sites très volumineux) qui n’ont pas encore été indexées peuvent finir par être indexées, ce qui peut contribuer à positionner les mots clés et générer du trafic. C’est pourquoi il peut être très important pour les sites volumineux de s’assurer qu’ils obtiennent autant de budget crawl que possible.

 

Les différences entre crawl rate limit et crawl demand

Il est important de noter ce que Google entend pour ces deux termes qui, pris ensemble, constitue ce que l’on définit comme le crawl budget.

 

La limite de la vitesse d’exploration fait référence au taux auquel Googlebot effectue une exploration active d’un site. Il est déterminé par la santé du crawl (la façon dont le serveur répond à l’exploration de Googlebot) et parfois par le taux maximal d’exploration qu’un webmaster indique à Googlebot pour crawler (via laGoogle Search Console).

 

La demande de crawl (crawl demand) concerne le nombre d’URL que Googlebot souhaite analyser sur un site, en fonction de la décision de Google quant aux URL à explorer, à la fréquence à laquelle elles doivent être analysées et à ce que les URL les moins fréquemment consultées restent planifiées. Cependant, aucune garantie ne permet d’analyser toutes les pages de votre site même si votre serveur répond rapidement.

 

Les nouveaux sites obtiennent un crawl rate par défaut

J’ai demandé à Gary Illyes de Google comment Google détermine le budget crawl d’un site, en particulier pour les nouveaux sites, et il a révélé que chaque nouveau site obtient une limite de taux d’exploration par défaut pour commencer. Que les sites soient volumineux ou non, le point de départ est le même.

 

« Chaque nouveau site obtient une limite de taux d’exploration par défaut, qui peut changer avec le temps quand l’indexation est supérieure à la demande ».

 

C’est assez intéressant. Nous avons souvent vu de nouveaux sites de grande envergure accroître le nombre de pages indexées, ce qui reflète le fait que Google ajuste ce taux d’exploration par défaut quand il détermine combien et à quelle vitesse Googlebot peut crawler les pages.

 

La santé des sites web compte

Si vous disposez d’un site volumineux, Google examine la vitesse du serveur et le temps de réponse du serveur en regardant le budget crawl. Si votre serveur est rapide sans erreurs serveur, attendez-vous à un budget crawl plus élevé que si votre site est plus lent à répondre ou affiche des erreurs serveur 5xx à Googlebot.

 

N’oubliez pas que ce n’est pas toujours la vitesse du serveur qui est impactante. Votre base de données répond peut-être lentement. Votre CMS est peut-être vieux et obsolète, et il en résulte une lenteur dans l’affichage du contenu sur la page.

 

Vitesse de chargement des sites web

Vous avez probablement beaucoup entendu dire que la vitesse est importante. Cela est particulièrement vrai pour votre budget crawl. Si vous voulez tirer le meilleur parti de votre budget crawl, vous devez vous assurer que Googlebot ne ralentit pas le crawl de votre site parce qu’il est trop lent à répondre et que Google peut « avoir peur » de faire crasher votre serveur.

 

Bien que Google ne soit pas précis en termes de vitesse, John Mueller a indiqué qu’un temps de réponse de deux secondes a entraîné un budget crawl très réduit sur le site en question :

 

« Nous constatons un temps de réponse extrêmement élevé pour les demandes faites sur votre site (parfois plus de 2 secondes pour obtenir une URL unique). Cela nous a permis de limiter sévèrement le nombre d’URL que nous allons explorer à partir de votre site, et vous voyez que dans Explorer comme Google. »

 

Toutefois, pour ceux qui ont des sites lents, cela ne signifie pas que vous êtes coincés à jamais avec un faible crawl budget. La vitesse du site peut avoir un impact plus important dans le temps, ce qui signifie que même si votre site est lent aujourd’hui, Google pourra remarquer quand le site sera plus rapide. Si Googlebot sait que votre site répond « très rapidement pendant un certain temps », il augmentera le budget crawl. Donc, si vous savez que votre site est lent et que le temps de réponse de votre serveur est lent, le changement vers un site / serveur plus rapide changera la fréquence d’exploration de Googlebot. Comme il reconnaît que la vitesse augmente, il va augmenter le taux d’exploration.

 

« Comme nos systèmes affichent un temps de réponse réduit, ils ramènent automatiquement la sauvegarde en crawlant (ce qui vous donne plus de place pour utiliser Explorer comme Google). »

Cela dit, si votre serveur a la capacité de supporter un crawl élevé de Googlebot, cela ne signifie pas forcément que le crawl sera élevé.

 

« Même si la limite de vitesse d’exploration n’est pas atteinte, s’il n’y a pas de demande d’indexation, l’activité de Googlebot sera faible. »

 

Il est également intéressant de noter que la vitesse de la page n’est pas un facteur de référencement. D’un point de vue positionnement, Google impactera probablement un site lent de manière négative.

 

La popularité est importante

Quand il s’agit de décider quand et à quelle fréquence Googlebot va crawler, Google dit clairement qu’il va crawler les pages qu’il détermine comme populaires, ce qui signifie que ces pages en particulier seront mises à jour plus fréquemment et seront plus « fraiches » dans les résultats de recherche.

 

« Les URLs qui sont les plus populaires sur Internet ont tendance à être crawlées plus souvent pour les garder plus fraîches dans notre index. »

 

Certaines URL populaires peuvent être crawlées plusieurs fois par jour, même si d’autres pages du site ne sont pas crawlées à la même fréquence.

 

Mais qu’est-ce que Google utilise pour déterminer la popularité ? Google ne partage plus de détails à ce sujet parce que les spammeurs en tireraient parti. Cependant, il existe certainement des signaux tels que PageRank / liens (internes et externes), des impressions dans les résultats de recherche, des clics, le fait qu’il s’agisse d’une page de contenu de haute qualité, etc. sont susceptibles de figuer dans le mix des signaux.

 

Cependant, il y a une autre perspective à la popularité qui pourrait jouer un rôle que la plupart des gens ne considèrent pas – si vous avez un site de haute qualité, il pourrait regarder les pages les plus populaires sur chaque site, plutôt que les plus évidentes. Google continue de crawler les pages les plus populaires sur le web. Pourtant, ce que Google considère comme populaire peut ne pas correspondre aux pages que vous considérez comme les plus importantes.

 

URLs obsolètes

Google a également spécifiquement dit qu’il essaye de ne pas laisser les URL devenir obsolètes dans l’index – mais il ne précise pas ce qu’il entend par obsolète.

 

« Nos systèmes tentent d’empêcher les URL de devenir obsolètes dans l’index. »

 

Mais il n’est pas rare de voir certaines URL qui n’ont pas été crawlées pendant des mois lorsque vous vérifiez les logs serveur ou le cache Google. Pour la plupart, cependant, ceux-ci ont tendance à être des pages qui n’ont pas été modifiées pendant un temps très long, donc Google suppose que ces URL n’ont probablement pas changé récemment.

 

Finalement, Google va parcourir ces pages car peut-être le contenu a changé depuis sa dernière exploration de la page, et il pourrait ne pas être encore le reflet du titre et de l’extrait qu’ils affichent actuellement dans les résultats de recherche. Et cela ne fait pas une bonne expérience utilisateur pour les internautes.

 

Les pages de mauvaise qualité ont tendance à être crawlées moins fréquemment car il y a moins de valeur pour Google de les montrer. Sauf si vous êtes dans un secteur d’activité avec une concurrence extrêmement faible, ce qui peut parfois se produire dans des régions non anglophones, il y a probablement beaucoup plus de pages de qualité supérieure sur lesquelles Google peut passer son temps.

 

Le protocole AMP utilise le budget crawl

Dave Besbris, vice-président de l’ingénierie chez Google, a déclaré l’an dernier que le protocole AMP utilise le budget crawl car Google doit encore crawler ces pages. Toutefois, c’était seulement lorsque Google affichait AMP dans le carrousel de nouvelles pour les mobinautes bien avant que Google annonce AMP dans les dix liens bleus des principaux résultats de recherche.

 

Google confirme qu’AMP utilise toujours le budget crawl, encore une fois parce que Google doit toujours crawler ces pages AMP pour vérifier les erreurs d’AMP ainsi que s’assurer que le contenu de la page Web standard correspond à ce qui est sur la version AMP.

 

Celui-ci est assez important pour les sites volumineux. Pour les sites ayant des problèmes avec le budget crawl, l’ajout d’AMP pourrait avoir un impact considérable. Dans de tels cas, il pourrait être préférable de tester l’AMP à plus petite échelle pour commencer, comme dans une section spécifique ou seulement sur des pages populaires, plutôt que d’implémenter AMP sur plein de pages à la fois.

 

Les balises hreflang utilisent le budget crawl

Les URL alternatives Hreflang utilisent également le budget crawl. Google doit s’assurer que les pages sont identiques ou similaires et que certaines pages ne sont pas redirigées vers du spam ou d’autres contenus.

 

Gardez à l’esprit que si vous avez des problèmes de budget crawl lorsque vous avez plusieurs versions alternatives de la même page via les hreflang, chacune de ces pages que vous utilisez pour d’autres langues aura un impact sur le budget crawl.

 

Les fichiers CSS et JS utilisent le budget crawl

De même, tous les fichiers CSS et Javascript que vous utilisez sur votre site consomment également le budget crawl. Bien que Google ait longtemps préconisé la combinaison de fichiers CSS et Javascript pour des raisons de vitesse, je soupçonne que beaucoup ne sont pas conscients que chacun de ces fichiers font également partie du budget global de crawl d’un site.

 

Auparavant, Google ne crawlait pas ces fichiers donc ce n’était pas un si grand problème. Depuis que Google a commencé à les crawler, en particulier pour le rendu des pages, ce qui est au-dessus de la ligne de flottaison et ce qui pourrait être caché, beaucoup de gens n’ont pas encore optimisé ces fichiers.

 

J’ai demandé à Gary Illyes de Google si Googlebot télécharge des fichiers tels que CSS et Javascript sur chaque page ou si il reconnait que les fichiers sont identiques et crawle donc seulement le fichier une fois. «Cela dépend en fonction des directives de mise en cache», a déclaré Illyes.

 

Mise en cache des ressources pour préserver le budget crawl

Si vous utilisez n’importe quel type de plugin de vitesse sur votre site, vous pouvez déjà utiliser la mise en cache des ressources pour les bots. Si ce n’est pas le cas, Cache-Control peut être ajouté au fichier en cours d’analyse ou ajouté à votre .htaccess, qui est souvent la solution de mise en œuvre la plus simple.

 

Si votre site utilise abondamment des ressources telles que plusieurs fichiers CSS et Javascript, implémenter Cache-Control est une chose intelligente à faire pour des raisons techniques. Googlebot n’en tirera pas seul l’avantage. La vitesse du site est généralement améliorée, et cela profite également aux visiteurs de votre site.

 

N’oubliez pas qu’il est assez courant pour les plugins WordPress d’ajouter leurs propres CSS et JS à chaque page, que la page utilise le plugin ou non. Donc, si vous avez 15 plugins installés, vous pourriez ajouter 30 autres ressources supplémentaires que Google devra crawler sur chaque page. Dans ces cas-là, il est facile de voir comment la mise en cache préserverait le budget crawl.

 

Budget crawl et sitemap

Les sitemaps jouent un rôle important dans le budget crawl. Google privilégiera les URL répertoriées dans un sitemap sur des URL qui ne figurent pas dans le sitemap et qu’il découvre indépendamment soit par des liens internes sur le site soit par des liens externes.

 

Cela ne s’applique que lorsque vous soumettez un sitemap partiel à Google – sur un site volumineux, il ne donnera pas la priorité à chaque URL unique sur un site simplement parce qu’il est l’un des sitemaps automatisés qui contient chaque URL unique sur le site.

 

« Si cette URL se trouve dans un sitemap, nous voudrons probablement l’explorer plus tôt ou plus souvent parce que vous avez jugé cette page plus importante en la mettant dans un sitemap. Nous pouvons également apprendre que cela peut ne pas être vrai lorsque les sitemaps sont générés automatiquement, comme pour chaque entrée d’URL unique dans le plan du site. »

 

Donc, si vous prévoyez d’utiliser des sitemaps pour vous assurer que Google indexe les pages les plus importantes sur un site volumineux, jouer avec des sitemaps partiels pourrait être une option.

 

L’autre avantage de cette méthode est qu’il peut être un peu plus facile de vérifier l’état de l’index de vos pages les plus importantes, et un peu plus facile d’identifier tout dans ce groupe ce qui est indexé et crawlé. Et il y a d’autres avantages à utiliser des sitemaps multiples ou partiels.

 

En outre, il n’est pas nécessaire de renvoyer un sitemap régulièrement pour augmenter le taux de crawl.

 

Déplacement de site

Google a tendance à crawler un site avec une fréquence plus élevée si un déplacement de site a eu lieu. Cela inclut des éléments comme passer à HTTPS ou même un changement de structure de site significatif. Google a communiqué sur le fait de vouloir s’assurer que les sites qui passent à HTTPS sont crawlées par Googlebot aussi rapidement que possible afin que plus de propriétaires de sites fassent le changement.

 

Bien que Google augmente sensiblement la fréquence de crawl afin d’indexer les nouvelles URL et de les associer aux anciennes URL (si vous avez fait correctement des redirections), cela ne signifie pas que ce taux d’indexation élevé est directement lié au classement ni que vous maintiendrez vos positions plus rapidement.

 

Si vous effectuez un déplacement de site et si Googlebot crawle trop « fort » le site car il recrawle tout rapidement, vous pouvez toujours temporairement laisser tomber la limite de taux d’exploration pour un quelques jours. N’oubliez pas de revenir en arrière pour voir si l’exploration régulière de Googlebot est correcte.

 

Augmentation soudaine du crawl rate

Bien que la plupart des sites interprètent un taux de crawl comme une bonne chose, certains propriétaires de sites en tirent une conclusion alors qu’il s’agit juste du processus normal de Googlebot.

 

« Pourquoi nous pouvons crawler plus est une question qui parfois n’a rien à faire avec le site mais parce que nos algorithmes décident juste « je veux vérifier toutes les URL que j’ai trouvé sur ce site il y a un certain temps » et il va simplement crawler deux fois plus pendant quelques jours mais cela ne sous-entend ni un problème ni une chose dont vous devez vous préoccuper. »

 

Il est important de noter qu’un taux de crawl élevé ne correspond pas à un positionnement plus élevé, surtout si ce taux de crawl élevé n’est pas dû à des URL découvertes récemment. À de nombreuses reprises, vous verrez une hausse sans raison spécifique.

 

Google a également confirmé qu’une augmentation du taux de crawl ne signifie pas qu’il y a un changement dans l’algo de Google (bien qu’il y ait des régulièrement des changements) ou un signe que les actions manuelles sont sur le point d’arriver. De même, l’augmentation du taux de crawl ne signifie pas qu’un site est impacté par Panda, ni un signe que quelque chose affecte le site algorithmiquement. Ils ont également confirmé que le changement en temps réel de Penguin n’a pas déclenché un taux d’exploration accru.

 

Cela ne signifie pas non plus que Google modifie quelque chose dans son algorithme.

 

« Le crawl ne changerait pas de façon spectaculaire si l’un des algorithmes de classement était mis à jour. »

 

Toutefois, lorsque vous constatez une augmentation soudaine du taux d’exploration après un déplacement de site, une modification de la structure des URL ou des URL changées, ce qui est parfaitement normal, -Google travaille à s’assurer que les anciennes URL correspondent aux URL nouvelles et optimisées.

 

Diminution du crawl rate

En revanche, si Google identifie un site comme étant un SPAM, Google n’accorde pas beaucoup de priorité sur l’exploration de ces pages.

 

« Si ce site est de faible qualité alors il ne nous intéresse pas vraiment. Donc crawler plus vite n’est pas vraiment logique, et il n’y aura pas de gros effet de toute façon. »

 

À partir des informations sur le fichier de désaveu, nous avons appris que Googlebot peut parfois ne pas analyser une URL pendant 9 mois, et ce sont des pages qui ont tendance à être de faible qualité ou du SPAM.

 

Le crawl rate varie par URL sur un même site web

Sur un même site, il n’existe pas de scénario unique pour les taux de crawl. Un site peut avoir différents taux de crawl par URL.

 

« Les taux de crawl par URL diffèrent. Certaines URL sont crawlées toutes les « quelques » minutes, d’autres seulement tous les deux mois. »

 

Lorsque vous avez un site avec des taux aussi variés, c’est probablement un signal pour regarder les pages qui sont crawlées assez rarement en comparaison et voir si elles sont de faible valeur, et si elles doivent être supprimées ou mises en noindex. Ces pages peuvent être simplement des exemples de contenu que Google reconnaît mais qui n’ont pas été modifiées depuis longtemps.

 

« Il n’est pas vrai que si une page n’est pas crawlée régulièrement, elle n’apparaitra pas du tout dans le classement des résultats de recherche. En général, nous essayons de faire notre exploration en fonction de quand nous pensons que cette page pourrait changer ou combien de fois elle pourrait changer. Donc, si nous pensons que quelque chose reste identique pendant une longue période de temps, nous n’allons pas crawler pendant un certain temps. Nous pouvons toujours montrer la page dans les résultats de recherche. »

 

Comme toujours, avant de supprimer des pages pour des raisons de faible qualité perçue, vérifiez vos statistiques pour voir si ces pages obtiennent du trafic ou non.

 

Priorité du crawl

Tout comme Google peut avoir un taux de crawl variable sur différentes URL , Google accorde une période de crawl différente par page. Pour de nombreux sites – mais pas tous – Google considère la page d’accueil comme la page avec la plus haute priorité pour l’exploration. C’est pourquoi si vous regardez les logs serveur, c’est probablement la page la plus crawlée par Googlebot.

 

Beaucoup d’autres facteurs pourraient entrer en jeu sur la façon dont Google détermine la priorité, comme le PageRank, les liens, la popularité, etc. Même si une page n’a pas été crawlée pendant un certain temps, elle a besoin d’une priorité élevé pour qu’un nouveau crawl se produise.

 

Gary Illyes a donné quelques détails sur ce sujet :

 

« Par exemple, les URL avec un PageRank élevé devraient probablement être crawlées plus fréquemment. Nous avons un tas d’autres signaux que nous utilisons mais que je ne citerai. En principe, plus l’URL est importante, plus souvent elle sera crawlée. Une fois que nous réexplorons les URLs importantes, alors nous arrêtons juste et n’allons pas plus loin. »

 

Planification du crawl

Nous savons que Google a créé une planification pour l’exploration des URL. La page d’accueil est crawlée au moins une fois par jour, et souvent beaucoup plus que cela. D’autres URL peuvent être définies sur un calendrier avec une fréquence moindre, en fonction de l’importance ou la popularité que ces URL ont.

 

Gary Illyes a donné quelques détails sur ce sujet :

 

« Je pense que ce dont vous parlez, c’est la planification. Fondamentalement, combien de pages demandons-nous du côté de indexation pour être analysées par Googlebot. Cela s’explique principalement par l’importance des pages d’un site mais pas par le nombre d’URL que vous souhaitez analyser. Ca n’a rien à voir avec la charge de l’hôte. Par exemple, si cette URL est dans un sitemap, nous voudrons probablement la crawler, plus tôt ou plus fréquemment parce que l’avez renseignée dans le sitemap. »

 

Comment Googlebot choisit les URLs à crawler

Illyes a également évoqué le processus que Googlebot utilise pour déterminer ce qui est à explorer sur un site lorsqu’il effectue une visite.

 

« Chaque jour ou presque, nous allons créer un lot d’URL que nous voulons crawler à partir d’un site, et nous allons remplir ce lot avec des URL triées via les signaux que nous utilisons pour la planification, PageRank, etc.. Et à partir du plus haut niveau (du lot), nous commençons à crawler encore et encore. Si nous pouvons terminer le crawl du lot, c’est une bonne chose. Si nous voyons que le serveur ralenti, nous arrêtons. »

 

Encore une fois, sitemaps et PageRank contribuent au choix des URLs.

 

Google ignore certaines pages lors du crawl

Il est normal pour Google de ne pas indexer chaque page sur un site, ce qui peut être un problème pour un site de petite taille mais rien de spécifique au budget crawl d’un site. Si Googlebot semble ignorer certaines pages de votre site, particulièrement celles importantes, il est important de comprendre pourquoi.

 

Tout d’abord, vérifiez toujours la balise noindex ou le robots.txt qui pourrait bloquer Googlebot. Très souvent, c’est la raison pour laquelle Google ne recherche pas et n’indexe pas ces pages.

 

Effectuez également l’option « Explorer et afficher comme Google ». Assurez-vous que Googlebot affiche ce que vous attendez de lui. Utilisez à la fois les robots d’exploration mobiles et desktop, et assurez-vous que ce n’est pas un problème qui affecte l’un ou l’autre.

 

Vérifiez le contenu dupliqué – souvent, c’est simplement les pages de filtres identiques ou presque, en particulier sur les fiches produits.

 

Enfin, assurez-vous qu’il existe des liens (liens réguliers, pas de nofollow) vers les pages en question ou qu’ils sont inclus dans un sitemap.

 

Les liens internes ont un impact sur le budget crawl

Les liens internes ont également un impact sur le budget crawl car ils aident à déterminer les pages que Google devrait crawler et avec quelle priorité. J’ai demandé à Gary Illyes de Google plus de clarification sur le rôle des liens internes puisque l’article (sur le blog officiel de Google) n’en parle pas.

 

« Oui, les liens internes ont un impact sur le budget crawl à travers le crawl demand. »

 

Attribut no follow et budget crawl

Certains sites ont commencé à utiliser le nofollow sur les liens internes comme la navigation. John Mueller a déclaré que les sites n’ont pas besoin de s’inquiéter de l’utilisation du nofollow à des fins de budget crawl à moins qu’ils aient des milliers de liens de navigation sur une page. Il souligne que si la navigation est longue, il pourrait y avoir des problèmes d’utilisabilité également.

 

Google recommande également à ce que les sites ne nofollow pas les liens sur leurs sites car ils permettent également à Googlebot de comprendre la hiérarchie et l’importance de certaines pages.

 

« Nofollow n’est probablement jamais la bonne réponse, surtout sur votre propre site. »

 

De plus, si vous ne souhaitez pas que Google indexe des pages spécifiques en raison de l’impact sur le budget crawl, l’utilisation du noindex et du robots.txt est une stratégie bien meilleure. Vos liens ne sont pas la seule façon dont Google découvre d’autres liens. Si vous utilisez simplement un nofollow, Google pourrait toujours les indexer et ainsi utiliser le budget crawl. L’inverse pourrait se produire : vous pourriez nofollow liens vers une page particulière et Google pourrait simplement ne jamais les crawler et indexer, ce qui n’est généralement pas l’idée du propriétaire du site à la base.

 

Tag noindex et budget crawl

Placer un noindex sur une page va faire en sorte que Googlebot visite ces pages beaucoup moins fréquemment. Googlebot va généralement crawler ces pages quelques fois pour vérifier et voir si le noindex a été supprimé ou non.

 

Google continuera à effectuer un hit sur la page, mais à un rythme de une fois tous les 2 à 3 mois.

 

« Nous allons toujours analyser cette page, probablement tous les deux ou trois mois. Nous allons visiter la page à nouveau pour voir si le noindex est toujours là mais nous n’allons très probablement pas crawler plus souvent. »

 

Cependant, John Mueller a également dit qu’il ne préserve pas le budget crawl parce que ces pages sont techniquement crawlées selon un calendrier même avec le noindex en place mais pas aussi fréquemment que certaines pages. Ces pages ont peut-être été explorées peu fréquemment au départ, de sorte que l’ajout de la balise noindex pourrait avoir causé aucun changement.

 

Mueller confirme donc que le noindex n’est pas une solution viable pour un véritable impact sur le budget crawl. Au lieu de cela, déterminez si ces pages ont un réel intérêt et envisager de les bloquer complètement au crawl de Googlebot. Si ces pages obtiennent un fort trafic naturel, vous devez prendre en compte cette perte de trafic.

 

Si vous décidez d’utiliser le nofollow à des fins de budget crawl, il ne devrait être utilisé que sur des pages que vous considérez comme sans importance et qui n’auront pas d’utilité importante à l’avenir. Par exemple, le noindex d’une page saisonnière n’est probablement pas la meilleure décision si elle devient une page très importante dans quelques mois. Si Google accélère éventuellement l’indexation, il pourrait encore être beaucoup plus lent dans ce cas précis.

 

Si vous avez besoin de réindexer qui a eu un noindex sur le long terme, votre meilleure option est de la soumettre dans Google Search Console pour essayer d’accélérer le processus.

 

Canonical et budget crawl

D’un point de vue SEO, la balise canonical est très pertinente. Qu’en est-il de son utilisation et de son impact sur le budget crawl ?

 

Googlebot doit toujours analyser les canonical – et parfois Google découvre de nouvelles URL à explorer car elles sont canoniques – vous n’allez pas empêcher Googlebot de toutes les analyser. Google a encore besoin de déterminer si elles sont effectivement en double, si il est logique de mettre une canonical et si il n’y a pas de problèmes de SPAM qui se cacher derrière une canonical. Il pourrait y avoir un gain mais il ne semble pas significatif.

 

Il y a des tonnes de raisons d’utiliser des canonical même si elle n’économisent pas le budget crawl d’un site. Par exemple, l’utilisation de canonicals pour gérer le contenu en double est généralement une décision SEO intelligente.

 

CMS et budget crawl

De nombreux CMS (par exemple, WordPress), de forums, etc. laissent une empreinte, que ce soit dans le code ou dans les URL. Est-ce que Google reconnait les modèles communs et crawle différemment si il identifie un élément particulier utilisé pour une page ?

 

J’ai demandé à Gary Illyes si cela fait une différence ou pas pour le budget crawl. « Non, nous n’utilisons pas de modèles communs », a confirmé Illyes.

 

Impact des erreurs serveur

Les erreurs serveur peuvent réduire votre budget crawl et c’est quelque chose à surveiller. Si Google rencontre des erreurs serveur, il ralentira le crawl à un taux plus raisonnable que le serveur de votre site peut gérer. Si votre site est très lent à répondre ou affiche des erreurs serveur, il limitera généralement le nombre de pages que Googlebot peut crawler.

 

Lorsque vos problèmes de serveur deviennent un problème sur le long terme et lorsque Googlebot reconnaît ces erreurs comme fréquentes, il ralentira également le crawl de ces pages jusqu’à ce ne vérifier seulement que chaque mois.

 

Étant donné qu’un propriétaire de site peut ne pas voir ou remarquer ces types d’erreurs, il est important de les vérifier dans Google Search Console sous Crawl -> Erreurs de crawl. En fait, à de nombreuses reprises Googlebot verra une erreur serveur que vous ne verrez pas en tant qu’internaute.

 

Ce rapport affichera des erreurs serveur spécifiques et quelles pages sont concernées. N’oubliez pas que parfois ces erreurs serveur peuvent parfois s’afficher uniquement pour Googlebot et pas pour les internautes. Il est important de vérifier les pages avec des erreurs serveurs et utiliser « Explorer et afficher comme Google » (et soumettre si les erreurs sont corrigées) afin que vous puissiez voir exactement ce que Googlebot voit.

 

Encore une fois, ne supposez jamais qu’il soit question d’une erreur temporaire que parce que vous ne voyez pas les erreurs serveur quand vous allez sur le site. Parfois, il s’agira d’une situation ponctuelle – Googlebot peut crawler votre site pendant que vous faites une mise à jour WordPress ou pendant une opération de maintenance sur le serveur. Toutefois, lorsque des problèmes apparemment aléatoires d’erreur serveur deviennent habituels, ils sont indicatif d’un problème plus grand quant à la capacité de Google de crawler votre site.

 

Si le problème est suffisamment grave, Google enverra un avis sur les erreurs serveur via Google Search Console.

 

Longues chaines de redirection

L’utilisation de longues chaînes de redirection a également un impact sur le budget crawl. Certains propriétaires de sites pensaient que lorsque Google n’avait plus une perte de PageRank calculée en 301 et 302, les chaînes de redirection n’étaient plus un problème. Bien que je ne serai pas inquiète d’avoir quelques unes sur un site volumineux, utiliser de nombreuses chaînes de redirection peut avoir un impact sur un site au-delà de la simple question du budget crawl.

 

Googlebot ne suivra que 5 redirections 301 dans une chaîne – au-delà, Googlebot cessera de suivre la chaîne de redirection.

 

« En général, ce qui se passe est Googlebot suit 5 redirections 301, puis si il ne peut pas atteindre la page de destination alors il va essayer à nouveau la prochaine fois. »

 

En 2011, Matt Cutts a recommandé d’utiliser seulement 1 ou 2 redirections dans une chaine, et ce conseil est toujours synonyme de best practice.

 

Les chaînes de redirection peuvent également avoir un impact négatif sur la vitesse de votre site, à la fois des chaînes de redirection que le site envoie à Googlebot et  sur l’expérience utilisateur. Les fichiers .htaccess lourds avec un grand nombre de redirections peuvent également avoir une incidence sur la vitesse.

 

Si vous avez des chaînes de redirection de plus de 3 longueur, essayez de réduire ce nombre. Parfois, ces longues chaînes de redirection sont héritées de plusieurs modifications et changements de structure d’URL qui sont survenus au fil des années.

 

Budget crawl et RankBrain

RankBrain est encore un algorithme mal compris dans les résultats de recherche, et Google ne partage pas beaucoup de détails à ce sujet. Google a confirmé que RankBrain n’affecte pas le budget crawl de Google pour un site.

 

Googlebot ignore le crawl-delay

Juste un rappel, Googlebot ignore la directive crawl-delay que certains sites tentent d’utiliser pour Googlebot dans leur fichier robots.txt. Si vous souhaitez ralentir le crawl de Google sur votre site, vous devez le faire via Google Search Console. Google est assez bon pour ne pas crawler un serveur si cela peut avoir des répercussions sur les visiteurs du site.

 

Modifier le crawl rate de Googlebot

La modification du taux de crawl de Google dans Search Console (dans les paramètres du site) n’augmentera pas le crawl de Googlebot, sauf si vous l’aviez précédemment réglée sur «Limiter le taux d’exploration maximal de Google». Google recommande la fonctionnalité soit « Laissez Google optimiser pour mon site ».

 

Corriger les pages à faible valeur

Google indique également que l’indexation de Googlebot sur ce qu’il appelle des URL à faible valeur ajoutée peut avoir un impact négatif sur le budget crawl et sur l’indexation d’un site. Lorsque Googlebot est forcé de crawler ces pages dites de faible valeur, cela signifie que Googlebot risque de ne pas crawler vos pages de meilleure qualité.

 

Ces pages de faible valeur signifient également qu’il faudra plus de temps à Googlebot pour découvrir certaines des pages de meilleure qualité, en particulier pour les nouveaux sites, qui sont plus importantes pour vous que celles de faible valeur. Si vous avez des pages sur le site pour lesquelles vous jugez peu important que Google les indexe ou non, il peut être judicieux de les supprimer ou de bloquer le crawl afin de ne pas gaspiller les ressources d’exploration sur ces pages.

 

Conclusion, vous ne devriez pas avoir des pages juste pour les ajouter au nombre de pages total. Assurez-vous qu’elles ont de la valeur et optimiser celles qui n’en n’ont pas.

 

Google se réfère à certains types de page spécifiques à utiliser jusqu’au budget crawl sur un site:

 

Navigation à facettes

La navigation à facettes est un problème technique commun. Lorsque vous avez des pages où plusieurs options peuvent être modifiées (telles que le l’affinement d’une recherche de produit), et si chacune de ces options individuelles peut être indexée par Googlebot alors, vous perdez beaucoup de budget crawl pour ces pages qui ne bénéficient pas au site en étant indexées.

 

Google a des recommandations pour les sites qui utilisent la navigation à facettes pour empêcher ces problèmes.

 

Identifiants de session

Les identifiants de session (qui incluent les ID de session, les codes de suivi d’affiliation, les paramètres d’URL et les paramètres de suivi) peuvent également affecter le budget crawl d’un site lorsque Googlebot indexe soudainement la même URL plusieurs fois avec l’ajout des paramètres d’URL. Bien que ce ne soit pas un problème commun aujourd’hui, ce fut le cas il y a plusieurs années pour de nombreux propriétaires de sites.

 

Cependant, de nombreux sites ecommerce se heurtent encore à des problèmes avec ces paramètres où les URL de suivi de la publicité sont indexées. Si vous savez que vous avez des problèmes avec ces types d’URL, Google recommande des best practices.

 

Contenu dupliqué sur site

Tout d’abord, le contenu dupliqué se réfère très précisément au contenu dupliqué sur votre site et pas au contenu dupliqué sur d’autres sites. Si vous avez beaucoup de pages similaires ou presque qui sont indexées, Google peut perdre son temps à explorer et à indexer ces pages qui pourraient être filtrées dans la recherche.

 

Essayez d’identifier et de réduire ces pages de contenu en double lorsque cela est possible. L’utilisation d’une version canonique sur une seule page est la solution la plus populaire. Vous pouvez prendre des mesures pour garantir que ces pages en double ou quasi-doublées sont assez différentes pour que Googlebot les considère comme des pages uniques et distinctes.

 

Pour les sites traitant des pages de produits quasiment identiques, John Mueller a récemment émis des recommandations.

 

Pages d’erreur 404 et soft 404

Les pages d’erreur Soft font référence à des pages apparemment supprimées ou non trouvées mais, qui, au lieu d’afficher le code d’état habituel 404, fournissent un code de réponse de 200 mais avec une page vierge ou une page qui n’a pas de « contenu réel » en dehors du menu de navigation. Comme Google continue de les crawler et d’attendre le contenu, il gaspille son budget crawl sur ces pages au lieu des pages avec du contenu réel.

 

Evitez également la tentation de simplement rediriger toutes les 404 vers la page d’accueil, ou pire, afficher le contenu de la page d’accueil sur ces 404. Au lieu de cela, afficher un véritable code d’erreur 404 et créez une page personnalisée qui aide les internautes comme l’ajout d’une barre de recherche ou des liens vers vos pages les plus populaires.

 

Google Search Console dispose d’un rapport affichant 404 soft sous Crawl -> Erreurs de crawl. La résolution de ces dernières signifie que vous montrez à Google ce qu’il devrait voir – soit une vraie 404 soit une erreur technique qui aurait du conduire au contenu. Google répondra en conséquence.

 

Pages piratées

Si votre site est piraté, vous devez supprimer ces pages du site et afficher des 404. Google est assez habitué à voir des pages piratées et les retirera de l’index assez rapidement.

 

Il n’y a aucune raison de rediriger ces URL anciennement piratées vers la page d’accueil, une chose que certains propriétaires de sites continuent à faire. Google recommande d’utiliser une 404 une fois que le contenu piraté est supprimé.

 

Et non, les 404 sur des pages piratées ne causent aucun problème de classement.

 

Proxy et espaces infinis

Si vous avez déjà reçu un avertissement de Google Search Console indiquant qu’ils ont découvert un grand nombre d’URL sur votre site, c’est probablement un problème avec les espaces infini.

 

Nous voyons cela se produire sur des éléments comme les résultats de recherche interne indexés (en particulier ceux avec des suggestions de recherche qui se répètent à plusieurs reprises) même lorsqu’ils ont abouti à aucun résultat trouvé. Pour la plupart des sites, vous indiquerez un noindex pour les pages résultants de la recherche interne car elles sont généralement indexées sous les pages de catégorie, de produit, etc.

 

D’autres exemples que Google aborde dans un article sur la question, tels qu’un calendrier qui peut être indexé le mois suivant pour toujours et les résultats de recherche de produit où les différentes options pourraient être indexées à l’infini.

 

Si vous avez des espaces infinis ou si quelque chose sur votre site peut devenir infini pour Googlebot, Google partage la façon de résoudre les problèmes.

 

Vous pouvez également découvrir certains de ces problèmes en utilisant un robot d’exploration tiers pour tester ces types de problèmes. De cette façon, vous pouvez les corriger avant qu’ils ne deviennent un problème pour Google.

 

Contenu de mauvaise qualité et SPAM

C’est plus explicite. Si vous avez un contenu de mauvaise qualité ou du SPAM sur votre site, soit améliorez la qualité ou indiquez un noindex. Si il s’agit de SPAM, supprimez-le. Avec Google Panda, Google va déclasser ce contenu.

 

Conclusions sur le budget crawl

Tous les sites ne doivent pas s’inquiéter du budget crawl. Si vous avez un site de 47 pages et que Googlebot hit chacune de ces pages chaque jour alors votre temps sera mieux dépensé en cherchant à optimiser votre site via d’autres façons. Si vous avez un site avec des milliers de pages, alors le budget crawl sera votre ami en SEO.

 

Cet article est une traduction de l’article du SEMPost.

Partagez partager sur facebook