Maîtrisez votre budget de crawl WooCommerce : facettes, sitemap, indexation. Un guide opérationnel pour gagner en visibilité et déjouer les pièges SEO.
| Outil | Fonctionnalités clés | Limites |
|---|---|---|
| Screaming Frog SEO Spider | Crawl complet, détection des paramètres, analyse des balises robots, export CSV | Version gratuite limitée à 500 URL ; nécessite une licence pour sites volumineux |
| Sitebulb | Audit visuel, recommandations prioritaires, analyse du budget de crawl | Payant ; interface complexe pour les débutants |
| Google Search Console | Rapport d'exploration, indexation, erreurs 404, outil d'inspection d'URL | Pas de crawl personnalisé ; données limitées dans le temps |
| Ahrefs Site Audit | Analyse des facettes, détection des pages orphelines, suivi historique | Abonnement coûteux ; crawl limité selon le plan |
| JetOctopus | Crawl massif, visualisation du budget de crawl, détection des boucles | Outil récent ; communauté plus petite |
| Type de page | Action recommandée | Justification |
|---|---|---|
| Fiche produit unique | Indexer, inclure dans le sitemap | Page à forte valeur SEO, contenu original |
| Catégorie principale (ex : /vetements/femme) | Indexer, inclure dans le sitemap | Page de navigation clé, souvent bien positionnée |
| Facette combinée (ex : /vetements/femme?couleur=rouge&taille=M) | Noindex, follow ; ne pas inclure dans le sitemap | Contenu dupliqué ou très similaire, budget de crawl gaspillé |
| Page de tag de produit (ex : /tag/ete) | Noindex, follow ; exclure du sitemap | Faible valeur ajoutée, souvent sans contenu unique |
| Page paginée (ex : /categorie/page/2) | Canonical vers page 1 ou noindex si contenu identique | Évite la duplication et concentre le PageRank |
| Page de recherche interne (ex : /?s=chaussure) | Bloquer dans robots.txt | Aucune valeur SEO, pages dynamiques |
| Page de panier / checkout | Bloquer dans robots.txt | Pages transactionnelles, pas de contenu à indexer |
| Directive | Cible | Effet |
|---|---|---|
| Disallow : /wp-admin/ | Pages d'administration | Empêche l'exploration des pages de connexion |
| Disallow : /cart/ | Page panier | Évite l'indexation de pages sans contenu |
| Disallow : /checkout/ | Page de paiement | Protège les données sensibles |
| Disallow : /my-account/ | Pages compte client | Évite l'indexation de pages personnelles |
| Disallow : /*?couleur= | Paramètre de filtre couleur | Bloque les URL de facettes avec ce paramètre |
| Disallow : /*?taille= | Paramètre de filtre taille | Réduit le nombre d'URL explorées |
| Allow : /wp-content/uploads/ | Images et fichiers | Autorise l'accès aux ressources nécessaires au rendu |
Diagnostic e-commerce
Partagez votre boutique : on repère les leviers SEO, UX et conversion à fort impact, et on vous donne l'ordre dans lequel les activer.
L'audit d'indexation et de crawl WooCommerce consiste à analyser et optimiser la façon dont les moteurs de recherche explorent et indexent votre site, en priorisant les pages à forte valeur ajoutée et en réduisant le gaspillage de budget de crawl causé par les facettes, les filtres et les sitemaps mal configurés.
Pour optimiser votre budget de crawl WooCommerce, commencez par auditer votre fichier robots.txt et vos balises meta robots sur les pages de facettes. Configurez un sitemap XML dynamique qui exclut les URL avec paramètres de filtre et les pages sans contenu original. Implémentez des balises canoniques sur les variantes de produits et les pages paginées. Utilisez Google Search Console pour identifier les pages indexées inutiles et demandez leur suppression via l'outil de désindexation. Enfin, réduisez la profondeur de crawl des pages à faible valeur en limitant les liens internes depuis les pages stratégiques.
Cas fréquent observé : un site WooCommerce de 10 000 produits génère 150 000 URL indexées à cause des facettes de couleur, taille et prix, ce qui dilue le PageRank et ralentit l'exploration des fiches produits. Dans les faits, les équipes techniques configurant WooCommerce par défaut activent souvent le 'Crawl Optimisation' sans vérifier l'impact sur les facettes, ce qui double le nombre d'URL indexées. En accompagnement, la difficulté réelle est de prioriser les pages à indexer tout en conservant une navigation fluide pour l'utilisateur, surtout quand les filtres sont essentiels à l'expérience d'achat.
Le budget de crawl désigne le nombre d'URL qu'un moteur de recherche comme Google explore sur votre site lors d'une session donnée. Pour un site WooCommerce, ce budget est souvent mal utilisé à cause des pages de facettes, des filtres et des variations de produits. Chaque URL explorée consomme des ressources : si Google passe son temps sur des pages sans valeur ajoutée (exemple : /categorie/couleur-rouge?taille=M&prix=20-50), les fiches produits importantes risquent de ne pas être explorées ou indexées.
Pour estimer votre budget de crawl actuel, connectez-vous à Google Search Console, allez dans 'Pages' et observez le nombre d'URL indexées. Un site WooCommerce de taille moyenne peut avoir 5 à 10 fois plus d'URL indexées que de produits réels. L'objectif est de réduire ce ratio pour que chaque exploration compte. Une bonne pratique est de viser un nombre d'URL indexées proche du nombre de pages uniques à forte valeur : fiches produits, catégories principales, pages de contenu.
Les facettes WooCommerce (couleur, taille, prix, marque) génèrent des combinaisons d'URL infinies si elles ne sont pas correctement gérées. Par défaut, chaque filtre appliqué crée une nouvelle URL avec des paramètres dans la chaîne de requête. Par exemple : /vetements/femme?couleur=rouge&taille=M&prix=50-100. Ces pages sont souvent du contenu dupliqué ou très similaire, ce qui gaspille le budget de crawl.
Pour auditer vos facettes :
Une erreur fréquente est de tout noindex sans réfléchir : certaines combinaisons de filtres peuvent être utiles pour le référencement naturel (exemple : 'robe rouge taille M' peut être un mot-clé de longue traîne). Évaluez chaque cas.
Le sitemap XML est votre meilleur allié pour guider Google vers les pages importantes. Dans WooCommerce, le sitemap par défaut (généré par Yoast SEO ou Rank Math) inclut souvent toutes les URL de produits, catégories, tags et même les pages de facettes si vous n'avez pas configuré d'exclusion. Résultat : Google explore des centaines d'URL inutiles.
Pour optimiser votre sitemap :
Un sitemap bien configuré réduit le nombre d'URL explorées inutilement et accélère l'indexation des nouvelles fiches produits.
Le fichier robots.txt et les balises meta robots sont vos premiers outils pour contrôler l'exploration. Sur WooCommerce, il est tentant de tout bloquer dans robots.txt pour économiser du budget de crawl, mais cela peut empêcher Google d'accéder à des ressources CSS/JS (ce qui dégrade le rendu) ou à des pages importantes.
Bonnes pratiques :
Une erreur courante est de mettre 'noindex' sur toutes les pages de catégories : les catégories principales doivent être indexées pour le référencement. Réservez 'noindex' aux combinaisons de filtres peu pertinentes.
La pagination (page 2, page 3, etc.) peut créer des pages dupliquées si elle n'est pas gérée correctement. WooCommerce ajoute automatiquement des liens de pagination sur les catégories et les résultats de recherche. Chaque page paginée a une URL distincte (exemple : /categorie/page/2/).
Solutions :
Attention : Google peut ignorer les balises rel='prev/next' depuis 2019. La méthode la plus fiable est d'utiliser des balises canoniques ou de noindex les pages paginées si elles n'ont pas de contenu distinct.
Les pages à faible valeur ajoutée (pages de tags, archives d'auteurs, pages de résultats de recherche internes) consomment du budget de crawl sans bénéfice SEO. Sur WooCommerce, les tags de produits sont souvent créés en masse et génèrent des milliers d'URL.
Pour les identifier :
Une fois les pages identifiées, appliquez une balise 'noindex' ou redirigez-les vers une page pertinente (catégorie parente). Surveillez ensuite l'évolution du nombre d'URL indexées dans Search Console.
Les liens internes sont les chemins que les robots empruntent pour explorer votre site. Une mauvaise structure peut concentrer le crawl sur des pages peu importantes et négliger les fiches produits stratégiques.
Bonnes pratiques :
Une erreur fréquente est de mettre trop de liens dans le footer ou la sidebar : ces zones sont souvent ignorées par les robots. Concentrez les liens importants dans le contenu principal.
Google Search Console est votre tableau de bord pour mesurer l'impact de vos optimisations. Utilisez-le pour suivre le budget de crawl, les erreurs d'exploration et l'indexation.
Étapes clés :
Planifiez un audit mensuel de ces indicateurs pour ajuster votre stratégie. L'optimisation du budget de crawl est un processus continu, surtout après l'ajout de nouveaux produits ou de nouvelles catégories.
Prenons un exemple concret : un site e-commerce vendant des vêtements avec 5 000 produits, 50 catégories, 30 attributs (couleur, taille, matière, marque). Avant audit, Google indexait 120 000 URL. Après application des bonnes pratiques :
Ce cas montre qu'un audit méthodique peut réduire de 90 % le nombre d'URL indexées, améliorant ainsi la visibilité des produits stratégiques et le taux de conversion organique.
Le budget de crawl est le nombre d'URL que Google explore sur votre site en une session. Pour un WooCommerce, il est crucial car les facettes, filtres et variations de produits peuvent générer des milliers d'URL inutiles, diluant le crawl des pages importantes comme les fiches produits. Optimiser ce budget améliore l'indexation des pages stratégiques et la visibilité dans les résultats de recherche.
Utilisez un outil comme Screaming Frog pour crawler votre site et filtrer les URL contenant des paramètres de requête (?, &). Dans Google Search Console, allez dans 'Pages' et regardez le nombre d'URL indexées. Si ce nombre est bien supérieur au nombre de vos produits et catégories, les facettes sont probablement en cause. Vous pouvez aussi chercher 'site:votresite.com?couleur=' dans Google pour voir les pages indexées.
Non, certaines combinaisons de facettes peuvent avoir une valeur SEO, par exemple 'robe rouge taille M' si c'est un mot-clé de longue traîne recherché. Évaluez chaque attribut : ceux qui créent un contenu unique et pertinent peuvent être indexés. Pour les autres (couleur, taille basique), appliquez un noindex. L'idéal est de tester avec Google Search Console pour voir si ces pages génèrent du trafic.
Dans votre plugin SEO (Yoast ou Rank Math), allez dans les réglages des attributs de produits. Pour chaque attribut, désactivez l'inclusion dans le sitemap. Par exemple, dans Yoast : 'SEO > Search Appearance > Taxonomies > Product Attributes' et réglez 'Show in search results' sur 'No'. Dans Rank Math : 'Titles & Meta > Product Attributes' et mettez 'Include in Sitemap' sur 'No'. Ensuite, régénérez le sitemap et soumettez-le dans Search Console.
Le fichier robots.txt empêche l'exploration (crawl) d'une URL, mais Google peut encore l'indexer si elle est liée depuis un autre site. La balise meta robots noindex empêche l'indexation, mais Google doit d'abord explorer la page pour voir la balise. Pour les facettes, il est préférable d'utiliser noindex plutôt que de bloquer dans robots.txt, car cela permet à Google de voir la balise et de ne pas indexer. Si vous bloquez dans robots.txt, Google ne verra jamais le noindex et pourrait indexer via des liens externes.
Utilisez des balises canoniques sur chaque page paginée pointant vers la première page de la série. Cela consolide le PageRank et évite la duplication. Si les pages paginées n'ont pas de contenu unique (même description, mêmes produits), ajoutez une balise meta robots 'noindex, follow' sur les pages 2 et suivantes. Évitez d'utiliser uniquement rel='prev/next' car Google peut ignorer ces balises depuis 2019.
Screaming Frog SEO Spider est l'outil le plus complet pour un crawl détaillé, avec une version gratuite limitée à 500 URL. Sitebulb offre des recommandations visuelles et une analyse du budget de crawl. Google Search Console est indispensable pour les données d'indexation officielles. Pour les très grands sites, JetOctopus permet un crawl massif et une visualisation du budget de crawl. Choisissez selon la taille de votre site et votre budget.
Diagnostic e-commerce
Partagez votre boutique : on repère les leviers SEO, UX et conversion à fort impact, et on vous donne l'ordre dans lequel les activer.
Sources : Google Search Central · Google — Core Web Vitals · Shopify — performance.