Découvrez comment auditer l'indexation et le crawl de votre site Magento, maîtriser les facettes, les canonicals et les sitemaps pour un budget de crawl efficace.
| Méthode | Avantages | Inconvénients |
|---|---|---|
| Noindex sur toutes les facettes | Économie de crawl immédiate, simplicité de configuration | Perte de trafic potentiel si une facette est populaire |
| Canonical vers la catégorie parente | Conserve le trafic des facettes, évite la duplication | Nécessite une configuration technique avancée |
| AJAX / Infinite scroll | UX moderne, pas de création d'URLs | Dépend de JavaScript, peut ralentir le rendu |
| Paramétrage via module (ex. : Amasty) | Flexibilité, possibilité de whitelist | Coût supplémentaire, maintenance |
| Étape | Action | Outil recommandé |
|---|---|---|
| 1. Inventaire des URLs | Crawler toutes les URLs accessibles | Screaming Frog, DeepCrawl |
| 2. Analyse des facettes | Lister les paramètres de filtre actifs | Google Search Console, logs serveur |
| 3. Vérification des canoniques | Tester les balises sur chaque type de page | Screaming Frog, Ahrefs |
| 4. Audit des sitemaps | Vérifier le contenu et la soumission | Google Search Console |
| 5. Configuration robots.txt | Bloquer les dossiers et paramètres inutiles | Outil de test robots.txt |
| 6. Analyse des logs | Identifier les URLs les plus crawlées | Log File Analyzer |
| 7. Correction et suivi | Appliquer les modifications et surveiller | Google Search Console, Analytics |
| Indicateur | Objectif | Fréquence de suivi |
|---|---|---|
| Pages crawlées par jour | Stable ou en baisse après optimisation | Hebdomadaire |
| Taux d'indexation | Supérieur à 70 % | Mensuel |
| Pages en erreur 404 | Moins de 1 % du total | Mensuel |
| Pages noindex | 100 % des facettes non stratégiques | Trimestriel |
| Temps de réponse moyen | Moins de 2 secondes | Hebdomadaire |
Diagnostic e-commerce
Partagez votre boutique : on repère les leviers SEO, UX et conversion à fort impact, et on vous donne l'ordre dans lequel les activer.
L'audit d'indexation et de crawl Magento consiste à analyser comment les robots des moteurs de recherche explorent et indexent les pages d'un site e-commerce, en optimisant les facettes de navigation, les balises canoniques et les sitemaps pour économiser le budget de crawl et améliorer le référencement.
Pour optimiser votre budget de crawl sur Magento, commencez par auditer vos facettes de navigation : paramétrez-les en noindex ou en AJAX pour prévenir la duplication. Vérifiez que chaque page canonique pointe vers l'URL maître, et consolidez vos sitemaps XML en excluant les pages inutiles (panier, compte client). Enfin, utilisez les outils comme Google Search Console pour identifier les pages à faible valeur ajoutée et les bloquer via robots.txt ou meta robots. Cette approche réduit le gaspillage de crawl et concentre les ressources sur les pages stratégiques.
Cas fréquent observé : un site Magento avec 50 000 produits et 200 facettes génère plusieurs millions d'URLs, dont 80 % sont dupliquées ou sans valeur SEO. En accompagnement, la difficulté réelle est de convaincre les équipes techniques de limiter les facettes, car elles sont perçues comme essentielles pour l'UX. Dans les faits, le budget de crawl est souvent épuisé par des pages de filtres inutiles, ce qui retarde l'indexation des fiches produits et des catégories principales.
Le budget de crawl représente le nombre de pages que Googlebot explore sur votre site dans un laps de temps donné. Sur Magento, ce budget est souvent mal exploité à cause de la génération dynamique d'URLs via les facettes de navigation, les tris et les pages de catégories multiples. Chaque filtre appliqué crée une nouvelle URL potentiellement indexable, ce qui peut saturer le crawl.
Pour optimiser ce budget, il faut d'abord mesurer le nombre d'URLs uniques découvertes par Google. Utilisez Google Search Console (rapport 'Pages') et des outils comme Screaming Frog pour lister toutes les URLs accessibles. Identifiez les pages à faible trafic, les pages d'erreur 404 et les redirections. L'objectif est de réduire le volume d'URLs inutiles pour que le robot se concentre sur les pages à fort potentiel commercial.
Les facettes de navigation (filtres par prix, couleur, taille) sont une source majeure de duplication de contenu. Chaque combinaison de filtres peut générer une URL unique, comme 'www.exemple.com/chaussures?couleur=rouge&taille=42'. Si ces URLs sont indexées, elles cannibalisent les pages principales et diluent le budget de crawl.
L'audit consiste à lister toutes les facettes activées dans votre back-office Magento. Pour chaque facette, évaluez son utilité SEO : les facettes rarement utilisées ou qui génèrent des pages sans contenu unique doivent être désactivées ou paramétrées en 'noindex, follow'. Une bonne pratique est d'utiliser le module 'Layered Navigation' de Magento pour appliquer un paramétrage global : noindex sur toutes les pages de facettes, sauf exceptions (ex. : facettes saisonnières à fort trafic).
Les balises canoniques indiquent à Google quelle version d'une URL est l'originale. Sur Magento, elles sont cruciales pour les pages produits avec plusieurs variantes (couleur, taille) ou pour les URLs générées par des paramètres de suivi (UTM, session). Une erreur fréquente est d'omettre la balise canonique sur les pages de catégories paginées, ce qui conduit Google à indexer chaque page de pagination comme une page distincte.
Pour auditer les canoniques, utilisez un crawler pour vérifier que chaque page possède une balise 'rel=canonical' pointant vers l'URL correcte. Sur Magento, assurez-vous que le module 'Catalog URL Rewrites' est correctement configuré : les URLs de produits doivent avoir une canonical vers l'URL courte et unique, sans paramètre. Pour les pages de facettes, la canonical doit pointer vers la catégorie de base (ex. : 'www.exemple.com/chaussures' pour 'www.exemple.com/chaussures?couleur=rouge').
Le sitemap XML guide Google vers les pages importantes de votre site. Sur Magento, le sitemap par défaut inclut souvent toutes les URLs, y compris les pages de facettes, les pages de compte client et les pages de panier, ce qui gaspille le budget de crawl. Pour optimiser, générez des sitemaps segmentés : un pour les catégories, un pour les produits, un pour les pages CMS.
Dans l'administration Magento, allez dans 'Marketing > SEO & Search > Site Map'. Créez plusieurs sitemaps en filtrant par type d'entité. Par exemple, un sitemap 'sitemap_products.xml' ne contient que les produits actifs et indexables. Utilisez des outils comme 'Magento 2 Sitemap Generator' pour exclure automatiquement les URLs avec des paramètres ou les pages en noindex. Soumettez chaque sitemap séparément dans Google Search Console et surveillez le nombre d'URLs soumises vs indexées.
Le fichier robots.txt indique aux robots quelles zones du site explorer. Sur Magento, il est essentiel de bloquer l'accès aux dossiers sensibles comme '/var/', '/media/', '/downloader/' et aux pages de backend ('/admin/'). Mais il faut aussi bloquer les paramètres d'URL qui génèrent du contenu dupliqué, comme '?___store=' ou '?___from_store='.
Pour auditer votre robots.txt, vérifiez qu'il n'est pas trop restrictif : un blocage accidentel de '/media/catalog/product/' empêcherait Google d'indexer vos images. Utilisez la directive 'Disallow' pour les facettes, par exemple : 'Disallow : /catalog/product_compare/' ou 'Disallow : /*?color='. Testez votre fichier avec l'outil de test robots.txt dans Google Search Console. Attention : robots.txt ne remplace pas une balise noindex ; il empêche le crawl mais pas l'indexation si des liens externes pointent vers ces URLs.
Les paramètres d'URL (ex. : '?p=2', '?price=10-20') génèrent des pages supplémentaires qui peuvent être indexées. Sur Magento, la pagination des catégories crée des URLs comme '/chaussures?p=2' qui, si elles ne sont pas gérées, deviennent des pages orphelines ou dupliquées. L'audit consiste à vérifier que les pages de pagination sont soit en noindex, soit consolidées via une balise 'rel=prev/next' (bien que Google ne suive plus cette directive, elle reste utile pour indiquer la relation).
Une meilleure approche est d'utiliser le 'load more' ou l'infinite scroll avec une URL unique (via AJAX) pour éviter la création de multiples URLs. Si la pagination est nécessaire, assurez-vous que chaque page de pagination a une balise canonique pointant vers la première page. Pour les paramètres de tri (prix, popularité), ajoutez 'rel=nofollow' sur les liens de tri pour éviter le gaspillage de crawl.
L'analyse des logs serveur est la méthode la plus fiable pour comprendre comment Googlebot explore votre site Magento. En examinant les fichiers d'accès, vous pouvez voir quelles URLs sont réellement crawlées, à quelle fréquence, et avec quel code de réponse (200, 301, 404). Cela révèle les pages qui consomment du budget sans valeur ajoutée.
Pour mettre en place cette analyse, activez les logs Apache ou Nginx, puis utilisez des outils comme 'Logstash' ou 'Screaming Frog Log File Analyzer'. Filtrez les requêtes de Googlebot (user-agent 'Googlebot') et identifiez les URLs les plus crawlées. Si vous constatez que 50 % du crawl va vers des pages de facettes ou des URLs d'erreur, vous avez un levier d'optimisation. Bloquez ensuite ces URLs via robots.txt ou noindex, et surveillez la réduction du nombre de requêtes.
Une fois le budget de crawl optimisé, il faut s'assurer que les pages stratégiques (fiches produits, catégories principales, pages CMS) sont bien indexées. Sur Magento, les fiches produits avec des descriptions uniques et des images optimisées ont plus de chances d'être indexées. Utilisez le rapport 'Indexation' de Google Search Console pour vérifier le statut de chaque page.
Pour les pages à faible indexation, améliorez leur contenu : ajoutez des textes uniques, des balises title descriptives et des meta descriptions. Évitez les produits sans description ou avec du contenu dupliqué (ex. : descriptions par défaut). Créez des liens internes depuis les catégories vers les produits, et depuis les articles de blog vers les fiches. Enfin, soumettez les URLs prioritaires via l'outil d'inspection d'URL dans Search Console pour demander une indexation rapide.
L'audit n'est pas un projet ponctuel : le budget de crawl évolue avec l'ajout de nouveaux produits, de campagnes marketing et de modifications techniques. Mettez en place un tableau de bord avec des indicateurs comme le nombre d'URLs crawlées par jour, le taux d'indexation, et le nombre de pages en erreur. Utilisez Google Search Console, Google Analytics et un outil de crawl pour suivre ces métriques mensuellement.
Si le taux d'indexation chute, vérifiez les nouvelles facettes ou les redirections ajoutées. Si le nombre de pages crawlées augmente sans hausse du trafic, il y a probablement un gaspillage. Ajustez les paramètres de robots.txt, les canoniques et les sitemaps en conséquence. Documentez chaque changement pour pouvoir revenir en arrière si nécessaire. L'objectif est de maintenir un ratio pages indexées / pages crawlées supérieur à 70 %.
Le budget de crawl détermine combien de pages Googlebot explore sur votre site. Sur Magento, avec la génération dynamique d'URLs via les facettes, le budget peut être gaspillé sur des pages sans valeur SEO, retardant l'indexation des fiches produits et catégories principales. Une optimisation permet de concentrer les ressources sur les pages stratégiques.
Utilisez Google Search Console : si le nombre de pages crawlées est élevé mais que le taux d'indexation est faible (moins de 50 %), c'est un signe. Analysez aussi les logs serveur : si Googlebot visite majoritairement des pages de facettes ou des URLs d'erreur, votre budget de crawl est mal utilisé.
Conservez les facettes qui génèrent un trafic significatif et un contenu unique (ex. : une facette 'promotions' avec des descriptions personnalisées). Supprimez ou mettez en noindex les facettes rarement utilisées, celles qui créent des URLs avec peu de contenu (ex. : filtre par couleur seul) ou qui génèrent des pages vides.
Privilégiez 'noindex, follow' pour les facettes, car cela empêche l'indexation tout en permettant le crawl des liens. Robots.txt bloque le crawl mais pas l'indexation si des liens externes pointent vers ces URLs. Utilisez robots.txt pour les paramètres inutiles (ex. : ?session=) et noindex pour les pages de faible qualité.
Pour les pages de pagination (page 2, page 3), ajoutez une balise canonique pointant vers la page 1 de la catégorie, surtout si le contenu est similaire. Si chaque page de pagination a un contenu unique (ex. : descriptions différentes), laissez une canonique auto-référencée. Évitez d'utiliser 'rel=prev/next' seul, car Google ne le suit plus.
Mettez à jour vos sitemaps XML chaque fois que vous ajoutez ou modifiez des produits, catégories ou pages CMS. Pour un site avec des mises à jour quotidiennes, une génération automatique via cron est recommandée. Soumettez les sitemaps dans Google Search Console et surveillez le nombre d'URLs indexées.
Comparez les métriques avant et après : nombre de pages crawlées par jour (via logs serveur), taux d'indexation (Google Search Console), et trafic organique (Google Analytics). Une baisse du nombre de pages crawlées avec une augmentation du taux d'indexation indique une optimisation réussie. Attendez 2 à 4 semaines pour voir les résultats.
Diagnostic e-commerce
Partagez votre boutique : on repère les leviers SEO, UX et conversion à fort impact, et on vous donne l'ordre dans lequel les activer.
Sources : Google Search Central · Google — Core Web Vitals · Shopify — performance.