Audit d'indexation et de crawl PrestaShop

Maîtrisez le budget de crawl de votre PrestaShop avec cet audit complet : facettes, sitemap, erreurs courantes et plan d'action pour une indexation optimale.

Sur cette page
  1. Définition courte
  2. Résumé opérationnel
  3. Comprendre le budget de crawl sur PrestaShop
  4. Identifier et maîtriser les facettes de navigation
  5. Optimiser le sitemap PrestaShop pour le crawl
  6. Gérer les URLs de tri et de pagination
  7. Analyser les logs serveur pour un audit de crawl précis
  8. Éviter les erreurs de canonicalisation et de contenu dupliqué
  9. Prioriser les pages à indexer avec le maillage interne
  10. Configurer le fichier robots.txt pour protéger le budget
  11. Surveiller et ajuster avec Google Search Console
  12. Plan d'action en 30 jours
  13. Checklist
  14. Questions fréquentes
Comparatif des méthodes pour gérer les facettes PrestaShop
MéthodeAvantagesInconvénients
Balise noindex, followMaintient le crawl des liens internes, facile à implémenter via moduleLes facettes restent crawlées (consomme un peu de budget), nécessite un module ou un template modifié
Blocage via robots.txtEmpêche totalement le crawl, réduit le budget gaspilléLes liens internes vers ces pages ne sont pas suivis (perte de jus de lien), peut casser des fonctionnalités si mal configuré
Canonicalisation vers la catégorie parenteÉvite le contenu dupliqué, préserve le jus de lienComplexe à mettre en œuvre sur PrestaShop, nécessite un développement sur mesure
Redirection 301 vers la catégorie parenteÉlimine les doublons, transmet l'autoritéPerte de l'expérience utilisateur si la facette était utile, risque de boucle de redirection
Budget de crawl : répartition idéale des URLs par type
Type de pagePourcentage du budget de crawl (cible)Exemple pour 10 000 pages crawlées
Fiches produits60-70 %6 000 - 7 000 pages
Catégories principales15-20 %1 500 - 2 000 pages
Pages CMS (blog, contact, mentions)10-15 %1 000 - 1 500 pages
Facettes et pages de tri0-5 % (idéalement 0)0 - 500 pages
Pages d'erreur (404, 500)0 %0 pages
Comparatif des outils pour l'audit de crawl PrestaShop
OutilFonctionnalités clésLimites
Screaming Frog SEO SpiderCrawl complet, analyse des balises, visualisation du maillage, export CSVVersion gratuite limitée à 500 URLs, payant pour les grands catalogues
Google Search ConsoleRapports d'indexation, statistiques d'exploration, inspection d'URLDonnées limitées aux 1000 dernières URLs, pas d'analyse détaillée des logs
Splunk (analyse de logs)Analyse en temps réel des logs serveur, identification des pages les plus crawléesNécessite une configuration technique, coût élevé pour les petites boutiques
Logs Analysis (Screaming Frog)Analyse des logs directement dans l'outil, corrélation avec le crawlPayant, nécessite un accès aux logs serveur

Diagnostic e-commerce

Envie de savoir quoi améliorer en priorité ?

Partagez votre boutique : on repère les leviers SEO, UX et conversion à fort impact, et on vous donne l'ordre dans lequel les activer.

Définition courte

En bref

L'audit d'indexation et de crawl PrestaShop consiste à analyser et optimiser la façon dont les robots des moteurs de recherche explorent et indexent les pages d'une boutique PrestaShop, en contrôlant le budget de crawl, en gérant les facettes de navigation et en structurant le sitemap pour maximiser la visibilité organique.

Résumé opérationnel

L'essentiel

Pour maîtriser votre budget de crawl sur PrestaShop, commencez par auditer les URLs générées par les facettes (attributs, filtres) et bloquez celles sans valeur SEO via le fichier robots.txt ou une balise noindex. Ensuite, optimisez votre sitemap en incluant uniquement les pages canoniques (catégories, produits, CMS) et en excluant les doublons. Enfin, surveillez les logs serveur pour identifier les pages gaspillant le crawl et priorisez celles à fort potentiel. Cet audit vous permet de réduire le nombre de pages indexées inutiles, d'augmenter la fréquence de crawl des pages stratégiques et d'améliorer votre référencement global.

Sur le terrain

Cas fréquent observé : les boutiques PrestaShop avec un catalogue de plus de 500 produits et des filtres multi-attributs génèrent souvent plusieurs milliers d'URLs de facettes (par exemple, chaque combinaison de taille, couleur, matière). Ces URLs, bien que pratiques pour l'utilisateur, sont indexées par Google, diluant le budget de crawl et créant des problèmes de contenu dupliqué. Dans les faits, un audit manuel via Google Search Console et un crawl technique (Screaming Frog) révèle que 60 à 80 % des pages crawlées sont des facettes ou des pages de tri sans valeur ajoutée. En accompagnement, la difficulté réelle n'est pas technique mais organisationnelle : il faut convaincre le webmaster ou l'agence de modifier les templates de navigation et de mettre en place une stratégie de canonicalisation cohérente, souvent perçue comme complexe.

Comprendre le budget de crawl sur PrestaShop

Le budget de crawl est le nombre de pages que Google explore sur votre site dans un laps de temps donné. Sur PrestaShop, il est directement impacté par le nombre d'URLs générées dynamiquement : fiches produits, catégories, pages CMS, et surtout les facettes de navigation. Une boutique avec 1 000 produits peut facilement générer 50 000 URLs si chaque attribut (couleur, taille, matière) crée une URL distincte.

Pour évaluer votre budget actuel, connectez-vous à Google Search Console et consultez le rapport 'Pages' (indexation). Vérifiez le nombre de pages indexées versus le nombre total d'URLs connues de Google. Un écart important indique un gaspillage. Utilisez ensuite un outil comme Screaming Frog pour crawler votre site et analyser la répartition des URLs par type (produits, catégories, facettes, etc.).

Les facteurs qui influencent le budget de crawl incluent : la popularité du site (liens externes), la vitesse de chargement, la profondeur de navigation, et la qualité du maillage interne. Sur PrestaShop, une architecture plate (catégories en 2-3 clics) et un sitemap propre aident à concentrer le crawl sur les pages importantes.

Identifier et maîtriser les facettes de navigation

Les facettes (filtres par attributs : prix, marque, taille, couleur) créent des milliers d'URLs uniques. Par exemple, 'mon-site/robes/rouges/taille-m' et 'mon-site/robes/rouges/taille-l' sont deux URLs distinctes. Si elles ne sont pas gérées, Google les indexe, ce qui dilue le budget de crawl et génère du contenu dupliqué (le même produit apparaît sur plusieurs facettes).

La première étape consiste à auditer les facettes actives dans votre PrestaShop. Allez dans le back-office, module 'Navigation en facettes' (PrestaShop 1.7) ou 'Bloc de navigation en facettes' (1.6). Listez tous les attributs utilisés comme filtres. Ensuite, décidez quelles combinaisons méritent une page SEO (ex : 'robes-rouges' si contenu unique) et lesquelles doivent être bloquées.

Pour les facettes sans valeur ajoutée, appliquez une des méthodes suivantes : ajoutez une balise meta robots 'noindex, follow' sur les pages de facettes, ou bloquez les paramètres d'URL via le fichier robots.txt (ex : Disallow : /*?q=*). Privilégiez la solution noindex pour les facettes à faible trafic, car elle permet toujours le crawl des liens internes. Pour les facettes stratégiques, créez une page dédiée avec du contenu unique et une canonicalisation vers elle-même.

Optimiser le sitemap PrestaShop pour le crawl

Le sitemap XML guide Google vers vos pages importantes. Par défaut, PrestaShop génère un sitemap via le module 'Sitemap' (disponible dans le back-office, SEO & URLs). Ce module inclut automatiquement les catégories, produits, pages CMS, et parfois les fabricants. Mais il inclut aussi souvent des URLs de facettes ou de pages de tri, ce qui est contre-productif.

Pour un sitemap efficace, personnalisez le fichier généré. Éditez le module ou utilisez un module tiers (ex : 'Advanced Sitemap' de PrestaShop Addons) pour exclure les URLs de facettes, les pages de tri (par popularité, nouveauté), et les pages de catégories vides. Incluez uniquement les URLs canoniques : chaque fiche produit (une seule URL), chaque catégorie principale, chaque page CMS utile.

Structurez votre sitemap en plusieurs fichiers si le catalogue dépasse 50 000 URLs. Par exemple : sitemap_products.xml, sitemap_categories.xml, sitemap_cms.xml. Déclarez chaque fichier dans le robots.txt et soumettez-les via Google Search Console. Mettez à jour le sitemap à chaque modification majeure (nouveau produit, suppression de catégorie).

Gérer les URLs de tri et de pagination

Les pages de tri (par prix croissant, nouveauté, popularité) et les pages de pagination (page 2, page 3 d'une catégorie) génèrent aussi des URLs supplémentaires. Par exemple, '/robes?order=price.asc' ou '/robes?page=2'. Si elles sont indexées, elles créent des doublons de contenu (le même produit apparaît sur plusieurs pages).

Pour les pages de tri, appliquez une balise 'noindex, follow' sur toutes les variantes de tri (sauf une, par défaut). Utilisez la directive 'link rel=canonical' pour pointer vers l'URL canonique de la catégorie (sans paramètres). Pour la pagination, utilisez la balise 'rel=next' et 'rel=prev' sur les pages 2, 3, etc., et incluez une balise 'noindex, follow' sur les pages au-delà de la page 1 si le contenu est trop similaire.

Dans PrestaShop, ces paramètres sont souvent gérés via les modules de navigation. Vérifiez que le module 'Navigation en facettes' n'indexe pas les pages de tri. Si c'est le cas, modifiez le template du module ou ajoutez un filtre dans le fichier.htaccess pour rediriger les paramètres de tri vers l'URL canonique.

Analyser les logs serveur pour un audit de crawl précis

Google Search Console donne une vue d'ensemble, mais les logs serveur (fichiers access.log) révèlent exactement quelles pages Googlebot visite, à quelle fréquence, et combien de temps il passe. C'est l'outil le plus fiable pour auditer le budget de crawl. Sur un serveur mutualisé, activez les logs via votre hébergeur (ex : OVH, Infomaniak).

Analysez les logs avec un outil comme 'Logs Analysis' de Screaming Frog ou 'Splunk'. Identifiez les URLs les plus crawlées : si Googlebot passe 80 % de son temps sur des facettes et 20 % sur vos produits, vous avez un problème. Regardez aussi le code HTTP retourné : des 404, 301, 500 sur des pages importantes indiquent des erreurs à corriger.

À partir de cette analyse, priorisez les actions : bloquez les facettes les plus crawlées, corrigez les erreurs 404 sur les produits, et ajoutez des liens internes vers les pages sous-crawlées. Réalisez cet audit tous les trimestres pour suivre l'évolution.

Éviter les erreurs de canonicalisation et de contenu dupliqué

Le contenu dupliqué est l'un des plus grands risques sur PrestaShop. Chaque produit peut avoir plusieurs URLs : avec ou sans ID, avec des paramètres de suivi (utm_source, id_campaign), et via les facettes. Sans canonicalisation, Google indexe toutes ces versions, ce qui dilue l'autorité et peut pénaliser le classement.

La solution : définir une URL canonique unique pour chaque page. Dans PrestaShop, activez l'option 'URL simplifiée' dans le back-office (SEO & URLs) pour que chaque produit ait une URL propre (ex : /robes/robe-rouge.html). Ajoutez une balise 'link rel=canonical' pointant vers cette URL sur toutes les variantes (facettes, tri, pagination). Pour les pages de facettes, utilisez un module comme 'Canonical URL' qui gère automatiquement la canonicalisation.

Vérifiez régulièrement via Google Search Console le rapport 'Pages avec contenu dupliqué' (section 'Améliorations'). Si des doublons persistent, ajoutez des redirections 301 des URLs non canoniques vers l'URL canonique. Attention : ne redirigez pas les facettes utiles (ex : /robes/rouges) si elles ont un contenu unique ; utilisez plutôt noindex.

Prioriser les pages à indexer avec le maillage interne

Le maillage interne (liens entre vos pages) guide Google vers les pages importantes. Sur PrestaShop, les pages produits et catégories principales doivent recevoir le plus de liens internes. Évitez de lier vers des facettes ou des pages de tri, car cela gaspille le budget de crawl.

Structurez votre navigation : utilisez un menu principal avec les catégories de premier niveau, et des menus secondaires pour les sous-catégories. Ajoutez des liens contextuels dans les descriptions de produits (ex : 'Découvrez aussi notre collection de robes bleues') vers des catégories pertinentes. Utilisez le module 'Blog' ou 'CMS' pour créer des articles qui lient vers vos produits.

Auditez votre maillage interne avec un outil de crawl : repérez les pages orphelines (aucun lien interne) qui ne sont pas dans le sitemap. Ajoutez des liens vers ces pages depuis des pages populaires. Pour les pages stratégiques (produits à forte marge, nouveautés), assurez-vous qu'elles sont accessibles en 2-3 clics depuis la page d'accueil.

Configurer le fichier robots.txt pour protéger le budget

Le fichier robots.txt indique aux robots ce qu'ils peuvent ou non explorer. Sur PrestaShop, il est généré automatiquement (fichier à la racine du site). Par défaut, il autorise tout. Pour protéger votre budget de crawl, ajoutez des directives 'Disallow' pour les dossiers et paramètres inutiles.

Bloquez les dossiers suivants : /modules/ (sauf si vous avez des pages utiles), /themes/, /upload/, /img/ (sauf si images importantes). Bloquez aussi les paramètres d'URL génériques : ?controller=, ?id_category=, ?id_product= (sauf si vous utilisez des URLs propres). Pour les facettes, bloquez les paramètres comme ?q= ou ?order=.

Exemple de règles :
User-agent : *
Disallow : /modules/
Disallow : /themes/
Disallow : /upload/
Disallow : /*?controller=
Disallow : /*?q=*
Disallow : /*?order=*

Testez votre robots.txt via l'outil de test de Google Search Console. Attention : ne bloquez pas les fichiers CSS/JS, car Google les utilise pour évaluer la compatibilité mobile.

Surveiller et ajuster avec Google Search Console

Google Search Console est votre tableau de bord pour suivre l'impact de vos optimisations. Consultez régulièrement les rapports suivants : 'Pages' (indexation), 'Améliorations' (contenu dupliqué, erreurs de couverture), et 'Statistiques d'exploration' (budget de crawl).

Dans le rapport 'Pages', vérifiez le nombre de pages indexées. S'il baisse après vos actions, c'est bon signe (les facettes sont dé-indexées). Dans 'Statistiques d'exploration', surveillez le nombre de pages crawlées par jour. Une baisse indique que Google explore moins de pages inutiles. Si le nombre de pages importantes crawlées augmente, votre budget est mieux utilisé.

Configurez des alertes pour être notifié en cas d'erreur 404 ou 500 sur des pages stratégiques. Utilisez l'outil 'Inspecter une URL' pour vérifier si une page est indexée et si la canonicalisation est correcte. Réalisez cet audit mensuellement pendant les trois premiers mois après les modifications, puis trimestriellement.

Plan d'action en 30 jours

Semaine 1 — Audit initial et diagnostic
  • Crawler le site avec Screaming Frog (ou équivalent) et exporter la liste des URLs
  • Analyser les logs serveur pour identifier les pages les plus crawlées (Googlebot)
  • Consulter Google Search Console : rapport 'Pages' et 'Statistiques d'exploration'
  • Lister toutes les facettes actives et les pages de tri générées
Semaine 2 — Correction des facettes et du sitemap
  • Ajouter une balise noindex, follow sur toutes les facettes non stratégiques
  • Configurer le module de navigation pour ne pas indexer les pages de tri
  • Personnaliser le sitemap : exclure les facettes, tri, pagination au-delà de la page 1
  • Soumettre le nouveau sitemap dans Google Search Console
Semaine 3 — Optimisation technique et maillage
  • Configurer le fichier robots.txt pour bloquer les dossiers inutiles (modules, themes, upload)
  • Vérifier et corriger les erreurs 404 et 500 sur les produits et catégories
  • Ajouter des liens internes contextuels vers les produits et catégories principales
  • Mettre en place des redirections 301 pour les doublons d'URL (ex : avec/sans paramètres)
Semaine 4 — Suivi et ajustements
  • Re-crawler le site pour vérifier que les modifications sont prises en compte
  • Analyser les logs serveur pour mesurer la réduction du crawl sur les facettes
  • Consulter Google Search Console : vérifier la baisse des pages indexées inutiles
  • Documenter les changements et planifier un audit mensuel

Checklist

Questions fréquentes

Pourquoi mon budget de crawl est-il important pour mon PrestaShop ?

Le budget de crawl détermine combien de pages Google explore sur votre site. S'il est gaspillé sur des facettes ou des doublons, vos pages stratégiques (produits, catégories) sont moins crawlées, ce qui retarde leur indexation et peut réduire votre trafic organique. Un audit régulier permet de concentrer le crawl sur les pages à forte valeur ajoutée.

Comment savoir si mes facettes sont indexées par Google ?

Utilisez Google Search Console : allez dans le rapport 'Pages' et filtrez par 'URL contenant' le paramètre de facette (ex : ?q=). Vous pouvez aussi faire une recherche site:monsite.com avec un paramètre spécifique. Si des centaines de pages apparaissent, vos facettes sont indexées. Un crawl avec Screaming Frog vous donnera une liste exhaustive.

Quelle est la meilleure méthode pour gérer les facettes : noindex ou robots.txt ?

La balise noindex, follow est généralement préférable car elle permet à Google de suivre les liens internes présents sur la page de facette, ce qui transmet du jus de lien vers vos produits. Le blocage via robots.txt empêche tout crawl, ce qui peut casser le maillage interne. Utilisez noindex pour les facettes à faible trafic et robots.txt seulement pour les dossiers entiers (ex : /modules/).

Mon sitemap PrestaShop inclut-il automatiquement les facettes ?

Le module Sitemap par défaut de PrestaShop n'inclut généralement pas les facettes, mais il peut inclure des pages de tri ou de pagination si vous avez des modules tiers. Vérifiez le fichier sitemap.xml généré : s'il contient des URLs avec des paramètres (?q=, ?order=), il faut les exclure. Utilisez un module avancé pour personnaliser le sitemap.

Combien de temps faut-il pour voir les résultats d'un audit de crawl ?

Les résultats varient : Google peut prendre de quelques jours à plusieurs semaines pour recrawler votre site après les modifications. Vous verrez une baisse des pages indexées inutiles dans Google Search Console sous 2 à 4 semaines. L'impact sur le trafic peut prendre 1 à 2 mois, car les pages importantes seront mieux crawlées et indexées.

Dois-je supprimer les facettes de mon site ou seulement les désindexer ?

Il n'est pas nécessaire de supprimer les facettes, car elles améliorent l'expérience utilisateur (filtrage). Il suffit de les désindexer via noindex ou de les bloquer via robots.txt. Gardez les facettes fonctionnelles pour vos visiteurs, mais empêchez Google de les indexer. Pour les facettes très populaires (ex : 'robes rouges'), créez une page dédiée avec du contenu unique.

Comment analyser les logs serveur si je n'ai pas accès aux fichiers ?

Si votre hébergeur ne fournit pas les logs bruts, utilisez des services comme 'Logs Analysis' de Screaming Frog (qui peut lire les logs via FTP) ou des outils SaaS comme 'Splunk' ou 'Logz.io'. Certains hébergeurs (ex : OVH, Infomaniak) permettent de télécharger les logs depuis l'espace client. Contactez votre support si nécessaire.

Diagnostic e-commerce

Envie de savoir quoi améliorer en priorité ?

Partagez votre boutique : on repère les leviers SEO, UX et conversion à fort impact, et on vous donne l'ordre dans lequel les activer.

Sources : Google Search Central · Google — Core Web Vitals · Shopify — performance.

À lire aussi