mercredi , 25 avril 2018
Home » Blog » Arrêtez les spams dans Google Analytique avec un filtre

Arrêtez les spams dans Google Analytique avec un filtre

Le spam dans Google Analytique (GA) est en train de devenir un problème grave. En raison d’un déluge de renvoi de spam, à partir de boutons sociaux, sites pour adultes, et beaucoup, beaucoup d’autres sources, les gens commencent à se sentir dépassés par tous les filtres qui sont mis en place pour gérer les données inutiles qu’ils reçoivent.

La bonne nouvelle est qu’il n’y a pas lieu de paniquer. Dans ce post, je vais me concentrer sur les erreurs les plus courantes que les gens font quand lutte contre le spam dans GA, et expliquer comment lutter de manière efficace.

Mais d’abord, nous allons nous assurer que nous comprenons comment fonctionne un spam. Il y a quelques mois, le site tophebergeur.com a publié un excellent article expliquant ce qu’est le renvoi de spam, y compris son but. Il a également souligné quelques grands exemples de renvoi de spam.

Types de spam

Le spams dans Google Analytique peut être catégorisé en deux types: les fantômes et les robots.

Fantômes

La grande majorité du spam est de ce type. Ils sont appelés fantômes parce qu’ils n’ont jamais accéder à votre site. Il est important de garder cela à l’esprit, car il est essentiel à la création d’une solution plus efficace pour gérer le spam.

Aussi insolite que cela puisse paraître, ce type de spam n’a aucune interaction avec votre site. Vous pouvez vous demander comment cela est possible puisque l’un des principaux objectifs de GA est de suivre les visites sur nos sites.

Ils le font en utilisant le protocole de mesure, qui permet aux gens d’envoyer des données directement vers les serveurs de Google Analytique. En utilisant cette méthode, et probablement en générant aléatoirement des codes de suivi (UA-XXXXX-1), les spammeurs laissent une « visite » avec de fausses données, sans même savoir qui ils ont frappé.

Comment fonctionne les robot spam

Robots

Ce type de spam, à l’opposé du spam fantôme, accède à votre site. Comme leur nom l’indique, ces robots de mails rampent dans vos pages, ignorant les règles telles que celles que l’on peut trouver dans le fichier robots.txt et qui sont censées les empêcher de lire votre site. Quand ils quittent votre site, ils laissent une trace sur vos rapports qui la fait apparaître comme une visite légitime.

Les robots sont plus difficiles à identifier car ils connaissent leur cible et utilisent des données réelles. Mais il est vrai aussi que de nouveaux apparaissent rarement. Donc, si vous détectez un renvoi dans vos analyses qui vous semble suspect, une recherche sur Google ou un contrôle de cette analyse pourrait vous aider à répondre à la question de savoir s’il y a ou non des spams.

Les erreurs faites lorsqu’on traite avec les sites référents spam dans GA

J’ai suivi de près cette question au cours des quelques derniers mois. Selon les commentaires des gens sur mes articles et des conversations que je ai trouvé dans des forums de discussion, il y a principalement trois erreurs que les gens font lorsqu’ils traitent avec le spam dans Google Analytique.

Erreur # 1. Bloquer le spam fantôme depuis le fichier .htaccess

Une des plus grandes erreurs que les gens font est d’essayer de bloquer le spam fantôme à partir du fichier .htaccess.

Pour ceux qui ne sont pas familiers avec ce fichier, l’une de ses principales fonctions est de permettre l’accès à votre site. Maintenant, nous savons que les fantômes ne parviennent jamais à votre site, ainsi les ajouter ici n’aura aucun effet et ne fera qu’ajouter des lignes inutiles à votre fichier .htaccess.

Un spam fantôme apparaît habituellement pendant quelques jours, puis disparaît. En conséquence, parfois les gens pensent qu’ils ont réussi à lui bloquer l’accès avec succès alors qu’il s’agit juste d’une coïncidence.

Puis, quand les spammeurs reviennent plus tard, ils deviennent inquiets parce que la solution ne fonctionne plus, et ils pensent que le spammeur a en quelque sorte contourné les obstacles qu’ils avaient mis en place.

La vérité est que le fichier .htaccess ne peut efficacement bloquer que les robots tels que buttons-for-website.com et quelques autres puisque ceux-ci accèdent à votre site. La plupart des spams ne peuvent être bloqués en utilisant cette méthode, il n’y a donc pas d’autre choix que d’utiliser des filtres pour les exclure.

Erreur # 2. Utilisation de la liste d’exclusion de sites référents pour arrêter le spam

Une autre erreur est d’essayer d’utiliser la liste d’exclusion de sites référents pour arrêter le spam. Le nom peut vous induire en erreur, mais cette liste ne vise pas à exclure le spam de la manière dont nous le souhaitons. Elle a d’autres objectifs.

Par exemple, quand un client achète quelque chose, parfois, il est redirigé vers une page tierce pour le paiement. Après avoir effectué le paiement, il est redirigé vers votre site, et GA enregistre cela comme une nouvelle référence. Il est approprié d’utiliser la liste d’exclusion pour empêcher que cela se passe.

Si vous essayez d’utiliser la liste d’exclusion pour gérer le spam, cependant, la partie de référence sera dépouillée puisqu’il n’y aura aucune trace préexistante. En conséquence, une visite directe sera enregistrée, et vous aurez un problème plus grand que celui auquel vous étiez confronté. Vous aurez toujours le spam, et les visites directes seront plus difficiles à suivre et identifier.

Erreur # 3. S’inquiéter que le taux de rebond ait une incidence sur le classement

Quand les gens voient que le taux de rebond change considérablement en raison des spams, ils commencent à se soucier de l’impact que cela aura sur leur classement dans les moteurs de recherches (SERPs).

Ceci est une autre erreur souvent commise. Avec ou sans spam, Google ne prend pas en considération les paramètres de Google Analytique comme un facteur de classement. Voici une explication à ce sujet de Matt Cutts, l’ancien chef de l’équipe de Google dédiée au spamming.

Exemple de site réfrents spammeur dans Google analytique

Et si vous y réfléchissez, l’explication de Cutts est logique; parce que même si beaucoup de gens ont GA, tout le monde ne l’utilise pas.

Est ce que votre site a été piraté ?

Une autre préoccupation commune quand les gens voient des pages d’atterrissage étranges venant de spam sur leurs rapports est qu’ils ont été piratés.

La page qui montre les spams sur les rapports n’existe pas, et si vous essayez de l’ouvrir, vous obtiendrez une page 404. Votre site n’a pas été piraté.

Mais vous devez vous assurer que la page n’existe pas. Parce qu’il ya des cas (pas de spam), où certains sites ont une brèche de sécurité et se trouvent alors injectés avec des pages pleines de mauvais mots-clés pour diffamer le site.

Une autre préoccupation commune quand les gens voient des pages d’atterrissage étranges venant de spam sur leurs rapports est qu’ils ont été piratés.

Pages fictives dans Google Analytique

La page qui montre les spams sur les rapports n’existe pas, et si vous essayez de l’ouvrir, vous obtiendrez une page 404. Votre site n’a pas été piraté.

Mais vous devez vous assurer que la page n’existe pas. Parce qu’il ya des cas (pas de spam), où certains sites ont une brèche de sécurité et se trouvent alors injectés avec des pages pleines de mauvais mots-clés pour diffamer le site.

De quoi devriez-vous vous inquiéter?

Maintenant que nous avons posé les bases sur les questions de sécurité et leurs effets sur les classements, la seule chose dont vous devez vous souciez sont vos données. Le faux parcours que laisse le spam derrière lui pollue vos rapports.

Il peut avoir un impact plus ou moins grand selon la fréquentation de votre site, mais tout le monde est sensible au spamming.

Les petits et moyens sites sont les plus facilement touchés – non seulement parce qu’une grande partie de leur trafic peut être du spam, mais aussi parce que généralement ces sites sont autogérés et n’ont donc pas le soutien d’un analyste ou un webmaster.

Les gros sites avec beaucoup de trafic peuvent également être touchés par le spam, et bien que l’impact puisse être insignifiant, le trafic invalide signifie des rapports inexacts, peu importe la taille du site. En tant qu’analyste, vous devriez être en mesure d’expliquer ce qui se passe, même dans les rapports les plus flous.

Vous avez seulement besoin d’un filtre pour résoudre le spam fantôme

Habituellement, il est recommandé d’ajouter le renvoi à un filtre d’exclusion après qu’il soit repéré. Bien que ce soit utile pour une action rapide contre le spam, il engendre trois grands inconvénients.

  • Mettre en place un filtre chaque semaine pour chaque nouveau spam détecté est fastidieux et prend du temps, en particulier si vous gérez de nombreux sites. De plus, entre le moment où vous appliquez le filtre et le moment où il commencera à travailler, vous aurez déjà quelques données affectées.
  • Certains spammeurs utilisent des visites directes ainsi que les renvois.
  • Ces attaques directes ne seront pas arrêtées par le filtre de sorte que même si vous excluez le renvoi vous recevrez toujours du trafic invalide, ce qui explique pourquoi certaines personnes ont vu un pic inhabituel dans le trafic direct.

Heureusement, il existe un moyen de prévenir tous ces problèmes. Le mode de fonctionnement de la plupart des spams référents (fantôme) est de frapper au hasard les données GA, ce qui signifie que le spammeur ne sait pas vraiment qui est la cible, et pour cette raison, soit le nom d’hôtes n’est pas défini, soit il utilise un faux. (Voir le rapport ci-dessous)

Différencier entre site spam et non

Vous pouvez voir qu’ils utilisent des noms bizarres ou qu’ils ne se donnent même pas la peine d’en créer un. Bien qu’il existe quelques noms connus dans la liste, ceux-ci peuvent être facilement ajoutés par le spammeur.

D’autre part, un trafic valable utilisera toujours un nom d’hôte réel. Dans la plupart des cas, ce sera le domaine. Mais il peut également provenir de services payants, services de traduction, ou tout autre endroit où vous avez inséré un code de suivi GA.

Site réfrents ok

Sur cette base, nous pouvons faire un filtre qui comprendra seulement les cibles qui utilisent de vrais noms d’hôtes. Cette règle exclut automatiquement tous les spams fantômes, si elle se présente comme un renvoi, mot-clé, ou sous forme de pages vues; ou même comme une visite directe.

Pour créer ce filtre, vous aurez besoin de trouver le rapport de noms de domaine.

Voici comment:

  1. Accédez à l’onglet Rapports de GA
  2. Cliquez sur Public dans le panneau de gauche
  3. Technologie avancée et sélectionnez Réseau
  4. En haut du rapport, cliquez sur le nom d’hôte

Création de filtre

Vous verrez une liste de tous les noms d’hôtes, y compris ceux que le spam utilise. Faites une liste de tous les noms d’hôtes valides que vous trouverez, comme suit:

  • votrenomdedomaine.com
  • blog.votrenomdedomaine.com
  • es.votrenomdedomaine.com
  • services.com
  • translatetool.com
  • unautredomaine.com

Pour les petits et moyens sites, cette liste de noms d’hôte sera probablement composée du domaine principal et un couple de sous-domaines. Une fois que vous êtes sûr de tous les avoir, créer une expression semblable à celle-ci:

votrenomdedomaine\ .com | unautredomaine \ .com | service \ .com | translatetool \ .com

Vous ne devez pas mettre tous vos sous-domaines dans l’expression. Le domaine principal correspondra à chacun d’eux. Si vous n’avez pas encore une vue sans filtres, faites en une maintenant.

Ensuite, créez un filtre personnalisé.

Assurez-vous que vous sélectionnez INCLURE, puis sélectionnez « Nom d’hôte » sur le champ de filtre, puis copier votre expression dans la boîte Motif du filtre.

Filtre personnalisé dans Google analytique

Vous voudrez peut-être vérifier le filtre avant d’enregistrer pour s’assurer que tout va bien. Une fois que vous êtes prêt, sauvegardez, et appliquez le filtre à tous les points de vue que vous souhaitez (sauf la vue sans filtres).

Ce filtre unique va se débarrasser des futurs spams fantômes qui utiliseront les noms d’hôtes non valides, et il ne nécessite pas beaucoup d’entretien. Mais il est important de retenir qu’à chaque fois que vous ajouterez votre code de suivi à un service, vous devrez l’ajouter à la fin du filtre.

Maintenant, vous devriez seulement avoir besoin de vous occuper du spam robot. Puisque les robots accèdent à votre site, vous pouvez les bloquer en ajoutant ces lignes dans le fichier .htaccess:

## ARRETER LE SPAM DE ROBOTS REFERENTS
RewriteCond% {HTTP_REFERER} semalt \ .com [NC, OR]
RewriteCond% {HTTP_REFERER} buttons-for-website \ .com [NC]
. RewriteRule * - [F]

Il est important de noter que ce fichier est très sensible, et oublier un seul caractère peut alors affecter l’ensemble de votre site. Par conséquent, assurez-vous de faire une sauvegarde de votre fichier .htaccess avant de l’éditer.

Si vous ne vous sentez pas à l’aise de manipuler votre fichier .htaccess, vous pouvez également créer une expression avec tous les robots, ajouter la ensuite à un filtre d’exclusion par Source Campagne.

Mettez en œuvre ces solutions combinées, et vous vous inquiéterez beaucoup moins que des spams viennent contaminer vos données Google Analytique. Cela aura l’avantage supplémentaire de vous libérer plus de temps pour véritablement analyser vos données.

Après l’arrêt du spam, vous pouvez également obtenir des rapports propres à partir des données historiques en utilisant les mêmes expressions dans un Segment Avancé pour exclure tous les spams.

Pour conclure, je suis impatient d’entendre vos idées sur cette importante question. S’il vous plaît n’hésiter pas à les partager dans les commentaires ci-dessous.

 

Check Also

13 Façons d’ajouter un forum à votre site WordPress

Internet est un lieu où tout le monde est libre de communiquer. Maintenant que les …