Cochons de scrappers, bossez au moins proprement !

Scrapper un site est monnaie courante, que ce soit en SEO, pour faire du benchmark prix ou autres applications.

Normalement, je trouve ça plutôt naturel. Dans la vie courante, les acheteurs vont chez les concurrents vérifier leur prix etc, ce n’est pas anormal. Sauf quand le mec rentre dans votre boutique avec un bon millier de ninjas armés jusqu’au dent qui prennent avec eux les étiquettes. C’est à peu de choses près ce qui m’est arrivé hier.

Vers 10h30, le taux de conversion s’effondre. Ni une ni deux, nous commençons a regarder de plus près les KPI et remarquons un volume d’accès direct particulièrement élevé. Mieux encore, une vielle version de Chrome fait son apparition avec un nombre de visite impressionnant dans la journée (pas malins les mecs).

Comme j’ai plus d’un tour dans mon sac et que tout est enregistré en temps réel dans elasticsearch, je commence a fouiller un peu plus et comprends de suite qu’il s’agit d’un robot qui vient scrapper nos produits, avec des instances EC2 + un ou deux autres hébergeurs, mais en mode crado.

A la limite, ça ne me dérange pas. Mais bordel de merde, il n’ a pas que Google Analytics qui enregistre des stats ! (le mec a pris soin de virer Google de la liste des domaines appelés quand même. Histoire de pas se faire repérer).

Quand vous développez un robot qui de surcroît exécute du javascript, pensez à exclure TOUS les domaines externes qui sont appelés sur la page !! Vous nous explosez les stats avec vos conneries bande de cochons !

J’espère que le boulet qui a crawlé ces pages hier se reconnaîtra et modifiera son scrapper foireux en conséquence.

A bon entendeur.

Vous aimerez aussi...