Scraping de masse sites WordPress

Scraping : Le Web scraping (parfois appelé Harvesting) est une technique d'extraction du contenu de sites Web, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. _Wikipedia

Scraping de sites WordPress

Alors que je faisais ma veille WordPress sur WPFormation, en parcourant les SERPs de Bing - Oui, il s'agit bien du moteur de recherches Bing mais on fait sa veille correctement ou pas ;) d'ailleurs je vous conseille à tous d'aller vous inscrire sur Bing Webmaster un très bon outil avec de nombreuses possibilités - J'ai découvert ceci :

scraping wordpress

 

Sur le nom de mon site apparaît très clairement en position 5, une URL sortie de je ne sais où! Petit clic et voici une copie exacte de mon site! Plus fort encore, les liens internes sont fonctionnels, ainsi lorsque je clique sur un menu du site copieur, je reste sur la copie.

Au moment ou j'écris cet article, j'ai bien évidement corrigé le problème aussi l'exemple que je vous montre ci-dessous est celui du scrap de SeoMix également touché:

Scraping site wordpress

 

En discutant avec Benoit, je vais découvrir ainsi pas moins de 300 sites scrapés, sur plusieurs domaines différents. Certains sites WordPress sont entièrement copiés, d'autres partiellement:

Scraping wordpress sites
Attention : Les scrapers utilisent de nombreux domaines en passant par CloudFlare, il n'y a pas que codercanyon.net, on trouve également tisa-cref.org, tjoos.co, etc... par exemple le site de Daniel est scrapé sur pas moins de 2 domaines différents:(

 

Scraper mais dans quel but ?

C'est la première des questions, quel est donc l'intérêt de copier l'intégralité d'un site? C'est François du site Mitambo qui m'a éclairé: C'est du NSEO c'est à dire du Negative SEO.

François a détecté une pyramide à plusieurs niveaux donnant ainsi du poids à certains des sites copiés, l'objectif étant clairement de prendre des positions dans les SERPs et de détourner une partie du trafic.

Certains diront que ces techniques ne fonctionnent que sur des sites avec peu d’ancienneté et une autorité minimale, C'est faux! Je les renvoie à la 1ère capture d'écran de cet article (le scrap a eu lieu le 1er mai 2014) et sur Bing le site copieur apparaît déjà en position 5 dans les SERPs. Combien de temps lui aurait-il fallu pour progresser sur celles de Google?

Paul Sanches a créé une polémique sur le sujet qui a fait bouger Matt Cutts himself en faisant disparaître sa homepage de Google.fr (pas celle du blog mais le root). Donc le soucis de "pénalité" est bien réel.

Pour lutter efficacement contre ce type de NSEO, il faut placer des balises canonical dans les contenus qui affichent l'URL officielle (SEO by Yoast le fait).  Ainsi si la page est scrapée et que le scraper n'a pas fait attention, au moins la canonical renvoie vers la bonne URL... mais dans mon cas présent, le scraper l'avait aussi changé...

 

Que faire en cas de Scrap ?

La première des choses à faire c'est d’identifier le problème, le site copieur est hébergé sur le CDN cloudflare, il devrait donc y avoir moyen de discuter avec eux... Et bien non, CloudFlare me répondra : "Nous sommes un fournisseur de réseau offrant un reverse proxy. Nous ne sommes pas un fournisseur d'hébergement. CloudFlare ne contrôle pas le contenu de ses clients"... Sic!

L'autre solution c'est de prévenir Google, il existe un formulaire, le Google Scraper Report. Cela vient d'un tweet de Matt Cutts donc on peut croire le formulaire légitime: Google-scraper-tool-185532.

Formulaire posté mais l'entête du formulaire précise ceci: "pour déclarer un contenu scrapé se positionnant mieux dans les SERPs que le contenu original". Il faut donc attendre de se faire passer devant pour réagir.

3ème solution, au vu des sites scrapés (Envato notamment), un petit tweet pour les prévenir, il auront forcément plus de poids et l'union ne fait-elle pas la force.

4ème solution, trouver l'astuce technique. En effet, comment mon site entier peut-il être copié? Comment se fait-il que lorsque je fais une modification elle se répercute immédiatement sur le site copieur?

 

Solutions contre le Scrap

La solution viendra par Michael de IP_Solution qui a trouvé le serveur Nginx et de fait le proxy effectif vers wpformation, ainsi le moyen de les stopper en bloquant leurs IPs depuis le firewall de mon serveur.

Grégoire, dont le site a aussi été scrapé, a utilisé le plugin WordPress WordFence pour bloquer les IPs du serveur copieur.

Signaler le contenu illicite depuis la page Suppression de contenu de Google, attention de bien remplir le formulaire (voir capture d'écran ci-après). Si le cas est avéré et pris en compte, Google supprimera le contenu de ses SERPs (Merci @Lumière de lune ;)

Sachez enfin qu'il existe aussi le service DMCA qui permet de déposer des plaintes mais cela ne concerne que la législation US mais ils disent bosser pour toute personne même hors des USA. Si eux agissent, c'est minimum 199$ sinon pour 10$ on peut créer sa plainte et ils vous expliquent la procédure à suivre.

Signaler contenu illicite à google

 

Pour conclure ce billet, je vous rappellerais de ne pas oublier de surveiller votre contenu, de faire votre veille technique et de suivre vos positions. Utilisez des outils tels que Copyscape et/ou DMCA pour vérifier que vos contenus ne soient pas copiés, et surtout... restez vigilant;)
Quelques articles complémentaires sur le scraping:

A propos de l'auteur...

WPFormation

Fabrice Ducarme, formateur WordPress je suis éditeur, auteur et fondateur du site WP Formation.com. Conférencier lors des WordCamp Paris 2013 & 2015 ainsi qu'au WP Tech Nantes 2014, je vous propose plus de 400 articles & tutoriaux à propos de WordPress, mes trucs & astuces mais aussi des coups de gueule...

15 commentaires pertinents à ce jour ;)

  • Francois dit :
    On peut les bloquer pour la suite via les IP .. mais quand le mal est fait (par exemple tes pages critiques dupliquées), tu ne sais plus rien faire. Et ils auront toujours une longueur d’avance.

    Le problème n’est pas nouveau.

    C’est là que Google devrait pouvoir intervenir via un service manuel pour dégager de son index les spammeurs.

  • Jean-Baptiste dit :
    Je doute très franchement que ce soit une campagne de NSEO. On est pas dans le cas classique d’une duplication en masse d’un site ou une page sur des milliers d’hosts différente.

    Là il duplique des milliers de sites différents dans l’espoir de faire du trafic, effectivement la conséquence finale pour vous peut être une perte de position mais ce n’est l’objectif premier.

    Il s’est positionné sur Bing j’ai de très sérieux doute qu’il se positionne sur Google qui gère moins mal (c’est relatif) ces problématiques.
    Il faut de l’ancienneté et de la notoriété ce qu’il n’a pas.

    Pour Cloudflare c’est tout à fait normal qu’ils refusent, ils ne sont pas hébergeurs mais uniquement CDN.
    Ils doivent néanmoins te donner le nom du réel hébergeur.

  • Lumière de Lune dit :
    Le dépôt d’une plainte DMCA via Google est gratuit. Les droits d’auteurs sont protégés internationalement, et Google retire de son index les pages signalées :)
  • WPFormation dit :
    @François, en effet trouver le formulaire réservé au scraping relève du parcours du combattant et sans ton aide je ne l’aurais certainement pas trouvé;)

    , certains sites ont été entièrement copiés, si l’objectif est de faire du trafic au détriment des sites copiés cela reste du NSEO. Le scraping date de moins d’une semaine et la pyramide qu’ils construisent a pour seul objectif de pousser certaines pages.

    @Lumière de Lune, la plainte DMCA de Google j’ai eu du mal à la trouver (il fallait cocher « j’ai un problème d’ordre juridique non mentionné ci-dessus » http://goo.gl/SCelNj), je vais d’ailleurs éditer l’article, merci ;) Pour ce qui est du droit des auteurs, nombreux sont ceux qui ne s’en soucient pas!

  • Jean-Baptiste dit :
    Le NSEO c’est dupliquer en masse le même contenu de son concurrent pour le faire chuter et faire ranker son contenu qui lui est unique.
    La c’est différent il s’en fou de vous faire du NSEO il veut juste se positionner grâce à vos contenus sans rien faire au risque de vous déclasser. C’est un petit différent mais si la conséquence est globalement la même :)
  • Francois dit :
    le NSEO peut jouer sur 1 seule page dupliquée. pas besoin de dupliquer tout un site.

    Il suffit de voir l’exemple de Tiger sur la homepage de matt cutts qui arrive à cibler uniquement l’index de google.fr.

    Il est possible de dézinguer les « money pages » ou « trafic pages » d’un concurrent, une par une …

    Et en dupliquant en masse, les chances de niquer tout/partie du site cloné sont importantes. Ici par exemple, le gusse n’a encore créé aucun backlink vers son domaine. mais un petit travail bien ciblé peu vite changer la donne. Et là bye bye certaines pages voire sections des sites digérés.

    Mais certainement comme tu l’expliques son idée n’est pas de nuire directement mais de profiter de contenus qui rankent déjà. Mais il lui manque un peu de popularité/autorité pour devenir nuisible.

    Ce qui est surprenant c’est le test sur des monstres comme ENVATO et sa galaxie de domaines/marketplaces.

    Et puis même s’il gagne en visibilité …. ce serait pour faire quoi?

    C’est sans doute un test d’automatisation d’une plateforme de scraping .. ou de qq modules.

  • Grégoire Noyelle dit :
    Merci pour la mention et pour cette alerte qui m’a permis de faire un grand ménage sur les requêtes Apache. Depuis, mon site fonctionne beaucoup mieux.
    J’ai découvert au passage Wordfence et je compte faire un tuto complet sur ce plugin.
  • Nicolas dit :
    Je découvre cette pratique…
    Quel est le moyen le plus simple et rapide pour détecter le scapping de son site ?
  • Francois dit :
    tu as des services comme CopyScape … même s’il est perfectible, il peut rendre un service intéressant.
  • Lovelive dit :
    J’ai bien une idée sur la façon dont le site copieur arrive à être à jour en un rien de temps. Il faudrait voir, lorsque tu fais une requête sur ce domaine, si au même moment une requête est faite sur ton propre site. Ça m’a l’air d’être une méthode économique et très efficace de répliquer un site, sans en dupliquer la moindre donnée (méthode que je conchie, bien sûr).
  • Francois dit :
    j’avais oublié ton excellente trouvaille … en lisant ton commentaire je pensais à une idée d’envoyer qq backlinks.ru du meilleur cru.
  • Agence stratégie digitale dit :
    @Francois : De mon côté j’ai mis en place un système avec Mention et Netvibes qui me remonte automatiquement les contenus trop similaires aux miens. Ca ne permet pas de se protéger mais au moins, d’être alerté si 500 sites sortent de nulpart.

    J’avais zappé cet article haha

  • WPFormation dit :
    , original en effet ! J’y vois principalement un iFrame et donc des liens qui pointent vers ton site.

    L’intérêt ? Aucun ;)

Tweet94
Share15
Share7
Buffer73