Un plugin WordPress pour tout scraper (il)légalement ?

Les plugins WordPress sont formidables, c’est un vrai bonheur, il y en a pour tout et pour tous ! Des bons, des très bons comme des mauvais et parfois des malintentionnés… Celui dont je vais vous parler ci après, est un excellent plugin qui mal utilisé peut s’avérer extrêmement néfaste.

INTRO : Le plagieur & moi

Commençons par le commencement, j’ai récemment découvert un plagieur diablement efficace, ce dernier scrapait tous les articles de WPFormation (et bien d’autres) dans les 15 minutes après parution. Le scraping est impressionnant, tout y est : images, mise en forme, liens tronqués… Bref, la totale !

Article original publié sur WPFormation

Article original publié sur WPFormation

La copie scrapée depuis WPFormation 15mn + tard

La copie scrapée depuis WPFormation 15mn + tard

Avec pas moins de 40 plagiats des articles de WPFormation, ce plagieur utilise son site www.cnews.ga pour générer du trafic artificiel et pour envoyer sur des liens tronqués, qui ne sont au final, que de vulgaires liens d’affiliation vers WPEngine.

J’ai découvert ce plagieur grâce à l’excellent https://www.killduplicate.com. Dans un premier temps j’ai essayé de prendre contact avec le copieur, sans succès. J’ai ensuite contacté WPEngine qui, malgré l’évidence de plagiat, m’a renvoyé un dossier complet DMCA à remplir (autant dire que j’allais y passer la journée). Ok, on oublie…

Ok qu’à cela ne tienne, on va essayer de voir comment il fait et on va simplement bloquer ce malotru ! Après un blocage de l’IP du site et des IPs WPEngine, rien n’y fait, dès que je publie un article sur WPFormation, je le retrouve inexorablement sur le site du plagieur 15mn après ^^ Mais comment fait-il ?

Un plugin qui peut quasiment tout SCRAPER !

Le plugin qui permet de scraper tout type de contenu, c’est WordPress Automatic Plugin.

Il peut scraper et publier des articles ciblés tels que : des produits Amazon, Clickbank, Walmart, des vidéos Youtube, Vimeo, DailyMotion, des flux RSS, des enchères eBay, des images Flicker, Instagram, Pinterest, Reddits, des Tweets, des publications Facebook, des annonces Craigslist, mais également les applications Itunes (chansons, ebooks, films, podcasts), des éléments Envato et SoundCloud, le tout en mode pilotage automatique.

wp automatic plugin

J’ai été absolument estomaqué de la puissance de ce plugin et sa capacité à copier quasiment tout ! Si je vous dis qu’en plus, il est capable d’utiliser des proxies (au cas ou vous souhaiteriez bloquer l’IP de son serveur), qu’il peut tronquer les liens, remplacer certains contenus, spinner, exclure, filtrer, etc… clairement, il vous sera difficile de le contrer !

Les BONNES raisons d’utiliser ce plugin :-)

Tout n’est pas à jeter sur ce plugin, il n’est pas foncièrement mauvais. C’est l’usage que l’on peut en faire qui l’est. On pourrait parfaitement scraper des produits Amazon ou Clickbank, des enchères eBay avec ce plugin pour faire de l’affiliation.

On pourrait également s’en servir pour faire une veille via flux RSS et poster un extrait en respectant les droits d’auteur (longueur de l’extrait, mentions, lien vers le site d’origine).

Bref, un formidable outil dans un monde de gens qui se respectent et qui respectent les droits et le travail des autres.

Les MAUVAISES raisons d’utiliser ce plugin :-/

Malheureusement notre monde n’est pas celui des bisounours et le site www.cnews.ga me l’a bien rappelé. Mal utilisé et de façon intentionnelle, WordPress Automatic Plugin peut scraper intégralement votre site WordPress et tous vos articles si chèrement écrits à la sueur de vos petits doigts.

Le plugin peut en effet scraper à partir de vos flux RSS et copier tous les contenus (texte, images, vidéos, liens). Mais ce n’est pas tout, je peux aussi tronquer vos liens, remplacer la mention de la source et j’en passe…

C’est exactement ce qu’a fait le site Gabonais qui a plagié WPFormation !

Comment ça marche ?

Ce qui est le plus étonnant et aussi le plus inquiétant, c’est que c’est incroyablement simple à utiliser et que cela peut être configuré en mode “pilotage automatique” en quelques minutes seulement.

Pour vous montrer la “bête” en action, je me suis permis de scraper temporairement les sites des copains Creanico et Julio. (Nota: Merci les gars, le contenu scrapé a immédiatement été effacé et la soluce envoyée sur vos Skype respectifs;)

Voici comment j’ai pu scraper 2 sites en moins de 5mn :

Comment s’en prémunir ?

Si l’utilisateur cherche réellement à scraper votre site, il prendra les mesures nécessaires et utilisera l’option des proxies pour passer outre tout blocage d’IPs. Mais rassurez-vous, il existe un moyen d’empêcher WordPress Automatic plugin de venir piquer vos contenus ;)

La première chose à faire c’est d’identifier le copieur, pour cela utilisez les outils de recherche de plagiat tels que Kill-duplicate, Duplicate Content de Positeo ou bien encore Plagiarisma.net.

kill duplicate

Ensuite, dans vos “access.log” cherchez l’adresse IP qui vous scrape, en général elle “tape” une première fois sur l’article et une fois pour chaque image de ce dernier avec le même “User-Agent” et la même IP, comme vous pouvez le voir ici :

104.197.119.71 - - [24/May/2017:10:00:09 +0200] "GET /wp-content/uploads/2017/05/sachant-WordPress-1024x512.jpg HTTP/1.1" 200 68568 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/uploads/2017/05/Fotolia_152984051_S-300x225.jpg HTTP/1.1" 200 7152 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/uploads/2017/05/Fotolia_80868341_S-300x200.jpg HTTP/1.1" 200 12079 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/uploads/2017/05/no-300x180.jpg HTTP/1.1" 200 5393 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/plugins/bloom/images/premade-image-21.png HTTP/1.1" 200 9598 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"

Vérifiez ensuite si le scrapeur utilise le plugin WordPress Automatic Plugin, c’est assez simple à voir via le code source (cherchez /wp-automatic/) ou avec des outils tels que whatwpthemeisthat.com ou wpthemedetector.com.

code

Enfin, bloquez l’IP de ce site mais si il utilise des proxies il vous faudra surtout bloquer le “User-Agent”, car oui le plugin laisse une trace bien nette de son passage. Ainsi en identifiant ce user-agent vous pourrez le bannir de votre WordPress. Le user-agent à bloquer pour se protéger du scrap de WordPress Automatic Plugin est actuellement Gecko/2009032609 Firefox/3.0.8.

Et oui, notez que je dis bien “actuellement” car si on fouille un peu (avec quelques connaissances tout de même), il est possible de changer le user-agent de WordPress Automatic :/ Je n’expliquerais pas ici comment faire pour des raisons évidentes…

Pour bloquer un user-agent vous pouvez utiliser, soit un plugin de sécurité type WordFence (Blocking >> Advanced Blocking >> User-Agent (browser) that matches), soit votre .htaccess.

wordfence

Et voici la règle exacte pour votre .htaccess :

SetEnvIfNoCase User-Agent "Gecko/2009032609 Firefox/3\.0\.8" bad_ua
Deny from env=bad_ua

Pour ma part et avec l’aide précieuse de Benoît, nous avons acheté le plugin pour faire des tests, voir le code et pour se prémunir si le développeur venait à changer son mode de scrap. J’ai aussi contacté ce dernier pour lui dire que certaines pratiques étaient tout bonnement détestables. Wait & see !

Edit du 30/05/2017 : L’auteur a répondu et envisage de mettre en place une meta Key afin de protéger les sites WordPress qui ne veulent pas être scrapé.

reponse auteur

Nous avons également noté que si vous appliquez le “Lazy Load” sur vos images, le plugin a plus de mal à les récupérer, bien qu’il possède une option pour contrer cela ;)

Sur WPFormation, nous avons bloqué le plugin via WordFence et .htaccess. Nous en avons profité pour préparer une règle Nginx pour tous les serveurs de WP Serveur afin de protéger nos clients.

Pour conclure…

Je reste partagé et je suis très mitigé sur ce plugin. Si je dois reconnaître que je suis bluffé par ses performances et ses nombreuses possibilités, l’usage qui en a été fait contre WPFormation me laisse un goût amer. En fouillant un peu sur le sujet et sur le web, l’utilisation de ce plugin est connue et reconnue, certains n’hésitant pas à recourir aux proxies à des fins détestables.

Le plus drôle (enfin façon de parler), pour peu qu’on s’intéresse au sujet, c’est qu’on peut en trouver très facilement d’autres : https://codecanyon.net/item/scrapes-web-scraper-plugin-for-wordpress/ et comme par hasard, spécialisés WordPress :/

Toutefois, bien utilisé et tout en respectant les droits d’auteur, ce plugin vous permettra de simplifier votre veille, vos partages, votre affiliation…

wpformation
NE MANQUEZ PLUS RIEN !
Inscrivez-vous pour recevoir le meilleur de WordPress dans votre boîte de réception, chaque mois.

Nous ne spammons pas ! Consultez notre politique de confidentialité pour plus d’informations.

A propos de l'auteur...

Avatar de WPFormation

WPFormation

Fabrice Ducarme, spécialiste & formateur WordPress je suis éditeur, auteur et fondateur de WP Formation.com. Conférencier lors des WordCamp Paris 2013 & 2015, Marseille 2017 et au WP Tech Nantes 2014, je vous propose plus de 500 articles & tutoriaux à propos de WordPress, mes trucs & astuces mais aussi des coups de gueule...

14 commentaires pertinents à ce jour ;)

  • Bonjour,
    On va dire que la rançon de la gloire de se faire plagier.
    Comme quoi le blocage du clic droit ne sert à rien, puis je suis contre ce blocage, inutile, là vous avez des liens vers des plugins, des liens externes, sans cocher l’option “ouvrir le lien dans une nouvelle fenêtre”, du coup on doit “jouer” avec précédent pour revenir sur l’article, pas agréable.
    S’il n’y avait pas le blocage clic droit, j’aurai fait ouvrir les liens dans une nouvelle fenêtre.
    Merci

  • Bonjour @Foxdao,
    La rançon de la gloire aurait été un extrait + lien vers la source ;)

    Oui le blocage du clic droit ne sert à rien, surtout si il s’agit de scraping.
    C’est temporaire sur WPFormation, le temps de quelques tests et vérifications.

  • Bonjour @WPFormation,

    Un extrait + lien vers la source, non ça ça saurait du respect de votre travail, le plagiat n’est pas un respect envers l’auteur.
    C’est voir l’intérêt des articles, l’impact sur les visiteurs, voir que c’est un site d’une grande qualité.
    La rançon de la gloire veut dire “conséquences parfois négatives du succès.
    Bonne journée

  • Bonjour
    Et bien voilà encore un excellant article non seulement tu nous expliques un problème mais tu nous donnes la marche à suivre pour prendre des contres mesures. De plus les deux liens de positeo.com et de Plagiarisma.net sont des outils gratuits. Merci à WPFormation.

  • Un petit article sur le copyright ou ” how to links to external content ” peut être qu’il se retrouvera publié chez le scrapper :)

  • Le .ga est gratuit pour n’importe qui sur le globe comme le .tk etc… Dire que c’est un gabonnais sans preuve c’est pas très correct pour les habitants du Gabon qui n’on rien demandé.

    Puis c’est à l’écrit et à l’oral, le meilleur moyen de ne retenir que ça…

  • @Pas très juste, le site en question cherche à se placer sur google.ga, certaines IPs qui tapent sont localisées, je pars donc du postulat que sa cible est le Gabon et que de facto, il est Gabonnais. Mais je peux me tromper…

  • Effectivement l’usage fait n’est pas très louable, en revanche le plugin a l’air vraiment sympa pour faire de la veille par exemple. Je le verrais bien sur un site en local pour faire cette veille du coup ou pour préparer des articles plus complets sur un sujet en combinant les datas de plusieurs sources…
    A tester à l’occasion, en mode fair-play :)

  • Tango down on dirait :-) Le site .ga marchait quand j’ai lu cet article, coupé depuis. Une réaction de WPEngine envers un site aussi débile et certainement infraction aux conditions légales d’affiliation ?
    Malgré tout revue intéressante, merci Fabrice de cette démonstration car effectivement il existe des usages légitimes,et savoir que ça existe peut aider à s’en prémunir pour les auteurs de contenus plagiés.
    Bonne continuation.

  • Pour les migrations de site c’est intéressant pour gagner du temps au transfert du contenu :-)

  • Il semble que notre ami cnews.ga ne soit plus en ligne ! WPEngine n’aura sans doute pas apprécié la mauvaise publicité faite autour de l’hébergement d’un plagieur ;)

    cnews.ga

  • Quelques questions/remarques sur cet intéressant plugin.
    1) Quelqu’un qui s’amuserait à scrapper des produits Amazon, pour son intérêt d’affilié, se ferait virer d’Amazon assez rapidement (en gros dès que les gains dépassent quelques centaines d’euros par cpt d’affilié) MAIS cela peut être utilisé pour faire virer quelqu’un d’Amazon
    2) Quel est le réel problème d’être copié/scrappé ? SI le site qui scrappe apparaît devant dans Google, alors il est intéressant de comprendre pourquoi. Sinon, où est le problème ? Si il y a un problème de “duplicate content” (chose jamais prouvée réellement en web “français”), ALORS ce plugin peut servir en black seo pour couler un site concurrent non ? Quel est votre avis à ce sujet ?
    Merci

  • Le cnews.ga est en vente, ne serait-ce pas l’occasion de le racheter et de faire un clone de wpformation pour les gabonnais ;) ?

  • Bonjour,

    Un site qui Scrape peu affecté le SEO du site source? exemple avec un trop grand nombre de lien entrant ect… ?