WPFormationWordPress, rien que du WordPress
Formation WordPress
Qualiopi · Financement OPCO
Je me forme
Plugins WordPress

Un plugin WordPress pour tout scraper (il)légalement ?

Par Fabrice Ducarme·29 mai 2017·Mis à jour le 26 février 2026·6 min de lecture
scraper avec WordPress

Résumez ou partagez cet article

Les plugins WordPress sont formidables, c’est un vrai bonheur, il y en a pour tout et pour tous ! Des bons, des très bons comme des mauvais et parfois des malintentionnés… Celui dont je vais vous parler ci après, est un excellent plugin qui mal utilisé peut s’avérer extrêmement néfaste.

INTRO : Le plagieur & moi

Commençons par le commencement, j’ai récemment découvert un plagieur diablement efficace, ce dernier scrapait tous les articles de WPFormation (et bien d’autres) dans les 15 minutes après parution. Le scraping est impressionnant, tout y est : images, mise en forme, liens tronqués… Bref, la totale !
Article original publié sur WPFormation
Article original publié sur WPFormation
La copie scrapée depuis WPFormation 15mn + tard
La copie scrapée depuis WPFormation 15mn + tard
Avec pas moins de 40 plagiats des articles de WPFormation, ce plagieur utilise son site www.cnews.ga pour générer du trafic artificiel et pour envoyer sur des liens tronqués, qui ne sont au final, que de vulgaires liens d’affiliation vers WPEngine. J’ai découvert ce plagieur grâce à l’excellent https://www.killduplicate.com. Dans un premier temps j’ai essayé de prendre contact avec le copieur, sans succès. J’ai ensuite contacté WPEngine qui, malgré l’évidence de plagiat, m’a renvoyé un dossier complet DMCA à remplir (autant dire que j’allais y passer la journée). Ok, on oublie… Ok qu’à cela ne tienne, on va essayer de voir comment il fait et on va simplement bloquer ce malotru ! Après un blocage de l’IP du site et des IPs WPEngine, rien n’y fait, dès que je publie un article sur WPFormation, je le retrouve inexorablement sur le site du plagieur 15mn après ^^ Mais comment fait-il ?

Un plugin qui peut quasiment tout SCRAPER !

Le plugin qui permet de scraper tout type de contenu, c’est WordPress Automatic Plugin. Il peut scraper et publier des articles ciblés tels que : des produits Amazon, Clickbank, Walmart, des vidéos Youtube, Vimeo, DailyMotion, des flux RSS, des enchères eBay, des images Flicker, Instagram, Pinterest, Reddits, des Tweets, des publications Facebook, des annonces Craigslist, mais également les applications Itunes (chansons, ebooks, films, podcasts), des éléments Envato et SoundCloud, le tout en mode pilotage automatique. wp automatic plugin J’ai été absolument estomaqué de la puissance de ce plugin et sa capacité à copier quasiment tout ! Si je vous dis qu’en plus, il est capable d’utiliser des proxies (au cas ou vous souhaiteriez bloquer l’IP de son serveur), qu’il peut tronquer les liens, remplacer certains contenus, spinner, exclure, filtrer, etc… clairement, il vous sera difficile de le contrer !

Les BONNES raisons d’utiliser ce plugin :-)

Tout n’est pas à jeter sur ce plugin, il n’est pas foncièrement mauvais. C’est l’usage que l’on peut en faire qui l’est. On pourrait parfaitement scraper des produits Amazon ou Clickbank, des enchères eBay avec ce plugin pour faire de l’affiliation. On pourrait également s’en servir pour faire une veille via flux RSS et poster un extrait en respectant les droits d’auteur (longueur de l’extrait, mentions, lien vers le site d’origine). Bref, un formidable outil dans un monde de gens qui se respectent et qui respectent les droits et le travail des autres.

Les MAUVAISES raisons d’utiliser ce plugin :-/

Malheureusement notre monde n’est pas celui des bisounours et le site www.cnews.ga me l’a bien rappelé. Mal utilisé et de façon intentionnelle, WordPress Automatic Plugin peut scraper intégralement votre site WordPress et tous vos articles si chèrement écrits à la sueur de vos petits doigts. Le plugin peut en effet scraper à partir de vos flux RSS et copier tous les contenus (texte, images, vidéos, liens). Mais ce n’est pas tout, je peux aussi tronquer vos liens, remplacer la mention de la source et j’en passe… C’est exactement ce qu’a fait le site Gabonais qui a plagié WPFormation !

Comment ça marche ?

Ce qui est le plus étonnant et aussi le plus inquiétant, c’est que c’est incroyablement simple à utiliser et que cela peut être configuré en mode « pilotage automatique » en quelques minutes seulement. Pour vous montrer la « bête » en action, je me suis permis de scraper temporairement les sites des copains Creanico et Julio. (Nota: Merci les gars, le contenu scrapé a immédiatement été effacé et la soluce envoyée sur vos Skype respectifs;) Voici comment j’ai pu scraper 2 sites en moins de 5mn :

Comment s’en prémunir ?

Si l’utilisateur cherche réellement à scraper votre site, il prendra les mesures nécessaires et utilisera l’option des proxies pour passer outre tout blocage d’IPs. Mais rassurez-vous, il existe un moyen d’empêcher WordPress Automatic plugin de venir piquer vos contenus ;) La première chose à faire c’est d’identifier le copieur, pour cela utilisez les outils de recherche de plagiat tels que Kill-duplicate, Duplicate Content de Positeo ou bien encore Plagiarisma.net. kill duplicate Ensuite, dans vos « access.log » cherchez l’adresse IP qui vous scrape, en général elle « tape » une première fois sur l’article et une fois pour chaque image de ce dernier avec le même « User-Agent » et la même IP, comme vous pouvez le voir ici :
104.197.119.71 - - [24/May/2017:10:00:09 +0200] "GET /wp-content/uploads/2017/05/sachant-WordPress-1024x512.jpg HTTP/1.1" 200 68568 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/uploads/2017/05/Fotolia_152984051_S-300x225.jpg HTTP/1.1" 200 7152 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/uploads/2017/05/Fotolia_80868341_S-300x200.jpg HTTP/1.1" 200 12079 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/uploads/2017/05/no-300x180.jpg HTTP/1.1" 200 5393 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
104.197.119.71 - - [24/May/2017:10:00:10 +0200] "GET /wp-content/plugins/bloom/images/premade-image-21.png HTTP/1.1" 200 9598 "https://wpformation.com" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.8) Gecko/2009032609 Firefox/3.0.8"
Vérifiez ensuite si le scrapeur utilise le plugin WordPress Automatic Plugin, c’est assez simple à voir via le code source (cherchez /wp-automatic/) ou avec des outils tels que whatwpthemeisthat.com ou wpthemedetector.com. code Enfin, bloquez l’IP de ce site mais si il utilise des proxies il vous faudra surtout bloquer le « User-Agent », car oui le plugin laisse une trace bien nette de son passage. Ainsi en identifiant ce user-agent vous pourrez le bannir de votre WordPress. Le user-agent à bloquer pour se protéger du scrap de WordPress Automatic Plugin est actuellement Gecko/2009032609 Firefox/3.0.8. Et oui, notez que je dis bien « actuellement » car si on fouille un peu (avec quelques connaissances tout de même), il est possible de changer le user-agent de WordPress Automatic :/ Je n’expliquerais pas ici comment faire pour des raisons évidentes… Pour bloquer un user-agent vous pouvez utiliser, soit un plugin de sécurité type WordFence (Blocking >> Advanced Blocking >> User-Agent (browser) that matches), soit votre .htaccess. wordfence Et voici la règle exacte pour votre .htaccess :
SetEnvIfNoCase User-Agent "Gecko/2009032609 Firefox/3\.0\.8" bad_ua
Deny from env=bad_ua
Pour ma part et avec l’aide précieuse de Benoît, nous avons acheté le plugin pour faire des tests, voir le code et pour se prémunir si le développeur venait à changer son mode de scrap. J’ai aussi contacté ce dernier pour lui dire que certaines pratiques étaient tout bonnement détestables. Wait & see ! Edit du 30/05/2017 : L’auteur a répondu et envisage de mettre en place une meta Key afin de protéger les sites WordPress qui ne veulent pas être scrapé. reponse auteur Nous avons également noté que si vous appliquez le « Lazy Load » sur vos images, le plugin a plus de mal à les récupérer, bien qu’il possède une option pour contrer cela ;) Sur WPFormation, nous avons bloqué le plugin via WordFence et .htaccess. Nous en avons profité pour préparer une règle Nginx pour tous les serveurs de WP Serveur afin de protéger nos clients.

Pour conclure…

Je reste partagé et je suis très mitigé sur ce plugin. Si je dois reconnaître que je suis bluffé par ses performances et ses nombreuses possibilités, l’usage qui en a été fait contre WPFormation me laisse un goût amer. En fouillant un peu sur le sujet et sur le web, l’utilisation de ce plugin est connue et reconnue, certains n’hésitant pas à recourir aux proxies à des fins détestables. Le plus drôle (enfin façon de parler), pour peu qu’on s’intéresse au sujet, c’est qu’on peut en trouver très facilement d’autres : https://codecanyon.net/item/scrapes-web-scraper-plugin-for-wordpress/ et comme par hasard, spécialisés WordPress :/ Toutefois, bien utilisé et tout en respectant les droits d’auteur, ce plugin vous permettra de simplifier votre veille, vos partages, votre affiliation…

Résumez ou partagez cet article

Fabrice Ducarme, formateur WordPress
Fabrice Ducarme
Formateur WordPress & IA — WPFormation

Référence francophone WordPress depuis 2008. Expert en IA (Claude, Gemini) et développement Headless (Next.js), je forme les professionnels à maîtriser l'écosystème web d'aujourd'hui et de demain.