Scraping (Scrap ou Scraper)

Le terme Scraping (Scrap ou Scraper) fait référence à une technique qui consiste à copier du contenu à partir d’un autre site web en utilisant un logiciel ou un programme informatique spécifique. Souvent considérée comme étant du pillage, cette technique est parfois assimilée sur le web à une stratégie de Black Hat SEO.

Définition du Scraping

Littéralement, le terme Scraping signifie « grattage » ou « raclage ». En SEO, cet anglicisme est utilisé pour faire allusion à une pratique consistant à copier des informations existantes sur des sites tiers, en vue d’une analyse ou d’un traitement interne. Cette opération de récupération de contenu est généralement assurée par des robots qui se chargent de visiter les sites et d’extraire automatiquement les données qu’ils contiennent. Celles-ci peuvent être des images, des textes ou tout autre format de contenu.

À quoi sert le Scraping ?

L’intérêt principal de la technique du Scraping est de pouvoir collecter des données à partir d’un site tiers pour constituer une base de données locale ou un tableau structuré (scrapebox). Cela est très utile dans les veilles concurrentielles pour surveiller les plateformes concurrentes. L’une des utilisations possibles consiste par exemple à recenser toutes les modifications apportées aux contenus ou aux fonctionnalités d’un site concurrent.

En dehors de cette utilisation, le Scrap de contenus est également efficace dans les études de marché. Dans ce cas précis, le Scraping permet d’avoir des informations très précises pour analyser efficacement le marché, afin de mettre en place une stratégie de marketing adaptée.

Comment fonctionne le Scraping ?

L’objectif du web Scrap est de copier des contenus déjà disponibles sur des pages internet sans dénaturer la structure du document source. Pour atteindre cet objectif, le Scraping utilise généralement un robot Scraper ou un programme informatique bien défini. Ce dernier suit un mode de fonctionnement similaire à celui des crawlers des moteurs de recherche.

Ainsi, pour collecter des données sur les plateformes en ligne, le Scraper commence par recenser une ou plusieurs URLs à explorer. Ensuite, il récupère l’intégralité du code HTML des documents concernés et copie les éléments CSS et JavaScript. Après cette étape, le Scraper charge toutes les données ciblées et procède à l’extraction proprement dite. Pour finir, le robot chargé de scraper les données affiche les informations récupérées dans un format plus compréhensible pour l’utilisateur humain. En général, ces données collectées sont proposées dans une feuille de calcul CSV ou Excel. Cependant, certains robots de Scraping proposent des formats plus avancés tels que JSON et REST.

Scraping de données vs indexation de données : à ne pas confondre

Même si le Scraping de données suit un mode de fonctionnement très proche du processus d’indexation de données, ces deux concepts sont très différents l’un de l’autre.

En effet, pour un moteur de recherche tel que Google, l’indexation consiste à utiliser un robot pour analyser et enregistrer le contenu disponible sur les pages web. L’idée est d’afficher ces URLs dans les résultats de recherche. Lors de cette opération, le bot respecte les instructions définies par le propriétaire : Robots.txt, Noindex, Nofollow… Par contre, le Scraping est spécifiquement destiné à récupérer le contenu d’une page web pour un usage personnel. Les robots utilisés pour scraper ne respectent aucune restriction. Ils peuvent accéder à certaines sections jugées confidentielles sur une plateforme en ligne. Ces robots peuvent donc récupérer des informations sur une page indiquée comme devant être ignorée. Ce qui n’est pas le cas pour les robots d’indexation de Google et des autres moteurs de recherche.

Les différentes typologies de Scraping

Scraper peut prendre différentes formes, en fonction du logiciel utilisé et des objectifs de l’utilisateur en matière de SEO. Ainsi, on distingue plusieurs typologies de Scrap, dont :

Le Scrap de contenu
Le Scrap de contact
Le Scrap de prix

Le Scraping de contenu

Ce type de Scrap est utilisé dans le but de générer automatiquement des articles web à partir des copies faites sur d’autres sites. Dans certains cas, les articles copiés sur les plateformes tierces sont systématiquement réutilisés sans être modifiés. L’idée est de scraper des textes pour générer très rapidement du trafic organique et accroître sa visibilité par le biais du référencement naturel.

Le Scraping de contact

Il s’agit ici d’une méthode de Scraping visant à récolter les informations de contact sur un site donné. Dans un tel processus, le robot de Scrap parcourt la page cible et récupère les adresses électroniques ainsi que les numéros de téléphone présents dans le document. Cette méthode est généralement utilisée dans le cadre des envois massifs de mails et des appels robotisés.

Le Scraping de prix

Ce type de Scrap s’inscrit dans le cadre des veilles tarifaires en marketing commercial. Il permet de collecter les informations tarifaires des concurrents afin de surveiller l’évolution des prix qu’ils proposent et de les comparer à ses propres tarifs. Lorsqu’elle est utilisée, cette méthode de « copier-coller » peut permettre de se démarquer de la concurrence.

Quelles solutions mettre en place pour limiter le Scraping ?

Pour empêcher les robots Scrapers de parcourir votre site, il existe diverses techniques que vous pouvez utiliser. En fonction de vos besoins, vous pouvez par exemple :

Utiliser le CAPTCHA
Limiter le nombre de requêtes
Modifier régulièrement la balise HTML

L’utilisation de CAPTCHA

Dans le domaine du Search, le CAPTCHA est un moyen efficace pour distinguer les utilisateurs humains des robots et crawlers. Le principe est de poser un problème que les visiteurs trouvent facile, mais qui est difficile à résoudre pour les robots. Il peut s’agir par exemple de cocher une case « I’m not a robot », de trouver des images correspondant à une proposition spécifique, de répondre à une interaction…

Ce type de test permet de s’assurer que l’auteur d’une requête est un utilisateur humain et pas un robot. Cependant, faites attention ! Il ne s’agit pas de créer un CAPTCHA pour chaque requête sur votre site. Cela risque de nuire à votre expérience utilisateur. L’idéal sera donc de configurer le CAPTCHA pour qu’il s’affiche uniquement en cas d’activités suspectes.

Limiter le nombre maximum de requêtes durant un laps de temps

En dehors du CAPTCHA, il est également possible de bloquer les robots Scrapers en limitant le nombre maximum de requêtes provenant de la même adresse IP sur une durée donnée. En principe, le nombre de pages qu’un utilisateur humain peut parcourir sur la même URL dans un intervalle de temps est relativement limité. Par exemple, il est impensable pour un visiteur humain de consulter une cinquantaine de pages à la seconde sur le même site. Par contre, un robot Scraper peut facilement parcourir des milliers de pages en quelques secondes. Ainsi, en limitant le nombre de requêtes qu’une même adresse IP peut effectuer dans un intervalle de temps, vous serez en mesure de réduire les risques de Scraping sur votre site.

Modifier la balise HTML régulièrement

Pour atteindre leur objectif, les logiciels de Scrap s’appuient principalement sur les schémas du balisage HTML qu’ils utilisent comme indice pour trouver les bonnes informations à extraire sur chaque site. Si vous modifiez régulièrement la structure de votre fichier HTML, cela peut rendre la tâche difficile pour les Scrapers. Ceux-ci ne tarderont pas à abandonner à chaque nouvelle tentative d’exploration.

Scraping : une technique Black Hat SEO ?

En principe, les techniques de Scraping peuvent être très utiles pour le SEO. Vous pouvez par exemple utiliser cette méthode pour suivre le positionnement de vos concurrents dans les SERP des moteurs de recherche. Cette utilisation du Scrap n’enfreint pas les recommandations de Google.

Toutefois, lorsque le Scraping est employé dans une stratégie de génération automatique de contenu, cela peut être assimilé à une stratégie non éthique. En effet, cette façon d’utiliser le web Scrap est très proche du duplicate content. La qualité du contenu étant un critère important en référencement naturel, Google n’hésite pas à déployer une pénalité pour sanctionner les plateformes qui génèrent automatiquement des articles web en utilisant cette méthode.

Trois exemples d’outils de Scraping

Vous souhaitez intégrer le Scraping à votre stratégie de veille concurrentielle afin d’optimiser votre référencement et votre SEO ? Il existe aujourd’hui plusieurs outils gratuits pour collecter facilement des données sur n’importe quelle URL, y compris la SERP de Google. Parmi ceux-ci figurent :

Import.io
Kimono
Scrappy

Import.io

Import.io est l’un des Scrapers les plus populaires et les plus efficaces. Cet outil propose un concept d’extraction basé sur deux API principaux : Magic et Extractor. Le premier permet de collecter systématiquement les données à partir d’une liste d’URLs prédéfinie. Le second est utilisé pour récupérer des données spécifiques sur une page. Ces deux interfaces peuvent être combinées pour réaliser une extraction à grande échelle, avec des résultats plus précis et plus complets. Le logiciel propose également plusieurs fonctions de type classeur qui permettent d’appliquer des formules plus complexes ou plus explicites, en fonction du besoin.

Kimono

Le logiciel Kimono permet de collectionner les données à partir d’une liste d’URLs en se basant sur des scénarios définis au clic. L’avantage, c’est qu’il permet également de naviguer à travers une longue pagination pour collecter une information. Mais pour l’utiliser efficacement, vous devez avoir une bonne maîtrise des langages HTML et JavaScript.

Scrapy

Scrapy est un logiciel open source qui permet de récupérer très rapidement des informations sur un site web. Il dispose d’une large bibliothèque de fonctionnalités qui permet à l’utilisateur de définir quoi récupérer, sur quelle page et comment le faire. De plus, les résultats enregistrés à l’issue de l’opération peuvent être exportés sous un format spécifique afin de permettre la lecture et l’exploitation par l’utilisateur. Cependant, il est important d’avoir des connaissances en python et XPath pour utiliser cet outil.