Web scraping

Le Web scraping, aussi appelé harvesting ou moissonnage web, est un procédé d’extraction de données et de contenus des pages web de façon rapide et efficace, tout en gardant l’intégrité des données par le biais d’un programme ou d’un logiciel.

Ce procédé est utilisé à des fin de traitement et d’analyses de données pour divers domaines tels que l’analyse de marché, veille concurrentielle, la recherche académique, traitement automatique du langage (NLP), veille média, ou encore l’analyse des retours utilisateurs sur les réseaux sociaux et les sites de partage d’avis.

Histoire du web scraping

La collecte de données existe depuis bien avant l’apparition du web : les entreprises rassemblaient déjà des informations à partir de catalogues, rapports ou bases de données physiques.
Avec l’arrivée du World Wide Web, les sources d’information se sont multipliées et diversifiées : prix des produits, avis clients, publications académiques, articles de presse, réseaux sociaux…
Le Web Scraping s’est alors imposé comme une méthode incontournable pour extraire, organiser et analyser ce flot massif de données.

Quand en a-t-on besoin ?

Le webscraping intervient dans de nombreux contextes. Dans un marché concurrentiel, par exemple, les entreprises l’emploient pour suivre les prix, les promotions en cours ou les tendances émergentes. L’extraction automatisée des informations peut aussi concerner les avis clients, les discussions sur les forums ou encore les publications sur les réseaux sociaux, permettant d’obtenir une vue d’ensemble de la perception d’une marque ou d’un produit.

Quelles données peut-on extraire ?

L’extraction peut porter sur différentes natures de données :

Données numériques ou quantitatives :

par exemple les notes laissées sur TripAdvisor, les votes d’utilité sur Amazon ou encore les prix d’enchères d’eBay. Ces données structurées se convertissent facilement en variables exploitables.

Données textuelles ou qualitatives :

critiques, tweets, articles de blog. Moins structurées, elles nécessitent des traitements automatiques comme l’analyse sémantique ou l’exploration de texte.

Données visuelles :

images et vidéos, qui exigent des techniques plus avancées de vision par ordinateur ou d’annotation humaine.

Métadonnées :

“données sur les données” telles que la date de publication, l’adresse IP de l’utilisateur ou le type d’appareil utilisé. Elles enrichissent l’analyse en apportant du contexte.

Le web scraping ne se limite pas au HTML

Si l’HTML constitue le point d’entrée le plus courant, le scraping s’étend bien au-delà. Les outils modernes permettent également de collecter :

des fichiers structurés comme le XML (flux RSS, sitemaps) ou le JSON (souvent utilisé dans les API web),
des contenus dynamiques chargés via JavaScript ou AJAX, qui nécessitent l’usage de navigateurs automatisés capables de reconstruire le Document Object Model (DOM),
des documents téléchargeables tels que les PDF, les tableurs ou les rapports en ligne,
ainsi que des médias (images, vidéos, audio), de plus en plus fréquents dans les usages actuels du web.

Cette diversité explique pourquoi le web scraping est devenu un outil incontournable, aussi bien pour les chercheurs que pour les professionnels souhaitant transformer l’immense quantité d’informations disponibles en ligne en données exploitables.

Exemple d’un scraper avec Python :

Un exemple simple consiste à créer un script qui analyse une liste de liens, collecte les mots composant les titres des pages et en compte les occurrences. Les résultats peuvent ensuite être visualisés sous forme de graphique, offrant un aperçu statistique des thématiques dominantes dans le corpus analysé.

Extrait du code du scraper :

import requests
from bs4 import BeautifulSoup

# Exemple d’URLs à analyser
urls = {« https://example.com/page1 », « https://example.com/page2 »}

# Mots-clés à compter
keywords = {« html »: 0, « css »: 0, « javascript »: 0, « python »: 0}

for url in urls:
response = requests.get(url)
if response.status_code == 200 :
soup = BeautifulSoup(response.content, ‘html.parser’)
titles = [e.get_text().lower() for e in soup.find_all(« a »)]

for title in titles:
words = set(title.split())
for k in keywords:
if k in words:
keywords[k] += 1

print(keywords)

Explication :

requests.get(url) récupère le contenu de la page.
BeautifulSoup permet d’analyser le DOM et de récupérer les titres.
On parcourt ensuite chaque titre pour compter les occurrences de nos mots-clés.

Pour le script complet avec visualisation graphique et gestion de plusieurs pages : Voir sur GitHub

Calculateur de mot clé

Un mini projet a été mis en place afin de permettre à tester un web scraper gratuitement. Cette application permet de calculer les mot clés existants dans une liste de liens fournie. Cliquer ci-dessous afin de tester le scraper :

Risque juridique du web scraping

Le web scraping engage des responsabilités légales selon plusieurs législations, notamment quand il porte sur des données à caractère personnel, des contenus protégés ou lorsque des barrières d’accès sont contournées.

Au Maroc : Le traitement automatique des données à caractère personnel est encadré par la loi n°09-08 relative à la protection des personnes physiques à l’égard du traitement des données personnelles. Cette loi institue la commission Nationale de Contrôle de la Protection des données à caractère personnel (DNDP) comme autorité de contrôle.

Parmi les sanctions, une peine d’emprisonnement de trois mois à un an et/ou une amende de 20 000 à 200 000 dirhams, pour traitement de données sans consentement ou conservation illégale ainsi que le transfert illégal de ces données vers un pays étranger (article 60).
Sur ce, toute opération de scraping qui collecte, traite ou transfère des données personnelles au Maroc sans respect des conditions de la loi 09-08 peut entraîner des sanctions pénales et financières lourdes.

En France : Le scraping peut être encadré par plusieurs textes :

Le code de la propriété intellectuelle, qui accorde au producteurs de bases de données un droit unique sur la réutilisation non autorisé des données.
Le règlement général sur la protection des données (RGPD), intégré en droit français lia la loi « Informatique et libertés ». Toute collecte de données personnelles, même accessibles publiquement, doit respecter les principes de licéité, transparence, finalité, minimisation et sécurité, ainsi que garantir les droits des personnes (accès, rectification, opposition, portabilité)
Le droit pénal, notamment l’article 323-3 du code pénal, qui sanctionne le fait, de manière frauduleuse, d’introduire, extraire, reproduire, transmettre, supprimer ou modifier des données d’un système de traitement automatisé. Cette infraction peut être punie de 5 ans d’emprisonnement et 150 000 € d’amende, sous réserve de la preuve d’un intention frauduleuse.

En pratique, un scraping qui viole les droits de propriété intellectuelle d’une base, contredit des conditions d’utilisation, ou détourne ou manipule des données personnelles peut constituer une infraction civile ou pénale.

Références :

Data extraction