Comment scraper un site? Introduction

« Scraper » (web scraping en anglais) un site revient à extraire les informations du site automatiquement. Dans cette série d’articles nous reviendrons sur les techniques de scraping. Avant cela, permettez-moi d’introduire son utilité et ses limites.

De nombreuses entreprises utilisent aujourd’hui les techniques du scraping de manière légale, transparente et responsable. Voici quelques applications:

  • Le moteur de recherche Google repose par exemple sur des techniques de crawling (pour naviguer automatiquement de page en page) et de scraping afin d’extraire les informations de la page et de la catégoriser selon des mots-clefs
  • Les comparateurs de prix tels que Kelkoo ou Kayak utilisent le scraping pour récuperer les prix des differents sites et vous proposer un lien d’achat
  • Les prestataires de big data tels que Revinate (disclaimer, je bosse pour Revinate) utilisent les techniques de scraping pour offrir des services à leurs clients. Par exemple, Revinate récupère pour les compte des hotels, les avis que leurs clients laissent sur les sites de voyage tels que Booking ou Tripadvisor.
  • Les services financiers tels que Mint ou Linxo scrapent les sites des banques afin de catégoriser vos dépenses.
  • De nombreuses marques utilisent des prestataires de scarping des réseaux sociaux pour suivre leur réputation en ligne.
  • De nombreuses marques suivent les prix des leurs concurrents grâce au scraping.
  • Toutes les banques d’investissement utilisent le scraping pour récupérer de la donnée de diverses sources (comptes annuels des entreprises, données macro-économiques, etc) afin de prendre des décisions d’investissement.
  • Des sites comme Moz utilisent le scraping pour offrir des services de SEO (Search Engine Optimization).
  • Presque toutes les entreprises de l’Internet utilisent le scraping pour récupérer des données utiles à leur marché ou suivre leurs concurrents, sans forcément l’admettre publiquement.
  • De nombreux chercheurs utilisent le scraping dans leur études afin d’accéder à des informations autrement inaccessibles
  • Des journalistes utilisent le scrapping pour compléter leurs articles. Par exemple, en 2012, Le Monde avait «aspiré» les données du site de la Sécurité sociale ameli.fr pour créer une carte des dépassements d’honoraires des médecins dans dix grandes villes de France.
  • Etc.

En somme, le scraping est un business à plusieurs trillions de dollars par an qui reste toutefois un peu obscur et peu assumé.

Ceci s’explique par le fait que ces mêmes techniques peuvent également être utilisées à des fins illégales:

  • Les spammers utilisent des techniques de scraping pour récupérer des emails.
  • Les pirates utilisent les mêmes techniques pour repérer des failles et voler des informations privées sur des sites Internet (ils utilisent également un certain nombres d’autres techniques totalement interdites).
  • Des plagieurs volent des informations et créent des sites miroirs.
  • Des spammers innondent les blogs comme celui de votre serviteur de faux commentaires
  • Etc.

En somme, si aucune loi ne vous interdit de scraper une page, par example pour vous éviter de recopier un tableau à la main, vous devrez utiliser ces techniques avec parcimonie en respectant les conditions générales des sites que vous scrapez.

Dans la suite de ce guide, nous verrons de manière concrète comment scraper une site. Il existe de nombreuses methodes pour arriver à ses fins selon la complexité du site et de votre usage.

Commençons observer comment scraper une simple page html.

Comment scraper un site? Introduction

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *