Google XXL: Faire du Web Scraping avec Google
Google XXL

Faire du Web Scraping avec Google

Savoir où sont visibles les annonces Google AdWords d’un concurrent



Assez curieusement, Google indexe le contenu des annonces AdWords quand elles sont au format texte et visibles sur le réseau Display.
Pourquoi, dans ce cas, ne pas générer un flux RSS de chacun des emplacements qui sont détectés ?
Deux utilisations sont possibles :
  • Afficher, avant les rapports AdWords, quels sont les emplacements sur le réseau Display que Google choisit pour nos annonces ;
  • Surveiller les emplacements choisis par nos concurrents.
Je sais que cela peut paraître assez tarabiscoté mais le propos de cet article est surtout de montrer l’intérêt des outils de Web Scrapping quand il s’agit de faire de l’intelligence économique (au sens large du terme).
Pour y arriver, nous allons donc utiliser :
  • La puissance d’indexation de Google ;
  • Un outil de Web Scraping appelé Open Dapper et qui a été racheté par Yahoo!
En prenant l’exemple de ce contenu d’annonce : Réduction exceptionnelle sur les frais de versement jusqu'au 31/12, il nous suffit de :
  • Lancer cette recherche dans Google en encadrant notre expression par des guillemets ;
  • Activer l’option Depuis 24 heures ;
  • Cliquer sur le lien Relancer la recherche en incluant les pages ignorées.




Dans ce cas là, deux paramètres sont ajoutés à l’adresse URL :
  • &tbs=qdr:d : Depuis 24 heures ;
  • &filter=0 : Relancer la recherche en incluant les pages ignorées.
Après avoir nettoyé l’adresse URL des commutateurs qui sont inutiles, nous obtenons ceci : http://www.google.fr/search?q=%22R%C3%A9duction+exceptionnelle+...+jusqu'au+31/12%22&hl=fr&tbs=qdr:d&filter=0.
Signalons que certains des caractères qui composent notre adresse URL sont échappés…
  1. Accédez à Open Dapper.net : http://open.dapper.net.
  2. Procédez à votre inscription sur ce service…
  3. Une fois ce préalable effectué, cliquez sur le lien Create a new Dapp.
  4. Dans la zone de texte Enter the URL of the website:, collez l’adresse URL que vous venez de récupérer.
  5. Cochez le bouton radio RSS feed.
  6. Cliquez sur le bouton Next Step.
La page de Google est visible dans le volet central… En bref, Open Dapper est un outil d’interface graphique qui permet de sélectionner les différents éléments qui composent la page web pour n’en retirer que ceux qui nous intéressent. À chaque modification d’un des éléments, un flux RSS va être généré. Bien entendu, c’est beaucoup plus simple que d’en passer par du PHP et du Curl, des savantes expressions régulières et des requêtes Xpath.
  1. Cliquez sur les boutons Add to Basket, Next Step et OK.
L’analyse de la page va démarrer…
Vous pouvez cliquer sur le lien Close Demo mais la vidéo reste intéressante pour qui veut se familiariser avec cet excellent service…
  1. Dans la fenêtre centrale, sélectionnez le titre d’un des Snippets.
L'élément sélectionné va être entouré par un liseré de couleur orange.
Ils vont être tous visibles dans la fenêtre Preview selected content (10) (en bas de la fenêtre).
En bref, quand vous sélectionnez, dans la fenêtre centrale, un des éléments qui composent la page web, Dapper va automatiquement récupérer ses « frères jumeaux ».
  1. Cliquez sur le bouton Save Field.
  2. Indiquez un nom pour le champ que vous allez créer.
  3. Laissez coché le bouton radio Item Title.
  4. Cliquez sur le bouton Save.
  5. Sélectionnez le lien d’un des Snippets.
De la même manière, ils vont tous apparaître dans la zone de texte Preview selected content (10).
  1. Cliquez sur le bouton Save Field puis attribuez un nom à ce nouveau champ.
  2. Cochez, cette fois-ci, le bouton radio Item Text.




  3. Cliquez sur le bouton Next.
Vous allez avoir une prévisualisation de votre flux RSS.
  1. Sélectionnez les deux éléments présents dans la zone de texte Content Fields puis cliquez sur le bouton Save group.
  2. Indiquez un nom pour votre groupe.
  3. Cliquez sur le bouton Next Step.
  4. Tapez le nom choisit pour votre « Dapp ».
  5. Cliquez sur le bouton Save.
  6. Récupérez l’adresse du flux RSS.
  7. Utilisez votre agrégateur afin de l’intégrer à vos autres flux RSS.
Le tour est joué !



Nous pouvons ensuite étendre le nombre de liens qui seront visibles en créant un flux pour la seconde page des résultats puis retravailler ce flux dans Yahoo! Pipes afin de supprimer, par exemple, les noms de domaine qui apparaissent en doublon.

0 commentaires: