Dapper ou le web scrapping pour les pros
Par Olivier GOSSELIN le lundi 24 septembre 2007, 11:11 - Visibilité internet - Lien permanent
Disons que nous concevons une application web de gestion de porte-feuille boursier et que nous avons besoin des cours de clôture à J-1 de l'indice CAC40 pour les retraiter ensuite suivant nos besoins. Comment allons-vous nous y prendre?
Le site d'Euronext présente quelque chose de bien intéressant: une table HTML avec les 40 valeurs de l'indice. Un service de téléchargement au format cvs ou excel est proposé mais ce n'est pas vraiment le flux de données le plus simple à traiter par notre application. Une autre solution peut consister à parser nous même le flux html pour extraire les informations pertinentes mais là encore le travail n'est pas simple. Alors?
L'idée est de dapper le contenu du tableau grâce au service web proposé par Dapper. La simplicité de l'opération est tout simplement fantastique puisqu'il nous faut 10mn maximum pour créer un générateur de flux xml adapté à nos attentes et le rendre disponible en ligne ici. Dans le fichier de sortie, chaque action est présente sous la forme:
<action groupName="action" type="group">
<libelle fieldName="libelle" href="http://www.euronext.com/trader/summarizedmarket/summarizedmarketRoot.jsp?lan=FR&selectedMep=1&idInstrument=18775&isinCode=FR0000120073" originalElement="a" type="field">AIR LIQUIDE</libelle>
<cloture fieldName="cloture" originalElement="td" type="field">94.57</cloture>
<volume fieldName="volume" originalElement="td" type="field">138,637</volume>
<varEnPourCentJsurJmoins1 fieldName="varEnPourCentJsurJmoins1" originalElement="td" type="field">-0.32</varEnPourCentJsurJmoins1>
</action>
nous pouvons également choisir le format de sortie json si nous préférons.
Tous les sites web deviennent ainsi potentiellement des web services grâce à ce web scraping.
Commentaires
rien a dire toujours le meilleur du web!