Parser un fichier RSS/Atom en Python

Python Ajouter un commentaire

Sûrement vous avez déjà eu besoin de parser un document xml avec python , cela va être facile avec l’api DOM ou SAX fournis comme librairies standards avec python ,
mais si vous voulez parser un fichier RSS/Atom c’est plus la peine de passer par DOM ou SAX , il existe un module python qui est fait pour ça et qui facilite bien les choses
le module s’appel feedparser écrit par mark pilgrim l’auteur de ‘dive into python’ lui même , ce module utilise l’API SAX mais si elle n’est pas disponible chez vous , il va parcourir le flux en utilisant des expressions régulières donc ça marche toujours.

Feedparser est très facile à utiliser voici un exemple d’utilisation basique :

>>> from feedparser import parse
>>> myfeed = parse(”http://codemark.tuxfamily.org/feed”)
Pour avoir des informations relatives au feed lui même
>>> print myfeed[’feed’][’title’]
CodeMark
>>> myfeed[’feed’][’title’] #le résultat est toujours en unicode
u’CodeMark’
>>> myfeed.feed.title
u’CodeMark’
>>> myfeed.feed.link
u’http://codemark.tuxfamily.org’

Et on peut facilement parcourir tout les entrés existants

>>> for item in myfeed[’entries’]:
print item.title

Un autre Module Netvibes : TinyURL !
SOAP en Python
Librairie de validation javascript < 1Ko
Présentation de CookieCrumbler sous Zope

le module est disponible en téléchargement ici , avec une documentation complète

Partager cet article : Ces icônes sont des liens vers des sites de partage de signet sociaux où les lecteurs peuvent partager et découvrir de nouveaux liens.
  • Technorati
  • Digg
  • del.icio.us
  • blogmarks
  • Scoopeo
  • BlinkList
  • Furl
  • Reddit
  • Ma.gnolia
  • Slashdot
  • YahooMyWeb
  • Bumpzee
  • Spurl
  • Netscape
  • Book.mark.hu

Laisser un Commentaire

Anti-Spam Image