Que libreria para parsear HTMl me recomendais?

Marte Fabián Baquerizo Sánchez martefabian en tredasis.com
Lun Feb 23 19:54:46 CET 2009


Yo te recomiendo BeautifulSoup para tratar con documentos mal formados,
es increíble lo bien que los deja para poder tratarlos posteriormente.

Saludos.



El lun, 23-02-2009 a las 19:45 +0100, joe di castro escribió:
> Hola, 
> 
> Para extraer unos datos que necesito para alimentar un programa,
> necesito parsear las tablas de una pagina web (que de entrada no tiene
> un código HTMl demasiado limpio, ya que está generada con el MS Visual
> InterDev) y es la primera vez que me enfrento a esta tarea... el
> desconcierto que tengo ahora mismo es la amplia variedad de parsers HTML
> que me he encontrado y no demasiado tiempo para analizarlos todos y
> decantarme por el más apropiado... en base a vuestra experiencia cual
> creéis que seria el más adecuado para empezar a trabajar con él?
> 
> Así de entrada he encontrado unas cuantas librerías:
> 
> BeautifulSoup, html5lib, lxml, ElementTree, HYMLParser, Genshi,
> libxml2... y alguna que se me habrá escapado
> 
> Lo que me interesa básicamente es conocer cual seria vuestra elección
> para atacar el problema...
> 
> Saludos,
> 
> Joe
> 
> _______________________________________________
> Lista de correo Python-es 
> http://listas.aditel.org/listinfo/python-es
> FAQ: http://listas.aditel.org/faqpyes

------------ próxima parte ------------
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes


Más información sobre la lista de distribución Python-es