Que libreria para parsear HTMl me recomendais?

lasizoillo lasizoillo en gmail.com
Lun Feb 23 23:06:58 CET 2009


2009/2/23 Hermann Kaser <hermann.kaser en gmail.com>:
> 2009/2/23 joe di castro <enxebree en gmail.com>:
>> Así de entrada he encontrado unas cuantas librerías:
>>
>> BeautifulSoup, html5lib, lxml, ElementTree, HYMLParser, Genshi,
>> libxml2... y alguna que se me habrá escapado
>>
>> Lo que me interesa básicamente es conocer cual seria vuestra elección
>> para atacar el problema...
>
> Yo siempre he usado BeautifulSoup. Aunque aquí tienes un artículo (en
> inglés) que compara las distintas librerias y recomienda lxml:
>
> http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/
>
> Sin embargo, según tengo entendido BeautifulSoup es el menos estricto
> en cuanto a HTML roto. La interfaz de lxml no la conozco, pero
> BeautifulSoup es muy simple de usar, así que depende de que lo que
> busques.

lxml y BeautifulSoup son dos muy buenas recomendaciones y para nada excluyentes.

http://codespeak.net/lxml/elementsoup.html

Y el que pensaba usar para la proxima que tenga que hacer screen scrapping:
http://pypi.python.org/pypi/pyquery

(Tambien usa lxml)

Un saludo:

Javi

>
> --
> Hermann Käser
> http://theragingche.com/
> http://semicir.cl/user/hermzz
>
> _______________________________________________
> Lista de correo Python-es
> http://listas.aditel.org/listinfo/python-es
> FAQ: http://listas.aditel.org/faqpyes
>
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes





Más información sobre la lista de distribución Python-es