Leyendo HTML mal formado

Jue Mar 13 19:53:00 CET 2008

2008/3/5, Luis Miguel Morillas <morillas en gmail.com>:
> 2008/3/3, jordi torrents <jtorrents en milnou.net>:
>
> > Hola,
>  >
>  >  2008/3/3, Francisco Perez:
>  >
>  > > Existe alguna manera de leer (parsear) HTML mal formado?
>  >
>  >
>  > A mi me dió buenos resultados beautifulsoup [1]. Tiene buena
>  >  documentación y trabaja con xml y html. Está en los repositorios de
>  >  Debian, la descripción reza:
>  >
>  >  python-beautifulsoup - error-tolerant HTML parser for Python
>  >
>  >  Salut
>  >
>  >  [1] http://www.crummy.com/software/BeautifulSoup/
>  >
>
>
> En este hilo recuerdo que se presentaron varias soluciones [1]
>
>  Suerte
>
>  -- lm
>
>
>  [1] http://lists.fourthought.com/pipermail/4suite/2008-January/008373.html
>

Acabamos de actualizar una receta que usa tagsoup-1.2.jar dentro de un
programa python:

http://wiki.xml3k.org/Amara/Recipes/With_Java_tagsoup

Saludos,

--

Luis Miguel
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes