Parseador HTML en Python

Cesar Ortiz cesar.ortiz en gmail.com
Mar Jul 4 10:20:30 CEST 2006


Una opción que yo he usado es tidy + HTMLParser. Pero es mas recomendable
como ya te han indicado un parser menos estricto.
Beautiful Soup no lo he probado, pero si libxml2. Libxml2 (está escrito en
C) en su propia distribución tiene bindings para python:
http://xmlsoft.org/python.html.
Otro binding para libxml2 es: http://codespeak.net/lxml/.

-- César

On 7/4/06, Hernan Martinez Foffani <hernan en orgmf.com.ar> wrote:
>
> > Me llamo Juan Pablo y es la primera vez que escribo en la lista. Tengo
> > que hacer un parser en Python que añada o borre marcadores de Firefox.
> > Estos marcadores vienen dados en un fichero bookmarks.html.
> >
> > Mi idea era recorrer este html y guardarlo en una estructura de arbol
> > para comparar con los enlaces que quiero añadir/borrar
> >
> > He encontrado un modulo llamado HTMLParser pero me da fallos porque el
> > fichero bookmarks.html no esta vien formado (algunas etiquetas como DT
> > se abren pero no se cierran).
>
> El HTMLParser es estricto.  ¿Has probado Beautiful Soup?
> http://www.crummy.com/software/BeautifulSoup/
>
> -H.
>
> _______________________________________________
> Python-es mailing list
> Python-es en aditel.org
> http://listas.aditel.org/listinfo/python-es
>
>
>


-- 
Página personal: http://www.cesar.ortiz.name
Weblog: http://cesarob.blogspot.com/




Más información sobre la lista de distribución Python-es