Leyendo HTML mal formado

Chema Cortes pych3m4 en gmail.com
Lun Mar 3 19:27:28 CET 2008


El 3/03/08, Francisco Perez <francofuji en gmail.com> escribió:
> Existe alguna manera de leer (parsear) HTML mal formado? Digamos que
>  los generados por MS Word? Hasta ahora use SAX y DOM y con ambos
>  obtuve un.."not well-formed (invalid token): line 6, column 17"

Sin estar bien formado, todos los parsers de xml fallarán. Inténtalo
con uno para html, como "htmllib".
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes





Más información sobre la lista de distribución Python-es