rrecuperar información de archivos html

Chema Cortes py en ch3m4.org
Mar Oct 20 03:09:19 CEST 2009


El Lunes, 19 de Octubre de 2009 21:31:53 Antonio Reyes escribió:

> tengo el siguiente problema que me gustaría me ayudaran a resolver.
> tengo varios archivos html con comentarios etiquetados de acuerdo con un
> score, por ejemplo 1 y 2:

Lo primero sería que dijeras si has probado y hasta dónde has llegado.

Estás pidiendo un "parser", y por las pintas nada sencillo por estar mezclando 
código html con javascript.

Tienes dos alternativas: o usar expresiones regulares o emplear algún parser 
para html/xml como Amara o htmllib.

En cualquiera de los dos casos te recomiendo una aproximación de arriba a 
abajo, en el que vas pasando varias veces el parser para ir limpiando el 
resultado hasta dar con la información que necesitas.


> 1) <span id="comment_score_16482713" class="score"> (<a href="#"
> onclick="getModalPrefs('modcommentlog', 'Moderation Comment Log',
> 16482713); return false">Score:1</a>, Funny)</span></h4>
> 
> 2 )<span id="comment_score_16482755" class="score"> (<a href="#"
> onclick="getModalPrefs('modcommentlog', 'Moderation Comment Log',
> 16482755); return false">Score:5</a>, Insightful)</span></h4>


Si el Score siempre tiene este formato, lo más sencillo, una vez obtenido el 
bloque span, sería usar expresiones regulares:

import re
t=re.compile("Score:(?P<Score>\d)\</a\>,\s*(?P<Label>\w+)")

res=t.search(span_node)
print res.groupdict()

------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 190 bytes
Desc: This is a digitally signed message part.
URL: <http://mail.python.org/pipermail/python-es/attachments/20091020/9bb8969d/attachment.pgp>
------------ próxima parte ------------
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes


Más información sobre la lista de distribución Python-es