rrecuperar información de archivos html
Chema Cortes
py en ch3m4.org
Mar Oct 20 03:09:19 CEST 2009
El Lunes, 19 de Octubre de 2009 21:31:53 Antonio Reyes escribió:
> tengo el siguiente problema que me gustaría me ayudaran a resolver.
> tengo varios archivos html con comentarios etiquetados de acuerdo con un
> score, por ejemplo 1 y 2:
Lo primero sería que dijeras si has probado y hasta dónde has llegado.
Estás pidiendo un "parser", y por las pintas nada sencillo por estar mezclando
código html con javascript.
Tienes dos alternativas: o usar expresiones regulares o emplear algún parser
para html/xml como Amara o htmllib.
En cualquiera de los dos casos te recomiendo una aproximación de arriba a
abajo, en el que vas pasando varias veces el parser para ir limpiando el
resultado hasta dar con la información que necesitas.
> 1) <span id="comment_score_16482713" class="score"> (<a href="#"
> onclick="getModalPrefs('modcommentlog', 'Moderation Comment Log',
> 16482713); return false">Score:1</a>, Funny)</span></h4>
>
> 2 )<span id="comment_score_16482755" class="score"> (<a href="#"
> onclick="getModalPrefs('modcommentlog', 'Moderation Comment Log',
> 16482755); return false">Score:5</a>, Insightful)</span></h4>
Si el Score siempre tiene este formato, lo más sencillo, una vez obtenido el
bloque span, sería usar expresiones regulares:
import re
t=re.compile("Score:(?P<Score>\d)\</a\>,\s*(?P<Label>\w+)")
res=t.search(span_node)
print res.groupdict()
------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 190 bytes
Desc: This is a digitally signed message part.
URL: <http://mail.python.org/pipermail/python-es/attachments/20091020/9bb8969d/attachment.pgp>
------------ próxima parte ------------
_______________________________________________
Lista de correo Python-es
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes
Más información sobre la lista de distribución Python-es