recuperar contenido html

Luis Miguel Morillas morillas en gmail.com
Mie Oct 21 07:28:39 CEST 2009


El día 21 de octubre de 2009 04:23, Chema Cortes <py en ch3m4.org> escribió:
> El Martes, 20 de Octubre de 2009 22:43:58 Luis Miguel Morillas escribió:
>
>
>> La solución más rápida es la siguiente. Usa amara2 (easy_install amara)
>>
>> from amara.bindery import html
>>
>> doc =
>>  html.parse(r'http://nlel.areyesp77.operaunite.com/file_sharing/content/art
>> icle_1.html') comentarios = doc.xml_select(u"//span[@class='score']")
>> for c in comentarios:
>>     texto_comentario = unicode(c)
>>     if 'Funny' in texto_comentario or 'Insightful' in texto_comentario:
>>         print texto_comentario  # haz aquí lo que consideres con el
>>  comentario.
>>
>> Es esto lo que necesitas?
>
> Por lo que se ve, hay que relacionar la puntuación con los comentarios. He
> probado un poco y lo he conseguido con el '..' de XPath para subir un nivel:
>
>
> from amara.bindery import html
>
> doc=html.parse(r'http://nlel.areyesp77.operaunite.com/file_sharing/content/article_1.html')
> comentarios=doc.xml_select(u"//div[@class='commentBody']/..")
> for c in comentarios:
>    score=unicode(c.xml_select(u"//span[@class='score']")[0]))
>    if u'Funny' in score or u'Insightful' in score:
>        comment=unicode(c.div[1])
>        print score, comment
>
>

Claro, Chema. Yo sólo estaba seleccionando los scores, que no sirven para nada.

>
> Por cierto, Luis Miguel, el ftp de Uche no estaba operativo. Me he tenido que
> instalar Amara a través del repositorio mercurial.
>
Sí, Uche ha tenido problemas con algunos servidores. Actualmente los
repositorios oficiales son http://bitbucket.org/uche/amara/ y
http://bitbucket.org/uche/akara/ .  Y los ftps están en
ftp://hg.akara.info/pub/nightlies/ La documentación está en
http://wiki.xml3k.org/Amara2 y la gestión del proyecto pasa por
http://trac.xml3k.org  Estoy un poco liado y tengo que reestructurar
bastante información :-P

Estamos preparando también instaladores con y sin virtualenv, pero
buildout nos ha defraudado y estamos retomando otras posibilidades.

-- lm

> _______________________________________________
> Lista de correo Python-es
> http://listas.aditel.org/listinfo/python-es
> FAQ: http://listas.aditel.org/faqpyes
>
_______________________________________________
Lista de correo Python-es 
http://listas.aditel.org/listinfo/python-es
FAQ: http://listas.aditel.org/faqpyes





Más información sobre la lista de distribución Python-es