Problema con htmlParser y expresiones regulares
Joan Carles Jimenez
jjcarles en terra.es
Mar Mayo 29 17:45:59 CEST 2007
Si que es pública. Es de dailymotion. En concreto és esta
http://www.dailymotion.com/relevance/search/alejandro%2Bsanz/1
pero ya digo que el código siguiente no funciona:
import HTMLParser
import urllib
import re
class linkParser(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.links = []
self.save_link = 0
def handle_starttag(self, tag, attrs):
if tag == 'a':
atr = dict(attrs)['class']
if atr == 'video_title':
atr = dict(attrs)['href']
self.links.append(atr)
def handle_endtag(self, tag):
pass
htmlSource =
urllib.urlopen('http://www.dailymotion.com/relevance/search/alejandro%2Bsanz/1').read()
htmlSource = re.sub('<script.*</script>', '', htmlSource)
htmlSource = re.sub('<noscript.*</noscript>', '', htmlSource)
p = linkParser()
p.feed(htmlSource)
p.close()
On Tuesday 29 May 2007 17:16, Jordi Funollet wrote:
> Joan Carles Jimenez dixit:
> > Hola Jordi
> >
> > Me he estado mirando el link que me has pasado al igual que me he mirado
> > el htmltidy, pero he sido incapaz de extraer los links que me interesan.
>
> ¿La página que intentas parsear es pública? Es decir, ¿nos puedes pasar el
> linkk para que "juguemos"?
--
Joan Carles Jimenez
jjcarles en terra.es
------------ próxima parte ------------
_______________________________________________
Python-es mailing list
Python-es en aditel.org
http://listas.aditel.org/listinfo/python-es
Más información sobre la lista de distribución Python-es