Problema con htmlParser y expresiones regulares

Joan Carles Jimenez jjcarles en terra.es
Mar Mayo 29 17:45:59 CEST 2007


Si que es pública. Es de dailymotion. En concreto és esta 
http://www.dailymotion.com/relevance/search/alejandro%2Bsanz/1

pero ya digo que el código siguiente no funciona:

import HTMLParser
import urllib
import re

class linkParser(HTMLParser.HTMLParser):

        def __init__(self):
                HTMLParser.HTMLParser.__init__(self)
                self.links = []
                self.save_link = 0
        
        def handle_starttag(self, tag, attrs):
                if tag == 'a':
                        atr = dict(attrs)['class']
                        if atr == 'video_title':
                                atr = dict(attrs)['href']
                                self.links.append(atr)
        
        def handle_endtag(self, tag):
                pass

htmlSource = 
urllib.urlopen('http://www.dailymotion.com/relevance/search/alejandro%2Bsanz/1').read()
htmlSource = re.sub('<script.*</script>', '', htmlSource)
htmlSource = re.sub('<noscript.*</noscript>', '', htmlSource)

p = linkParser()
p.feed(htmlSource)
p.close()

On Tuesday 29 May 2007 17:16, Jordi Funollet wrote:
> Joan Carles Jimenez dixit:
> > Hola Jordi
> >
> > 	Me he estado mirando el link que me has pasado al igual que me he mirado
> > el htmltidy, pero he sido incapaz de extraer los links que me interesan.
>
> ¿La página que intentas parsear es pública? Es decir, ¿nos puedes pasar el
> linkk para que "juguemos"?

-- 
Joan Carles Jimenez
jjcarles en terra.es
------------ próxima parte ------------
_______________________________________________
Python-es mailing list
Python-es en aditel.org
http://listas.aditel.org/listinfo/python-es


Más información sobre la lista de distribución Python-es