existe wget en python???
Jose Luis Dominguez NONLILLY
DOMINGUEZ_JOSE_LUIS_NONLILLY en LILLY.COM
Mar Nov 21 15:36:07 CET 2006
Hola, he buscado en el manual de python, y he encontrado el siguiente
ejemplo
import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')
lo he probado con google
f=opener.open('http://www.google.es/seach?q=LO QUE BUSCO')
t=f.read
f.close()
print t
y funciona, ahora solo te quedaría implementar un parser,
en [1] tienes un ejemplo muy bueno
Espero haberte sido de ayuda.
Un saludo
Jose
[1]
http://almacen.gulic.org/diveintopython-5.4-es/html_processing/extracting_data.html
python-es-bounces en aditel.org wrote on 21/11/2006 15:02:12:
>
> Justo esto es lo que necesito hacer(bajarme webs que contnegan una
> palabra determinada, si no puede ser todo a la vez primero me bajo la
> web de la busqueda saco todos los link que tiene parseandola y luego
> me bajo las web que realmente me interesan) pero como ya me lo decia
> jose luis, google me da problemas que puedo hacer para solucionarlos.
>
> gracias
>
> datos={"hl":"es","q":"LO QUE QUIERES BUSCAR"}
> params = urllib.urlencode(datos)
> pagina=urlopen(" [1]http://www.google.es/search",params)
> texto=pagina.read()
> pagina.close()
>
> entre otro codigo html me da este error:
>
> Your client does not have permission to get URL
> <code>/search?hl=es&q=recetas+de+cocina</code> from this server.
> (Client IP address: 83.32.158.164)<br><br>
>
> Please see Google's Terms of Service posted at
> http://www.google.com/terms_of_service.html
>
> ______________________________________________________________
>
> From: Jose Luis Dominguez NONLILLY
> <DOMINGUEZ_JOSE_LUIS_NONLILLY en LILLY.COM>
> Reply-To: La lista de python en castellano <python-es en aditel.org>
> To: La lista de python en castellano <python-es en aditel.org>
> Subject: Re: [Python-es] existe wget en python???
> Date: Mon, 20 Nov 2006 17:22:26 +0100
> >Vas a tener problemas con el google.
> >Ya que detecta que python no es un navegador válido
> >
> >Aun así la idea general es utilizar la librería urllib para
> obtener la
> >página que quieres
> >
> >Para hacer la búsqueda puedes hacer dos cosas
> >codificar tu cadena como http://www.google.es/search?hl=es&q=LO
> QUE QUIERO
> >BUSCAR
> >
> >o utilizar urllib.urlencode()
> >
> > datos={"hl":"es","q":"LO QUE QUIERES BUSCAR"}
> > params = urllib.urlencode(datos)
> > pagina=urlopen(" http://www.google.es/search",params)
> > texto=pagina.read()
> > pagina.close()
> >
> >Ahora en texto, (si google no diese problemas) tendrías el código
> de la
> >web que buscas.
> >
> >Ahora solo tendrías que analizarla, para ello te creas una clase
> derivada
> >de SGMLParser o de httpParser (este segundo no estoy seguro de que
> se
> >llame así), que la encuentras en la librería sgmllib
> >
> > from sgmllib import SGMLParser
> >y redefines el método handle_starttag
> >
> >Hay varios ejemplos en internet. Me parece que httpParser es más
> fácil de
> >manejar, échale un ojo.
> >
> >
> >Aunque yo probaría con la librería que te comentaron antes, ya que
> Google
> >te va a dar problemas
> >
> >Un saludo
> >
> >python-es-bounces en aditel.org wrote on 20/11/2006 17:02:42:
> >
> > >
> > > ok carlos.
> > >
> > > me lo miro. pero me sabrias decir como llegar hasta esa web
> de google
> > > donde estaran todas los links que yo me quiero bajar, he
> probado con:
> > >
> > > file=urlib.urlopen('[1]http://www.google.com. . .' )
> > > pero no se como seguir para que me baje todas las webs que
> tengan
> > > alguna receta de cocina.
> > >
> > > GRACIAS
> >
> > __________________________________________________________
> ____
> > >
> > > From: "Carlos Zuniga" <carlos.zun en gmail.com>
> > > Reply-To: La lista de python en castellano
> <python-es en aditel.org>
> > > To: "La lista de python en castellano"
> <python-es en aditel.org>
> > > Subject: Re: [Python-es] existe wget en python???
> > > Date: Mon, 20 Nov 2006 10:50:59 -0500
> > > >On 11/20/06, joana salgado gomez
> <joana_mendaro en hotmail.com>
> > > wrote:
> > > >>
> > > >> muchas gracias arrase por la informacion. he estado
> > > probando y
> > > >> efectivamente se pueden bajr webs siempre y cuando
> le´pases
> > > la
> > > >> direccion exacta que te quieres bajar pero sabes si
> se pueden
> > > >>bajar
> > > >> todas las web que contengan una palabra
> determinada???? es
> > > >>decir hacer
> > > >> busquedas desde python, en linux seria algo asi:
> > > >>
> > > >> lynx --dump
> > > 'http://www.google.com/search?q=recetas+de+cocina'
> > > >>
> > > >>
> > > >> y se bajaria todas las web que tuvieran recetas de
> cocina en
> > > su
> > > >> contenido.
> > > >>
> > > >>
> > > >> gracias
> > > >
> > > >
> > > >Si no entiendo mal, lo que quieres es que baje cada link
> que sale
> > > en
> > > >google no?. Para eso lo que tienes que hacer es analizar
> la pagina
> > > >que
> > > >bajaste y bajar cada link por separado.
> > > >
> > > >Prueba BeautifulSoup para analizarla
> > > >http://www.crummy.com/software/BeautifulSoup/
> > > >
> > > >Saludos
> > > >--
> > > >(!c) 2006 - ã«ã«ãã¹
> > > >Linux Registered User # 386081
> > > >A menudo unas pocas horas de "Prueba y error" podrán
> ahorrarte
> > > >minutos
> > > >de leer manuales.
> > >
> > > >_______________________________________________
> > > >Python-es mailing list
> > > >Python-es en aditel.org
> > > >http://listas.aditel.org/listinfo/python-es
> >
> > ____________________________________________________________
> _____
> > >
> > > Excursiones y escapadas a sitios mágicos. [2]No te lo
> pierdas en MSN
> > > Entretenimiento
> > >
> > > References
> > >
> > > 1. http://www.google.com/
> > > 2. http://g.msn.com/8HMAESES/2734??PS=47575
> > > _______________________________________________
> > > Python-es mailing list
> > > Python-es en aditel.org
> > > http://listas.aditel.org/listinfo/python-es
> >_______________________________________________
> >Python-es mailing list
> >Python-es en aditel.org
> >http://listas.aditel.org/listinfo/python-es
> _________________________________________________________________
>
> Busca a la vez en Internet, en directorios, en enciclopedias...
> [2]Atrévete con el nuevo MSN Search
>
> References
>
> 1. javascript:ol('http://www.google.es/search');
> 2. http://g.msn.com/8HMAESES/2740??PS=47575
> _______________________________________________
> Python-es mailing list
> Python-es en aditel.org
> http://listas.aditel.org/listinfo/python-es
Más información sobre la lista de distribución Python-es