[Python-es] obtener path completo de los recursos de una página web

Milton Galo Patricio Inostroza Aguilera minoztro en gmail.com
Dom Ene 30 02:18:33 CET 2011


Hola:

He estado utilizando urllib2 para obtener el contenido de páginas web.
 Hasta ahora todo sin problemas :-).  Me di cuenta que el src de las
imagenes, css y javascript de algunos sitios está con ruta relativa
por lo que cuando obtengo la página pierdo todo eso (tengo la página
en un solo archivo).  He buscado en la librería como poder cambiar los
path relativos a absolutos y no he podido encontrar una solución.

Utilizando wget todo va de maravillas con este problema.  Utilizo la
opción --convert-links y convierte los path relativos a absolutos sin
problemas :-).

Es posible hacer esto con urllib2?...he leído que no es bueno utilizar
wget (o cualquier otro programa externo) debido a que congela el
interprete hasta que este comando termine....cuales son las
desventajas de cambiarme a wget y dejar urllib2?...Sí!...sólo necesito
descargar el contenido de la página (get).

Saludos,

-- 
Milton


Más información sobre la lista de distribución Python-es