[Python-es] Extraer datos de código html usando regex

Mie Jul 30 10:33:13 CEST 2014

 No hace falta que lo parsees a mano utiliza la libreria base64[1]


[1]http://www.programcreek.com/2013/09/convert-image-to-string-in-python/

El día 30 de julio de 2014, 9:25, Kiko <kikocorreoso en gmail.com> escribió:
> Hola a todos.
>
> Estoy intentando extraer información de imágenes de un código html
> (http://en.wikipedia.org/wiki/Data_URI_scheme)
>
> El formato sería el siguiente:
>
> <img
> src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
> AAALEgAACxIB0t1+/AAA" />
>
>
> Me interesa extraer la extensión de la imagen (png en el anterior ejemplo) y
> los datos que vienen después de 'base64,' hasta el cierre de comillas '"',
> es decir,
> 'iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
> AAALEgAACxIB0t1+/AAA'.
>
>
> Tengo un ejemplo aquí,
> https://gist.github.com/anonymous/75ab61f586c19e767cf0, pero estoy seguro de
> que mi regex me va a fallar en cuanto encuentre alguna cosa más rara.
>
> ¿Alguien me podría indicar si el regex vale o si debería modificarlo para
> que no me dé falsos positivos o acepte falsos negativos?
>
> Muchas gracias por adelantado.
>
>
> _______________________________________________
> Python-es mailing list
> Python-es en python.org
> https://mail.python.org/mailman/listinfo/python-es
> FAQ: http://python-es-faq.wikidot.com/
>