[Python-es] Extraer datos de código html usando regex

Kiko kikocorreoso en gmail.com
Mie Jul 30 10:58:04 CEST 2014


El 30 de julio de 2014, 10:33, Eduard Diaz <eventgrafic en gmail.com> escribió:

>  No hace falta que lo parsees a mano utiliza la libreria base64[1]
>
>
Creo que no lo he explicado correctamente. El problema de transformar la
información está resuelto. Mi problema es como obtener la información para
poder transformarla.


>
> [1]http://www.programcreek.com/2013/09/convert-image-to-string-in-python/
>
> El día 30 de julio de 2014, 9:25, Kiko <kikocorreoso en gmail.com> escribió:
> > Hola a todos.
> >
> > Estoy intentando extraer información de imágenes de un código html
> > (http://en.wikipedia.org/wiki/Data_URI_scheme)
> >
> > El formato sería el siguiente:
> >
> > <img
> >
> src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
> > AAALEgAACxIB0t1+/AAA" />
> >
> >
> > Me interesa extraer la extensión de la imagen (png en el anterior
> ejemplo) y
> > los datos que vienen después de 'base64,' hasta el cierre de comillas
> '"',
> > es decir,
> >
> 'iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
> > AAALEgAACxIB0t1+/AAA'.
> >
> >
> > Tengo un ejemplo aquí,
> > https://gist.github.com/anonymous/75ab61f586c19e767cf0, pero estoy
> seguro de
> > que mi regex me va a fallar en cuanto encuentre alguna cosa más rara.
> >
> > ¿Alguien me podría indicar si el regex vale o si debería modificarlo para
> > que no me dé falsos positivos o acepte falsos negativos?
> >
> > Muchas gracias por adelantado.
> >
> >
> > _______________________________________________
> > Python-es mailing list
> > Python-es en python.org
> > https://mail.python.org/mailman/listinfo/python-es
> > FAQ: http://python-es-faq.wikidot.com/
> >
> _______________________________________________
> Python-es mailing list
> Python-es en python.org
> https://mail.python.org/mailman/listinfo/python-es
> FAQ: http://python-es-faq.wikidot.com/
>
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20140730/77b8b96b/attachment.html>


Más información sobre la lista de distribución Python-es