[Python-es] Extraer datos de código html usando regex

Kiko kikocorreoso en gmail.com
Mie Jul 30 09:25:59 CEST 2014


Hola a todos.

Estoy intentando extraer información de imágenes de un código html (
http://en.wikipedia.org/wiki/Data_URI_scheme)

El formato sería el siguiente:

<img src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
AAALEgAACxIB0t1+/AAA" />

Me interesa extraer la extensión de la imagen (png en el anterior
ejemplo) y los datos que vienen después de 'base64,' hasta el cierre
de comillas '"', es decir,
'iVBORw0KGgoAAAANSUhEUgAAAXcAAAEACAYAAABI5zaHAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz
AAALEgAACxIB0t1+/AAA'.

Tengo un ejemplo aquí,
https://gist.github.com/anonymous/75ab61f586c19e767cf0, pero estoy
seguro de que mi regex me va a fallar en cuanto encuentre alguna cosa
más rara.

¿Alguien me podría indicar si el regex vale o si debería modificarlo
para que no me dé falsos positivos o acepte falsos negativos?

Muchas gracias por adelantado.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <http://mail.python.org/pipermail/python-es/attachments/20140730/84a15b55/attachment.html>


Más información sobre la lista de distribución Python-es