[Python-es] Reconocer números de teléfono en imagenes png

Hernán Foffani hfoffani en gmail.com
Lun Mayo 5 17:13:37 CEST 2014


> Quiero extraer números de teléfono de alguna página, por ejemplo [1]
> Esos números se muestran en la web como imágenes png. Alguna
> recomendación"barata" en computación?
> 
> 
> [1] http://www.fotocasa.es/Handlers/PhoneImageText.ashx?Text=0365EF51770289FD3C055FEADA3C9654
> 

A bote pronto te sugeriría un web scraper mas un OCR.
Con el scraper obtienes solo las imágenes que deberían contener los teléfonos
y luego el OCR te lo pasa a texto.

Scrapy va bien para eso. Está escrito en Python y es extensible.
Bibliotecas de OCR para Python hay unas cuantas.
No te podría recomendar ninguna, en particular, porque en mi experiencia la performance y el error dependen muchísimo de qué están reconociendo. Es cuestión de probar, empieza por las que veas que tienen las API mas sencillas.

Saludos,
Hernán.



Más información sobre la lista de distribución Python-es