Georeferencias: almacenamiento

Sebastian Lezica slezica en fibertel.com.ar
Vie Mar 3 22:08:38 CET 2006


Estimado Francesc,
    Acabo de terminar de migrar los datos y convertir las funciones para 
utilizar PyTables (en esta etapa sobre PC), y realmente es fabuloso.

    Para la búsqueda seguí la documentación, utilizando dos indices y 
filtrando con un 'where(max <  columna <  min)' y luego iterando la 
lista resultante comparando contra el segundo valor.

    Estoy en 0.2 segundos, consumiendo el proceso python solo 14Mb... 
realmente asombroso!. Ahora me estoy poniendo a compilar las 
dependencias sobre la otra plataforma, siguiendo tu recomendación de la 
versión de HDF5 1.7.

    Solo he tenido algún problema en utilizar el metodo where anidado 
dentro de otro, pero no revise bien los ejemplos aún así que nada, debo 
estar haciendo algo mal. Lo dejo para cuando tenga compilada la versión 
que recomendaste así me queda algo en que jugar :).

    Te agradezco muchisimo por todos los datos que me has dado!,

Sebastián Lezica

Francesc Altet wrote:
> A Divendres 03 Març 2006 01:56, Sebastian Lezica va escriure:
>   
>> Buenisimo Francesc!,
>>     Daba por hecho que PyTables tenia buen rendimiento requeriendo mucha
>> ram, pero el intento de probarlo hace un tiempo lo dejé pendiente...
>> ahora mismo voy a ver si puedo compilar las dependencias sobre mips (el
>> objetivo es ejecutarlo dentro de un cofre de disco duro wireless
>> -parecido a los routers Linksys wrt54g- corriendo Linux).
>>     Gracias por la recomendación, ya me pongo a probarlo!,
>>     
>
> Sobre un processdor MIPS precisamente fue el primer stress test que
> corrí hace un par de años. La prueba fue crear una base de datos con
> 120000 tablas y un total de 1.12 TB de datos (si estás interesado los
> detalles, mira [1]), así que no creo que tengas problemas para
> compilar PyTables (y HDF5) sobre tu plataforma. Aquella prueba fue
> usando IRIX, pero con Linux sobre MIPS supongo que funcionará
> igualmente bien.
>
> Otra cosa, si el uso de memoria es crítico para tí, te recomeniendo
> que uses las versiones de desarrollo de HDF5 1.7.x (la puedes obtener
> en [2]) ya que tienen un nuevo algoritmo de manejo de los datos de
> cache mucho más elaborado y consume *bastante* menos memoria que la
> versión de producción (1.6.5). Para hacerte un idea de cuanto puede
> suponer el ahorro por el uso de HDF5 1.7.x, mira [3], donde se hace un
> estudio de los consumos de memoria (y de CPU) de las últimas
> versiones de PyTables con respecto a estas versions de HDF5 en [3].
>
> Por último, el algoritmo de cache en HDF5 1.7.x permite una
> personalización del tamaño de la cache. Consúltame si quieres
> reducir al máximo el consumo de memoria para tu plataforma. Me
> interesa mucho saber hasta dónde se puede llegar en este respecto.
>
> [1] http://pytables.sourceforge.net/html/StressTests.html
> [2] ftp://ftp.ncsa.uiuc.edu/HDF/pub/outgoing/hdf5/snapshots
> [3] http://www.carabos.com/downloads/resources/NewObjectTreeCache.pdf
>
> Suerte!
>
>   




Más información sobre la lista de distribución Python-es