Data Mining con Orange

Chema Cortes py en ls-l.org
Jue Mar 3 12:33:49 CET 2005


Francesc Altet escribió:
> No tengo demasiada experiencia a nivel de usuario en data-mining
> propiamente dicho, pero me da en la nariz que una alternativa puede
> ser usar SciPy [0] para hacer el tratamiento de datos, sobretodo si
> son éstos son multidimensionales. Los ficheros que puede importar son
> tipo MatLab, los típicos separados por tabulador o bien binarios
> genéricos (Numeric/numarray). Tiene una fantástica colección de
> módulos entre los que no te costará encontrar los que te hagan falta.

> Si tus datos no te caben en memoria, puedes usar cualquier base de
> datos. Si además, necesitas tratar conjuntos multidimensionales,
> PyTables [3] te permite trabajar con ellos y clasificarlos de manera
> jerárquica (lo siento, no puedo dejar pasar la oportunidad :).

Yo tampoco estoy muy ducho en estos temas, aunque estoy aprendiendo a 
marchas forzadas. No había pensando en la combinación de SciPy y 
Pytables para los datos ya que mis sistemas usarán grandes SGDBs 
(generalmente oracle). pytables resultaría excelente para montar 
sistemas OLAP (Online Analytical Processing), y por ahí tiene una buena 
aplicación de futuro.

En cuanto a "Data Mining", se suelen mezclar muchas cosas, pero su 
verdadero significado es el de procesar grandes, gigantescas cantidades 
de datos para descubrir nueva información que estaba, en un principio, 
oculta. En la literatura que estoy manejando se afirma que un sistema 
OLAP no resulta muy apropiado para Data Mining ¿?, por lo que estaba 
investigando cómo hacen su trabajo los sistemas de "Data Mining" que 
existen en el mercado, como el que lleva oracle. Y es aquí donde me 
encuentro en estos momentos.

Del proyecto Orange me había gustado su diseñador visual de modelos y su 
capacidad de aprendizaje para validar y predecir su evolución (además de 
ser scriptable con python ;-))


> Otra solución que deberias contemplar seriamente es R [6]

Aquí el tema es algo más peliagudo. Los temas estadísticos de mi trabajo 
se trabajan con SPSS (software privativo), y no me veo capaz de romper 
con esa hegemonía. Sería distinto si hubiera empezado desde cero. De 
todos modos, con paciencia, mi intención es dejar preparado el nuevo 
sistema que estoy montado para que se puedean ir incorporando nuevas 
herramientas libres en su explotación.




Más información sobre la lista de distribución Python-es