Data Mining con Orange
Chema Cortes
py en ls-l.org
Jue Mar 3 12:33:49 CET 2005
Francesc Altet escribió:
> No tengo demasiada experiencia a nivel de usuario en data-mining
> propiamente dicho, pero me da en la nariz que una alternativa puede
> ser usar SciPy [0] para hacer el tratamiento de datos, sobretodo si
> son éstos son multidimensionales. Los ficheros que puede importar son
> tipo MatLab, los típicos separados por tabulador o bien binarios
> genéricos (Numeric/numarray). Tiene una fantástica colección de
> módulos entre los que no te costará encontrar los que te hagan falta.
> Si tus datos no te caben en memoria, puedes usar cualquier base de
> datos. Si además, necesitas tratar conjuntos multidimensionales,
> PyTables [3] te permite trabajar con ellos y clasificarlos de manera
> jerárquica (lo siento, no puedo dejar pasar la oportunidad :).
Yo tampoco estoy muy ducho en estos temas, aunque estoy aprendiendo a
marchas forzadas. No había pensando en la combinación de SciPy y
Pytables para los datos ya que mis sistemas usarán grandes SGDBs
(generalmente oracle). pytables resultaría excelente para montar
sistemas OLAP (Online Analytical Processing), y por ahí tiene una buena
aplicación de futuro.
En cuanto a "Data Mining", se suelen mezclar muchas cosas, pero su
verdadero significado es el de procesar grandes, gigantescas cantidades
de datos para descubrir nueva información que estaba, en un principio,
oculta. En la literatura que estoy manejando se afirma que un sistema
OLAP no resulta muy apropiado para Data Mining ¿?, por lo que estaba
investigando cómo hacen su trabajo los sistemas de "Data Mining" que
existen en el mercado, como el que lleva oracle. Y es aquí donde me
encuentro en estos momentos.
Del proyecto Orange me había gustado su diseñador visual de modelos y su
capacidad de aprendizaje para validar y predecir su evolución (además de
ser scriptable con python ;-))
> Otra solución que deberias contemplar seriamente es R [6]
Aquí el tema es algo más peliagudo. Los temas estadísticos de mi trabajo
se trabajan con SPSS (software privativo), y no me veo capaz de romper
con esa hegemonía. Sería distinto si hubiera empezado desde cero. De
todos modos, con paciencia, mi intención es dejar preparado el nuevo
sistema que estoy montado para que se puedean ir incorporando nuevas
herramientas libres en su explotación.
Más información sobre la lista de distribución Python-es