You are on page 1of 22

MDULO 2: Sistemas de Soporte a la Decisin

Sistemas de soporte a la
Decisin (DSS). Software y
aplicaciones
Caractersticas que deben de incorporar el SW
Facilidad de uso
Escalabilidad
Interfaz grfico
Implementaciones propias de DSS ( por qu)

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
DSS
Clementine
WEKA
DSS propios

DSS y los datos.


KDD. Minera de datos

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
DSS
Clementine
WEKA

Different databases

DSS propios

Weka or Clementine

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
Clementine
WEKA
DSS propios

El entorno de trabajo del SPSS Clementine


El SPSS Clementine es una herramienta
integrada de minera de datos, inicialmente de
Integral
Solutions Limited (ISL) y ahora de SPSS
(www.spss.com).
La versin 10.1 incluye las siguientes
caractersticas:
Diversas fuentes de datos (ASCII, XLS, SPSS,
SAS u ODBC).
Interfaz visual basado en procesos/flujos de
datos (rutas).
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
Clementine
WEKA

Distintas herramientas de minera de datos:


Correlacin

DSS propios

Reglas de asociacin (GRI, a priori, Carma,


...), reglas de asociacin secuenciales
(secuencia), patrones secuenciales (regresin
lineal)
Agrupacin/segmentacin/conglomerado
(Kohonen, Two-step/bietpico y k-medias)
Clasificacin (redes neuronales, reglas y
rboles de decisin: C5.0, QUEST, CHAID).

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
Clementine

Manipulacin de datos (pick & mix, muestreo,


combinacin y separacin).

WEKA
DSS propios

Combinacin (manual) de modelos.


Visualizacin anterior (datos en mltiples
grficas) y posterior (rboles, curvas ROI/ROC,
..).
Exportacin de modelos a distintos lenguajes
(C, SPSS, SAS).
Exportacin de datos integrada a otros
programas (XLS).
Generacin de informes.
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
Clementine

Gestin de proyectos, metodologa CRISP-DM,


plantillas, ejecucin en batch, supernodos, ...

WEKA
DSS propios

El entorno del Clementine basado en nodos se


conectan para formar un flujo o ruta. Las rutas
pueden dejarse en ficheros separados (.str) o se
pueden organizar en proyectos (.cpj).

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
Clementine
WEKA
DSS propios

Opciones del Clementine


Orgenes
Operaciones con Registros
Operaciones con Campos

Grficos
Modelado
Resultado

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1

DSS
Clementine
Clementine
WEKA
DSS propios

Disponemos de los datos acerca de los das que


se ha podido jugar al tenis, dependiendo de
diversos aspectos meteorolgicos. El objetivo es
poder predecir si hoy podremos jugar al tenis.
Los datos estn en el fichero: playtennisevidence.txt y son los siguientes:

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1

DSS
Clementine
Clementine
WEKA
DSS propios

Lo primero que vamos a hacer es insertar un


nodo fuente de datos al rea de trabajo.
Cogemos la opcin Archivo var. de la categora
Orgenes y aparecer:

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1

DSS
Clementine
Clementine
WEKA

Seleccionamos el fichero:

DSS propios

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1

DSS
Clementine
Clementine
WEKA
DSS propios

Para ver que carga bien los datos vamos a


aadir un nodo Tabla (categora Resultado).
Para enlazar dos nodos en Clementine, se pulsa
el botn del medio del ratn sobre el nodo origen
y se arrastra el ratn hasta el nodo destino o
pulsando el botn izquierdo y derecho a la vez
Una vez conectados, pulsa sobre el nodo Tabla
con el botn derecho EJECUTAR.
Deben aparecer los datos de la tabla

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1

DSS
Clementine
Clementine
WEKA
DSS propios

vamos a aadir un nodo Tipo, que se


encuentra en la categora Operaciones con
Campos.
A continuacin aadimos un nuevo nodo C5.0
para construir un rbol de decisin sobre los
datos

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1

DSS
Clementine
Clementine
WEKA
DSS propios

Nos situamos en el nodo C5.0, ejecutamos y a


minerizar !!!
A continuacin doble click en el diamante y
aparece en el espacio de trabajo, boton dcho.
Edicin:

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 1

DSS
Clementine
Clementine
WEKA
DSS propios

Supongamos que tenemos, p.ej., la instancia


(Sky = rain, Temperature = cool, Humidity = high,
Wind = strong). Podemos ver en el rbol que la
clase es NO, con lo que no jugaremos al tenis.

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

En este caso se trata de predecir el tipo de


frmaco (drug) que se debe administrar a un
paciente afectado de rinitis alrgica segn
distintos parmetros/variables. Las variables que
se recogen en los historiales clnicos de cada
paciente son:
Age: Edad

Sex: Sexo

BP (Blood Pressure): Tensin sangunea.


Cholesterol: nivel de colesterol.
Na: Nivel de sodio en la sangre.
K: Nivel de potasio en la sangre.
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Hay cinco frmacos posibles: DrugA, DrugB,


DrugC, DrugX, DrugY. Se han recogido los datos
del medicamento idneo para muchos pacientes
en cuatro hospitales Se pretende, para nuevos
pacientes, determinar el mejor medicamento a
probar.

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Hay cinco frmacos posibles: DrugA, DrugB,


DrugC, DrugX, DrugY. Se han recogido los datos
del medicamento idneo para muchos pacientes
en cuatro hospitales Se pretende, para nuevos
pacientes, determinar el mejor medicamento a
probar.

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

El nodo tipo nos proporciona una informacin


muy valiosa sobre los tipos de datos

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
Clementine
WEKA
DSS propios

Tecnologa Informtica y Biomedicina

10

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Con lo que tenemos un 96,5% de acierto. Es


decir un error de slo el 3,5% sobre los datos de
entrenamiento.
Es posible hacerlo mejor ... pero cmo? con
otro tipo de algoritmo de aprendizaje, una red
neuronal, p.ej.?
Insistir en los datos de entrada.
Vamos a analizar los atributos de entrada
(combinamos algunos atributos)

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Para comparar los atributos discretos, el grfico


Malla suele ser conveniente.
Creamos un nodo malla y enganchemos el
nodo de fuentes de datos drug1n con l. Al
editarlo, decimos que vamos a examinar los
campos discretos (Sex, BP, Cho, Drug):

Tecnologa Informtica y Biomedicina

11

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Una vez creado el grfico de malla, puede


ajustar los umbrales que controlan los estilos de
lnea mediante la barra de herramientas para
cambiar la lnea mnima visible.

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Estudiemos la relacin que hay entre los


atributos continuos (numricos) y su influencia
en la clase (diagnostico o salida).
Nodo grfico de la categora grficos.
Lo editamos y seleccionaremos que queremos
comparar el Na y el K. Para ello al editar el nodo
grfico pondremos en el Campo X el campo
Na, en el Campo Y el campo K y en el
Superponer la clase Drug, tanto en color
como en forma.

Tecnologa Informtica y Biomedicina

12

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

En este grfico s que se ven algunas


caractersticas muy significativas. Parece haber
una clara separacin lineal entre una relacin
K/Na alta y una relacin K/Na baja. De hecho,
para las concentraciones K/Na bajas, el frmaco
Y es el ms efectivo de una manera clara y
parece mostrarse que por encima de un cierto
cociente K/Na ese medicamento deja de ser
efectivo y se debe recurrir a los otros cuatro.
Hemos establecido que el medicamento a
administrar depende en gran medida del
cociente entre K/Na.
Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Vamos a crear un nuevo atributo derivado


(tambin llamados atributos pick & mix)
mediante el nuevo nodo Derivar de la categora
Oper. con campos, que enganchamos con el
nodo drug1n.
Nodo muy importante en el preprocesado de la
informacion

Tecnologa Informtica y Biomedicina

13

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Resultados con este nuevo campo.


Simplificacion y mejora de la precision

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA

Validar modelo con datos nuevos

DSS propios

Obtener un 99.5% sobre los datos de


entrenamiento es relativamente sencillo y no
asegura que el modelo se vaya a comportar
bien. Para eso debemos de utilizar datos nuevos
Para ello usamos los datos DRUG2n, DRUG3n,
DRUG4n que se consideran que pertencen a
otros hospitales
Podemos copiar y pegar partes de las rutas
Y con estos valores consideramos el modelo
anterior validado.
Tecnologa Informtica y Biomedicina

14

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

El problema es que hemos usado mas datos


para validacin que para entrenamiento.
vamos a fusionar los datos enganchando las
cuatro fuentes de datos (drug1n, drug2n,
drug3n y drug4n) con el con el nodo Aadir
Hemos juntado los 2.200 registros de todos los
hospitales.
Podemos observar los datos con las mismas
herramientas de salida

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

Ahora vamos a realizar una particin de 1.700


para entrenamiento y 500 para test. Los 500 de
test que sean iguales para diferentes modelos
(red neuronal, C5.0 y C&RT). Para ello vamos a
separar los datos mediante un nodo Muestrear
que incluya los primeros 1.700 (incluir muestra)
Y otro que excluya los primeros 1.700 (descartar
muestra), quedndose con los 500 restantes.
Ahora entrenamos los tres modelos con los 1700
ejemplos y evaluando los resultados con los 500
restantes.

Tecnologa Informtica y Biomedicina

15

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

El problema anterior es que aunque se


consiguen buenos resultados la particin no es
aleatoria, para ello usamos dos nuevos nodos,
particin y seleccionar
Los valores 77 y 23 son los que consiguen una
particin ms similar al 1700 500 que
estbamos utilizando. Ahora usaremos nodos
Seleccionar, uno con Incluir y otro con Descartar

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
WEKA
DSS propios

Consiguiendo al final un entrenamiento y


validacin que indica la figura

Ahora se debera comparar la evaluacin


realizada con la muestra no aleatoria con la
muestra aleatoria.

Tecnologa Informtica y Biomedicina

16

MDULO 2: Sistemas de Soporte a la Decisin

Ejemplo 2

DSS
Clementine
Clementine
WEKA
DSS propios

El problema de la particin
entrenamiento/comprobacin, es que los datos
que se usan para entrenamiento no se usan
para comprobacin y viceversa. En el caso de
no disponer de muchos datos o bien el modelo
se entrena con pocos datos o bien se valida con
pocos datos
Una herramienta sencilla en esa lnea es el
mtodo de validacin cruzada (Crossvalidation).

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
WEKA
DSS propios

Caractersticas
Software libre
Buenas herramientas de preprocesado
Tiene un formato especial de entrada de datos arff
Vamos a realizar pruebas con dos ficheros (weather y uno propio de
disfunciones urolgicas)
Primer ejemplo con el weather.arff

Tecnologa Informtica y Biomedicina

17

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
WEKA
DSS propios

Caractersticas
Segundo ejemplo de disfunciones urolgicas
60

50

Effort (%)

40

30

20

10

0
Objectives
Determination

Data
Preparation

Data Mining
Modelling

interpretation
& evaluation

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
WEKA
DSS propios

hola

Tecnologa Informtica y Biomedicina

18

MDULO 2: Sistemas de Soporte a la Decisin


Neurological Physical Examination

DSS
Clementine
WEKA
WEKA
DSS propios

Perineal and perianal sensitivity


Minimum
1 Maximum 4
Mean 2.432 StdDev 0.77

Anal tone
Minimum
1 Maximum 2
Mean 1.215 StdDev 0.413

Voluntary control of the anal sphincter


Minimum
1 Maximum 4
Mean 2.039 StdDev 0.862

Age
Minimum
Mean 49.216
StdDev 23.972

Bulbocavernosus Reflex
Minimum
1 Maximum 4; Mean 1.87

StdDev

1- Maximum 85

0.65

Free Flowmetry
Volume of urine
Minimum
7 Maximum 682
Mean 204.253 StdDev 148.799

Post void residual


Minimum
0 Maximum 550
Mean 104.725 StdDev 133.359

Maximum flow rate


Minimum
4 Maximum 58
Mean 14.12 StdDev 9.443

Micturition time
Minimum
13 Maximum 160
Mean 49.767 StdDev 27.946

hola

Cystometry
Bladder storage
Minimum
50 Maximum 461
Mean 212.763 StdDev 72.564

Detrusor pressure filling


Minimum
2 Maximum 30
Mean 7.018 StdDev 6.089

First sensation of bladder filling


Minimum
50 Maximum 300 ; Mean 160

StdDev 58.061

Test Detrusor pressure /Micturition flow


Detrusor contraction
Minimum
2 Maximum 3
Mean 2.287 StdDev 0.454

Abdominal pressure
Minimum
1 Maximum 3
Mean 1.532 StdDev 0.772

Volume of urine in micturition


Minimum
0 Maximum 556
Mean 177.5
StdDev 89.808

Post void residual


Minimum
Mean 91.071
StdDev 100.642

Maximum pressure Detrusor


Minimum
2 Maximum 200
Mean 70.063 ; StdDev
Average flow rate
Minimum
0 Maximum 10
Mean 3.764 ; StdDev 1.74

30.744

0 Maximum 350

Maximum flow rate


Minimum
0 Maximum 31
Mean 9.306 ; StdDev 4.617
Micturition time
Minimum
2 Maximum 318
Mean 63.922 ; StdDev 53.998

Diagnosis
Diagnosis (Effort Incontinence - Bladder Instability Obstruction of the LUT No dysfunction)

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
WEKA
DSS propios

Tecnologa Informtica y Biomedicina

19

MDULO 2: Sistemas de Soporte a la Decisin


Gestor del
conocimiento

DSS
Clementine
WEKA
DSS
DSS propios
propios

DSS

Diversas entidades
recogiendo datos

DB

Gran cantidad de informes mdicos (diagnosticos)


agrupados en muchos aos

El objetivo es el de crear una BD con esta


informacin

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine

Exploracin fsica neurolgica

WEKA
DSS propios
DSS
propios

Sensibilidad perineal y
perianal (1-4)

Proceso: discretizacin
Control voluntario
de datos
Masculino : 1, Femenino : 2 esfinter anal(1-4)
Dificultades: muchos
Sexo (1-2)
valores con tipos de
datos muy diferentes
Flujometra libre
0-20
1, 20-50
: 2,se50-65
: 3,
:Estos
datos
deben
de>65 : 4
0-150
: 1, 150-300
: 2,
ajustar
(homogeneizar)
300-500
3, entrar
>500 :en
4 el
antes :de
0-25 : 1, 25-50 : 2,
sistema
: 3, >75
:4
de50-75
diagnstico
(MD)

del

Tono anal (1-2)

Edad (1-4)

Reflejo
bulbocavernoso
(1-4)

Volumen de orina
(1-4)

Residuo postmicc.
(1-4)

Flujo maximo (1-4)

Tiempo de miccin
(1-4)

Tecnologa Informtica y Biomedicina

20

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
DSS
DSS propios
propios

Cada neurona es un prototipo para un


cluster.
Input
Vector

x1
mi1

x1

x2
x3
x4

min
xn

x5

wi1
wi2
wi3
wi4
wi5

yi

Neurona
i

Distancia eucldea = Distancia entre el


vector de referencia y el patrn de entrada.
n referencia
La neurona con el vector de
2
u i =de
(x ij wgana
mas cercano al vector
entrada
y
ij )
j
=
0
modifica todo su vecindario

Tecnologa Informtica y Biomedicina

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
DSS propios
DSS
propios

Ejemplo Mapa de Kohonen


Red
Red
Valores
despu
despu
siniciales
de
s de
2000
500aleatorios
iteraciones
iteraciones
Incontinencia de esfuerzo

Sin disfunci
disfuncin

200 pacientes
para el
entrenamiento
del sistema

Inestabilidad del detrusor

Tecnologa Informtica y Biomedicina

Obstrucci
Obstruccin del TUI

21

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
DSS
DSS propios
propios

Los nuevos
pacientes se
utilizan para
testear el sistema

=
Nuevo vector entrando en el
4.1 =
eucl
= 1.73
2.9
=
Busca la distancia
dea ms cortamapa
entre
eucl
Distancia
4.5 las neuronas
todas
delms
mapa
Mismo diagnstico que la
corta
Tecnologa Informtica y Biomedicina
neurona (6,6)

MDULO 2: Sistemas de Soporte a la Decisin


DSS
Clementine
WEKA
DSS propios
DSS
propios

Construccin de otros tipos de redes neuronales


Unsupervised ANN
SOM
1

GCS

3
3

1
1

2
3

2
2

0
0

3
3

3
0

0
3

Tecnologa Informtica y Biomedicina

22

You might also like