Professional Documents
Culture Documents
Departamento de Matemticas
Tesis Doctoral
Diciembre 2009
UNIVERSIDADE DA CORUA
Departamento de Matemticas
Tesis Doctoral
Diciembre 2009
UNIVERSIDADE DA CORUA
Departamento de Matemticas
Tesis Doctoral
Diciembre 2009
AGRADECIMIENTOS
En primer lugar deseo agradecer al director de esta memoria, D. Wenceslao Gonzlez Manteiga, su
dedicacin y apoyo durante estos aos.
Este trabajo ha sido financiado en parte por los proyectos del Ministerio de Ciencia e Innovacin
(MICINN), MTM2008-03010 y MTM2005-00820, as como el proyecto de la Comisin Interministerial
de Ciencia y Tecnologa (CICYT) ANACOM, CTQ2004-07811-C02-01.
Ha sido un largo viaje, como un tren de antao de larga distancia. Un trayecto cuajado de paradas,
donde han ido subiendo y bajando multitud de desconocidos destinados a escribir con tinta
indeleble pequeos y grandes fragmentos de esta aventura.
Deseo agradecer su apoyo y amor incondicional a las dos personas que ms quiero, mi pequea gran
familia, mi madre y mi hermano. Son el corazn y el alma de este trabajo, como lo son de cada
cosa que he hecho y har a lo largo de mi vida.
Tras la locomotora, quiero agradecer su ayuda a todos los dems; aquellos que me han tendido una
mano en el viaje, brindndome su tiempo, sus ideas, y su compaa en das de trabajo y tardes de
charlas; en lugares cercanos y lejanos, en despachos y cafeteras a lo largo del globo. Permitidme
usar la excusa de mi legendaria falta de tiempo para no decir nombres; hemos sido cmplices en
esto, y por supuesto yo nunca delatara a un compaero de felonas; vosotros ya sabis quienes sois
y lo agradecida que estoy por cada momento de complicidad compartido.
A todos, a los que estis o ya os fuisteis, a los valientes que segus en mi tren y a los que ya dej
atrs, muchas gracias por todo Ha sido fantstico
ndice
NDICE.
INTRODUCCIN ..
1-1
1-3
1-3
1-7
1-8
1-8
1-8
1-8
1-8
1-9
1-11
1-15
1-15
1-15
1-15
1-22
1-24
1-24
1-24
1-24
1-24
1-25
1-26
1-27
1-28
1-29
1-30
ndice
1-31
1-32
1-33
1.4.1.9.2 REGRESIN TIPO NCLEO. VARIANTE 1. PREDICTOR DE NADARAYAWATSON CON VENTANA VARIABLE .......................
1-36
1.4.1.9.3 REGRESIN TIPO NCLEO. VARIANTE 2 .........................
1-37
1-38
1-39
1-41
1-41
1-43
1-43
1-46
1-46
1-46
1-47
1-47
1.5.3.1.1
1-48
1.5.3.1.2
1-50
1.5.3.1.3
1-50
1-51
1-52
1-52
1-53
1-54
1-54
1-56
1-57
1-57
1-59
1-60
1.6.1
2-1
ndice
2-2
2-5
2-6
2-6
2-8
2-8
2-9
2-10
2-11
2-11
2-11
2-13
2-14
2-15
2-15
2-15
2-19
2-21
2-22
3-1
3-1
3-3
3-5
3-6
3-8
ndice
3-11
3-11
3-12
3-12
3-13
3-15
3-17
3-17
4-1
4-1
4-2
4-2
4-2
4-7
4-7
4-7
4-8
4-8
4-8
4-8
4-10
4-10
4-11
4-12
4-13
ndice
4-14
4.3.1.1
4-14
4.3.1.2
4-15
4.3.1.3
4-16
4-19
4.3.2.1
4-20
4.3.2.2
4-23
4.3.2.3
4-23
4.3.2.4
4-24
4.3.2.5
4-26
4.3.2.6
4-31
4-34
4-35
Introduccin
Introduccin
Motivacin
Las redes neuronales constituyen una herramienta de anlisis, modelizacin y prediccin que se
puede encontrar cmodamente integrada en muy diversos campos: robtica, ingeniera,
psicologa, De este modo en sus aplicaciones a cada mbito las redes adoptan connotaciones
diferentes, y son vistas como herramientas de la ingeniera, rplicas del pensamiento racional,
modelos de caja negra, En todos los casos las redes se rigen por la filosofa general de
obtener modelos coherentes con la realidad observada, de tal modo que sean los datos los que
determinen el comportamiento de la red, bien a travs de la determinacin de sus estructura,
bien de sus parmetros internos Estas ideas acercan las redes neuronales a las ideas de los
mtodos no paramtricos de anlisis de datos, en particular y en general al mbito de la
estadstica.
Consideradas ya las redes neuronales como potentes herramientas estadsticas de anlisis de
datos, esta memoria se basa en dos motivaciones principales. En primer lugar se busca
clarificar la naturaleza de las redes neuronales, analizando sus fundamentos, poniendo de
manifiesto su naturaleza estadstica y sus conexiones con diversos mtodos estadsticos
ampliamente conocidos. Resaltando sus principios estadsticos la visin de las redes neuronales
se refuerza, ganando en consistencia terica al tiempo que se mantiene su carcter intuitivo e
innovador. En segundo lugar se desea mostrar con ejemplos concretos la bondad de las redes
neuronales como herramientas estadsticas de modelizacin y su capacidad para responder a las
necesidades que presentan los problemas observados en el mundo real. Con este fin se han
seleccionado distintos problemas reales de mbitos muy diversos, principalmente de la
industria y el medioambiente y se han analizado y modelizado mediante redes neuronales.
Se puede apreciar, pues, que se trata de un trabajo con profunda vocacin prctica, que busca
no slo realizar un estudio terico de los distintos tipos de redes neuronales, y de sus
conexiones con la estadstica, desde la clsica a no paramtrica, sino tambin mostrar cmo las
redes neuronales constituyen modelos capaces de dar el salto del mbito terico a la realidad,
aportando soluciones a problemas reales, al tiempo que se mantiene su rigor y esencia.
Esquema de la Monografa
Esta tesis est estructurada en cuatro captulos, adems de esta breve introduccin.
El primer captulo responde al primero de los objetivos citados anteriormente, el conocimiento
de los modelos de redes neuronales se centra por tanto en hacer una revisin de los orgenes
de las redes neuronales, sus propiedades como modelos y sus relaciones con otros mtodos
estadsticos convencionales, ms o menos avanzados. Este captulo permite entender la
filosofa de las redes neuronales, indagando en su naturaleza estadstica, y proporcionndoles
mayor profundidad que la que su vocacin de caja negra les suele otorgar. Inicialmente se
- i-
Introduccin
presenta el origen de las redes neuronales, y las ideas latentes que subyacen en estos modelos;
en la segunda seccin se detalle el funcionamiento de las redes neuronales, se fijan las bases
de la notacin que se va a emplear en este documento, y se proporcionan ejemplos de los
mbitos donde su uso est extendido; la tercera seccin proporciona una visin panormica de
la amplia variedad de modelos que responden al nombre de redes neuronales, a travs de su
organizacin y clasificacin en diferentes categoras siguiendo mltiples criterios de
organizacin; ser en las secciones cuarta a sexta de este primer captulo donde se analicen las
conexiones que existen entre las redes neuronales y diferentes modelos estadsticos, de
prediccin y clasificacin, paramtricos y no paramtricos, y se aportarn algunas variaciones
de estos mtodos que surgen de modo natural a partir del anlisis de la estructura de las redes.
Finalmente en la seccin sptima de este primer captulo se mostrar tambin una visin de las
redes como aproximadores universales.
Los siguientes captulos, del segundo al cuarto ilustrarn la capacidad de modelizacin de las
redes neuronales a travs de su aplicacin a diversos problemas de diversa ndole en mbitos
medioambientales e industriales; las aplicaciones comprenden problemas de regresin,
problemas de clasificacin y finalmente problemas de control de procesos. En ste ltimo
mbito se estudiarn diversas posibilidades para la aplicacin de la capacidad predictiva de los
modelos de redes neuronales en problemas de control de procesos desde la perspectiva
estadstica y de ingeniera.
El segundo captulo se centra en la aplicacin de las redes neuronales a un problema de
modelizacin en un proceso continuo. En este caso el problema se enmarca dentro al campo de
la hidrologa, en particular en el mbito de la prediccin de escorrentas o caudales de un ro.
El objetivo ser comparar el funcionamiento de un modelo de redes neuronales con el de series
de tiempo tradicionales, a la hora de enfrentarse a la prediccin del caudal en la cuenca de un
ro; se trata de un problema real que tiene como fin proporcionar informacin vital para la
gestin de conjunto de centrales hidroelctricas, que se sitan en un determinado cauce
fluvial.
El tercer captulo se centra en las aplicaciones binarias de las redes neuronales, abordando un
problema de prediccin de probabilidades futuras. En este caso el problema subyacente que
motiv este problema se enmarcaba dentro del rea de medioambiente y consista en la
prediccin de la probabilidad de que la concentracin de polen en el aire alcanzase ciertos
niveles relevantes para la salud pblica. Es por tanto un problema de clasificacin entre das de
riesgo alto, medio o bajo para los pacientes sensibles a la presencia de polen en el aire. Este
ejemplo real se complementa con un estudio de simulacin, en el que se compara el
funcionamiento de una red con el de un Modelo Lineal Generalizado en el caso de respuesta
binaria.
El cuarto captulo est dedicado a la relacin de las redes neuronales con las tcnicas de
control. En l se revisan las metodologas de control ms interesantes al tiempo que aporta
ideas de cmo introducir las redes neuronales en estas estructuras. Presenta dos ejemplos de
aplicacin a procesos industriales. Uno de ellos con respuesta de control discreta ( colada en
placa de cobre) y otro en un proceso de depuracin de aguas. Como se sealar en el captulo
los trabajos realizados en el mbito de la depuracin de aguas no se limitaron al control ni a las
- ii -
Introduccin
redes neuronales, si no que han abarcado tcnicas de seleccin de variables, determinacin de
parmetros empleando tcnicas bootstrap aunque en esta tesis se presentarn solamente
aquellos directamente relacionados con estos tpicos.
En cada uno de los captulos se incluyen dos apartados finales, uno de resumen o conclusin de
cada captulo en el que se repasan las ideas ms relevantes contenidas en el mismo, y
finalmente la bibliografa, que se presenta de modo separado en cada captulo, para facilitar su
anlisis.
- iii -
1.1 Introduccin
Desde los orgenes del hombre el deseo de observar, comprender, y cambiar su entorno para
adaptarlo a sus necesidades ha sido el motor de su evolucin. Desde las primeras herramientas
de metal, las pieles curtidas, la rueda, el diseo de la mquina voladora de Leonardo, hasta la
decodificacin del genoma humano, el hombre analiza su entorno en busca de respuestas que
mejoren la vida del ser humano, siempre tomando la naturaleza como modelo.
Aferrados a ese principio, a mediados del siglo XX surge un movimiento cientfico que trata de
imitar una de las cualidades ms fascinantes y al tiempo misteriosas del ser humano, su
inteligencia; para ello se intenta construir mquinas cuya estructura funcional sea similar a la
del cerebro humano, esperando que de esta idea surja tras un cierto perodo de aprendizaje,
de modo natural la luz de la inteligencia; esta bsqueda se centra principalmente en la
capacidad que tiene el ser humano para tomar decisiones de modo independiente.
El Reconocimiento de Muestras (Pattern Recognition) es la disciplina que responde al problema:
Dando algunos ejemplos de seales complejas, y la correcta decisin para ellas, tomar de
forma automtica decisiones para una sucesin de futuros ejemplos.
El Reconocimiento de Patrones atae a un extenso rango de actividades en muchos mbitos de
la vida. Algunos ejemplos seran:
-
Clasificacin de tumores
1-1
Reconocimiento de escritura
Algunas de estas tareas forman parte de nuestra vida cotidiana. A travs de nuestros sentidos
recibimos datos, y a menudo somos capaces de identificar el origen de esos datos, de un modo
inmediato y sin esfuerzo consciente (reconocer caras, voces,... incluso en malas condiciones).
Como los humanos podemos hacer estas tareas, en ocasiones mejor que las mquinas, despert
un gran inters el conocer los principios que permiten que el ser humano realice estas tareas.
El cerebro humano tiene adems otras caractersticas deseables, como su flexibilidad, la
facilidad con que se adapta a nuevas situaciones (aprendiendo), la tolerancia a los fallos, la
capacidad que tiene de manejar informacin fantasma, esto es, no tangible, difusa,...
Durante aos ingenieros, siclogos y fisilogos han intercambiado ideas sobre el funcionamiento
de los cerebros de animales y hombres, con el fin de clarificar los complejos mecanismos que
subyacen en la toma de decisiones y automatizarlos usando ordenadores. La primera mquina
influenciada por las ideas de la biologa y la psicologa fue el PERCEPTRN (Rosenblatt, 1958),
que despert un gran inters en los aos 60 debido a su capacidad para reconocer patrones
sencillos. La segunda mquina fue creada, ya a mediado de los 80, con la herramienta de las
redes neuronales. Ambas abandonaron rpidamente sus races biolgicas para ser estudiadas
desde un punto de vista matemtico. El reconocimiento de patrones
neuronales artificiales pueden considerarse como una herramienta estadstica completa para el
anlisis de datos (Bishop, 1995)
El entendimiento terico de cmo trabajan est todava en proceso de construccin y
abordaremos aqu su estudio desde un enfoque estadstico. La filosofa de las redes se basa en
que sean los datos los que establezcan el comportamiento de la red a travs de un aprendizaje,
y evitar as estar sujetos a una estructura encorsetada. Estas ideas acercan las redes neuronales
a la filosofa de los mtodos no paramtricos de anlisis de datos. Estos mtodos tienen la
caracterstica de poder aproximar funciones de muy diversa ndole, soslayando la necesidad de
establecer un modelo rgido al que ajustar los datos.
1-2
1-3
Salida
Entradas
Nodo
I = 0 + i xi
(1.1)
i =1
f ( I ) = f 0 + i xi
Los parmetros
i =1
(1.2)
cun fuerte es. Por su parte la funcin f recibe el nombre de funcin de transferencia o link; la
adecuada eleccin de esta funcin es en parte responsable de la bondad del comportamiento
de la red neuronal.
Algunas de las funciones de transferencia ms usuales son:
Umbral: f ( x ) =
0 si x < 0
1 si x 0
(1.3)
Lineal o Identidad: f ( x ) = x
(1.4)
e 1
2x
Tangente Hiperblica: f ( x ) = Th ( x ) =
Logstica: f ( x ) =
1
1+ e
x
Gaussiana: f ( x ) = e
e +1
2x
1 + Th ( x / 2)
(1.5)
(1.6)
(1.7)
1-4
0 j
hl 1 hl
ah
ij pesos desde la capa de entrada a la l-sima capa oculta 1 i N
l
1 j N con
H
l
1 l LH
ij
hl hl
pesos desde la capa l1-sima capa oculta hasta la l2-sima capa oculta, 1 i N
1 j N
0 k
ik
hL o
H
ao
l2
con 1 l1 LH y 1 l2 LH
1-5
l1
jk
hl o
y 1 k N O con 1 l LH
gj
1 l LH
l
hj
fh
j
l
y 1 l LH
1 k N
1 k N , r = Yk Ok
O
1 l LH
k
fh
La mayor parte de los modelos de redes neuronales, pueden ser expuestos como diagramas de
red, lo que facilita la comprensin y el anlisis de su estructura. A continuacin se expone
cmo se representan grficamente los distintos elementos que conforman la red
(d) Neuronas. Cada neuronas o nodo se representa mediante crculos y/o cajas.
- CRCULOS: son variables observadas o salidas de nodos, identificadas con su nombre.
Xi
hj
ok
Yk
1-6
xj
(e) CONEXIONES y AJUSTES. Las conexiones entre neuronas se representan por flechas.
- FLECHAS: indican que el origen de la flecha es un argumento de la funcin que se calcula
en el destino de la flecha.
- DOS LNEAS PARALELAS: indican que los valores de cada final han de ser ajustados, por
mnimos cuadrados, mxima verosimilitud, o algn otro criterio de estimacin.
1.2.2 Los usos de las Redes Neuronales
Las RNA se usan principalmente con tres objetivos diferenciados:
Como modelos nerviosos biolgicos, e " inteligencia". Parte de las motivaciones biolgicas
que dieron lugar a las redes neuronales se han conservado, por ello y se siguen empleando
como instrumentos que nos ayuden a entender y duplicar el funcionamiento de los sistemas
nerviosos de los seres vivos.
esta
1-7
1-8
X1
w11ao
wiao1
Xi
wNaoI 1
X NI
w0ao1
1
Figura 1.4. Esquema del Perceptron Simple
Las ecuaciones del proceso son las siguientes
NI
q = 01 + i 1 X i
ao
ao
(1.8)
i =1
ao
ao
0 si 01 + i 1 X i < 0
0 si q < 0
i =1
=
O = f ( q) =
N
1
0
si
q
1 si ao + ao X 0
i1
i
01
i =1
I
1-9
(1.9)
ao
valor umbral. Para que el clasificador pueda clasificar correctamente cualquier muestra es
necesario que las dos clases sean linealmente separables.
X2
B
X1
B
Figura 1.5. Separacin lineal en el plano de dos conjuntos
Las redes de este tipo, con slo dos capas se limitan a la resolucin de problemas con
observaciones separables geomtricamente (por hiperplanos). Ante estos inconvenientes
surgieron dos modelos nuevos, el ADALINE (elemento lineal adaptable) y el MADALINE
(elemento lineal adaptable mltiple). La estructura del ADALINE es la del perceptrn simple,
pero la funcin que aplica el nodo es la identidad; de este modo se permite ms flexibilidad
en la estructura de la red.
Un modelo ms verstil y complejo es el Perceptrn Multicapa (MLP), que consiste en cierta
cantidad de nodos organizados por capas (en al menos 3 capas), de modo que una neurona
reciba entradas slo de las neuronas situadas en la capa inmediatamente inferior. En general,
en un Perceptrn Multicapa cada uno de los nodos calcula una combinacin lineal de las
entradas que llegan a l, le aade un sesgo, y finalmente le aplica una funcin de activacin,
tambin llamada de transferencia, que por regla general traslada cualquier entrada real a un
rango generalmente acotado, dando lugar as a la salida del nodo, que puede ser una de las
entradas de un nuevo nodo.
Un perceptrn multicapa, al igual que uno simple puede tener una o ms salidas, cada una de
ellas con un conjunto de pesos y un sesgo asociados. A menudo se usa la misma funcin de
activacin para cada nodo de la misma capa, aunque es posible usar diferentes funciones de
activacin para cada neurona.
1-10
X1
h1
w1hok
hj
w ho
jk
ah
1N H
o1
Y1
ok
Yk
o NO
YNO
X2
w2ahN H
ah
iN H
Xi
wNhoH k
wNahI N H
X NI
hN H
w0hok
w0ahN H
Figura 1.6. Esquema de un Perceptron Multicapa, con una capa oculta (NI-NH-NO)
Las ecuaciones asociadas a un perceptrn multicapa son las siguientes:
N ah
ij X i + 0ahj para j = 1, , N H
i =1
(1.10)
N ho
jk h j + hojk para k = 1, , N O
j =1
(1.11)
h j = fh
ok = fO
En esta notacin se supone que todos los nodos de una misma capa emplean la misma funcin
de activacin, aunque podra perfectamente no ser as.
1.3.2.2 Redes Neuronales de Base Radial
El otro modelo arquitectnico importante es el de las redes de base radial (RBF). La filosofa
general de las redes consiste en huir de los modelos preestablecidos, y dejar que sean las
observaciones pasadas las que el comportamiento de las salidas de la red. En los perceptrones
esa influencia radica en el entrenamiento; en estas nuevas redes tambin, pero adems se
desean establecer ciertos valores de las variables de entrada y sus correspondientes variables
respuesta de tal forma que sean representativos de todos los estados en los que se puede
encontrar el sistema que se desea modelizar. Lo que va a diferenciar a estas redes de los
perceptrones es el modo en que actan sobre los datos de entrada, esto es, cmo condensan
la informacin que les proporcionan las distintas variables. En un MLP la entrada de red (net
input) a la capa oculta es una combinacin lineal de las entradas especificada por los pesos.
En una red de funcin de base radial las neuronas de la capa oculta calculan las funciones
radiales bsicas de las entradas, que son similares a las funciones empleadas en la regresin
tipo ncleo (Hrdle, 1990). Para ello ser necesario disponer de un conjunto de
observaciones, tal y como se tiene en la regresin no paramtrica, con respecto a los que
calculamos la distancia del vector de entradas.
1-11
{W }
ho
NH
i =1
{(
ho
i1
, i 2 , , iN
ho
ho
O
)}
NH
i =1
ah
ho
NH
i =1
{ }
, siendo Wi
ah
NH
i =1
{(
ah
1i
, 2 i , , N i
ah
ah
I
)}
NH
i =1
,y
situaciones en las que se puede encontrar el sistema que se desea imitar. Pero al contrario
que en el caso de conjunto de entrenamiento deseamos reducir al mximo el nmero de
elementos de ese conjunto, pues el nmero de pesos involucrados en la red ser proporcional
al nmero de centros escogidos. Adems ha de ser independiente del conjunto de
entrenamiento y del de validacin.
Cuando se introduce un caso nuevo en la red, se calculan las distancias a los centros, que se
ah
K(r) = exp r 2
2
(1.12)
Multicuadrtica K(r) = (c +r )
(1.13)
(1.14)
En general se puede aplicar cualquier funcin tipo ncleo, pues se rigen por el mismo
principio: establecer regiones en el espacio de entradas, que pueden superponerse unas a
otras, entorno a ciertos puntos (centros) que se suponen significativos. La norma empleada
para calcular la distancia entre un punto y los centroides no es fija, sino que constituye otro
grado de libertad de la red. Las ms utilizadas son la Eucldea y la de Mahalanobis. La Figura
1.7 muestra la estructura de una red RBF, y las ecuaciones siguientes muestran un ejemplo de
la forma numrica que adopta.
1-12
w11ah
X1
h1
ho
w11
w1ahN H
Xi
ho
wN H 1
hN H
X NI
ho
w01
ah
w01
w0ahN H
Figura 1.7. Esquema de una Red de Base Radial Mltiple con Salida Unidimensional
Siendo
{X }
NI
i =1
ah
ho
NH
i =1
el conjunto
con
para i = 1, , N H ,
(1.15)
o = + h = + K
(ij xi ) =
0ahj i =1
i =1
i =1
NH
x Wi ah
ho
ho
= 01 + i1 K
0ahi
i =1
ho
01
NH
ho
i1 i
ho
01
NH
ho
i1
(1.16)
La regin cerca de cada centro de los RBF recibe el nombre de campo receptivo (receptive
field) de la neurona oculta. Es la zona donde ejerce su influencia el centro asociado a ese
nodo. Las neuronas RBF tambin se llaman campos receptivos localizados (locally tunned
processing units o funciones de potencial) (Buhmann, 2003). En ocasiones los valores de la
capa oculta se normalizan para que sumen 1, como se hace comnmente en estimacin tipo
ncleo (Silverman, 1986).
Las redes RBF poseen la particularidad de que el nmero de nodos de la capa oculta coincide
con el nmero de centros por lo que es imprescindible haber seleccionado el nmero de nodos
1-13
( )
NH
f X = qi K X ;Wi ah
i =1
(1.17)
Las diferencias entre ambas topologas radica como en el modo de procesar la informacin de
los nodos de la capa oculta de ambos, que se refleja en sus expresiones matemticas.
NI
MLP:
g j = 0 j + ij x i
ah
ah
(1.18)
i =1
hj = f ( g j )
N ijah xi
gj =
i =1 0ahj
RBF:
(1.19)
1
2
= W jah X
fj = K ( g j )
(1.20)
(1.21)
Tanto los MLP como las RBF son aproximadores universales (Hartman et al., 1990; Park y
Sandberg, 1991; Zhou, 2003; Powell, 1987), esto es, cualquier funcin con la suficiente
suavidad puede ser escrita como la salida de una red neuronal. Al final de este captulo se
dedicar una seccin a la introduccin de los aproximadores universales, ilustrando alguno de
los ms extendidos.
1-14
1-15
1-16
k+1
Iteracin k
Se Elige una Observacin aleatoria nueva
(X , Y )
caso
NO
E=
NO
(Yk ok )2
k =1
NO
Se Modifican los pesos desde la capa de salida a la de
entrada con el fin de disminuir la funcin de error, E
SI
Se ha alcanzado el nmero mximo de
iteraciones?
SI
[k ]
hL
wij
HO
[ k 1]
wij
hL
HO
[ k 1]
, ...,
hL
wij
[k]
HO
En general,
1-17
wiahj =
1
[ k 1 ]
wiahj
[ k 1 ]
wiahj
(1.22)
[k]
w ij =
] k 1 ]
w ij
[ k 1]
(1.23)
w ij
= 0;
ij
ah1
con
1 i NI
E
j j
hl hl + 1
= 0 ; con
1 jl N H ,1 l LH 1
(1.24)
l l +1
E
j
hL o
= 0; con
1 k NO
LH
( y
No
E ( W, x , y ) =
p
p
k
ok x , W
p
))
(1.25)
k =1
1-18
propuesto muchos mtodos de parada, entre los que destacan aquellos que consisten en
considerar un conjunto de validacin simultneamente al entrenamiento para el que se
evalen los resultados de la red en paralelo, de modo que se detenga el entrenamiento
cuando la medida del error en el conjunto de validacin empiece a crecer. Esto es
peligroso, pues en muchos casos, tras un valle, el error en el conjunto de validacin
crece lentamente durante un nmero grande de iteraciones para luego caer de pronto a
una fraccin pequea de su mnimo inicial.
Los efectos del momento de parada son importantes. Si se detiene prematuramente los
pesos ajustados dependern de los de partida. Esto complica el anlisis de los procesos
de parada temprana. Asimismo si te toma demasiado grande podr darse el caso de
que en los pasos sucesivos la red se est momento alrededor del punto ptimo (vector de
pesos) donde se alcanza el mnimo, pero sin llegar a alcanzarlo. Si por el contrario se
opta por un demasiado pequeo la convergencia puede ser muy lenta. De nuevo se
tienen diferentes opciones, como tomar
= 0, 008 , = 0, 004 ) , o bien considerar n una sucesin decreciente, con lmite cero,
pero con serie divergente. Por ejemplo, n = 1 n , con n un caso aleatorio.
Si se analiza en detalle el comportamiento de la regla de entrenamiento, se obtiene la
siguiente descripcin del proceso.
Elegir aleatoriamente los pesos iniciales. En general los pesos se eligen de modo
aleatorio en (0,1) pero que no estn demasiado cerca de estos extremos para que no se
saturen los nodos (i.e. el valor de los pesos permanezca inamovible).
1-19
error,
comenzando por la capa final y retrocediendo capa a capa hasta llegar a la primera. La
regla de modificacin de pesos, o regla de aprendizaje se describe a continuacin.
Durante la iteracin m-sima, en la ltima capa (capa que une los nodos de la capa
oculta con los nodos de salida) los pesos se modifican segn (1.26).
jk =
[m]
ho
jk
[ m 1]
ho
jk
[ m 1]
ho
, 1 j N H , 1 k NO
(1.26)
jk
[ m 1]
ho
qk
[ m 1]
0 k
ho
k =
qk
jk =
[m]
ho
= h0
= k hj
jk
[ m 1]
ho
(1.27)
=1
(1.28)
N
E ok
E
ho
ho
[ m 1]
[ m 1]
= f o( qk )
= f o( 0 k +
jk h j ) 2 (Yk ok ) (1.29)
ok qk
ok
j =0
H
NH
0 k +
jk + h j 2 f o(
[ m 1]
[ m 1]
ho
j k h j ) (Yk ok )
[ m 1]
ho
ho
1
(1.30)
j =0
1
0 k =
[m]
oh
0 k + 2 f o(
[ m 1]
oh
NH
0 k +
[ m 1]
oh
j k h j ) (Yk ok )
[ m 1]
j =0
oh
1
(1.31)
En la primera capa, (capa que une los nodos de la capa de entrada con los nodos de la
capa oculta) los pesos se modifican segn (1.32); las ecuaciones posteriores detallan el
proceso en ms detalle.
ij =
[m]
ah
ij
[ m 1]
[ m 1]
ah
0 j
ah
ij
[ m 1]
ah
E
g
ij
[ m 1]
ah
ij
[ m 1]
ah
, 1 i NI , 1 j NH
= j Xi
=1
(1.32)
(1.33)
(1.34)
1-20
=
j
E
g
= f h(
E
= f (g )
=
h
j
h g
h
j
j
j
NI
0 j +
[ m 1]
ah
= f h(
0 j +
[ m 1]
ah
NI
0 j +
[ m 1]
ah
i =1
ij =
[m]
ah
ok
k =1
h j
ah
NO
ij X i ) 2 (Yk ok )
[ m 1]
i =1
= 2 f h(
NO
ij X i ) 2 (Yk ok )
[ m 1]
i =1
NI
ah
k =1
=
(1.35)
ok qk
=
qk h j
NO
ij X i ) (Yk ok ) f o ( qk )
[ m 1]
ah
jk
[m]
ho
k =1
NI
NO
ah
ah
ho
[ m 1]
[ m 1]
[m]
ij + X i 2 f h( 0 j + i j X i ) (Yk ok ) f o ( qk ) jk (1.36)
[ m 1]
ah
i =1
k =1
0 j =
[m]
ah
NI
NO
ah
ah
ah
ho
[ m 1]
[ m 1]
[m]
oj 2 f h( 0 j + i j X i ) (Yk ok ) f o ( qk ) jk
[ m 1]
i =1
(1.37)
k =1
Test de parada. Tras recorrer todo el conjunto de informacin, modificando los pesos
se comprueban los test de parada. Por regla general se establecen diversos test de
parada, como en cualquier algoritmo iterativo. Algunos de los posibles controles son
limitar el nmero mximo de recorridos del conjunto de informacin, que la mxima
modificacin de los pesos sea menor que cierta cantidad umbral predeterminada, o bien
que la mxima modificacin del error cuadrtico medio sea menor que cierta cantidad
umbral. Si no se cumple ninguno de los test seleccionados se retorna al segundo punto,
recorriendo de nuevo el conjunto de informacin de modo aleatorio.
b) Variantes del Algoritmo Clsico
El algoritmo clsico ha sufrido muchas alteraciones. En los experimentos iniciales se le
aadi el momento, y su suavidad exponencial se us como el trmino de correccin.
ij =
[m]
ij
ij - (1- )
[ m 1]
[ m1]
ij
(1.38)
Para acelerar la convergencia de los mtodos se han propuesto muchas ideas, como, por
ejemplo, elegir adaptativamente y para cada peso ij .
Esta regla de backpropagation as como sus variantes presentan ciertos inconvenientes,
como la facilidad con la que queda atrapada en mnimos locales, por tanto se hace
indispensable elegir de modo apropiado los pesos iniciales a la hora de alcanzar buenos
predictores. Adems requiere que la funcin de error sea diferenciable con respecto a
los pesos de la red, por lo tanto presenta inconvenientes a la hora de trabajar con
funciones de activacin no diferenciables, como ciertos ncleos, o la funcin umbral.
Est claro que el algoritmo de backpropagation presenta ciertas limitaciones. Cuando
comienza el entrenamiento se decanta por una direccin, y no explora otras
1-21
1-22
ij
hl hl
1
= hi h j
l1
l2
(1.39)
Si una neurona es activa y otra pasiva el peso que las une disminuir su valor, esto es, se
inhibir.
(ii) Aprendizaje Competitivo.
La idea de este aprendizaje se basa en que los nodos de la capa oculta han de competir
entre s, de modo que slo uno de ellos se activa, y el resto de salidas permanecen
inactivas. Una de las neuronas de la capa de salida ser la vencedora, por ello esta regla
recibe el nombre de winner take all. De nuevo se trata de asociar los datos segn sus
caractersticas de modo que observaciones prximas den como vencedora a la misma
neurona en la capa de salida.
Esta competencia se produce en todas las capas, de modo que unas neuronas actan
sobre otras excitndolas o inhibindolas; las neuronas que se activan entre s estn
en cierto sentido asociadas, y suelen especializarse en alguna de las caractersticas de
las observaciones. A la hora de aprender se tiene que tras una observacin slo se
modificarn los nodos de las neuronas asociadas por activacin a la salida ganadora, de
modo que el peso total de la salida (la suma de los pesos asociados a ella) se redistribuya
entre las conexiones activadoras.
1-23
(1.40)
Y = E [Y X = x ] = ax + b
(1.41)
w11ao
ao
w01
1
Figura 1.9. Red Neuronal para la Regresin Lineal Simple
La Figura 1.9 muestra la estructura de la red que describira una regresin lineal simple. La
salida de la red ser
ao
1-24
Yk =
NI
ik
X i + 0 k + para 1 k N O
(1.42)
i =1
La prediccin sera:
NI
ao
ao
Yk = E Yk X 1 = x1 , , X N = xN = ik xi + 0 k , para 1 k N O
I
(1.43)
i =1
X1
w11ao
o1
Y1
ok
Yk
o NO
YNO
wiao1
Xi
wNaoI 1
X NI
ao
01
1
Figura 1.10. Red Neuronal para la Regresin Lineal Mltiple Multidimensional
La salida k-sima de la red viene dada por la ecuacin (1.44) y coincide con la expresin
que proporciona un modelo de regresin lineal. De nuevo se emplea un modelo de
perceptrn sin capa oculta, y nuevamente la funcin de activacin es la identidad. En este
caso la red habr de tener tantos nodos de entrada como variables regresoras (NI), y
tantos nodos en la capa de salida como variables respuesta (NO).
NI
ok = 1i xi + 0 k
ao
ao
(1.44)
i =1
i =1
j =1
j
Yk = E Yk X 1 = x1 , , X N = xN = ijk ( xi ) + 0 k , para 1 k N O
I
1-25
(1.45)
entrenamiento. Es por ello que en general es recomendable usar una base de polinomios
ortogonal en la capa funcional, a fin de evitar la colinealidad que conllevan otras bases. En
general cualquier funcin lo suficientemente suave puede ser aproximada por un polinomio, si
estamos en un compacto y tomamos el grado del polinomio lo suficientemente alto, pues los
polinomios constituyen lo que se ha dado en llamar un aproximador universal. La Figura
1.1,siguiendo la notacin de la figura 1.3, muestra una red neuronal que refleja una regresin
pilonmica de grado S.
x
w1hoN O
X1
1
Xi
1
X NI
xS
x
x
o1
Y1
ok
Yk
o NO
YNO
ho
S NO
ho
S(NI 1)+1NO
wSho(NI 1)+S NO
w0hoN O
1
Figura 1.11. Red Neuronal para la Regresion Polinomica
La prediccin que har la red para la variable objetivo k-sima ser:
ok =
SN S
ho
jk
X i + 0 k , con j = ( i 1) S + l , 1 l S , 1 i N I
j
ho
(1.46)
j =1
Al analizar atentamente la red se observa que los pesos que unen la capa de entrada y la
oculta son fijos, pues tomar otros dara lugar al mismo modelo al tiempo que generara un
problema de falta de especificacin.
1.4.1.3 Regresin Logstica
Otro modelo de regresin muy extendido es la regresin logstica, que presenta mltiples
aplicaciones (Artiaga et al., 2003). Al igual que algunos ejemplos anteriores las funciones
sigmoideas tambin son aproximadores universales (Golberg, y Cho, 2004). En esta familia
destaca la funcin logstica.
1-26
logist( x ) =
1 + exp( x )
NI
Cualquier funcin de
exp( x )
1 + exp( x )
, con x
(1.47)
NO
para j = 1, , N H
h j = logist ij X i + 0 j
ah
ah
i =1
NH
ok = jk h j + 0 k
ho
ho
para k = 1,
(1.48)
(1.49)
, NO
j =1
La aproximacin de la relacin entre las entradas y las salidas ser en principio, cuantas ms
funciones logsticas combinemos, esto es, cuantos ms nodos constituyan la capa oculta. Pero
es necesario ser cuidadosos a la hora de establecer ese nmero de nodos, pues un exceso de
nodos derivara en un problema de sobreestimacin, casi interpolacin, cuando el nmero de
pesos se acerca al nmero de elementos que forman el conjunto de entrenamiento. Es posible
dotar a la red de un mecanismo que elija el nmero de nodos de la capa oculta utilizando un
conjunto de validacin ajeno al de entrenamiento con el que prevenir el sobreaprendizaje.
1.4.1.4 Regresin Lineal Generalizada
La regresin polinmica constituye una generalizacin inmediata de la regresin lineal, en
tanto en cuanto sta es una regresin polinmica de primer grado. Otro camino por el que es
posible generalizar la regresin lineal consiste en aplicar a la combinacin lineal, una funcin
determinada. De este modo se estimar la relacin entre un conjunto de variables regresoras
Y = Y
X1
x , , X N
1
= xN = H ( a + b1 x1 + b2 x2 +
I
+ bN xN
I
(1.50)
NO.
1-27
X1
w11ao
wiao1
Xi
wNaoI 1
X NI
w0ao1
1
Figura 1.12. Red Neuronal para la Regresion Lineal Generalizada
Se trata de un perceptrn sin capa oculta, y con funcin de activacin en el nodo de la capa
de salida,
NI
o = H i1 X i + 01
ao
ao
j =1
(1.51)
Aunque hasta ahora todas las redes que se haban presentado tenan como funcin link en los
nodos de la capa de salida la identidad; este es un claro ejemplo de que no tiene que ser as,
y que utilizar otras funciones link puede resultar muy til
1.4.1.5 Regresin Aditiva Generalizada
Se considera de nuevo un modelo de regresin que incluye al anterior, con el fin de obtener
resultados ms generales. Se desea eliminar la restriccin que conlleva la linealidad en las
variables dentro de la funcin
respuesta y las explicativas no responde al modelo anterior, sino que existen unas funciones
Y = Y X 1
= x1 , , X = x
NI
NI
] = H (a + f ( x ) + f ( x ) +
1
+ fN
( x ))
NI
(1.52)
desean estimar. Estas redes pueden presentar arquitecturas diferentes, con diferente nmero
de nodos en la capa oculta (tendrn un nico nodo tanto en la de entrada como en la de
1-28
X1
g1
Xi
gi
X NI
g NI
01ho
1
Figura 1.13. Red Neuronal para el Modelo Aditivo Generalizado
La salida de la red ser:
NI
o = H g i + 01
ho
j =1
(1.53)
Los g i se corresponden con la previsin que hara la red de f i ( X i ) ; luego las cajas han de
representar subredes. Cada una de las subredes es una red en s misma, por lo que puede ser
cualquiera de las vistas anteriormente. Como perceptrn, su diseo responder a un esquema
como el que muestra la figura 1.6, pero con un nico nodo de entrada (Xi) y un nico nodo de
salida. Para evitar problemas de especificacin se puede imponer mediante multiplicadores
de Lagrange, que las variables transformadas que se obtienen de las subredes tengan media
cero.
En general el tratamiento que dispensa la red a los datos ser
i
h j = fh
i
(
i
ah
1j
X i + 0 j
i
ho
para j = 1,
, N H , para i = 1,
i
N i ho i
i
ho
g i = f o j 1 h j + 01 para 1 i N I
j =1
, NI
(1.54)
(1.55)
Este es un modelo de regresin muy general, pero tiene el inconveniente de que las variables
no tienen oportunidad de relacionarse entre s.
1.4.1.6 Regresin Projection Pursuit
Siempre buscando un modelo ms general surge a la Regresin Projection Pursuit (Friedman y
Stuetzle, 1981; Friedman y Tukey, 1974). La idea radica en permitir en una primera etapa la
interaccin de las distintas variables regresoras. El modelo supone que la relacin entre las
1-29
1
1
Y = a + f1 b1 x1 + b2 x2 +
+ bN xN
1
)+
+ f S b1 x1 + b2 x2 +
s
+ bNI xN
(1.56)
o=
+ o1
h2 o
(1.57)
k =1
NI
con
mk = ik xi para 1 k S
ah1
(1.58)
i =1
y siendo g k la estimacin de f k b1 x1 + b2 x2 +
X1
X2
1ahk
+ bN xN
k
) para 1 k S
m1
g1
mk
gk
ah1
2k
ah1
ik
Xi
Nah k
1
gS
mS
01h o
2
X NI
1
Figura 1.14. Red Neuronal para la Regresin Projection Pursuit
Se tendrn en esta ocasin S subredes como las anteriormente descritas con la nica
diferencia de que la variable de entrada ser, para la subred k-sima, ser
mk.
Y = Y X 1 = x1 , , X N = xN = H a + f1 ( x1 ) + f 2 ( x2 ) +
I
1-30
+ fN
( x ))
NI
(1.59)
complica notablemente. De nuevo han de ser estimadas funciones dentro de la red, pero
adems H presenta el inconveniente de que sus argumentos son a la vez funciones estimadas
por subredes. Existe, en un enfoque estadstico clsico, un mtodo iterativo de estimacin de
H, al igual que ocurra con las fi. Segn qu red, de las descritas anteriormente, se emplee
para las estimaciones de las funciones fi y de H se tendrn diferentes modelos de redes que
se adaptan a los G.G.A.M.
h13
g1
X1
11h o
3
11h h
2 3
gi
Xi
2 3
h3 o
N 31
H
3
N
g NI
X NI
3
j
h 2 h3
1N 3
hj1 o
3
1hj h
2
1
01h h
01h o
Hi
2 3
0hNh
2 3
H3
la previsin de
h1 =
2
k =1
h j = f h 1 j h1 + 0 j
3
h 2 h3
h2 h3
para j = 1,
(1.60)
, NH
h3o
j1
h j + 01
3
j =1
h3o
(1.61)
1-31
Y = Y X 1 , , X N
= H ( a + b1 X 1 + b2 X 2 +
+ bN X N
I
(1.62)
X1
h12
11ah
11h o
2
11h h
1 2
iah1
Xi
1 2
1
1
hj1 o
1hj h
2
j
1hNh
1 2
ah1
NI 1
H3
2
N
X NI
h2 o
N 21
01h h
01h o
H2
1 2
0hNh
1 2
H3
NI
, de nuevo es el argumento de
H.
i =1
h j = f h 1 j h1 + 0 j
2
h1 h2
h1 h2
para j = 1,
, NH
(1.63)
ho
ho
2
o = f 0 j 1 h j + 01
j =1
(1.64)
Analizando las expresiones (1.62) y (1.56), as como las estructuras de las redes, resulta
evidente que estos modelos constituyen un caso particular de la regresin Projection Pursuit.
1.4.1.9 Regresin Tipo Ncleo
Sea
(X
, Yi ) i =1 =
M
(( X , X
1
NI
, , X i
) , (Y , Y
1
, , Yi
NO
))
M
i =1
una
muestra
aleatoria
simple.
La
regresin tipo ncleo (Gasser y Mller, 1984; Gasser et al., 1985; Wand y Jones, 1995;
Simonoff, 1996; Seber y Wild, 2003; Wasserman, 2005) responde a la idea de que, Y, la
variables respuesta en una nuevo punto X, se puede estimar como una combinacin lineal de
los valores que toma en los puntos de una muestra significativa, que funcionar como los
centros de las redes de base radial. La combinacin lineal viene determinada por la distancia
a esos puntos, merced a funciones tipo ncleo, K. En el caso de respuesta unidimensional la
relacin respondera a la ecuacin (1.65)
1-32
K (
n
h
k
Y =
X Xi
) Y
i =1
1
n
K (
h
i =1
X Xi
K
nh
i =1
1
nh
K
i =1
X Xi
h
X Xi
h
Yi
i =1
M
K
i =1
X Xi
h
X Xi
h
Yi
; 1 k N O (1.65)
De este modo se observa que los pesos asociados a los distintos Yi son 1. Se trata del predictor
de Nadaraya-Watson (1964). Como se puede apreciar la filosofa es la misma que subyace en
las redes neuronales de tipo RBF. No existe una estructura impuesta, sino que sern los
propios datos los que guen al predictor. Existen dos elementos fundamentales cuya seleccin
resulta de vital importancia en la regresin tipo ncleo. En primer lugar est la eleccin de la
muestra de partida. Ha de ser representativa de la relacin existente entre las variables
explicativas y la(s) dependiente(s). Por otra parte est el parmetro h, el llamado parmetro
ventana (Hrdle et. al., 1992; Gasser et. al., 1991; Hrdle y Marron, 1985a, Hrdle y Marron,
1985b). La correcta eleccin de este parmetro es imprescindible para que la regresin
funcione de modo adecuado. El parmetro ventana se mantiene fijo para todos los nodos, y
determina el entorno en el que influyen, o lo que es lo mismo, dado un nuevo punto, indica el
tamao del entorno por el que va a estar condicionado. Si el parmetro h es demasiado
pequeo, los nodos casi no influirn en su entorno, de modo que la estimacin de la variable
Y podra variar notablemente entre puntos muy prximos. El caso extremo se presenta cuando
la estimacin interpolara los nodos. En ese caso la estimacin en nuevos puntos no sera
fiable. Esta eleccin disminuira el sesgo, pero aumentara la varianza. Visualmente se
obtendran representaciones grficas muy nerviosas.
Si por el contrario el parmetro h es demasiado grande, el entorno donde influyen los nodos
sera muy amplio, esto es, sobre un nuevo punto influiran muchos puntos, incluso aquellos
muy lejanos. La estimacin de Y estara sobresuavizada, perdindose las particularidades
locales que pueda presentar la variable respuesta. En estas circunstancias el sesgo se vera
incrementado, mientras que la varianza del estimador aumentara. El estimador sera
visualmente una funcin muy suave en todo el dominio.
La relacin de la regresin tipo ncleo con una red neuronal se establece de resulta de modo
intuitivo. Esta identificacin conecta el nmero de nodos M con el nmero de nodos de la
capa oculta, NH. El resto de las equivalencias resultan inmediatas.
1.4.1.9.1 Regresin Tipo Ncleo Unidimensional Univariante
La Figura 1.17 muestra la estructura de la red que recoge la esencia de la regresin tipo
ncleo en su caso unidimensional univariante (Wand y Jones, 1995; Scott, 2008). En la
ecuaciones siguiente se detalla paso a paso su funcionamiento.
1-33
h11
w1h11h2
h12
w0ah1
o
X
h22
h1h2
11
w1ahN1H
w0ah1
1
NH
w0ah1
Figura 1.17. Red Neuronal para la Regresin Tipo Ncleo Unidimensional Univariante
En primer lugar resulta esclarecedor estudiar las correspondencias entre los pesos de la red
y los elementos de la regresin tipo ncleo. Los sesgos o ventanas dirigidos a la primera
capa oculta resultan ser todos iguales, y se corresponden con el parmetro ventana (h).
0 = h
ah1
(1.66)
El resto de los pesos que conectan la capa de entrada con la primera capa oculta
corresponden a los valores de la variables regresoras en los centros, de modo que cada uno
de ellos resulta asociado a un nodo de la primera capa oculta.
1 j = X j ,
para j = 1, , N H
ah1
Siendo
{( X , Y )}
{W }
= Wi , Wi
NH
i =1
ah
i =1
ho
(1.67)
NH
i =1
ocasin una funcin tipo ncleo. De este modo, las salidas de los nodos de la primera capa
oculta resultan ser, en el caso unidimensional univariante,
ah
X w1i
X Xi
hi = K
= K
ah
ah
para i = 1, , N H
w0
w0
1
(1.68)
Los pesos que unen la primera capa oculta con el primer nodo de la segunda capa oculta
corresponden a los valores que toma la variable dependiente en los centros.
j1 = Y j ,
h1h2
para j = 1, , N H
(1.69)
En el primer nodo de la segunda capa oculta responde por lo tanto a (1.70). En el segundo
nodo se calcula un trmino relacionado con la estimacin ncleo de la funcin de
densidad, esto es, el denominador del estimador. La suma de los pesos ser unitaria.
1-34
h1 =
2
NH
wi 1
h1h2
i =1
ah
X w1i h h N X X i
= K
wi 1 = K
ah
ah
i =1
i =1
w0
w0
NH
1 2
Yi
(1.70)
ah
X w1i N X X i
h2 = K
= K
ah
ah
i =1
w0 i =1 w0
NH
(1.71)
Finalmente la salida divide ambos trminos, de modo que se obtiene (1.72), que
corresponde a la estimacin tipo ncleo.
ah
X w1i h h
K wah wii
2
h1
i =1
0
=
o= 2 =
ah
N
h2
X w1i
K wah
i =1
0
NH
1 2
X Xi
ah
Yi
i =1
w0
N
XX
K wah i
i =1
0
NH
(1.72)
E=
1
n
(Y
(1.73)
Este es un caso de aprendizaje supervisado, por correccin de error . Los nicos pesos
que se modifican durante el entrenamiento son los sesgo de la primera capa oculta, que
son todos iguales y coinciden con el parmetro ventana. En la metodologa ncleo la
eleccin de la ventana es un problema muy complejo que ha dado lugar a mltiples
estudios tericos. La expresin de la ventana involucra derivadas de la funcin que se
desea estimar, que son desconocidas, y por tanto han de ser estimadas. Luego, tras un
arduo estudio se obtienen valores aproximados del parmetro h, bien por un proceso
iterativo, bien eligiendo el valor que mejores resultados entre los de una rejilla. El
entrenamiento de esta red neuronal, Figura1.17, equivale a esa bsqueda de h.
La generalizacin al caso multidimensional se hace de modo natural. Slo es necesario
sustituir la distancia en el espacio unidimensional, por la correspondiente al espacio de
entradas. Por su parte la generalizacin al caso de respuestas mltiple (NO) se hara
diseando NO redes, cada una con variable dependiente unidimensional.
Para emplear durante el entrenamiento la regla delta generalizada es necesario que la funcin de error
sea diferenciable con respecto a los pesos que se van a modificar. En este caso durante el entrenamiento
slo variar el parmetro ventana. Luego la funcin ncleo empleada deber ser diferenciable. Eso no
significa que no se puedan trasladar a las redes los modelos que empleen el ncleo triangular, o el de
epanechnikov, entre otros, sino que habr que buscar otro mtodo de entrenamiento que no requiera la
hiptesis de diferenciabilidad.
1-35
h11
w1h11h2
w11ah1
h12
ah1
w01
h22
h1h2
11
ah1
1N H
1
NH
w0ahN1H
Figura 1.18. Red Neuronal para la Regresin de Nadaraya-Watson con ventana variable.
Consideramos una ventana 0 j ,que puede ser diferente para cada uno de los centros. En
ah
cualquier caso, si al final todos los centros influyen de igual modo en su entorno, el
entrenamiento obtendr ventanas similares. De nuevo durante el entrenamiento solamente
se modifican los sesgos. La actuacin de los nodos es la misma que en el caso anterior.
Luego, la salida de la red, y por tanto la estimacin de la variable respuesta responde a la
expresin (1.74). Esta generalizacin que surge de modo intuitivo coincide con un modelo
de regresin no paramtica conocido, el predictor de Nadaraya-Watson con ventana
variable.
ah
X w1i h h
wii
ah
1
w
h
i =1
0i
=
Y = o = 22 =
ah
N
h2
X w1i
K wah
i =1
0i
NH
K
H
1 2
X Xi
ah
Yi
i =1
w0 i
N
XX
K wah i
i =1
0i
NH
(1.74)
1-36
w1h11h2
h11
h12
w11h2 h3
w11ah1
h13
wNh2Hh31
ah1
1N H
h23
ah1
w01
w Nh1Hh2N H
h1N H
w0ahN1H
h N2 H
1
hN2 H +1
1 j = X j , jj = Y j
ah1
h1 h2
para j = 1, , N H
(1.75)
(1.76)
hi = hi wii
2
h1 h2
hN
+1
H
1 2
ah
X w1i N X X i
= K
= K
ah
ah
i =1
w0 i i =1 w0 i
NH
ah
X w1i h h
X Xi
wii = K
ah
ah
w0 i
w0 i
= K
Yi , con i = 1, , N H
(1.77)
1-37
(1.78)
h1 =
3
NH
wi 1
h2 h3
i =1
h2 = hN
3
ah
X w1i h h h h N X X i
= K
wii wi 1 = K
ah
ah
i =1
i =1
w0 i
w0 i
NH
1 2
+1
hh
Yi wi 1
2 3
ah
X w1i N X X i
= K
= K
ah
ah
i =1
w0 i i =1 w0 i
NH
2 3
(1.79)
(1.80)
=
o= 3 =
N
h2
X w1ahi
K wah
i =1
0i
NH
1 2
2 3
NH
X Xi
ah
Yi
w0 i
N
XX
K wah i
i =1
0i
K
i =1
wi 1
h2 h3
(1.81)
Esta estructura permite realizar un proceso equivalente modificar los valores de la variable
de respuesta, pero de modo que se puedan conservar al tiempo como pesos inalterados. De
nuevo se generalizan tanto el modelo inicial como la variante anterior. Este esquema
aumenta el nmero de pesos, pero se modifican tan slo las ventanas y las conexiones
entre la segunda capa oculta y el primer nodo de la tercera.
De este modo se solucionarn de modo natural los problemas derivados de una mala
eleccin de centros, en el sentido de que si las repuestas en los centros son atpicas la red
las modificara en busca de otros valores ms adecuados. Dicho de otro modo, se reajustan
los centros tomando como base el conjunto de entrenamiento.
1.4.1.9.4 Regresin Tipo Ncleo. Variante 3.
En la prctica resulta engorroso, y ms a la hora de realizar el aprendizaje, el arrastrar un
denominador, pues complica, en mayor o menor medida, la expresin de las derivadas de
la funcin de error con respecto a los pesos, y por lo tanto el proceso de entrenamiento. El
nico objetivo de este que tiene este trmino es el de normalizar la combinacin lineal.
Una alternativa puede ser obviar este elemento, y considerar la expresin sin normalizar.
Se pueden considerar pues, las expresiones sin normalizar tanto la versin fiel a la
regresin tipo ncleo, como las variantes 2 y 3. La diferencia radica entonces en
considerar como salida de la red el nodo en el que se calculan los numeradores, ms un
sesgo. De este modo se reducira el nmero de capas ocultas. Considrese a modo de
ejemplo la variante no normalizada asociada a la variante 1, a la que llamaremos variante
3.2 correspondera con el diseo de la Figura 1.20
1-38
h1
ho
w11
w11ah
w1ahN H
ho
wN H 1
hN H
ah
w01
w0ahN H
ho
w01
Figura 1.20. Red Neuronal para la Regresin Tipo Nucleo. Variante 3.2.
La estimacin de Y responde a (1.82), de modo que nuevamente se ha llegado de modo
intuitivo a un modelo conocido, el modelo de Priestley Chao (1972).
N
x 1ahi ho
x Xi
ho
o = 01 + K
i 1 = 01 + K
ah
ah
Yi
i =1
i =1
0 i
0 i
NH
ho
(1.82)
Se podra pensar en mantener la expresin sin sesgo y tratar de normalizar los pesos
durante el entrenamiento, empleando multiplicadores de Lagrange (Bertsekas, 1999) en la
funcin de error. El problema radica en que los pesos asociados a la variable respuesta del
centro j, (1.83), dependen del punto X en el que se est estimando.
X Xi
ah
w0 i
para j = 1, , N H
(1.83)
Esto hace que no sea posible que las sumas sean unitarias para todas las observaciones del
conjunto de entrenamiento.
1.4.1.10 Regresin del k-simo vecino ms cercano
Otro mtodo muy usual en la regresin tipo ncleo consiste en realizar una seleccin dentro
del conjunto de centros que depender del el valor de X , esto es del punto en que se desee
estimar la variable dependiente; el subconjunto de centros est constituido por los k centros
con valores ms prximos al punto de estimacin (Hart, 1968; Dasarathy, 1991). Como antes,
existe la hiptesis intuitiva de que la dependencia disminuye al aumentar la distancia. Al
elegir los datos que estn ms prximos se evita de algn modo la posibilidad de que en el
entorno determinado por el parmetro ventana no se encuentren puntos de la muestra de
centros. Pero al tiempo se generan problemas derivados de la posibilidad de que seleccionar
pocos puntos en un entorno muy saturado de centros, perdiendo parte de informacin, o por
el contrario que en un entorno despoblado sea necesario seleccionar puntos muy alejados,
que pueden no contener informacin relevante. El papel asignado al parmetro ventana recae
ahora en el parmetro k. EL valor de k est relacionado de modo directo con el valor del
1-39
1 k X
Y = Yi
k i =1
con
(1.84)
Escribir este proceso en forma de red neuronal resulta sencillo. En primer es necesario
transformar el conjunto de entrenamiento, para considerar en l las distancias a los knn
puntos ms prximos del conjunto de centros (que suele ser el resto del conjunto de
entrenamiento), y los valores respuesta en esos puntos. Hasta este momento cuando se
consideraba una observacin del conjunto de entrenamiento se consideraba un par de
variables aleatorias (en estos ejemplos unidimensionales). Al pasar al nuevo conjunto de
entrenamiento la entrada pasar a ser (1.85), empleando la siguiente notacin.
di
(1 i knn )
Yi
(d
X
1
X
X
, d 2X , , d knn
, Y1X , Y2X , , Yknn
,Y )
1
knn
Y1 X
Yi
(1.85)
1
knn
1
knn
X
Y knn
1-40
Y1 X
Yi X
w1aoa
wiao1
ao
wknn
1
X
Y knn
Figura 1.21. Red Neuronal la Regresin del k-simo vencino ms cercano. Variante 1
Si la influencia de todos los puntos es la misma, los pesos tendern durante el
entrenamiento a igualarse entre s, sumando uno. Se puede, asimismo, aadir un trmino
de sesgo a la combinacin lineal, que, en caso de ser innecesario, tendera a cero.
1.4.1.10.2 Variante 2.
Hasta este punto no se ha considerado relevante la distancia a la que se encuentran esos k
puntos ms cercanos, pero resulta intuitiva su relevancia. Se podran considerar los vecinos
como los centros, pero no es posible asociar los valores de la variable respuesta en cada
centro como pesos puesto que los centros varan en funcin del punto de estimacin, luego
es necesario introducirlos como entradas. Se puede considerar la misma ventana (Variante
2.1), o ventanas distintas (Variante 2.2); adems es posible considerar como modificables
los valores de la variables en los puntos ms prximos o mantenerlos fijos.
En este caso parece suficiente con considerar una nica ventana. En otro caso se asociara
cada vecino a una ventana diferente, de modo que a un mismo nodo se le podran asociar
distintas ventanas, segn el punto de estimacin. Con el fin de que los pesos tengan suma
unitaria se normaliza la combinacin lineal.
Tanto las entradas como las salidas son consideradas entradas de la red, pudindose variar
las respuestas a travs de nuevos pesos en la red.
La Figura 1.22 muestra el esquema de la Variante 2.1. Se muestra en detalle el
funcionamiento de la red a travs de las ecuaciones de los diferentes nodos de las
sucesivas capas.
1-41
d1x
Y1
h11
h12
1
2
w 11h2 h3
w0ah
x
d knn
h23
h2 h3
w knn
1
h21knn1
1
2
hknn
x
Yknn
h13
h21knn
1
2
hknn
+1
Figura 1.21. Red Neuronal la Regresin del k-simo vencino ms cercano. Variante 2.1
El comportamiento de la primera capa oculta es,
h2 i 1
d ix
= K ah
0
para i = 1,
(1.86)
, knn
h2 i = Yi
1
para i = 1,
(1.87)
, knn
d ix x
Yi
ah
0 i
hi = h2 i 1 h2 i = K
2
knn
hknn +1 =
2
h2i 1 =
1
i =1
para i = 1,
, knn
(1.88)
d ix
ah
0 i
knn
K
i =1
(1.89)
h1 = hi wi 1
3
h2 h3
i =1
d iX X h h
= K ah Yi wi 1
i =1
w0
knn
2 3
h2 = hknn +1
3
(1.90)
(1.91)
Y =o=
h1
i =1
h2
h2 h3
Si los wi 1
= 1,
d iX X h h
Yi wi 1
ah
w0
knn
d iX
K wah
i =1
0
2 3
(1.92)
que fue desarrollado por Stone (1977). Se podran considerar ambas opciones, normalizar o
1-42
Tanto las respuestas de Duda como los Outliers tienen gran importancia en las aplicaciones
prcticas. Se desea encontrar el clasificador que menos error cometa. Para establecer ese error
es necesario establecer una funcin de pesos asociados a los errores. Ha de haber un coste de
compromiso entre la tasa de duda y la tasa de error. Surgen dos cuestiones, por una parte
elegir el mejor clasificador, y por otra seleccionar las caractersticas adecuadas para la
clasificacin.
Esta teora se mueve en el mbito del Reconocimiento Muestral Estadstico (Duda et al., 2001;
Fukunaga, 1990; Tou y Gonzlez, 1974), donde no de hacen suposiciones estructurales, y toda
la estructura del clasificador la proporcionan los datos (conjunto de entrenamiento).
El ser humano adems de los vectores de caractersticas suele tener en ocasiones
conocimientos cualitativos acerca de cierta tarea, (slo una caracterstica es material, o que la
probabilidad de un resultado aumenta en alguna caracterstica continua). S pueden disear los
clasificadores para que sean coherentes con esta informacin. Se busca un clasificador, el
mejor dentro de la clase que se seleccione. Resulta necesario clarificar qu es un clasificador.
Se determinan K clases a las que pueden pertenecer los ejemplos de un conjunto de
observaciones; estas observaciones vienen determinada por un vector de caractersticas X
X, con X espacio medible, en general X
NI
1-43
X =x
NI
Clasificador
{1, 2, K , D}
(1.93)
(1.94)
Pd( k ) = P {C( x ) = D C = k }
(1.95)
Pmc = P C( x ) C, C( x ) {1,... , K }
(1.96)
Pd = P {C( x ) = D}
(1.97)
L ( k , k ) = 0, k {1, 2, , K }
L (k, l )
, k , l {1, 2, , K }
L ( k , D ) = d , k {1, 2, , K } , con d 0
En el caso en que todas clasificaciones incorrectas tengan la misma gravedad, entonces una
eleccin razonable sera
0 si l = k (decisin correcta)
L (k, l ) =
d si l = D (dudamos), con d 0
1-44
(1.98)
R ( C, k ) = E [ L ( k , C ( x ) ) C = k ] =
K
= L (k , l ) P (C ( x ) = l C = k ) + L ( k , D ) P (C ( x ) = D C = k ) =
(1.99)
l =1
= Pmc ( k ) + d Pd ( k )
El riesgo total es la prdida total esperada, considerando tanto la clase, k, como X ,
aleatorios.
K
k =1
k =1
R ( C ) = E R ( C, k ) = k Pmc ( k ) + d k Pd ( k )
(1.100)
En general se buscan clasificadores que minimicen el riesgo total, o a buscar la clase que
maximice su probabilidad condicionada. Aplicando la funcin de prdida (1.98) a x , se tiene,
P (k x ) = P (C = k X = x ) =
k pk ( x )
K
p ( x )
l
, k {1, 2, , K }
(1.101)
l =1
C(x) =
D en otro caso
inferencia estadstica y por tanto surge la posibilidad de aplicar redes neuronales. El objetivo
consiste en estimar esas probabilidades como funcin de las observaciones. Todos los mtodos
analizados en la seccin previa tratan de estimar una funcin que dependiente de unas
entradas, como en este caso, por lo que se puede trasladar cualquier modelo anterior al mbito
de la clasificacin.
La diferencia radica en que la funcin de error es el riesgo total, pues no se dispone de una
variable objetivo (en ningn caso se conoce el valor de las densidades que deseamos estimar).
A la hora de modelizar las densidades de las clases y las probabilidades condicionadas se
presentan dos posibles enfoques: el Modelo Ejemplarizante y el Modelo de Diagnstico. Ambos
1-45
( X , C)
vector de
caractersticas y clasificacin.
En el Modelo Ejemplarizante el inters se centra en estimar
pk ( X ) . Se tiene que
1-46
X1
Xi
X NI
Figura 1.22. Red Neuronal para el Anlisis Discriminante Flexible
Siendo g una subred que reproduce cualquiera de los mtodos expuestos con anterioridad.
1.5.3 Mtodos de Clasificacin No Paramtricos
1.5.3.1 Estimacin de la Densidad Tipo Ncleo
La estimacin de la densidad tipo ncleo (Silverman, 1986; Scott, 1992; Cao et al., 1994)
responde a la idea de que, siendo Y {0,1} el indicador de la pertenencia a un grupo, la
probabilidad de que un nuevo punto pertenezca al conjunto se puede estimar como una
combinacin lineal de los valores que toma una funcin ncleo, aplicada a las distancias de
ese punto a unos centros significativos de esa clase. De nuevo se emplean funciones tipo
ncleo, de las que ya se seal que suelen ser simtricas, estar acotadas e integrar uno. Esta
ltima propiedad har que los estimadores basados en ellas que se van a emplear tambin
integren uno, algo fundamental en un estimador de una funcin de densidad. La estimacin
en el caso multidimensional responde a la expresin (1.102), mientras que para el caso
unidimensional basta con sustituir la norma por el valor absoluto.
1 M
Y = K h ( X X i
n i =1
)=
nh
i =1
X Xi
h
(1.102)
1-47
0 = h
ah
(1.103)
{ }
para j = 1, , N H , esto es , { X i }i =1 = Wi
1 j = X j ,
NH
ah
ah
NH
(1.104)
i =1
(1.105)
ah
1 N
Y = o = K
n j =1
H
ah
X 1 j
( X 1 j ) = ah K ah
N H 0 j =1 0
ah
ah
NH
(1.106)
Para generalizar esto al caso multidimensional basta con cambiar a una distancia en un
espacio multidimensional.
h1
1
NH
w11ah
X
w1ahN H
1
NH
hN H
w0ah
w0ah
1
Figura 1.23. Red Neuronal para la Estimacin de la Densidad Tipo Ncleo Unidiomensional
1.5.3.1.1 Estimacin De La Densidad Tipo Ncleo. Variante 1.
Si se considera la posibilidad de que las ventanas puedan ser diferentes para cada uno de
los centros, se generaliza el caso anterior; es posible que si todos los nodos influyen de
igual modo en su entorno lleguen a tener todos la misma ventana asociada. De nuevo
podemos considerar la opcin de variar las ventanas segn el centro que se considere.
1-48
1 N
Y = o = K
n j =1
H
ah
X 1 j
( X 1 j ) = N ah K ah
H j =1
0j
0j
ah
ah
0i
NH
(1.107)
h1
1
NH
ah
11
X
w1ahN H
1
NH
hN H
w0ah1
w0ahN H
1-49
h1
11ho
w11ah1
X
w1ahN1H
ah
w01
ho
NH1
hN H
w0ahN H
1-50
[ x r, x + r ]
p = P ( x r < X < x + r)
nP ( x r < X < x + r ) = n
(1.108)
x+r
(1.109)
f ( t ) dt
xr
Esta esperanza puede se aproximada por 2 nrf ( x ) .Un estimador natural responde a (1.110).
nmero de centros en ( x r , x + r )
f ( x ) =
2nr
(1.110)
k
f ( x ) =
2nr
(1.111)
knn
X
d knn
Figura 1.26. Red Neuronal para la Estimacin de la Densidad Tipo Ncleo Unidimensional.
Variante 2.
o=
knn
X
2nd knn
(1.112)
1-51
X1
h1
w1hok
hj
w ho
jk
ah
1N H
o1
X1
ok
Xk
oNI
X NI
X2
w2ahN H
ah
iN H
Xi
wNhoH k
hN H
wNahI N H
X NI
hj =
NI
ah
ij
X i , para 1 j N H
(1.113)
i =1
ok =
NH
ho
jk
hj
para k = 1,
(1.114)
, NI
j =1
1-52
X1
w11ao
o1
wiao1
ok
Xi
wNaoI 1
o NO
X NI
1-53
1-54
(Rudin,
L ( ) = g : / g ( x ) ( x )dx <
2
(1.115)
Al ser un conjunto generador se tiene que cualquier funcin del conjunto puede ser escrita
como una combinacin lineal de los elementos de la base.
{ci } / f ( x ) = ci i ( x ) , f L2 ( )
(1.116)
i =1
Se puede aplicar tanto a funciones de regresin como a densidades. Los parmetros ci resultan
ser una esperanza
ci =< f , i > = E [ i ( x ) ( x )]
(1.117)
Por lo tanto estos valores pueden ser estimados sin ms que sustituir la media terica por la
muestral. El proceso se detendr en algn trmino S
f ( x ) =
c ( x )
i
(1.118)
i =1
Esta expresin generaliza el desarrollo en series de Fourier (Spivak, 1980; Strichartz, 1995;
Askey y Haimo, 1996.)
El parmetro S cumple la funcin que desempearon en su momento los parmetros h, y k. Este
estimador es, por construccin, aquel que minimiza el error cuadrtico medio.
La traslacin a redes neuronales se muestra en la Figura 1.28. Las capas ocultas se encuentran
ntimamente relacionadas con las distintas funciones de la base.
h1
w11ho
X
1
hS
w Sho1
hi = i ( x ) , para i = 1, S
S
o=
ho
i1
i =1
hi =
ho
i1
(1.119)
i ( x ), para i = 1, S
(1.120)
i =1
1-55
(1.121)
Sera el desarrollo de una funcin como Serie de Fourier; como los coeficientes de Fourier
estn definidos para subndices positivos y negativos, las sumas podran extenderse en ambas
direcciones (truncadas en S). En ocasiones los modelos se combinan. Por ejemplo, es posible
emplear un desarrollo en series de Taylor truncado como si fuese un ncleo, y luego emplearlo
en los esquemas de regresin o en los de estimacin de la densidad, como cualquier otra
funcin tipo ncleo. (Ripley,1996)
Asociados a los desarrollos en series de Taylor surgen los ncleos de Dirichlet (1.122) y de Fejr
(1.123) (Silverman, 1973; Spivak, 1988; Apostol, 1991)
K ( x) =
K ( x) =
sen [ ( 2 S + 1) x ]
(1.122)
sen ( x )
1
S +1
sen [ ( 2 S + 1) x ]
(1.123)
sen ( x )
En los modelos tipo ncleo la estimacin de la variable respuesta (que puede ser 1 0 en la
estimacin de la densidad) se obtiene como combinacin lineal de los valores en todos los
centros o en los k ms prximos, con los coeficientes dependientes de las distancias en virtud
de una funcin tipo ncleo. Si se considera una funcin f se obtiene la expresin:.
f (d ) Y
N
Y =
+ X
(1.124)
i =1
Siendo N bien el nmero total de nodos (NH), bien los ms cercanos (knn).
Podra considerarse para f cualquier funcin con mximo en cero. Se podra aproximar a travs
de cualquier familia de aproximadores universales, por ejemplo, por desarrollos ortogonales. Es
posible asimismo incorporar a esa funcin un parmetro ventana (o varios). La estimacin de f
funcionar como un ncleo (de Dirichlet, de Fejr, ...). Tambin sera una opcin la utilizacin
de cualquier base, no slo las ortogonales, pero estas bases llevan asociados problemas de
dependencia.
1.7.2 Funciones Sigmoideas
Teorema1. Si se consideran el conjunto de las funciones f C ( I N ) con I N = [ 0, 1]
NI
una funcin continua y sigmoidea, i.e. funcin real de variable real, con lim ( x ) = 1 , y
lim ( x ) = 0 , se tiene que dado un > 0 ,existe una suma finita de la forma
x +
f ( x ) = f x1 , , x N
) =
NH
ho
j1
j =1
NI
1-56
(1.125)
NI
h j = ij X i + 0 j
o=
ah
i =1
NH
ah
ho
j1
para j = 1,
(1.126)
, NH
h j + j1
ho
(1.127)
j =1
y = 01 +
ho
NH
ah
x Wi
ah
0
i1 K
ho
i =1
(1.128)
{W }
NH
i =1
= Wi , Wi
ah
ho
NH
i =1
1-57
un
conjunto
de
datos
disponibles
(informacin),
distribuciones
de
probabilidad
1-58
1.9 Resumen
Se ha podido estudiar en este captulo que muchos mtodos estadsticos, desde los ms clsicos
a los ms vanguardistas, pueden ser reescritos desde la perspectiva de las redes neuronales. En
algunos casos, stas plantean variantes que pueden ser de inters, mientras que en otros casos
no aportan novedades sobre los modelos ya conocidos. Las redes son herramientas amplias de
trabajo, que no requieren ningn conocimiento sobre los datos, y es por ello que se han hecho
tan populares. Pero se siguen necesitando estudios ms minuciosos sobre su eficiencia y
consistencia, y sobre los problemas derivados de los mtodos de entrenamiento empleados. No
debemos abandonar alegremente los planteamientos tericos de las redes neuronales. Bien es
cierto que no requieren ningn tipo de explicacin del modelo, que puede incluso parecer
incomprensible (ventanas negativas,...), pero esto es al tiempo una ventaja y un
inconveniente.
1-59
1-60
J.
Neumann,
M.H.
(1998):
Bootstrapping
neural
networks,
Report
in
1-61
1-62
1-63
1-64
2.1 Introduccin
Las redes neuronales artificiales (RNA) son, como se mostr en el captulo anterior, una
herramienta muy til para el anlisis de datos. Su uso se hace de particular inters cuando
desconocemos por completo la estructura del fenmeno subyacente a los datos que tratamos
de analizar, el campo de la estadstica no paramtrica.
intentan explicar problemas fsicos complejos cuyo estudio requiere determinar los valores de
muchos parmetros, no siempre fciles de estimar a partir de las observaciones reales. En estos
casos, se pueden obtener redes neuronales que suplan o complementen a los modelos fsicos
que reproducir y explicar un determinado fenmeno. En general se pueden construir y disear
redes que simulen el comportamiento del fenmeno fsico en cuestin, de modo que los
parmetros desconocidos se estimen durante el proceso de entrenamiento. Alternativamente se
puede considerar un modelo general, y en base a las propiedades de aproximador universal que
presentan las redes neuronales con determinada estructura, tal y como se coment en el
capitulo 1, (Cybenko, 1989; Hornik et al., 1989; Park y Sandberg, 1991, Castro et al., 2000),
encontrar la red que reproduzca el fenmeno que se desea estudiar.
2-1
2-2
2-3
FERVENXA
PUENTE
OLVEIRA
CASTRELO
SANTA
EUGENIA
OCANO
ATLNTICO
Rio Xallas
2-4
l/m d
25
20
15
10
5
0
01/91 09/91 05/92 01/93 09/93 05/94 01/95 09/95 05/96 01/97 09/97 05/98 01/99
MFR
MSER
2-5
BZ t = Z t1 , for all t ]
Bc = c , for all c \ , constant
(2.1)
siendo
(2.2)
la serie de ruido que tiene una distribucin normal de media cero y varianza
(t )
constante (2.3). De este modo el modelo AR(p) puede expresarse como (2.4).
t N ( 0, ( t ) )
(2.3)
(1 ( B ) ) Z
(2.4)
= t
p
p = ai B i
i =1
Los modelo de media mvil, MA, de orden q, suponen que el comportamiento de Zt presenta
dependencia lineal respecto de los ltimos q valores de la serie de ruido. Puede expresarse
como (2.5) o equivalentemente (2.6).
Z t = m1 t 1 + " + mq t q + t = m1 B t + " + mq B q t + t =
2-6
m B
j =1
t + t
(2.5)
Z t = (1 + q ( B ) ) t
(2.6)
i =1
j =1
Zt = ai Zt i + m j t j + t
(2.7)
Z t = (1 B ) Z t = Z t Z t 1
(2.8)
p Z t = (1 B p ) Z t = Z t Z t p
(2.9)
i =1
i =1
i =1
i =1
) p es
ep b Z t = ai Z t i + ci t i + d i Z t i p + f i t i p + t , con t N ( 0, ( t ) )
(2.10)
2-7
{Z t } ,
usando la serie
k =0
i =1
i =1
i =1
i =1
ep b Z t = ri X t k + ai Z t i + ci t i + di Z t i p + fi t i p + t
(2.11)
Para todos estos modelos de anlisis de serie de tiempo, bajo la hiptesis de normalidad,
pueden construirse intervalos de prediccin. sta es una de las ventajas del acercamiento
estadstico frente al acercamiento a travs de modelos matemticos, la posibilidad de construir
intervalos de prediccin y confianza, basados en la presuncin de normalidad y en la estructura
del modelo de serie de tiempo. Estos intervalos de prediccin proporcionan lmites de
seguridad al modelo y permiten asociar una cantidad significativa de datos fuera de los
intervalos de prediccin con cambios de la estructura fsica del sistema hidrolgico en estudio,
cambios que tienen consecuencias serias en el funcionamiento del modelo de serie de tiempo, y
har necesario una reevaluacin de la estructura modelo y de los parmetros del mismo.
2.2.2 Los modelos seleccionados
Se ha realizado un estudio completo de la escorrenta o caudal medio mensual medido en las
presas de Fervenza y Santa Eugenia. La seleccin de modelos y la estimacin de los parmetros
fue hecha a partir de los datos registrados entre enero de 1991 y agosto de 1999. El
funcionamiento de los modelos fue evaluado usando los datos mensuales desde septiembre de
1999 a septiembre de 2000, aproximadamente el ltimo el 10% de los datos disponibles. Se
dise una aplicacin en MS.Excel cada modelo, con prediccin multirretardo de hasta 15
datos, para hacerlo disponible para el usuario en futuras predicciones.
El nmero mximo de retrasos, quince, fue seleccionado para obtener las predicciones del
nuevo ao hidrolgico con tres meses de adelanto. Estos tres meses proporcionan el tiempo
suficiente para preparar los proyectos de explotacin para el prximo ao. La aplicacin tena
adems disponible la construccin de intervalos de prediccin, con nivel de confianza
seleccionado por el usuario. Los modelos desarrollados se realizaron sobre las variables
originales o sobre transformaciones Box-Cox (Box y Cox, 1964) de las mismas, y sobre variables
estandarizadas.
2-8
X t = log( MMFROt )
(2.12)
(2.13)
El
modelo
Box-Jenkins
seleccionado
para
las
aportaciones
de
Fervenza
es
un
ARIMA ( 0, 0,1) (1,1,1) 12 ,(2.14), siendo k una constante que permite considerar la evolucin
de los valores medios de los datos. Se puede observar que el modelo recoge la estacionalidad
anual del clima, y en consecuencia de las aportaciones registradas.
X t = X t 12 + c1 t 1 + f1 t 12 + t + k
(2.14)
Zt = (1 + d1 ) Zt 12 + c1 t 1 + f1 t 12 + t + k
(2.15)
(2.16)
(2.17)
2-9
(2.18)
Una vez modelizadas las series de lluvias se ha estudiado la dependencia entre las series de
lluvia y las de aportaciones. Los modelos resultantes fueron los siguientes. Las aportaciones
de Fervenza pueden explicarse a travs de un modelo ARIMA ( 0, 0, 0 ) (1, 0, 0 ) 12 ,(2.19),con
constante, y con tres variables regresoras que han resultado diferentes retardos de la lluvia
en Fervenza; la lluvia en el mes que se desea predecir, MRFt, en el mes previo, MRFt-1, y el
ao anterior, MRFt-12.
(2.19)
Z t = a1 Z t 1 + r0 MFRt + s0 MSERt + t + k
(2.20)
se ha considerado la idea de
X t = SMMFROt
(2.21)
Z t = SMMSEROt
(2.22)
Yt = a1 Yt 1 + t + k
(2.23)
Tanto para Yt = X t como para Yt = Zt . Las variables estandarizadas han perdido su
componente peridica.
2-10
(2.24)
Zt = a1 Zt 1 + d1 Zt 12 + r0 MPORt + s MSERt + t + k
(2.25)
2.3 Modelizacin diaria de las aportaciones. Redes neuronales frente a Modelos BoxJenkins
Se consideran en este estudio dos horizontes de prediccin, tal y como se comentaba en la
introduccin. El horizonte a medio plazo o mensual ha sido satisfecho ampliamente con el uso
de modelos clsicos de prediccin de series temporales, pero al estudiar el problema a corto
plazo se ha decidido enfocar el problema desde dos perspectivas diferentes, con el fin de
comparar la accin de las redes neuronales en la prediccin de variables continuas en series
temporales, con la de los modelos Box-Jenkins. Los modelos Box-Jenkins han sido comentados
en la seccin anterior, por lo que en esta seccin se dedicar un apartado a ampliar algunos de
los conceptos introducidos en el captulo inicial de la presente tesis.
2.3.1 Detalles sobre Redes Neuronales Artificiales.
En el primer captulo se realiz una introduccin a las redes neuronales, sus objetivos,
metodologas, estructuras y propiedades. En esta seccin se reforzarn algunas ideas,
asociadas a la prediccin de variables continuas en general, y aplicables al problema de
prediccin que se trata en particular.
2-11
2-12
(2.26)
Z 2 t = DFRt -1
(2.27)
Z 3t = DFRt
(2.28)
Z 4t = MDFROt 1
(2.29)
Z 5t = MDFROt
(2.30)
i =1
2-13
X = log( Z + 1)
(2.31)
Esta transformacin fue considerada necesaria por la variabilidad de los datos. La lluvia
muestra a menudo un comportamiento catico, y la transformacin propuesta permite suavizar
los datos. La traslacin como ya ocurra en alguno de los datos mensuales es debida a los
problemas que presenta el logaritmo en el cero. El anlisis de datos muestra la alta
dependencia de la escorrenta de un da con la lluvia y la escorrenta del da anterior. La idea
de aadir como trmino la lluvia acumulada surge de la bsqueda de una variable que refleje
de modo realista la situacin de humedad del sistema hidrolgico. No se han empleado datos
de lluvia correspondientes a otros pluvimetros porque la gran dependencia entre las distintas
variables de lluvia podra constituir una fuente de problemas durante el problema de
entrenamiento. La correlacin entre la lluvia de Fervenza y Santa Eugenia alcanza el valor de
0.88, entre Fervenza y Puente Olveira llega a 0.96, y entre Santa Eugenia y Puente Olveira es
de 0.91.
2.3.3 El Modelo de Red Neuronal Artificial Propuesto
Se ha empleado un perceptrn multicapa con una capa oculta, otro con una capa oculta
funcional. Ambas arquitecturas proporcionan aproximadores universales (Chen y Manry, 1993).
El perceptrn con una capa funcional es una red basada en las propiedades de la familia
funcional asociada a la capa oculta. El origen de esta idea se basa en la existencia de familias
de funciones que generan espacios de funciones suaves (Harmuth, 1972), tal y como se
comentaba en el captulo1. La relacin entre las entradas y las salidas se supone que
pertenece a un espacio de funciones suaves, en el que la familia que genera la capa oculta es
densa. La exactitud de la aproximacin depende directamente del nmero de funciones de la
familia seleccionadas, que a su vez viene establecido por el nmero de nodos de la capa
oculta. Cada dato de entrada es transformado de modo individual por todo el subconjunto de
funciones, de modo que si se considera un subconjunto de S funciones y se tienen NI variables
de entrada, el nmero de nodos de la capa oculta ser (2.32).
NH = NI S
(2.32)
En este caso se ha empleado una base de funciones polinmicas, de modo que se tiene una
capa funcional polinmica. El grado del polinomio coincide con S. La funcin de transferencia
en la capa de salida es la identidad. Cada subconjunto de funciones es la funcin de
transferencia de NI nodos de la capa oculta. Los pesos entre la capa de entrada y la oculta
valen 1 y no sern cambiado durante el entrenamiento. El valor de S aumentar hasta que el
aumento de S no genere una mejora en el funcionamiento de la red.
El modelo seleccionado fue un perceptrn con una capa polinmica de grado S=2. El algoritmo
de backpropagation fue el empleado par el entrenamiento, al disponer de una funcin de error
y funciones de activacin diferenciables, (Rumelhart, 1986). La salida de la red responde a
(2.33), donde los Xi responden a (2.31). Esto hace que para la estimacin de las aportaciones
2-14
(2.33)
Z = e 1
(2.34)
o
Z 5 = o NN = e NN 1
(2.35)
j =1 i =1
(2.36)
Z5( t 1) = Z 4t
(2.37)
Z3(t 1) = Z 2t
(2.38)
15
Z1t = Z3(t i )
(2.39)
i =1
(2.40)
i =1
15
(2.41)
i =21
oBJ = a1Z 5( t 1) + r1
15
Z3(
i =21
t i )
+ ( r1 + r2 ) Z3(t 1) + r3 Z3t
(2.42)
{ }
MAE =
1 N
Yt Yt
N t =1
(2.43)
2-15
MaxAE = max Yt Yt
Las tablas 2.1 a 2.4 muestran el error de cada modelo en cada mes. La tabla 2.5 resumen al
informacin de las tablas anteriores.
MaxAE
ENE
FEB
MAR
ABR
MAY
JUN
JUL
AGO
SEP
OCT
NOV
DEC
MODELO 1
25.70
17.31
24.31
31.22
14.05
5.28
10.78
1.29
3.61
20.75
17.62
13.87
MODELO 2
16.66
12.57
19.97
8.66
11.58
8.41
13.78
5.62
10.88
15.33
10.68
14.89
MODELO 3
23.68
13.30
20.96
25.58
12.83
4.85
8.39
1.14
3.56
10.43
16.13
22.74
MODELO 4
19.80
17.35
19.46
16.10
9.70
5.16
10.35
1.37
2.91
7.22
18.49
28.29
Tabla 2.1 Mximo error de los diferentes modelos en cada mes en Fervenza
MAE
ENE
FEB
MAR
ABR
MAY
JUN
JUL
AGO
SEP
OCT
NOV
DEC
MODELO 1
12.49
7.28
7.73
7.95
6.41
2.70
1.85
0.73
1.53
5.96
8.25
8.32
MODELO 2
8.89
5.77
8.04
5.03
4.77
3.43
35.34
3.30
3.49
6.41
5.57
8.94
MODELO 3
12.88
6.69
7.65
10.24
5.13
2.26
1.79
0.51
1.47
5.57
6.64
8.10
MODELO 4
10.42
6.19
6.81
7.94
4.11
1.59
2.26
0.50
1.21
4.60
7.85
13.60
Tabla 2.2 Error absoluto medio de los diferentes modelos en cada mes en Fervenza
MaxAE
ENE
FEB
MAR
ABR
MAY
JUN
JUL
AGO
SEP
OCT
NOV
DEC
MODELO 1
21.94
15.77
17.70
25.03
15.29
5.56
0.99
1.50
5.97
13.27
10.95
16.98
MODELO 2
17.65
19.12
12.86
19.51
14.92
4.89
2.51
4.53
6.24
14.03
10.98
21.30
MODELO 3
22.81
17.97
15.53
11.00
12.98
9.81
15.14
6.04
10.10
13.57
9.64
18.85
MODELO 4
14.09
11.76
13.17
11.01
12.39
4.93
0.93
1.90
3.74
9.83
14.12
34.43
Tabla 2.3 Mximo error de los diferentes modelos en cada mes en Santa Eugenia
MAE
ENE
FEB
MAR
ABR
MAY
JUN
JUL
AGO
SEP
OCT
NOV
DEC
MODELO 1
9.76
7.31
5.88
7.58
5.06
1.80
0.42
0.61
2.42
4.88
7.95
9.68
MODELO 2
8.22
6.35
7.02
5.36
7.12
3.25
3.41
3.78
2.98
4.76
6.52
12.69
MODELO 3
9.11
7.33
7.58
4.71
6.13
4.10
3.36
2.74
3.40
5.41
4.72
8.28
MODELO 4
7.45
5.11
4.00
4.56
3.71
1.50
0.53
0.56
1.77
5.18
7.44
15.50
Tabla 2.4 Error absoluto medio de los diferentes modelos en cada mes en Santa Eugenia
2-16
MEJOR
ENE
FEB
MAR
ABR
MAY
JUN
JUL
AGO
SEP
OCT
NOV
DEC
MaxAE
M. 2
M. 2
M. 4
M. 2
M. 4
M. 3
M. 3
M. 3
M. 4
M. 4
M. 2
M. 1
MAE
M. 2
M. 2
M. 4
M. 2
M. 4
M. 4
M. 3
M. 4
M. 4
M. 4
M. 2
M. 3
MaxAE
M. 4
M. 4
M. 2
M. 3
M. 4
M. 2
M. 4
M. 1
M. 4
M. 4
M. 3
M. 1
MAE
M. 4
M. 4
M. 4
M. 4
M. 4
M. 4
M. 1
M. 4
M. 4
M. 2
M. 3
M. 3
MODELO
F.
S.E
Tabla 2.5 Tabla resumen. Mejor modelo para cada presa y cada criterio
Las figuras 2.3 a 2.6 muestran las comparaciones de las series observadas y las predicciones
realizadas con los modelos 1 a 4, desde enero de 1992 a septiembre de 2000. A causa de la
estructura peridica de algunos modelos, no se obtuvieron predicciones de los primeros datos,
por lo que se omitieron los datos del ao 1991 de las grficas. Los primeros modelos de
Fervenza y Santa Eugenia son los ms sencillo, y los cuartos los de regresin dinmica, ms
complejos. El perodo de validacin es el ltimo ao, y el perodo anterior es el empleado para
estimar los parmetros.
(ENERO 1992-SEPTIEMBRE 2000)
Fervenza
80
70
60
50
40
30
20
10
0
01/92
01/93
01/94
01/95
01/96
MMSEO
01/97
01/98
01/99
01/00
MODELO 1
2-17
Fervenza
80
70
60
50
40
30
20
10
0
01/92
01/93
01/94
01/95
01/96
MMSEO
01/97
01/98
01/99
01/00
MODELO 4
Santa Eugenia
80
70
60
50
40
30
20
10
0
01/92
01/93
01/94
01/95
01/96
MMSEO
01/97
01/98
01/99
01/00
MODELO 1
Figura 2.5. Prediccin del Modelo 1 frente a la serie real. Santa Eugenia
2-18
Santa Eugenia
80
70
60
50
40
30
20
10
0
01/92
01/93
01/94
01/95
01/96
MMSEO
01/97
01/98
01/99
01/00
MODELO 4
Figura 2.6. Prediccin del Modelo 4 frente a la serie real. Santa Eugenia
2.4.2 Resultados Diarios
Con el fin de comparar el funcionamiento de los modelos Box-Jenkins y de las redes neuronales
se han considerado dos medidas de error, la media de los valores absolutos del error relativo,
MRAE, y el coeficiente de eficiencia, CE. La MRAE mide la tasa del error relativo cometido por
el modelo, y el CE proporciona una medida de la cantidad de varianza explicada por el modelo.
Se emplearon estas funciones para comparar el comportamiento de los modelos, no para
entrenar las redes ni estimar los parmetros de los modelos de series de tiempo. Las
expresiones explcitas responden a (2.45) para el MRAE y a (2.46) para CE (Nash y Sutcliffee,
1970)
1
MRAE =
( Y Y )
i
(2.45)
Yi
l =1
{ }
SY2 S e2
CE =
= 1
SY2
Se2
(2.46)
SY2
Se2 =
i =1
2
i
N
N
S =
2
Y
(Y Y )
N
i =1
(Y Y )
i =1
SY2 ,(2.48).
(2.47)
N
2
(2.48)
2-19
SECCIN ENTRENAMIENTO
300
250
200
150
100
50
0
16-11-92
01-12-92
16-12-92
pred RNA
31-12-92
pred BJ
15-01-93
30-01-93
DFRO
Figure 2.7. Predicciones de la red neuronal y del modelo de Box-Jenkins comparados con
el valor real, sobre el conjunto de entrenamiento
2-20
(16/11/2000 a 31/01/2001)
SECCIN VALIDACIN
300
250
200
150
100
50
0
16-11-00
01-12-00
16-12-00
pred RNA
31-12-00
pred BJ
15-01-01
30-01-01
DFRO
Figure 2.8. Predicciones de la red neuronal y del modelo de Box-Jenkins comparados con
el valor real, sobre el conjunto de validacin
En la figura 2.8 se pueden apreciar tres das (7 de diciembre, 5 y 26 de enero) en los que la
prediccin de la red presenta grandes diferencias con los valores observados. En estos tres das
las lluvias cadas tomaron los mayores valores en dcadas, de modo que en los ltimos 11 aos
no se encuentran registros similares. Esto muestra la necesidad de disponer de un conjunto
extenso de datos, para obtener buenas predicciones en cada situacin. La falta de exactitud en
esos das no se debe a la arquitectura de la red seleccionada, sino a las limitaciones del
conjunto de entrenamiento, que en este caso, al tratarse de un mtodo cuyo comportamiento
est determinado por los datos que se le presentan. Al no haber entrenado la red con valores
similares no es posible obtener una respuesta ptima en esta situacin extrema. Estos das de
grandes tormentas no son habituales, pero resulta evidente que son los ms importantes a la
hora de predecir. El funcionamiento de las redes neuronales a la prediccin de picos ha sido
estudiado en diversos trabajos, con resultados variables (Khalil, 2000; Maqsood et al., 2002).
2.5. Conclusiones
En este captulo se buscaba la comparacin entre modelos de redes neuronales y series de
tiempo a la hora de modelizar un proceso real de naturaleza continua.
Los modelos Box-Jenkins constituyen una metodologa adecuada el estudio del comportamiento
a largo plazo de variables hidrolgicas como la lluvia o la escorrenta. Los modelos estimados
proporcionan una herramienta til para, en base a estas estimaciones tomar decisiones
importante a la hora de planificar la generacin de electricidad a largo plazo. Esta
herramienta se implement en MSExcel para facilitar su uso.
El otro objetivo principal en el contexto hidrogrfico es mantener la seguridad de ncleos de
poblacin cercanos. El comportamiento a corto plazo de las variables hidrolgicas presenta un
perfil bastante errtico. Los modelos lineales de series de tiempo no obtienen buenos
2-21
2.6 Bibliografa
Abbot, M.B., Bathurst, J.C., Cunge, J. A., OConnell, P.E., Ramunsen, J. (1986) An introduction
to the European Hydrological System-Systeme Hydrologique Europeen, She: History and
philosophy of a physically based distributed modelling system . Journal of Hydrology, V.87, pp.
45-59.
Abrahart, R.J., See, L., (1998) Neural Networks vs ARMA Modelling: Constructing benchmark
case studies of river flow prediction.
(http://divcom.otago.ac.nz/sirc/GeoComp/GeoComp98/05/gc_05.htm)
Azoff, E.M. (1994) Neural Network Time Series Forecasting of Financial Markets. (1 Ed) John
Wiley and Sons.
Bishop, C. (1995) Neural Networks for Pattern Recognition, Oxford:Clarendon Press.
Box. G.E.P. y Cox, D. R., (1964) An analysis of transformations. J. R. Statist. Soc. B, 26, pp.
211-252.
Box, G.E., Jenkins, G.M. (1976) Time series analysis: forecasting and control. Reised Edition.
Box, G.E., Jenkins, G.M., Reinsel, G.C. (1994) Time Series Analysis: Forecasting and Control. (3
Ed.) Prentice Hall.
Brockwell, P.J., Davis, R.A. (2002) Introduction to Time Series and Forecasting. (2 Ed.)
Springer-Verlag.
Burke, L.I., (1991) Clustering caracterization of adaptative resonance. Neural networks, V.4(4),
pp. 485-491.
Castellano-Mndez,M., Gonzlez-Manteiga,W., Febrero-Bande,M., Prada-Snchez,J.M.,LozanoCaldern,R, (2004) Modelling of the monthly and daily behaviour of the runoff of the Xallas
river using box-jenkins and neural networks methods. Journal of Hydrology, V.296, pp.38-58.
2-22
2-23
2-24
2-25
3-1
3-2
3-3
Santiago
ESPAA
3-4
X1
w1ahN H
ah
iN H
Xi
w
XNI
w1hok
h1
ah
NI NH
hj
h NH
ah
0NH
w
1
w ho
jk
o1
Y1
ok
Yk
o NO
YNO
wNhoH k
w0hok
1
Figura 3.2. Perceptrn Multicapa con una capa oculta (NI-NH-NO) con NI variables de entrada
Xi, NH nodos en la capa oculta, NO predicciones ok y variables objetivo Yk
3.1.2.1 Redes Neuronales para datos con Respuesta Binaria.
La variable objetivo en este problema, Yt , es una variable binaria, esto es, esto toma slo
dos valores, uno o cero, es necesario, pues, seleccionar un topologa de redes adecuada a
esta caracterstica. En este caso el estudio se ha centrado en una familia especial de redes,
aquellas con nodos en la capa de salida sigmoideos, apropiada para el procesamiento de
daros con variable respuesta binaria.
En los problemas de prediccin el objetivo es acercarse sobre el valor esperado de la variable
objetivo condicionada por las variables independientes. Para variables objetivo binarias esta
esperanza es la probabilidad de que Yt tome valor uno, condicionado por los valores de
variables de entrada (Goldberger, 1973; Agresti, 1990). Esta probabilidad condicional puede
ser consideran como una funcin desconocida de las variables independientes, que toma
3-5
Y Log ( P ) + (1 Y ) log(1 P )
i
i
i
i
i =1
(3.1)
(3.2)
3-6
mcp = P (Y Y ) = MC I + MC II = P (Y = 1, Y = 0 ) + P ( Y = 0, Y = 1)
(3.3)
mcp = P (Y = 0 ) P (Y = 1 Y = 0 ) + P (Y = 1) P (Y = 0 Y = 1)
(3.4)
errorI = P (Y = 0 Y = 1)
(3.5)
errorII = P (Y = 1 Y = 0 )
(3.6)
mcp = P ( Y = 1) errorI
(3.7)
P ( A) =
+ P ( Y = 0 ) errorII
card ({ A ocurrs})
card ({all examples})
(3.8)
Se pueden considerar de modo separado el error tipo I(3.5), errorI, y el error tipo II (3.6),
errorII. El error tipo I es la probabilidad de que la prediccin sea 0 condicionado a que la
variable objetivo tome valor 1; en este problema equivale a la probabilidad de predecir que
el nivel de polen estar bajo un umbral cuando en ese da el nivel est sobre el umbral (falsa
seguridad). El error de tipo II, la probabilidad de estimar 1, condicionado para a que la
variable objetivo valga 0, en este caso es la probabilidad de predecir un da con un nivel de
polen sobre el umbral durante un da de nivel bajo umbral (falsa alarma). Es necesario un
equilibrio entre ambos errores. Por lo general se fija uno de los errores, y se selecciona el
clasificador que reduce al mnimo el otro error. Todas estas medidas de error se estiman a
partir de probabilidades empricas (3.8), sobre una coleccin de observaciones, F.
En muchos problemas reales, por ejemplo, ecolgicos, epidemiolgicos o problemas mdicos,
no se le asigna la misma importancia a los dos tipos de error, de modo que uno de los tipos
ha de ser penalizado. Una de las posibles causas es que los dos posibles valores de la variable
respuesta no se presenten en la misma proporcin. En muchos problemas las consecuencias
econmicas o para la salud de los falsos negativo son muy diferente de las consecuencias de
un falso positivo, por lo que es necesario penalizar de modo diferente ambos errores.
La deviance no distingue entre ambos tipos de error, lo que lleva a la red neuronal a alcanzar
un equilibrio paritario entre ambos errores empricos. En este problema, la proporcin de
das que toman valor 1 es muy pequea comparada a la proporcin de das con valor 0, por lo
que la desviacin no es la mejor opcin de funcin de error, por lo que se ha considerado
otra funcin de prdida. Se ha definido una nueva funcin de error (3.9), en la que se denota
por o la salida de la red, esto es, la probabilidad estimada, y por Y la variable objetivo
binaria.
(3.9)
Esta funcin penaliza ambos errores de modo independiente. El valor de las constantes K1 y
K2 determinar qu error es ms importante. Durante el entrenamiento est ser la funcin
que se intente minimizar, o de modo equivalente:
3-7
(3.10)
(3.11)
exp ( x )
1 + exp ( x )
(3.12)
(3.13)
(3.14)
MATRICES DE PARMETROS
ah
w01
ah
w11
ah
w21
ah
w31
(w
ho
01
ah
w02
w12ah
ah
w22
ah
w32
w11ho
ah
w03
w13ah
ah
w23
w33ah
ho
w21
ah
w04
w14ah
ah
w24
ah
w34
ho
w31
ah
w05
ah
w15
ah
w25
ah
w35
ho
w41
ho
w51
)
3-8
NIVEL 20
0.752
1.643
0.391
1.938
( 0.109
NIVEL 70
1.430
1.375
1.846
0.657
1.282
1.685
1.022
0.335
0.250
0.530
0.545
0.858
0.748
0.145
0.082
0.158
1.530
0.174
1.323
0.006
0.804
1.931
1.041
0.346 )
0.045
( 1.547
0.033
1.817
0.675
0.789
0.082
0.543
2.078
0.804
1.706
0.730
1.171
1.900
0.521
0.794
NIVEL 30
1.275
1.883
1.051
1.482
( 0.355
1.769
1.149
1.398
2.139
1.853
0.734
1.298
0.328
1.436
0.096
0.533
0.858
0.650
0.364 )
NIVEL 80
1.129
0.306
1.155
0.024
0.861
0.900
1.359
0.103
0.007
1.081
1.812
0.411
0.352
1.677
0.663
0.034
0.652
0.880 )
( 1.179
0.379
0.017
1.221
0.086
1.013
0.863
1.158
1.745
2.001
1.527
1.081
0.576
0.246
0.370
0.403
0.866
0.906
1.509
1.040
0.150
0.560 )
Tabla 3.2 Valores de la pesos de las Redes para cada nivel de alerta
La validacin seleccionada contiene dos perodos de polinizacin de Betula consecutivos,
debido al comportamiento bianual del polen estudiado.
El parmetro la K involucrado en la funcin de error toma valores diferentes para los niveles
diferentes. Los valores de K han sido seleccionados de modo que tome valores prximos a la
proporcin emprica entre los das con nivel de polen bajo el umbral y los das de niveles de
polen sobre el umbral, Zlev, (3.15) De hecho, si la K escogida es Zlev la red reduce al mnimo la
probabilidad de clasificacin incorrecta.
Z lev =
card {t / Yt = 0}
(3.15)
card {t / Yt = 1}
Durante la polinizacin de Betula el nmero de das con polen en el aire es menor que el
nmero de das en los que la concentracin de polen es el cero, por lo que K es mayor que uno.
Los valores ms altos de lev estn asociados a valores de Zlev ms altos, y por tanto valores de
K ms altos.
Para mostrar, comparar y discutir los resultados obtenidos es necesario definir ciertas medidas
de comparacin. Se considerarn dos medidas de concordancia diferentes y complementarias.
La proporcin de clasificacin correcta sobre el conjunto de observaciones en las la variable
objetivo vale 1 (sobre el nivel), GCI,(3.16) y la proporcin de clasificacin correcta sobre el
conjunto de observaciones en las la variable objetivo vale 0 (bajo el nivel), GCII, (3.17).
GC I = 1 P (Y = 0 Y = 1) = P (Y = 1 Y = 1) =
card {t / Yt = Yt = 1}
GC II = 1 P (Y = 1 Y = 0 ) = P (Y = 0 Y = 0 ) =
card {t / Yt = 1}
card {t / Yt = Yt = 0}
card {t / Yt = 0}
3-9
(3.16)
(3.17)
GCI
GCII
nivel = 20
nivel = 20
nivel = 20
nivel = 20
ENTRENAMIENTO 1993-1999
0.95
0.95
0.86
0.86
VALIDACIN 2000
0.92
0.88
0.83
0.83
VALIDACIN 2001
1.00
1.00
1.00
1.00
ENTRENAMIENT 1993-1999
0.95
0.95
0.98
0.98
VALIDACIN 2000
0.93
0.92
0.92
0.93
VALIDACIN 2001
0.96
0.97
0.97
0.97
3-10
1,2
ENTRENAMIENTO
NIVEL 30 (granos/m3)
1,2
Y OBSERVADA
PROBABILIDAD ESTIMADA
1,0
0,8
0,6
0,6
0,4
0,4
0,2
0,2
1,2
02/93
03/93
04/93
05/93
06/93
0,0
01/93
07/93
FECHA
VALIDACIN AO 2000
NIVEL 30 (granos/m3)
1,2
Y OBSERVADA
PROBABILIDAD ESTIMADA
1,0
0,8
0,6
0,6
0,4
0,4
0,2
0,2
1,2
03/00
04/00
05/00
06/00
07/00
08/00
FECHA
1,2
Y OBSERVADA
PROBABILIDAD ESTIMADA
1,0
0,8
0,6
0,6
0,4
0,4
0,2
0,2
03/01
04/01
05/01
04/93
02/93
06/93
03/93
04/93
05/93
06/93
07/93
FECHA
VALIDACIN AO 2001
Y OBSERVADA
PROBABILIDAD ESTIMADA
03/01
04/01
05/01
FECHA
3-11
07/93
FECHA
ENTRENAMIENTO
NIVEL 80 (granos/m3)
0,0
02/01
06/01
05/93
Y OBSERVADA
PROBABILIDAD ESTIMADA
1,0
0,8
0,0
02/01
03/93
NIVEL 80 (granos/m3)
0,0
01/93
VALIDACIN AO 2001
NIVEL 30 (granos/m3)
02/93
1,0
0,8
0,0
02/00
Y OBSERVADA
PROBABILIDAD ESTIMADA
1,0
0,8
0,0
01/93
ENTRENAMIENTO
NIVEL 80 (granos/m3)
06/01
FECHA
E [Y Z ] = H ( )
(3.18)
Como caso particular en los modelos lineales generalizados (GLM) se supone que la componente
sistemtica es una combinacin lineal y aditiva de las covariables, es decir, (3.19) donde
es
= 0 + 1 z1 + 2 z2 + ... + p z p = Z
(3.19)
Por ejemplo, si la variable es binaria y la funcin link es la funcin logit el modelo que resulta
responde a la expresin
E [Y Z ] = H ( 0 + 1 z1 + 2 z 2 + ... + p z p ) =
exp ( 0 + 1 z1 + 2 z 2 + ... + p z p )
1 + exp ( 0 + 1 z1 + 2 z2 + ... + p z p )
(3.20)
Para la estimacin del modelo anterior se ha empleado el algoritmo iterativo Fisher Scoring
que exponemos a continuacin (MacCullagh and Nelder (1989)).
3.2.2.1 ALGORITMO FISHER SCORING
Para fijar la notacin se denota por Z la matriz de diseo de variables predictorias dada por
1 Z1,1 Z1, p
1 Z
Z2, p
2,1
1 Z
Zn,p
n ,1
y por Y
= ( Y1 , Y2 ,
(3.21)
{( Z , Y )}
k
i =1
con Yi = H
k
(Y )
i
se estima el
modelo de regresin lineal mltiple obtenindose el vector de parmetros inicial dado por
3-12
k = (
Yk
(3.22)
siendo
Yi = i + Yi i
k
k
k
con i = 0 +
(3.23)
k
i
ik = H (ik )
Z
k
i, j
j =1
W = diag W1 , W2 ,
k
Wi = i / i
k
k +1 = (
, Wn
Var Yi i
Wk
(3.24)
W kY k
(3.25)
Paso 3: Se repite el paso 2 con k=1,2,3, hasta que se alcanza el orden de convergencia
dado por
k +1
para algn
(3.26)
suficientemente pequeo.
k
E [Y Z 0 ] = 0 = H
exp
=
1 + exp
W
T
)
k
Z 0
T
1
T
k
k
W Y
Z
k
k
W Y
Z0
k
k
W Y
(3.27)
3-13
Y | Z = z Bernouilli H f1 ( z1 ) + f 2 ( z2 )
E Y Z = P Y = 1 Z [0,1]
(3.28)
(3.29)
Se crearon dos escenarios diferentes, uno ms propicio para el modelo lineal general y otro
ms general, ms favorable para la estimacin con redes neuronales.
Escenario 1
En este escenario las funciones sobre las variables son lineales, con una funcin link logstica.
f1 ( z1 ) = z1
(3.30)
f 2 ( z2 ) = z 2
(3.31)
H ( ) =
exp ( )
1 + exp ( )
(3.32)
Este escenario es propicio para el modelo GLM puesto que responde a su estructura, mientras
que la red neuronal, al ser ms un modelo ms general puede no obtener tan buenos resultados
en este caso.
Escenario 2
En este escenario se ha aadido perturbaciones, de modo que no responde ya a un modelo
GLM, lo que puede hacer que este modelo presente una comportamiento inadecuado. Este es
el escenario en el que la red deber mostrar su capacidad de modelizacin.
z
f1 ( z1 ) = z1 + 2 sin 2 + 1
2
(3.33)
f 2 ( z2 ) = z 2
(3.34)
exp + sin 1 +
4
H ( ) =
1 + exp + sin 1 +
4
(3.35)
Este escenario es propicio para el modelo GLM puesto que responde a su estructura, mientras
que la red neuronal, al ser ms un modelo ms general puede no obtener tan buenos resultados
en este caso.
Se han generado 1.000 muestras de tamao 1.000, para el entrenamiento o estimacin. La
evaluacin del comportamiento de los modelos en cada muestra se realizar con 250 puntos
3-14
DEVIANCE
MODELO
ESCENARIO 1
ESCENARIO 2
GLM
1.195
1.375
RED
1.199
1.227
1.4
1.3
1.2
1.1
1.0
.9
RED1
GLM1
3-15
1.5
1.4
1.3
1.2
1.1
1.0
.9
RED2
GLM2
E s ce nario 1
0 .9
0 .7
0 .6
0 .5
0 .4
0 .3
0 .2
0 .1
0
1.
1
Cov
5
0.
ar i a
0
-0
.5
-1
bl e 2
-1
.5
-2
-2
-1
-1 .5
0
-0 .5
1
0 .5
0 .4
0 .3
0 .2
0 .1
0
1 .5
r
va
b
ia
le
0 .8
0 .7
0 .8
0 .6
0 .7
0 .5
0 .6
0 .4
0 .5
0 .3
0 .4
0 .2
0 .3
0 .1
1 .5
0 .2
0 .1
Red N eu ro n al
0 .8
P r o ba bi l i d a d Te r i c a
P r o ba bi l i d a d Te r i c a
0 .9
0 .9
Red N eu ro n al
0 .9
0 .8
0 .7
0 .6
0 .5
1.
1
Cov
5
0.
ar i a
0
-0
.5
-1
bl e 2
-1
.5
-2
-2
-1
-1 .5
0
-0 .5
1
0 .5
r
va
ia
bl
E sce nario 2
0 .7
0 .8
0 .6
0 .7
0 .5
0 .6
0 .4
0 .5
0 .3
0 .4
0 .2
0 .3
0 .2
0 .1
1.
1
Cov
0.
aria
0
-0
bl e
.5
-1
-1
.5
-2
-2
-1
-1 .5
0
-0 .5
1
0 .5
0 .1
1 .5
a
ov
ri
ab
le
0 .9
0 .8
0 .9
0 .7
0 .8
0 .6
0 .7
0 .5
0 .6
0 .4
0 .5
0 .3
0 .4
0 .2
0 .3
0 .2
Red N eu ro n al
0 .8
0 .9
Red N eu ro n al
P r o ba bi l i d a d Te r i c a
1
P r o ba bi l i d a d Te r i c a
1
0 .9
0 .1
1.
1
Cov
0.
aria
0
-0
bl e 2
.5
-1
-1
.5
-2
-2
-1
-1 .5
0
-0 .5
1
0 .5
0 .1
1 .5
a
ov
ri
ab
le
3-16
3.3 Conclusiones
En este captulo se ha estudiado el comportamiento de las redes neuronales ante problemas de
clasificacin. Se han presentado dos ejemplos, uno con datos reales y otro con datos simulados
de modelos respondiendo a dos modelos distintos.
Se han obtenido resultados satisfactorios en ambos entornos, mostrando las capacidad de
clasificacin de las redes neuronales; destaca el comportamiento en el caso de simulacin
donde en escenarios favorables a otros modelos de prediccin han mostrado un mejor
comportamiento.
3.4 Bibliografa
Aira, M.J., Jato, V., Iglesias, I. (1998) Alnus and Betula pollen content in the atmosphere of
Santiago de Compostela. North-Western Spain (1993-1995). Aerobiologia V.14(2,3), pp. 135140.
Aira, M.J., Ferreiro, M., Iglesias, I., Jato, V., Marcos, C., Varela, S., Vidal, C. (2001)
Aeropalinologa de cuatro ciudades de Galicia y su incidencia sobre la sintomatologa alrgica
estacional. Actas XIII Simposio de la A.P.L.E..Cartagena.
Agresti, A. (1990) Categorical Data Analysis. Wiley.
Andersen, T.B. (1991) A model to predict the beginning of the pollen season. Grana V.30, pp.
269-275.
Arenas, L., Gonzlez, C., Tabars, J.M., Iglsias, I., Mndez, J., Jato, V. (1996) Sensibilizacin
cutnea a plenes en pacientes afectos de rinoconjuntivitis-asma en la poblacin de Ourense
en el ao 1994-95. 1st. European Symp. On Aerobiol. Santiago de Compostela 93-94.
Atkinson, H., Larsson. K,A, (1990) A 10 year record of the arboreal pollen in Stockholm,
Sweden. Grana V.29, pp. 229-237.
Buja, A., Hastie, T.J. and Tibshirani, R.J. (1989) Linear Smoothers and Additive Models. Annals
of Statistics, V.17, pp. 453-555.
Bishop, C. (1995) Neural Networks for Pattern Recognition, Oxford:Clarendon Press.
Caramiello, R., Siniscalco, C., Mercalli, L., Potenza, A. (1994) The relationship between
airborne pollen grains and unusual weather conditions in Turin (Italy) in 1989, 1990 and 1991.
Grana, V.33, pp. 327-332.
Castellano-Mndez, M., Aira, M.J., Iglesias, I., Jato, V., Gonzlez-Manteiga, W. (2005).
Artificial Neural Network As Useful Tool To Predict The Risk Level Of The Betula Pollen In The
Air. International Journal of Biometeorology, V.49(5), pp.310-316.
Chakraborty, K., Mehrotra, K. (1992) Forecasting the behaviour of a multivariate time series
using neural networks. Neural Networks, V.5, pp. 961-970
3-17
3-18
3-19
3-20
4-1
4-2
Perturbacin
Consigna
Error
Actuador
Controlador
Proceso
Variable
controlada
Sensor
4-3
maneras la aparicin de estos trminos, aunque los controladores ms comunes son los
mencionados anteriormente.
Algunos trminos no han de aparecer solos por distintas razones. En el caso del integral las
oscilaciones que genera son importantes, por lo que es necesario emplearlo combinado,
bien un controlador PI o bien un PID. Cuando el sistema alcanza una situacin constante el
trmino derivativo es nulo, por lo que no hay respuesta de control. Este trmino solo no
trabaja bien en estas circunstancias, por lo que es necesario combinarlo con alguno de los
otros trminos dando lugar a un controlador PD o PID. Finalmente cuando la variable a
controlar presenta mucha variabilidad o ruido, se suelen obtener valores altos en el
trmino derivativo, con las consiguientes oscilaciones; es por ello que bajo estas
condiciones no se emplea el trmino derivativo.
Si se denomina m a la variable manipulada, los valores de esta variable calculados por un
controlador PID responden a (4.1). Las constantes que aparecen en el modelo son las
constantes de proporcionalidad de los diferentes trminos, Kc la del trmino proporcional,
como ya se haba sealado, I la del trmino integral y D la del derivativo.
t
de
1
m = K c e + e d + D
dt
I 0
(4.1)
La eleccin del controlador depende en gran medida del tipo de problema al que se va a
aplicar, as como de las variables controlada y manipulable seleccionadas.
Para obtener un buen funcionamiento del controlador seleccionado es necesaria una
adecuada seleccin de los parmetros del mismo, proceso que se denomina sintonizar el
controlador. Los mtodos ms comunes para llevar a cabo esta tarea fueron propuestos por
4-4
k =1
e d ek t
de en e n 1
dt
t
(4.2)
t n
m = K c en + ek + D en e n 1
I k =1
t
(4.3)
Consigna
Error
Actuador
Controlador
Proceso
Sensor
Perturbacin
4-5
Sensor
Consigna
Error
Actuador
Controlador
Proceso
Sensor
Perturbacin
4-6
4-7
4-8
Identificar las variables que pueden ser medidas y las que pueden ser manipuladas
Es necesario obtener informacin sobre las variables relacionadas con los objetivos de
control, pero no siempre existe la posibilidad de medir esas variables, bien por la
naturaleza de la mismas, bien por el coste. En estos casos se buscarn inferir las
variables a partir de otras medibles; adems es importante la medicin de variables
de entrada (perturbaciones) y intermedias para desarrollar el sistema de control. La
eleccin de las variables manipulables, que han de estar fuertemente relacionadas
con las de control, resulta tambin vital a la hora de desarrollar un sistema de control
adecuado.
En todos estos aspectos la estadstica puede y debe jugar un papel fundamental en la toma de
decisiones necesarias en cada paso del diseo del sistema de control. La funcin de beneficios
puede ser establecida empleando argumentos estadsticos relacionados con el control de
calidad, estudios de investigacin operativa, etc. La identificacin de las variables medibles
relacionadas con las involucradas en la funcin de beneficios, as como las variables
manipulables puede hacerse de modo ms sencillo a travs de tcnicas de regresin, que
determinen las dependencias, y tcnicas de anlisis multivariante de datos que indiquen qu
variables son ms relevantes en trminos de informacin del sistema. El diseo del sistema de
control tambin puede aprovecharse de la informacin estadstica disponible, por ejemplo en
la seleccin de las variables involucradas en el control anticipativo, el emparejamiento de las
variables de control y manipulables, etc. As mismo el diseo del controlador puede realizarse
desde
una
perspectiva
estadstica,
empleando
modelos
de
regresin,
estudios
de
sensibilidad,...
Al abordar los ejemplos prcticos desarrollados, el estudio se centrar en las aplicaciones
realizadas con redes neuronales, pero cabe destacar que el aporte estadstico no se ha
reducido slo a este punto, sino que se ha realizado un estudio ms completo, enfocado a la
seleccin de variables, estudios de relaciones, etc.
4-9
Perturbacin
Consigna
Error
Controlador
Neuronal
Actuador
Proceso
Variable
controlada
Sensor
4-10
Error
unn
Controlador
Neuronal
nn
+
Consigna
+
Error
Variable
controlada
Controlador
Clsico
Proceso
Figura 4.5 Esquema de control directo neuronal, en el que la red se emplea para reproducir
un control clsico
4.2.2 Control Inverso
En este caso aprendizaje de la red tiene como objetivo obtener un modelo inverso del sistema
que se desea controlar. A partir de los valores de la variable controlada (que es normalmente
la salida del sistema), y la evolucin pasada del sistema, se obtienen los valores de la variable
manipulable (entrada) necesaria para que el sistema obtenga la salida deseada.
Actuaciones en el pasado
&
Variable controlada
pasada
Controlador
Neuronal
-
nn(t+1)
yd(t+1)
+
Actuaciones u(t+1)
u(t+1)
Proceso
Consigna y d(t+1)
y t +1 = F1 ( yt , yt 1 ,..., yt a , ut +1 ,, ut , ut 1 ,..., ut b )
(4. 4)
Siendo a y b los retardos relevantes de la variable de control y manipulada respectivamente.
En el caso del control inverso lo que se calcula es la accin del controlador para obtener un
determinado valor de la variable controlada, empleando la informacin del pasado. necesaria
a partir del pasado del sistema a, generalmente la consigna.
ut +1 = F2 ( yt +1 , yt , yt 1 ,..., yt a , ut , ut 1 ,..., ut b )
Hay numerosas aplicaciones de la aplicacin del control indirecto (Barto, 1990; Bhat et al.,
1990; Hosogi, 1990; Hunt et al., 1992; Psichogios et al., 1991; Nahas et al., 1992).
4-11
(4. 5)
Consigna
Controlador
Neuronal Inverso
Proceso
Modelo
Neuronal Interno
Prediccin de
la variable
controlada
+
-
Figura 4.7 Esquema de control inverso que invierte un modelo neuronal del sistema
Estos modelos requieren un estudio detallado de las dependencias temporales, puesto que
pueden
surgir
problemas
en
aquellos
que
presentan
retardos
temporales
amplios
4-12
tiempo de la variable controlada al valor de consigna. Es por ello que en ocasiones se desea
que se alcance la consigna en un horizonte temporal, que depende de las caractersticas del
proceso y de la suavidad con que se desee controlar el proceso. Bajo esta filosofa la variable
de control que se desea considerar no es el siguiente paso de la variable de control, sino un
retardo posterior. Este retardo ha de ser predicho, por lo que se pueden emplear diferentes
metodologas estadsticas para modelizar las series temporales.
La metodologa ser pues introducir la prediccin de la variable controlada en el proceso de
control ya existente, con el fin de suavizar la actuacin del controlador al tiempo que permite
la toma anticipada de acciones. La figura 4.8 muestra el esquema del control.
Variable
controlada
Consigna
Controlador
Proceso
Modelo
Neuronal k retardos
E[Yt+k]
4-13
4-14
T17
T15
T13
Tc10
tc4
tc1
tc8
tc5
tc2
tc9
tc6
tc3
tc7
T6
T16
T5
T4
T3
T2
T1
T14
termopares iniciales sufren una disminucin de temperatura, pues se forma una capa que
asla el termopar y el silicio que sigue cayendo. El aumento de silicio en la placa se refleja
entre otras variables en la temperatura del tc10 en forma de aumento de temperatura.
El funcionamiento tradicional se fundamenta en una velocidad de volcado constante basada
en la geometra estimada del interior de la cubeta. El sistema de control es binario y consiste
4-15
4-16
Historia del tc10. Valores 25 y 30 minutos antes de la prediccin. Dado que los datos
se miden cada 5 minutos se denotar, tc10t-5, tc10t-6.
Media de las temperaturas de los termopares de primera lnea (1, 2 y 3). El estudio
e la dependencia temporal determina la eleccin del retardo empleado. En este
caso se seleccion el duodcimo retardo (1 minuto):tcmed123t-12.
Media de las temperaturas de los termopares de la segunda lnea (4, 5 y 6). En este
caso el retardo elegido es el sptimo. (35 minutos) tcmed456t-7.
Los resultados obtenidos con las serie temporal y la regresin dinmica sugirieron que las
redes con capa oculta de funcin lineal podran ser adecuadas para esta prediccin. La
estructura de la red neuronal fue la siguiente:
Z1
Z2
Z3
h1
ah
1N H
hj
h5
h6
X1
#
Xi
o1
X5
1
Figura 4.12 Estructura de la red neuronal empleada.
Las variables Zi son: carga, tc100 y 5t. Las variables Xi son: angt-5, tcmed123t-12, tcmed456t-7,
adems de retardos 5 y 6 de la variable tc10.
La funcin de la capa oculta es lineal. De este modo la prediccin de la temperatura del
termopar 10 en el instante t responde a la expresin:
5
3
3
ah
yt = o1 = wrjah Z j + w0hr X r + w6ahj Z j + w06
r =1 j =1
j =1
4-17
(4. 6)
Prediccin tc10
05:52:48
05:55:41
05:58:34
06:01:26
tc10
06:04:19
06:07:12
06:10:05
06:12:58
Prediccin tc10
4-18
50
100
150
tc10
200
250
300
350
400
Prediccin Real
Prediccin Entera
Entrenam.
ECM
ERAM
ERM
3,6732
0,0284
0,0021
Validacin
1,8217
0,0242
0,0006
Entrenam.
3,7560
0,0279
0,0021
Validacin
1,9086
0,0234
0,0007
Tabla 4.1 Variables online y offline medidas para el seguimiento del proceso.
Siendo ECM el error cuadrtico medio, ERAM el error relativo absoluto medio, y ERM el error
relativo medio.
Para determinar la alerta de temperatura se respetaron los criterios existentes previamente.
Dado que la temperatura ambiente influye considerablemente en la temperatura del agua de
la placa de cobre, y que el incremento de temperatura se relaciona con la cantidad de metal
en la placa, el umbral de alarmase define en funcin de la temperatura inicial. Se produce
una alerta por subida de temperatura cuando se en un incremento de la temperatura del tc10
de 40 grados centgrados en relacin a la temperatura antes del inicio de la colada. Debido al
nmero de alarmas producidas se opt por establecer un nmero de alarmas necesarios para
establecer la bajada de velocidad en el volcado. Sern necesarias dos alarmas consecutivas
para la modificacin de la velocidad que es una variable escalonada. En cualquier caso se
mantiene la alarma previa, esto es, si el valor de la variable tc10 se incrementa en 40 grados,
se detiene la colada.
4.3.2 Control de Una Planta de Tratamiento Anaerbico de Aguas Residuales
En esta seccin se aportarn nociones bsicas sobre la digestin anaerbica, y en particular
sobre el tratamiento de aguas residuales en reactores anaerbicos, que es el proceso para el
que se desea elaborar una estrategia de control. As mismo se detallar el proceso de seleccin
4-19
complejos en los que tienen lugar un gran nmero de procesos (de tipo biolgico y fsicoqumico) que se desarrollan tanto en serie y en paralelo, generando un espacio
multidimensional de respuestas y operacin. El anlisis multivariante, por tanto, resulta
adecuado para la estudio de este tipo de procesos (Ruiz et al., 2005a).
En general el proceso AD se puede dividir en 3 etapas, la hidrlisis extracelular, durante la
cual se transforman los compuestos orgnicos complejos en azcares y aminocidos; la
fermentacin que a su vez se divide en dos subetapas, la acidognesis, que transforma estos
compuestos cidos orgnicos y alcoholes, y la acetognesis, en la que los compuestos
resultantes de la acidognesis se descomponen en hidrgeno y cido actico; y finalmente la
metanognesis que tambin puede dividirse en dos subetapas diferentes, que son la
metanognesis hidrogenotrfica en la que el hidrgeno se transforma en metano, y la
metanognesis acetoclstica, en la que el actico se transforma en metano.
Las distintas reacciones presentan velocidades muy diferentes, de modo que la velocidad de
produccin de los cidos es mucho ms elevada que la velocidad de produccin de metano.
Es por ello que la aparicin de compuestos fcilmente degradables da lugar a un aumento en
la generacin de cidos, que no pueden ser transformados en metano a la misma velocidad,
lo que genera una acumulacin de compuestos intermedios. Las acumulaciones de productos
intermedios pueden dar lugar a algn efecto inhibitorio, bien en la reaccin que lo genera
(como producto) bien en la siguiente (como substrato). La velocidad del proceso considerado
de modo global est regida por la velocidad del proceso ms lento. Dependiendo del
compuesto que se est degradando las etapas limitantes sern bien la metanognesis, o bien
la hidrlisis. La figura 4.9 muestra el esquema de la digestin anaerobia.
4-20
materia orgnica
protenas
carbohidratos
lpidos
cidos grasos
hidrlisis
Productos intermedios
(propionato, butirato, ...)
hidrgeno
acetato
metano
fermentacin
o acidognesis
metanognesis
han
sido
aplicados
con
xito
en
multitud
de
situaciones;
aunque
4-21
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Variable
Caudal de Alimentacin
Temperatura del influente
Temperatura del reactor
Flujo de Recirculacin
Presin en la cabeza del reactor
Concentracin de metano en la fase gas
Contenido de hidrgeno en la fase gas
PH del efluente o en el reactor
Carbono orgnico disuelto en el efluente
Carbono inorgnico disuelto en el efluente
Carbono orgnico total en el efluente
Carbono inorgnico total en el efluente
Carbono orgnico total en el influente
Carbono inorgnico total en el influente
Caudal de gas
Caudal de metano
Velocidad de carga orgnica
PH del influente
Concentracin de etanol en el influente
Concentracin de acetato en el influente
Concentracin de propionato en el influente
Concentracin de butirato en el influente
Concentracin de etanol en el efluente
Concentracin de acetato en el efluente
Concentracin de propionato en el efluente
Caudal de hidrgeno
Abreviatura
Qa
Tin
Tr
Qr
P
%CH4
H2
pH eff
DOC eff
DIC eff
TOC eff
TIC eff
TOC inf
TIC inf
Qgas
QCH4
OLR
pH in
EtOH inf
Acet inf
Prop inf
But inf
EtOH eff
Acet eff
Prop eff
QH2
Medidas
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
On-line
Off-line
Off-line
Off-line
Off-line
Off-line
Off-line
Off-line
On-line
Unidades
L/h
C
C
L/h
Mbar
%
Ppm
mgC/L
mgC/L
mgC/L
mgC/L
mgC/L
mgC/L
L/h
L/h
kgCOD/m3d
g/L
g/L
g/L
g/L
g/L
g/L
g/L
g/L
Tabla 4.2 Variables online y offline medidas para el seguimiento del proceso
4-22
4-23
4-24
(4. 7)
El objetivo es determinar la accin del controlador con respecto al instante anterior. Los
criterios que rigen el controlador son los siguientes: si el valor del est bajo la consigna,
H 2* , el valor de la funcin f H 2
fQCH 4
, que es el valor que tomar la funcin asociada al metano en ese caso. De este modo an
cuando el reactor est operando en su mximo nivel de metano, el controlador seguir
funcionado e intentar si es el caso aumentar el caudal de alimentacin. De este modo se
puede tener en cuenta cierta adaptacin de la biomasa y, por lo tanto, el posible aumento de
la actividad y de la capacidad productora de metano del reactor.
Una vez establecidos los limites y el comportamiento de las funciones, faltaba por fijar la
forma de la funcin. Para corregir las subcargas las subidas han de ser suaves (de modo que
f H2
debe ser una funcin que baje suavemente de 1 a 0 cuando el hidrgeno sea menor que
la consigna) y para corregir las sobrecargas las respuestas han ser ms rpidas.
La eleccin de funciones no es nica. Las elegidas fueron.
4-25
H * H 1 m
2 * 2
H 2
f H2 ( H 2 ) =
n
H 2*
1
H2
fCH 4 =
Q*
QCH 4 + Q*
CH 4
si H 2 H 2*
, con n, m `
(4. 8)
si H 2 > H 2*
, con \ +
(4. 9)
CH 4
QCH 4 max
caudal mximo real del reactor. Ese valor, que tiene un significado fsico se calcula para una
cintica del tipo Haldane segn la siguiente expresin
Max CH 4Observado =
Siendo
max
q CH
, KS y KI
4
max
qCH
4
1+ 2
KS
(4. 10)
KI
valores
max
q CH
, = 1.324 ( L h ) , K S =154 ( mg L ) , K I = 231( mg L ) .
4
Segn estas especificaciones el caudal de metano mximo observable es de 503 (L/h) , por lo
que, recordando que se desea estudiar el 90% de ese valor como parmetro para el
controlador, QCH 4 max ser 452 (L/h)
4.3.2.5. Prediccin neuronal de las variables de control
Como se ha sealado se emplea una red neuronal para crear un controlador predictivo o
anticipativo. El objetivo es la prediccin del comportamiento de las variables de control
hidrgeno y metano. El horizonte temporal de prediccin deba ser lo suficientemente amplio
para proporcionar margen para la actuacin del controlador, al tiempo que la magnitud del
error no deba ser tan grande que distorsionase la magnitud de la accin de control. Se opt
por redes con varios nodos en la capa de salida, de modo que la red minimizase el error a lo
largo de un intervalo temporal.
En ambos casos se emplearon perceptrones con una capa oculta para la prediccin del metano
y del hidrgeno. La funcin empleada en la capa oculta, como se coment en aplicaciones
4-26
ok =
H1
hojk f 0ahj
1
j =1
NI
ah1
1j
i =1
h1o
X i + 0k
,
(4. 11)
=4
y f
( z) =
2
1, z \
1 + e 2 z
ok =
H1
hojk f 0ahj
1
j =1
i =1
ah1
1j
X i + 0hko , con 1 k N O = 4
(4. 12)
El nmero de nodos de la capa oculta se corresponden con la red que mejores resultados
presenta con el menor nmero de nodos. En este caso se seleccion N
= 26
ok =
H1
hojk f 0ahj
1
j =1
i =1
ah1
1j
X i + 0hko , con 1 k N O = 4
4-27
= 18
(4. 13)
450
400
500
350
300
250
300
200
200
QCH4 (l/m)
H2 (ppm)
400
150
100
100
50
0
0
20
40
60
80
H2
100
120
0
160
140
Q CH4
6000
5000
4000
3000
2000
1000
0
0
50
100
150
200
TOC terico
250
300
350
TOC
400
tiempo (h)
4-28
ECM
ERM
H2
QCH4
2,43
0,64%
5,23
0,42%
H2 (ppm)
27
26
25
24
23
22
21
20
150
160
170
180
H2 ppm
190
Prediccin H2 ppm
200
tiempo (h)
300
250
QCH4 (l/h)
200
150
100
50
0
250
260
270
280
290
300
tiempo (h)
Q CH4 l/h
4-29
0,008
6000
0,006
5000
0,004
0,002
4000
0
-0,002
3000
-0,004
2000
-0,006
-0,008
1000
-0,01
0
0
50
100
150
TOC terico
200
250
TOC
300
Avance NN
350
-0,012
400
tiempo (h)
4-30
0,008
0,006
0,004
0,002
0
-0,002
-0,004
-0,006
-0,008
-0,01
-0,012
275
280
285
290
295
300
Avance No NN
305
310
315
Avance NN
320
tiempo(h)
H2t = a0 +
a H2
i
j =1
QCH4t = b0 +
t i
+ tH2
b QCH4
j =1
t i
(4. 14)
+ tQCH4
(4. 15)
Se han implementado las predicciones en la estructura del controlador del mismo modo que
anteriormente se emplearon las predicciones con redes.
Se comprobaron sus resultados en lazo cerrado. El perfil del experimento se muestra en la
Figura 4.17
4-31
325
100
200
300
400
500
tiempo (h)
TOC entrada
H2 ppm
60
40
20
0
200
220
240
260
280
300
320
340
-20
-40
Prediccin Hidrgeno ppm
H2 ppm
4-32
tiempo (h)
200
150
QCH4 (l/h)
100
50
0
200
220
240
260
280
300
320
340
-50
-100
Prediccin CH4 l/h
tiempo (h)
Q CH4 l/h
3000
-1,E-05
2000
-3,E-05
1000
0
0
50
100
150
200
250
TOC entrada
300
350
400
AvanceSeries
4-33
450
-5,E-05
500
tiempo (h)
Comparmoslo, como antes con el original, sin accin anticipativa. Se muestra la comparativa
en una seccin del conjunto de validacin en la figura 4.21.
5,000E-05
3,000E-05
1,000E-05
-1,000E-05
-3,000E-05
-5,000E-05
0
50
100
150
200
250
Avance Series
300
350
Avance USC
400
450
500
tiempo (h)
4.4. Conclusiones.
Se ha realizado un repaso de las tcnicas de control ms empleadas y se han presentado ideas
de cmo introducir redes neuronales dentro de esas tcnicas de control ya existentes. Se ha
desarrollado ejemplos con datos reales aplicados a la industria y al medio ambiente,
centrndose principalmente en el poder predictor de las redes neuronales.
4-34
4.5. Bibliografa
Aynsley, M., Holfland, A., Morris, A.J., Montague G.A. y Di Massimo, C. (1993) Artificial
Intelligence and the supervison of bioprocesses. Advances in Biotechnology, V.48(1), pp. 1-28.
Barto, A.G.(1900) Connectionist learning for control. Neural Networks for Control, chapter 1,
pp. 5-58. MIT Press, Cambridge.
Bhat, N., y McAvoy, T.J. (1990). Use of neural nets for dynamic modeling and control of
chemical process systems. Computer Chem Engng, V.14(4-5), pp.573-583.
Castellano, M., Ruiz, G., Gonzalez, W., Roca, E. & Lema, J. M. (2007) Selection of variables
using factorial discriminant analysis for the state identification of an anaerobic UASB-UAF
hybrid pilot plant, fed with winery effluents. Water Sci. Technol. V.56(10), pp. 139145.
Chen,L., Bernard, O. Bastin, G. Angelov, P. (2000). Hybrid modelling of biotechnological
processes using neural networks Control Engineering Practice, V.8, pp. 821-827.
Fernndez, J.M. (1994) Tratamiento de aguas residuales de las industrias de tablero de fibra.
Tesis doctoral Universidade de Santiago de Compostela. Santiago de Compostela, Espaa.
Fernndez, J.M., Mndez, R. y Lema J.M. (1995) Anaerobic treatment of Eucalyptus fibreboard
manufacturing wastewater by a hybrid USBF lab-scale reactor. Environmental Technology,
V.16(7), pp. 677-684.
Guwy, A.J., Hawkes, F.R., Wilcox, S.J. y Hawkes, D.L. (1997) Neural network and on-off
control of bicarbonate alkalinity in a fluidised-bed anaerobic digester. Water Research,
V.31(8), pp. 2019-2025
Hosogi, S. (1990) Manipulator control using layered neural network model with self-organizing
mechanism. In International joint Conference on Neural Networks , V.2, pp. 217-220.
Washington, DC. Lawrence Erlbaum.
Hulshoff Pol,L.W., Euler, H., Eitner, A. y Grohganz, D. (1997) GTZ sectoral project "Promotion
of anaerobic technology for the treatment of municipal and industrial sewage and waste". In:
Proc. 8th Int. Conf. on anaerobic digestion, V.2, pp. 285-292. Sendai, Japan.
Hunt, K.J., Sbarbaro, D., Zbikowski, R., Gawthrop P.J. (1992) Neural Networks for Control
Systems -A Survey, Automatica, V.28(6), pp. 1083-1112.
Ichikawa, Y. y Sawa, T. (1992) Neural network application for direct feedback controllers. IEEE
Transactions on Neural Networks, V.3(2), pp.224-231
Konstantinov, K.B. y Yoshida, T. (1992) Knowledge-based control of fermentation processes.
Biotechnol. Bioeng., V.39, pp. 479486
4-35
4-36
4-37