RedesNeurais 3 Adaline PDF

REDES NEURAIS ARTIFICIAIS 3
O ADALINE
PROFESSORA DOUTORA RITA

MARIA DA SILVA JULIA
FACULDADE DE COMPUTAO-UFU
BIBLIOGRAFIA DE BASE:
Silva, I.N, Spatti, D.H..Flauzino,R.A., Redes Neurais Artificiais, Editora Artliber,
2010
Anlises tericas pessoais feitas pela autora do presente material.
1. RNA Adaline e Regra Delta
A RNA Adaline foi concebida inicialmente por Widrow e Hoff em 1960 para ser
aplicada em sistemas de chaveamento de circuitos telefnicos. Apesar de simples,
proveu as seguintes contribuies significativas para o avano das RNAs:
Proposta do algoritmo de aprendizado baseado na Regra Delta, precursora da

Regra Delta generalizada usada no treinamento das RNAs Perceptrons
Mltiplas Camadas (PMCs);
Aplicaes a diversos problemas prticos de processamento de sinais
analgicos;
Primeiras aplicaes industriais de RNAs.
Similarmente ao Perceptron simples, o Adaline tambm composto por um nico

neurnio processador. Uma RNA contendo uma nica camada processadora composta
por mais de um neurnio Adaline denominada Madaline (Widrow, 1988).
A Figura 1 mostra a arquitetura de uma Adaline.
Figura 1- Arquitetura do Adaline
A rede Adaline, como o perceptron, tambm uma arquitetura feedforward

(fluxo de informao parte sempre da entrada em direo sada) de camada nica,
sem qualquer tipo de realimentao da entrada com os valores produzidos na sada.
Assim como o perceptron, devido sua simplicidade estrutural, o Adaline mais usado
em problemas de classificao de padres envolvendo apenas duas classes distintas.
1.1 Princpio de Funcionamento do Adaline
O potencial de ativao u e o valor de sada do Adaline so calculados de modo

anlogo ao do Perceptron, conforme mostram as equaes (1) e (2), respectivamente:
Onde xi so os sinais de entrada, wi o peso sinptico associado i-sima entrada,

o limiar de ativao, g a funo de transferncia e u o potencial de ativao. Como
o Adaline utilizado principalmente para reconhecimento de dois tipos de padres,
ele normalmente projetado com as funes de transferncia degrau ou bipolar.
O processo de aprendizado do Adaline ou seja, de reajuste de pesos -

conduzido de acordo com o critrio que visa a aproximar o valor do potencial de
ativao (u) relativo a cada amostra k do resultado desejado (d) a ser produzido pelo
combinador linear para a amostra tratada (de forma a permitir que o potencial de
ativao para aquela amostra produza o resultado de sada desejado para ela). Assim
sendo, o clculo do erro efetuado conforme expresso na equao (3):
erro = d u (3)
A Figura 2 resume os aspectos caractersticos dos parmetros envolvidos no

funcionamento do Adaline:
Figura 2- Parmetros inerentes ao Adaline
Os parmetros apresentados na Figura 2 mostram que, de fato, um Adaline

difere de um Perceptron essencialmente pelo mtodo de aprendizagem (Regra Delta
no primeiro e Regra de Hebbs no segundo). A anlise matemtica efetuada para
demonstrar as condies de convergncia do Perceptron tambm pode se aplicada ao
Adaline, ou seja, as classes do problema devem ser linearmente separveis para que
haja uma completa identificao.
1.2 Processo de Treinamento do Adaline
O processo de reajuste de pesos e limiar do Adaline baseia-se no algoritmo de

aprendizagem da Regra Delta (Widrow&Hoff, 1960), tambm conhecido como: Regra
de Aprendizagem de Widrow-Hoff, Algoritmo LMS (Least Mean Square) ou Mtodo do
Gradiente Descendente. Supondo-se p amostras de treinamento disponveis, a Regra
Delta aplicada para ajustar os pesos de forma a minimizar a diferena entre a sada
desejada (d) e a resposta do combinador linear (u), levando-se em considerao todas
as p amostras. Para tanto, utiliza-se a minimizao do erro quadrtico entre u e d com
o intuito de ajustar o vetor de pesos w = [ , w1 , ... , wn] da rede. O objetivo, no caso,
consiste em obter um w* timo tal que o erro quadrtico E(w*) sobre o conjunto de
amostras seja o mnimo possvel. Matematicamente, considerando uma configurao
tima de pesos, chega-se expresso (4) :
E(w*) E(w) , w Rn+1 (4)
A funo erro quadrtico em relao s p amostras de treinamento definida na

equao (5):
Assim, a equao (7) totaliza a composio do erro quadrtico mdio

contabilizando-se os p padres de treinamento (wT representa o vetor de pesos).
O valor timo para o erro quadrtico mdio apresentado na equao (7)

obtido pela aplicao do operador gradiente em relao ao vetor w, conforme
equao (8):
Das equaes (1) e (9), obtm-se a equao (10):

Como o objetivo do treinamento minimizar o erro quadrtico mdio, o valor
do ajuste dos pesos deve ser aplicado em sentido oposto ao do gradiente, conforme
mostra a equao (11):
A ttulo de simplificao, a atualizao de w pode tambm ser efetuada

discretamente aps a apresentao de cada k-sima amostra, tal como apresentado na
equao (14):
watual = wanterior + . (d(k) u ) . x (k) , onde k = 1, , p (14)
o que, expresso em notao algortmica na equao (15):
w = w + . (d(k) u ) . x (k) (15)
onde:
w = [j , w1, . ,wn ] o vetor de pesos contendo o limiarj (valor negativo!) associado

entrada x0 (k) e os pesos w1, .,wn associados a cada uma das entradas x1 (k), ... , xn (k) do
perceptron, respectivamente;
x(k) = [ -1, x1 (k), ... , xn (k)] o vetor que representa o sinal que circula no limiar (o vis
normalmente vale -1), e os sinais x1 (k), ...,xn (k) que representam a k-sima amostra de
treinamento.
d(k) representa o valor de sada desejado para o combinador linear, ao processar a k-

sima entrada, de forma que o potencial de ativao produzido possibilite um valor de
sada do Adaline compatvel com aquele esperado para essa k-sima amostra de
treinamento;
yj(k) representa o valor de sada produzido para a k-sima amostra de treinamento;
a taxa de aprendizagem do Adeline que exprime o quo rpido o processo de

treinamento da rede estar rumando em direo ao ponto mnimo da funo de erro
quadrtico apresentada na equao (5). Normalmente, 0 < < 1.
Saliente-se que os parmetros envolvidos na equao de ajuste de pesos do

Adeline - equao (15) - bem similar aos do Perceptron, diferindo essencialmente
pelo fato de, no primeiro, tal ajuste se basear no potencial de ativao, ao passo que,
no segundo, ele se baseia no sinal de sada do neurnio.
A Figura (2) elucida o processo de convergncia do Adaline, mostrando como o

ajuste de pesos de w norteado pela busca ao ponto de minimizao w* da funo
erro quadrtico mdio E(w).
Figura 2- Interpretao Geomtrica da Regra Delta

A Figura 2 mostra a convergncia do ajuste de pesos baseado na Regra Delta
para o ponto mnimo w* da funo erro quadrtico mdio E(w). De fato: conforme a
equao (8), o valor do gradiente em um ponto qualquer com valor de abscissa w na
curva de erro mostrada na Figura 2 - valor, este, que, conforme equao (11), definir
a intensidade e o sinal do ajuste de pesos - obtido por meio da derivada de E(w) com
relao a w, ou seja, o valor de tal gradiente corresponde ao valor da tangente curva
nesse ponto de abscissa w (sendo que tal abscissa representa um vetor de pesos
arbitrrio). Assim sendo, o sinal do ajuste de pesos a ser aplicado a w depende da
posio em que tal abscissa w se encontra com relao abscissa tima w* : caso w
(que representa o vetor de pesos corrente a ser ajustado) esteja direita de w* (ou
seja, tem tangente positiva ou gradiente positivo - ), o ajuste de pesos w deve ser
negativo; caso contrrio, isto , se w estiver esquerda de w* (ou seja, tem tangente
negativa ou gradiente negativo - ), o ajuste de pesos w deve ser positivo. Logo, a
Regra Delta de fato representa uma abordagem que faz o processo de ajuste de pesos
do Adalina conduzir w para o ponto timo w*. A seguir, tal processo ser descrito
com mais detalhes.
O critrio de parada do algoritmo de aprendizagem do Adaline estipulado em

termos da funo do erro quadrtico mdio em relao a todas as p amostras do
treinamento, tal como indicado pela equao (16):
Onde na equao (17) a preciso requerida para o processo de convergncia, sendo

especificado em funo do tipo de aplicao a ser mapeada pela rede Adaline.
Abaixo, segue o pseudo-cdigo que resume o processo de treinamento de uma

Adaline.
Assim como no treinamento do Perceptron, a varivel poca contabilizar
quantas vezes o conjunto das p amostras precisar ser apresentado ao Adaline de tal
forma que seu vetor de pesos assuma seu valor ideal, ou seja, de tal forma que ele
consiga resolver satisfatoriamente o problema para o qual foi treinado o que
acontece quando o erro quadrtico mdio entre duas pocas consecutivas for inferior
preciso requerida pelo problema.
Por sua vez, o algoritmo para obteno do erro quadrtico mdio Eqm(w)
conforme definido na equao (16) pode ser implementado conforme pseudo-cdigo
abaixo:
Findo o processo de treinamento, o Adaline estar apto a ser utilizado para
classificar as amostras x que lhe forem apresentadas, conforme pseudocdigo abaixo:
Conforme apresentado, o o processo de treinamento do Adaline tende a mover

sistematicamente o seu vetor de pesos at que se atinja o mnimo erro quadrtico em
relao a todas as amostras apresentadas em cada poca. A Figura 3 mostra dois
processos distintos de treinamento de um Adaline que diferem entre si pelo vetor de
pesos inicial proposto a ttulo didtico, a Figura considera amostras representadas
por apenas duas entradas x1 e x2.
Figura 3- Processos de Treinamento de Adaline
Observa-se na Figura 3 que, apesar das distintas atribuies de valores

aleatrios ao vetor de pesos inicial, ambos os treinamentos convergem para a mesma
fronteira de separabilidade tima gerada pelo vetor de pesos w* minimizador da
funo erro quadrtico.
A Figura 4 mostra o comportamento do erro quadrtico mdio em funo do

nmero de pocas de treinamento.
Figura 4
Conforme Figura 4, a curva do erro quadrtico mdio para o Adaline decresce

com o avano das pocas, estabilizando-se em um valor constante quando se atinge o
ponto de mnimo da funo erro quadrtico mdio mostrado na Figura 2.
1.3 Paralelo Entre os Processos de Treinamento do Adaline e do Perceptron
A Regra Delta que norteia o treinamento do Adaline tem como objetivo minimizar
a diferena mdia global entre o valor desejado dk a ser produzido pelo combinador
linear para cada amostra k de treinamento, de forma que ela seja corretamente
classificada pelo Adaline - por meio da aplicao da funo de transferncia - e o
potencial de ativao uk produzido para ela, pelo combinador linear, com base no
vetor de pesos corrente. Assim sendo, independentemente dos valores iniciais
atribudos ao vetor de pesos, o hiperplano de separao entre as classes obtido aps o
treinamento do Adaline ser sempre o mesmo, diferentemente do perceptron, cujo
treinamento, na mesma situao, pode produzir diversos hiperplanos separadores das
classes, conforme mostrado na Figura 5.
Figura 5
Tal fato faz com que o Adaline seja mais imune a eventuais rudos presentes
nas amostras do que o Perceptron, conforme mostrado na Figura 6.
Figura 6
De acordo com a Figura 6, o Adaline treinado ter maiores chances de

classificar corretamente a amostra ruidosa inscrita na circunferncia pontilhada do
que o Perceptron treinado.
Assim sendo, podem-se destacar algumas notas prticas relativas

convergncia do treinamento do Adalina:
Diferentemente do Perceptron, ainda que as classes envolvidas no
problema a ser classificado pelo Adaline no sejam linearmente separveis,
a Regra Delta passvel de convergncia em funo do patamar de preciso
definido para medir a diferena entre duas pocas consecutivas;
O valor da taxa de aprendizagem deve ser cuidadosamente definido a fim

de evitar instabilidades em torno do ponto de mnimo da funo erro
quadrtico, bem como de evitar que o processo de convergncia se torne
excessivamente lento;
Como no Perceptron, a quantidade de pocas necessrias para a

convergncia do Adaline varia em funo dos valores iniciais atribudos aos
pesos, da disposio espacial das amostras de treinamento e do valor de ;
A posio tima do hiperplano separador de classes aps a convergncia do

treinamento do Adaline lhe conferem uma maior tendncia de robustez
frente a eventuais rudos nas amostras;
Dependendo das caractersticas das amostras, o desempenho do

treinamento do Adaline pode ser melhorado por intermdio da
normalizao dos sinais de entrada.

RedesNeurais 3 Adaline PDF

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

RedesNeurais 3 Adaline PDF

Uploaded by

Copyright:

Available Formats

REDES NEURAIS ARTIFICIAIS 3

PROFESSORA DOUTORA RITA

Proposta do algoritmo de aprendizado baseado na Regra Delta, precursora da

Similarmente ao Perceptron simples, o Adaline tambm composto por um nico

A Figura 1 mostra a arquitetura de uma Adaline.

Figura 1- Arquitetura do Adaline

A rede Adaline, como o perceptron, tambm uma arquitetura feedforward

1.1 Princpio de Funcionamento do Adaline

O potencial de ativao u e o valor de sada do Adaline so calculados de modo

Onde xi so os sinais de entrada, wi o peso sinptico associado i-sima entrada,

O processo de aprendizado do Adaline ou seja, de reajuste de pesos -

A Figura 2 resume os aspectos caractersticos dos parmetros envolvidos no

Os parmetros apresentados na Figura 2 mostram que, de fato, um Adaline

1.2 Processo de Treinamento do Adaline

O processo de reajuste de pesos e limiar do Adaline baseia-se no algoritmo de

A funo erro quadrtico em relao s p amostras de treinamento definida na

Assim, a equao (7) totaliza a composio do erro quadrtico mdio

O valor timo para o erro quadrtico mdio apresentado na equao (7)

Das equaes (1) e (9), obtm-se a equao (10):

A ttulo de simplificao, a atualizao de w pode tambm ser efetuada

watual = wanterior + . (d(k) u ) . x (k) , onde k = 1, , p (14)

o que, expresso em notao algortmica na equao (15):

w = w + . (d(k) u ) . x (k) (15)

w = [j , w1, . ,wn ] o vetor de pesos contendo o limiarj (valor negativo!) associado

d(k) representa o valor de sada desejado para o combinador linear, ao processar a k-

yj(k) representa o valor de sada produzido para a k-sima amostra de treinamento;

a taxa de aprendizagem do Adeline que exprime o quo rpido o processo de

Saliente-se que os parmetros envolvidos na equao de ajuste de pesos do

A Figura (2) elucida o processo de convergncia do Adaline, mostrando como o

Figura 2- Interpretao Geomtrica da Regra Delta

O critrio de parada do algoritmo de aprendizagem do Adaline estipulado em

Onde na equao (17) a preciso requerida para o processo de convergncia, sendo

Abaixo, segue o pseudo-cdigo que resume o processo de treinamento de uma

Conforme apresentado, o o processo de treinamento do Adaline tende a mover

Figura 3- Processos de Treinamento de Adaline

Observa-se na Figura 3 que, apesar das distintas atribuies de valores

A Figura 4 mostra o comportamento do erro quadrtico mdio em funo do

Conforme Figura 4, a curva do erro quadrtico mdio para o Adaline decresce

1.3 Paralelo Entre os Processos de Treinamento do Adaline e do Perceptron

De acordo com a Figura 6, o Adaline treinado ter maiores chances de

Assim sendo, podem-se destacar algumas notas prticas relativas

O valor da taxa de aprendizagem deve ser cuidadosamente definido a fim

Como no Perceptron, a quantidade de pocas necessrias para a

A posio tima do hiperplano separador de classes aps a convergncia do

Dependendo das caractersticas das amostras, o desempenho do

You might also like