Professional Documents
Culture Documents
I. Objetivo
O objetivo deste trabalho analisar algoritmos para aprendizagem supervisionada de redes
neurais artificiais, identificando suas vantagens e desvantagens e determinando em que situaes
so mais eficientes.
De maneira geral, uma rede neural possui uma estrutura multicamada, como mostrado na
figura 02. Cada camada formada por um conjunto de neurnios do tipo Perceptron. A primeira
camada recebe o conjunto de valores de entrada da rede e gera um conjunto de sadas que sero as
Este ajuste pode ser feito de duas maneiras: aps a utilizao de apenas um conjunto de
valores de entrada ou aps todos os conjuntos de valores de entrada (padres de treinamento) terem
sido utilizados. De qualquer forma, deve-se calcular o erro mdio quadrtico das sadas, que ser
funo dos pesos da rede, e, em seguida, deve-se atualizar o vetor de pesos atravs de alguma regra.
A regra utilizada originalmente no algoritmo de retro-propagao a do gradiente descendente,
onde os pesos so atualizados da seguinte maneira:
onde
representa o vetor de pesos e
representa o gradiente do erro mdio quadrtico e
representa um fator de aprendizagem que deve ser escolhido previamente.
Desta forma, o algoritmo caminha, isto , modifica o vetor de pesos sinpticos, sempre na
direo contrria direo de maior aumento do erro mdio quadrtico, caminhando assim para
minimizar o erro mdio quadrtico e fazer com que a rede funcione como se deseja.
Para calcular este gradiente, interessante faz-lo passo a passo. Primeiramente, calculamse os termos relacionados com os pesos da ltima camada da rede, pois isso feito de maneira
simples. Em seguida, utiliza-se a regra da cadeia para calcular os termos que envolvam os pesos da
penltima camada e assim sucessivamente. Por isso que se afirma que o erro propagado na
direo contrria ao fluxo normal da rede, ajustando os pesos desta, e, por isso, o nome do
algoritmo. Este comportamento mostrado na figura 03.
Este mtodo amplamente utilizado, mas possui uma srie de problemas que o prejudicam:
a) O algoritmo facilmente leva a funo de erro para um mnimo local, em vez de
lev-la para um mnimo global. Isto chamado de convergncia prematura;
b) O processo de treinamento sensvel medida de rudos;
c) O processo esttico e no produz bons resultados em sistemas cuja dependncia
do tempo fator primordial;
d) Todo formato do vetor de entrada visitado, independentemente de outros
formatos.
buscando minimizar a funo erro na direo do novo gradiente, pode-se destruir o trabalho feito no
passo anterior, complicando a convergncia do algoritmo.
wt +1 = wt *E ( wt ),
onde
* arg min E ( wt t E ).
Um dos algoritmos desenvolvidos foi o de gradientes conjugados. A idia principal deste
algoritmo surge de uma melhoria simples aplicada no mtodo da retro-propagao. Ao invs de se
utilizar um fator de aprendizagem fixo, escolhe-se, a cada iterao, um novo fator atravs de uma
busca linear que objetiva minimizar os valores do novo vetor de pesos sinpticos dt+1.
E ( wt +1 d t +1 ).d t = 0.
Para a equao acima, expandindo o gradiente ao redor de wt+1 teremos:
(E ( wt +1 ) + Hd t +1 ).d t 0,
Onde H o Hessiano
Recordar viver
2 f (d )
H f (d )i , j =
d i .d j
E por construo teremos que:
d t .Hd t +1 0.
Essa soluo melhora o desempenho do algoritmo de gradiente descendente, pois garante,
em um nico passo, que o novo vetor de pesos minimiza a funo erro na direo do gradiente
utilizado naquele passo.
Resolvendo esse problema, o algoritmo de gradientes conjugados busca modificar a direo
em que se iro atualizar os pesos, de modo que, em cada passo, utilize-se uma direo ortogonal
quelas utilizadas nos passos anteriores (direes conjugadas), sendo a primeira direo utilizada a
contrria ao vetor gradiente. Estas direes formam uma base ortogonal do espao de pesos.
Suponhamos que w* seja o mnimo da funo erro E. A correo necessria para atingirmos o
mnimo da funo erro pode ser expandida em uma base de vetores mutuamente conjugados:
N
w* w1 = i d j ,
i =1
w j = w1 + i di ,
i =1
1 = arg min E ( wi + d1 );
4. Calcule w2 = w1 + 1d1 ;
5. Pare se os critrios de convergncia foram satisfeitos
6. Calcule E (w2);
7. A nova direo dada por
d 2 = E ( w2 ) + 1d1 ;
com 1 definido pela relao de Polak- Ribiere;
8. V para o passo 3 para o novo d.
Definido
q j = E ( w j ) E ( w j 1 ) e
v j = w j w j 1
v j = Hq j
Se quisermos produzir uma aproximao para a inversa da Hessiana podemos exigir que
para cada um dos pontos j excursionados que
G j +1vi = qi ,1 i j.
Aps N passos com vetores linearmente independentes, com N sendo o nmero de
dimenses da matriz Hessiana teremos. Um procedimento para construo de uma srie de matrizes
positivas definidas que respeitem G j +1vi = qi ,1 i j conhecida como algoritmo (BroydenFletcher- Goldfarb- Shanno).
v j G j v j (q j qT j ) (q j vT j )G j + G j (v j qT j )
G j +1 = G j + 1 +
v
q
q j .v j
j j q j .v j
Em geral a superfcie que est sendo otimizada no quadrtica assim a aproximao tem validade
limitada e a amplitude do passo no mtodo quasi-Newton deve ser controlada:
w j +1 = w j + j G j E ( w j )
A amplitude j do passo de otimizao pode ser obtida por uma busca linear, mas isso s
necessrio se o passo de Newton total( j =1) aumentar o valor da funo erro.
onde
representa o vetor de pesos e
representa o gradiente do erro mdio quadrtico,
representa a matriz Hessiana e um fator de ajuste.
Finalmente, bom ressaltar que o problema encarado pelo algoritmo LM exatamente o que
ocorre no treinamento backpropagation, onde a funo erro a ser minimizada no linear e no
formato de mnimos quadrados. Portanto, o algoritmo LM perfeitamente aplicvel a este tipo de
treinamento, sendo uma excelente melhoria em relao ao algoritmo de retro-propagao original.
VIII. Bibliografia