Professional Documents
Culture Documents
Laudo Reis
lalazius@gmail.com
Resumo:
Dezembro de 2008
Sumrio
1. Introduo...........................................................................................................................5
1.1. Contextualizao e Motivao............................................................................................5
1.2. Ferramentas Utilizadas .......................................................................................................8
1.3. Descrio dos Dados Utilizados .........................................................................................9
1.4. Objetivos do Relatrio......................................................................................................10
1.5. Organizao do Relatrio .................................................................................................10
2. Reviso de Tcnicas em Inteligncia Computacional ......................................................11
2.1. Paradigma Conexionista...................................................................................................11
2.2. Paradigma Evolucionrio .................................................................................................16
2.3. rvores de Deciso...........................................................................................................18
2.4. Mquina de Suporte de Vetores SVM..............................................................................20
2.5. Medidas de Avaliao ......................................................................................................24
3. Experimentos Realizados .................................................................................................27
3.1. Carga dos dados................................................................................................................27
3.2. Projeto dos Experimentos: Diretrizes ...............................................................................27
3.3. Pr-processamento dos Dados ..........................................................................................29
3.4. Estrutura Geral dos Experimentos....................................................................................29
3.5. Experimentos com RNA MLP .........................................................................................32
3.6. Experimentos com rvores de Deciso............................................................................34
3.7. Experimentos com SVM ..................................................................................................36
3.8. Experimentos SVM com Otimizao Gentica................................................................36
3.9. Experimentos com Amostra Balanceada..........................................................................38
4. Discusso dos Resultados e Trabalhos Futuros................................................................40
4.1. Discusso dos Resultados Obtidos ...................................................................................40
4.2. Proposta para Trabalhos Futuros ......................................................................................42
5. Referncias Bibliogrficas................................................................................................43
ndice de Figuras
Figura 1.1.1 ndice de Basilia do SFN Fonte: Bacen 2008.......................................................7
Figura 2.1.1 Modelo de Neurnio Artificial.............................................................................11
Figura 2.1.2 Efeito da entrada fixa bias no hiperplano.............................................................12
Figura 2.1.3 Topologias de RNA representativas.....................................................................13
Figura 2.1.4 Topologias das RNA utilizadas por Angelini et al...............................................15
Figura 2.2.1 Topologia das RNA RBF. ....................................................................................17
Figura 2.3.1 rvore de Deciso................................................................................................18
Figura 2.4.1 Hiperplano de mxima separao por SVM ........................................................20
Figura 2.4.2 Linearizao do espao de entrada.......................................................................20
Figura 2.4.3 Distribuio de artigos por ano. Fonte: Yu 2008. ................................................22
Figura 2.5.1 Matriz de confuso utilizada para definio da curva ROC ................................26
Figura 3.2.1 Histograma das classes de risco do universo e amostra.......................................28
Figura 3.2.2 Exemplo de consulta SQL....................................................................................29
Figura 3.4.1 Estrutura geral dos experimentos com RapidMiner.............................................30
Figura 3.4.2 Estrutura geral na forma de arquivo XML...........................................................30
Figura 3.4.3 Representao grfica de uma matriz de confuso. .............................................31
Figura 3.5.1 RNA Perceptron Multicamadas. ..........................................................................32
Figura 3.5.2 Matriz de confuso do experimento MLP 3.........................................................32
Figura 3.6.1 Matriz de confuso, rvore e curva ROC universo. .............................................35
Figura 3.6.2 Matriz de confuso, rvore e curva ROC amostra. ..............................................35
Figura 3.8.1 Modelo para os experimentos 17 a 20..................................................................37
Figura 3.9.1 Amostra balanceada. ............................................................................................38
Figura 4.1.1 Acurcia das tcnicas nos subconjuntos de classes..............................................41
Figura 4.1.2 Medidas de F-measure com =0,5 das tcnicas nas classes. ...............................42
ndice de Tabelas
Tabela 1.1.1 Atividades desenvolvidas pelo Comit de Basilia em Superviso Bancria .......6
Tabela 1.1.2 Reserva de recursos por classe de risco. Fonte CMN 1999...................................7
Tabela 1.3.1 Carter mutuamente exclusivo dos subfatores ......................................................9
Tabela 2.1.1 Cronologia no desenvolvimento de redes neurais e recentes pesquisas ..............14
Tabela 2.4.1 Comparativo entre tcnicas de inteligncia computacional.................................22
Tabela 2.4.2 Tcnicas utilizadas nos artigos analisados por Yu. .............................................22
Tabela 2.5.1 Matriz de confuso ..............................................................................................25
Tabela 3.4.1 Planejamento de experimentos com amostra.......................................................31
Tabela 3.5.1 Matrizes de confuso do experimento 3 com MLP. ............................................33
Tabela 3.5.2 Resultados dos experimentos MLP 1 a 7.............................................................33
Tabela 3.5.3 Caractersticas do experimento 16 com MLP......................................................33
Tabela 3.5.4 Matriz de confuso do experimento 16 com MLP. ............................................33
Tabela 3.6.1 Matrizes de confuso dos experimentos 8 com AD. ...........................................34
Tabela 3.6.2 Resultados dos experimentos AD........................................................................34
Tabela 3.7.1 Matriz de confuso do experimento 12 ...............................................................36
Tabela 3.7.2 Resultados dos experimentos SVM .....................................................................36
Tabela 3.8.1 Experimentos com SVMAE ................................................................................37
Tabela 3.8.2 Resultados dos experimentos SVM com otimizao evolutiva...........................37
Tabela 3.9.1 Experimentos realizados com a amostra balanceada...........................................38
Tabela 3.9.2 Matriz de confuso do experimento 24 com SVMAE.........................................39
Tabela 3.9.3 Resultados obtidos nos experimentos 21 a 36. ....................................................39
1. Introduo
1.1. Contextualizao e Motivao
Tabela 1.1.2 Reserva de recursos por classe de risco. Fonte CMN 1999
Classe de Risco AA A B C D E F G H
Percentual(%) 0 0,5 1 3 10 30 50 70 100
1
Instituies que se mostrarem bem geridas, podero apresentar requisito mnimo de capital inferior, conforme
calculado de sua carteira de crdito.
2
Valor mdio apresentado para as instituies financeiras brasileiras
A modelagem de sistemas internos de classificao e controle de risco envolve o
clculo de probabilidades de inadimplncia. comum, nas abordagens clssicas, o uso
aproximaes estatsticas utilizando modelos paramtricos e no-paramtricos, dos quais
podemos citar: anlise de regresso, anlise discriminante, regresso Logit e regresso Probit.
Diversos pesquisadores tm investigado o uso de tcnicas de inteligncia computacional:
Redes Neurais Artificiais (RNA), rvores de Deciso (AD), Lgica Difusa (LD), Mquinas
de Vetores de Suporte (SVM), para a identificao de padres de caractersticas dos
tomadores de crdito e classificao de risco nas operaes realizadas.
Esses estudos so motivados, sobretudo, por trs aspectos essenciais: com o
desenvolvimento do mercado de crdito, tanto a complexidade, quanto o volume de operaes
tem crescido; tradicionalmente os sistemas de classificao baseiam-se em sistemas de
escores, onde notas so atribudas aos clientes e suas operaes, tais sistemas envolvem a
avaliao por especialistas humanos, sujeitos a subjetividade; com o uso das tcnicas de
inteligncia computacional, h reduo de custos, aumento de produtividade, preciso e
flexibilidade na operacionalizao de mudanas na estratgia de concesso de crdito [Yu et
al., 2008].
Os dados utilizados neste trabalho, so dados reais e foram fornecidos por uma
instituio brasileira de fomento de desenvolvimento regional, compreendem caractersticas
de tomadores de crdito e de suas operaes. Para que a instituio e os perfis de seus clientes
fossem preservados, omitiu-se: o nome da instituio, os rtulos dos atributos caractersticos
dos tomadores de crditos e as frmulas para clculo dos escores, utilizando-se as notas de
classificao j atribudas pela instituio.
Os dados inicialmente em um formato de banco de dados proprietrio foram migrados
para um formato SQL em texto plano. Selecionou-se para os experimentos, a Tabela mais
representativa em termos de nmeros de clientes; essa Tabela contm dados de empresas
comerciais tomadoras de crdito, apresentando 120 atributos e 58995 registros.
As caractersticas dos tomadores so divididas em fatores e subfatores de risco. Os
subfatores so mutuamente exclusivos entre si, se um subfator que apresenta o valor lgico 1,
os demais subfatores que compe o fator tero valor lgico 0, conforme exemplificado na
Tabela 1.3.1.
Para o pesquisador Munakata, a Inteligncia Artificial (IA) est para o raciocnio assim
como a Revoluo Industrial para a fora fsica e divide-se fundamentalmente em duas
abordagens: uma tradicional, dominante, simblica, de alto nvel de abstrao e macroscpica
e outra numrica, de baixo nvel, microscpica com nfase em fisiologia e gentica. A
abordagem microscpica contempla Redes Neurais Artificiais e Algoritmos Evolutivos. Em
adio a esta diviso, tcnicas relativamente novas buscam aumentar a flexibilidade no
processamento inteligente: Lgica Difusa, Teoria dos Conjuntos Nebulosos e Sistemas
Caticos, compondo com as tcnicas microscpicas a Inteligncia computacional (IC)
[Munakata 2008].
A inteligncia computacional permite aos sistemas inteligentes apresentarem
caractersticas inerentes ao raciocnio humano: soluo de problemas complexos, extrao de
conhecimento dos dados, aprendizado por exemplos, generalizao do conhecimento
aprendido, processamento de informao incerta e imprecisa, explicao das decises
tomadas, adaptao e evoluo das solues por otimizao de parmetros e pesquisa
paralela. Os principais paradigmas de modelagem da IC, segundo Jain et al., so:
Conexionista, Lgica Difusa, Evolucionrio e Hbrido [Jain et al., 2008].
(2.1.1)
(2.1.2)
(2.1.3)
(2.1.4)
(2.1.5)
Algumas das limitaes das RNA so: o conhecimento est embutido nos pesos das
conexes entre neurnios, o sistema do tipo caixa-preta, na busca da soluo esta pode
convergir para um mximo (ou mnimo) local, o projeto da rede apresenta aspectos
experimentais e exige experincia do projetista [Haykin 2001]. Estudos com sistemas
hbridos buscam a soluo dessas limitaes.
A Tabela 2.1.l apresenta uma cronologia do desenvolvimento em Redes Neurais.
Tabela 2.1.1 Cronologia no desenvolvimento de redes neurais e recentes pesquisas
Ano Rede
1943 Modelagem matemtica do neurnio
1949 Aprendizado Hebbiano - Introduo do aprendizado pelo ajuste dos pesos
1958 Perceptron - Rosemblatt
1960 Rede Adaline - Widrow e Hoff
1982-1984 Rede de Hopfield - Hopfield
1982-1988 Mapas auto-organizveis - Kohonen
1986 Multicamadas de Perceptrons (MLP) - Rumelhart et al.
1989 Redes de Funo de Base Radial (RBF) -Moody e Darken
1987 Redes de Ressonncia Adaptativas - Carpenter e Grossberg
2006 Rede Adiante Baseada na funo de Lyapunov - Behera et al.
2007 Rede Neural Probabilistica ponderada - Song et al.
2007 Politipo ARTMAP - Amorin et al.
2007 GRNN de Densidade Dirigida - Goulermas et al.
2008 Rede RBF auto-organizvel - Lian et al.
2008 Rede Neural de Hopfield Atrasada - Mou et al.
(2.2.1)
(2.2.2)
Figura 2.2.1 Topologia das RNA RBF.
O treino da rede ocorre em duas etapas: uma seleo dos raios e centros das funes
hi(x) e o ajuste dos pesos wi. Detalhes experimentais podero ser consultados em sua
referncia [Carvalho et al., 2005]. Segundo Carvalho et al. os resultados obtidos sugerem
superioridade da abordagem gentica proposta, com RNA RBF resultantes com menor
nmero mdio de ns nas camadas ocultas e menor taxa mdia de erro, comparativamente aos
resultados obtidos com outras RNA, SVM e RNA RBF treinadas por outros mtodos.
.
2.3. rvores de Deciso
(2.4.2)
(2.4.3)
(2.4.4)
LDA - Analise Discriminante Linear KNN - K-vizinhos mais prximos RS - Rough Sets
LOG - Regresso Logstica LP - Programao Linear SVM - Mquinas de Vetores de
PR - Regresso Probit NN - Redes Neurais Suporte
DT - rvores de Deciso EA - Algoritmos Evolucionrios Hybrid/Ensemble Sistemas Hbridos
(2.5.1)
(2.5.2)
(2.5.3)
(2.5.4)
3
De acordo com a resoluo BACEN 2692 de 21/12/99 no Brasil classificam-se riscos de crdito em 9 classes,
entretanto no contexto de Basilia II admitem-se mais classes. Os dados recebidos para os experimentos
apresentam-se em 10 classes, sendo que na classe de maior risco HH, no ocorre operaes de crdito.
A seleo dos dados presentes nos experimentos, realizada atravs de consultas em
SQL. A Figura 3.2.2 mostra um exemplo de consulta SQL, no SELECT so selecionados os
atributos e a classe e no WHERE quais os valores da classe sero analisados.
A estrutura dos dados fornecidos pela instituio financeira mostrou-se adequada para
o processamento atravs de diferentes tcnicas da Inteligncia Computacional, devido a trs
de suas caractersticas: os exemplos apresentam atributo com valor de classes bem definidas,
os atributos relativos aos subfatores, dentro de um fator de risco, possuem valores
mutuamente exclusivos e, os dados apresentam-se com valores normalizados. Essas
caractersticas dos dados, somados ao poder explanatrio da tcnica de rvores de Deciso
conduzem a sua escolha, entretanto, o nmero de regras pode tornar-se muito elevado e outras
tcnicas mostram-se mais precisas na discriminao das classes. O pr-processamento dos
dados foi bastante reduzido devido s caractersticas dos dados.
Computacionalmente, o desafio deste trabalho apresentou-se na forma de problema de
classificao; sob o ponto de vista financeiro, sua soluo tem relevncia crescente,
sobretudo, no contexto da atual crise financeira internacional e tambm pela possibilidade de
aumento da rentabilidade das instituies financeiras: pela liberao de parte dos recursos do
capital mnimo requerido, pelo aumento de eficincia e preciso do sistema de classificao,
pelo aumento da agilidade na execuo de novas polticas de classificao do risco de crdito
e pela eliminao de vis de subjetividade de avaliao do operador de crdito.
natural imaginar-se que as instituies desejem operar com os clientes de mais baixo
risco de crdito, os dados fornecidos para este trabalho apresentam-se alinhados com essa
hiptese conforme se verifica no histograma da Figura 3.2.1; as propores entre as notas
melhores AA, A e B e, as piores F, G, H e HH, levam os algoritmos tendncias de
classificao reveladas pelas matrizes de confuso dos experimentos com todas as classes
(Figuras 3.5.1, 3.6.1 e 3.7.1) e tambm observveis no grfico da Figura 4.1.1.
Essas tendncias sugerem a necessidade de uma melhora no pr-processamento dos
exemplos, no no sentido de formatao dos dados, mas de um maior equilbrio nas
propores das classes presentes nos exemplos. A reduo do nmero de exemplos das
classes predominantes poderia ser uma estratgia, entretanto ocorreria uma diminuio
significativa do volume de dados, outra estratgia possvel seria a gerao de exemplos
artificiais [Batista 2003].
A partir dos experimentos constataram-se os melhores desempenhos, tanto em termos
de acurcia quanto em termos de F-measure, com as tcnicas de mquina de vetores de
suporte SVM, sugerindo que a estratgia de melhorar os hiperplanos de separao das classes
utlizadas sejam responsveis por essa melhoria nos resultados. A expectativa inicial, de que o
algoritmo gentico realizasse a otimizao do parmetro do SVM, tambm pode ser
verificada em termos experimentais com os dados disponveis. Os grficos das Figuras 4.1.1
e 4.1.2 resumem os resultados de acurcia e F-measure de 32 experimentos. O eixo das
abscissas de cada grfico est organizado por combinaes do tipo de amostra, do
subconjunto de classes e da tcnica utilizada em cada experimento, formando sries de quatro
experimentos (AD, ML, SVM e SVMAE). percebe-se a superioridade do SVMAE.
Comparando-se os resultados das medidas obtidas nos experimentos com a amostra
balanceada (Tabela 3.3.3) com aqueles obtidos com a amostra no balanceada (Tabelas 3.8.2,
3.7.2, 3.6.2 e 3.5.2) constata-se maior uniformidade nos valores das medidas de cobertura e
acurcia para a amostra balanceada, com aumento de alguns valores de cobertura e
diminuio da acurcia. Essa diminuio da acurcia era esperado pela diminuio do vis de
classificao das classes mais numerosas presentes na amostra no balanceada.
[Angelini et al., 2007] ANGELINI, E.; DI TOLLO, G.; ROLI, A. A neural network approach
for credit risk evaluation, The Quarterly Review of Economics and Finance (2007),
doi:10.1016/j.qref.2007.04.001
[Engelmann e Rauhmeier 2006] ENGELMANN, B.; RAUHMEIER, R.; The Basel II Risk
Parameters: Estimation, Validation and Stress Testing. Berlin: Springer, 2006.
[Heffernan 2005] HEFFERMAN, S. Modern Banking, John Wiley & Sons, 2005.
[Haykin 2001] HAYKIN, S. Redes Neurais: Princpios e Prtica. Traduo de Paulo Martins
Engel. 2. ed. Porto Alegre: Bookman, 2001. Ttulo original: Neural Networks: a
comprehensive foundation, 2/E.
[Jain et al., 2008] JAIN L. C.; SATO, M.; VIRVOU, M.; TSIHRINTZIS G. A.; BALAS, V.
E.; ABEYNAYAKE C. Computational Intelligence Paradigms: Innovative Applications.
Berlin: Springer-Verlag, 2008.
[JDBC 2008] Pgina oficial do Conector Java para Dados PostgreSQL na Internet, Disponvel
em <http://jdbc.postgresql.org/download.html>. Acesso em: 07 ago. 2008
[Mierswa et al., 2006] MIERSWA, I.; WURST, M.; KLINKENBERG, R.; SCHOLZ, M.; and
EULER, T. YALE: Rapid Prototyping for Complex Data Mining Tasks, in Proceedings of
the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
(KDD-06), 2006.
[Mishkin 2004] MISHKIN, F.S., The Economics of Money, Banking and Financial
Markets. pp. 260-269. Addison-Wesley, 7th.ed. USA: 2004.
[Mitchell 1997] MITCHELL, T.M. Machine Learning. McGraw Hill, New York: 1997.
[Postgresql 2008] Pgina oficial do Banco de Dados PostgreSQL na Internet, Disponvel em <
http://www.postgresql.org/>. Acesso em: 05 ago. 2008
[Rezende et al., 1998] REZENDE S.; HORST, P.; PADILHA, T.; ROCHA, C.; and DE
CARVALHO; A. C. P. F. Knowledge Acquisition Using Symbolic and Connectionist
Algorithms for Credit Evaluation. Proceedings of the IEEE World Congress on
Computational Intelligence, WCCI98, Anchorage, USA, May 1998.
[Rochet 2007] ROCHET, J. Why Are there So Many Banking Crisis. New Jersey, USA:
Princeton University Press, 2007.
[Sun e Wang 2005] SUN, M.; WANG, S. Validation of credit rating model: a preliminary
look at methodology and literature review, China, 2005.
[Witten e Frank 2005] WITTEN, I. H.; FRANK, E. Data Mining Practical Machine
Learning Tools and Techniques. Morgan Kaufmann, 2005
[Yu et al., 2008] YU, L.; WANG, S.; LAI, K. K.; ZHOU, L. Bio-Inspired Credit Risk
Analysis: Computational Intelligence with Support Vector Machines, Springer-Verlag,
Berlin Heidelberg, 2008.