Professional Documents
Culture Documents
previsão e prevenção de
evasão e de inadimplência
estudantil
1
Investmentos em AI
Crescimento exponencial
2
O “boom” de AI em analytics
“In the field of credit scoring, studies have shown that neural networks perform
significantly better than statistical techniques. [1], [5]. ANN have been used in
credit rating and credit scoring quite extensively as illustrated in the following
papers : “Artificial Neural Networks for Corporation Credit Rating Analysis”[7], “Personal Credit Rating Assessment
for the National Student Loans based on Artificial Neural Network”[8], “Personal Credit Rating Using Artificial
Intelligence Technology for the National Student Loans” where a Back Propagation neural network was used [9],
“Research of electronic commercial credit rating based on Neural Network with Principal Component Analysis” [10]
(Thabiso Peter Mpofu1, Macdonald Mukosera2Credit Scoring Techniques: A Survey
– August 2014).
5
As soluções de AI da IntelliSearch
✓ Conforme demonstrado no gráfico anterior, Redes Neurais
superam, em capacidade preditiva e classificatória todas as
outras abordagens utilizadas no mercado (regressão logística,
SVMs Naïve Bayes,...), para aplicações em scoring, tanto no
desempenho máximo quanto no médio.
✓ No caso do desempenho mínimo, as redes neurais puras caem
nas “armadilhas” do overfitting e dos máximos/mínimos locais,
deixando escapar o máximo/mínimo global.
✓ Por isso utilizamos o modelo híbrido, com o ciclo de treinamento
supervisionado por um algoritmo genético, que impede o
overfitting e garante o alcance do máximo/mínimo global.
✓ Nossas soluções podem ser utilizadas em qualquer plataforma
de software (qualquer DBMS) e hardware, portanto não geram
dependência de fornecedores.
6
O salto na abordagem de gestão
continuidade acadêmica
Prevenção de evasão e
oferta de novas opções de
cursos.
Classificação otimizada
para maximização da
retenção no curto, médio e
longo prazos.
Direcionamento específico.
7
As soluções de AI da IntelliSearch
As soluções de Ward Systems são de fato do tipo híbrido, em que a
rede neural (ANN) é supervisionada e tem sua performance
otimizada por um algoritmo genético. Ele seleciona, ao longo de
várias “gerações”, as melhores combinações de parâmetros da rede
neural, com as seguintes vantagens sobre redes neurais “não
supervisionadas”:
✓ Impede overfitting aos dados usados no treinamento (in-sample) melhorando
a capacidade de generalização quando atuando sobre dados “out-of-sample”;
✓ Quanto mais gerações percorridas durante o ciclo de treinamento, melhor o
“fitting” aos dados “out-of-sample”;
✓ Evita que a rede, durante o ciclo de treinamento, fique presa sobre um
máximo/mínimo local, e em vez disso busque o ponto ótimo “global”.
✓ Elimina o efeito “caixa-preta”, normalmente encontrado em ANNs não
supervisionadas, exibindo quais variáveis têm mais importância na
capacidade preditiva e/ou classificatória.
8
Soluções de Redes Neurais otimizadas por
Algoritmos Genéticos da IntelliSearch
NeuroShell Classifier
NeuroShell Predictor para classificação e
e Chaos Hunter para segmentação de contratos
predição de variáveis (“clustering”) . Ex.:
segmentação para
contínuas. Ex.: % de evasão
encaminhamento a estratégias
ou inadimplência numa de retenção. Previsão, no nível
turma ou num determinado individual de cada estudante, se
semestre. % de perda por ele deve evadir ou inadimplir.
inadimplência Classificação para mining
(ofertas de novos cursos)
NeuroShell NeuroShell
Predictor (*) Classifier (*)
Interface com o
(*) Marcas usuário final
registradas da (web and/or mobile)
10
Ward Systems
Seleção de variáveis
11
Exemplo 1: Predição de evasão, por estudante
Tem como objetivo prever, individualmente para cada estudante, se
ele tenderá, ao longo do curso ou de um semestre, a abandonar o
curso (evasão acadêmica). As seguintes variáveis independentes
serão usadas como input para treinamento da rede neural:
✓ Idade do estudante;
✓ Histórico de absenteísmo;
✓ Ocorrências de atraso na entrega de atividades acadêmicas;
✓ Comprometimento da renda individual ou familiar com a mensalidade;
✓ Estado civil;
✓ Ocorrências de atraso de pagamento da mensalidade;
✓ Se exerce atividade profissional regular;
✓ Se a atividade profissional (regular ou não) é em tempo integral;
✓ Médias de notas em exames e avaliações de trabalhos;
✓ Ocorrências anteriores de evasão.
14
Dados históricos das variáveis
Dados brutos com características de estudantes de turmas anteriores,
incluindo a observação sobre se evadiram ou não
id idade hist_abs atrasos_ativ comprom_renda estado_civil atrasos_pagto ativ_prof Full_time_empl grau_medio hist_evasao_ant evasao
1 18,1 4 4 0,3 casado com filhos 0 sim não 3,4 sim não
2 19,5 7 15 0,5 solteiro independente 4 sim sim 9,7 não não
3 20,2 5 8 0,8 casado sem filhos 2 sim não 6,4 não não
4 18,8 13 3 0,2 divorciado 1 sim não 2,2 não sim
5 23,0 1 4 0,2 solteiro arrimo 0 não sim 0,6 sim sim
6 21,6 12 2 0,4 solteiro independente 1 não sim 1,5 sim não
7 22,4 15 16 0,4 casado com filhos 0 sim não 0,9 não sim
8 18,9 10 3 0,3 casado sem filhos 1 não não 2,7 não não
9 22,8 8 11 0,5 solteiro independente 1 sim não 1,9 não não
10 19,7 6 14 0,3 casado com filhos 0 sim sim 0,8 não sim
11 18,9 15 1 0,6 casado sem filhos 3 sim não 6,2 não não
12 22,0 6 13 0,3 casado com filhos 2 sim sim 5,8 sim sim
13 20,0 1 11 0,4 solteiro arrimo 1 não sim 1,5 não sim
14 18,4 13 6 0,3 solteiro independente 0 sim sim 1,1 não não
15 18,8 12 16 0,5 casado com filhos 2 sim sim 4,0 sim sim
16 19,0 10 1 0,2 casado sem filhos 4 sim sim 8,7 sim não
17 19,7 15 9 0,3 casado com filhos 2 não não 5,6 não não
18 23,0 7 10 0,5 divorciado 1 sim sim 2,0 não sim
19 19,8 7 13 0,7 casado sem filhos 4 não sim 9,6 sim não
20 21,1 15 0 0,1 solteiro arrimo 1 não não 1,3 não não
15
Tratamento dos dados
Antes de passarmos os dados para o treinamento do algoritmo,
devemos convertê-los e trata-los para que a capacidade preditiva
seja máxima. Isso é realizado pela camada que a IntelliSearch
desenvolveu, baseada em metodologia exaustivamente testada em
nossos clientes, e adicional às ferramentas da Ward Systems.
Essencialmente, tal camada:
✓ Converte dados alfanuméricos em numéricos (tipicamente
categóricos/discretos);
✓ Trata dados que são números reais (contínuos) e que devem passar por
normalização antes de submetidos ao algoritmo (ex. idade do estudante);
✓ Aplica tratamento de domínios (mapeando domínios numéricos antigos em
novos), distribuindo números Reais ou inteiros de maneira mais uniforme;
✓ Converte algumas variáveis numéricas categóricas em um superconjunto
de variáveis binárias.
Tais tratamentos também reduzem o problema da dimensionalidade, aumentando
a capacidade de generalização e diminuindo a necessidade de grandes massas de
dados (linhas da tabela).
16
Dados históricos das variáveis
Após conversão pela camada de tratamento de dados
id idade hist_abs atrasos_ativ comprom_renda estado_civil atrasos_pagto ativ_prof Full_time_empl grau_medio hist_evasao_ant evasao
1 0,02 0,03 0,22 0,3 3 0,078458744 1 0 0,355429859 1 0
2 0,98 0,06 0,87 0,5 1 1 1 1 1,002281665 0 0
3 0,62 0,04 0,49 0,8 2 0,631752326 1 0 0,655444708 0 0
4 0,2 0,11 0,18 0,2 5 0,237655146 1 0 0,23163432 0 1
5 0,06 0,01 0,21 0,2 4 0,061718283 0 1 0,066046073 1 1
6 0,1 0,1 0,12 0,4 1 0,163917902 0 1 0,153930913 1 0
7 0,06 0,12 0,92 0,4 3 0,101511923 1 0 0,096963852 0 1
8 0,23 0,08 0,17 0,3 2 0,279999741 0 0 0,275772049 0 0
9 0,14 0,07 0,65 0,5 1 0,194456576 1 0 0,196357348 0 0
10 0,02 0,05 0,81 0,3 3 0,084086631 1 1 0,078127698 0 1
11 0,62 0,12 0,03 0,6 2 0,67916316 1 0 0,643668876 0 0
12 0,54 0,05 0,75 0,3 3 0,601231087 1 1 0,594676548 1 1
13 0,1 0,01 0,67 0,4 4 0,141615822 0 1 0,150376481 0 1
14 0,07 0,11 0,38 0,3 1 0,127859037 1 1 0,110632927 0 0
15 0,41 0,1 0,97 0,5 3 0,451517517 1 1 0,410970845 1 1
16 0,88 0,08 0,03 0,2 2 0,919220948 1 1 0,894408902 1 0
17 0,53 0,12 0,5 0,3 3 0,539974118 0 0 0,574384909 0 0
18 0,17 0,06 0,59 0,5 5 0,188119498 1 1 0,203611975 0 1
19 0,97 0,06 0,78 0,7 2 1 0 1 0,985311297 1 0
20 0,11 0,12 0 0,1 4 0,165787515 0 0 0,129150122 0 0
17
Treinamento do modelo
(minimizando o % de classificações erradas por categoria)
18
✓ Eliminando o efeito “caixa-preta” de redes neurais convencionais, exibindo
quais variáveis são mais importantes na predição e/ou classificação.
19
A capacidade preditiva é verificada através da matriz de classificação
(no caso, uma classificação binária sim/não)
20
E de forma gráfica, na curva ROC
21
O algoritmo “treinado” pode então ser salvo como um módulo
executável (run-time)
22
A rede em regime de produção
Após concluído o treinamento, o run-time passa a ser usado para
prever a evasão de novos estudantes
idade hist_abs atrasos_ativ comprom_renda estado_civil atrasos_pagto ativ_prof Full_time_empl grau_medio hist_evasao_ant evasao Probabilidade
22,7 4 7 0,5 casado sem filhos 3 sim sim 6,6 sim
20,0 7 12 0,3 casado com filhos 2 não sim 4,4 sim
23,3 4 4 0,8 solteiro independente 3 não sim 7,0 sim
19,1 11 14 0,8 solteiro arrimo 2 não não 3,8 sim
21,4 7 10 0,5 casado sem filhos 3 sim sim 7,0 sim
21,8 15 7 0,8 casado sem filhos 0 não sim 1,3 sim
19,2 8 16 0,1 solteiro arrimo 2 não sim 4,2 não
18,8 4 9 0,3 casado sem filhos 1 não não 2,6 não
23,2 5 3 0,5 solteiro independente 2 não sim 5,4 sim
20,7 2 3 0,5 solteiro arrimo 2 não não 6,1 não
21,6 6 13 0,8 casado com filhos 2 sim não 4,5 não
22,8 7 9 0,4 solteiro independente 0 sim sim 0,6 não
22,7 12 14 0,3 solteiro independente 2 não não 6,0 sim
23,1 6 10 0,4 solteiro independente 4 não sim 9,5 sim
23,5 15 8 0,8 solteiro independente 3 sim não 6,0 sim
22,9 4 17 0,5 solteiro independente 3 sim não 8,6 não
21,5 8 8 0,6 divorciado 3 sim não 7,1 não
19,6 4 13 0,7 divorciado 3 não sim 7,1 não
Reset Previsões
23
A rede em regime de produção
Após concluído o treinamento, o run-time pode ser salvo e passa a ser
usado para prever a evasão de novos estudantes
idade hist_abs atrasos_ativ comprom_renda estado_civil atrasos_pagto ativ_prof Full_time_empl grau_medio hist_evasao_ant evasao Probabilidade
22,7 4 7 0,5 casado sem filhos 3 sim sim 6,6 sim sim 83%
20,0 7 12 0,3 casado com filhos 2 não sim 4,4 sim sim 75%
23,3 4 4 0,8 solteiro independente 3 não sim 7,0 sim não 69%
19,1 11 14 0,8 solteiro arrimo 2 não não 3,8 sim sim 95%
21,4 7 10 0,5 casado sem filhos 3 sim sim 7,0 sim sim 88%
21,8 15 7 0,8 casado sem filhos 0 não sim 1,3 sim sim 91%
19,2 8 16 0,1 solteiro arrimo 2 não sim 4,2 não sim 77%
18,8 4 9 0,3 casado sem filhos 1 não não 2,6 não não 65%
23,2 5 3 0,5 solteiro independente 2 não sim 5,4 sim não 71%
20,7 2 3 0,5 solteiro arrimo 2 não não 6,1 não não 99%
21,6 6 13 0,8 casado com filhos 2 sim não 4,5 não não 87%
22,8 7 9 0,4 solteiro independente 0 sim sim 0,6 não não 79%
22,7 12 14 0,3 solteiro independente 2 não não 6,0 sim não 83%
23,1 6 10 0,4 solteiro independente 4 não sim 9,5 sim não 66%
23,5 15 8 0,8 solteiro independente 3 sim não 6,0 sim não 94%
22,9 4 17 0,5 solteiro independente 3 sim não 8,6 não não 81%
21,5 8 8 0,6 divorciado 3 sim não 7,1 não não 77%
19,6 4 13 0,7 divorciado 3 não sim 7,1 não sim 95%
Reset Previsões
24
Exemplo 2: Predição de evasão, por turma ou
semestre
Tem como objetivo prever o percentual de estudantes que deverá
evadir, por turma ou semestre. As seguintes variáveis serão usadas
como input para treinamento da rede neural:
25
Dados históricos das variáveis (já tratados)
Dados brutos com características de turmas anteriores, incluindo o
percentual de evasão observado em cada uma
turma media_idade media_absent media_atrasos work_full_time media_atrasos_pagto renda_media evasao
1 0,391357735 0,224327733 0,031559613 0,65 0,0710441 0,65 0,094929
2 0,086396411 0,376082488 0,197229429 0,61 0,184621836 0,61 0,110505
3 0,222590767 0,0182181 0,424122254 1 0,136407118 1 0,026593
4 0,424650937 0,47683103 0,29455022 0,73 0,347669876 0,73 0,162028
5 0,26008554 0,415313765 0,151949199 1 0,040567801 1 0,079589
6 0,200690804 0,103362191 0,347555996 0,34 0,09359077 0,34 0,084091
7 0,391711319 0,01216924 0,158899712 0,64 0,285056424 0,64 0,080618
8 0,056802141 0,097777114 0,052861186 1 0,333237699 1 0,053901
9 0,021801039 0,031210808 0,30524425 0,39 0,071295191 0,39 0,052636
10 0,296386483 0,454613893 0,338115983 1 0,137535737 1 0,102392
11 0,009401441 0,184816639 0,038325055 1 0,378391576 1 0,073633
12 0,053784372 0,12947928 0,278906042 0,77 0,429201769 0,77 0,091338
13 0,013706347 0,017654537 0,311985974 0,99 0,415435019 0,99 0,052359
14 0,478642115 0,348962475 0,253159679 1 0,117140998 1 0,093197
15 0,393037013 0,297852492 0,081568328 0,63 0,191958368 0,63 0,11302
16 0,111522676 0,060749732 0,314134968 1 0,089440297 1 0,021935
17 0,259571915 0,147834363 0,075030586 0,78 0,276100968 0,78 0,082274
18 0,445643746 0,328701656 0,149073859 0,39 0,179925689 0,39 0,140658
19 0,276070718 0,02076518 0,142391687 0,85 0,008264426 0,85 0,021365
26
Treinamento do modelo
(minimizando RMSE)
27
Exibindo a importância relativa das variáveis independentes
28
A capacidade preditiva é verificada através do gráfico de dispersão
(valores previstos contra valores observados)
29
Quanto mais gerações de ANNs se acumulam durante o processo de
treinamento, melhor a capacidade preditiva do modelo final
30
O algoritmo “treinado” pode então ser salvo como um módulo
executável (run-time)
31
A rede em regime de produção
Após concluído o treinamento, o run-time passa a ser usado para
calcular o % de evasão de novas turmas
Reset
Gera previsões
32
A rede em regime de produção
Após concluído o treinamento, o run-time pode ser salvo e passa a ser
usado para prever o % de evasão de novas turmas
Reset
Gera previsões
33
No caso de previsões de valores contínuos (Reais), além do
NS Predictor, podemos usar o Chaos Hunter
34
Com resultados similares, e com a possibilidade de construir modelos
baseados em regressão linear, exponencial, logarítmica, logística,
polinomial, etc.
35
Exemplo 3: Classificação para aplicação de
políticas de retenção
Para os estudantes que tiverem sido classificados como prováveis
evasões (exemplo 1), o passo seguinte seria agrupá-los em torno de
estratégias de retenção que tenham sido usadas no passado com
sucesso. Basicamente, o objetivo do modelo preditivo deste exemplo
é o de responder a pergunta: Para um dado perfil de estudante, qual
a melhor estratégia de retenção, entre as que funcionaram no
passado (listadas abaixo)?
36
Dados históricos das variáveis
Após conversão pela camada de tratamento de dados
(utilizando as mesmas variáveis independentes do Exemplo 1)
id idade hist_abs atrasos_ativ comprom_renda estado_civil atrasos_pagto ativ_prof Full_time_empl grau_medio hist_evasao_ant estrategia
1 0,02 0,03 0,22 0,3 3 0,078458744 1 0 0,355429859 1 2
2 0,98 0,06 0,87 0,5 1 1 1 1 1,002281665 0 4
3 0,62 0,04 0,49 0,8 2 0,631752326 1 0 0,655444708 0 4
4 0,2 0,11 0,18 0,2 5 0,237655146 1 0 0,23163432 0 1
5 0,06 0,01 0,21 0,2 4 0,061718283 0 1 0,066046073 1 1
6 0,1 0,1 0,12 0,4 1 0,163917902 0 1 0,153930913 1 2
7 0,06 0,12 0,92 0,4 3 0,101511923 1 0 0,096963852 0 1
8 0,23 0,08 0,17 0,3 2 0,279999741 0 0 0,275772049 0 1
9 0,14 0,07 0,65 0,5 1 0,194456576 1 0 0,196357348 0 2
10 0,02 0,05 0,81 0,3 3 0,084086631 1 1 0,078127698 0 1
11 0,62 0,12 0,03 0,6 2 0,67916316 1 0 0,643668876 0 4
12 0,54 0,05 0,75 0,3 3 0,601231087 1 1 0,594676548 1 3
14 0,07 0,11 0,38 0,3 1 0,127859037 1 1 0,110632927 0 2
15 0,41 0,1 0,97 0,5 3 0,451517517 1 1 0,410970845 1 3
16 0,88 0,08 0,03 0,2 2 0,919220948 1 1 0,894408902 1 4
17 0,53 0,12 0,5 0,3 3 0,539974118 0 0 0,574384909 0 2
18 0,17 0,06 0,59 0,5 5 0,188119498 1 1 0,203611975 0 2
20 0,11 0,12 0 0,1 4 0,165787515 0 0 0,129150122 0 1
37
Treinamento do modelo
(minimizando o % de classificações erradas por categoria)
38
A importância relativa das variáveis independentes na capacidade preditiva
39
A capacidade preditiva é verificada através da matriz de classificação
(neste caso, uma classificação em quatro estratégias)
40
E de forma gráfica, na curva ROC
41
A rede em regime de produção
Após concluído o treinamento, o run-time pode ser salvo e agrupar
casos de provável evasão por estratégia de retenção mais adequada
evasao
id idade hist_abs atrasos_ativ comprom_renda estado_civil atrasos_pagto ativ_prof Full_time_empl grau_medio hist_evasao_ant Probabilidade Estratégia de retenção
prevista
701 22,7 4 7 0,5 casado sem filhos 3 sim sim 6,6 sim sim 83% oferta de bolsa parcial
702 20,0 7 12 0,3 casado com filhos 2 sim sim 4,4 sim sim 75% mudança de turno
703 19,1 11 14 0,8 solteiro arrimo 2 não não 3,8 sim sim 95% oferta de aulas de reforço via EaD
704 21,4 7 10 0,5 casado sem filhos 3 sim não 7,0 sim sim 88% agenciamento junto ao FIES
705 21,8 15 7 0,8 casado sem filhos 0 sim sim 1,3 sim sim 91% oferta de aulas de reforço via EaD
706 19,2 8 16 0,1 solteiro arrimo 2 sim sim 5,3 não sim 77% mudança de turno
707 18,8 4 9 0,3 casado sem filhos 1 sim não 2,6 não sim 65% oferta de aulas de reforço via EaD
708 19,6 4 13 0,7 divorciado 3 não não 7,1 não sim 95% agenciamento junto ao FIES
Reset Previsões
42
Soluções de AI da IntelliSearch
✓Estado da arte;
✓Confiáveis e robustas;
43
A IntelliSearch e a Ward Systems
✓ A IntelliSearch tem mais de 12 anos de experiência contínua na
utilização de ferramentas da Ward Systems, e nesse tempo
desenvolveu metodologias e camadas de software adicionais
(interfaces, normalizadores de dados de input e output para redes
neurais, algoritmos de “seeding” para “swarm optimization”).
✓ Nossa longa cooperação com a Ward Systems também nos dá o
privilégio de determos conhecimentos sobre a melhor forma de
configurar os parâmetros de otimização (treinamento de redes
neurais), além de técnicas para seleção de dados de treinamento.
✓ Finalmente, como únicos parceiros ativos no Brasil temos a total
credibilidade e autorização da Ward Systems para prestarmos
suporte local e consultoria relativa a seus softwares.
✓ Pela mesma condição de parceria, conseguimos obter descontos
para nossos clientes, em relação ao preço de lista.
44
Nossas referências
Clientes em Finance:
Banco Cacique: Otimização do processo de report para a matriz do SG
Banco Votorantim: Montagem do processos de atendimento a IM de RM
FEBRABAN: Suporte de definições e PMO da Comissão de Gestão de Riscos e
ao grupo de trabalho (GTRP) de redução de custos de observância
Serasa Experian: Montagem do processo de suporte (para scores e
parâmetros de Basileia) das IFs clientes da organização
http://www.wardsystems.com/index.asp e
46
Obrigado pela atenção
• Entre em contato conosco para mais detalhes de como
desenvolver e aplicar as ideias aqui apresentadas
+55 11 2844-1871
www.intellisearch.com.br
19