You are on page 1of 150

Universidade de So Paulo

Faculdade de Economia, Administrao e Contabilidade


Departamento de Administrao

Explorao de Dados Atomizados


para Previso de Vendas no Varejo
Utilizando Redes Neurais

Antonio Fabrizio Lima Passari

Orientador - Prof. Dr. Fernando Carvalho de Almeida

Dissertao apresentada ao Departamento de


Administrao
da
Faculdade
de
Economia,
Administrao e Contabilidade da Universidade de So
Paulo, como requisito parcial para a obteno do ttulo
de Mestre em Administrao.

SO PAULO
2003

ndice
Lista de Figuras ______________________________________________________ v
Lista de Tabelas ______________________________________________________ vi
Lista de Siglas ______________________________________________________ vii
CAPTULO I O PROBLEMA DE PESQUISA____________________________ 1
1.

Introduo ______________________________________________________ 1

2.

Formulao da Situao Problema __________________________________ 2

3.

Objetivos da Pesquisa _____________________________________________ 7

4.

Questes de Pesquisa______________________________________________ 7

5.

Delimitaes da Pesquisa __________________________________________ 8

CAPTULO II FUNDAMENTAO TERICA __________________________ 9


1.

O Problema de Previso de Vendas __________________________________ 9


1.1.

Estudos Empricos Sobre o Problema de Previso ______________________ 10

1.1.1. Questes Metodolgicas ________________________________________________


Nvel de agregao das previses ______________________________________________
Propsito, uso, freqncia e horizonte de tempo das previses _______________________
Analistas e Usurios das Previses _____________________________________________
Fontes de dados____________________________________________________________
1.1.2. Questes de Seleo e Especificao de Tcnicas de Previso ___________________
1.1.3. Questes de Avaliao _________________________________________________
Medidas de Desempenho dos Modelos de Previso ________________________________
Comparao e Seleo de Tcnicas de Previso ___________________________________

1.2.

Tcnicas de Previso_______________________________________________ 27

1.2.1. Tcnicas Qualitativas de Previso _________________________________________


Tcnicas Exploratrias ______________________________________________________
Tcnicas de Grupo _________________________________________________________
1.2.2. Modelos Bayesianos ___________________________________________________
1.2.3. Tcnicas Quantitativas de Previso ________________________________________
Modelos de Escolha Discreta _________________________________________________
Anlises de Sries Temporais _________________________________________________
Tcnicas Causais ___________________________________________________________

1.3.

27
29
29
30
32
32
33
40

Previso de Vendas no Varejo_______________________________________ 46

1.3.1. Composto de Marketing ________________________________________________


1.3.2. Conjunto de Produtos Oferecidos _________________________________________
1.3.3. Gesto de Preos no Varejo______________________________________________
Elasticidades cruzadas_______________________________________________________
1.3.4. Propaganda e Promoo ________________________________________________

2.

11
11
15
16
18
19
21
24
26

47
50
53
55
57

Metodologia de Minerao de Dados Aplicada Previso de Vendas ______ 58


2.1.
2.1.1.

Bases de Dados para Minerao de Dados_____________________________ 60


Data Warehouses______________________________________________________ 62

2.2.

Usos da Minerao de Dados________________________________________ 64

2.3.

O Processo de Minerao de Dados __________________________________ 65

2.4.

Tcnicas de Minerao de Dados ____________________________________ 67

ii

2.4.1.
2.4.2.
2.4.3.
2.4.4.

2.5.

3.

Induo de Regras / Anlise do Cesto de Compras____________________________


Sistemas Especialistas __________________________________________________
rvores de Regresso __________________________________________________
Memrias Associativas _________________________________________________

67
70
70
71

Seleo das Tcnicas de Minerao de Dados __________________________ 71

Redes Neurais Artificiais__________________________________________ 72


3.1.

Justificativa de utilizao das Redes Neurais __________________________ 74

3.2.

Desempenho e Limitaes das Redes Neurais __________________________ 76

CAPTULO III METODOLOGIA DA PESQUISA _______________________ 80


1.

O Mtodo de Pesquisa ____________________________________________ 80

2.

Desenvolvimento da Pesquisa ______________________________________ 81


2.1.

Modelo de Pesquisa________________________________________________ 81

CAPTULO IV PESQUISA EMPRICA________________________________ 84


1.

Contextualizao da Pesquisa______________________________________ 84
1.1.

Metodologia de Previso Utilizada pela EMPRESA_____________________ 84

2.

Obteno dos Dados _____________________________________________ 85

3.

Seleo e Limpeza dos Dados ______________________________________ 86

4.

Anlise do Cesto de Compras ______________________________________ 87


4.1.

Anlise do Cesto de Compras por Transao __________________________ 88

Anlise por Produto ________________________________________________________


Anlise por Linha de Produto _________________________________________________
Anlise por Setor___________________________________________________________
Anlises por Taxonomias ____________________________________________________
4.1.1. Concluses da Anlise do Cesto de Compras por Transao ____________________

4.2.

Anlise do Cesto de Compras por Cliente _____________________________ 92

Anlise por Produto ________________________________________________________


Anlise por Linha de Produto _________________________________________________
Anlise por Setores _________________________________________________________
Anlises por Taxonomias ____________________________________________________
4.2.1. Concluses da Anlise do Cesto de Compras por Cliente_______________________

4.3.

5.

6.

7.

89
89
90
91
92
93
94
95
95
95

Confirmao da Anlise do Cesto de Compras _________________________ 96

Tratamento dos Dados para Previso ________________________________ 98


5.1.

Transformaes Realizadas ________________________________________ 101

5.2.

Testes de Correlaes _____________________________________________ 102

5.3.

Testes de Autocorrelao e Correlaes com Lag de Tempo_____________ 103

Modelagem com Uso de Redes Neurais _____________________________ 104


6.1.

Seleo de Variveis de Entrada ____________________________________ 105

6.2.

Incorporao de Variveis de Entrada_______________________________ 107

6.3.

Incorporao de Informaes do Centro de Interesse __________________ 110

6.4.

Concluses da Modelagem Baseada em Redes Neurais _________________ 111

Comparao com Outras Modelagens ______________________________ 114


iii

7.1.

Comparao com a Modelagem Naive _______________________________ 114

7.2.

Comparao com a Regresso Linear _______________________________ 115

7.3.

Resumo do Desempenho das Redes Neurais __________________________ 116

CAPTULO V - CONCLUSES_______________________________________ 117


1.

Resultados Alcanados __________________________________________ 117

2.

Concluses da Previso Baseada em Redes Neurais ___________________ 119

3.

Sugestes para Trabalhos Futuros _________________________________ 120

Referncias Bibliogrficas ___________________________________________ 122


ANEXO A Questionrio aplicado EMPRESA ________________________ 129
ANEXO B Dicionrio de Dados Originais ____________________________ 130
ANEXO C Dicionrio de Dados Vendas Semanais ____________________ 133
ANEXO D Transformaes nos Dados _______________________________ 134
ANEXO E Correlaes e Autocorrelaes Verificadas___________________ 139

iv

Lista de Figuras
Figura 1 Abordagens de previso de vendas com uso de dados agregados_____________ 4
Figura 2 Abordagens de previso de vendas com uso de dados individuais e modelagem de
sries temporais ____________________________________________________________ 5
Figura 3 - Abordagens de previso de vendas com uso de dados individuais e modelagem
causal ____________________________________________________________________ 5
Figura 4 - Abordagem da presente pesquisa ______________________________________ 6
Figura 5 - Framework para anlise de mtodos de previso (WINKLHOFER et al., 1996) 10
Figura 6 - Taxonomia das tcnicas de previso __________________________________ 20
Figura 7 - Modelo de inferncia bayesiana ______________________________________ 31
Figura 8 Deciso de compra baseada nos conceitos de valor e compostos de marketing _ 48
Figura 9 Classificao dos tipos de varejo segundo sua amplitude e profundidade
(PARENTE, 2000) _________________________________________________________ 51
Figura 10 Amplitude, profundidade e atratividade das diferentes categorias (PARENTE,
2000)____________________________________________________________________ 53
Figura 11 Relacionamentos entre produtos substitutos e complementares de um ou mais
centros de interesse ________________________________________________________ 56
Figura 12 Estatstica convencional X Minerao de Dados________________________ 60
Figura 13 Consolidao de dados em um Data Warehouse ________________________ 62
Figura 14 Data Warehouse como repositrio para anlises de dados________________ 63
Figura 15 O ciclo virtuoso de data mining (BERRY & LINOFF, 1997, modificado)_____ 66
Figura 16 Esquema de funcionamento de cada n em uma rede neural artificial _______ 72
Figura 17 Modelo da Pesquisa ______________________________________________ 82
Figura 18 Metodologia conduzida para a Pesquisa ______________________________ 83
Figura 19 Relacionamentos entre produtos detectados nas anlises do cesto de compras 97
Figura 20 Boxplot do total de vendas semanal por setor, indicando a presena de muitos
outliers _________________________________________________________________ 100
Figura 21 Mdias de vendas semanais por setor, indicando forte sazonalidade e picos de
vendas __________________________________________________________________ 101
Figura 22 Histograma da disperso dos erros, na escala da varivel prevista ________ 113
Figura 23 Grfico de vendas previstas X vendas reais___________________________ 114
Figura 24 Histograma da varivel Estoque sem transformaes ________________ 134
Figura 25 Boxplot da varivel Estoque sem transformaes ____________________ 135
Figura 26 - Histograma da varivel Estoque aps a transformao Z = log x _______ 136
Figura 27 - Boxplot da varivel Estoque aps a transformao Z = log x___________ 136
Figura 28 Grfico scatterplot entre Estoque_log e Grade_log ________________ 141
Figura 29 Grfico scatterplot entre Mostruario_log e Preo_pot______________ 141
Figura 30 Grfico scatterplot entre Classe_distribuicao e Classe _____________ 142
Figura 31 Grfico scatterplot entre Estoque_log e Vendas_log _______________ 142
Figura 32 Grfico scatterplot entre Pprazo e Vendas_log ___________________ 143
Figura 33 Grfico de autocorrelao da varivel Vendas_log __________________ 143

Lista de Tabelas
Tabela 1 - Classificao das tcnicas de previso quantitativas segundo o nvel de agregao
dos dados (ROBERTS, 1998) _________________________________________________ 11
Tabela 2 Exemplos de comparao de desempenho das tcnicas de previso na literatura 27
Tabela 3 Comparao de desempenho da tcnica de redes neurais artificiais frente a outras
tcnicas estatsticas ________________________________________________________ 79
Tabela 4 Resultados da anlise do cesto de compras por produto, abordados por transao
________________________________________________________________________ 89
Tabela 5 - Resultados da anlise do cesto de compras por linha de produto, abordados por
transao ________________________________________________________________ 89
Tabela 6 - Resultados da anlise do cesto de compras por setor, abordados por transao 90
Tabela 7 Exemplos de regras da anlise do cesto de compras abordado por transao, com
uso de taxonomias entre os produtos ___________________________________________ 91
Tabela 8 - Resultados da anlise do cesto de compras por produto, abordados por cliente 93
Tabela 9 - Resultados da anlise do cesto de compras por linha de produto, abordados por
cliente ___________________________________________________________________ 94
Tabela 10 Lista de Linhas de Produtos relacionadas resultados preliminares ________ 95
Tabela 11 - Lista de Linhas de Produtos relacionadas _____________________________ 96
Tabela 12 Centro de interesse detectado ______________________________________ 98
Tabela 13 Principais variveis independentes usadas nos modelos de previso semanal _ 99
Tabela 14 Transformaes aplicadas aos dados _______________________________ 102
Tabela 15 Correlaes significativas detectadas entre as variveis independentes ____ 103
Tabela 16 - Correlaes significativas entre as variveis independentes e a varivel
dependente ______________________________________________________________ 103
Tabela 17 Autocorrelaes e correlaes parciais verificadas ____________________ 104
Tabela 18 Resultados das redes 1 e 2, comparando os efeitos das transformaes nos dados
_______________________________________________________________________ 105
Tabela 19 - Resultados da rede neural 6, sem a presena da varivel Grade ________ 106
Tabela 20 - Resultados da rede neural 10, com as entradas numricas normalizadas e
padronizadas ____________________________________________________________ 107
Tabela 21 - Resultados da rede neural 26, com incorporao das vendas na semana anterior
e missing values preenchidos ________________________________________________ 110
Tabela 22 - Resultados da rede neural 108, com incorporao do total de vendas de produtos
substitutos (missing values preenchidos) _______________________________________ 111
Tabela 23 Resumo das redes neurais geradas e performance obtidas _______________ 112
Tabela 24 Capacidade preditiva do Modelo Baseado em Redes Neurais (rede 108)____ 112
Tabela 25 Capacidade preditiva da previso naive no ajustada __________________ 115
Tabela 26 Equaes de regresso linear geradas ______________________________ 115
Tabela 27 Capacidade preditiva das equaes de regresso linear_________________ 115
Tabela 28 Performance comparativa das redes neurais__________________________ 116

vi

Lista de Siglas
ARIMA Autoregressive Integrated Moving Averages, ou mtodos auto-regressivos
MAPE Mean Absolute Percentage Error, ou Erro Percentual Absoluto Mdio
MSE Mean Square Error, ou Erro Quadrado Mdio
RMSE Root Mean Square Error, ou Raiz do Erro Quadrado Mdio
SKU Stock Keeping Unit, ou Identificador nico do Produto

vii

CAPTULO I O PROBLEMA DE PESQUISA


1. Introduo
A gesto eficiente de qualquer corporao, seja ela do setor pblico ou privado,
industrial ou varejista, requer planejamento. Para um planejamento efetivo necessrio que se
tenha uma expectativa precisa das condies futuras em que a corporao ir operar, e de
como se relacionam os elementos condicionantes desta expectativa.
O governo de uma cidade deve saber qual a expectativa de crescimento populacional
e qual o relacionamento deste com o aumento na demanda por servios para ampliar,
entre outras coisas, sua infra-estrutura bsica, como redes de gua, luz e esgoto. Uma
indstria deve antecipar qual a demanda de seus produtos para agendar sua produo, por
exemplo. E deve saber tambm os principais fatores que afetam esta demanda, para tomar as
decises corretas quando necessrio.
Tanto decises estratgicas como operacionais de uma corporao requerem, portanto,
explorar o relacionamento presente entre os elementos que compem a realidade em que a
corporao est inserida. Para apoiar decises corporativas como as citadas acima, as
empresas procuram criar sistemas e procedimentos a fim de explorar cenrios, com base em
informaes quantitativas e/ou qualitativas. Com o avano da tecnologia e da capacidade de
armazenagem e processamento dos sistemas computacionais, diversos modelos e tcnicas
quantitativos de previso tm sido pesquisados, complementando e aprimorando as anlises
qualitativas por uma srie de fatores, incluindo maior preciso.
Modelos de previso quantitativos utilizam-se basicamente de dados histricos para
detectar padres de comportamento e estim-los no futuro. Tais modelos empregam
ferramental matemtico-estatstico para representar a realidade para a qual foram criados.
Diversas tcnicas estatsticas tm sido usadas na criao dos modelos, baseadas em diferentes
pressupostos assumidos.
Este trabalho visa explorar o uso de tcnicas relativamente novas para criao de
modelos voltados deteco de padres e previso de demanda no varejo. Estas tcnicas
avanadas, comumente chamadas de data mining ou minerao de dados, incluem mtodos de
inteligncia artificial (sistemas especialistas, lgica fuzzy, entre outros), rvores de deciso,
mtodos de induo de regras, redes neurais, entre outras (GARGANO & RAGGAD, 1999).
1

Essas tcnicas consistem na descoberta de novas e importantes informaes, procurando em


certos casos aprender a partir de relacionamentos escondidos, padres, correlaes e
interdependncias existentes em grandes bases de dados. A evoluo do desempenho
computacional para explorao e anlise de dados atravs de pacotes estatsticos permitiu o
desenvolvimento e uso da minerao de dados de maneira crescente, com sucesso em muitas
empresas (BERRY & LINOFF, 1997).

2. Formulao da Situao Problema


Toda previso uma tentativa de prognosticar o futuro atravs do exame do passado
(HANKE & REITSCH, 1995). Consiste em gerar previses no enviesadas da magnitude de
alguma varivel, como vendas, com base no conhecimento presente e passado acumulado em
bases de dados e na experincia dos gestores e outros profissionais envolvidos. Muitas
variveis so comumente previstas por gestores, analistas, acadmicos, instituies
governamentais e outros, como renda, nvel de emprego, inflao, produo, criminalidade,
custo de vida, gastos, vendas, e muitas outras.
Segundo os autores, dois tipos de reao s previses podem ser identificados:
1. Preparar-se para as conseqncias advindas das mudanas previstas. Por exemplo,
se o gestor de uma empresa prev queda nas vendas devido a problemas
macroeconmicos, ele deve preparar a organizao para enfrentar a contrao.
2. Tomar medidas visando modificar as previses. Se o cenrio previsto de queda, o
gestor pode decidir enfrent-la, incrementando aes de venda ou marketing, por
exemplo.
O planejamento de aes comumente realizado de uma forma interativa:
planejamentos so utilizados como base para previses, que por sua vez mostram os
resultados provveis se as aes planejadas forem tomadas. Com base nos resultados
previstos, o gestor pode refazer seu planejamento, considerando novas decises, que por sua
vez geram novos resultados, e assim sucessivamente, at estabelecer uma deciso final ideal.
Ainda segundo os autores, a viso oposta planejar as aes aps as previses, como, por
exemplo, planejar aes de marketing para enfrentar adversidades no realista, uma vez
que os resultados dependem das aes tomadas. Assim, o planejamento das aes como o

nvel de preos ou aes de marketing planejadas devem ser levadas em considerao nas
previses.
As previses variam quanto sua aplicao em nveis agregados (como na economia)
ou para um componente especfico (como para uma companhia individual). Tambm diferem
quanto ao horizonte de previso curto, mdio ou longo prazo so conceitos flexveis, que
variam conforme a aplicao. Previses de vendas podem ser construdas para toda a
companhia, para produtos ou grupo de produtos particulares, para regies geogrficas ou
territrios de vendas especficos, para clientes particulares, ou para combinaes dos
elementos citados.
Este trabalho est focado no processo acima descrito, de gerao de previses de
demanda para tomada de decises no varejo. A preocupao central desta pesquisa na
explorao de uma metodologia baseada em tcnicas de minerao de dados para
identificao de relacionamentos entre a demanda de diversos produtos e os fatores de maior
influncia destas. Vislumbrando estes relacionamentos com maior clareza, o gestor fica mais
habilitado tomada de decises acertadas no gerenciamento de vendas e outras atividades
conseqentes, como gerenciamento de estoques, de fluxo de caixa e outros.
Para que o gestor possa tomar decises bastante especficas, os dados utilizados devem
ser o mais atomizados (individuais) possvel, gerando previses com grande nvel de
detalhamento, porm pequeno horizonte futuro. A metodologia explorada busca ser til,
portanto, para tomada de decises operacionais no varejo e no estratgicas, de longo
prazo. Situaes tpicas do setor varejista como: o que acontece com a demanda e o lucro de
minha loja se aumentar o preo da linha de produtos X?, ou meu concorrente cortou preos
da ordem de 30%; qual a melhor medida a ser tomada? podem ser vislumbradas e as
possveis solues endereadas com o uso de uma metodologia de prospeco de cenrios
como a aqui proposta.
Previses de curto prazo so empregadas para auxiliar decises que devem ser feitas
num futuro prximo, como a determinao do nvel de inventrio, nmero de funcionrios e
produo necessrios, capital de giro, suprimentos a serem adquiridos, entre outras. Por outro
lado, em situaes onde o impacto das decises tomadas pode influenciar a posio da
companhia nos prximos anos, previses de longo prazo so requeridas. Tais situaes podem
envolver decises a respeito da construo de uma nova fbrica, a entrada em novos
mercados, exportar ou no seus produtos, modernizar as operaes, entre outras.
3

Inmeros autores j pesquisaram sobre a adoo de modelos quantitativos de previso


de vendas, utilizando-se de diferentes tcnicas e abordagens. Alguns autores, como TANG et
al. (1991), LUXHOJ et al. (1996), ANSUJ et al. (1996), KUO & XUE (1998), e SPEDDING
& CHAN (2000), pesquisaram a adoo de modelos de previso de vendas agregadas para
toda uma corporao ou loja, por exemplo. Estes modelos foram desenvolvidos a partir de
duas abordagens clssicas:
(1) atravs da modelagem de sries temporais, onde se considera como varivel de
entrada os valores histricos da varivel a ser prevista (a demanda agregada, no caso); ou
(2) com o uso de variveis explicativas daquela a ser prevista como entrada de dados
os provveis causadores da demanda. Esta abordagem conhecida como modelagem
causal.
A figura abaixo ilustra o desenvolvimento desses modelos.
Dados de entrada:
1.Srie temporal
2.Variveis
explicativas
(modelo causal)

Q
Modelo de Previso de
vendas agregadas

Demanda total da
corporao
(agregada)

TANG et al., 1991; LUXHOJ et al., 1996; ANSUJ et al., 1996; KUO & XUE, 1998; SPEDDING & CHAN, 2000

Figura 1 Abordagens de previso de vendas com uso de dados agregados

Outros autores exploraram a previso da demanda de produtos de maneira


individualizada, a partir de sries histricas das vendas de cada produto. Esses estudos, como
o de BARASH & MITCHELL (1998), GORDON (1998), e ALIBAIG & LILLY (1999),
utilizaram tcnicas de modelagem de sries temporais, tomando como entrada dos modelos os
valores histricos das demandas de cada produto no tempo, construindo assim um modelo
distinto para cada produto.
A figura a seguir mostra o processo de desenvolvimento destes modelos.

A figura abaixo ilustra o processo de construo destes modelos.


Modelo para produto 1

Dados de entrada:
1.Sries temporais
de Q1, Q2, ... , Qn
(demanda de
cada produto no
tempo)

Q1
Q2
Q3
Qn

Modelo para produto 2


Modelo para produto 3
Modelo para produto n

Q1, Q2, ... , Qn


Demanda prevista
para cada produto

Modelos de Previso de
vendas individual
BARASH & MITCHELL, 1998; GORDON, 1998; ALIBAIG & LILLY, 1999

Figura 2 Abordagens de previso de vendas com uso de dados individuais e modelagem de sries
temporais

Ainda outros autores exploraram o impacto de diversas variveis na previso de


demanda de um produto isolado, realizando, portanto, o que se costuma referir como previso
causal, ou seja, a previso realizada tendo-se como base as variveis que possam explicar a
previso. Esses autores, como MENTZER & KENT (1999) e SUBRAHMANYAN (2000),
buscaram relacionar as variveis que possam estar relacionadas com a demanda individual de
cada produto, desenvolvendo modelos de previso que tomam como entrada os valores destas
variveis explicativas da demanda no tempo.
A figura a seguir ilustra o desenvolvimento desses modelos.
Modelo para produto 1

Dados de entrada:
2.Variveis
explicativas da
demanda
(modelo causal)

A
B
C
Z

Modelo para produto 2


Modelo para produto 3
Modelo para produto n

Q1, Q2, ... , Qn


Demanda prevista
para cada produto

Modelos de Previso de
vendas individual
MENTZER & KENT, 1999; SUBRAHMANYAN, 2000

Figura 3 - Abordagens de previso de vendas com uso de dados individuais e modelagem causal

Poucos autores, contudo, realizaram estudos a fim de desenvolver modelos que


incorporassem o relacionamento existente entre os produtos. PARENTE (1997) mostra a
importncia do conceito de centros de interesse grupo de produtos que tm alguma relao,
seja concorrendo entre si ou complementando-se mutuamente e da sua utilizao na gesto
da loja. Segundo o autor, a gesto por categorias de produtos (que representam centros de
5

interesse dos consumidores) fundamental para o sucesso de um empreendimento de varejo,


e costuma influenciar diretamente a disposio dos produtos na loja.
Alguns autores, como BEN-AKIVA & GERSHENFELD (1998) e GUADAGNI &
LITTLE (1998) investigaram sobre o relacionamento entre produtos na previso de vendas,
mas nestes estudos pouco se utilizaram dados histricos sobre os produtos, baseando-se mais
em anlises exploratrias e pesquisas de grupo. V-se ento uma lacuna na bibliografia sobre
previso existente, que o estudo do relacionamento entre os produtos na previso de vendas,
com a construo de modelos quantitativos que possam incorporar e utilizar-se de
informaes acerca de mais de um produto simultaneamente.
CHAKRABORTY et al. (1992) mostraram, com o uso de redes neurais artificiais, ser
possvel melhorar a previso de sries temporais de variveis afins ao incorpor-las em um
nico modelo, e no realizar as previses isoladamente. A exemplo da pesquisa de
CHAKRABORTY et al. (1992), pretende-se neste estudo explorar uma metodologia de
previso de vendas que, a partir de dados histricos da demanda individual de cada produto
pertencente a um centro de interesse, levar em considerao o impacto da demanda (ou das
aes sobre a demanda) de cada produto sobre a demanda dos demais. O modelo deve,
portanto, incorporar os relacionamentos existentes entre os produtos de um centro de
interesse, utilizando para tanto a tcnica de redes neurais artificiais.
A figura a seguir descreve a abordagem a ser adotada neste trabalho.

Dados de entrada:
2.Variveis
explicativas da
demanda
(modelo causal)

A
B
C
Z

Q1, Q2, ... , Qn

Modelo de Previso de
vendas individual, para
um grupo de produtos
relacionados (centro de
interesse)

Demanda prevista
para cada produto

Abordagem da presente pesquisa

Figura 4 - Abordagem da presente pesquisa

Como mostrado na figura acima, este trabalho visa investigar o relacionamento entre
produtos afins na previso de vendas individual de produtos, e, atravs da adoo de um
modelo causal, averiguar como esta previso pode ser utilizada para auxlio tomada de
decises no varejo.
O problema de investigao pode ser centrado na seguinte questo:
6

Como utilizar o processo de minerao de dados para a descoberta de


relacionamentos entre produtos e previso de vendas individual de produtos para apoio
tomada de decises operacionais no varejo?

3. Objetivos da Pesquisa
O objetivo geral desta pesquisa explorar a possibilidade de usar uma metodologia
capaz de identificar padres de relacionamento teis na previso de vendas individual no
varejo, com o uso do processo de minerao de dados. Essas previses devem abordar grande
parte das decises de curto prazo enfrentadas no cotidiano do gestor da loja, num nvel
aprofundado detalhado quanto a produtos de decises. O objetivo explorar um modelo
de previso de demanda para os produtos visando identificar um composto de marketing
adequado (preos, produtos e promoes).
Os seguintes objetivos especficos podem ser destacados:
Explorar a tcnica de redes neurais artificiais para a criao de modelos de
previso de vendas individualizadas no varejo.
Desenvolver uma rede neural artificial para previso de vendas capaz de
detectar relacionamentos entre variveis que impactam no volume de vendas
de uma loja ou cadeia de lojas, de forma detalhada (por produto).

4. Questes de Pesquisa
Durante o desenvolvimento da metodologia de criao de modelos para previso de
demanda, pretende-se explorar as seguintes questes:
Como tratar os dados de vendas de maneira atomizada sem agregaes e de
forma sistemtica para serem utilizados em um processo de minerao de
dados. Em outras palavras, como realizar a coleta, filtragem, limpeza e
transformaes necessrias a um adequado pr-processamento de dados para
criao de modelos, em se tratando de dados no agregados?
possvel utilizar as informaes a respeito dos centros de interesse de um
grupo de produtos em modelos de previso? Em caso afirmativo, esse

procedimento, incorporando os relacionamentos entre as demandas de produtos


afins melhora os resultados dos modelos de previso construdos?
A tcnica de redes neurais artificiais adequada para gerao de modelos de
previso no varejo?

5. Delimitaes da Pesquisa
Esta pesquisa est focada em anlises de dados de vendas no varejo, e, portanto, no
trata de problemas referentes demanda em servios, na indstria primria ou mesmo outros
elementos da cadeia de distribuio que no seja aquele de distribuio ao consumidor final.
Outra delimitao importante diz respeito ao horizonte de previso: como os modelos
gerados tratam de dados extremamente atomizados, sua utilizao em horizontes amplos
torna-se invivel. A princpio, apenas decises operacionais do composto de marketing num
horizonte de curto prazo so consideradas.
No preocupao deste estudo, tambm, a comparao direta entre modelos de
previso de vendas. Os modelos gerados foram confrontados com outras modelagens apenas
para efeito de confirmao de sua capacidade preditiva mnima. A preocupao central deste
trabalho com a metodologia utilizada para deteco de relacionamentos entre as variveis
que afetam a demanda no varejo, a fim de dar uma melhor compreenso da realidade em que
a loja est sujeita por meio de uma previso de vendas causal mais acertada.

CAPTULO II FUNDAMENTAO TERICA


Esta reviso bibliogrfica est dividida em trs partes. Na primeira parte, o problema
de previso de vendas abordado; so mostradas as diversas iniciativas tomadas ao longo da
evoluo do tema na tentativa de solucionar o problema, e a abordagem desta pesquisa
situada perante as demais abordagens encontradas na literatura. Na segunda parte, o processo
de minerao de dados abordado, mostrando algumas das tcnicas desenvolvidas at o
presente momento e a metodologia de anlise envolvida em projetos de minerao de dados.
Finalmente, a terceira parte traz uma reviso da literatura sobre a tcnica de redes neurais
artificiais e sua aplicao para problemas de previso.

1. O Problema de Previso de Vendas


These hieroglyphics have evidently a meaning. If it is a purely arbitrary one, it may be
impossible for us to solve it. If, on the other hand, it is systematic, I have no doubt that we shall get to
the botton of it (DOYLE, 2002).

Para aumentar a vantagem competitiva comercial em um ambiente de constantes


mudanas, os gestores de uma organizao devem tomar a deciso correta no momento certo,
com as informaes que tiverem em mos. Uma previso acertada tem papel fundamental
nesse processo. Compreendendo melhor o comportamento do consumidor e sua resposta s
alteraes nos fatores controlveis que o varejista articula (o composto de marketing), os
gestores podem prever os resultados de suas aes e obter dados de diagnstico para se suprir
de informaes que permitam aes acertadas no futuro.
Previso, ou em ingls forecasting, pode ser definida como uma seqncia de passos
que o tomador de decises realiza, seja implcita ou explicitamente, para antever
satisfatoriamente um valor futuro. Entretanto, devido s complexidades do processo decisrio
em ambientes no estruturados, no uma tarefa fcil saber quais passos tomar (LUXHOJ et
al., 1996).
MAKRIDAKIS et al. (1983) destacam os fatores que fizeram com que a importncia
da previso aumentasse:

Aumento na complexidade das organizaes (como o aumento do nmero de nichos


de mercado e de produtos oferecidos) e de seu ambiente (mudanas tecnolgicas e na

estrutura da demanda), tornando mais difcil levar em considerao todos os fatores


relacionados ao desenvolvimento futuro da organizao.

As organizaes passaram a adotar procedimentos decisrios mais sistemticos, que


envolvem justificativas explcitas para cada ao tomada. Ter uma previso de vendas
formal uma forma de suportar tais procedimentos.

O desenvolvimento contnuo das tcnicas de previso e suas aplicaes, permitindo


que no s analistas especializados como tambm gerentes e outros tomadores de
deciso entendessem e utilizassem tais tcnicas.
Apesar do reconhecimento da importncia das previses entre executivos de todos os

setores, sua implementao no universal existe uma lacuna entre o desenvolvimento


terico das tcnicas de previso e sua aplicao prtica nas organizaes. De acordo com o
que foi levantado nesta reviso bibliogrfica, o uso prtico das tcnicas de previso ainda est
muito distante dos avanos tericos, fato comprovado pelo uso macio de tcnicas subjetivas
ou de tcnicas quantitativas rudimentares.

1.1.

Estudos Empricos Sobre o Problema de Previso


WINKLHOFER et al. (1996) propem um framework (estrutura) para organizar os

estudos empricos relativos previso, que apresentado abaixo.

Questes metodolgicas
Propsito/uso da previso
Analistas
Usurios
Fontes de dados
Horizonte de tempo e freqncia das previses
Recursos dedicados
Nvel de agregao das previses

Questes de seleo e especificao


Familiaridade com a tcnica de
previso
Critrio de seleo da tcnica
Uso de mtodos alternativos

Questes de avaliao
Apresentao dos resultados aos
gestores
Reviso e uso de julgamento subjetivo
Padres de avaliao
Performance
Problemas e melhorias

Figura 5 - Framework para anlise de mtodos de previso (WINKLHOFER et al., 1996)

O framework distingue trs diferentes grupos de problemas:


10

1. Questes metodolgicas (design issues) compreendem o propsito e o tipo de


previso, os recursos envolvidos, as caractersticas dos analistas e usurios
envolvidos e as fontes de dados utilizadas;
2. Questes de seleo e especificao (selection/specification issues) dizem
respeito s tcnicas de previso e respondem as questes de familiaridade,
seleo e uso de mtodos de previso alternativos;
3. Questes de avaliao (evaluation issues) focam nos resultados das atividades
de previso, como a apresentao e reviso das previses, medio da
performance da previso e as foras que afetam sua acurcia.
Os trs grupos so interligados de tal forma que cada um deles tem implicaes nos
demais. As sees seguintes abordam o problema de previso segundo o framework proposto.

1.1.1. Questes Metodolgicas


Nvel de agregao das previses
Para analisar o nvel de agregao dos dados, ROBERTS (1998) prope que as
tcnicas de previso quantitativas existentes podem ser classificadas dentro de quatro
categorias bsicas, que so:
Nvel individual
Produtos existentes
Novos produtos

Nvel agregado

Modelos de varredura de dados do Modelos

economtricos

de

comportamento individual (I)

comportamento do mercado (II)

Modelos de teste e pr-teste de

Modelos de difuso da inovao

mercado (III)

(IV)

Tabela 1 - Classificao das tcnicas de previso quantitativas segundo o nvel de agregao dos dados
(ROBERTS, 1998)

As tcnicas de modelagem voltadas para previso em marketing podem ser divididas,


de acordo com o autor, segundo duas dimenses principais: (1) granularidade (individual ou
agregada) e (2) se esto dirigidos ao estudo de novos produtos ou a sensibilidades a produtos
j existentes. Segundo o prprio autor, as divises entre as categorias no so perfeitamente
claras e precisas, mas elas de fato formam grupos bem distintos de modelos de previso.

11

A seguir so apontadas as principais caractersticas dos modelos de previso de cada


um dos quadrantes apresentados por ROBERTS (1998), e destacada a abordagem foco desta
pesquisa (tipo I).

Modelagens Tipo I - Modelos de Varredura de Dados


H muito tempo os pesquisadores estudam sries histricas de dados de produtos
existentes para compreender melhor as respostas s variveis do composto de marketing,
particularmente preo e propaganda. Para realizar estudos sobre dados atomizados
(individuais), faz-se necessria uma anlise longitudinal de uma grande quantidade de dados
capazes de representar o comportamento dos consumidores, caracterizando o tipo de estudo
que costuma ser referido como varredura de dados, ou scanner data analysis.
Este tipo de anlise pode ser utilizado a fim de obter o composto de marketing
otimizado (que resulta em maior faturamento ou lucro, por exemplo) em ambientes altamente
competitivos, entender fontes de heterogeneidade de consumidores, e para estudar as relaes
entre o ponto de venda e a indstria em diferentes segmentos (ROBERTS, 1998).
Diversas tcnicas tm sido utilizadas neste tipo de modelagem, entre elas modelos de
escolha discreta, rvore de decises, tcnicas de regresso linear mltipla e anlises de sries
temporais. Todas elas demandam um grande esforo do analista para que possam ser
adaptadas para trabalharem com dados individualizados, e os resultados nem sempre so
satisfatrios (ROBERTS, 1998).
Uma das tcnicas para previso desagregada que vem sendo utilizada com sucesso a
modelagem com uso de redes neurais artificiais, tendo mostrado superioridade sobre vrias
outras modelagens, em diversas reas do conhecimento (ANSUJ et al., 1996).
Dentro da classificao proposta por ROBERTS (1998), este trabalho localiza-se nesta
categoria de previso modelagens tipo I pois est focado no desenvolvimento e
avaliao de modelos para o estudo individual das sensibilidades de mercado s variveis do
composto de marketing para cada produto. Ou seja, dentro de um ambiente de varejo, este
trabalho prope uma anlise longitudinal de grande quantidade de dados histricos, a fim de
desenvolver um modelo quantitativo capaz de prever a demanda futura de um grupo de
produtos de forma individualizada (no agregada).
A fim de melhor localizar o presente projeto perante as demais abordagens de previso
segundo o nvel de agregao dos dados, as demais tipologias so brevemente apresentadas.
12

Modelagens Tipo II - Modelos Economtricos de Comportamento do Mercado


Modelos economtricos e de anlise de sries de tempo so enquadrados nesta
categoria. Apesar de os modelos de comportamento individual serem considerados modelos
economtricos, e os modelos de difuso de inovaes serem baseados em sries de tempo,
esta categoria voltada queles modelos mais genricos, desenvolvidos principalmente no
campo da econometria e estatstica econmica, e ento utilizados na rea de marketing.
Os modelos economtricos surgiram efetivamente para prever ndices econmicos,
como o prprio nome diz, e foram posteriormente adaptados para previses microeconmicas,
e baseiam-se principalmente em tcnicas estatsticas de regresso. O uso deste tipo de modelo
supe a construo das equaes matemticas que o regem, o que envolve a seleo a priori
de todas as variveis a ser consideradas e do tipo de relacionamento existente entre elas.
J a anlise de sries temporais o processo de avaliar os relacionamentos histricos
entre uma varivel e o tempo. O propsito bsico identificar comportamentos peridicos e
utiliz-los para prever sries futuras.
Exemplos tpicos da utilizao destes modelos so a previso de tendncias de
mercado como a taxa de retrao de uma indstria ou setor; de ndices macroeconmicos
como inflao e crescimento do PIB; de vendas agregadas em uma empresa, como o total de
demanda anual ou mensal; dos efeitos de variveis do composto de marketing na demanda
total, exame de canais de distribuio, entre outros.
Esta classe de modelagem foi revista por HANSSENS et al. (1990), e aplicaes e
exemplos das tcnicas podem ser encontrados em BROWN (1959), KLEIN & YOUNG
(1980) e GROSS & PETERSON (1983).

Modelagens Tipo III - Modelos de Teste e Pr-teste de Mercado


So modelos calibrados com dados de pr-lanamento, utilizando para tanto dados
individualizados de respondentes selecionados. Os modelos assim desenvolvidos so
geralmente voltados ao estudo da participao e penetrao no mercado para novos produtos,
e se utilizam basicamente da anlise de escolhas discretas. Outras possibilidades so a
estimao do tamanho de um novo mercado ou de sua transformao com a entrada de um
novo produto ou marca.
O uso tpico destes modelos a aplicao em experimentos com a finalidade de criar
uma funo-utilidade para situaes de escolhas baseadas em menus, ou seja, em selees
13

pr-definidas de itens ou benefcios em um produto. Podem ser utilizadas tcnicas baseadas


em julgamento, em tcnicas estatsticas como anlise conjoint ou modelos de escolha discreta
economtricos tipo multinomial logit ou probit, desde que utilizem dados desagregados.
Observam-se aplicaes destes modelos em diversas reas - alm da anlise de
penetrao de mercado de novos produtos -, como na seleo de cesta de produtos para venda
casada (BEN-AKIVA & GERSHENFELD, 1998), determinao de visitao a um evento
(POWERS, 1998), e ainda na previso de demanda de transporte, para, por exemplo,
selecionar qual infra-estrutura viria deve ser construda ou qual meio de transporte coletivo
implantar (DAGANZO, 1979), entre outros.

Modelagens Tipo IV - Modelos de Difuso de Inovao


Os modelos para previso de difuso de inovaes surgiram na dcada de 60, com
FOURT & WOODLOCK (1960), MANSFIELD (1961) e principalmente com o modelo
proposto por BASS (1969), o mais conhecido e explorado modelo de difuso de inovaes.
Esses modelos foram criados com base na analogia da idia de propagao de doenas
aplicada ao lanamento de novos produtos ou tecnologias: a taxa de adoo inicialmente
cresce rapidamente com o efeito de contgio provocado por aqueles que j adotaram a
inovao, e posteriormente decresce com o efeito de saturao e diminuio do mercado
disponvel.
O processo de difuso consiste de quatro elementos bsicos: inovao, canais de
comunicao, tempo e sistema social. Como uma teoria de comunicao, a teoria de difuso
foca nos canais de comunicao. Estes consistem em dois meios fundamentais e distintos: (1)
mdia de massa e (2) comunicaes pessoais, ou boca-a-boca. O modelo de Bass assume
ento que os adotantes esto subdivididos em dois grupos: aqueles influenciados apenas pela
mdia e aqueles influenciados apenas pelo boca-a-boca os inovadores e os imitadores,
respectivamente.
O modelo de Bass e suas formas revisadas tm sido usados para prever a difuso de
inovaes no varejo, tecnologia industrial, agricultura, educao, farmcia e mercados de bens
durveis. O objetivo de um modelo de difuso prever o nvel de uso de uma inovao ao
longo do tempo em uma populao de possveis adotantes, e serve basicamente para prever as
vendas de inovaes consideradas primeira compra.
A principal equao do modelo de Bass pode ser escrita como:
14

Equao I: n(t ) =

dN (t )
q
= p.[m N (t )] + .N (t ).[m N (t )]
dt
m

onde: n(t) o nmero de novos adotantes no perodo;


p o coeficiente inovao ou coeficiente de influncia externa;
q o coeficiente de imitao, ou coeficiente de influncia interna;
m o potencial de adotantes totais.
Na equao, nota-se que um dos termos representa a adoo por consumidores no
influenciados pela imitao os inovadores e um segundo termo representando a adoo
dos imitadores.
Alm de permitir previses de venda antes do lanamento para os primeiros estgios
do ciclo de vida quando as compras de reposio ainda no ocorreram estes modelos
tambm so usados aps o lanamento da inovao, sendo este o maior desafio identificado
na literatura. Quando calibrados com base em dados histricos, os modelos de difuso s so
estveis aps o ponto de mximo absoluto da taxa de vendas (HEELER & HUSTAD, 1980).
Entretanto, quando ajustados com dados externos, a calibrao pr-lanamento pode ser
alcanada (LAWRENCE & LAWTON, 1981).
interessante notar que, mesmo depois de mais de trinta anos de pesquisas e
desenvolvimento dos modelos de inovao, um dos primeiros modelos aquele proposto por
BASS (1969) continua a ser extensamente utilizado como referencial terico, e os
resultados prticos de sua aplicao em previses tm-se mostrado com desempenho igual ou
superior aos modelos mais recentes e sofisticados (PUTSIS, 1998; FILDES &
BOTTOMLEY, 1998). MAHAJAN et al. (1990) trazem uma reviso completa dos modelos
de inovao, seus avanos e concluses.

Propsito, uso, freqncia e horizonte de tempo das previses


Diversos estudos analisam o porqu de se realizar previses e seu uso. Em WHITE
(1986), 64% dos respondentes afirmaram que o principal propsito das previses formular
um objetivo, uma performance a ser alcanada, enquanto apenas 30% gostariam de obter uma
medida realista do potencial do mercado. MENTZER & COX (1984) pesquisaram sobre as
principais reas de aplicao das previses, e os resultados indicam planejamento de
produo, inventrios e oramento como as reas decisrias mais influenciadas pelas
previses. Este resultado coerente com aqueles encontrados por MCHUGH & SPARKES
(1983) e PETERSON (1993). Em muitos casos, os gestores confundem previso com metas a
15

serem alcanadas, ou seja, previso de vendas com planejamento de vendas (FILDES &
HASTINGS, 1994), o que gera freqentemente mudanas nos resultados das previses por
motivos externos, como motivaes polticas e estratgicas da organizao (PETERSON,
1993).
O estudo de PETERSON (1993) vai mais alm, concluindo que grandes firmas de
varejo utilizam tcnicas de previso de vendas com maior freqncia que os pequenos
varejistas, resultado confirmado por PETERSON & JUN (1999), que mostraram que entre as
empresas grandes, 100% afirma preparar previses ao menos uma vez por ano, nmero este
que cai para 93,2% entre as empresas pequenas. As freqncias de preparao das previses
so segundo os autores, nesta ordem: anual (a mais comum), quadrimestral, semestral e
mensal (a menos comum), resultado compatvel com aqueles obtidos por CERULLO &
AVILA (1975) e WHITE (1986).
Quanto ao horizonte de tempo utilizado nas previses, h pouco consenso entre os
autores, tanto no que se refere ao desempenho das tcnicas quanto s prprias definies de
curto, mdio e longo prazos. Estudos j foram conduzidos para previses com horizonte de
tempo de um dia (SAKAI et al., 1999) at 25 anos (NAYLOR, 1981). Os estudos
relacionados ao horizonte de tempo e freqncia das previses confirmam, no entanto, a
proposio de WHITE (1986), de que as companhias utilizam a freqncia que melhor se
adapta aos seus produtos, mercado e mtodo de operao. No h uma freqncia de previso
ideal.

Analistas e Usurios das Previses


Parece no haver um consenso sobre a responsabilidade na preparao das previses,
isto , de maneira geral no h nas organizaes um cargo de analista de previses fixo. De
acordo com DRURY (1990), apenas uma em cada cinco empresas possui equipe especfica
para planejamento e previso; em metade das empresas essa funo est a cargo da alta
administrao, e em cerca de 15% das companhias a responsabilidade no definida. Essa
funo de analista, ou seja, quem prepara as previses combina as disciplinas de
economia, matemtica, estatstica, contabilidade e, mais recentemente, computao; seu
objetivo tentar explicitar atravs de equaes ou modelos matemtico-computacionais seus
pressupostos (teorias) e processos lgicos sobre a realidade, tendo a vista a obteno de
previses sobre determinadas grandezas.
16

H observaes que indicam falta de comunicao entre usurios e analistas, e uma


falta de preparo na elaborao de previses efetivas, mesmo com a crescente facilidade na
obteno de anlises oferecida por pacotes estatsticos comerciais disposio atualmente
(WINKLHOFER et al., 1996). H ainda grande disparidade na percepo do status e
necessidades das previses entre os analistas e os usurios (WHEELWRIGHT & CLARKE,
1976), o que causa anlises desconexas da necessidade real do gestor e, portanto,
freqentemente ignoradas.
SANDERS (1992) conclui que os gestores responsveis pelas previses em empresas
de servio e varejo tendem a ter formao educacional mais baixa que aqueles de empresas
industriais. O autor afirma ainda que os gestores de empresas industriais esto mais
familiarizados com tcnicas quantitativas relativamente complexas que os gestores de
empresas de servio e varejo. Outra concluso relacionada diz respeito correlao positiva
encontrada entre o nvel de escolaridade dos analistas e o uso de tcnicas de previso mais
sofisticadas (CERULLO & AVILA, 1975), o que ajuda a explicar a maior importncia e
aplicao dada pelas empresas industriais previso de vendas, em comparao s empresas
de varejo.
PAN et al. (1977) concluem que grandes empresas industriais reconhecem a
importncia da previso de vendas e empregam recursos na elaborao de previses formais e
regulares. Ainda segundo PAN et al. (1997), as pequenas empresas tambm costumam utilizar
com maior freqncia tcnicas subjetivas, em oposio s grandes companhias, que utilizam
tcnicas quantitativas mais sofisticadas com maior freqncia.
De acordo com CHASE (1999) os responsveis pelas previses tendem a ser analistas
de negcios, ou seja, analistas com uma viso muito mais ampla do que simplesmente prover
os gestores com nmeros relativos a previses acuradas. A combinao de apreciao
estatstica e conhecimento do mercado necessria para tal anlise, o que resulta em uma
previso de vendas que pode ser utilizada na confeco de planos de vendas, de marketing, de
produo, de compras e finalmente de negcios.
Essas concluses fortalecem a carncia latente dos segmentos ligados ao varejo em
conhecimento sobre as tcnicas de planejamento e previso. Tambm corroboram para a idia
de que o analista tem a funo de definir e medir os elementos do mercado que direcionam o
negcio e no de simplesmente tentar adivinhar o futuro provendo a alta administrao
com anlises de suporte deciso acionveis, capazes de influenciar os objetivos de vendas.
17

Fontes de dados
Uma expresso comum entre os analistas e estatsticos , em ingls, Garbage In,
Garbage Out, ou entra lixo, sai lixo. Ela expressa bem o sentido de que nenhum modelo
capaz de gerar boas previses sem a presena de dados confiveis e, principalmente, que
representem o problema em questo. O problema reside no fato de que os sistemas voltados
operao da empresa nem sempre enfatizam a presena de dados limpos e confiveis.
Algumas vezes, os dados disponveis no so adequados ao que se quer prever; por exemplo,
na previso de demanda, muitas vezes s se dispe de dados de entregas, e estas no so uma
boa representao do fenmeno de interesse a demanda.
A presena de dados confiveis e que representem o fenmeno estudado , segundo
BROWN (1963), um dos fatores de maior ganho em acurcia. Normalmente, demanda-se um
grande esforo de modelagem para um pequeno ganho de acurcia, porm dados que melhor
representem o problema geram grandes ganhos, muitas vezes com pouco esforo.
Para a preparao de previses tanto agregadas como individuais diversas fontes
de dados podem ser utilizadas. Normalmente, elas so divididas em dois grandes grupos de
fontes: internas e externas (WINKLHOFER et al., 1996).
Fontes internas de dados so aquelas, como o prprio nome diz, internas companhia,
e muitas vezes esto armazenadas em diversas bases de dados nos departamentos ou setores
da empresa. Para ter uma fonte interna de dados macia, necessrio manter um registro de
todas as atividades do composto de marketing, incluindo modificaes realizadas nos
produtos, promoes, polticas internas, mudanas ambientais e da concorrncia, j que
modelos quantitativos podem utilizar todos esses dados, muitas vezes com ganhos de acurcia
aliados a pouco esforo adicional para coleta de tais informaes. Os dados internos podem
ter origem nos canais de venda da companhia, como dados histricos de vendas; em
informaes coletadas com a fora de vendas (quantitativas e qualitativas); em dados dos
centros de distribuio e dos pontos de venda final. Naturalmente, estes ltimos so os mais
indicados para previses de venda, j que refletem a demanda real dos produtos, sem
distores devido a reposies de estoque, devolues, diferenas de tempo entre distribuio
e demanda final, entre outras.
As fontes externas de dados mais utilizadas so aquelas que dizem respeito aos fatores
macroeconmicos que possam influenciar nas previses, como ndices governamentais,
tendncias poltico-econmicas, estatsticas financeiras e scio-econmicas. Tambm
18

comum a compra de bases de dados externas para se obter dados da concorrncia, dados
econmicos e do setor, promoes, tendncias de preos, de lanamento de produtos e
tecnolgicas, entre outros.
freqente a presena de distores nos dados disponveis, que podem ter vrias
origens, entre elas (GEURTS & WHITLARK, 1996):
Presena de outliers. Podem ser resultado de aes de marketing
extraordinrias, ou fenmenos externos com efeito apenas sobre alguns pontos da srie
(de curta durao). Normalmente, a ao de outliers de difcil deteco pelos
modelos.
Presena de cotas de venda. Os vendedores manipulam suas vendas para
atingir as cotas, e muitas vezes prorrogam as vendas para ficar mais fcil atingir as
cotas do prximo perodo, ou realizam promoes agressivas para atingir as metas do
perodo. Este fenmeno conhecido como game playing.
Sries de dados contaminadas com dados de fenmenos concorrentes, como o
caso da demanda representada pelas entregas ou produo, ao invs de vendas
propriamente ditas. Nestes casos as previses tero acurcia invariavelmente baixa, e a
nica soluo tentar aproximar os dados do que se quer estudar de fato. Por exemplo,
pode-se inserir o valor de pedidos atrasados ou adiantados a fim de aproximar os
dados de entregas da demanda verdadeira.
Vendas gerenciadas por contas. As contas podem no representar a demanda
real, uma vez que tambm esto sujeitas ao game playing.
Estratgias para fugir de taxas e impostos, como a produo acelerada no
ltimo ms do ano. Estas devem ser detectadas e amenizadas.
Polticas empresariais diversas, por questes legais, de marketing ou outras.

1.1.2. Questes de Seleo e Especificao de Tcnicas de Previso


Inmeras tcnicas de previso j foram desenvolvidas na tentativa de melhor elucidar
o problema de previso de vendas. Tais tcnicas podem ser divididas em dois grupos
principais de abordagem: quantitativo e qualitativo. Dentro de cada grupo, vrias subdivises
distintas j foram propostas na literatura para classificar as tcnicas de previso; neste
trabalho proposta uma nova taxonomia das tcnicas de previso, buscando classific-las
19

primeiramente de acordo com sua abordagem conceitual, em seguida por sua metodologia de
coleta e tratamento dos dados, e finalmente distinguindo as diferentes tcnicas de anlise de
dados dentro de cada abordagem.
A figura a seguir mostra a taxonomia das tcnicas de previso proposta (a caixa em
destaque sinaliza a categoria de modelos foco desta pesquisa):

Tcnicas Exploratrias

Pert-simplificado, teoria de utilidade, pesquisas de


mercado etc.

Tcnicas de Grupo

Delphi, opinies de jri executivo, composio da


fora de vendas etc.

Qualitativas

Modelos Bayesianos

Mtodos de Suavizao
Averaging: mdia, tcnicas naive, moving average,
double moving averag.
Exponencial: exponential smoothing, ARRSES,
double exponential smoothing de um e dois
parmetros, triple exponential smoothing de um e
trs parmetros.
Anlises de Sries Temporais

Mtodos de Decomposio
Decomposio clssica, Decomposio Censo II.
Mtodos Auto-regressivos (ARIMA)
Modelos baseados em Redes Neurais

Quantitativas
Modelos de Regresso
Tcnicas Causais

Modelos Economtricos
Modelos baseados em Redes Neurais

Modelos de Escolha Discreta

Figura 6 - Taxonomia das tcnicas de previso

Conforme mostra a figura, os mtodos quantitativos podem ser divididos em: 1)


anlise de sries temporais, baseada na descoberta de padres nos dados histricos de uma
20

varivel; 2) mtodos causais, baseados em relacionamentos de causa e efeito, tentando


descrever matematicamente o relacionamento de uma varivel dependente com uma ou mais
variveis independentes; e 3) mtodos de escolha discreta, utilizados essencialmente em
problemas de classificao. J os mtodos qualitativos podem ser divididos em: 1)
exploratrios, como as pesquisas de mercado e teoria de utilidade; e 2) tcnicas de grupo,
como as tcnicas Delphi e composio da fora de vendas.

1.1.3. Questes de Avaliao


O processo de previso pode ser decomposto em trs fases principais (LUXHOJ et al.,
1996):
1. Identificao do problema;
2. Desenvolvimento de alternativas;
3. Seleo da melhor alternativa baseada em um critrio definido.
A partir do problema identificado como previso de vendas no varejo com uso de
dados atomizados as alternativas de tcnicas so consideradas, como aquelas mostradas nas
sees anteriores. A fase final do desenvolvimento de um modelo de previso passa pela
avaliao dos modelos e seleo daquele mais apropriado ao problema, a partir de critrios
bem definidos.
Os critrios utilizados para seleo da melhor tcnica de previso so muito variados,
e passam por:

Acurcia. o critrio mais utilizado para seleo da melhor tcnica de


previso, e muitas vezes o nico. Sem dvida um critrio primordial, dado
que previses com grandes erros no suportam o gestor na tomada de decises;
pelo contrrio, levam a decises danosas corporao.

Custo. Envolve o custo de obteno, tratamento e preparao dos dados, o


custo no desenvolvimento e avaliao dos modelos, e o custo de implantao
do modelo na operao da empresa. Relaciona-se sempre aos elementos
humano, de tempo e computacional.

Habilidade do analista. Muitas vezes a falta de know-how sobre uma


determinada tcnica de previso impede que ela seja sequer considerada. Uma
familiaridade maior na aplicao de alguma tcnica influencia decisivamente a
21

escolha da mesma, at porque o analista tende a gerar modelos melhores do


que ao utilizar tcnicas sobre as quais detm pouco conhecimento.

Caractersticas desejadas na previso, como explicabilidade, incorporao de


determinadas variveis, capacidade de realizar simulaes, entre outras.

Caractersticas especficas do problema. Envolvem todo o sistema investigado:


nmero e caractersticas das variveis relevantes, como elas se comportam
alguns mtodos s podem ser aplicados a dados com determinados padres de
comportamento, horizonte de tempo considerado, nmero de itens previstos,
periodicidade das previses, entre outras.

Facilidade de uso. Refere-se facilidade de uso da tcnica em si, na gerao do


modelo, e da utilizao posterior deste modelo no contexto da organizao.
Envolve: complexidade, tempo de desenvolvimento, nvel de conhecimento
exigido, e base conceitual aplicada.

Requerimento de dados. A disponibilidade de dados dentro dos padres


esperados por determinadas tcnicas pode pressionar a escolha das mesmas.

Disponibilidade de softwares. A explorao das tcnicas de previso depende


diretamente da disponibilidade de pacotes estatsticos que as suportem,
sobretudo nas previses quantitativas.

Velocidade. Refere-se agilidade e flexibilidade no desenvolvimento e


aplicao de novos modelos.

Facilidade de interpretao. Esta uma caracterstica fundamental de qualquer


previso, uma vez que ela deve ser bem compreendida pelo gestor. Est
relacionada com o poder explicativo dado pela tcnica, e alm de influenciar o
modo como o administrador ir tomar decises a partir da previso, afeta
tambm sua credibilidade.

Eficincia. Capacidade de melhorar a performance com o passar do tempo,


conforme assimila maior quantidade de dados. Tambm conhecida como taxa
de aprendizado do modelo de previso.

Enviesamento. Ausncia de respostas enviesadas; que tendem sempre para


mais ou para menos.

Capacidade de incorporar a experincia do gestor. Este tem sido o critrio mais


usado para justificar o uso de mtodos qualitativos de previso (MCHUGH &
SPARKES, 1983).
22

No h consenso na literatura sobre qual o critrio ou conjunto de critrios mais


importante na seleo das tcnicas de previso. WHEELWRIGHT & CLARKE (1976) citam
custo, habilidade do analista, caractersticas do problema e desejadas no mtodo como os
critrios mais relevantes. J SANDERS (1992) obteve como respostas de gestores de
empresas de manufatura: acurcia, requerimento de dados e facilidade de uso. Facilidade de
uso tambm foi destacada por MCHUGH & SPARKES (1983), que adicionalmente
encontraram a (falta de) habilidade do analista como o fator predominante para o no uso de
tcnicas quantitativas mais formais. Finalmente, no estudo de NAYLOR (1981) os maiores
obstculos para uso de tcnicas quantitativas foram enviesamento, falta de know-how
(habilidade do analista) e tempo (velocidade) para construo dos modelos.
Os resultados de WILSON & DAUBECK (1989), entretanto, mostram que h uma
associao positiva entre a importncia percebida dos mtodos de previso e sua acurcia. Isto
significa que quanto maior a acurcia de um modelo, maior a importncia percebida dele. De
fato, acurcia tem sido relatada como o critrio mais importante na seleo das tcnicas de
previso (BROWN, 1963; LAWRENCE et al., 2000).
importante distinguir os critrios de seleo de tcnicas com aqueles de avaliao
das previses. Durante a seleo, a preocupao com a escolha da tcnica mais adequada ao
problema, aquela capaz de modelar o fenmeno com maior preciso ou atingir outro critrio
de seleo especificado. J durante o processo de avaliao, est-se preocupado com a
performance do modelo criado a partir da tcnica selecionada, ou seja, com a medida da
qualidade das previses efetuadas. Naturalmente, uma escolha acertada da tcnica de previso
deve levar a uma melhor capacidade preditiva do modelo gerado.
Acurcia , tambm no caso de avaliao de performance, o critrio mais utilizado
(MENTZER & COX, 1984; SANDERS, 1992). Tal resultado natural que seja esperado,
uma vez que a acurcia das previses de vendas tem um papel fundamental na tomada de
decises, especialmente no que diz respeito ao planejamento financeiro e reposio de
inventrios. Previses mal feitas podem levar a excesso de inventrio ou perda de vendas,
problemas no agendamento da produo, decises de preo incorretas, falhas no atendimento
ao cliente, entre outros todas situaes de perda financeira, ocasionando diminuio da
lucratividade.
Quanto aos resultados das previses, as empresas de bens de consumo (varejo)
atingem previses otimistas (enviesadas para mais) com maior freqncia que as empresas
23

industriais, e tambm consideram a previso de vendas no importante com maior freqncia


(SANDERS & MANRODT, 1994).

Medidas de Desempenho dos Modelos de Previso


Uma vez que acurcia o critrio mais importante na seleo e avaliao das tcnicas
de previso, ela deve ser definida matematicamente. A fim de avaliar o desempenho
(acurcia) absoluto e relativo dos diversos modelos de previso, diversas ferramentas
matemticas foram desenvolvidas com o tempo. Os principais mecanismos so (ACZEL,
1993):

ME. Mean Error, ou Erro Mdio, a medida mais simples de erro das previses,
definida como o somatrio dos erros (erro total) dividido pelo nmero de
observaes realizadas.
n

Equao II: ME =

i =1

MAE. Mean Absolute Error, ou Erro Absoluto Mdio, o erro mdio tomado em
termos absolutos, para que um erro positivo no seja anulado por outro negativo.
n

Equao III: MAE =

i =1

MSE. Mean Square Error, ou Erro Quadrado Mdio, foi definido com a mesma
finalidade de no anular os erros durante sua somatria.
n

Equao IV: ME =

i =1

MAPE. Mean Absolute Percentage Error, ou Erro Percentual Absoluto Mdio,


uma medida do erro absoluto mdio em termos percentuais, para que se tenha uma
viso do erro comparado com o valor previsto, e tambm para permitir
comparaes entre modelos que utilizam dados diferentes.
n

Equao V: MAPE = 100.

i =1

Xi Fi
Xi
n

Outras medidas de acurcia podem ainda ser definidas, apesar de no serem to


comuns na prtica, como:
24

AE. Absolute Error, ou Erro Absoluto, o erro total acumulado, somado de forma
absoluta (com o uso do mdulo do erro).

SSE. Sum of Squared Erros, ou Soma Quadrada dos Erros, o total quadrado dos
erros verificados. Ou seja, representa o MSE sem a medida da mdia.

PE. Percentage Error, ou Erro Percentual, o erro total medido em porcentagem.

MPE. Mean Percentage Error, ou Erro Percentual Mdio, medida percentual do


erro mdio, ou seja, o PE medido em termo mdio.

APE. Absolute Percentage Error, ou Erro Percentual Absoluto, o erro absoluto


total medido em porcentagem. Em outras palavras, representa o MAPE sem a
medida da mdia.

RMSE. Root Mean Square Error, ou Raiz do Erro Quadrado Mdio, tomado a
partir da raiz do MSE, para que a medida volte unidade original.

SMAPE. Symetric Mean Absolute Percentage Error, ou Erro Percentual Absoluto


Mdio Simtrico, uma adaptao do MAPE, evitando que grandes erros pontuais
tenham peso exagerado na medida da acurcia. recomendado quando existirem
falhas ou picos repentinos na demanda.

YTD MAPE. a medida do MAPE para o ltimo ano corrido, isto , para as
ltimas 52 semanas ou 12 meses at o momento, dependendo da freqncia
tomada.

CumRAE. Cumulative Relative Absolute Error, ou Erro Absoluto Relativo


Acumulado, mede a capacidade preditiva de dois modelos, comparativamente.
definido como a relao entre os erros totais verificados por dois modelos.

MdCumRAE. Median Cumulative Relative Absolute Error, ou Erro Absoluto


Relativo Acumulado Mediano, uma forma de usar o CumRAE na comparao de
mais de dois modelos.

A escolha do critrio a ser utilizado para medir a acurcia dos modelos no arbitrria
ela deve ser feita baseada nas caractersticas do problema e das medidas citadas. Um dos
mtodos mais utilizados o MSE, por ser um estimador no enviesado. Porm este e
tambm sua raiz, RMSE so largamente afetados por outliers: grandes e possivelmente
raros erros. Caso ocorram picos de erros, e o objetivo seja ter um modelo buscando acurcia
ao longo do tempo, este critrio deve ser desconsiderado. A medida do MAPE pode ser a
melhor medida nestes casos, por ser computada por medidas absolutas (e no quadradas) e em
porcentagem do valor previsto. Outra vantagem da MAPE ter uma viso da amplitude do
25

erro: por exemplo, dizer que um modelo teve erro mdio de 8% (MAPE) fornece mais
informaes do que dizer que seu MSE foi de 361, ou que seu MAE foi 147. No caso de se ter
como objetivo um modelo de previso que respeite limites de erro mximo, a medida do
MAE pode ser a mais indicada, assim como as medidas de AE e APE (HARDIE et al., 1998).

Comparao e Seleo de Tcnicas de Previso


No h, de maneira geral, uma concluso uniforme na literatura sobre o desempenho
comparativo das tcnicas de previso. Geralmente as tcnicas so comparadas apenas com
relao sua capacidade preditiva, e as concluses so dspares no h consenso sobre qual
tcnica a mais apropriada para cada tipo de problema. Porm, fato que nenhuma tcnica
supera as demais em todas as aplicaes. Algumas, entretanto, tm baixa performance
sempre, como os mtodos de suavizao atravs de mdias estes so citados mais por
questes histricas, e raramente empregados na prtica, a no ser para comparar o ganho de
acurcia na adoo de uma nova tcnica de previso (MAKRIDAKIS et al., 1983).
Outra concluso que parece ser consenso na literatura quanto baixa acurcia das
tcnicas

qualitativas

(LUXHOJ

et

al.,

1996;

ALIBAIG

&

LILLY,

1999;

SUBRAHMANYAN, 1998; SUBRAHMANYAN, 2000; LAWRENCE et al., 2000). Segundo


MAKRIDAKIS et al. (1983), tais tcnicas s apresentam resultados equivalentes s
quantitativas no longo prazo (mais que dois anos), e so freqentemente mais caras dado que
demandam muito tempo dos analistas e da alta administrao. J as tcnicas quantitativas
podem ser aplicadas a qualquer horizonte de tempo, desde que os padres no se modifiquem.
Uma importante ressalva deve ser feita quanto ao padro dos dados: muitas tcnicas,
principalmente as de sries temporais, so aplicveis apenas a alguns padres, mostrando
grandes erros se aplicadas em outros padres. De fato, a maior parte das tcnicas
quantitativas, incluindo as tcnicas causais, requer uma anlise prvia do padro geral dos
dados, a fim de formular um modelo adequado.
Alm das diferenas estruturais nos inmeros problemas j estudados, outro fator que
pode ter influenciado na disparidade das concluses acerca do desempenho das tcnicas a
qualidade (representatividade e quantidade suficiente) e natureza (seleo das variveis) dos
dados apresentados, independentemente do modelo utilizado. Os resultados dos estudos de
CHURCH & CURRAM (1996) e GEURTS & WHITLARK (1996) confirmam que a
qualidade dos dados fator preponderante na acurcia das previses.
26

A tabela a seguir demonstra a disparidade nos resultados alcanados por diversos


autores a respeito da acurcia das diferentes tcnicas de previso, quando comparadas entre si
para um mesmo conjunto de dados:
Autor

Tcnicas

(LAWRENCE et Tcnicas
al., 2000)
qualitativas X
naive no
ajustada

Estudo

Concluses

Compararam a acurcia dos mtodos de


previso de 13 empresas de manufatura,
todas utilizando mtodos de previso
subjetivos. Os resultados foram
comparados com uma previso naive no
ajustada.

Os resultados mostraram que as previses


qualitativas das empresas no foram
consistentemente melhores que a (simplria)
tcnica naive. Este resultado poderia ser ainda pior
se tivesse sido utilizada a tcnica naive ajustada,
igualmente simples, mas que leva em
considerao a sazonalidade.

(SPEDDING &
CHAN, 2000)

Modelagem
bayesiana X
ARIMA

Desenvolveram modelos de previso de


vendas para controle de inventrios. Um
modelo bayesiano baseado em sries de
tempo dinmicas lineares proposto para a
previso de demanda (agregada), e
comparado com uma modelagem ARIMA.

Os resultados obtidos indicam que a melhor


tcnica para previso de demanda agregada a
modelagem bayesiana. O modelo bayesiano
tambm apresentou melhor resultado com a
insero de maior nmero de sries temporais,
indicando maior eficincia no aprendizado.

(BIDARKOTA,
1998)

Diferentes
mtodos
autoregressivos,
uni e
bivariados

Compara a performance de dois modelos


de sries temporais na previso de taxas de
juros: um deles com o uso de uma srie de
dados composta por valores de taxas de
juros reais, e outro composto por dados de
juros nominais e inflao. Duas variaes
da modelagem ARIMA foram utilizadas.

O modelo bivariado mostrou maior acurcia para


dados fora da amostra, apesar de ambos os
modelos apresentarem grandes erros no longo
prazo. Prova, at certo ponto, que prever atravs
dos componentes tericos da srie (como uma
tcnica causal) tem resultado igual ou melhor que
a previso a partir da srie temporal isolada.

(NEWBOLD &
GRANGER,
1977)

Sries
temporais e
ARIMA

Compararam a acurcia de diversos


modelos baseados nas tcnicas de
suavizao exponencial (mtodo de Holt),
ARIMA (mtodo Box-Jenkins) e regresso
stepwise.

Os modelos gerados a partir da tcnica BoxJenkins (ARIMA) mostraram-se superior em 73%


dos casos. Com o aumento do horizonte de tempo,
os modelos ARIMA continuaram superiores,
porm em apenas 57% dos casos.

Comparou a acurcia de trs tcnicas de


sries temporais: suavizao atravs de
mdias, suavizao exponencial e ARIMA.
Para tanto, utilizou 1001 sries de dados de
vendas reais.

A suavizao exponencial simples mostrou-se ser


a tcnica mais acurada, seguida da ARIMA e de
tcnicas de suavizao exponencial mais
complexas.

(MAKRIDAKIS, Sries
1982)
temporais

Tabela 2 Exemplos de comparao de desempenho das tcnicas de previso na literatura

1.2.

Tcnicas de Previso

1.2.1. Tcnicas Qualitativas de Previso


As tcnicas de previso qualitativas, tambm chamadas de tcnicas subjetivas ou
baseadas em critrios de juzo, so aquelas que utilizam primordialmente a capacidade
humana de estabelecer generalizaes e extrapolaes. Estas tcnicas pouco se utilizam ou
simplesmente no se utilizam de sries de dados histricos, quantitativos.

27

Uma concluso presente em vrios estudos indica que, em geral, as empresas parecem
estar mais vontade com essas tcnicas que com mtodos quantitativos (WHEELWRIGHT &
CLARKE, 1976; MCHUGH & SPARKES, 1983; MENTZER & COX, 1984; FILDES &
HASTINGS, 1994). Contudo, um estudo recente conduzido por SANDERS & MANRODT
(1994) sinaliza que a familiaridade com mtodos quantitativos crescente em sua pesquisa
76% dos respondentes afirmaram possuir familiaridade com pelo menos uma tcnica
quantitativa para previso de vendas, contra 61% obtidos no estudo de MENTZER & COX
(1984).
Talvez essa familiaridade com mtodos qualitativos seja devido ao fato de eles serem
mais simples, e algumas vezes at intuitivos; fazendo com que sejam os mtodos mais
utilizados nas empresas (SANDERS & MANDRODT, 1994; PETERSON & JUN, 1999). De
fato, facilidade de uso e capacidade de incorporar a experincia do gestor so os principais
argumentos utilizados para justificar o uso intensivo de tcnicas de julgamento subjetivo nas
previses, em detrimento de tcnicas quantitativas (WINKLHOFER et al., 1996).
Entretanto, diversos estudos mostraram que os mtodos qualitativos oferecem baixa
acurcia, e no raro, as previses subjetivas geram grandes erros, ocasionando distrbios no
planejamento e resultado final das operaes corporativas (LUXHOJ et al., 1996; ALIBAIG
& LILLY, 1999; SUBRAHMANYAN, 1998; SUBRAHMANYAN, 2000; LAWRENCE et
al., 2000).
LAWRENCE et al. (2000) sugerem alguns motivos pelos quais as previses
subjetivas, apesar de serem muitas vezes realizadas por analistas experientes e com
informaes contextuais do mercado, no possuem boa performance:

As informaes contextuais podem no ter valor preditivo.

Enviesamento e ineficincia na interpretao dos relacionamentos podem mascarar as


informaes contextuais levadas em considerao.

Excesso de dados a serem consideradas pelo analista, fazendo com que ele ignore ou
d pesos errados s informaes contextuais recebidas.

Perturbaes recentes na srie temporal podem ser entendidas pelo analista como um
sinal de tendncia, confundindo a interpretao das informaes contextuais.

Acurcia no o critrio mais importante nas previses das empresas.

28

Dada a baixa capacidade preditiva das tcnicas qualitativas, esta pesquisa est focada
em mtodos quantitativos de previso, e, portanto, apenas apresenta brevemente algumas das
tcnicas qualitativas mais utilizadas, sem detalhar seu funcionamento.

Tcnicas Exploratrias
Aqui esto classificadas todas as tcnicas qualitativas de explorao de dados e
desenvolvimento de cenrios. No h grande formalidade na aplicao destes mtodos, por
isso as variaes so incontveis.
Algumas das tcnicas mais comuns e sistematizadas so:
Pesquisas de mercado. Pesquisas e testes de mercado so instrumentos de
previso teis especialmente quando dados histricos no estiverem
disponveis ou no forem confiveis. O lanamento de um novo produto o
exemplo clssico. As desvantagens incluem baixa acurcia, alto custo e tempo
dispensado.
Mtodo Pert-modificado. Mtodo baseado em estimativas otimista, pessimista
e realista dos acontecimentos futuros. s estimativas so associadas
probabilidades

de

acontecimento,

que

so

posteriormente

avaliadas.

Fundamentado na Teoria das Decises (teoria estatstica para avaliao de


probabilidades consecutivas), porm simplificado quanto parte quantitativa.
Teoria da utilidade. Refere-se otimizao de um parmetro ou funo
utilidade, com base em probabilidades previstas por especialistas.
Mtodos de extrapolao de grficos. A partir de grficos relacionados
varivel de interesse, so traadas extrapolaes mo livre, com base no
comportamento esperado da curva mais informaes externas, como
crescimentos ou retraes esperados no setor, informaes da forca de vendas,
entre outras.

Tcnicas de Grupo
Constituem tcnicas de previso onde as concluses so essencialmente provindas de
anlises de mais de um especialista ou analista. As contribuies podem provir de: executivos
da empresa, equipe de vendas, clientes e outros especialistas da rea. A maior parte desses
29

mtodos utiliza tcnicas estatsticas, com maior ou menor intensidade, para combinar as
informaes provindas dos diversos especialistas.
As tcnicas mais utilizadas so:
Tcnica Delphi. Baseada em questionrios enviados para especialistas, que so
revisados at que se chegue em consensos.
Diagnstico de expectativas. Baseado em pesquisas de opinies de um jri
executivo; utilizado principalmente para deteco de novas tendncias, e para
combinar opinies sobre previses quantitativas previamente calculadas.
Composio da fora de vendas. Uma fonte importante de dados qualitativos
a fora de vendas de uma empresa. A percepo de futuro da equipe de vendas
de particular importncia quando a demanda tiver um padro com muitos
picos e vales (MOON & MENTZER, 1999). Existem duas condies primrias
onde o uso da fora de vendas faz sentido na previso de vendas: (1) os
vendedores tm bom discernimento das mudanas no padro da demanda e
conhecimento profundo de seus clientes; e (2) os vendedores conhecem bem as
probabilidades de garantir grandes vendas. A demanda de armamentos de
guerra um bom exemplo de situao onde a modelagem matemtica
virtualmente impossvel, mas a equipe de vendas tem boa expectativa do
comportamento futuro da demanda.

1.2.2. Modelos Bayesianos


So modelos baseados na Teoria Bayesiana, combinando opinies subjetivas com
procedimentos quantitativos para revisar as probabilidades previstas e por isso foram
colocados em uma categoria prpria, dentro da classificao aqui proposta.
O Teorema de Bayes deriva da Lei de Probabilidade Total, que afirma que dados dois
eventos A e B, pode-se sempre dizer que a probabilidade de A igual probabilidade da
interseco de A e B mais a probabilidade da interseco de A e o complemento de B. Ou

seja: P( A) = P( A B ) + P A B

Ou, expressando em termos de probabilidade condicional:

)()

P( A) = P( A | B )P (B ) + P A | B P B

30

O Teorema de Bayes permite reverter a condicionalidade dos eventos, ou, em outras


palavras, obter a probabilidade de B dado A a partir da probabilidade de A dado B. Segundo a
definio de probabilidade condicional: P(B | A) =

P( A | B )
P ( A)

O que, combinado com a Lei de Probabilidade Total, resulta em:


Equao VI: P(B | A) =

P( A | B )P(B )

)()

P( A | B ) + P A | B P B

a qual o Teorema de Bayes. Ele pode ser entendido como uma forma de
transformar uma probabilidade a priori P(B) em uma probabilidade a posteriori
P(B|A). Convencionou-se, ento, em denominar as abordagens que utilizam informao a
priori sobre um problema particular, combinando-a com resultados estatsticos, de bayesianas.
Dados
Informao a priori
Dados

Inferncia
Clssica

Concluso
estatstica

Inferncia
Bayesiana

Concluso
estatstica

Figura 7 - Modelo de inferncia bayesiana

A informao a priori a ser utilizada pode ser um resultado estatstico anterior, ou,
mais freqentemente, reflexo do conhecimento do especialista ou analista.
Uma das grandes vantagens de se utilizar a abordagem bayesiana, alm da
possibilidade de melhorar a acurcia com o uso de informao a priori, a anlise de forma
seqencial que ela permite. Ou seja, informao obtida em uma anlise pode ser utilizada
como informao a priori em uma nova anlise, quando novos dados estiverem disponveis.
Assim, a segunda amostragem utilizada como dados, enquanto os resultados da primeira
anlise so utilizados como informao a priori. Esta metodologia bastante utilizada em
problemas de previso: os dados atuais so combinados com a previso anterior (esta ltima
como informao a priori) para obter novas previses. Tambm o conhecimento de
especialistas pode ser utilizado como informao a priori nas previses.

31

1.2.3. Tcnicas Quantitativas de Previso


Tcnicas de previso quantitativas so aquelas que usam dados histricos para calcular
matematicamente extrapolaes dos dados no futuro. A previso com uso de tcnicas
quantitativas pode ser aplicada quando (MAKRIDAKIS et al., 1983):
1. Informao sobre o passado esteja disponvel.
2. Esta informao possa ser quantificada em termos matemticos.
3. Seja possvel assumir que alguns aspectos do padro verificado no passado
continuaro no futuro. Esta colocao tambm chamada de pressuposto da
continuidade.
O procedimento geral para estimar um padro de relacionamento, seja causal ou de
srie temporal, atravs da aderncia a uma forma funcional matemtica qualquer, de forma a
minimizar o componente de erro. Exceo deve ser feita modelagem baseada em redes
neurais artificiais, que pode ser usada tanto para modelos causais como de sries temporais,
porm no buscam a aderncia a um modelo matemtico explcito (ANSUJ et al., 1996).
A previso causal, tambm chamada de explanatria, assume um relacionamento de
causa e efeito entre as entradas e sadas de um sistema. O sistema pode ser visto como a
economia nacional, o mercado de uma empresa, e assim por diante. J a previso com uso de
sries temporais trata o sistema como uma caixa preta, sem tentar descobrir os fatores que
causam os comportamentos observados.
A seguir as principais tcnicas quantitativas de previso so abordadas.

Modelos de Escolha Discreta


Uma das tcnicas possveis para previses quantitativas a utilizao de modelos de
escolha discreta, os quais tm sido aplicados principalmente na anlise de participao de
mercado e tambm na rea de transportes, para planejamento virio e de operaes de
transporte. Entretanto, estes so, a rigor, modelos de classificao, sendo que sua
aplicabilidade para previso de vendas restrita. Por este motivo, esta modelagem no ser
abordada neste trabalho.

32

Anlises de Sries Temporais


Uma srie temporal uma seqncia de valores, ordenados no tempo, de uma varivel
de interesse particular (NEWBOLD, 1995). Modelos de sries temporais realizam previses
baseadas em uma srie de dados observados em intervalos de tempo regulares, buscando
padres no passado para prever o futuro. Este tipo de modelagem especialmente til quando
h pouco conhecimento da base terica sobre o processo em que os dados foram gerados. As
previses so muitas vezes confiveis no curto prazo, sendo a classe de tcnicas quantitativas
h mais tempo em desenvolvimento.
Segundo MAKRIDAKIS et al. (1983), existem duas razes bsicas para tratar um
sistema como uma caixa preta:
1. O sistema no pode ser compreendido, ou, mesmo que possa, extremamente difcil
medir o relacionamento entre as variveis que governam seu comportamento.
2. A preocupao pode ser simplesmente prever com algum grau de preciso o que vai
acontecer, e no por que.
importante observar que as tcnicas de anlise de sries temporais desenvolveram-se
de forma paralela estatstica convencional. Isto porque praticamente todas as tcnicas
estatsticas so baseadas no pressuposto de amostragem aleatria, ou seja, no pressuposto de
que os dados disponveis so observaes independentes do fenmeno de interesse. Este
pressuposto raramente verdadeiro para sries temporais, demandando portanto o
desenvolvimento de novas e especficas tcnicas estatsticas.
Existem duas razoes bsicas para desconfiar do pressuposto de observaes
independentes em sries temporais (NEWBOLD, 1995):
1. Os fatores econmicos que contriburam para a gerao de um valor no mudam
repentinamente, tendendo-se a manter um nvel prximo em perodos adjacentes. Por
exemplo, se as vendas de um ms foram altas, muito provavelmente as do ms
subseqente tambm o sero, estando portanto os dados de vendas relacionados de
alguma forma.
2. H geralmente a presena de sazonalidade, ou seja, de padres de longo prazo
(usualmente anuais) constantes, repetitivos.
Assim, o pressuposto de amostragem aleatria no vlido para sries temporais, e o
uso de tcnicas convencionais leva a grandes erros neste tipo de anlise. Pelo contrrio, as
33

tcnicas de previso a partir de sries temporais valem-se justamente do fato de as


observaes serem bastante dependentes, possibilitando a inferncia de valores futuros a
partir de dados histricos.
Apesar de sua grande aceitao, as tcnicas de sries temporais possuem srias
limitaes. A mais visvel delas o fato de as causas que agem sobre as variveis previstas
serem completamente ignoradas. Todas as forcas externas, como fatores econmicos, esforos
de marketing, aes dos competidores, e assim por diante, so desprezadas. Outra deficincia
que os padres histricos que geraram as sries mudam com o tempo, e as tcnicas podem
no detectar tais mudanas. Suas deficincias resultam em previses com baixa acurcia,
especialmente no longo prazo (GROSS & PETERSON, 1983).
Como nessa classe de modelagem a preocupao apenas com o comportamento da
varivel de interesse no tempo desprezando todos os fatores exgenos condicionantes de seu
comportamento as tcnicas quantitativas de previso mais simples, e que demandam menor
esforo matemtico-computacional, inserem-se nessa categoria. No entanto, dado o
desenvolvimento constante das tcnicas, algumas delas so de fato bastante complexas, e de
implementao difcil.
Apesar de todos os problemas verificados com as tcnicas de anlise de sries
temporais, elas continuam a ser extensivamente usadas e estudadas, e portanto so
brevemente abordadas neste trabalho.

Mtodos de Suavizao Atravs de Mdias


O nome desta classe de mtodos smooth em ingls significa homogeneizar, tornar
uniforme, aperfeioar, suavizar. E justamente o que propiciam: uma suavizao no grfico
da varivel estudada, atravs de processos matemticos relativamente simples.
Tcnicas Naive
Talvez o mais simples mtodo de suavizao e tambm de previso seja o
chamado mtodo naive (ingnuo) no ajustado, que consiste simplesmente em considerar a
ltima observao conhecida da srie como sua melhor expectativa para o futuro. Ou seja,
parte da idia de que amanh ser, com grande chance, como hoje. Por mais simplria que
parea, esta metodologia freqentemente usada para comparar o ganho em capacidade
preditiva ao se adotar uma tcnica mais elaborada; e j foi mostrado que sua aplicao oferece
34

acurcia igual ou significativamente melhor que tcnicas qualitativas (LAWRENCE et al.,


2000).
Uma forma ligeiramente melhorada de tcnica naive a chamada naive ajustada, onde
tambm utilizada a ltima observao para efeito de previso, porm ela antes
desazonalizada: o efeito da sazonalidade minimizado atravs de tcnicas de decomposio
mostradas adiante melhorando assim sua acurcia. Este mtodo tambm usado para fins de
comparao entre capacidades preditivas.
Tcnicas Averaging
So as tcnicas usualmente referenciadas como de suavizao atravs de mdias ou
averaging propriamente ditas, aplicando procedimentos matemticos especialmente o
clculo sucessivo de mdias para extrapolar a srie temporal no futuro.
O mais simples mtodo dessa classe, conhecido como simple average o clculo da
mdia das ltimas observaes como uma aproximao de seu valor no futuro. De fato, se
considerarmos um fenmeno que gere sadas constantes estacionrias, flutuando ao redor de
um ponto, a mdia uma boa previso. Entretanto, se a srie contiver tendncias ou
sazonalidades, a mdia deixar de ser efetiva. Mas outras tcnicas utilizam mecanismos de
suavizao dos dados atravs de mdias buscando incorporar tais caractersticas dos dados em
seus resultados.
A mais conhecida delas est presente em praticamente todos os livros de estatstica
aplicada a de mdias flutuantes, ou em ingls moving averages. A tcnica consiste em
tomar uma mdia de um nmero fixo de observaes que se move conforme se progride na
srie de dados. Assim, para ter a primeira observao em um moving average que utiliza a
mdia de k observaes necessrio passar pelos k primeiros nmeros, realizando sua mdia.
A segunda observao seria composta tambm pela mdia de k valores da srie, mas iniciando
pelo segundo nmero, e assim por diante.
Quanto maior o nmero de pontos tomados, mais estveis as sries obtidas. Maior
estabilidade tambm pode ser conseguida atravs da aplicao do algoritmo de averaging
mais de uma vez, fazendo a mdia das mdias. Surgiram assim as chamadas double moving
averaging e triple moving averaging, com a aplicao das mdias duas, trs ou mais vezes.
As tcnicas averaging no so muito utilizadas para previso dada sua baixa acurcia.
De fato, seu uso mais freqente o utilizado na desazonalizao dos dados, ou seja, na
35

tentativa de minimizar os efeitos da sazonalidade em dados que serviro de entrada a outras


tcnicas.

Mtodos de Suavizao Exponencial


As tcnicas de moving averages possuem alta estabilidade nas respostas fornecidas,
caracterstica esta que bastante desejvel num sistema de previso, para superar o problema
das grandes oscilaes devido a alteraes puramente aleatrias. Porm a taxa de resposta s
variaes de difcil modificao baseia-se inerentemente no nmero de observaes
tomadas. Outro problema grave dessas tcnicas sua baixa eficincia, isto , baixo nvel de
aprendizado, ou correo dos erros com o tempo.
Na tentativa de sanar os problemas citados, foram desenvolvidas tcnicas de
suavizao exponencial, que envolvem a aplicao de pesos distintos aos dados histricos,
para dar maior importncia s observaes mais recentes. Nestas tcnicas a taxa de resposta
pode ser facilmente corrigida, dando maior flexibilidade aos modelos produzidos. Outra
vantagem que elas utilizam menor nmero de dados da srie, e portanto a necessidade de
registro histrico menor.
A regra geral utilizada no desenvolvimento das tcnicas de suavizao exponencial :
para ter uma estimativa da demanda, adicione estimativa do ms anterior uma frao do erro
verificado. Ou seja:
Nova estimativa = antiga estimativa + (demanda antiga estimativa).
Rearranjando:
Equao VII: Pt = .Q + (1 ).Pt 1

onde P o valor previsto, Q a observao da demanda atual e o fator de


peso. Quanto maior o fator de peso, mais rpida a resposta das previses s mudanas
observadas; ao contrrio, quanto menor o parmetro , mais estveis sero as previses.
As principais tcnicas desenvolvidas com base na idia de suavizao exponencial
so:

Single exponential smoothing. Aplicao da Equao VII uma nica vez para cada
perodo previsto.

36

Double exponential smooting. Aplicao da suavizao exponencial duas vezes


sucessivas, utilizando o resultado da primeira iterao como entrada na segunda. Pode
utilizar o mesmo parmetro (Mtodo de Brown), usando, portanto, a mesma equao
duas vezes; ou utilizar dois parmetros distintos nas iteraes (mtodo de Holt).

Triple exponential smoothing. Aplicao da suavizao exponencial por trs vezes


sucessivas. De forma semelhante ao double exponential smooting, pode-se utilizar um
(mtodo de Brown quadrtico) ou trs parmetros distintos (mtodo de Winter).

Adaptative parameter exponential smoothing (ARRSES). na verdade um caso tpico


de single exponential smoothing, porm o fator de peso definido matematicamente a
partir dos valores de P e Q, e desta forma passa a ter certa liberdade para variar
conforme se progride na srie de dados. Esta caracterstica aumenta a eficincia dos
modelos, fazendo com que possam adaptar-se melhor aos dados e diminuir os erros
com o passar do tempo.
Outras equaes podem ser geradas a partir da equao geral de suavizao

exponencial (Equao VII), como aquelas escritas a partir do modelo de classificao de


Pegel (MAKRIDAKIS et al., 1983). Tais extrapolaes no so, entretanto, muito utilizadas
na prtica.
As maiores vantagens das tcnicas de suavizao exponencial so sua simplicidade e
baixo custo de desenvolvimento elas podem facilmente ser aplicados atravs de planilhas
de clculo. Com dados estacionrios, pode-se utilizar com sucesso as tcnicas simples de
suavizao exponencial. O mtodo de Brown indicado para dados no-estacionrios sem
sazonalidade, principalmente por requerer apenas um parmetro. O mtodo de Brown
quadrtico tambm bastante utilizado por sua simplicidade e boa capacidade de detectar
pontos de inflexo na tendncia. Seu ponto falho sua rpida reao (baixa estabilidade),
podendo indicar pontos de inflexo onde na verdade h apenas pequenas variaes aleatrias.
Para dados com sazonalidade, a nica tcnica largamente utilizada a de Winter
(MAKRIDAKIS et al., 1983). Estas tcnicas so normalmente preferidas em detrimento das
tcnicas averaging para previso, por oferecerem maior acurcia e necessitarem de menor
nmero de dados histricos armazenados e computados.

37

Mtodos de Decomposio
Ao contrrio das tcnicas de suavizao, que tentam distinguir entre os padres e os
erros nos dados atravs de uma medida mdia de valores anteriores, as tcnicas de
decomposio buscam separar os componentes que possam estar presentes nos dados. Os
componentes usualmente citados na literatura so:
Tendncia (T). Envolve a expectativa de crescimento ou decaimento em um perodo
longo de tempo. Por exemplo, apesar de apresentar altos e baixos, o ndice do Produto
Interno Bruto (PIB) de um pas desenvolvido tende a aumentar com o tempo.
Sazonalidade (I). Flutuaes peridicas de comprimento constante. Muitas variveis
econmicas possuem forte padro anual, semestral ou trimestral, e outras variveis
podem ter sazonalidades quaisquer. Pode-se verificar facilmente um aquecimento da
economia prximo ao fim do ano, por exemplo.
Componente cclico (C). Padres oscilatrios, desconectados de comportamentos
sazonais repetitivos. No so necessariamente regulares, mas seguem um certo padro
ao longo do tempo, geralmente relacionado ao comportamento macroeconmico.
Componente irregular (). Agrega a multitude de fatores que influenciam o
comportamento de uma srie real, e cujo padro parece ser imprevisvel.
Os modelos de decomposio supem que se pode escrever o padro dos dados como:
Equao VIII: Y = F(tendncia, ciclo, sazonalidade) +

Tal relao pode ser aditiva, do tipo Y = (T + C + I) +


Ou multiplicativa, como Y = TCI +
Todas as tcnicas deste gnero, como a Decomposio Clssica, ou a Decomposio
Censo II, envolvem a decomposio dos dados nos fatores acima (GROSS & PETERSON,
1983).

Mtodos Auto-Regressivos (ARIMA)


Os mtodos Auto-Regressivos (Autoregressive Integrated Moving Average ARIMA)
constituem uma classe genrica de mtodos capazes de gerar modelos atravs da combinao

38

de trs tcnicas matemtico-estatsticas: auto-regresso1 (regresso com base no tempo),


moving averages (para suavizar e dasazonalizar), e diferenciao (para incluir processos no
estacionrios). BOX & JENKINS (1976) uniram teoria de modelagem auto-regressiva a
capacidade de tratar dados no-estacionrios, atravs de um processo de diferenciao,
criando a classe genrica de modelos ARIMA, que tambm passaram a ser conhecidos como
modelos Box-Jenkins.
As equaes utilizadas no mtodo ARIMA so normalmente referenciadas por
ARIMA (a,b,c), onde: a representa o grau de auto-regresso utilizado, b representa o grau de
diferenciao, e c representa o grau de moving average usado. Desta forma, so possveis
inmeras combinaes, gerando um conjunto possvel de equaes que so escolhidas
conforme as caractersticas dos dados2.
A metodologia proposta por BOX & JENKINS (1976) define trs passos para a
construo do modelo de previso:
1. Identificao de um ou mais modelos que descrevam a srie temporal adequadamente.
feita utilizando ferramental estatstico, testando a estrutura de correlao da srie, a
partir da classe genrica ARIMA (a,b,c).
2. Estimao dos parmetros dos modelos. similar estimao de parmetros de
modelos de regresso, porem com uso de tcnicas de estimao no-lineares.
3. Conduo do diagnstico dos modelos, atravs da medio dos erros provocados por
cada modelo, e seleo daquele com maior acurcia.
Apesar de seu apelo estatstico e terico, estes modelos nunca foram muito utilizados
na prtica principalmente devido sua complexidade matemtica, que nem sempre se traduz
em melhoria na acurcia (MAKRIDAKIS et al., 1983).

Auto-regresso refere-se utilizao da tcnica estatstica de regresso sem o uso de variveis exgenas, mas
sim da prpria varivel dependente em diferentes perodos de tempo: Yt = b0 + b1Yt-1 + b2Yt-2 + ... + bkYt-k + et.
Assim, o pressuposto de independncia dos termos de erro formulado na teoria estatstica imediatamente
violado, por isso a obteno de resultados satisfatrios no garantida, e s feita em termos empricos.
2
H uma certa confuso ocasionada pela nomenclatura utilizada no mtodo ARIMA. Duas so as possveis
ambigidades: 1) o termo Integrated no nome da tcnica na verdade refere-se ao processo de diferenciao da
srie de dados (e no integrao); 2) o termo moving averages tem neste mtodo um significado diferente
daquele usado nos mtodos de suavizao aqui ele refere-se srie de termos de erro em diferentes perodos de
tempo considerados (Yt = a + b1et-1 + b2et-2 + ... + bket-k + et).

39

Tcnicas Causais
As tcnicas de previso baseadas em anlises de sries temporais so especialmente
teis quando h pouco conhecimento sobre a teoria envolvida no processo investigado. Por
exemplo, se houver total desconhecimento dos fatores que influenciam a demanda de um
determinado produto, ou se estes fatores no puderem ser mensurados, ento o uso de uma
tcnica de anlise de sries temporais pode ser a mais adequada.
Porm o uso dessa abordagem resulta em previses no explicativas, e
conseqentemente o gestor no capaz de realizar simulaes sobre o comportamento da
varivel de interesse com mudanas em outros fatores, especialmente sobre aqueles aos quais
ele tem controle. Por exemplo, a demanda de um produto claramente influenciada pelo
preo praticado, e este preo um fator que est sob controle do gestor. Habilitar o gestor a
simular o comportamento da demanda com mudanas no preo fornecer a ele uma
ferramenta de apoio deciso, o que um passo alm de uma simples ferramenta de previso
de vendas.
As tcnicas de previso causais buscam descrever matematicamente as relaes de
causa e efeito entre a varivel que est sendo medida e seus fatores constituintes
(explicativos). Um modelo causal, como o descrito por uma equao de regresso, tem a
vantagem de permitir ao tomador de decises explorar como mudanas nas variveis
explicativas alteram a sada prevista.
Esta pesquisa est focada na gerao de uma ferramenta de apoio deciso no varejo,
e, portanto, as tcnicas de previso causais que habilitam a gerao de cenrios de vendas a
partir de mudanas no composto de marketing so aquelas de maior preocupao neste
trabalho.

Modelos de Regresso
Freqentemente, o relacionamento entre duas ou mais variveis de interesse pode ser
bem modelado atravs de uma equao matemtica. O processo de adaptao de uma equao
matemtica a um fenmeno envolvendo duas ou mais variveis, de forma que uma delas seja
dependente das demais, chamado de regresso. Ele gera modelos matemticos que buscam
representar a relao de causa e efeito entre as variveis consideradas.
Se existir uma associao entre duas variveis quaisquer, diz-se que h covarincia
positiva (ou negativa). Se no h associao entre as variveis, a covarincia nula.
40

Entretanto, este valor depende da unidade de medida das variveis. Para superar esta restrio,
foi definida a correlao, que uma medida pura, independente de escala. O coeficiente de
correlao definido como a covarincia dividida pelo produto dos desvios padres
individuais:
Equao IX: =

Cov( X , Y )
=
xy

E [( X x )(Y y )]

E ( X x ) (Y y )
2

onde: -1 1
Quanto maior o coeficiente de correlao (em mdulo), mais forte a associao entre
as variveis. Todas as tcnicas de regresso so baseadas na idia de associao entre as
variveis, demonstrada estatisticamente atravs da correlao.
A tcnica mais simples de regresso a Regresso Linear, que modela o
relacionamento entre uma varivel dependente Y e uma varivel independente X de forma
linear. Assim:
Equao X: Y = + X +

onde uma varivel aleatria com mdia zero.


Por exemplo, se demanda for a varivel dependente, e ela tiver uma correlao linear
com o preo, escreve-se:
Q = + P + ; onde Q a demanda e P o preo ofertado.
Na verdade, a regresso linear um caso especfico da tcnica geral de anlise de
Regresso Mltipla; que estabelece matematicamente a relao entre uma varivel dependente
e uma ou mais variveis independentes. Assim:
Equao XI: Y = + 1x1 + 2x2 + ... + kxk +

No caso de previso de vendas, por exemplo, pode-se relacionar a demanda do


produto (varivel dependente) com a renda dos consumidores, o tamanho da populao, o
preo do produto, o preo de seus substitutos e complementares, o nvel de promoo, o
crescimento macroeconmico, entre outras.
Para que as equaes possam ser efetivamente empregadas como modelos de previso,
necessria a determinao dos parmetros e k. A principal tcnica para determinao dos
parmetros de um modelo de regresso a tcnica de mnimos quadrados, que se baseia no
41

teorema de Gauss-Markov. NEWBOLD (1995) mostra que a tcnica de mnimos quadrados


no-enviesada e tima para modelos lineares, e muito bem aplicada para modelos de
regresso mltipla. A qualidade de aderncia do modelo aos dados calculada em termo do
erro verificado, que minimizado atravs da tcnica de mnimos quadrados.
Um termo relevante nas anlises de regresso o coeficiente de determinao (R2),
que denota a proporo de variabilidade da varivel dependente explicada pela relao com as
variveis independentes. Em outras palavras, traduz o poder explanatrio da regresso.
Quanto maior o R2 (assumindo sempre valores entre 0 e 1), diz-se que a curva est mais
ajustada aos dados, e portanto o modelo representa bem os dados utilizados para constru-lo.
Comparativamente, os modelos de regresso requerem um esforo maior para
construo do que as tcnicas de sries temporais (excetuando-se possivelmente os modelos
ARIMA). Alm disso, eles requerem uma srie de testes estatsticos para a seleo das
variveis de entrada mais relevantes, e exigem um conhecimento prvio da forma funcional
do relacionamento entre as variveis. Em condies normais, tal determinao a priori
difcil de ser obtida. Uma tcnica usual tentar diversas formais funcionais, acarretando em
uma famlia de equaes, optando-se pela equao com maior aderncia aos dados. Mesmo
neste caso, deve-se decidir as formas funcionais a serem consideradas.
Freqentemente, os analistas assumem hipteses simplificadoras de linearidade na
estrutura dos dados, para que os modelos sejam construdos mais facilmente. Modelos
lineares, entretanto, tm performance ruim na determinao de pontos de inflexo. Como os
problemas em marketing sempre lidam com dados como vendas e preos, as sries de dados
esto inseparavelmente ligadas a pontos de inflexo, tendncias e no-linearidades, e muitas
vezes podem ser at mesmo caticas (THALL, 1992).
MAKRIDAKIS et al. (1983) desenvolveram uma metodologia para a escolha das
variveis a serem utilizadas nos modelos de regresso mltipla. Ela envolve:
1. Determinao de uma lista longa de variveis. Uma lista com todas as variveis
potenciais que possam ter algum efeito sobre a varivel dependente analisada. Baseada
na opinio de especialistas, na disponibilidade dos dados e no esforo e custo
associado aquisio dos dados.
2. Reduo para uma lista curta. Vrios mtodos podem ser usados na eliminao de
algumas das possveis variveis da lista longa. Os mais simples (e menos
recomendados) so: a) plotar cada varivel contra Y, observando se h alguma relao
42

visvel; b) observar as correlaes entre todas as variveis independentes potenciais,


eliminando as de grande correlao para evitar multicolineariedade; e c) efetuar uma
regresso mltipla com todas as variveis, e eliminar aquelas com baixo t. Os mtodos
mais sofisticados (e recomendados pelos autores) so: a) regresso stepwise (mtodo
iterativo de retirada de variveis e testes de significncia); b) anlise de componentes
principais; e c) fazer uma anlise horizontal no tempo (lag analysis).
J (ACZEL, 1993) sugere as seguintes abordagens:

Testar todas as regresses possveis. Assim, tendo k variveis independentes, tem-se


2k possibilidades, j que cada varivel pode estar ou no includa no modelo. Aplica-se
ento um critrio de performance para seleo da melhor opo, que pode ser maior R2
ou menor MSE (Erro Quadrado Mdio).

Seleo para frente. Comea com um modelo sem variveis, testando uma de cada
vez e selecionando aquele com maior F estatstico (da anlise de componentes
principais). O processo recomea, adicionando mais uma varivel, e mantendo aquela
pr-selecionada.

Eliminao para trs. Funciona de maneira oposta seleo para frente: comea
com um modelo com todas as possveis k variveis e retirada aquela com menor F,
recomeando o processo.

Regresso stepwise. na verdade uma mistura da seleo para frente e eliminao


para trs, que reavalia o nvel de significncia de cada varivel a cada passada ao
contrrio dos demais que, uma vez tomada a deciso de incluir ou excluir uma
determinada varivel, ela no mais revista.
Apesar das dificuldades na seleo das variveis e construo dos modelos, HUSSEY

& HOOLEY (1995) mostraram que a anlise de regresso a tcnica estatstica mais utilizada
nas empresas europias, sendo utilizada por cerca de 18% dos respondentes. A popularidade
das tcnicas de regresso deve-se a pelo menos dois fatores, segundo GROSS & PETERSON
(1983):
1. So de fcil compreenso, mesmo para aqueles sem profundos conhecimentos
matemticos ou estatsticos.
2. Resultam em boa acurcia para a maior parte das aplicaes.

43

Certamente, os modelos de regresso so os que oferecem maior capacidade


explicativa para as variaes nos dados, j que possvel enxergar a relao matemtica entre
as variveis explicitamente. Mas, de acordo com ZHOU (1999), eles nem sempre oferecem as
melhores previses. A maior parte das limitaes das regresses est relacionada aos
pressupostos que foram assumidos para a formulao das equaes e determinao dos
parmetros ideais. Os pressupostos assumidos ao se desenvolver um modelo de regresso
qualquer, com n pares de observaes disponveis, so (NEWBOLD, 1995):
1. Os valores de xi so nmeros fixos (determinados, por exemplo, por um experimento)
ou realizaes de variveis aleatrias Xi, que so independentes do erro .
2. Os termos de erro so variveis aleatrias com mdia zero.
3. As variveis tm a mesma varincia.
4. As variveis no esto correlacionadas uma com a outra.
5. No possvel determinar um grupo de nmeros c0... ck de forma que:
c + c1x1 + c2x2 + ... + ckxk = 0
(ou seja, as variveis independentes no esto correlacionadas).
As principais limitaes da anlise de regresso so decorrentes dos pressupostos
acima, e podem ser listadas como sendo:
1. Relacionamento constante. As tcnicas de regresso assumem um relacionamento
constante entre as variveis, durante o perodo histrico compreendido pelos dados
utilizados na criao do modelo. Ou seja, todos as observaes possuem o mesmo
peso durante a regresso. Isto pode ser um problema srio ao se utilizar grande
horizonte de dados histricos, ou ao analisar mercados altamente dinmicos.
2. Autocorrelao. Refere-se condio onde o valor da varivel prevista est
relacionado ao seu valor no perodo anterior. A anlise de regresso assume valores
aleatrios, e no ordenados (correlacionados) das variveis previstas. Este problema
gera previses enviesadas sub ou sobre estimadas constantemente.
3. Multicolinearidade. Presente quando uma ou mais, e at mesmo todas as variveis
independentes esto relacionadas entre si. A existncia desta condio teoricamente
invalida as medidas de correlao e o procedimento de stepwise. Se existir
multicolineariedade perfeita numa regresso, a soluo tima baseada no mtodo dos
Mnimos Quadrados no pode ser encontrada. No caso de multicolineariedades quase
44

perfeitas, esta soluo ser afetada por problemas de arredondamento nos


computadores.
4. Causalidade. A regresso assume uma relao de causalidade entre a varivel
dependente e as variveis independentes. Porm esta relao no pode ser tida como
certa. Pode-se afirmar que duas variveis esto estatisticamente correlacionadas (a
mudana em uma acompanhada de uma mudana proporcional na segunda), porm
nada se pode afirmar em respeito relao de causalidade entre as duas.
5. Linearidade. Refere-se linearidade dos coeficientes, e relata diretamente ao
desenvolvimento dos testes F e T. Em outras palavras, se for violada os testes
estatsticos no so mais vlidos.
6. Independncia dos residuais. Tambm se reflete nos testes F e T, tornando os
resultados destes testes no vlidos. O teste Durbin-Watson uma forma de examinar
se este pressuposto est sendo respeitado.
7. Homocedasticidade. Refere-se varincia dos erros, que deve ser constante. Mais uma
vez, o impacto est na validade dos testes F e T.
8. Normalidade dos residuais. Se h forte violao da normalidade nos erros, os testes
estatsticos no so recomendados.
9. Intervalo de confiana. H um intervalo de confiana para o qual o modelo aplicvel,
que pode ser determinado matematicamente. O desrespeito ao intervalo de confiana
gera previses errneas.

Modelos Economtricos
Assim como a regresso linear simples um caso especial da regresso mltipla, esta
ltima pode ser vista como um caso especial da modelagem economtrica. Os modelos
economtricos envolvem vrias equaes de regresso, com mais de uma varivel
dependente. Vale ressaltar que alguns autores usam o termo economtrico para qualquer
modelo de regresso, seja simples, mltiplo ou de vrias equaes. Na verdade, as tcnicas
economtricas surgiram efetivamente para prever ndices econmicos, como o prprio nome
diz, e foram posteriormente adaptadas para previses microeconmicas.
A anlise de regresso assume que cada uma das variveis independentes seja
determinada por fatores externos, exgenos ao sistema. Este pressuposto nem sempre
45

verdadeiro na anlise macroeconmica, onde as variveis exibem comportamentos


interdependentes. A maior vantagem dos modelos economtricos sua habilidade em lidar
com interdependncias, ou seja, em levar em considerao variveis com efeito mtuo, onde
no possvel determinar uma relao de causa e efeito clara. Sua principal desvantagem a
inexistncia de um conjunto de regras que possam ser aplicadas em situaes distintas, o que
torna o desenvolvimento dos modelos altamente dependente do problema especfico, e requer
sempre a presena de um analista experiente.
Por exemplo, se um governo quiser saber qual o impacto de uma reduo de impostos
em uma economia em recesso, uma modelagem economtrica seria bem apropriada. Tal
reduo afetaria a renda das pessoas e empresas, e influenciaria toda a economia, incluindo
nvel de preos, desemprego, capital circulante aplicado, e assim por diante. Todos estes
fatores so inter-relacionados, e uma equao de regresso mltipla no seria capaz de
modelar esse fenmeno eficazmente tal problema seria mais bem expresso com o uso de
um conjunto de equaes economtricas.

1.3.

Previso de Vendas no Varejo


PARENTE (2000, pg. 22) define varejo da seguinte forma:
Varejo consiste em todas as atividades que englobam o processo de venda de

produtos e servios para atender a uma necessidade pessoal do consumidor final. O varejista
desempenha o elo de ligao entre o consumidor e o produtor ou atacadista.
O setor varejista vem atravessando intensas transformaes ao longo das ltimas
dcadas, assumindo importncia relativa crescente no Brasil e no Mundo (PARENTE, 2000).
Uma das transformaes mais visveis o aumento do poder do varejo observado no Mundo
Ocidental. Viu-se surgirem grandes conglomerados varejistas, muitas vezes com atuao
multinacional. Prova disso o nmero crescente de varejistas que figuram na relao de
maiores empresas do Brasil. Tal fenmeno mudou a relao de poder fornecedor-varejista,
fazendo com que o varejista ganhe poder de barganha. Grandes cadeias de varejo tm hoje
fora suficiente para impor condies de fornecimento (quantidades e freqncias), forma de
abastecimento e pagamento, e at mesmo procedimentos de gesto logstica.
O surgimento e fortalecimento das marcas prprias produtos comercializados com a
marca do varejista, exclusivamente em suas lojas outro exemplo da mudana no
relacionamento varejo-indstria. Alm disso, crescente a polarizao entre grandes e
46

pequenos varejistas. Os grandes varejistas assumiram uma posio de varejo de massa, que
operam em grande parte do territrio nacional, desenvolvem sofisticados sistemas logsticos e
de informaes de marketing, e exercem forte poder de barganha junto aos fornecedores. J os
pequenos varejistas, que no detm o poder de barganha dos grandes, no so capazes de
oferecer preos to competitivos, e para sobreviver atuam em mercados restritos ou optam por
uma estratgia de especializao, aprofundando-se no atendimento de necessidades
especficas em certos segmentos de mercado.
O aumento da concorrncia no varejo acompanhou aquele verificado em outros
setores, porm com uma caracterstica peculiar: ele agora se d no somente entre empresas
que operam no mesmo formato, mas tambm entre diferentes tipos de varejistas. Ou seja,
diferentes tipos de varejo vendem as mesmas categorias de produto, aumentando as opes de
compra do consumidor final. As padarias, por exemplo, hoje tm como concorrentes no s
outras padarias, mas tambm hipermercados, supermercados e lojas de convenincia.
Finalmente, o surgimento e ampliao das vendas realizadas sem o uso de lojas
mudaram a realidade do varejo no mundo todo. Vendas atravs da televiso, por catlogo,
atravs de mquinas automticas e principalmente pela Internet registram contnua expanso,
e oferecem desafios crescentes de planejamento e execuo aos gestores do varejo.

1.3.1. Composto de Marketing


Em qualquer mercado, a populao desenvolve padres de consumo que se refletem
em gastos realizados nos diversos setores varejistas. Estes gastos representam a demanda de
mercado, que dividida entre todos os varejistas que atuam no setor. Conseqentemente, cada
varejista detentor de uma parcela da demanda total do mercado; esta parcela comumente
referida como sendo sua fatia de mercado.
PARENTE (2000, pg. 61) define composto de marketing como sendo o conjunto de
variveis que compem o esforo de marketing do varejista, e engloba todos os fatores
controlveis que o varejista articula (...) para conquistar as preferncias dos consumidores.
Ainda de acordo com o autor, a fatia de mercado de uma loja depende principalmente das
caractersticas de seu composto de marketing, frente ao composto de marketing de seus
concorrentes.
Segundo MASON et al. (1993), o composto de marketing do varejo pode ser
classificado a partir de seis macro-fatores (chamados seis Ps):
47

1. Conjunto (mix) de Produtos linhas de produtos comercializados, caracterizados por


sua variedade, qualidade e quantidade.
2. Preos preos de venda e crditos oferecidos.
3. Promoo nvel de propaganda, ofertas, sinalizao da loja, programas de
fidelizao entre outros.
4. Apresentao Layout da loja, disposio dos produtos, espao fsico, limpeza da
loja, conforto e decorao.
5. Pessoal qualidade do atendimento, rapidez, cortesia, servios.
6. Ponto localizao da loja, facilidade de acesso, visibilidade, estacionamento,
complementaridade com outras lojas.
Ainda segundo o autor, o comportamento de compra do consumidor perante uma loja
influenciado basicamente por trs conjuntos de variveis: variveis ambientais (economia,
clima, demografia, poca do ano, tendncias de mercado), o composto de marketing da loja e
o composto de marketing da concorrncia. Influenciado por estes trs grupos de foras, o
consumidor decide o quanto gastar no setor varejista e em cada loja especificamente.
A deciso final do consumidor tomada com base na relao custo-benefcio
percebida para cada loja, definida por KOTLER (1999) como valor:
Os clientes so maximizadores de valor, e agem dentro de seu repertrio de
alternativas, limitados pela sua mobilidade, conhecimento, custos e renda. Eles formam uma
expectativa de valor que determina seu comportamento. O grau em que essas expectativas so
atendidas define tanto sua satisfao como sua possibilidade de recompra.
Variveis
ambientais
Composto
de
marketing

Composto de
marketing da
concorrncia

Valor

Deciso
de compra

Figura 8 Deciso de compra baseada nos conceitos de valor e compostos de marketing

48

A Figura 8 ilustra as foras e variveis que influenciam a deciso de compra do


consumidor, enquanto maximizador de valor.
Alguns modelos de comportamento de compra foram desenvolvidos para tentar
explicar de forma simplificada o processo de aquisio de uma mercadoria e os fatores que o
influenciam. O modelo mais citado tem sido aquele desenvolvido por ENGEL et al. (1993),
que identifica cinco estgios no processo de compra:
1. Reconhecimento do problema. O consumidor identifica uma necessidade no atendida,
e reconhece que poder atend-la atravs da compra de um produto ou servio.
2. Busca de informao. Pesquisa de alternativas de compra, pesquisas de preo e busca
de informaes sobre os produtos e servios ofertados. Este processo varia conforme o
consumidor e o tipo de produto adquirido (convenincia, compra comparada ou
especialidade).
3. Anlise das alternativas. Os consumidores comparam e avaliam as alternativas para
tomar sua deciso de compra. Os atributos utilizados para a tomada de deciso
tambm variam conforme o consumidor e o tipo de produto, mas podem ser
relacionados ao composto de marketing (seis Ps).
4. Deciso de compra. Finalmente, aps analisar as alternativas consideradas para
compra, o consumidor decide o que e onde comprar. Alm das variveis do composto
de marketing e ambientais, outros fatores podem influenciar o processo de compra,
como a fidelidade a determinadas marcas, tempo e recursos disponveis para compra, e
os pesos dados aos atributos dos produtos e das lojas consideradas.
5. Avaliao ps-compra. Aps a compra, o consumidor reavalia o acerto de sua deciso,
e desenvolve sentimentos de satisfao ou insatisfao.
Dentro da classificao proposta por MASON et al. (1993), este trabalho est focado
na explorao do impacto na demanda proporcionado por alteraes nos trs primeiros
componentes do composto de marketing: produto, preo e promoo. Esta escolha de
restringir as anlises a variveis pertencentes apenas a estes componentes deveu-se
basicamente dificuldade observada ao se tentar quantificar e comparar as variveis dos
demais componentes: apresentao, pessoal e ponto. Tal tentativa de quantificao
necessria para fins de modelagem para minerao de dados fugiria do escopo deste
trabalho.

49

A seguir so tecidos alguns comentrios a respeito dos trs primeiros componentes de


marketing citados acima, j que so os componentes mais facilmente computados de forma
quantitativa, e que podem, portanto, ser incorporados nos modelos de previso de vendas
baseados em tcnicas quantitativas.

1.3.2. Conjunto de Produtos Oferecidos


A composio do conjunto de produtos oferecido o mix de produtos uma das
tarefas mais importantes de uma empresa de varejo, j que determina o ramo ou setor de
atividade da empresa, e quais necessidades de seus consumidores estar atendendo. Na
composio do conjunto de produtos, o varejista enfrenta dois objetivos que podem ser
conflitantes. Por um lado, procura atender ao mximo as diferentes necessidades de seus
(vrios) segmentos de consumidores, ampliando assim seu leque de produtos. Por outro lado,
dispor de uma variedade muito ampla de linhas de produtos acarreta alguns problemas como:
maior investimento em estoques, incorporao de produtos com baixo giro de estoque, maior
custo operacional com atividades como armazenagem, controle de estoque e compras, enfim,
menor retorno sobre o investimento.
O nmero de itens (produtos distintos) comercializados por lojas de diferentes ramos
pode ser muito variado. Normalmente varia entre aproximadamente mil lojas de
convenincia, por exemplo a 50 mil itens ou mais grandes hipermercados (PARENTE,
2000). Para entender e gerenciar melhor tal universo de produtos, os profissionais do varejo
geralmente utilizam a subdiviso dos produtos em classificaes hierrquicas (LEWISON,
1997). No existe, entretanto, consenso sobre o nmero de nveis a serem utilizados e nem
mesmo sobre a estrutura de classificao de produtos. Cada empresa busca classificar seus
produtos conforme mais lhe convm, dependendo do foco de mercado, produtos oferecidos e
grau de especializao. Vrios autores sugerem nveis hierrquicos semelhantes, como:
departamento, seo, categoria, subcategoria, segmento, subsegmento, linhas de produtos
entre outros.
A subdiviso dos produtos em nveis hierrquicos reflete, em ltima anlise, as
diferentes necessidades dos consumidores, ou seja, seus diversos interesses. Por este motivo,
os profissionais do setor costumam referir-se a seus principais grupos de produtos pela
expresso centro de interesse. Pode-se definir um centro de interesse como sendo um grupo
de produtos que mantm uma sinergia entre si, do ponto de vista do consumidor. Em outras
50

palavras, so produtos que orbitam ao redor de algum interesse especfico do consumidor. Por
definio, todo produto est necessariamente dentro de um ou mais centros de interesse, e,
existindo um mnimo de dois produtos em um centro de interesse, eles so necessariamente
relacionados de alguma forma.
A problemtica existente na determinao do conjunto de produtos a ser oferecido
reflete as duas dimenses fundamentais que as norteiam: 1) a amplitude ou extenso, que se
refere quantidade de centros de interesse distintos atendidos pela loja, e 2) a profundidade,
que se refere ao nmero de produtos diferentes existentes dentro de cada centro de interesse:
quanto maior a profundidade, maior a sortidade de produtos disponveis. Tomando por
exemplo o caso do centro de interesse que inclui queijos e derivados, uma loja especializada
em queijos possui conjunto de produtos pouco extenso (pode atender somente a este centro de
interesse), porm aprofundado, j que dispe de tipos variados de queijos. J um
supermercado tem a caracterstica de ser generalista, ou seja, com conjunto de produtos
extenso, mas pouco profundo sua seo de queijos ser provavelmente menor que a loja
citada, porm ele atende a muitos outros centros de interesse. Finalmente, um hipermercado
pode ter conjunto de produtos ao mesmo tempo extenso e profundo, e no exemplo citado
oferecer grande variedade de queijos, alm de muitos outros grupos de produtos.
A figura a seguir exemplifica alguns tipos de varejo de acordo com a amplitude e

Amplitude

profundidade do conjunto de produtos usualmente ofertado.

Hipermercado

Loja de departamento

Supermercado

Mercado
Padaria
Loja de convenincia
Aougue

Loja especializada

Profundidade

Figura 9 Classificao dos tipos de varejo segundo sua amplitude e profundidade (PARENTE, 2000)

51

A literatura sobre varejo no Brasil costuma referir-se ao conceito de centro de


interesse como sendo um dos nveis hierrquicos da classificao de produtos: a categoria
(PARENTE, 2000; PARENTE, 1997). PARENTE (1997, pg 230) define gerenciamento de
categorias como o processo de administrar categorias como unidades estratgicas de
negcio, visando obter no s uma melhor satisfao do consumidor, mas tambm melhores
indicadores de desempenho e lucratividade. Para um gerenciamento por categorias eficiente,
uma hierarquia adequada deve ser criada para que cada produto seja devidamente classificado.
Em geral, existe uma relao direta entre a estrutura de classificao dos produtos e
sua apresentao na loja: o layout da loja geralmente reflete perfeitamente a classificao dos
produtos, agrupando-os sempre por categorias com o objetivo de estimular a compra de
produtos complementares e facilitar a escolha dos substitutos (PARENTE, 2000).
As categorias exercem diferentes papis para os varejistas. Fatores como localizao,
segmentos de mercado atingidos, perfis dos consumidores, concorrncia, poltica de preos,
amplitude e profundidade do conjunto de produtos, entre outros, determinam a importncia
relativa de cada categoria para uma determinada loja.
A importncia de cada categoria deve ser definida de acordo com sua capacidade de
atrair clientes para a loja e de definir a imagem do varejista (PARENTE, 1997). Uma
classificao usual dos papis de cada categoria segundo esta definio de importncia :
1. Categorias de destino. So os centros de interesse que definem o foco da loja,
contendo os grupos de produtos de maior atrao de clientes para a loja.
2. Categorias de rotina. Apesar de no serem o foco principal da loja, possuem grande
poder de atrao de consumidores, que desenvolvem a rotina de comprar tais produtos
na loja.
3. Categorias ocasionais. Possuem baixo poder de atrao de clientes, que compram os
produtos destas categorias apenas ocasionalmente.
4. Categorias de convenincia. So as categorias de menor poder de atrao de clientes.
Normalmente contm produtos que os consumidores sequer esperavam encontrar na
loja, e que podem eventualmente adquiri-los apenas por convenincia.

52

Naturalmente, o gestor deve tratar os produtos de categorias diferentes de forma


distinta, dado que sua importncia relativa para a loja varia. PARENTE (2000) sugere que a
amplitude e a profundidade a serem adotadas para cada categoria dentro de uma loja
especfica varie conforme sua classificao: categorias de destino, por terem uma atratividade
de clientes para a loja maior, devem ter maior amplitude e profundidade, e assim

Amplitude

sucessivamente, conforme ilustra a figura a seguir.

Destino
Rotina

Ocasional

Maior atratividade
Convenincia

Menor atratividade

Profundidade

Figura 10 Amplitude, profundidade e atratividade das diferentes categorias (PARENTE, 2000)

1.3.3. Gesto de Preos no Varejo


De todas as variveis do composto de marketing, a deciso de preo aquela que mais
rapidamente afeta a competitividade, o volume de vendas, as margens e a lucratividade das
empresas varejistas (PARENTE, 2000). As polticas de preo podem ser alteradas em
curtssimo prazo, e so imediatamente percebidas pelos consumidores; isto , os
consumidores demonstram ter bastante sensibilidade s mudanas de preo.
Conforme PARENTE (2000), o varejista normalmente segue uma poltica de preo
mais ou menos uniforme para todos os produtos da loja. Esta poltica pode ser de 1) preos
acima do mercado; 2) preos mdios de mercado; e 3) preos abaixo do mercado.
Na poltica de preos acima do mercado, o varejista declara explicitamente sua
inteno de no concorrer com base em preo, procurando maximizar os lucros no atravs de

53

alto volume de vendas, mas sim por meio da elevada margem bruta por produto que pratica.
Esta poltica normalmente adotada quando:

A concorrncia pouco intensa.

Os consumidores so menos sensveis a preo, dando maior valor aos benefcios e

servios prestados;

O varejista consegue diferenciar-se no mercado atravs de um ou mais

componentes de marketing (ponto, servios, produtos, etc.) superior.


A poltica de preos mdios de mercado a adotada pela maioria dos varejistas,
fazendo com que o preo no constitua vantagem nem desvantagem competitiva.
J com a poltica de preos abaixo do mercado os varejistas pretendem ter no preo
sua principal arma competitiva. Em geral, esta poltica est associada a uma forte presso para
baixar os custos, que inclui a oferta de menos benefcios aos clientes. Para ter sucesso
adotando-se esta poltica de preos, o varejista precisa ter alto volume de vendas e giro rpido
dos estoques.
Um dos conceitos mais importantes com relao definio dos preos de venda dos
produtos o de elasticidade a preos. A elasticidade a preos, ou simplesmente elasticidade,
reflete a sensibilidade dos clientes s alteraes de preo. Ou seja, a relao entre a variao
da quantidade demandada e a variao do preo:
Elasticidade =

Q
(Equao XII)
P

Situaes de alta elasticidade normalmente ocorrem quando h forte substitutibilidade,


ou seja, quando existem no mercado muitos produtos substitutos para atender mesma
necessidade. Assim por exemplo se existirem muitas marcas de cerveja, o aumento de preo
de apenas uma delas deve ocasionar queda aguda em sua demanda. O mesmo ocorre no caso
de alta substitutibilidade de lojas: se muitos estabelecimentos concorrem nas mesmas
categorias de produtos, a variao de preo de apenas um deles deve ocasionar forte variao
em sua demanda. Produtos que no so vistos como sendo de primeira necessidade
(considerados suprfluos) tambm tm forte elasticidade.
A situao oposta de baixa elasticidade ou inelasticidade ocorre basicamente em
duas situaes: quando h urgncia em adquirir o produto (bens de primeira necessidade, por
exemplo), ou quando h baixo grau de substitutibilidade. Em situaes de monoplio, ou
54

quando todos as alternativas de compra sofrem reajustes simultneos (como no caso de


aumentos no preo de combustveis, por exemplo), verifica-se pouca alterao na demanda.

Elasticidades cruzadas
A elasticidade cruzada reflete como a variao do preo de um produto afeta o
comportamento de outros produtos (PARENTE, 2000). portanto a relao entre a variao
da quantidade demandada do produto A e a variao do preo do produto B (correlao preodemanda):
Elasticidade cruzada =

Qa
(Equao XIII)
Pb

Este conceito reflete como variaes no preo de um produto afetam a demanda de


outros produtos. Dependendo do resultado da elasticidade cruzada, pode-se identificar os
seguintes tipos de relao entre dois produtos ou categorias:
1. Produtos complementares. Apresentam elasticidade cruzada negativa, isto , quando
um aumento no preo do produto A afeta negativamente as vendas do produto B, e
vice-versa. Por exemplo, aumentos no preo de bebidas refrigerantes e/ou cerveja
acarretam uma diminuio na demanda de aperitivos.
2. Produtos substitutos. Apresentam elasticidade cruzada positiva, ou seja, uma variao
no preo do produto A acarreta variao no mesmo sentido na demanda do produto B.
Utilizando exemplo semelhante: aumento no preo de Coca-cola causa aumento na
demanda por Guaran.
Os conceitos de elasticidade cruzada, produtos substitutos e produtos complementares
esto intimamente ligados com aquele de centros de interesse, ou categorias de produtos. De
fato, um centro de interesse , de acordo com a definio adotada neste texto (pg. 50), um
grupo de produtos que esto de alguma forma relacionados; este relacionamento nada mais
do que uma elasticidade cruzada. Portanto, havendo relacionamento na forma de elasticidade
cruzada entre um grupo de produtos, conclui-se que tais produtos formam um centro de
interesse, e que dois produtos quaisquer desse grupo devem ser, necessariamente,
complementares ou substitutos. Em outras palavras, deve existir sempre uma correlao entre
o preo e a demanda de dois produtos pertencentes mesma categoria; se esta correlao for

55

negativa, os produtos so complementares; sendo a correlao positiva, os produtos so


substitutos.
Na Figura 11, mostrado um exemplo de relacionamento entre produtos substitutos e
complementares de dois centros de interesse. Os produtos substitutos so considerados pelo
consumidor como sendo altamente semelhantes, j que atendem a uma mesma necessidade.
Por isso, podem ser vistos como constituintes de grupos uniformes de produtos (S1, S2, S3 e
S4, na figura). Cada centro de interesse possui um ou mais grupos de substitutos; produtos
que pertencem a um mesmo centro de interesse mas no fazem parte do mesmo grupo de
substitutos so, necessariamente, complementares (P1 e P3 na figura, por exemplo).

Centro de Interesse

Centro de Interesse

S1
S3
P1

P2

P3

S4

S2
P6
P4

P7

P8

P5

P12
P9 P10 P11

Figura 11 Relacionamentos entre produtos substitutos e complementares de um ou mais centros de


interesse

Como ilustrado na figura, alguns produtos podem fazer parte de mais de um centro de
interesse simultaneamente, j que atendem a necessidades distintas para o consumidor (P6, P7
e P8). Entretanto, tais produtos continuam a formar um grupo coeso de substitutos (S3). Uma
cadeira de pano, por exemplo, pode servir como cadeira de praia ou cadeira de pesca, dois
interesses bem distintos. Para cada um desses centros de interesse, os produtos
complementares so diferentes: por exemplo guarda-sol no primeiro e vara de pescar no
segundo. Todas as cadeiras de pano vistas como equivalentes para o consumidor, contudo,
formam um mesmo grupo de produtos substitutos.

56

1.3.4. Propaganda e Promoo


O composto promocional o elemento que o varejista utiliza para atrair os clientes
para a loja e motiv-los para a compra (PARENTE, 2000). O composto promocional deve
estar integrado s demais decises acerca do composto de marketing, tendo como objetivos
bsicos informar (fornecendo dados sobre a loja, produtos e servios oferecidos), persuadir
(influenciando o comportamento de compra do consumidor) e relembrar a audincia-alvo,
firmando marcas e qualidades (LEWISON, 1997).
A literatura existente sobre este tema vasta, sendo usual encontrar diversas
subdivises para o composto promocional. Uma das divises mais aceita aquela proposta
por KOTLER (1999), que divide as aes possveis em propaganda, promoo de vendas e
relaes pblicas.
KOTLER (1999) define propaganda como qualquer forma paga de apresentao e
promoo de idias, bens ou servios por um patrocinador identificado. Segundo o autor, a
propaganda pode ser uma forma efetiva de transmitir mensagens, e para tanto necessrio que
se siga uma metodologia coerente na aplicao dos recursos em propaganda, que deve passar
por:
1) Definio dos objetivos da propaganda.
2) Deciso sobre o oramento a ser empregado.
3) Definio da mensagem e do(s) meio(s) a ser(em) utilizado(s).
4) Medio do impacto da propaganda.
J a promoo de vendas pode ser definida como uma ferramenta de comunicao
que oferece um valor extra ao consumidor, que pode ou no envolver o uso de mdia
(PARENTE, 2000). Em outras palavras, enquanto a propaganda justifica porque comprar, a
promoo de vendas incentiva a compra. De acordo com KOTLER (1999), a promoo de
vendas pode consistir em: promoo ao consumidor (amostras, descontos, prmios, garantias,
entre outros); promoo mercadolgica (distribuio de bens, combinao com propaganda,
entre outros); e promoo de negcios e fora de vendas (feiras e eventos, premiaes a
representantes de vendas, entre outros). Dentre os trs componentes da propaganda e
promoo, a promoo de vendas vem crescendo em participao relativa dos recursos
empregados representando cerca de 65-75% do oramento mdio nas empresas americanas
em detrimento da propaganda, cuja participao no oramento do composto promocional
vem caindo constantemente (KOTLER, 1999).
57

O terceiro item do composto promocional representado pelas relaes pblicas, ou


simplesmente publicidade, e envolve os programas corporativos designados para promover ou
proteger a imagem de uma companhia ou de seus produtos. Muitas empresas, incluindo as de
varejo, operam ou subcontratam departamentos de relaes pblicas, a fim de monitorar as
atitudes pblicas de uma organizao e distribuir informaes imprensa, seus clientes e
comunidade em geral.

2. Metodologia de Minerao de Dados Aplicada Previso de


Vendas
Minerao de Dados, ou Data Mining em ingls, consiste na gerao de conhecimento
a partir de dados acumulados. Ela permite estruturar o conhecimento que est escondido nos
bancos de dados corporativos, utilizando para tanto de tecnologias de banco de dados,
reconhecimento de padres, aprendizado automtico, estatstica entre outras (HAND, 1998).
Entre as tcnicas de minerao de dados hoje empregadas, citam-se, entre outras: redes
neurais, rvores de deciso, regras de associao, mtodos de induo de regras, tcnicas de
segmentao, mtodos para anlise de cesta de compras, e deduo baseada em memria.
O termo data mining definido em um escopo estreito por alguns autores, e mais
amplo por outros. Na sua definio estreita, minerao de dados a descoberta automatizada
de padres interessantes escondidos nas bases de dados, e agrega mtodos de aprendizado
automtico, muitos com origem na inteligncia artificial (PEACOCK, 1998a). Uma definio
mais ampla abrange tambm a confirmao dos relacionamentos descobertos; ou seja, os
mtodos de teste de hipteses incluindo anlises estatsticas tradicionais tambm so
considerados minerao de dados. Esta definio tambm conhecida como o processo de
Knowledge Discovery in Databases (KDD descoberta de conhecimento em bases de dados).
Finalmente, no escopo mais abrangente, a minerao de dados vista como um processo e
no um mtodo ou conjunto de tcnicas de descoberta de informaes valiosas e no-bvias
a partir de grandes quantidades de dados (BERRY & LINOFF, 1997). Incorpora, assim,
atividades de aquisio de dados, limpeza, formatao e pr-processamento dos mesmos,
anlise e validao dos dados, construo e implementao de ferramentas de apoio deciso,
e acompanhamento (recalibrao e manuteno dos modelos) dos sistemas de apoio deciso.
As razes da minerao de dados esto na metodologia criada por J. W. Tukey nos
anos 70 e 80, referenciada como Anlise Exploratria de Dados (TUKEY et al., 1983). As
58

foras que pressionaram o avano desta tecnologia podem ser divididas em (PEACOCK,
1998a):

Supply-Side Factors. So os efeitos do avano tecnolgico. Inclui avanos no


armazenamento de dados, na tecnologia de processamento, reduo de custos de
comunicao eletrnica, nas tcnicas de anlise (como redes neurais, algoritmos
genticos, rvores de deciso, induo de regras), na arquitetura cliente-servidor dos
computadores e no advento dos repositrios de dados.

Demand-Side Factors. Aumento nas necessidades de anlises rpidas em ambientes


cada vez mais competitivos. Colabora tambm a mudana na hierarquia
organizacional, onde geralmente a figura do analista j no existe, e o gerente de
marketing o responsvel pelas anlises. Por fim, a ateno dada pela mdia e livros
sobre minerao de dados e relacionamento com o cliente pressionam a corrida
tecnolgica.
BERRY & LINOFF (1997) confirmam a viso acima, afirmando que o processo de

minerao de dados s pode amadurecer durante os anos 90 devido aos seguintes fatores:

Os dados esto sendo produzidos. Minerao de dados s faz sentido quando existir
grandes volumes de dados.

Os dados esto sendo guardados, e freqentemente em bases separadas dos dados


operacionais, permitindo anlises para suporte deciso.

O poder computacional necessrio acessvel.

A presso competitiva forte.

Pacotes comerciais dedicados a anlises de dados esto disponveis.


As principais aplicaes de minerao de dados esto nas reas de: aquisio de novos

clientes, manuteno dos clientes atuais, abandono de clientes no rentveis, priorizao de


clientes (para mala direta ou outros fins), anlise de cesto de compras, previso de vendas,
segmentao de mercado, risco de crdito, previso de insolvncia, deteco de fraude, entre
outras.
SAS (1996) frisa que essas aplicaes raramente podem ser automatizadas, apesar da
crescente disponibilidade de pacotes comerciais que implementem o processo de minerao
de dados.

59

Pequenas amostras
Amostras bem comportadas
Dados estticos
Dados quantitativos

Produz resultados
contundentes a partir de
anlises aprofundadas

Anlise estatstica tradicional

Volume brutal de dados


Dados no comportados
Dados espalhados, inconsistentes e
com erros
Dados dinmicos
Amostras no aleatrias e oportunsticas

Conhecimento
acion
acionvel

Minerao de Dados

Figura 12 Estatstica convencional X Minerao de Dados

Com relao s tcnicas estatsticas, a minerao de dados distancia-se delas na


medida em que (HAND, 1998):

A quantidade de dados muito maior.

Os dados esto contaminados com freqncia, isto , no esto limpos livres de


erros, de lacunas, inconsistncias etc.

Os dados costumam estar fora da distribuio esperada (normal).

H observaes no-estacionrias, enviesadas e dependentes. Ou seja, a amostragem


no aleatria.

Envolve a descoberta de padres interessantes, muitas vezes de maneira indireta e


com pouca interferncia humana. Isto significa que o processo pode ser aplicado
mesmo sem ter um modelo imposto a priori para o fenmeno estudado.

2.1.

Pode envolver dados no numricos, qualitativos.

Bases de Dados para Minerao de Dados


Para dar incio ao processo de minerao de dados, faz-se necessria a constituio de

um banco de dados a ser explorado, o que levanta algumas questes como: Quais as variveis
relevantes? Qual o volume de dados necessrio? Onde esto os dados? Qual o custo para obtlos?
De maneira geral, os dados podem ser coletados interna ou externamente
organizao. Dados externos so de difcil obteno e de qualidade suspeita, uma vez que no
60

podem ser auditados pela prpria organizao. Portanto, uma origem importante dos dados
seno a nica a coleta feita pelos sistemas operacionais da empresa aqueles que
controlam sua operao diria, como sistemas de ponto de venda, sistemas transacionais, e
geradores de relatrios operacionais. Tais sistemas podem acumular dados diversos como
informaes dos clientes, dos produtos, de vendas, e mant-los em formato altamente
atomizado, guardando todos os detalhes sobre as operaes realizadas.
Formam-se assim grandes bases de dados histricas, que geralmente tm de ser
trabalhadas a fim de que possam ser exploradas convenientemente. Normalmente, os dados
existentes no foram coletados com o propsito especfico de realizar anlises exploratrias e
de minerao, mas apenas para suportar os processos de negcio operacionais. Isto pode levar
a dados de baixa qualidade, valores ausentes e dados enviesados, que reduzem a
aplicabilidade dos resultados encontrados. Um dos objetivos da aplicao de tcnicas
avanadas de minerao de dados justamente desenvolver um modelo vlido mesmo se
utilizando dados sujos (HAND, 1998).
Uma questo comum diz respeito quantidade de dados necessria para a realizao
de minerao de dados. Uma resposta freqente para esta questo a de que as atividades de
minerao de dados requerem enormes quantidades de dados. FEELDERS et al. (2000)
lembram, entretanto, que:

Uma vez que o problema foi adequadamente especificado, apenas uma pequena parte
de uma base de dados altamente heterognea necessria.

Mesmo se a quantidade de dados resultante for grande, normalmente apenas uma


amostra suficiente para a construo de modelos suficientemente precisos.
Quanto seleo de dados, a abordagem da minerao de dados difere

consideravelmente daquela usual na estatstica. Ao contrrio de tcnicas de seleo de


variveis, como a setpwise, a experincia at o momento sugere que esta deve ser feita da
maneira mais ampla possvel, j que o ponto forte das tcnicas de minerao de dados
justamente sua capacidade de fazer com que os dados falem por si mesmo, sem restringir a
anlise a hipteses previamente formuladas (GARGANO & RAGGAD, 1999). As tcnicas
devem, idealmente, ser capazes de identificar as variveis relevantes e desprezar as
irrelevantes.

61

2.1.1. Data Warehouses


normal que os sistemas operacionais de uma empresa sejam fruto de vrios esforos
no seu processo de informatizao. Sendo assim, freqente a existncia de sistemas
operando em ambientes (arquiteturas de hardware, verses de software etc.) distintos. Para
que a minerao de dados possa ocorrer, estes dados devem ser consolidados em um mesmo
ambiente, o Data Warehouse (DW).

Transaes operacionais

Bases de Dados
operacionais

Data Warehouse
Anlises de dados

Figura 13 Consolidao de dados em um Data Warehouse

A Figura 13 ilustra o processo de consolidao de dados em um Data Warehouse para


fins analticos. Pode-se descrever um Data Warehouse como sendo um banco de dados
especial, contendo as seguintes caractersticas bsicas (GRAY, 1997; IMMON, 1997):
1. Armazena os dados separadamente daqueles utilizados em aplicaes operacionais.
2. Seu foco est no apoio tomada de deciso.
3. Cobre um horizonte de tempo muito maior que sistemas transacionais, guardando
sries temporais dos dados.
4. Inclui dados provindos de vrias bases de dados operacionais, unificando-os e
consolidando-os em um nico local. Os dados so processados e validados antes de
serem inseridos no Data Warehouse, para que, uma vez no DW, passam a representar
uma fonte segura, oficial dos dados. Isso implica tambm que as definies dos
atributos existentes no DW sejam nicos por exemplo, o atributo lucro pode ter

62

diferentes definies, conforme o propsito da base de dados; esta definio tm de


ser nica no ambiente DW.
5. otimizado para chamadas complexas e com grande volume de dados, vindas de
analistas e administradores. Isso quer dizer que antigos paradigmas no so mais
vlidos neste ambiente, e normas como a simplificao de tabelas complexas em
vrias tabelas e relacionamentos, e a regra mxima de se evitar a todo custo qualquer
tipo de redundncia ficam enfraquecidas, sendo utilizadas apenas seletivamente.
6. Da mesma forma, projetado para poucas incluses ou alteraes a grande maioria
das chamadas so para recuperao de dados. Ou, resumindo, seus dados so no
volteis.
7. integrado une vrios pontos de vista, no sendo especfico a uma dada aplicao
ou comunidade de usurios.
8. orientado por assunto os dados so organizados de forma que as anlises sejam
feitas por um determinado assunto do negcio.
9. Possuem, alm de dados transacionais (atomizados), dados agregados, para agilizar
consultas de agregao freqentes. Esta propriedade chamada de granularidade do
DW.

Bases de Dados tradicionais

Data Warehouse

Falta de dados histricos


Deficincias Fontes mltiplas de dados
Chamadas transacionais (e no analticas)

Para dar apoio tomada de deciso


No voltil (as atualizaes no so freqentes)
Integrado
Variante no tempo (armazena dados histricos)
Orientado a assuntos
Otimizado para chamadas analticas complexas

Figura 14 Data Warehouse como repositrio para anlises de dados

63

2.2.

Usos da Minerao de Dados


Existem na literatura diversas taxonomias para classificar os usos e objetivos

genricos dos processos de minerao de dados. Os objetivos mais citados so: sumarizao
(descrio e visualizao), previso, classificao, segmentao e anlise de ligaes ou
associaes (PEACOCK, 1998a; BERRY & LINOFF, 1997). Algumas destas tarefas so
melhor abordadas de maneira top-down, atravs de teste de hipteses. Outras so melhor
abordadas de maneira botton-up, atravs de tcnicas de descoberta de conhecimento (KDD).
Os principais objetivos visados com a minerao de dados so:
1. Previso. Lida com comportamentos futuros, conforme detalhado na seo O
Problema de Previso de Vendas. Todas as tcnicas utilizadas para classificao
podem ser usadas com sucesso para previses, formulando-se os modelos com base
em dados histricos, onde a varivel a ser prevista conhecida (BERRY & LINOFF,
1997). Alguns autores separam esta tarefa daquela de estimao, onde o elemento
tempo no est necessariamente presente pode-se estimar variveis como renda,
altura, nmero de filhos, balano da conta corrente ou a probabilidade de responder a
uma campanha publicitria.
2. Sumarizao e Descrio. Visa aumentar o grau de compreenso sobre um fenmeno
complexo, representado por grande quantidade de dados de difcil compreenso,
atravs da sumarizao destes dados. Utiliza basicamente tcnicas estatsticas
descritivas, e ferramentas de visualizao grficas. Estas ltimas de visualizao
grfica automtica a partir de dados e anlises simples so consideradas essenciais,
dadas as caractersticas inerentes ao ser humano de dificuldade em interpretar dados
numricos aliada enorme facilidade em interpretar informaes visuais (GARGANO
& RAGGAD, 1999).
3. Classificao. , segundo BERRY & LINOFF (1997), o trabalho mais comum.
Consiste em examinar as caractersticas de um objeto e tentar coloc-lo dentro de uma
srie de classes pr-definidas. A construo de um modelo de classificao consiste na
anlise das caractersticas de elementos previamente classificados, para que se possa
aprender a classificar novas observaes.
4. Segmentao. Segmentao a atividade de separar em grupos homogneos uma
populao heterognea. Os grupos de registros semelhantes so chamados de clusters,
64

por isto estas tcnicas tambm so conhecidas por tcnicas de clustering. A diferena
entre segmentao e classificao que, nesta ltima, as classes so pr-definidas,
enquanto durante uma segmentao elas so dinamicamente criadas com base na
similaridade entre os elementos. O objetivo identificar grupos semelhantes de
registros, para tratar um grupo populacional como grupos com qualidades distintas.
Assim, as aes sobre o mercado podem ser realizadas de maneira dirigida, focando
esforos em pontos onde a resposta mais favorvel.
5. Agrupamento por Afinidade. usado para determinar afinidades ou ligaes entre
objetos. A aplicao clssica a determinao de quais produtos vendem em conjunto
em um supermercado tambm chamada de anlise de cesto de compras para dispor
ou promover itens de maneira a incentivar a compra de produtos afins. Consiste
basicamente na gerao de probabilidades de compra conjunta: quem compra o
produto A tem X% de chances de tambm comprar o produto B.

2.3.

O Processo de Minerao de Dados


A simples aplicao de uma tcnica de anlise de dados avanada a fim de encontrar

algum padro nos dados no suficiente para caracterizar um processo de minerao de


dados. Para tanto deve-se estar apto a responder aos padres, a agir com base neles,
transformando dados em informao, e informao em ao, e conseqentemente em valor
para a empresa.
SPSS (1999) frisa a importncia de se ter uma estratgia para completar um processo
de minerao de dados com sucesso. A estratgia proposta pelo autor foi chamada de 5 As, e
corresponde s seguintes etapas:
1. Avaliar. Avaliao da situao do negcio, e definio do problema a ser resolvido
dos objetivos da anlise.
2. Acessar. Acesso aos dados disponveis e sua organizao fsica. Algum tempo deve
ser gasto conhecendo e preparando os dados o significado de cada campo e como
eles so medidos. Inclui tambm o pr-processamento dos dados, etapa fundamental
para a construo de modelos representativos do problema, e que envolve tratamentos
(limpeza, agrupamentos, agregaes etc.) e transformaes (normalizao, incremento
ou reduo de grandezas etc.) no dados. Muitas vezes, o pr-processamento dos dados
geralmente uma tarefa mais demorada que a construo do modelo em si.
65

3. Analisar. Uso das tcnicas de minerao de dados. O desenvolvimento do modelo


um processo cclico de ajuste e ao recproca entre a definio do problema,
definio / representao dos dados, definio do modelo e da acurcia desejada dos
resultados.
4. Atuar. Planejamento e execuo de mudanas a partir do conhecimento gerado.
5. Automatizar. Incorporar o processo s prticas usuais, atravs da criao de aplicaes
especficas.
Metodologias semelhantes so propostas na literatura, mantendo-se sempre a estrutura
Identificao do problema Anlise / construo do modelo Ao sobre o problema.
BERRY & LINOFF (1997), por exemplo, identificam um ciclo semelhante, porm
acrescentam a importncia de uma ltima etapa a de medio dos resultados das aes: A
chave para o sucesso de um projeto de minerao de dados incorpor-lo aos processos de
negcio corporativos. Os estgios so interativos, e sempre dirigidos a resultados. Os autores
definem o processo como o ciclo virtuoso de data mining, conforme mostra a Figura 15.
Esse processo altamente interativo e exploratrio (FEELDERS et al., 2000).
Segundo os autores, conforme novos conhecimentos so gerados, novas hipteses podem ser
formuladas e testadas, fazendo com que se passe pelas diferentes etapas de maneira no
linear.

2- Anlise dos dados


transformando-os em
informao acionvel

1- Identificao do problema

3- Ao sobre o problema

4- Medio dos resultados

Figura 15 O ciclo virtuoso de data mining (BERRY & LINOFF, 1997, modificado)

66

2.4.

Tcnicas de Minerao de Dados


BERRY & LINOFF (1997) definem anlise de dados como o processo de construo

de um modelo apropriado aos dados. De maneira concreta, as tcnicas de minerao de dados


so algoritmos (procedimentos matemticos repetitivos, programveis em computadores) que
modelam relaes ou padres no-aleatrios (estatisticamente significantes) em grandes bases
de dados histricas.
Cada tcnica de minerao de dados tem sua prpria abordagem, porm elas
compartilham algumas caractersticas em comum. Dentre elas destacam-se:

Elas melhoram sua performance gradativamente, conforme aprendem a partir dos


dados de treinamento coletados.

H sempre uma fase de treinamento, quando o modelo aprende os padres e


relacionamentos; seguida de uma fase de implementao, quando o modelo posto
prova.
De maneira geral, os dados disponveis afetam a escolha da modelagem mais

apropriada. Por exemplo, quando h muitas variveis categricas, as rvores de deciso so


bem apropriadas. Quando o relacionamento entre as variveis de entrada e sada difcil de
ser decifrada, as redes neurais so a melhor escolha (BERRY & LINOFF, 1997).
A seguir, uma breve descrio de algumas das tcnicas de minerao de dados mais
utilizadas exposta. A tcnica de redes neurais explanada em captulo separado, dada sua
importncia para esta pesquisa.

2.4.1. Induo de Regras / Anlise do Cesto de Compras


As tcnicas de induo de regras consistem no uso de ferramental matemtico e
estatstico como freqncia de correlao, taxa de acurcia, e acurcia das previses
para desenvolver relacionamentos a partir dos dados apresentados. Tipicamente, so criadas
correspondncias do tipo se-ento, baseadas em relaes causais detectadas nas variveis.
Cada relacionamento se-ento extrado chamado de regra.
A metodologia para a gerao de regras no-supervisionada, e tende a consumir
grande capacidade de processamento. Um efeito negativo muito comum a gerao de
padres em demasia muitos deles so triviais, contraditrios ou inteis. Ela tambm requer
validao das regras por parte de um especialista, j que ela obtm apenas correlaes, e no
67

relaes de causa e efeito propriamente ditas. Outro problema visvel desta tcnica que o
nmero de possibilidades cresce exponencialmente com o aumento no nmero de itens.
Um dos principais usos das tcnicas de induo de regras o agrupamento de produtos
por afinidade, ou, em sua denominao mais comum, a anlise do cesto de compras. A anlise
do cesto de compras utilizada para encontrar grupos de itens que ocorrem simultaneamente
(e em que ordem) em transaes. As informaes coletadas so usualmente utilizadas no
planejamento do layout de lojas, na elaborao de promoes de produtos conjuntos,
agrupamento de produtos, comparao de vendas entre lojas ou entre perodos com
promoes, detectar sazonalidades etc. Quando as transaes no so annimas, as anlises
podem utilizar o fator tempo como um elemento, para agrupar produtos adquiridos por um
mesmo consumidor ao longo do tempo.
O processo de anlise do cesto de compras consiste em:
1. Escolher os itens. Para tanto comum realizar uma taxonomia dos itens a fim de
generaliz-los propriamente. Usualmente, so analisados inicialmente os itens
genricos em hierarquia superior, como segmentos ou linhas de produtos.
Posteriormente, podem ser analisados os itens mais especficos (atomizados),
geralmente com o uso de apenas uma amostra dos dados. O nvel de generalizao
entre os produtos, dentro da taxonomia existente, pode variar. A freqncia com que
os itens aparecem tambm indicativa da generalizao necessria produtos que
raramente vendem devem ser agrupados para que sua freqncia aumente, e viceversa. Por exemplo, se h muitos registros de coca-cola, este produto pode ser
analisado de forma atomizada, enquanto a baixa demanda por outras marcas
concorrentes pode forar seu agrupamento na categoria refrigerantes de cola.
2. Gerar as regras atravs da contagem de ocorrncia simultnea dos produtos.
3. Analisar as regras interessantes, uma vez que podem ser geradas milhares de
combinaes diferentes, muitas delas inexplicveis ou bvias.
Algumas vezes faz-se necessria a gerao de itens virtuais, ou seja, que no
aparecem na taxonomia original. Por exemplo, uma marca especfica pode aparecer em
produtos bem distintos, e um item virtual indicando sua presena pode ser til para detectar
relacionamentos nas vendas dos produtos dessa marca. Outros exemplos tpicos so
informaes sobre as transaes se foi paga em dinheiro, cheque ou carto, qual era o dia
68

da semana, entre outros. A incluso de itens virtuais deve ser limitada, contudo, a itens
acionveis aqueles que geram regras teis corporao.
Outro tipo de regra que pode ser gerada so as regras de dissociao, que funcionam
como as regras de associao, porm possuem o conector no, alm do conector e, como
por exemplo a regra se A e no B ento C. Corre-se, contudo, o risco de gerar inmeras
regras do tipo se no A e no B ento no C, que no so regras acionveis. Assim,
comum testar regras dissociativas apenas com os itens mais freqentes.
Durante o processo de anlise, os fatores mais importantes para monitorar a qualidade
das regras criadas so (BERRY & LINOFF, 1997):

Suporte regra. Nmero de observaes da regra em relao ao nmero de


observaes total. Por exemplo, se tivermos 5 transaes e 2 delas inclurem
soda e suco, ento o suporte para a regra se soda ento suco 2 / 5 ou
40%.

Confiana. Razo entre o nmero de transaes que suportam a regra e o


nmero de transaes onde o elemento condicional da regra ocorre. Para o
mesmo exemplo acima, se em todos os casos onde ocorre soda tambm ocorrer
suco, a confiana de 100%. Entretanto se 4 transaes contiverem suco, com
apenas 2 delas contendo tambm soda, a regra se suco ento soda possui
confiana de 50%.

Melhoria, tambm chamada de lift ou improvement. Mede o quanto uma regra


melhora a previso de um resultado do que simplesmente assumindo o
resultado. Por exemplo, se um produto ocorre 45% das vezes, uma regra com
confiana igual a 45% tem lift igual a 1. A melhoria definida
matematicamente como a freqncia observada para uma regra dividida pela
freqncia esperada, dadas as freqncias de cada um dos itens.

A anlise do cesto de compras de particular interesse nesta pesquisa, pois se trata da


tcnica utilizada para a deteco do grupo de produtos com maior grau de interrelacionamento dentro do conjunto de dados coletados, definindo assim um centro de
interesse. A aglutinao dos produtos relacionados serviu para a separao dos produtos a
serem analisados (cuja demanda foi prevista) e tambm como ferramental de auxlio na
qualidade das previses, conforme ser mostrado adiante.
69

2.4.2. Sistemas Especialistas


Um sistema especialista consiste de uma base de conhecimentos composta por regras
extradas de especialistas, aliada a um sistema de inferncia lgica. Um sistema especialista
capaz de simular o comportamento de especialistas com conhecimentos em um domnio
muito estreito e profundo. O objetivo chegar nas mesmas concluses que um especialista
chegaria, passadas as informaes a respeito do problema.
Sistemas especialistas so altamente supervisionados, ou seja, o treinamento no
automtico e exige grande esforo do analista. Eles possuem performance comparvel a de
humanos especializados em um domnio de problema, consistindo de conhecimento cognitivo
especfico. Os domnios de conhecimento ideais so os de escopo bastante estreito, que
permitam que o especialista resolva o problema num curto espao de tempo. O conhecimento
deve ser facilmente capturvel, consistente, de explanao simples, de representao honesta
(geralmente atravs de afirmaes do tipo se-ento) e que no dependa de bom senso
(GARGANO & RAGGAD, 1999).

2.4.3. rvores de Regresso


rvores de Regresso so modelos simples baseados na anatomia de uma rvore, onde
cada galho particiona estrategicamente os dados em classes e subclasses sucessivamente. A
cada diviso, escolhida a melhor forma de separar e classificar os dados, utilizando-se da
caracterstica que mais os distingue (maior poder de separao), atravs de medidas
estatsticas. Em cada separao (ou n), pode-se medir: o nmero de registros presentes no
n; a forma como eles foram separados; o nmero de registros em cada galho (separao); e a
porcentagem de registros classificados corretamente (de acordo com a varivel dependente).
As rvores de regresso possuem algoritmos no-supervisionados, ou seja, so capazes
de processar automaticamente os dados. Com o modelo criado, cada partio (ou galho)
representa uma regra clara, constituda durante o treinamento. Estas regras so ento usadas
para classificar o comportamento de novas situaes.
A grande atratividade das rvores de regresso est no fato de que suas respostas
representam regras facilmente acionveis e com grande poder explicativo. Outra caracterstica
positiva o fato de que fornecem indicaes claras dos campos mais importantes para
previso ou classificao (SAS, 1998).
70

2.4.4. Memrias Associativas


Memrias associativas, tambm conhecidas por deduo baseada em memria ou
Memory Based Reasoning (MBR), so pares ou grupos de itens associados atravs de uma
memria de longo prazo, usando instncias conhecidas como um modelo para fazer previses
sobre novas instncias. Consiste na procura de vizinhanas nas instncias conhecidas e
combinao de seus valores para prever novas instncias. Os dois elementos chaves so a
funo distncia utilizada para encontrar os vizinhos mais prximos e a funo de combinao
para calcular os valores das previses (BERRY & LINOFF, 1997).
O processo segue os seguintes passos:
1. Escolher os dados histricos apropriados.
2. Determinar a forma mais eficiente de representar os dados histricos.
3. Determinar as funes distncia e combinao, e o nmero de vizinhos. Ou seja, so
identificados os casos semelhantes nos dados histricos, e ento a informao
associada a estes casos aplicada atravs de equaes matemticas convenientemente
selecionadas.
A tcnica apropriada para tarefas de classificao e previso. Tcnicas estatsticas
podem ser combinadas s tcnicas de memrias associativas para auxiliar na construo da
funo combinao.

2.5.

Seleo das Tcnicas de Minerao de Dados


No h consenso na literatura sobre a tcnica ideal para cada aplicao, nem sequer de

quais so os critrios para avaliao das diferentes tcnicas de minerao de dados.


GARGANO & RAGGAD (1999) citam como critrios para avaliao das tcnicas: robustez,
grau de automao, velocidade, poder explanatrio, acurcia, quantidade de prprocessamento necessrio, escalabilidade, facilidade de integrao e habilidade para lidar com
muitos atributos (variveis). J BERRY & LINOFF (1997) citam: facilidade de compreenso
do modelo, facilidade de treinamento, facilidade de aplicao, capacidade de generalizao,
utilidade e disponibilidade. Ainda de acordo com os autores, os principais fatores que
determinam a escolha da tcnica a ser utilizada para determinado fim so: preponderncia de
variveis categricas ou numricas, nmero de campos, nmero de variveis dependentes,
orientao no tempo, e presena de dados textuais.
71

Conclui-se portanto que no h critrios universais, aplicveis a todas as tcnicas de


minerao de dados cada tcnica requer critrios especficos de medio. extremamente
difcil comparar os modelos entre si, j que operam de maneira distinta. Ento, a nica forma
de avali-los atravs da medio de sua habilidade em desempenhar a tarefa para a qual
foram construdos, ou seja, classificao, previso, etc.
Neste trabalho, so de interesse as tcnicas voltadas para previso, e, portanto, o
principal critrio de avaliao deve ser a habilidade do modelo em desempenhar sua funo:
prever a demanda futura. Assim sendo, a medida de maior interesse a acurcia do modelo.

3. Redes Neurais Artificiais


Redes neurais artificiais so sistemas de processamento de informaes distribudos,
compostas por muitos elementos computacionais simples que interagem atravs de conexes
com pesos distintos. Inspiradas na arquitetura do crebro humano, elas exibem caractersticas
como a habilidade de aprender padres complexos de informao e generalizar a informao
aprendida (BAETS & VENUGOPAL, 1994).
Cada elemento computacional no-linear chamado n, e densamente
interconectado atravs de conexes diretas. Os ns operam em passos discretos, de forma
anloga a uma funo de dois estgios: o primeiro estgio calcula a soma dos sinais de
entrada, atribuindo pesos aos sinais; o segundo estgio consiste da aplicao de uma funo
de sada, chamada de ativao (PETRON, 1999).

E1
S

En

Figura 16 Esquema de funcionamento de cada n em uma rede neural artificial

72

Como ilustrado na Figura 16, cada n recebe um ou mais valores de entrada (E1 ... En),
que so combinados em um nico valor com o uso de diferentes pesos para cada entrada; e
transformam-no em um valor de sada (S) atravs de uma funo de ativao. Uma das
funes de ativao mais usadas a funo logstica (PETRON, 1999), que pode ser escrita
como:
Equao XIV: F ( x) =

1
1 + e x

Este funcionamento aparentemente simples de cada neurnio resulta, aps o


processamento coletivo de todos os ns, em uma capacidade de execuo de diversas tarefas
com eficincia. Segundo BAETS & VENUGOPAL (1994), as redes neurais podem ser
caracterizadas pelas seguintes propriedades: a estrutura da rede (topologia), como e o que a
rede processa (propriedade computacional), e como a rede aprende (propriedade de
treinamento).
A topologia da rede refere-se ao nmero de camadas e ns utilizados. Uma rede neural
artificial deve ser composta por pelo menos duas camadas: uma contendo as entradas e uma
contendo as sadas da rede. Usualmente, so utilizadas tambm uma ou mais camadas
intermedirias, caracterizando assim as chamadas redes neurais multicamadas, compostas por
(KUO & XUE, 1998):
Camada de entrada: consiste das variveis de entrada do modelo, devem ser
sempre conhecidas;
Camada de sada: contm um ou mais ns representando os resultados finais do
processamento para uma dada entrada, a rede fornece uma sada correspondente;
Camadas intermedirias ou camadas ocultas: podem existir uma ou mais
camadas de processamento intermedirio, que tornam o modelo mais refinado e nolinear, com a capacidade de aprender padres mais complexos.
A propriedade computacional de uma rede neural artificial refere-se ao modo pelo qual
os elementos computacionais (ns) so ativados e processados (BAETS & VENUGOPAL,
1994). Diversas funes de ativao podem ser empregadas, de forma linear e no-linear.
J o aprendizado o processo no qual uma srie de valores de entrada apresentada
seqencialmente, e os pesos da rede so ajustados at que ela reflita a sada desejada. As
estratgias de treinamento so divididas em treinamento supervisionado e no-supervisionado.
73

O treinamento supervisionado requer a presena de valores de entrada e a correspondente


sada, a partir da qual calculado o erro, utilizado para corrigir o peso das conexes da rede.
No treinamento no-supervisionado, so apresentados rede apenas vetores de entrada. A
sada construda automaticamente pela rede, sendo capaz de capturar regularidades nos
valores de entrada, sem receber nenhuma informao adicional (ALMEIDA, 1993).
O processo de montagem e treinamento de uma rede neural pode ser descrito pelos
seguintes passos (PETRON, 1999):

definida a topologia da rede.

A rede sofre um processo de aprendizado, atravs de informaes de entrada e


sada conhecidas.

As conexes entre os ns so modificadas num processo iterativo, at que a


rede fornea sada compatvel com as informaes apresentadas. Por isso dizse que as redes neurais adquirem conhecimento atravs da experincia.

A rede est pronta para fornecer respostas para novos problemas.

O aprendizado pode continuar indefinidamente. O conhecimento reside na


fora entre as ligaes entre neurnios, ou seja, no peso dado a cada
conexo.

3.1.

Justificativa de utilizao das Redes Neurais


Segundo BERRY & LINOFF (1997), a modelagem atravs de redes neurais artificiais

uma das tcnicas de minerao de dados mais utilizadas, largamente empregada em tarefas
de classificao e previso, alm de poderem ser aplicadas gerao de conhecimento
indireto (na forma de mapas auto-organizveis). Neste trabalho, utilizaram-se as redes neurais
para previso de vendas; sua escolha como tcnica de modelagem baseou-se em algumas
caractersticas decisivas reportadas na literatura, mostradas a seguir.
De acordo com BAETS & VENUGOPAL (1994), as redes neurais so robustas e
tolerantes a falhas, graas ao seu paralelismo (a contribuio dada por um nico elemento de
processamento no to importante). Isto a torna uma tcnica bastante indicada para uso na
minerao de dados, onde nem sempre os dados disponveis so confiveis.
Diversos autores mostraram a capacidade das redes neurais em lidar com estruturas de
dados no-lineares (LUXHOJ et al., 1996; ZHANG et al., 1998). Esta uma caracterstica
primordial, j que, de acordo com BAETS & VENUGOPAL (1994), os problemas em
74

marketing sempre lidam com dados como vendas e preos, onde as sries de dados esto
inseparavelmente ligadas a pontos de inflexo, tendncias e no-linearidades. Muitas vezes os
dados podem ser at mesmo caticos (THALL, 1992; HIBBERT & WILKINSON, 1994) e
mesmo nesta condio podem ser previstos com preciso por uma rede neural, como
demonstraram LAPEDES & FARBER (1987).
Com o uso de redes neurais, um conhecimento a priori da relao entre as variveis
no requerido, j que elas so auto-adaptativas (BAETS & VENUGOPAL, 1994; ZHANG
et al., 1998; WRAY et al., 1994). Ou seja, elas so capazes de gerar modelos no lineares sem
um conhecimento prvio sobre os relacionamentos entre as variveis de entrada e sada,
podendo ser portanto mais genricas e flexveis que metodologias estatsticas tradicionais.
Tome-se como exemplo uma modelagem feita atravs de regresso: a estipulao da estrutura
dos dados (de segundo ou terceiro grau, por exemplo), assim como a determinao de uma
varivel dependente e de uma ou mais variveis independentes, so necessrios a priori, para
que o modelo matemtico possa ser gerado.
J com o uso de redes neurais, os relacionamentos (relao de dependncia) entre as
variveis so detectados automaticamente. Podem at mesmo ignorar variveis que no
contribuem nas previses, o que permite que algumas experimentaes possam ser feitas sem
prejuzo para o modelo resultante (CHURCH & CURRAM, 1996). Como conseqncia, um
melhor resultado esperado quando o relacionamento entre as variveis no aderente ao
modelo assumido, e quando h forte interdependncia entre os fatores.
Pode-se provar tambm que uma rede neural com uma camada oculta capaz de
aproximar qualquer funo contnua, com a preciso que se desejar (ZHANG et al., 1998).
Uma rede neural pode tambm mimificar uma srie temporal qualquer, como mostraram
ANSUJ et al. (1996).
Alm disso, relaes de multicolinearidade so automaticamente descobertas e
assimiladas pela rede de relacionamentos (WRAY et al., 1994). Segundo os autores, a
performance das redes neurais no depreciada por relaes de multicolinearidade, como
acontece com a regresso. Condies fora da normalidade, violao de hipteses, pontos de
alta influncia e transformaes tambm so bem assimiladas pelas redes neurais.
As vantagens das redes neurais que levaram sua escolha como mtodo de
modelagem para previso de vendas, conforme reportadas na literatura citada acima, podem
ser resumidas da seguinte forma:
75

So robustas e tolerantes a falhas. Dados imprecisos ou faltantes, relaes de


multicolinearidade e violaes de hipteses so automaticamente descobertas e
assimiladas, no interferindo fortemente no resultado final das previses.

So inerentemente no-lineares.

O conhecimento a priori da relao entre as variveis no requerido. Portanto, elas


comportam-se bem em problemas onde o conhecimento a respeito de difcil
estruturao.

So capazes de aproximar qualquer funo contnua ou srie temporal, inclusive sries


caticas.

Possuem boa capacidade de generalizao. Aps a fase de aprendizado, onde a rede


submetida a dados histricos conhecidos, ela capaz de prever novos registros com
considervel sucesso, mesmo na presena de rudo e variveis exprias ao problema.

3.2.

Desempenho e Limitaes das Redes Neurais


Vrios autores buscaram comparar o desempenho de modelos baseados em redes

neurais com metodologias estatsticas tradicionais, porm os resultados ainda no so


conclusivos. Segundo ZHANG et al. (1998), a principal explicao para o fato parece ser a
ausncia de uma metodologia sistemtica para o desenvolvimento de modelos baseados em
redes neurais, consistindo basicamente de tentativa e erro, o que favorece o surgimento de
resultados inconsistentes. O nmero de fatores envolvidos na criao de modelos neurais
entre eles sua topologia, mtodo de treinamento, e dados fornecidos para o aprendizado
torna o processo de desenvolvimento de tais modelos ainda mais complexo e sujeito a grandes
variaes no resultado final.
Os modelos construdos com o uso de redes neurais artificiais j mostraram ter boa
aplicabilidade em problemas de previso, tendo superado significativamente vrias outras
modelagens em diversas reas do conhecimento (ANSUJ et al., 1996). Em alguns casos,
entretanto, as redes neurais podem mesmo ter poder preditivo menor que metodologias
tradicionais, seja simplesmente porque os dados analisados so lineares ou porque o
desenvolvimento do modelo baseado em redes neurais no foi adequado (ZHANG et al.,
1998).

76

Vrios autores compararam as capacidades preditivas de redes neurais com tcnicas


estatsticas tradicionais, muitos deles concluindo que as redes neurais possuem performance
superior (TANG et al., 1991; ANSUJ et al., 1996).
CHURCH & CURRAM (1996) compararam quatro modelos economtricos entre si, e
ento utilizam os mesmos dados na gerao de modelos baseados em redes neurais, para
comparao de suas previses. Os resultados sugeriram pouca ou nenhuma melhoria nas
previses quando da utilizao de redes neurais. De acordo com os autores, um ponto crtico
durante a modelagem de redes neurais foi a seleo de camadas ocultas (hidden layers).
Quanto mais complexa a inter-relao entre as variveis, maior o nmero de camadas ocultas
necessrias. Camadas a menos fazem com que o modelo perca a riqueza das relaes entre as
variveis perdendo em qualidade nas previses; camadas em demasia provocam o efeito de
overfitting, que o excessivo ajuste aos dados de treinamento, perdendo sua capacidade de
generalizao. Segundo os autores, apenas uma camada oculta geralmente suficiente para
problemas de previso; o nmero ideal, entretanto, deve ser encontrado por tentativa e erro.
Para BERRY & LINOFF (1997), as maiores dificuldades relacionadas modelagem
com uso de redes neurais so:

a dificuldade em compreender os modelos produzidos (baixa explicabilidade);

a sensibilidade ao formato dos dados de entrada diferentes representaes para os


mesmos dados podem resultar em modelos distintos. Alm disso, requerem entrada
entre 0 e 1 o que significa que necessitam muitas vezes de grande prprocessamento.

Podem convergir prematuramente, resultando em solues no ideais.

A tabela a seguir mostra alguns exemplos na literatura onde o desempenho das redes
neurais foi melhor e/ou pior que outras tcnicas analisadas:

77

Autor

Estudo

Concluses

Houve melhora significativa com o uso de redes neurais


PARK
& Aplicao de redes neurais na previso de
SANDBERG, demanda por energia eltrica. A rede construda
1991
toma como entradas apenas informaes sobre a
temperatura ambiente, e produz como sadas as
previses de consumo por hora, pico e consumo
total de energia eltrica de uma determinada
regio geogrfica.

Os autores mostraram que a rede neural, apesar de


simples, possui desempenho (previso) muito superior
s tcnicas anteriormente adotadas, baseadas em
regresso mltipla.

TANG et al., Analisaram diversas sries temporais de


1991
demanda agregada de diversas empresas,
comparando as redes neurais tcnica de
previso ARIMA.

As redes neurais tiveram, no geral, desempenho igual


ou superior tcnica de sries temporais. De forma
geral, para sries com grandes irregularidades, as
redes neurais foram superiores; para sries mais
regulares
as
performances
no
foram
significativamente diferentes. Outras concluses
sugerem: que as redes neurais so melhores para
maiores horizontes de tempo; e que tambm so
superiores quando o nmero de ns de entrada
aumenta.

ANSUJ et al., Mostraram uma aplicao de modelagem


1996
ARIMA
com
intervenes
e,
comparativamente, de redes neurais retropropagadas, para anlise do comportamento das
vendas de uma empresa mdia localizada no
Brasil, no perodo de Janeiro de 1979 a
Dezembro de 1989.

O modelo baseado em redes neurais apresentou menor


variao residual e menor MAE para prever os
ltimos 12 meses da srie temporal. Este resultado
demonstra que as redes neurais retropropragadas
podem ser usadas para previso com base no conceito
de sries temporais, com desempenho igual ou melhor
que mtodos altamente sofisticados.

No houve melhora significativa com o uso de redes neurais


LUXHOJ
al., 1996

et Desenvolveram um modelo de previso misto


sries temporais-regresso-redes neurais, tendo
como objetivo a previso de vendas mensal
total. As sadas dessas tcnicas foram ento
combinadas em uma rede neural. Foram
testadas vrias configuraes de rede, e a que
apresentou melhores resultados foi uma rede
neural de regresso geral (GRNN) - e no uma
rede retropropagada.

O modelo hbrido resultou em MAPE de 3.8%, contra


MAPE de 6.1% da modelagem qualitativa
anteriormente utilizada pela empresa. Analisando os
modelos isoladamente, os resultados foram, em
termos de MAPE: 5% para o ES, 4.2% para a
regresso, e 4.6% para a rede neural. Isso demonstra
que o modelo hbrido tem melhor performance que os
demais isoladamente, porm a rede neural,
isoladamente, no obteve melhora significativa.

CHURCH & Compararam quatro modelos economtricos


CURRAM,
entre si, e ento utilizam os mesmos dados na
1996
gerao de modelos baseados em redes neurais.
Foi gerada uma rede neural para cada modelo
economtrico, pois estes utilizavam variveis
independentes distintas.

Os resultados sugerem pouca ou nenhuma melhoria


nas previses quando da utilizao de redes neurais.
Todos os modelos baseados em redes neurais gerados,
apesar de utilizarem as mesmas variveis e expostos
aos mesmos conjuntos de dados de treinamento,
geraram resultados semelhantes aos modelos
economtricos.

ALMEIDA & Compararam as tcnicas de regresso logstica e Os resultados mostraram que as redes neurais podem
SIQUEIRA, redes neurais na previso de falncia de bancos ser aplicadas com sucesso na previso de falncia,
1996
brasileiros.
apesar de no superarem significativamente outras
tcnicas estatsticas.

Outros estudos metodolgicos

78

CHAKRABO Aplicao de redes neurais na previso de sries


RTY et al., temporais multivariadas. A srie utilizada era
1992
composta por trs variveis (ou, de fato, trs
sries distintas), e os autores compararam a
performance de redes neurais 1) que
combinassem as trs variveis e 2) construdas
isoladamente, uma para cada srie; na previso
das sadas futuras das sries.

A concluso principal que a rede combinada - que


toma as trs variveis como entradas - possui
desempenho significativamente superior s trs redes
isoladas.

ZHANG,
1994

Testou vrias topologias de redes neurais, a fim


de determinar se o aumento no nmero de
camadas ocultas melhora a performance das
redes. As redes foram construdas para previso
de sries temporais.

A concluso que a melhor topologia aquela com


duas camadas ocultas. Esta topologia mostrou-se
melhor que apenas uma camada, porm o aumento no
nmero de camadas ocultas (mais de duas) no trouxe
benefcios. Comprova que o melhor usar at duas
camadas ocultas, no mais que isso.

NELSON
al., 1994

et Testaram a capacidade de deteco de


sazonalidade das redes neurais. Diversas redes
com dados desazonalizados e tambm com forte
sazonalidade foram analisadas, utilizando dados
mensais com 68 pontos (mais de 5 anos).

Os resultados indicaram que a desazonalizao prvia


dos dados benfica para a capacidade preditiva das
redes. Ou seja, elas no detectam a sazonalidade
automaticamente e com preciso.

Tabela 3 Comparao de desempenho da tcnica de redes neurais artificiais frente a outras tcnicas
estatsticas

79

CAPTULO III METODOLOGIA DA PESQUISA


1. O Mtodo de Pesquisa
Este trabalho est fundamentalmente calcado em uma abordagem quantitativa de
pesquisa, a fim de atender ao objetivo bsico de criao de uma metodologia capaz de
identificar padres de relacionamento teis na previso de vendas individual no varejo, com o
uso do processo de minerao de dados.
Os estudos quantitativos so aqueles onde o pesquisador estabelece hipteses e as testa
por meio da mensurao de variveis operacionalmente definidas, quantificando o resultado
com o uso de variados mtodos quantitativos e estatsticos. um tipo de pesquisa
tradicionalmente aceita como tendo confiabilidade (fidedignidade) e validade, desde que
realizada seguindo uma metodologia rigorosa. Normalmente, utilizam-se testes estatsticos e
anlise de varincia para verificao das hipteses estatsticas. A validao d-se pelo nvel de
significncia adotado nos testes estatsticos (KIRK & MILLER, 1988).
As pesquisas quantitativas podem ser orientadas por delineamentos experimentais ou
quase-experimentais, ou serem estudos descritivos exploratrios isto , buscarem a
descrio da populao ou fenmeno e o estabelecimento de relaes entre variveis e fatos.
Esta pesquisa baseou-se numa metodologia orientada por um estudo exploratrio dos
dados disponveis, isto , buscou a descrio do fenmeno demanda no varejo e o
estabelecimento de relaes entre as variveis explicativas e as vendas. Apesar de tratar-se de
uma pesquisa eminentemente quantitativa, no foram estabelecidas hipteses a priori, mas
sim questes de pesquisa (veja seo Questes de Pesquisa, pg. 7), que foram respondidas
por meio de um processo efetivo de minerao dos dados, onde o pesquisador realiza
levantamentos e anlises iterativas buscando informaes escondidas nos dados.
Construiu-se, atravs do uso da tcnica de redes neurais artificiais, um modelo de
previso de vendas a fim de prever a demanda individualizada de produtos em uma loja de
varejo, levando em considerao fatores explicativos da demanda (modelagem causal) e
tambm o relacionamento entre diversos produtos.

80

2. Desenvolvimento da Pesquisa
A metodologia de pesquisa seguiu os seguintes passos para a elaborao do modelo de
previso de vendas:
1. Obteno dos dados de vendas atomizadas no varejo;
2. Seleo e limpeza dos dados;
3. Anlise do cesto de compras para seleo de um grupo de produtos
relacionados entre si. A determinao de um grupo de produtos estreitamente
relacionados tambm serviu para responder a uma das questes de pesquisa
levantadas: esta informao pode auxiliar na capacidade preditiva dos modelos
de previso baseados em redes neurais?;
4. Tratamento e preparao dos dados para modelagem atravs de redes neurais;
5. Gerao dos modelos baseados em redes neurais, testando-se diferentes
combinaes de topologia e variveis de entrada. selecionada a rede neural
com maior acurcia (menor erro nas previses);
6. Comparao do desempenho medindo-se a acurcia alcanada dentro e fora
dos dados de treinamento. Para comparao relativa dos seus resultados, a
rede com maior acurcia foi confrontada com as modelagens naive e de
regresso linear. Tais comparaes foram escolhidas por serem tcnicas
bastante utilizadas para determinao da capacidade preditiva mnima de
modelos de previso (MAKRIDAKIS et al., 1983), e amplamente utilizadas na
prtica pelas empresas (HUSSEY & HOOLEY, 1995).

2.1.

Modelo de Pesquisa
A figura a seguir resume o processo de anlise de dados executado.

81

1. Obteno dos dados


2. Seleo e limpeza
3. Anlises de cesto de
compras: centros de interesse
4. Tratamento dos dados
Demandas
previstas

Vendas
histricas
individualizadas
Variveis do
composto de
marketing

5. Gerao de modelos
baseados em redes neurais
6. Comparao com outras
modelagens

Figura 17 Modelo da Pesquisa

Conforme mostrado no modelo acima, a pesquisa foi conduzida por meio da gerao
de redes neurais artificiais que pudessem prever o comportamento das vendas no nvel
individualizado, tomando como entrada variveis explicativas da demanda a prpria
demanda histrica, e as variveis do composto de marketing agrupadas de acordo com um
conjunto de produtos inter-relacionados pertencentes a um mesmo centro de interesse
selecionados atravs da tcnica de anlise do cesto de compras.
O processo completo pode ser observado na figura a seguir, que detalha os passos 1 a
6 descritos anteriormente e resumidos na Figura 17.

82

1. Obteno dos dados e uniformizao em um banco de dados nico


2. Separao: apenas registros de uma loja; filtragem de inconsistncias
3. Anlise do Cesto de Compras

Apenas produtos aparentemente relacionados:


Anlise por Transaes (compra casada)
Anlise por Clientes (compra ao longo do tempo)
Confirmao e seleo atravs de inspeo visual do grfico de relacionamentos

4. Tratamento e Preparao dos Dados


Agregao: dados semanais
Transformaes nos dados visando aproxim-los da normal
Padronizao das entradas

5. Modelagem Usando Redes Neurais


1.
2.
3.
4.
5.
6.

Diferentes tratamentos e transformaes


Seleo de variveis correlacionadas
Sazonalidade das vendas
Lags de tempo das vendas e de outras variveis
Dados de promoes realizadas
Informaes agregadas do centro de interesse

Evoluo da Anlise dos Dados

Todos os produtos:
Anlise por Transaes (compra casada)
Anlise por Clientes (compra ao longo do tempo)

Seleo da rede com


maior capacidade preditiva

6. Comparao com outras modelagens


Comparao com previso naive
Comparao com regresso linear

Figura 18 Metodologia conduzida para a Pesquisa

83

CAPTULO IV PESQUISA EMPRICA


1. Contextualizao da Pesquisa
A pesquisa realizada foi desenvolvida com base nas vendas de uma grande empresa
varejista brasileira, doravante denominada simplesmente EMPRESA. Sendo uma rede
varejista de grande porte, os produtos comercializados pela EMPRESA so bastante variados,
passando por eletro-eletrnicos, utilidades domsticas, mveis, vesturio, brinquedos, entre
outros. A rede de pontos de venda distribuda em todo o territrio nacional, totalizando mais
de 88.000 m2 de rea de venda distribudas em mais de 100 pontos de venda. Alm da venda
nos pontos de venda, a EMPRESA realiza tambm a venda atravs da Internet e por pedidos.

1.1.

Metodologia de Previso Utilizada pela EMPRESA


A fim de obter uma viso geral do processo de previso e da capacidade preditiva

atual da EMPRESA, foi aplicado um questionrio aos diretores geral, de vendas e de logstica,
e aos responsveis pelas reas de compras e vendas. O questionrio descrito no ANEXO A
visou essencialmente descobrir como executada a funo de previso dentro da
EMPRESA, e se esta funo vista com uniformidade dentro da empresa.
De acordo com as respostas dadas, a previso realizada pela EMPRESA de duas
formas distintas, e com dois objetivos, por departamentos diferentes. Existe uma previso de
vendas agregada, formulada pela diretoria da empresa anualmente, com base nos resultados
anteriores e expectativas para os prximos meses, especialmente macroeconmicas e de
desempenho da empresa. Essa previso serve de base para tomada de decises estratgicas,
como a abertura ou fechamentos de lojas, ou incremento em linhas de produtos. aferida e
recalculada mensalmente. Existe, entretanto, outra previso de vendas, num nvel operacional,
que utilizada basicamente no planejamento de compras, e de responsabilidade dos gerentes
de produto, que so alimentados por dados dos compradores. Os compradores respondem pela
previso (e conseqentemente pelos pedidos de compra), sendo subordinados pela rea de
Logstica.
A previso agregada feita anualmente de forma totalmente qualitativa, tomando-se
como base nmeros do ano anterior e a percepo dos gestores. J a previso detalhada
realizada por produto, utilizando-se a tcnica naive simples com a mdia das vendas dos
84

ltimos 7 dias. Em outras palavras, a previso de vendas operacional exatamente igual s


vendas dos ltimos 7 dias. Como era de se esperar, este modelo gera graves distores,
principalmente porque a EMPRESA externou que suas vendas so caracterizadas por picos
acentuados, seja devido a datas comemorativas ou devido a campanhas de marketing muito
agressivas e com durao muito curta. A previso naive ento modificada qualitativamente
pelos gestores de compras da EMPRESA, tendo em vista seu sentimento com relao ao
mercado, feedbacks dados pelos fornecedores, pelos vendedores e gerentes, e principalmente
tendo em vista desempenhos em anos anteriores.
As previses no so aferidas, ou seja, a EMPRESA no sabe exatamente quanto est
errando nas previses. H o sentimento geral de que o erro grande, principalmente
evidenciado pelo excesso de alguns produtos em estoque, enquanto os produtos mais vendidos
freqentemente faltam nas prateleiras. Em resumo, a EMPRESA v a funo de previso
como sendo uma questo muito relevante, mas no v possibilidade de melhoria imediata.

2. Obteno dos Dados


A criao de um modelo causal de previso de vendas quantitativo d-se a partir da
coleta de seqncias temporais de dados sobre as vendas efetuadas, conjugados com
informaes que possam explicar as vendas. Ou seja, dado um determinado perodo de tempo,
a quantidade de produtos vendidos sumarizada em totais por perodo semanal, por
exemplo e tabulada junto com as demais variveis explicativas, como o preo praticado no
perodo, a divulgao (esforo de marketing) realizada, dados macroeconmicos, entre outros.
Neste trabalho, o objetivo visado foi a criao de modelos de previso no-agregados,
e, portanto, os dados utilizados foram dispostos no nvel de produto. Ou seja, as vendas foram
tabuladas por SKU (Stock Keeping Unit), que o identificador nico de um produto.
Adicionalmente, buscou-se por dados obtidos no varejo, onde o gestor tem maior rea de
manobra sobre as variveis independentes e a reao s mudanas sobre o composto de
marketing mais rpida, j que se lida diretamente com o cliente final.
Foram coletados dados relativos s vendas da EMPRESA em nvel atomizado
venda a venda no perodo de Novembro de 1998 a Junho de 2002, totalizando 43 meses,
sendo coletados dados referentes a todos os produtos vendidos em cinco pontos de venda
selecionados. O dicionrio dos dados coletados encontra-se no ANEXO B.
85

Os dados coletados estavam distribudos em mltiplos bancos de dados, incluindo


diferentes tabelas constando: dados sobre os clientes, dados relativos s vendas (transao por
transao, numa tabela de volume expressivo), dados sobre as transaes a prazo, dados sobre
as lojas, tabelas de produtos, tabelas de fornecedores, dados dispersos sobre as promoes
realizadas, entre outros. Todos estes bancos de dados foram unificados e convertidos. Por
exemplo, tabelas existentes em bases de dados no formato IBM DB2 e no formato Excel
foram todas convertidas para o formato Microsoft SQL Server, num nico banco de dados
consolidado.

3. Seleo e Limpeza dos Dados


Buscando detectar comportamentos de venda regionais, optou-se por realizar a anlise
de todos os produtos comercializados em apenas um ponto de venda. A loja escolhida foi
aquela com maior nmero de registros, e seus dados foram separados dos demais. Os dados
foram, num primeiro momento, mantidos com suas escalas originais, j que a primeira anlise
realizada foi a anlise do cesto de compras, que visa apenas o estudo das freqncias dos
registros para detectar os produtos inter-relacionados, sinalizando os centros de interesse do
consumidor.
Obteve-se primeiramente uma viso geral dos dados, incluindo a avaliao de
possveis outliers por meio de estudos de freqncia e plotagem de grficos temporais e
boxplot3. A primeira observao relevante diz respeito forte curva ABC apresentada, ou
seja, apesar de existirem muitos produtos distintos so exatos 48.287 SKUs em 430 linhas
de produtos apenas uma frao deles possui movimentao freqente. Outra caracterstica
importante so as vendas realizadas a prazo, responsveis por 61,8% do total. As vendas
prazo so especialmente interessantes por tratar-se de transaes identificadas onde h
informaes precisas sobre o consumidor que permitem anlises de perfis e padres de
consumo.
Em muitos registros foram encontradas inconsistncias que foraram seu descarte do
banco de dados, como inconsistncias de datas entre a transao de venda a prazo e seu

Todas as anlises estatsticas e plotagem de grficos foram realizadas utilizando-se o pacote estatstico SPSS
11.0.

86

registro na tabela correspondente, juros negativos, estoque sem registro ou negativo, ausncia
de classificao de produto, entre outros.
Ao final desta etapa, obteve-se um banco de dados unificado e livre de inconsistncias,
contendo informaes sobre todas as vendas realizadas em apenas uma loja, as quais
totalizaram 279.149 transaes, constitudas por vendas de 8.106 produtos de 558 marcas
distintas.

4. Anlise do Cesto de Compras


A anlise do cesto de compras uma tcnica de minerao de dados utilizada para
encontrar grupos de itens que ocorrem simultaneamente (e em que ordem) em transaes,
conforme mostrado na seo Induo de Regras / Anlise do Cesto de Compras (pg. 67).
Com ela so geradas regras do tipo se o consumidor compra o produto A, h uma
probabilidade P de que ele tambm compre o produto B. A anlise do cesto de compras foi
utilizada objetivando formar os centros de interesse de compras, ou seja, para encontrar
grupos de produtos inter-relacionados. A utilizao da tcnica de anlise do cesto de compras
teve como propsitos:
(1) separar um grupo coeso de produtos, minimizando o total de produtos a serem
previstos pelo modelo, uma vez que o objetivo da pesquisa foi testar a aplicabilidade das
redes neurais e da metodologia de modelagem empregada, e no construir um modelo de
previso para todos os produtos da EMPRESA;
(2) determinar quais produtos fazem parte de um mesmo centro de interesse, e assim
investigar se essa informao traz alguma melhoria na capacidade preditiva de modelos de
previso baseados em redes.
Duas estratgias de abordagem dos dados foram tomadas: (1) anlise atravs das
transaes, buscando quais itens so vendidos em conjunto numa mesma transao; e (2)
anlise horizontal por cliente, procurando quais produtos um mesmo cliente compra ao longo
do tempo. As anlises realizadas e os resultados obtidos seguem abaixo4.

Todas as anlises foram realizadas com o uso do sistema de minerao de dados IBM Intelligent Miner 6.1.

87

4.1.

Anlise do Cesto de Compras por Transao


A anlise do cesto de compras por transao foi executada tomando-se os campos de

srie da nota fiscal e nota fiscal concatenados, a fim de se obter um identificador nico
para cada transao, um identificador do ticket de venda. Uma mesma transao que tem
conseqentemente a mesma nota fiscal pode conter mais de um produto; aqueles produtos
que so vendidos juntos com maior freqncia devem, naturalmente, ter maior relao entre
si.
As seguintes dimenses foram tomadas na anlise do cesto de compras por transao:

Anlise por produto, ou seja, atomizada ao nvel de SKUs;

Anlise por linha de produto que representa os produtos substitutos de


acordo com a classificao adotada pela EMPRESA;

Anlise por setor da loja, de acordo com a classificao adotada pela


EMPRESA.

Como mostrado anteriormente, duas medidas so essenciais na anlise do cesto de


compras: o suporte e a confiana. O suporte representa a porcentagem de vezes em que a
regra aparece, ou seja, sua freqncia. A confiana representa, numa regra do tipo se A ento
B, a porcentagem P de transaes onde, dado que ocorre A, tambm ocorre B a grosso
modo, a probabilidade de que quem compra o produto A tambm ir comprar o produto B. O
pacote de minerao de dados utilizado infere todas as regras existentes automaticamente,
tomando sempre como entrada o campo que identifica a transao, e quais os parmetros de
suporte e confiana mnimos desejados. Se estes parmetros forem muito altos, o nmero de
regras gerado pequeno, no trazendo resultados interessantes; e por outro lado, se o suporte
e/ou confiana exigidos forem muito baixos, so geradas regras em demasia, dificultado sua
interpretao e anlise. Por isso, em todas as anlises efetuadas os parmetros de suporte
mnimo e confiana mnima foram selecionados iterativamente, de acordo com o nmero de
regras gerado.
Os resultados foram sempre ordenados segundo o multiplicador Support * Confidence,
que balanceia modelos com maior suporte e confiana. A melhoria encontrada com cada regra
lift tambm foi medida, representando o quanto a freqncia medida maior que o
esperado. Na modelagem buscou-se por regras com associao positiva onde a compra do
item A influencia positivamente a compra do item B ou negativa onde quem compra o
item A no compra o item B.
88

Anlise por Produto


Support(%) Confidence(%) Rule
Support*
Confidence
0.4613
60.0000
0.0028

Lift

Type Rule Body

11.4000

0.1538

59.0900

0.0009

11.2300

0.0828

70.0000

0.0006

538.0500

0.0946

66.6700

0.0006

12.6700

Rule Head

[VENT ARNO30]

==> [PANELA PR
CLOCK]
[VENT
==> [PANELA PR
ARNO30(0,08KW/H]
CLOCK]
[PANELA AV
==> [PANELA AV
NIGRO]
NIGRO]
[VENT MALLORY ==> [PANELA PR
110]
CLOCK]

Tabela 4 Resultados da anlise do cesto de compras por produto, abordados por transao

Como se pode observar na tabela acima, aparentemente h forte relacionamento entre


os produtos ventiladores e panelas. Tomando como exemplo a primeira linha da tabela,
vemos que a regra VENT ARNO30 PANELA CLOCK positiva, e ocorreu em
0,46% das transaes. De cada 100 compradores do ventilador, 60 tambm compraram a
panela, j que a confiana de 60%. De acordo com a melhoria (lift) alcanada, isso
representa, uma ocorrncia 11,4 vezes maior do que a freqncia esperada estatisticamente,
dadas as freqncias isoladas dos produtos.
Os resultados mostrados na Tabela 4 foram obtidos adotando-se suporte mnimo de
0,05% um limite inferior consideravelmente baixo. Mesmo assim, o nmero de regras
obtidas foi pequeno apenas 45 fato este que deve ser atribudo grande quantidade de
produtos presentes no universo de dados, e conseqentemente a freqncia de cada produto,
independente de estar associado ou no, sempre baixa. Mesmo assim, nas regras obtidas h
boa confiana e grande melhoria.

Anlise por Linha de Produto


Support(%)

Confidence(%)

Lift

26.3200
42.8600

Rule
Support*Confidence
0.0020
0.0003

0.7688
0.0710
0.0710

Type Rule Body

37.5000

0.0003

25.3700 +

3.9300 +
47.6800 +

Ventiladores
Acessrios para
videogames
Bolas de jogar

Rule Head
==>
==>

Panelas
Videogames

==>

Brinquedos

Tabela 5 - Resultados da anlise do cesto de compras por linha de produto, abordados por transao

Outras regras foram geradas pelo software utilizado, mas como seu tipo neutro e a melhoria diferente de 1, as
regras no podem ser consideradas vlidas e foram excludas. O mesmo procedimento foi efetuado em anlises
semelhantes.

89

As linhas de produtos so agrupamentos de produtos definidos pela EMPRESA, e


foram utilizadas como forma de aglutinar os produtos semelhantes. A agregao de produtos
um artifcio usual na anlise do cesto de compras, e normalmente faz com que o nmero de
regras distintas encontradas aumente, j que as ocorrncias de transaes de suporte s regras
aumenta com o uso de registros semelhantes agregados.
Os resultados obtidos na anlise por linha de produto confirmam as anlises por
produto, uma vez que de cada 100 compradores de ventiladores (de qualquer marca e
modelo), cerca de 26 tambm compraram panelas. Os resultados tambm mostram
relacionamentos importantes entre acessrios para videogames e videogames; e entre bolas de
jogar e brinquedos educativos.

Anlise por Setor


Na anlise por setor da loja, o nmero de regras encontradas foi muito baixo, forando
a diminuio dos limites mnimos de suporte e confiana. Adotando-se suporte mnimo de
0,01% e confiana mnima de 5%, obteve-se:
Support(%) Confidence Rule
Lift
(%)
Support*
Confidence
0.0118
50.0000
0.0001
100.6500

Type

Rule Body

0.0118

50.0000

0.0001

3.6000

0.0118

20.0000

0.0000

0.9000

0.0355

8.3300

0.0000

10.5200

Telefonia +
Acessrios de lazer
diversos
Decorao, cozinha e
outros + Cama, mesa,
banho e malas
Utilidades
domsticas +
Produtos de lazer
diversos
Aparelhos de som

Rule Head
==>

Produtos para casa e


outros

==>

Roupas e acessrios
para crianas

==>

Decorao, cozinha
e outros

==>

Eletro-eletrnicos e
acessrios

Tabela 6 - Resultados da anlise do cesto de compras por setor, abordados por transao

Os resultados indicam que a anlise por setor no parece ser ideal, dado o grande
nmero de produtos (aparentemente no relacionados) dentro de um mesmo setor, fazendo
com que as regras obtidas no sejam fortes. Possivelmente, uma reorganizao dos setores,
visando a colocao de produtos relacionados dentro de um mesmo setor, traria resultados
consistentes com as anlises por produto e por linha de produto.

90

Anlises por Taxonomias


Uma taxonomia de produtos representa a diviso hierrquica subentendida entre eles;
ou, em outras palavras, os nveis de agrupamentos existentes entre os produtos. De acordo
com a taxonomia adotada pela EMPRESA, os produtos so separados por setor, e cada setor
ento dividido em vrias linhas de produtos. Cada linha de produto constituda por produtos
substitutivos; cada setor, idealmente, deve ser constitudo por vrios grupos de produtos
substitutos, que so complementares entre si, conforme mostrado na seo Elasticidades
cruzadas, pg. 55.
O software de minerao de dados utilizado permite que seja informada a taxonomia
existente entre os produtos, para que ela seja considerada na anlise do cesto de compras.
Desta forma, as freqncias de ocorrncia so pesquisadas no s num nvel hierrquico
especfico, mas tambm de maneira cruzada, buscando relacionamentos entre produtos e
linhas de produtos; entre setores e linhas de produtos, e assim por diante.
Alm das anlises mostradas, outras anlises foram efetuadas levando-se em
considerao a taxonomia existente entre produtos, linhas de produto e setores. Foram
conduzidas anlises considerando as taxonomias: (1) Linhas de Produto Produto; (2) Setor
Linha de Produto; e finalmente (3) Setor Linha de Produto Produto. Todos os
resultados confirmaram e reforaram as anlises anteriores (por produto, linha de produto e
setor, sem considerar a taxonomia entre eles), conforme pode ser observado em algumas das
regras evidenciadas, na tabela abaixo.
Support(%) Confidence Type
(%)

Rule
Lift
Support*
Confidence

Rule Body

Rule Head

0.4613

60.0000

0.0028

11.4000 [VENT ARNO30]

0.7688

26.3200

0.0020

5.0000

0.1538

59.0900

0.0946

66.6700

0.0710

42.8600

==>

[PANELA PR CLOCK]

em ==>

[PANELA PR CLOCK]

0.0009

11.2300 [VENT
==>
ARNO30(0,08KW
/H]

[PANELA PR CLOCK]

0.0006

12.6700 [VENT
MALLORY 110]

[PANELA PR CLOCK]

0.0003

47.6800 Acessrios
videogames

Ventiladores
geral

==>

para ==>

Videogames

Tabela 7 Exemplos de regras da anlise do cesto de compras abordado por transao, com uso de
taxonomias entre os produtos

91

4.1.1. Concluses da Anlise do Cesto de Compras por Transao


A partir de todas as anlises efetuadas por transao onde as regras so geradas a
partir de uma compra casada de produtos os seguintes grupos de produtos puderam ser
considerados inter-relacionados:

Ventiladores X Panelas. Aparentemente o relacionamento mais forte, j que


pde ser observado at no nvel individual de produtos (Tabela 4), e repetiu-se
na anlise por linha de produtos com confiana de 26% (Tabela 5), e tambm
na anlise com uso das taxonomias, em diversas regras.

Acessrios para videogames X Videogames. Observada inicialmente na anlise


por linha de produto com confiana de quase 43% e uma melhoria de mais de
47 vezes (Tabela 5), repetiu-se na anlise com uso das taxonomias, como pode
ser visto na Tabela 7.

Bolas de jogar X Brinquedos educativos. Tambm com forte confiana


(37,5%) e melhoria (25,4), segundo a anlise por linha de produto (Tabela 5).

4.2.

Anlise do Cesto de Compras por Cliente


A anlise do cesto de compras por cliente visa estabelecer quais produtos um mesmo

cliente compra ao longo do tempo. Como muitas das transaes da EMPRESA so


identificadas (sabe-se quem o comprador), a anlise do cesto de compras pode ser executada
horizontalmente, estabelecendo freqncias de compra ao longo do tempo. Ou seja, ao invs
de registrar as regras observadas atravs de compras casadas (numa mesma transao), a
anlise por cliente busca por regras observadas ao longo do tempo; quando um mesmo cliente,
aps adquirir o produto A, retorna loja para adquirir o produto B.
Para executar esta anlise foram levantados os identificadores de clientes: o
documento apresentado (RG) ou o nmero do carto do cliente na rede da EMPRESA. Uma
vez que nem todos os registros dispunham de nmero do carto do cliente (apenas os clientes
que j realizaram alguma compra prazo na EMPRESA), os registros foram cruzados e
comparados, obtendo-se um identificador nico para cada cliente. Mesmo assim, muitos
registros (cerca de 40%) no puderam ser identificados: tratam-se de transaes annimas, e
que, portanto, no puderam ser analisadas. Por este motivo, e tambm porque o
comportamento de compra dos consumidores pode ser muito diferente quando realiza
92

compras casadas e quando as faz ao longo do tempo, j era esperado que a anlise do cesto de
compras por clientes no trouxesse os mesmos resultados que a anlise por transaes.
Com a criao dos identificadores nicos dos clientes, as compras realizadas por um
mesmo cliente ao longo do tempo foram computadas pelo sistema de minerao de dados
como pertencentes a uma mesma transao, e assim as anlises do cesto de compras por
clientes puderam ser conduzidas, levando-se em considerao as mesmas dimenses das
anlises anteriores.

Anlise por Produto


Support
(%)
0.3194

Confidence
(%)
51.5200

Type Rule Support Lift


* Confidence
+
0.0016
60.9300

0.2067

25.5800

0.0005

2.2100

0.1315

35.0000

0.0005

3.0300

0.0752

57.1400

0.0004

4.9400

0.0939

45.4500

0.0004

3.9300

0.0564

75.0000

0.0004

665.2500

0.0564

50.0000

0.0003

665.2500

0.0564

50.0000

0.0003

102.3500

0.0939

26.3200

0.0002

4.5500

0.0564

42.8600

0.0002

10.2300

0.0564

42.8600

0.0002

3.7100

0.0752

25.0000

0.0002

57.8500

0.0564

30.0000

0.0002

114.0400

0.0564

27.2700

0.0002

6.5100

0.0564

27.2700

0.0002

2.3600

0.0564

25.0000

0.0001

51.1700

0.0564

25.0000

0.0001

27.7200

Rule Body
[CANECA
OXFORD]
[TEL PADRAO
CHAVE IBR]
[MOT BAND TT
GATINHA]
[POP MAG TOY
MC LAREN]
[TAPETE J
SERRANO]
[SUPORTE
GALZERANO]
[BANH BABY
PLASUTIL]
[BOLA VIN PIU
PIU]
[BIC ERG
VITALLI]
[VIDEO GAME
DYNACOM]
[PT RS
SCHMIDT]
[CJ ARROZ
ATHENAS TRA]
[CJ COPOS
CISPER]
[POP LON JUN
PEAOGUGU]
[POP ROS CAM
CEBOLINH]
[EDUC EL PAU
CARIMBOS]
[PROCES
WALITA 110]

Rule Head
==>

[CANECA OXFORD]

==>

[TEL PADRAO
CHAVE IBR]
[TEL PADRAO
CHAVE IBR]
[TEL PADRAO
CHAVE IBR]
[TEL PADRAO
CHAVE IBR]
[BANH BABY
PLASUTIL]
[SUPORTE
GALZERANO]
[BOLA VIN VOLLEY]

==>
==>
==>
==>
==>
==>
==>
==>
==>
==>
==>
==>
==>
==>
==>

[LIQ WAL
1(0,250KWH)]
[FERRO B&D
V1(1,20KWH]
[TEL PADRAO
CHAVE IBR]
[CJ MASSA ATHENAS
TRA]
[JARRA CISPER]
[FERRO B&D
V1(1,20KWH]
[TEL PADRAO
CHAVE IBR]
[EDUC EL PAU
CARIMBOS]
[LIQ WAL
1(0,350KWH)]

Tabela 8 - Resultados da anlise do cesto de compras por produto, abordados por cliente

93

De acordo com o conjunto de regras formadas, percebe-se que de maneira geral o


mesmo cliente retorna loja para comprar o mesmo produto, ou um produto muito
semelhante, ou um produto complementar.
Os relacionamentos encontrados na anlise por transao a princpio no se repetiram,
conforme pode ser observado na Tabela 8. Tomando por exemplo a ltima regra da tabela,
vemos que um mesmo cliente compra o produto processador Walita, e tambm compra o
produto liquidificador Walita, sendo que esta regra tem suporte de 0,0564% total de
observaes da regra e confiana de 25% de cada 4 clientes que compraram o
processador, 1 tambm comprou o liquidificador. A melhoria foi de 27,7, o que significa que
a regra ocorreu cerca de 27 vezes mais do que o esperado estatisticamente, de acordo com a
freqncia de observaes dos produtos.

Anlise por Linha de Produto


Os resultados da anlise horizontal por linha de produtos tambm diferiram bastante
daqueles obtidos na anlise por transao, como mostrado abaixo:
Support
(%)

Confidence
(%)

Type Rule
Support*
Confidence

Lift

Rule Body

0.0939

83.3300

0.0008

5.9200

Ferros de passar

==>

Telefonia

0.0752

100.0000

0.0008

32.2500

Liquidificadores +
Batedeiras

==>

Liquidificadores

0.0752

100.0000

0.0008

6.6400

Processadores +
Batedeiras

==>

Processadores

0.1691

39.1300

0.0007

2.6000

Videogames

==>

Ferros de passar

0.0752

66.6700

0.0005

4.7400

Panelas + Brinquedos

==>

Telefonia

0.0939

50.0000

0.0005

3.3200

Telefonia

==>

Liquidificadores

0.0564

75.0000

0.0004

221.7500 Criado mudo

==>

Mesas

0.0564

75.0000

0.0004

4.9800

Liquidificadores

==>

Ferros de passar

0.0564

60.0000

0.0003

4.2600

Ferros de passar +
Brinquedos

==>

Telefonia

0.0939

35.7100

0.0003

6.7900

Brinquedos

==>

Brinquedos

0.0564

50.0000

0.0003

5.0900

Ferros de passar

==>

Brinquedos

0.0752

28.5700

0.0002

5.4100

Telefonia +
Processadores

==>

Ferros de passar

0.0564

33.3300

0.0002

253.4300 Acessrios para banheiro ==>

Banheiras

0.0564

33.3300

0.0002

3.0200

Brinquedos

Cadeira de beb

Rule Head

==>

Tabela 9 - Resultados da anlise do cesto de compras por linha de produto, abordados por cliente

94

Anlise por Setores


Repetindo os resultados na anlise por transaes, esta anlise no trouxe regras
vlidas ou significativas, comprovando que a diviso de setores adotada pela EMPRESA
parece no corresponder aos relacionamentos existentes entre os produtos, do ponto de vista
do comportamento de compra dos consumidores.

Anlises por Taxonomias


Repetindo o procedimento adotado na anlise por transao, foram conduzidas
anlises considerando as taxonomias Linhas de Produto Produto; Setor Linha de
Produto; e finalmente Setor Linha de Produto Produto. Os resultados das anlises por
produto e por linha de produto foram confirmados.

4.2.1. Concluses da Anlise do Cesto de Compras por Cliente


Durante as anlises por cliente efetuadas, as regras obtidas nas anlises por transao
no foram confirmados, indicando que o comportamento de compra do consumidor
diferente quando ele compra ao longo do tempo e quando compra de imediato (compra casada
ou compra por impulso). Tendo em vista o objetivo final de previso de vendas com dados
atomizados de produtos relacionados, os resultados da anlise de cesto de compras indicaram
que as seguintes linhas de produtos merecem ser estudados em conjunto:
Linhas de Produtos
Ventiladores
Processadores
Liquidificadores
Ferros de passar
Batedeiras
Videogames
Acessrios para videogames
Tapetes
Mesa
Criado mudo
Telefonia
Pratos
Panelas
Bicicleta ergomtrica
Banheira
Cadeira beb
Acessrios para banheiro
Bolas
Brinquedos diversos

Tabela 10 Lista de Linhas de Produtos relacionadas resultados preliminares

95

4.3.

Confirmao da Anlise do Cesto de Compras


Uma nova fase de anlise foi conduzida buscando confirmar e refinar os resultados.

Para esta nova fase de testes, apenas os produtos pertencentes s linhas de produtos
aparentemente relacionadas listadas na Tabela 10 foram considerados. Todos os
registros dos demais produtos foram descartados.
A idia central por trs desta confirmao de resultados que separando-se os
produtos com alguma afinidade previamente selecionados, e conduzindo-se uma anlise do
cesto de compras apenas com tais produtos, a freqncia de observao das regras deve ser
aumentada, j que os demais produtos foram descartados do universo analisado. Assim,
aumenta-se o suporte das regras, e possvel notar com mais ateno os relacionamentos mais
recorrentes.
Todas as anlises anteriores foram repetidas: anlises orientadas por transao e por
cliente, com base nos produtos, linhas de produtos e setores, e nas taxonomias
correspondentes. Os resultados confirmaram a maior parte das regras levantadas
anteriormente, sendo que as seguintes linhas de produtos apresentam os relacionamentos mais
fortes:
Linhas de Produtos
Ventiladores
Processadores
Liquidificadores
Ferros de passar
Batedeiras
Videogames
Acessrios para videogames
Tapetes
Mesa
Criado mudo
Telefonia
Pratos
Panelas
Brinquedos diversos

Tabela 11 - Lista de Linhas de Produtos relacionadas

A Figura 19 mostra um exemplo de grfico esquemtico dos produtos e


relacionamentos encontrados durante as anlises do cesto de compras, a ttulo de ilustrao
dos relacionamentos obtidos. Ela gerada pelo software de minerao de dados, e mostra
atravs da espessura das setas a fora dos relacionamentos obtidos, e atravs de cores as
diferentes anlises processadas. Como os resultados incluem anlises processadas com uso
das taxonomias de produtos, alm da sinalizao dos produtos, h tambm em alguns casos a
96

indicao da linha de produto ou setor da loja. Para a obteno da figura, segue-se um


processo interativo, onde os relacionamentos so plotados pelo sistema de minerao de
dados, e so manipulados atravs de arraste na tela pelo usurio, separando e agrupando os
relacionamentos mais importantes.

Figura 19 Relacionamentos entre produtos detectados nas anlises do cesto de compras

Tendo em vista o objetivo final de previso de vendas com dados atomizados de


produtos relacionados, e buscando reduzir o nmero de produtos a serem considerados nas
97

previses, foi realizada uma inspeo visual na Figura 19, buscando por produtos que, apesar
de relacionados entre si, no formam um grupo coeso com a maioria dos produtos
relacionados.
A inspeo visual mostrou que as seguintes linhas de produtos esto conectadas,
formando um grupo coeso e conseqentemente um centro de interesse aparente:
Linhas de Produtos
Ventiladores
Processadores
Liquidificadores
Ferros de passar
Batedeiras
Telefonia
Panelas
Brinquedos diversos

Cdigo
204
212
217
219
237
1300
1443
1805, 1810, 1817,
1826, 1838

Tabela 12 Centro de interesse detectado

Os demais produtos, como por exemplo videogames e acessrios para videogames,


apesar de possurem forte relao entre si, no formam um grupo coeso com os produtos
acima, fazendo parte portanto de outro centro de interesse. A fim de minimizar o nmero de
produtos a ser modelado para previso de vendas, e analisar apenas produtos que estejam
relacionados entre si, apenas um centro de interesse foi considerado. Todos os registros dos
demais produtos foram descartados.
Dessa forma, concluiu-se a anlise do cesto de compras, que teve como conseqncia
direta a diminuio no volume de dados a serem previstos apenas os produtos com grande
afinidade, listados na Tabela 12, foram preservados para as fases de tratamento e previso
seguintes. Alm da diminuio na quantidade de produtos analisados, a separao do grupo de
produtos pertencentes a um centro de interesse foi utilizada posteriormente como uma
informao adicional, na tentativa de melhorar a capacidade preditiva dos modelos de
previso baseados em redes neurais.

5. Tratamento dos Dados para Previso


O primeiro passo na preparao de dados foi agregar as vendas atomizadas
semanalmente, para dessa forma trabalhar com a variao semanal das variveis
independentes. Algumas variveis tiveram de ser transformadas para representar as
peculiaridades do composto de marketing e demais caractersticas das vendas ao longo da
98

semana considerada. Por exemplo, foram tomadas as mdias dos preos praticados por
produto ao longo da semana, os juros mdios por produto foram calculados de acordo com as
prestaes da venda, e assim por diante. Um novo banco de dados foi ento formado, e seu
dicionrio consta do ANEXO C.
Em resumo, as variveis independentes disponveis pela EMPRESA eram:
Varivel
Semana
PrecoMedioSemanal
JurosMedioSemanal
Pprazo
Id_produto, Produto, Linha, Setor,
Id_marca
Classe, Classe_distribuicao

Comissao
Estoque, Estoque_dias,
Reposio_dias, Mostruario, Grade
Campanha, Camapanha_agressiva,
Veiculaes

Variveis com lag de tempo

Utilizao
Varivel de tempo, contabilizando as semanas seqencialmente. A
contagem inicia-se em 01/11/1998, considerada como semana 1. A
ltima semana, que se inicia no dia 26/05/2002, a semana 187.
Mdia de preo praticado por produto, durante a semana
correspondente.
Taxa de juros mdia praticada por produto, durante a semana
correspondente.
Porcentagem de vendas realizadas prazo na semana anterior.
Variveis de identificao do produto.
A EMPRESA adota duas classificaes distintas para um mesmo
produto: uma baseada no giro do produto, e outra baseada no tipo de
compra/distribuio a que ele est submetido. Ambas, entretanto,
identificam parmetros de alta, mdia ou baixa venda, venda sob
encomenda, venda sem mostrurio, venda direta do fornecedor, e
produto fora de linha.
Indica se o produto entra na comisso dos vendedores na semana
correspondente.
Representam a disponibilidade do produto, seja em estoque, em
mostrurio, ou em prazo de entrega/reposio.
Variveis que medem o esforo promocional efetuado na semana. Para
esforos corporativos, todos os produtos receberam o mesmo valor para
a varivel Campanha no perodo correspondente; as campanhas
agressivas focaram apenas alguns grupos de produtos; enquanto
Veiculacoes mede a exposio das campanhas na mdia.
Foram testadas variveis com lag de tempo para aquelas onde se
detectou correlaes horizontais.

Tabela 13 Principais variveis independentes usadas nos modelos de previso semanal

Com a sumarizao dos produtos pertencentes ao centro de interesse evidenciado, e


agregao dos dados em semanas, restaram 12.560 registros representando as vendas
semanais de 881 produtos distintos.
Foram realizadas investigaes exploratrias nos dados, onde se detectou que as linhas
de produtos esto relativamente equilibradas quanto ao nmero de registros, com certa
predominncia de transaes nas linhas de brinquedos. Foram traados boxplots das vendas
por produto, linha de produto e setor. Todos mostraram muitos outliers, inviabilizando a
retirada manual dos outliers. Todos os desvios-padro mostraram-se altos, o que indica
potencialmente uma baixa previsibilidade nos dados.

99

1000

800

36

75

600

166
50

56
22

400

162
122
114
62
10

12
114
25

TOTAL7

200

34
69
80
181
1
6
166
54
3
80
14
10
176
7
8
69
80
166
44
59
122
3
8
1
103
80
114
58
0
64
102
79
62
132
26
7
23
60
7
79
19
14
112
63
7
2
114
9
6
4
148
8
80
2
7
70
7
79
150
170
21
184
84
80
62
122
118
24
22
58
20
152
71
6
8
27
183
60
174
70
131
37
46
149
25
164
0
1
64
88
62
45
15
78
73
21
54
72
67
47
16
38
24
74
52
61
167
163
89
79
153
12
6
165
102
82
25
143
44
83
101
26
7
114
59
91
100
11
65
157
158
9
57
5
8
36
17
28
22
103
184
68
81
32
171
168
9
3
42
115
93
19
27
35
172
66
112
60
97
88
37
84
98
2
7
1
71
181
116
38
124
23
183
53
14
33
43
39
120
47
3
125
4
34
31
118
62
59
18
29
49
99
51
179
170
90
58
132
166
92
82
111
144
50
46
114
57
113
161
176
101
26
45
85
2
5
08
03
5
7
98
115
40
44
89
67
121
103
122
102
56
65
41
69
75
27
106
48
109
186
148
87
8
10
83
134
169
1
124
184
174
11
12
157
80
116
182
1
3
84
61
183
25
171
86
127
39
73
81
177
163

26
76
62
54
63
49
36
58
55
53
50
51
52
48
62
64
57
56
60
37
47
59
69
66
61
65
41
44
39
66
68
42
74
84
40
43
5
8
83
45
41
48
75
67
46
11
78
72
22
23
9
7
25
93
27
15
82
73
85
36
0
6
38
84
87
80
10
92

27
52
135
28
183
131
8
132
164
163
153
12
80
58
161
14
88
63
122
174
6
7
13
11
81
19
148
3
184
175
1
1
170
171
160
8
4
54
174
168
92
114
9
11
54
2
118
145
162
9
66
48
56
7
80
33
30
141
150
35
179
36
60
135
127
112
29
169
144
134
159
173
34
152
146
142
158
98
87
166
65
119
151
37

50
8
60
8
7
112
8
62
49
59
60
1
8
49
12
60
112
164
6
7
49
0
164
4
60
102
9
6
8
0
49
153
59
112
5
164
60
102
50
154
9
1
8
64
49
58
102
60
112
50
5
8
101
164
9
1
7
49
154
163
64
12
58
111
50
112
59
8
6
102
164
54
53
4
1
7
60
101
49
154
9
12
5
165
0
152
110
8
105
174
51
12
80
92
5
50
63
27
112
8
101
59
153
7
58
164
122
1
6
154
113
165
60
102
111
163
62
0
64
13
55
01
02
83
10
9
175
4
48
103
57
170
49
104
61
162
9
65
63
54
14
16
127
93
155
64
174
19
65
25
98
142
82
70
90
105
47
56
181
69
179
89
117
17
109
152
37
13
15
110
72
38
18
185
8
1
53
12
11
11
100
33
173
73
75
71
171
125
87
88
92
145
55
120
147
28
66
116
178
180
123
160
24
144
8
165
6
134
36
164
102
154
111
153
132
136
67
81
40
41
23
20
51
168
118
184
186
176
177
84
135
5
60
58
59
157
101
7
1
2
112
54
53
163
50
62
113
5
0
2
39
02

-200
N=

4523

758

1001

6277

13

14

18

SETOR
Figura 20 Boxplot do total de vendas semanal por setor, indicando a presena de muitos outliers

A Figura 20, por exemplo, mostra o total de produtos vendidos numa mesma semana,
separados por setor. No eixo horizontal, v-se os quatro setores selecionados (setor 2, setor
13, setor 14 e setor 18), com o total de registros em cada setor. Como pode ser observado na
figura, no so evidenciados os quartis usuais do grfico boxplot; ao invs disso, o que se v
so muitos outliers (mostrados como nmeros correspondentes s semanas em que
ocorreram), e uma mdia de vendas semanal por produto prxima de zero.
Tambm foram traados grficos lineares de vendas semanais e mensais por linha e
setor. Os grficos mostraram que h forte sazonalidade, e os picos de vendas so muito
expressivos, conforme pode ser visto na Figura 21. A figura mostra as vendas mdias
semanais por setor da EMPRESA, cada setor representado por uma cor diferente. Como pode
ser visto em algumas semanas (como no fim do ano, nas semanas 49 a 52) ocorrem picos de
vendas acentuados em todos os setores, porm os picos diferem de um setor para o outro, o
mesmo se repetindo para as linhas de produtos analisadas.

100

7000
6000
5000
4000

SETOR
3000

Sum TOTAL7

2
2000

13

1000

14

18
1

7
4

13
10

16

19

25

22

31

28

37

34

40

43

49

46

52

Semana_ano
Figura 21 Mdias de vendas semanais por setor, indicando forte sazonalidade e picos de vendas

5.1.

Transformaes Realizadas
Vrios autores mostraram que os padres nos dados cuja distribuio difere muito da

normal so de difcil assimilao por modelos quantitativos, incluindo-se aqueles gerados


com uso de tcnicas de minerao de dados (TUKEY et al., 1983; BERRY & LINOFF, 1997;
HAND, 1998). A fim de contornar esta limitao, comum a aplicao de transformaes nos
dados, para que estes tenham uma distribuio mais prxima da normal, e assim possam gerar
modelos mais precisos (mais aderentes realidade).
A fim de avaliar a necessidade de transformaes nos dados, todas as variveis
numricas foram apreciadas, sendo realizadas as seguintes operaes:

Plotagem no tempo;

Construo de boxplot total, separado por setor e por linha;

Construo de histogramas total, separado por setor e por linha.

101

Todas

as

variveis,

com

exceo

de

JurosMedioSemanal,

apresentaram

comportamentos no-desejados, com distribuies muito distantes da normal. Partiu-se ento


para uma transformao nas variveis. As transformaes necessrias foram obtidas atravs
do grfico disperso versus nvel (LogM X LogDf), de acordo com o procedimento descrito
por TUKEY et al. (1983):
Log Df = k + b.Log M (Equao XV)

onde M a mediana da varivel tomada neste caso, por linha de produto


e Df a medida do inter-quartil da mesma varivel. Uma vez traada a melhor reta para a
Equao XV, aproximado o valor de b, que indica a melhor transformao nos dados:
Transformao: Z = x1-b (Equao XVI)

A descrio completa das transformaes testadas e resultados obtidos encontra-se no


ANEXO D. A tabela a seguir sintetiza as transformaes que melhor ajustaram os dados:

Varivel
Estoque
Estoque_dias

Transformao
Z = log x

Reposicao_dias
Mostruario
Grade
Total7
PrecoMedioSemanal
Pprazo
JurosMedioSemanal

Nenhuma
Z = log x
Z = log x
Z = log x
Z = x0,2
Nenhuma
Nenhuma

Z=

1
x2

Nova varivel
Estoque_log
Estoque_dias-2

Testar original?
N
S

Mostruario_log
Grade_log
Vendas_log
Preco_pot

S
n
n
n

Tabela 14 Transformaes aplicadas aos dados

5.2.

Testes de Correlaes
Foram realizados testes de correlao entre todas as variveis independentes a serem

utilizadas, a fim de visualizar aquelas com maior impacto para a modelagem e estabelecer
uma linha mestra para a seleo das variveis a serem testadas nos modelos baseados em
redes neurais.
A matriz de correlao entre as variveis independentes mostrou forte relacionamento
entre:

102

Correlaes entre variveis independentes


Estoque_log
Grade_log
Mostruario_log
Preco_pot
Classe_distribuicao
Classe

Correlao Pearson
0,590
-0,459
0,556

Nvel significncia
0,01
0,01
0,01

Tabela 15 Correlaes significativas detectadas entre as variveis independentes

Como as correlaes Pearson so altas (maiores que 0,4 em mdulo), nos modelos
criados foi tentada a retirada de uma das variveis relacionadas. Isso torna a modelagem mais
simples e com maior capacidade de extrapolao, e supe-se que no ocasione perda de
capacidade preditiva e (GROSS & PETERSON, 1983).
J as correlaes entre as variveis independentes e a varivel dependente (total de
vendas na semana) resultaram em apenas duas correlaes estatisticamente significativas:
Varivel independente
Estoque_log
Pprazo

Correlao Pearson com Vendas Nvel significncia


0,439
0,01
-0,648
0,01

Tabela 16 - Correlaes significativas entre as variveis independentes e a varivel dependente

Visando confirmar visualmente os resultados das anlises de correlao, foram


desenhados grficos do tipo scatterplot para todas as variveis correlacionadas. Os grficos
mostraram claramente que as correlaes so verdadeiras, com exceo possivelmente da
correlao Classe_distribuio X Classe, onde no possvel identificar padres no grfico.
Os grficos scatterplot das correlaes esto mostrados no ANEXO E.

5.3.

Testes de Autocorrelao e Correlaes com Lag de Tempo


Quanto maior o coeficiente de correlao (em mdulo), mais forte a associao entre

duas variveis. Entretanto, no basta analisar apenas as correlaes das variveis num dado
instante numa determinada semana, como o caso desta pesquisa. Uma varivel pode ter
impacto em outra apenas depois de determinado perodo de tempo, ou seja, sua mudana ou
ocorrncia pode afetar as vendas aps determinado perodo (lag) de tempo.
A fim de detectar possveis associaes com lag de tempo, faz-se necessrio o estudo
das autocorrelaes correlao da varivel dependente com ela mesma e das correlaes
com lag de tempo correlaes das variveis independentes com as vendas, sendo as
primeiras tomadas com lag de tempo.
As correlaes parciais com o total de vendas na semana foram computadas para todas
as variveis, sendo obtidos os seguintes resultados estatisticamente significativos:
103

Varivel
Grade
Estoque
PrecoMedio
JurosMedio
Vendas

Semanas anteriores correlacionados com vendas


1,4
1
2,3
4
1, 2, 10, 42, 52

Tabela 17 Autocorrelaes e correlaes parciais verificadas

Os resultados indicaram a necessidade de modelagem com a utilizao das variveis


acima introduzidas com os lags de tempo respectivos, uma vez que elas podem ampliar a
capacidade preditiva dos modelos. Dessa forma, sero testadas, por exemplo, modelagens
onde a varivel Grade introduzida com lags de tempo de 1 e 4 semanas, indicando que,
possivelmente, uma alterao no seu valor afeta as vendas aps 1 semana, e tambm aps 4
semanas. Somente atravs de um processo de tentativa e erro introduzindo as variveis
acima com os lags respectivos nos modelos de previso que se poder verificar se h
melhoria na capacidade preditiva. As autocorrelaes so apenas um indicativo dos lags a
serem testados.

6. Modelagem com Uso de Redes Neurais


Uma vez preparados os dados e selecionadas as variveis a serem utilizadas, deu-se
incio ao processo de criao dos modelos de previso baseados em redes neurais artificiais. A
criao da rede neural propriamente dita feita atravs de um processo totalmente automtico
nos pacotes de minerao de dados, como foi o caso do software utilizado6. Uma vez
fornecidas as entradas (normalmente importadas atravs de Bancos de Dados ou mesmo
arquivos texto), e sadas a serem previstas (no caso, as vendas de cada produto, semana a
semana), o software de gerao de redes neurais inicia um processo de treinamento
automtico, onde so testadas inmeras topologias de rede e parmetros de treinamento.
Aps o treinamento (que para o conjunto de dados utilizado levou de 3 a 12 horas, por
rede neural) o sistema fornece qual a melhor rede obtida nmero de camadas
intermedirias, nmero de ns nestas camadas, quais parmetros de treinamento foram
utilizados e quais os resultados que ela gera para o conjunto de dados de treinamento:
coeficiente de ajuste (R2), erro quadrado mdio, desvio-padro dos erros, entre outros. Com a

Todos os modelos foram gerados com o uso do software de criao de redes neurais artificiais Megaputer
PolyAnalyst 4.5, que gera redes Perceptron multicamadas.

104

rede j treinada, pode-se utiliz-la para prever outros conjuntos de dados, verificando sua real
performance.
A primeira modelagem realizada foi dirigida somente avaliao das transformaes
utilizadas. Duas redes foram construdas, tomando como entrada as mesmas variveis, porm,
na primeira rede as entradas foram tomadas como variveis literais (sem transformao),
enquanto na segunda, elas foram transformadas como mostrado na Tabela 14. As redes foram
construdas utilizando-se todos os dados disponveis os softwares modernos de redes
neurais j separam os dados em grupos de treinamento e validao para previso com
prazo de uma semana.
Os resultados mostraram claramente os benefcios advindos das transformaes
aplicadas aos dados, como mostra a Tabela 18. A rede 1 sem transformaes obteve
Erro Quadrado Mdio (MSE) superior, e ajuste aos dados de treinamento sensivelmente
inferior rede 2 com todas as entradas numricas transformadas. Todos os modelos
gerados a partir de ento utilizaram como entradas as variveis transformadas.
Rede

Variveis de entrada

Varivel
Prevista

Ns

Camadas

R2

Id_produto, Comissao, Setor, Linha,


Id_marca, Classe, Classe_distribuicao,
Estoque, Estoque_dias, Reposicao_dias,
Mostruario, Grade, Semana,
PrecoMedioSemanal, JurosMedioSemanal,
Pprazo

Venda7

0,2194 17,5000

Id_produto, Comissao, Setor, Linha,


Id_marca, Classe, Classe_distribuicao,
Estoque_log, Estoque_dias-2,
Vendas_log 14
Reposicao_dias, Mostruario_log, Grade_log,
Semana, Preco_pot, JurosMedioSemanal,
Pprazo

0,6052 1,9306

MSE7

Tabela 18 Resultados das redes 1 e 2, comparando os efeitos das transformaes nos dados

6.1.

Seleo de Variveis de Entrada


Para as variveis cuja transformao no se mostrou suficiente para aproximar os

dados da curva Normal Estoque_dias e Mostruario foram gerados modelos com


todas as variveis transformadas, com exceo delas, uma a uma e em conjunto:

Rede Neural 3 varivel Estoque_dias sem transformaes;

O erro MSE teve foi ajustado varivel original, para fins de comparao na mesma unidade de medida.

105

Rede Neural 4 varivel Mostruario sem transformaes.

Os resultados provaram que, mesmo quando a transformao parece no ser adequada,


h melhoria no desempenho dos modelos de previso baseados em redes neurais, uma vez que
todos os modelos tiveram desempenho inferior quele obtido com a rede 2 com todas as
entradas transformadas.
Tambm foi testada a retirada das variveis com forte correlao entre si Estoque
X Grade e Mostruario X Preco (veja Tabela 15). Os resultados mostraram melhorias
quando se retira uma das variveis correlacionadas. As melhorias foram mais profundas na
retirada isolada da varivel Grade, o que de certa forma era esperado uma vez que a
quantidade em estoque tem forte correlao com as vendas (veja Tabela 16). Os novos
modelos construdos foram:

Rede Neural 5 varivel Estoque_log retirada;

Rede Neural 6 varivel Grade_log retirada;

Rede Neural 7 varivel Mostruario_log retirada;

Rede Neural 8 varivel Preco_pot retirada;

Rede Neural 9 variveis Mostruario_log e Grade_log retiradas


(provocaram melhorias mais sensveis dentre as anteriores).
Varivel
Prevista

Rede

Variveis de entrada

Ns

Id_produto, Comissao, Setor, Linha,


Id_marca, Classe, Classe_distribuicao,
Estoque_log, Estoque_dias-2,
Vendas_log 3
Reposicao_dias, Mostruario_log,
Semana, Preco_pot,
JurosMedioSemanal, Pprazo

Camadas

R2

MSE

0,6127 1,9187

Tabela 19 - Resultados da rede neural 6, sem a presena da varivel Grade

Como dito anteriormente, os softwares de gerao de redes neurais modernos tm a


capacidade de testar inmeras topologias de rede e configuraes de treinamento
automaticamente, fornecendo aquela com melhor ajuste (R2) possvel. Como se pode observar
nos resultados da Rede 6 (Tabela 19), a melhor topologia obtida foi aquela com 3 camadas
1 camada intermediria sendo que a camada intermediria foi composta de apenas 3 ns. O
erro nas previses dado pelo valor do MSE (Erro Quadrado Mdio). Nos modelos criados a
partir de variveis transformadas o erro no pode ser lido literalmente (em termos de unidades

106

de produtos), j que a diferena entre o previsto e o real foi tomada numa varivel
transformada (logartmica, no caso).
Alm das transformaes visando melhoria no comportamento das variveis de
entrada, alguns autores sugerem tambm o procedimento de padronizao das entradas
(WRAY et al., 1994), como forma de deixar todas as variveis numa mesma ordem de
grandeza, o que, dadas as caractersticas inerentes forma de treinamento e operao das
redes neurais, tende a melhorar seu desempenho. Outros dois modelos foram ento gerados,
para:

Entradas numricas padronizadas entre 0 e 1 (rede 10);

Todas as entradas padronizadas entre 0 e 1, inclusive as categricas (rede 11).

Os resultados mostraram que os procedimentos de normalizao e padronizao so


benficos para o desempenho das redes neurais. Entretanto, os modelos no conseguiram
assimilar as variveis categricas como numricas padronizadas, piorando seu desempenho.
Isso indica um bom trabalho dos softwares em lidar com as variveis categricas, mesmo que
estas estejam representadas por nmeros com ordem de grandeza muito superior s demais
variveis. A rede neural com melhor desempenho foi aquela com todas as variveis numricas
padronizadas entre 0 e 1:
Rede Variveis de entrada

Varivel
Prevista

Ns

Id_produto, Comissao, Setor, Linha,


Id_marca, Classe, Classe_distribuicao,
Estoque_logP, Estoque_dias-2P,
Vendas_log 26
Reposicao_diasP, Semana, Preco_potP,
JurosMedioSemanalP, PprazoP,
Mostruario_logP

10

Camadas

R2

MSE

0,6176 1,9108

Tabela 20 - Resultados da rede neural 10, com as entradas numricas normalizadas e padronizadas

Finalmente, buscou-se o tratamento dos registros contendo valores faltantes (missing)


de todas as variveis, com base nos demais registros existentes. Vrios mtodos de
preenchimento de valores faltantes, como tendncia linear e mdia foram tentados, mas em
nenhum deles obteve-se modelos com capacidade preditiva superior quela da rede 10.

6.2.

Incorporao de Variveis de Entrada


Aps a determinao do conjunto mnimo de variveis independentes e da melhor

forma de tratamento das entradas, deu-se incio ao processo de incorporao de novas


107

variveis que pudessem explicar as vendas, na tentativa de melhorar a capacidade preditiva


dos modelos atravs do fornecimento de informaes adicionais, aumentando a complexidade
dos modelos.
Foram geradas redes neurais incorporando-se as informaes complementares a
seguir.
1. Dados sobre a sazonalidade e passagem do tempo:

Semana_ano, representando a semana do ano, variando de 1 a 52;

Mes_ano, representando o ms do ano, variando de 1 a 12;

12 entradas binrias (0 ou 1), representando os meses do ano;

52 entradas binrias (0 ou 1), representando as semanas do ano;

No houve melhorias com o acrscimo destas variveis. A rede com melhor


resultado foi aquela com a medida original e isolada da varivel Semana,
mostrando que o modelo original foi capaz de assimilar a sazonalidade.
2. Anlise de lags de tempo das vendas (seguindo resultados da Tabela 17):

Vendas da semana anterior;

Vendas de 2a semana anterior;

Vendas de 10a semana anterior;

Vendas da 42a semana anterior;

Vendas da 52a semana anterior;

Vendas da 52a, 42a, 10a, 2a e semana imediatamente anterior;

Todos os casos anteriores conjugados;

Todos os casos anteriores, preenchendo-se valores missing;

Os resultados mostraram que houve melhoria com a adoo das variveis de


vendas com lag de tempo, desde que os missing values fossem preenchidos.
Neste caso o valor adotado nos registros faltantes foi igual ao ltimo (prximo
no tempo) valor conhecido, ou igual a 0 se no houver nenhum outro valor
disponvel. Ressalta-se que a melhoria de desempenho foi visvel apenas nos
lags de 1 e 2 semanas, sendo muito mais pronunciado com o uso apenas do lag
de 1 semana (Rede 26), e sendo indiferente a adoo de ambos.
3. Anlise de lags de tempo das variveis independentes (conforme Tabela 17):
108

Grade do produto (quantidade especificada a ser mantida por loja) da


semana anterior;

Grade do produto na 4a semana anterior;

Estoque na semana anterior;

Preo na 2a semana anterior;

Preo na 3a semana anterior;

Juros mdio na 4a semana anterior;

Todos os casos anteriores, preenchendo-se valores missing;

No houve resultados positivos nos modelos gerados com o uso dos lags
cruzados. Eles foram ento descartados.
4. Incorporao de dados de promoo (esforo de marketing):

Dados de campanhas promocionais institucionais, atribudos com valores 0


ou 1 para todos os produtos;

Dados de campanhas de marketing agressivas, direcionadas somente a


alguns produtos;

Nmero de veiculaes na mdia;

Todos os casos anteriores conjugados;

As variveis promocionais no trouxeram melhora na capacidade preditiva das


redes. A explicao mais provvel deve-se dificuldade em atribuir a um
produto a campanha realizada, j que os registros de campanhas realizadas no
eram completos nem precisos. Isso obrigou a atribuir a campanha a toda uma
linha ou mesmo setor de produtos na maior parte dos casos, confundindo a
rede.
No total, foram geradas 66 redes neurais, com a incorporao das variveis acima
citadas. Todas utilizaram o mesmo conjunto de dados, sempre prevendo para uma semana
frente, e utilizando entradas numricas normalizadas e padronizadas.
Em resumo, de todas as variveis incorporadas ao modelo visando ampliar as
informaes disponveis sobre o composto de marketing e sobre a sazonalidade, apenas a
informao sobre o total do produto vendido na semana anterior interferiu significativamente
na capacidade preditiva da rede neural. Esta varivel passou a ser incorporada em todas as
anlises posteriores.
109

Varivel
Prevista

Rede

Variveis de entrada

Ns

26

Id_produto, Comissao, Setor, Linha,


Id_marca, Classe, Classe_distribuicao,
Estoque_logP, Estoque_dias-2P,
Vendas_log 7
Reposicao_diasP, Semana, Preco_potP,
JurosMedioSemanalP, PprazoP,
Mostruario_logP, Lag1

Camadas

R2

MSE

0,6585 1,8441

Tabela 21 - Resultados da rede neural 26, com incorporao das vendas na semana anterior e missing
values preenchidos

6.3.

Incorporao de Informaes do Centro de Interesse


Um dos objetivos da presente pesquisa avaliar se um modelo de previso de vendas

baseado em redes neurais artificiais capaz de detectar os relacionamentos presentes entre os


produtos que fazem parte de um centro de interesse do consumidor grupo de produtos
inter-relacionados, como aqueles selecionados durante o processo de anlise do cesto de
compras (veja Anlise do Cesto de Compras, pg. 87).
Apesar dos modelos anteriormente construdos levarem em considerao apenas os
produtos do centro de interesse detectado (Tabela 12), nenhuma informao foi apreciada para
incorporar as informaes sobre os possveis relacionamentos existentes entre os produtos,
uma vez que as redes foram treinadas com registros individuais dos produtos. Para que o
conhecimento acerca do centro de interesse seja considerado, faz-se necessria a utilizao de
novas entradas, que representem as informaes agregadas sobre o grupo de produtos
considerado.
Os seguintes dados foram aglutinados na tentativa de representar o conhecimento
sobre as elasticidades cruzadas entre os produtos:

Vendas totais da linha de produtos correspondente (rede 79);

Vendas totais do setor da loja correspondente (rede 80);

Vendas totais de todo o centro de interesse (rede 81);

Preo mdio da linha de produtos correspondente (rede 82);

Preo mdio do setor da loja correspondente (rede 83);

Preo mdio de todo o centro de interesse (rede 84);

Diferena de preo entre o produto e a mdia da linha de produto (rede 85);

Diferena de preo entre o produto e a mdia do setor da loja (rede 86);

Diferena de preo entre o produto e a mdia de todo o centro de interesse (rede 87).
110

Idem, para entradas padronizadas (redes 88 a 105);

Idem, com preenchimento de missing values assumindo o ltimo valor existente (redes
106 a 141).
Os resultados mostraram uma grande melhora das redes ao se utilizar a informao de

total de vendas dos produtos substitutos (pertencentes a uma mesma linha de produtos, e,
portanto, produtos concorrentes diretos), ao mesmo tempo em que no houve melhoria
quando da utilizao dos preos mdios nem das diferenas de preos. A rede neural 108,
cujos resultados so mostrados a seguir, comprova que a incorporao de informaes a
respeito de produtos inter-relacionados pode trazer benefcios na previso de vendas com uso
de redes neurais artificiais.
Varivel
Prevista

Rede

Variveis de entrada

Ns

108

Id_produto, Comissao, Setor, Linha,


Id_marca, Classe, Classe_distribuicao,
Estoque_logP, Estoque_dias-2P,
Vendas_log 7
Reposicao_diasP, Semana, Preco_potP,
JurosMedioSemanalP, PprazoP,
Mostruario_logP, Lag1, Vendas_linhaP

Camadas

R2

MSE

0,7164 1,7457

Tabela 22 - Resultados da rede neural 108, com incorporao do total de vendas de produtos
substitutos (missing values preenchidos)

6.4.

Concluses da Modelagem Baseada em Redes Neurais


Aps o processo de modelagem, foi observado que o melhor desempenho das redes

neurais artificiais at o momento (rede 108), no conjunto de dados disponvel, foi aquele
obtido com:

Dados transformados, normalizados e padronizados entre 0 e 1;

Lag de tempo das vendas, com 1 semana de diferena;

Mdia de vendas da linha de produtos (produtos substitutos);

A tabela a seguir resume o processo de gerao de redes neurais para previso


executado:

111

Redes
1~4

Testes realizados
Comparao entre entradas transformadas
e no transformadas
Teste de retirada de variveis
correlacionadas
Comparao entre entradas padronizadas
e no padronizadas
Incorporao de novas variveis para
representar: sazonalidade,
autocorrelaes das vendas, correlaes
com lags de tempo, dados promocionais
Incorporao de informaes agregadas
sobre o centro de interesse

5~9
10 ~ 11
12 ~ 78

79 ~ 141

Melhor rede
2 Todas as entradas
transformadas
6 Retirada isolada da
varivel Grade
10 Entradas numricas
padronizadas entre 0 e 1
26 Incorporao das vendas
na semana anterior
(autocorrelao com lag de 1
semana)
108 Incorporao do total de
vendas de produtos substitutos
(missing values preenchidos)

MSE da melhor rede


1,9306
1,9187
1,9108
1,8441

1,7457

Tabela 23 Resumo das redes neurais geradas e performance obtidas

O Modelo 108 foi tomado ento como referncia, para medio de capacidade
preditiva frente a dados desconhecidos e frente a outras modelagens. A fim de se avaliar a
capacidade preditiva do modelo baseado em redes neurais, o conjunto de dados foi dividido
em dois grupos:
1. Grupo de criao do modelo, constitudo internamente por registros de
treinamento e validao (automaticamente separados pelo software de
minerao de dados). Para criao do modelo, foram utilizados os registros de
Novembro de 1998 a Maio de 2001, num total de 135 semanas consecutivas,
sempre prevendo para uma semana frente.
2. Grupo de avaliao externo, simulando a utilizao real do modelo de previso
em dados desconhecidos, nunca apresentados rede neural. Os registros
subseqentes semana 135 (Maio de 2001 a Junho de 2002), totalizando 3140
casos, foram usados para pr prova a capacidade preditiva do modelo gerado.
Aps a criao da rede com o conjunto de dados reduzidos, a mesma foi testada frente
aos registros desconhecidos, e os resultados obtidos foram transformados de volta unidade
de medida original, com a retirada da padronizao, normalizao e funo logartma,
alcanando assim a previso de quantos produtos sero vendidos, semana a semana, por SKU.
Os resultados geraram uma nova medida de erro, uma vez que agora esto tomados por
unidades de produtos vendidos.
Modelo
Rede 108
Rede 108

Dados
Dados de criao (at semana 135)
Dados de validao (a partir da semana 136)

MSE
55,84
108,12

RMSE
10,33
10,40

MAPE
31,61%
41,21%

Tabela 24 Capacidade preditiva do Modelo Baseado em Redes Neurais (rede 108)

112

De acordo com a Tabela 24, o modelo baseado em redes neurais erra em sua previso
de vendas, em mdia, um total de 10,4 unidades de produto para previso de uma semana
frente, o que corresponde a um erro mdio percentual de 41,21%.
Se a modelagem for eficiente (capaz de aprender com os erros do passado), no deve
haver correlao em srie entre os erros de um perodo para outro (PUTSIS, 1998). Os testes
de autocorrelao e autocorrelao parcial no mostraram autocorrelao nos erros, indicando
que o modelo eficiente. Se a modelagem for no-enviesada, haver um padro consistente
de erros para mais e para menos, e conseqentemente a distribuio dos erros deve ter uma
forma prxima da normal (LAWRENCE et al., 2000). O modelo gerado parece tambm
respeitar esta premissa, como pode ser visto na Figura 22.
A Figura 23 mostra a performance da Rede 108 ao tentar prever as vendas das
semanas posteriores 135, que no foram utilizadas para treinamento da rede.
800

600

400

200
Std. Dev = .13
Mean = -.02
N = 3141.00

.6

.5

.4

.3

.2

.1

.0

0
0

-.1

-.2

-.3

-.4

-.5

ERRO
Figura 22 Histograma da disperso dos erros, na escala da varivel prevista

113

70
Previsto = real

60

Previso

50

40

30

20

10

0
0

10

20

30

40

50

60

70

Venda real

Figura 23 Grfico de vendas previstas X vendas reais

7. Comparao com Outras Modelagens


Com o intuito de estabelecer uma referncia para a capacidade preditiva do modelo
baseado em redes neurais, duas comparaes foram realizadas: com a modelagem naive no
ajustada e com a regresso linear usando como entradas as mesmas variveis da rede neural
108.

7.1.

Comparao com a Modelagem Naive


Um modelo de previso naive no ajustado aquele onde se toma o ltimo registro

conhecido como sendo a previso para o prximo perodo, sem considerar a sazonalidade da
varivel dependente. A comparao com a previso naive uma referncia comum
encontrada na literatura a fim de medir o ganho de performance ao se adotar modelagens mais
sofisticadas (LAWRENCE et al., 2000). tambm importante j que o mtodo de previso
atualmente utilizado na EMPRESA onde os dados foram tomados.
Observou-se que a modelagem baseada em redes neurais artificiais obteve
desempenho cerca de 54% superior previso naive, tomando-se por base a raiz do erro
quadrado mdio (RMSE), e 64% superior se for considerado o erro mdio percentual
(MAPE), ponderando os resultados para os dados de validao.
114

Modelo
Naive
Naive

Dados
Dados de criao (at semana 135)
Dados de validao (a partir da semana 136)

MSE
133,98
506.44

RMSE
11,58
22,50

MAPE
126,24%
116.09%

Tabela 25 Capacidade preditiva da previso naive no ajustada

7.2.

Comparao com a Regresso Linear


A regresso linear talvez seja a tcnica mais utilizada para previso quantitativa, por

isso tambm uma boa referncia comparativa para avaliao do desempenho das redes
neurais na previso de vendas atomizada. Para esta regresso, foram utilizadas as mesmas
variveis do Modelo 108, que obteve a melhor capacidade preditiva dentre aqueles testados. O
procedimento de tratamento e separao tambm seguiu aquele do Modelo 108, com a
utilizao de dados normalizados e padronizados, e separao em dois grupos de dados: dados
de criao at a semana 135 e avaliao do desempenho com dados da semana 136 semana
187.
O software utilizado para a regresso8 gera, a partir da matriz de correlaes, vrias
equaes de regresso, utilizando como variveis independentes apenas aquelas com maior
impacto no modelo, selecionadas atravs do mtodo stepwise. Foi gerado um total de 5
equaes de regresso vlidas, mostradas abaixo:
Equao
1
2
3
4
5

Variveis Independentes
Vendas da linha de produtos
Vendas da linha de produtos, porcentagem de vendas a prazo
Vendas da linha de produtos, porcentagem de vendas a prazo, Vendas no perodo anterior
Vendas da linha de produtos, porcentagem de vendas a prazo, Vendas no perodo anterior, Estoque
Vendas da linha de produtos, porcentagem de vendas a prazo, Vendas no perodo anterior, Estoque,
Prazo de reposio

Tabela 26 Equaes de regresso linear geradas

Levando em considerao o grupo de dados de validao, todos eles desempenharam


pior que o modelo baseado em redes neurais, como mostrado na tabela abaixo:
Equao
1
2
3
4
5

MSE
283,65
271,26
264,58
248,29
189,03

RMSE
16,84
16,47
16,27
15,76
13,75

MAPE
79,52%
58,05%
51,97%
50,15%
49,10%

Tabela 27 Capacidade preditiva das equaes de regresso linear

As anlises de regresso foram realizadas utilizando-se o pacote estatstico SPSS 11.0.

115

Avaliando-se a equao de regresso com maior capacidade preditiva Equao 5


observa-se que ela possui erro de ordem 32% maior que o modelo baseado em redes neurais,
comparando-se o erro quadrado mdio, e 19,1% maior em termos percentuais.

7.3.

Resumo do Desempenho das Redes Neurais


A tabela a seguir resume o desempenho da tcnica de redes neurais artificiais frente s

tcnicas de previso naive e regresso linear, mostrando que as redes neurais obtiveram erros
menores que as demais modelagens, seja qual for a medida de erro adotada.
Tcnica de Previso
Naive no ajustada
Regresso linear equao 5
Redes neurais rede 108

MSE
506.44
189,03
108,12

RMSE
22,50
13,75
10,40

MAPE
116.09 %
49,10 %
41,21 %

Tabela 28 Performance comparativa das redes neurais

116

CAPTULO V - CONCLUSES
1. Resultados Alcanados
Este trabalho investigou acerca da possibilidade de utilizao de redes neurais
artificiais para previso de vendas de produtos no nvel atomizado. O objetivo geral foi o
estabelecimento de uma metodologia capaz de identificar padres de relacionamento teis na
previso de vendas individual no varejo. Tais relacionamentos, uma vez assimilados por um
modelo de previso causal, permitem ao gestor a identificao do composto de marketing
adequado (preo, produtos e promoo), atravs da visualizao do impacto nas vendas a
partir de simulaes de mudanas no composto de marketing.
Durante o trabalho de reviso bibliogrfica, observou-se que muitos autores j
estudaram a previso de demanda agregada para toda corporao utilizando diversas
tcnicas de previso e modelagem de dados, e prevendo em diferentes horizontes de tempo
(TANG et al., 1991; LUXHOJ et al., 1996; ANSUJ et al., 1996; KUO & XUE, 1998;
SPEDDING & CHAN, 2000, entre outros). Tais estudos mostraram que a previso
quantitativa pode ser bem sucedida tanto numa abordagem de sries temporais quando a
nica entrada a prpria informao da venda, em diferentes lags de tempo quanto numa
abordagem causal quando variveis explicativas da demanda so usadas como entrada. As
previses so usualmente consideradas como bem sucedidas quando oferecem melhoria
considervel se comparadas com a previso naive, que considera que as vendas no prximo
perodo sero iguais quelas verificadas no perodo anterior.
Alguns autores tambm j investigaram a previso de demanda no nvel individual de
produtos, porm tais estudos voltaram-se modelagem das vendas de apenas um produto, seja
numa abordagem de sries de tempo (BARASH & MITCHELL, 1998; GORDON, 1998;
ALIBAIG & LILLY, 1999) ou causal (MENTZER & KENT, 1999; SUBRAHMANYAN,
2000). Sendo assim, tais modelos so incapazes de detectar os relacionamentos entre os
produtos, os quais mostraram-se importantes nos estudos (no voltados previso) de BENAKIVA & GERSHENFELD (1998) e GUADAGNI & LITTLE (1998).
Os trabalhos citados ajudaram no delineamento da presente pesquisa, mostrando que
havia uma lacuna para o desenvolvimento de uma previso de vendas no nvel individual que
levasse em conta o relacionamento entre diversos produtos. Duas tcnicas foram selecionadas
117

para o desenvolvimento dos modelos: a anlise de cestos de compra, capaz de identificar


quais produtos esto inter-relacionados, e a gerao de redes neurais artificiais para previso
da demanda, dadas suas qualidades de autoadaptao a dados no-lineares e boa capacidade
de generalizao.
Durante a realizao das anlises, obteve-se uma metodologia que pode ser replicada
para outro conjunto de dados sem grandes alteraes. A metodologia consiste basicamente
em:
1. Selecionar o conjunto de dados em registros agrupados com certa freqncia,
por exemplo semanal ou mensal, aglutinando o maior nmero de variveis
explicativas possvel;
2. Executar a anlise do cesto de compras, usando as abordagens por transao
(produtos com venda casada) e por cliente (anlise horizontal no tempo). A
inspeo visual dos relacionamentos ajuda a separar apenas produtos que
faam parte de um mesmo centro de interesse.
3. Tratar os dados de entrada, estabelecendo a necessidade de transformaes nos
dados. As entradas numricas, quando normalizadas e padronizadas, tendem a
ocasionar uma melhor performance das redes neurais.
4. Gerar redes neurais testando a retirada de variveis correlacionadas.
5. Testar a incorporao do maior nmero possvel de variveis explicativas e
tambm de variveis que possam conter informaes sobre o grupo de
produtos considerado (centro de interesse).
De acordo com os resultados alcanados nesta pesquisa, a metodologia aplicada parece
ser bem sucedida na previso de vendas de produtos no nvel individual, superando as
modelagens naive e de regresso linear. A topologia de rede que obteve o melhor desempenho
quando avaliada em dados externos aos de criao, na previso com horizonte de 1 semana
frente, foi composta por 1 camada intermediria contendo 7 ns. Sua performance resultou em
boa aderncia aos dados de criao (R2 de 0,72) e erro mdio RMSE de 10,4 erro de cerca
de 10 unidades de produto para mais ou para menos, equivalentes a 41,2% do total de vendas.
Tambm de acordo com os resultados obtidos, algumas informaes a respeito do
centro de interesse podem ser utilizadas com sucesso na previso de vendas, uma vez que, no

118

conjunto de dados usado, a informao sobre as vendas de todos os produtos substitutos


colaborou para o desempenho da rede neural.

2. Concluses da Previso Baseada em Redes Neurais


A modelagem atravs de redes neurais artificiais pode ser considerada adequada para a
previso de demanda de produtos no nvel individual. Com o uso de dados separados por
produto, pode-se treinar uma rede neural para simular entradas nas variveis explicativas, e
assim planejar aes e antecipar seus resultados com alguma preciso. Tomando como
exemplo os dados disponveis nesta pesquisa, o gestor pode simular mudanas no preo, no
nvel de estoque, na exposio dos produtos na loja (mostrurio), na freqncia de reposio,
na taxa de juros e incentivo ao pagamento parcelado, no comissionamento dos vendedores,
entre outras, e prever as alteraes na demanda por produto.
Os resultados sugerem que as redes neurais podem prever as vendas de produtos
atomizados no curto prazo com maior preciso do que as tcnicas naive no-ajustada e de
regresso linear. A equao de regresso que mais se aproximou das redes neurais obteve
desvios da ordem de 19% maiores, o que pode impactar de maneira significativa o
planejamento logstico, de suprimentos e finalmente o faturamento e lucro de uma
corporao.
Outras concluses importantes das anlises efetuadas foram que as redes neurais
podem tratar facilmente os dados de diferentes produtos, e que informaes agregadas sobre
um centro de interesse podem auxiliar na previso, comprovando a existncia de
relacionamentos entre os produtos, e que tais relacionamentos podem ser captados pelas redes
neurais.
Entretanto, os erros verificados ainda so altos: a rede neural errou, em termos
percentuais, cerca de 41% nas previses de uma semana frente certamente os desvios
seriam ainda maiores para horizontes de tempo mais amplos. Isso pode significar que ainda h
espao para melhorias significativas na metodologia e tcnica de previso.
Vrios so os fatores que podem explicar o (ainda) alto erro nas previses obtidas com
a metodologia adotada. O primeiro ponto a ser levantado a qualidade dos dados de entrada
disponveis. O conjunto de dados utilizado dispunha de grande quantidade de registros com
valores faltantes (missing) algumas variveis chegaram a apresentar at 81% de valores
119

missing e um nmero grande de inconsistncias tambm foi detectado, indicando uma


baixa confiabilidade nos dados. A presena de dados confiveis um dos fatores de maior
ganho em acurcia (BROWN, 1963; CHURCH & CURRAM, 1996).
Outro ponto importante foi o (relativamente) baixo nmero de registros por produto. O
tempo de ciclo de vida dos produtos normalmente menos de 1 ano, baixo para que se
tenha registros suficientes para um treinamento adequado das redes neurais. Esta
caracterstica negativa foi ainda mais salientada na seleo dos dados, onde se optou pela
utilizao exclusiva dos registros de apenas uma loja; talvez a incluso dos registros de todas
as lojas aumentasse o corpo de dados e minimizasse o problema.
As informaes sobre promoes realizadas tambm no puderam ser aproveitadas
nos modelos, principalmente pelo fato de que os registros disponveis das promoes no
estavam vinculados precisamente aos produtos anunciados. O histrico de vendas da
EMPRESA mostra a presena de picos acentuados nas vendas, picos estes que segundo a
prpria EMPRESA devem-se reconhecidamente a promoes agressivas, direcionadas a
produtos especficos. De acordo com GEURT & WHITLARK (1996), a presena de outliers
de difcil assimilao pelos modelos de previso, e conseqentemente os picos de vendas
devido a tais promoes geraram picos de erros nas previses, que foraram a um aumento no
erro mdio.
Outros dados que sabidamente tm papel importante no desempenho do varejo so
aqueles referentes s movimentaes macroeconmicas. Sua incorporao talvez pudesse
melhorar a performance das redes neurais.
Dados sobre a concorrncia, como preo mdio, promoes realizadas, entre outros,
tambm poderiam melhorar a capacidade preditiva das redes neurais, uma vez que o varejo
altamente sensvel s aes da concorrncia. Tais dados no foram coletados
sistematicamente pela EMPRESA, o que impediu que eles fossem considerados.

3. Sugestes para Trabalhos Futuros


Neste trabalho ficou claro que o processo de minerao de dados, atravs do uso de
tcnicas de anlise de cesto de compras e previso com uso de redes neurais artificiais, pode
ser usado com sucesso com objetivo de previso de demanda no nvel individual. Esta
pesquisa, por ser de certa forma indita, requer confirmao com outro grupo de dados. H
120

indcios de que uma maior quantidade de dados (quantidade de registros de um mesmo


produto), presena de informaes mais ricas (maior nmero de variveis explicativas, como
dados sobre a concorrncia), e dados mais confiveis (com menor quantidade de dados
faltantes e/ou inconsistentes) podem trazer grandes benefcios na capacidade preditiva dos
modelos; tais possibilidades merecem estudo mais aprofundado.
O benefcio trazido pela anlise conjunta de produtos relacionados tambm pode ser
investigado com maior profundidade. Uma possibilidade a incluso de entradas individuais
sobre os demais produtos de um mesmo centro de interesse, tentando captar, por exemplo, o
preo, a demanda e demais caractersticas dos produtos relacionados, em dados
individualizados (e no agregados como a metodologia aqui proposta). A anlise de lags de
tempo neste caso tambm pode ser benfica, uma vez que as alteraes em um produto podem
trazer efeitos nos produtos complementares e substitutos apenas depois de determinado
perodo de tempo.
A anlise de lags de tempo tambm pode ser vastamente investigada na incorporao
de dados macroeconmicos, j que estes podem ter efeito retardado sobre a demanda no
varejo.
Finalmente, a abordagem tradicional de modelagem individual de produtos gerando
um modelo ou rede neural para cada produto tambm pode ser averiguada quanto adio
de informaes sobre o centro de interesses.

121

Referncias Bibliogrficas
ACZEL, Amir D., 1993. Complete Business Statistics. Irwin Homewood, IL, 2a. ed.
ALIBAIG, Shahbaz; LILLY, Bryan, 1999. Updating your forecasting system: Wisconsin
tissue's experience. The Journal of Business Forecasting Methods & Systems, Fall, v. 18, n.
3, pgs. 13-18.
ALMEIDA, Fernando Carvalho de, 1993. L'Evaluation des risques de dfaillance des
enterprises partir des rseaux de neurones insrs dans les systmes d'aide la
dcision. Tese de doutorado apresentada Universit Pierre Mends France de Grenoble,
Ecole Suprieure des Affaires.
ALMEIDA, Fernando Carvalho de, 1995. Desvendando o uso de redes neurais em
problemas de Administrao de Empresas. Revista Administrao de Empresas, v.35, n.1,
Jan-Fev, pgs 40-55, So Paulo.
ALMEIDA, Fernando Carvalho de; SIQUEIRA, Jos de Oliveira, 1996. Comparao entre
regresso logstica e redes neurais na previso de falncia de bancos brasileiros. Jornadas
de Classificao e Anlise de Dados, n. 4, pgs. 1-10, Lisboa.
ANSUJ, A. P.; CAMARGO, M.E.; RADHARAMANAN, R.; PETRY, D.G., 1996. Sales
forecasting using time series and neural networks. Computers and Industrial Engineering,
Elsevier Science Ltda., v. 31, n. 1/2, pgs. 421-425.
BAETS, Walter R.J.; VENUGOPAL, V., 1994. Neural Networks and Statistical
Techniques in Marketing Research: A Conceptual Comparison. Marketing Intelligence &
Planning, MCb University Press, v. 12, n. 7, pgs. 30-38.
BARASH, Mark; MITCHELL, Donald H., 1998. Account based forecasting at Nabisco
biscuit company. Journal of Business Forecasting, n. 31, Summer.
BASS, Frank M., 1969. A New Product Growth Model for Consumer Durables.
Management Science, n. 15, Janeiro, pgs. 215-227.
BEN-AKIVA, M.; GERSHENFELD, Shari, 1998. Multi-featured Products and Services:
Analysing Princing and Bundling Strategies. Jounal of Forecasting, John Wiley & Sons, n.
17, pgs. 175-196.
BERRY, Michael J. A.; LINOFF, Gordon, 1997. Data Mining Techniques for Marketing,
Sales and Customer Support. John Wiley & Sons, Inc., 1a. ed.
BIDARKOTA, P. V., 1998. The comparative forecast performance of univariate and
multivariate models: an application to real interest rate forecasting. International Journal
of Forecasting, Elsevier Science B.V., n. 14, pgs. 457468.
BOX, G. E. P.; JENKINS, G. M. Time-Series Analysis, Forecasting and Control. Ed. San
Francisco: Holden-Day, 1976.
BRENTNALL, G. J.; PICKSLEY, J. D, 1999. Bayesian modeling enhances supply chain
forecasting and planning. The Journal of Business Forecasting Methods & Systems, Fall, v.
18, n. 3, pgs. 19-23.
BROWN, R. Goodell, 1959. Statistical Forecasting for Inventory Control. The Maple
Press Company, New York, 1a. ed.
BROWN, R. Goodell, 1963. Smoothing, forecasting and prediction of discrete time series.
Prentice-Hall, Englewood Cliffs, N.J.
122

CERULLO, M.J.; AVILA, A., 1975. Sales Forecasting Practices: a survey. Managerial
Planning, n. 24, pgs. 33-39.
CHAKRABORTY, K.; MEHROTRA, K; MOHAN, C. K, 1992. Forecasting the behaviour
of multivariate time series using neural networks. Neural Networks, v. 5, n. 6, pgs. 961970.
CHANG, P.T., 1997. Fuzzy seasonality forecasting. Fuzzy Sets and Systems, Elsevier
Science B.V., n. 90, pgs. 1-10.
CHASE, Charles W. Jr., 1996. What you need to know when building a sales forecasting
system. The Journal of Business Forecasting Methods & Systems, Fall, v. 15, n. 3, pgs. 2-23.
CHASE, Charles W. Jr., 1999. Sales forecasting at the dawn of the new millennium. The
Journal of Business Forecasting Methods & Systems, Fall, v. 18, n. 3, pgs. 2-5.
CHURCH, Keith B.; CURRAM, Stephen, 1996. Forecasting consumer's expenditure: A
comparison between econometric and neural network models. International Journal of
Forecasting, Elsevier Science B. V. n. 12, pgs. 255-267.
CURLEY, M. Louise; SILK, Leonard S., 1970. A primer on business forecasting, with a
guide to sources of business data. Random House, New York, 1a. ed.
DAGANZO Carlos, 1979. Multinomial probit: The Theory and its Application to
Demand Forecasting. Academic Press, New York, 1a. ed.
DE VILLE, Barry, 1996. Predictive Models in Market Research. Marketing Research, v. 8,
n. 2, pgs. 43-45.
DIAS, George P. P., 2002. Proposta De Processo De Previso De Vendas Para Bens De
Consumo. Dissertao de Mestrado apresentada Escola Politcnica da Universidade de So
Paulo.
DOYLE, A. Conan, 2002. The Adventure of the Dancing Men. In: The Return of Sherlock
Holmes,
ed.
IndyPublish.com.
Disponvel
em
<http://www.bakerstreet221b.de/canon/danc.htm>. Publicado pela primeira vez na Colliers
Weekly, Dez. 1903.
DRURY, D. H., 1990. Issues in forecasting management. Management International
Review, v. 30, pgs. 317-329.
DUTTA, Siddhartha; AMARAVADI, Chandra S; SAMADDAR, Subhashish, 1995.
Intelligent marketing information systems: computerized intelligence for marketing
decision making. Marketing Intelligence & Planning, University Press Limited; v. 13, n. 2,
pgs. 4-13.
ENGEL, J. F.; BLACKWELL, R. D.; MINIARD, P. W., 1993. Consumer behavior. Ed.
Dryden Press, Hinsdale.
FEELDERS, A.; DANIELS, H.; HOLSHEIMER, M., 2000. Methodological and practical
aspects of data mining. Information and Management, Elsevier Science B. V., n. 37, pgs.
271-281.
FILDES, Robert; BOTTOMLEY, Paul A., 1998. The Role of Prices in Models of
Innovation Diffusion. Journal of Forecasting, John Wiley & Sons, n. 17, pgs. 539-555.
FILDES, Roberts; Hastings, R., 1994. The organization and improvement of market
forecasting. Journal of Operational Research Society, v. 45, pgs. 1-16.
123

FOURT, L. A.; WOODLOCK, J. W., 1960. Early prediction of market sucess of grocery
products. Journal of Marketing, n. 25, Outubro, pgs. 31-38.
GARGANO, Michael L.; RAGGAD, Bel G., 1999. Data mining - a powerful information
creating tool. OCLC Systems and Services, MCB University Press, v. 15, n. 2, pgs. 81-90.
GAYLE, Sanfort, 2003. The Marriage of Market Basket Analysis to Predictive Modeling.
SAS Institute White Paper, SAS Institute Inc. Disponvel em <http://www.sas.com.br>.
Acessado em Janeiro de 2003.
GEURTS, Michael D.; WHITLARK, David, 1996. Improving sales forecasts by improving
the input data. The Journal of Business Forecasting Methods & Systems, Fall, v. 15, n. 3.
15-18.
GORDON, Rich, 1998. A role for the forecasting function. The Journal of Business
Forecasting Methods & Systems, Winter, v. 16, n. 4, pgs. 3-7.
GRAY, Paul, 1997. Data Warehouses, OLAP, Data Mining, and the New DSS. Claremont
Graduate University Program in information Science, ISDSS'97, pgs. 7-24.
GROSS, Charles W.; PETERSON, Robin T., 1983. Business forecasting. Houghton Mifflin
Co., Boston, 2a. ed.
GUADAGNI, P. M.; LITTLE, J. D. C., 1998. When and What to Buy: a Nested Logit
Model of Coffee Purchase. Journal of Forecasting, John Wiley & Sons, v. 17.
HAND, D. J., 1998. Data Mining: Statistics and More? The American Statistician, Maio,
v.52, n.2, pgs. 112-118.
HANKE, John E.; REITSCH, Arthur G, 1995. Business Forecasting. Ed. Prentice Hall,
Englewood Cliffs, NJ, 5a. ed.
HANSSENS, D. M.; PARSONS, J. L.; SCHULTZ, R. L., 1990. Market Response Models:
Econometric and Time Series Analysis. Ed. Kluwer, Boston.
HARDIE, Bruce G. S.; FADER, Peter S.; WISNIEWSKI, Michael, 1998. An Empirical
Comparison of New Product Trial Forecasting Methods. Journal of Forecasting, John
Wiley & Sons, London, n. 17, pgs. 209-229.
HEELER, R. M.; HUSTAD, T. P., 1980. Problems in predicting new products growth for
consumer durables. Management Science, n. 26, Outubro, pgs. 1007-1020.
HIBBERT, Brynn; WILKINSON, Ian F., 1994. Chaos Theory and the Dynamics of
Marketing Systems. Journal of Academy of Marketing Science, Academy of Marketing
Science, v. 22, n. 3, pgs. 218-233.
HUSSEY, Michael; HOOLEY, Graham, 1995. The diffusion of quantitative methods into
marketing management. Journal of Marketing Practice: Applied Marketing Science, MCB
University Press, v. 1, n. 4, pgs. 13-31.
IMMON, W. H., 1997. Como construir o Data Warehouse. Campinas.
KIRK, Jerome; MILLER, Marc L, 1988. Reliability and Validity in Qualitative Research.
Sage University Paper Series on Qualitative Research Methods, v. 1, Sage Publications,
California.

124

KLEIN, Lawrence R.; YOUNG, Richard M., 1980. An introduction to econometric


forecasting and forecasting models. The Wharton Econometric Studies Series, Lexington
Books, Lexington, MA, 2a. ed.
KOTLER, Philip, 1999. Marketing Management: analysis, planning, implementation and
control. Prentice-Hall International, London, UK, Millennium ed.
KUO, R. J.; XUE, K. C., 1998. A decision support system for sales forecasting through
fuzzy neural networks with asymmetric fuzzy weights. Decision Support Systems, Elsevier
Science B. V., n. 24, pgs. 105-126.
KUO, R. J.; XUE, K. C., 1999. Fuzzy neural networks with application to sales
forecasting. Fuzzy Sets And Systems, Elsevier Science B. V., n. 108, pgs. 123-143.
LAPEDES, A.; FARBER, R., 1987. Nonlinear signal processing using neural networks
prediction and system modeling. Technical Report LA-UR-87-2662, Los Alamos national
Library, Los Alamos, NM.
LAWRENCE, K. D.; LAWTON, W. H., 1981. Application of diffusion models: some
empirical results. In Wind, Y.; Mahajan, V.; Cardozo, R. N., New Product Forecasting.
Lexington Books, Lexigton, MA, pgs. 529-541.
LAWRENCE, Michael; EDMUNDSON, Bob; O'CONNOR, Marcus, 2000. A field study of
sales forecasting accuracy and processes. Amsterdam European Journal of Operational
Research, Elsevier Science, B. V., Apr 1, Vol. 122, n. 1, pgs. 151-160.
LEWISON, D. M., 1997. Retailing. Ed. Prentice-Hall, Englewood Cliffs.
LINDBLAD, Thomas; JOHANSSON, Robert; LINDSEY, Clark S.; EIDE, Age, 1997. Data
mining and neural networks for knowledge discovery. Nuclear Instruments & Methods in
Physics Research, Elsevier Science B. V., n. 389, pgs. 251-254.
LUXHOJ, J. T.; RIIS, J. O.; STENSBALLE, B., 1996. A hybrid econometric-neural
network modeling approach for sales forecasting. Amsterdam International Journal of
Production Economics, Elsevier Science B. V., n. 43, pgs. 175-192.
MAHAJAN, V.; BASS, Frank M.; MULLER, E., 1990. New product diffusion models in
marketing: a review and directions for research. Journal of Marketing, v. 54, Janeiro, pgs.
1-26.
MAKRIDAKIS, S.; WHEELWRIGHT, Steven C.; MCGEE, Victor E., 1983. Forecasting:
Methods and Application. John Wiley & Sons, New York, 2a. ed.
MAKRIDAKIS, S.; WHEELWRIGHT, Steven C., 1987. The handbook of forecasting: a
manager's guide. Ed. Wiley, New York, 2a. Edio.
MANSFIELD, E., 1961. Technological change and the rate of imitation. Econometrica, v.
29, n. 10, pgs. 741-766.
MASON, J. B.; Mayer, M. L.; WILKINSON, J. B., 1993. Modern retailing: theory and
practice. Ed. Irwin, Chicago, 6a. ed.
MATIAS, Alberto B.; SIQUEIRA, Jos de Oliveira, 1996. Risco bancrio: modelo de
previso de insolvncia de bancos no Brasil. Revista de Administrao da USP, v. 31, n. 2,
Abril/Junho, pgs. 19-28, So Paulo.
MCHUGH, A. K.; SPARKES, J. R., 1983. The forecasting dilemma. Management
Accounting, n. 61, pgs. 30-34.
125

MENTZER, J. T.; COX Jr., J. E., 1984. Familiarity, application and performance of Sales
forecasting techniques. Journal of Forecasting, n. 3, pgs. 27-36.
MENTZER, John T., 1999. The impact of forecasting on return on shareholders's value.
The Journal of Business Forecasting Methods & Systems, Fall, v. 18, n. 3, pgs. 8-12.
MENTZER, John T.; KENT, John L., 1999. Forecasting demand in the Longaberger
Company. Marketing Management, Summer, v. 8, n. 2, pgs. 46-50, Chicago.
MOON, Mark A.; MENTZER, John T., 1999. Improving salesforce forecasting. The
Journal of Business Forecasting Methods & Systems, Summer, v. 18, n. 2, pgs. 7-12.
NAYLOR, T.H., 1981. Experience with corporate econometric models: a survey. Business
Economics, n. 16, pgs. 79-83.
NELSON, M.; O'CONNOR, M.; HILL, T.; REMUS, B., 1994. Can neural networks be
applied to time series forecasting and learn seasonal patterns: An empirical
investigation. Proceedings of the Twenty seventh Annual Hawaii International Conference on
System Sciences, pgs. 649-655.
NEWBOLD, Paul, 1995. Statistics for Business & Economics. Prentice-Hall, Inc.
Englewood Cliffs, N.J., 4a. ed.
PAN, J.; NICHOLS, D. R.; JOY, O., 1977. Sales Forecasting Practices of Large U.S.
industrial firms. Financial Management, n. 6, pgs. 72-77.
PARENTE, Juracy, 1997. Gerenciamento de categorias. Revista SuperHiper, pgs. 230-234,
Abril.
PARENTE, Juracy, 2000. Varejo no Brasil: Gesto e Estratgia. Ed. Atlas, So Paulo.
PARK, J.; SANDBERG, I. W., 1991. Universal approximation using radial basis function
networks. Neural Computation, v. 3, pgs. 246-257.
PEACOCK, Peter R., 1998a. Data Mining in Marketing: Part 1 The revolution is upon
us, so choose your weapons carefully. Marketing Management, Winter, pgs. 9-18.
PEACOCK, Peter R., 1998b. Data Mining in Marketing: Part 2 Dig deep to unearth
knowledge inherent in databases. Marketing Management, Spring, pgs. 15-25.
PETERSON, R.T., 1993. Forecasting practices in retail industry. Journal of Business
Forecasting, n. 12, pgs. 11-14.
PETERSON, Robin T.; JUN, Minjoon, 1999. Forecasting sales in wholesale industry. The
Journal of Business Forecasting Methods & Systems, Summer, v. 18, n. 2, pgs. 15-18.
PETRON, E., 1999. Stuttgart Neural Network Simulator. Linux Journal, Julho, pgs. 4448.
PIDD, Michael, 1998. Modelagem Empresarial: ferramentas para Tomada de Deciso.
Ed. Bookman, Porto Alegre, RS.
POWERS, Anthony, 1988. Using Discrete Choice Models with Experimental Design Data
to Forecast Consumer Demand for a Unique Cultural Event. The Journal of Consumer
Research, v. 10, Dezembro, pgs. 6-9.
PUTSIS Jr., Willian P., 1998. Parameter Variation and New Product Diffusion. Journal of
Forecasting, John Wiley & Sons, n. 17, pgs. 231-257.
ROBERTS, John, 1998. Marketing Approaches to Forecasting Problems. Journal of
Forecasting, John Wiley & Sons, n. 17, pgs.169-174.
126

ROSATI, Anna Maria, 1996. Forecasting at Segix, Italia: A pharmaceutical company. The
Journal of Business Forecasting Methods & Systems, Fall, v. 15, n. 3, pgs. 7-9.
SAKAI, Hidekata; NAKAJIMA, Hideki; YASUDA, Masashi; HIGASHIHARA, Minoru;
OOSUMI, Masato, 1999. Development of a fuzzy sales forecasting system for vending
machines. Computers & Industrial Engineering, Elsevier Science Ltda., n. 36, pgs. 427-449.
SANDERS, N. R., 1992. Corporate forecasting practices in the manufacturing industry.
Production and Inventory Management, n. 33, pgs. 54-57.
SANDERS, N. R.; MANRODT, K., 1994. Forecasting practices in US corporations:
survey results. Interfaces, v. 24, pgs. 92-100.
SAS, 1996. Data Mining with the SAS System: From Data to Business Advantage. SAS
Institute White Paper, SAS Institute Inc. Disponvel em <http://www.sas.com.br>. Acessado
em Janeiro de 2001.
SAS, 1998. Finfing the Solution to Data Mining. SAS Institute White Paper, SAS Institute
Inc. Disponvel em <http://www.sas.com.br>. Acessado em Janeiro de 2001.
SPEDDING, T. A.; CHAN, K. K., 2000. Forecasting demand and inventory management
using Bayesian time series. Integrated Manufacturing Systems, MCB University Press, v. 11,
n. 5, pgs. 331-339.
SPSS, 1999. Data Mining with Confidence. Disponvel em <http://www.spss.com>.
Acessado em Fevereiro de 2001.
SUBRAHMANYAN, Saroja, 1998 An exploratory empirical study on how pricing and
inventory decisions are made in a simulated environment. Research paper Series, Faculty
of Business Administration, National University of Singapure, Maio, RPS, pgs. 98-123.
SUBRAHMANYAN, Saroja, 2000. Using quantitative models for setting retail prices.
Journal of Product and Brand Management, MCB University Press, v. 9, n. 5, pgs. 304-320.
TAMASCHKE, Rick; BUTTERY, Alan, 1995. Marketing decision support systems in a
small trading nation: an Australian case study. Marketing Intelligence & Planning, MCB
University Press Limited, v. 13, n. 2, pgs. 14-28.
TANG, Z.; Almeida, C.; FISHWICK, P. A, 1991. Time series forecasting using neural
networks vs. Box-Jenkins methodology. Simulation Council, v. 57, n. 5, pgs. 303-310.
THALL, N., 1992. Neural Forecasts: A Retail Sales Booster. Discount Merchandiser, v. 32,
n. 10, pgs. 41-42.
TUKEY, J. W.; HOAGLIN, D. C.; MOSTELLER, F., 1983. Anlise exploratria de dados:
tcnicas robustas. Ed. Salamandra, Lisboa.
VOLKERT, J.; ESPAHBODI, P.; ESPAHBODI, H., 1995. Early Identification of Firms
Requiring Debt Restructuring. The Journal of Business Forecasting, Fall, v. 14, n.3.
WHEELRIGHT, Steven C.; CLARKE, D. G., 1976. Corporate forecasting: promise and
reality. Harvard Business Review, v. 54, pgs. 40-64.
WHITE, H. R., 1986. Sales Forecasting: timesaving and profitmaking strategies that
work. Scott, Foresman and Company, London.
WILSON, M.; DAUBECK, H. G., 1989. Marketing managers evaluate forecasting
models. Journal of Business Forecasting, n. 8, pgs. 19-22.
127

WINKLHOFER, Heidi; WITT, Stephen F.; DIAMANTOPOULOS, Adamantios, 1996.


Forecasting Practice: a review of the empirical literature and an agenda for future
research. International Journal of Forecasting, Elsevier Science B. V., n. 12, pgs. 193-221.
WRAY, Barry; BEJOU, David; PALMER, Adrian, 1994. Using Neural Network Analysis
to Evaluate Buyer-Seller Relationships. European Journal of Marketing, v. 28, n. 10, pgs.
32-48.
XU, X. Mark, 1999. The strategic orientation of marketing information systems - an
empirical study. Marketing Intelligence & Planning, MCB University Press, v. 17, n. 6, pgs.
262-272.
ZHANG, Guoqiang; PATUWO, B. Eddy; HU, Michael Y., 1998. Forecasting with artificial
neural networks: The state of the art. International Journal of Forecasting, Elsevier Science
B. V., n. 14, pgs. 35-62.
ZHANG, X., 1994. Time series analysis and prediction by neural networks. Optimization
Methods ans Software, v. 4, pgs. 151-170.
ZHOU, Wei, 1999. Integration of different forecasting models. The Journal of Business
Forecasting Methods & Systems, Fall, v. 18, n. 3, pgs. 26-29.

128

ANEXO A Questionrio aplicado EMPRESA


1. O senhor poderia dar algum background sobre sua empresa: produtos, nmero de
funcionrios, volume de vendas, faturamento, lojas etc.
2. Onde reside a funo de previso quem so os responsveis?
3. Quantas pessoas trabalham na rea?
4. Qual a porcentagem de tempo dedicada funo?
5. Quantos produtos entram nas previses?
6. Como so feitas as previses? Top-down ou botton-up? Nvel de agregao?
7. Qual o horizonte de tempo previsto?
8. O Sr. pode explicar o processo de previso: quem prepara, quem participa, se
permitida alterao baseada em julgamento etc.
9. Qual o volume de dados utilizados?
10. O Sr. utiliza dados externos e sobre a concorrncia, e como eles so obtidos?
11. E dados macroeconmicos?
12. O Sr. sabe dizer quais so os erros observados no momento, a nvel agregado, por
categoria e por SKU?
13. Quais itens so mais fceis de serem previstos e por que?
14. Na sua opinio, as previses so bem utilizadas?
15. O processo prev demanda, entregas ou compras? Por que?
16. Qual o papel da fora de vendas nas previses?
17. Sabe dizer se existe sazonalidade bem caracterstica nas vendas?
18. A alta administrao considera as previses como uma ferramenta de gesto
importante? Utilizam-nas na tomada de decises?
19. O Sr. experimentou algum conflito de interesses entre as reas funcionais com relao
s previses?
20. O Sr. est satisfeito com o processo de previso? Se no, como o Sr. pretende
melhor-lo?
21. Qual o tempo do ciclo de vida dos produtos?
22. Qual o nvel de escolaridade dos envolvidos nas previses? A empresa prov
treinamento para os mesmos?
23. Saberia listar as variveis que mais influem nas vendas?

129

ANEXO B Dicionrio de Dados Originais


Cadcar
Descreve as compras realizadas a prazo pelos clientes.
Nome
FILIAL_VENDA
CARTAO
COMPRA_DATA
ENTRADA_VALOR
NF_VALOR_TOTAL
PRESTACAO_QTD
PRESTACAO_VALOR
SLIP

Tipo
SMALLINT
INTEGER
DATE
DECIMAL
DECIMAL
SMALLINT
DECIMAL
INTEGER

NF_NUMERO
NF_SERIE

INTEGER
CHARACTER

Descrio
Identificador da filial que registrou a venda.
Nmero do carto do cliente que realizou a compra.
Data da compra.
Valor dado como entrada ( vista) para a compra.
Valor total da compra, em reais.
Quantidade de prestaes da compra.
Valor de cada prestao.
Identificador do credirio realizado, serve para identificar a
compra.
Nmero da nota fiscal de venda.
Srie da nota fiscal de venda.

Estoque
Contm snapshots das posies de estoque das filiais. Serve para saber quando um
produto no estava disponvel para venda numa data especfica por falta de estoque.
Nome
FILIAL
SETOR
LINHA
PRODUTO
QUANTIDADE
DATA_BASE
MOSTRUARIO
GRADE

Tipo
SMALLINT
SMALLINT
SMALLINT
INTEGER
INTEGER
DATE
SMALLINT
SMALLINT

VENDA_FIS_ULT_07
VENDA_FIS_ULT_30

SMALLINT
SMALLINT

Descrio
Identificador da filial que registrou a venda.
Identificador do setor relacionado ao produto.
Identificador da linha relacionada ao produto.
Identificador do produto.
Quantidade em estoque na filial.
Data da posio de estoque.
Quantidade de itens do produto em mostrurio.
Quantidade de itens do produto especificada para ser mantida
na filial.
Unidades vendidas do produto nos ltimos 7 dias.
Unidades vendidas do produto nos ltimos 30 dias.

Linhas
Cadastra as linhas de produtos comercializadas por toda a rede.
Nome
SETOR
LINHA
DESCRICAO
CONTAGEM

Tipo
SMALLINT
INTEGER
CHARACTER
INTEGER

Descrio
Identificador do setor relacionado linha de produtos.
Identificador da linha de produtos.
Descrio da linha de produtos.
Nmero de produtos comercializados dentro da linha
especfica, em junho de 2002.

130

LinhasXLoja
Cadastra as linhas de produtos comercializadas em cada loja.
Nome
FILIAL
LINHA

Tipo
SMALLINT
INTEGER

Descrio
Identificador da filial.
Identificador da linha de produto que a loja comercializa.

Lojas
Cadastro das lojas ativas em Junho de 2002.
Nome
FILIAL
REGIO
DESCRIO
AREA
TIPO

Tipo
SMALLINT
SMALLINT
CHARACTER
INTEGER
CHARACTER

DEPOSITO
CL

SMALLINT
CHARACTER

VEND

SMALLINT

Descrio
Identificador da filial.
Identificador do regio relacionada filial.
Nome e identificao da filial.
rea ocupada pela filial, em metros quadrados.
Tipo de filial. Pode assumir os seguintes valores: C
loja convencional, e E loja eletrnica.
Identificador do depsito que atende a loja.
Classe de loja. Pode assumir os seguintes valores: C
loja convencional, E loja eletrnica, e S loja
de shopping.
Nmero de vendedores da filial.

Prod_mov
Contm todas as vendas efetuadas nas filiais selecionadas.
Nome
PRODUTO
FILIAL

Tipo
INTEGER
SMALLINT

MOVIMENTO_DATA
DOCUMENTO
NOTA_FISCAL_SERIE
MOVIMENTO_QTD
DOCUMENTO_TIPO

DATE
INTEGER
SMALLINT
SMALLINT
SMALLINT

PRECO
CUSTO_TECNICO
CUSTO_GERENCIAL
VENDEDOR_NUMERO

DECIMAL
DECIMAL
DECIMAL
INTEGER

CARTAO
NOTA_FISCAL
ICMS
ENTRA_MARGEM

INTEGER
INTEGER
DECIMAL
CHARACTER

PRODUTO_VALIDADE

DATE

Descrio
Identificador do produto vendido.
Identificador da loja onde foi efetuada a
venda.
Data da venda.
Nmero do documento apresentado.
Srie da nota fiscal de venda.
Unidades vendidas do produto.
Mostra se foi venda vista ou a prazo. Pode
assumir os seguintes valores: 16 venda a
vista; e 12 venda a prazo.
Preo unitrio do produto vendido.
Custo tcnico considerado para o produto.
Custo gerencial considerado para o produto.
Identificador do vendedor que realizou a
venda.
Nmero do carto que identifica o cliente.
Nmero da nota fiscal.
Valor do ICMS cobrado.
Identifica se o produto entra nas comisses
do vendedor. Pode assumir os seguintes
valores: S SIM; N NO; e B
brinde/bonificao (indireta).
Data de validade do produto.

131

SETOR
LINHA
SLIP

SMALLINT
SMALLINT
INTEGER

SLIP_SERIE

CHARACTER

Setor relacionado ao produto.


Linha relacionada ao produto.
Identificador do credirio para vendas a
prazo.
Srie do credirio para identificao das
vendas a prazo.

Produtos
Cadastro de todos os produtos comercializados.
Nome
PRODUTO
FORNECEDOR
DESCRICAO
CLASSE

Tipo
INTEGER
INTEGER
CHARACTER
CHARACTER

ESTOQUE

INTEGER

REPOSICAO

INTEGER

MOSTRUARIO

INTEGER

FANTASIA
CLAS_DISTRIBUICAO

CHARACTER
CHARACTER

SETOR
LINHA

INTEGER
INTEGER

Descrio
Identificador do produto.
Identificador do fornecedor do produto.
Descrio abreviada do produto.
Classificao do produto. Pode assumir os
seguintes valores: 0, A, B, D, E, F, J, L, M, S,
W.
Estoque planejado (ideal) do produto, em
dias.
Quantidade de reposio planejada (ideal) do
produto (mnimo de compra), em dias.
Nmero total de produtos em mostrurio na
rede.
Nome fantasia do fornecedor do produto.
Classificao do produto. Pode assumir os
seguintes valores: ?, A, B, C, E, F, G, M, S,
W.
Identificador do setor relacionado ao produto
Identificador da linha relacionada ao produto

132

ANEXO C Dicionrio de Dados Vendas Semanais


Nome
Id_produto
Produto
Comissao

Tipo
INT
NVARCHAR (50)
SMALLINT

Setor
Linha
Id_marca
Classe

SMALLINT
SMALLINT
SMALLINT

Classe_distribuicao

SMALLINT

Estoque

INTEGER

Estoque_dias
Reposicao_dias

INTEGER
INTEGER

Mostruario
Grade

INTEGER
INTEGER

Total7
Semana

INTEGER
INTEGER

PrecoMedioSemanal

REAL

JurosMedioSemanal

REAL

Pprazo

REAL

Descrio
Identificador do produto vendido.
Descrio do produto vendido.
Identifica se o produto entra nas comisses do vendedor.
Pode assumir os seguintes valores: 0 vendedor no
recebe comisso sobre o produto; 1 vendedor recebe
comisso sobre a venda; e 2 vendedor recebe
brinde/bonificao (comisso indireta).
Identificador do setor relacionado ao produto.
Identificador da linha relacionada ao produto.
Identificador do fornecedor do produto.
Classificao do produto. Pode assumir os seguintes
valores: 0 (0 missing?), 1 (A), 2 (B), 3 (D), 4 (E), 5 (F), 6
(J), 7 (L), 8 (M), 9 (S), 10 (W).
Classificao do produto segundo o critrio de distribuio.
Pode assumir os seguintes valores: 0 (missing), 1 (A), 2
(B), 3 (C), 4 (E), 5 (F), 6 (G), 7 (S), 8 (W).
Quantidade em estoque na loja, tomada a data do incio do
ms.
Estoque planejado (ideal) do produto, em dias.
Quantidade de reposio planejada (ideal) do produto
(mnimo de compra), em dias.
Quantidade de itens do produto em mostrurio.
Quantidade de itens do produto especificada para ser
mantida na filial.
Unidades vendidas do produto na semana.
Identificao da semana correspondente. Assume valores de
1 (semana de 01/11/1998) a 187 (semana de 27/05/2002).
Mdia de preo praticado nas vendas do produto durante a
semana correspondente.
Mdia de taxa de juros composto praticado nas vendas a
prazo do produto na semana correspondente.
Porcentagem das vendas que foram realizadas a prazo na
semana anterior.

133

ANEXO D Transformaes nos Dados


Estoque
A distribuio da varivel original (sem transformaes) foge muito da distribuio
normal, como pode ser observado pelo histograma abaixo:
4000

3000

2000

1000
Std. Dev = 22,08
Mean = 12,9
N = 4366,00

0
5,
470,0
455,0
420,0
405,0
370,0
355,0
320,0
305,0
270,0
255,0
220,0
205,0
170,0
155,0
120,0
10,0
75,0
50,0
250
0,

ESTOQUE

Figura 24 Histograma da varivel Estoque sem transformaes

Tal distribuio no adequada para modelagem com uso de tcnicas quantitativas, e


em especial das tcnicas de minerao de dados. Ela provoca um comportamento
excessivamente patolgico da varivel, como demonstrado pela seu grfico boxplot, mostrado
na Figura 25. Este tipo de comportamento de difcil assimilao pelas tcnicas de minerao
de dados dentre elas a tcnica de redes neurais artificiais e acarreta na gerao de
modelos pouco provveis de serem aderentes aos dados, e conseqentemente com baixa
performance, seja qual for sua finalidade.

134

600
500

738
755
756
757

400
300

5535
5536
5537
5538
5539

200

ESTOQUE

100

683
680
681
682
679
483
484
675
676
677
678
672
673
674
750
751
752
753
754

3762
3763
3764
3765
3766
3767

1350
1351
1352
1353
1354
1356
1341
1342
1343
1344
1345
1346
1347
1348
1349
1391
1392
1393
1394

2278
2299
2390
2391
2392
2393
2394
2395
2396
2397
2767
2768
2769
2770
2386
2387
2388
2389
2381
2382
2383
2384
2385
2511
2512
2513
2514

3758
3759
3760
3761
3437
3438
3439
3440
3441
3442
4013
4014
4015
4016
4017
3414
3411
3412
3413
3809
3867
3868
3913
3914

4271
4269
4270
4266
4267
4268
4261
4262
4263
4264
4265

5541
5531
5532
5533
5534
5530
5583
5584
5585
5586
5578
5579
5580
5581
5582
5573
5574
5575
5576
5577
5567
5568
5569
5570
5571
5572
5562
5563
5564
5565
5566
5557
5558
5559
5560
5561
5552
5553
5554
5555
5556
5547
5548
5549
5550
5551

7429
7430
7426
7427
7428
6816
6814
6815
7765
7766
7767
7768
7574
7575
7576
7577
7726
7727
7728
7729
8435
6855
6856
7849
7850
7851
8459
8460
6852
6853
6854
6727
6728
7272
7273
7274
7275
6725
6726
7848
6562
6563
6564
6569
6570
8432
8433
8434
7268
7269
7270
7271
8186
8187

10138
10139
10140
10653
10649
10650
10651
10652
10253
10254
10255
10256
10257
10811
10382
10383
10384
10385
10809
10810
10230
10231
10232
10248
10249
10250
10251
10252
10807
10808
10378
10379
10380
10381
10228
10229

11615
11616
11617
11649
11640
11934
11628
11629
11639
10915
12031
12029
12030
11583
11584
11585
11586
12028
12040
12041
12042
12027
11625
11626
11627
11637
11638
10968
10967
11294
11295
11296
11624
11636
12026
12039
11292
11293
11932

-100
N = 374

338

204

486

516

217
212

97

437

237
219

13

755

1805
1443

361

530

1817
1810

459

1838
1826

LINHA

Figura 25 Boxplot da varivel Estoque sem transformaes

A fim de melhorar o comportamento da varivel, so aplicadas transformaes nos


dados. A transformao sugerida aquela dada pelo resultado do grfico disperso versus
nvel:
Equao linear ajustada y = 0,5398x + 0,5203
Valor de b
0,5
Transformao sugerida Z = x

Apesar do grfico disperso versus nvel mostrar a transformao raiz como ideal,
outras transformaes foram tentadas e a que melhor ajustou os dados foi a transformao log
x.
Transformao Z = log x
Nova varivel Estoque_log

A transformao aproxima a distribuio da varivel de uma distribuio normal,


melhorando o comportamento dos dados, como pode ser visto nas figuras a seguir.

135

700

600

500

400

300

200
Std. Dev = ,43

100

Mean = ,93
N = 4033,00

0
2,

2,

2,

1,

1,

1,

1,

50

25

00

75

50

25

00

5
,7
0
,5
5
,2
00

0,

Estoque_log

Figura 26 - Histograma da varivel Estoque aps a transformao Z = log x

3,0
738
755
756
757

2,5

5535
5536
5537
5538
5539

3762
3763
3764
3765
3766
3767

2,0

11615
11616
11617
11649
11934
11628
11629
11639
11640

1350
1351
1352
1353
1354
1356

1,5

LOGESTOQ

1,0

,5

1691
1509
1451
1104
1008
1007
1006
1005
1508
1507
1506
1505
1504
1503
1502
1501
1500
1362
1361
1360
1103
1004
1003
1002
1439
1102
1101
1001
1000

0,0

4057
4056
4055
4054
3996
2892
2891
2890
2889
2888
2623
2622
2621
2620
2619
2612
2007
1994
1993
1992
1962
1959
1821
1820
1819

4002
4001
4000
3999
3829
3828
3827
3826
3315
3314
3114
3113
3112
3111
3110
3109
3108
3107
3106
3105
3104
3103
3102

-,5
N = 358

325

204

457

493

217
212

90

411

237
219

13

665

1805
1443

341

465

1817
1810

415

1838
1826

LINHA

Figura 27 - Boxplot da varivel Estoque aps a transformao Z = log x

O mesmo procedimento foi adotada para todas as variveis numricas, como mostrado
a seguir.
136

Estoque_dias
Resultado do grfico disperso versus nvel:
Equao linear ajustada y = 2,7411x - 2,7196
Valor de b
3
Transformao sugerida
1
Z= 2

Neste caso a transformao resultou em melhoria aparente dos dados; porm esta
melhoria no foi profunda. Outras transformaes foram tentadas, sem sucesso. Uma nova
varivel foi criada com a transformao sugerida, porm ambas foram testadas nos modelos
criados.
Transformao
Nova varivel

Z=

1
x2

Estoque_dias-2

Reposicao_dias
Resultado do grfico disperso versus nvel:
Equao linear ajustada y = -0,0845x + 0,0845
Valor de b
0
Transformao sugerida nenhuma

Como o grfico disperso versus nvel no trouxe resultados satisfatrios, vrias


transformaes foram tentadas, sem sucesso. A varivel permaneceu sem transformaes.

Mostruario
Resultado do grfico disperso versus nvel:
Equao linear ajustada y = 0,7087x + 0,3868
Valor de b
0,7
Transformao sugerida Z = x0,3

Neste caso a transformao resultou em melhoria aparente dos dados; porm esta
melhoria no foi profunda. Outras transformaes foram tentadas, sendo a que melhor
adaptou os dados a transformao logartma.
Transformao Z = log x
Nova varivel Mostruario_log

137

Grade
Resultado do grfico disperso versus nvel:
Equao linear ajustada y = 0,9232x + 0,4442
Valor de b
1
Transformao sugerida Z = log x

A transformao sugerida mostrou ser a que melhor ajusta os dados.


Transformao Z = log x
Nova varivel Grade_log

Total7
Resultado do grfico disperso versus nvel:
Equao linear ajustada y = 1,1243x + 0,0695
Valor de b
1
Transformao sugerida Z = log x

A transformao sugerida mostrou ser a que melhor ajusta os dados.


Transformao Z = log x
Nova varivel Vendas_log

PrecoMedioSemanal
Resultado do grfico disperso versus nvel:
Equao linear ajustada y = 0,794x + 0,1608
Valor de b
0,8
Transformao sugerida Z = x0,2

A transformao sugerida mostrou ser a que melhor ajusta os dados, mesmo tentandose outras transformaes, como a logartma.
Transformao Z = x0,2
Nova varivel Preco_pot

Pprazo
Resultado do grfico disperso versus nvel:
Equao linear ajustada y = -0,0646x + 1,7929
Valor de b
0
Transformao sugerida nenhuma

De fato, mesmo tentando vrias transformaes, nenhuma mostrou ajustar os dados.


138

ANEXO E Correlaes e Autocorrelaes Verificadas


Matriz de Correlaes
Correlations
COMISSAO ID_MARCA CLASSE
COMISSAO

ID_MARCA

CLASSE

Classe_distri
buicao

Reposicao_d
ias

SEMANA

JurosMedioS
emanal

PPRAZO

Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation

Classe_ Reposicao_ SEMANA


distribuicao
dias
-,030
,006
-,034

JurosMedio PPRAZO Estoque_log


Semanal
-,002
-,040
,059

Estoque_ Mostruario_ Grade_log Vendas_log


dias-2
log
,010
-,002
-,011
,033

Preco_
pot
,033

,033

-,001

,000

,916

,001

,510

,000

,808

,000

,000

,262

,937

,690

,000

,000

12559
,033

12559
1

12559
,120

12559
,074

12559
-,118

12559
-,067

12559
-,002

12559
-,012

4033
,072

12559
-,046

2352
-,103

1249
,080

12559
,051

12559
,163

,000

,000

,000

,000

,000

,859

,177

,000

,000

,000

,005

,000

,000

12559
-,001

12559
,120

12559
1

12559
,556

12559
-,143

12559
-,265

12559
-,012

12559
,145

4033
-,041

12559
,072

2352
-,222

1249
,265

12559
-,190

12559
,040

,916

,000

,000

,000

,000

,195

,000

,010

,000

,000

,000

,000

,000

12559
-,030

12559
,074

12559
,556

12559
1

12559
-,116

12559
-,304

12559
,024

12559
,133

4033
-,119

12559
,047

2352
,177

1249
-,193

12559
-,197

12559
-,168

,001

,000

,000

,000

,000

,007

,000

,000

,000

,000

,000

,000

,000

12559
,006

12559
-,118

12559
-,143

12559
-,116

12559
1

12559
,018

12559
-,002

12559
-,118

4033
,213

12559
-,011

2352
,236

1249
,033

12559
,223

12559
-,047

,510

,000

,000

,000

,038

,838

,000

,000

,202

,000

,245

,000

,000

12559
-,034

12559
-,067

12559
-,265

12559
-,304

12559
,018

12559
1

12559
-,050

12559
,042

4033
-,019

12559
-,005

2352
-,062

1249
-,008

12559
-,020

12559
,073

,000

,000

,000

,000

,038

,000

,000

,216

,553

,003

,773

,026

,000

12559
-,002

12559
-,002

12559
-,012

12559
,024

12559
-,002

12559
-,050

12559
1

12559
-,005

4033
,019

12559
,004

2352
,022

1249
,098

12559
-,029

12559
-,119

,808

,859

,195

,007

,838

,000

,562

,222

,670

,295

,001

,001

,000

12559
-,040

12559
-,012

12559
,145

12559
,133

12559
-,118

12559
,042

12559
-,005

12559
1

4033
-,279

12559
,032

2352
-,148

1249
-,059

12559
-,648

12559
,122

139

Estoque_log

Estoque_dia
s-2

Mostruario_l
og

Grade_log

Vendas_log

Preco_pot

Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N
Pearson
Correlation
Sig. (2tailed)
N

,000

,177

,000

,000

,000

,000

,562

,000

,000

,000

,037

,000

,000

12559
,059

12559
,072

12559
-,041

12559
-,119

12559
,213

12559
-,019

12559
,019

12559
-,279

4033
1

12559
-,036

2352
,076

1249
,590

12559
,439

12559
-,058

,000

,000

,010

,000

,000

,216

,222

,000

,022

,000

,000

,000

,000

4033
,010

4033
-,046

4033
,072

4033
,047

4033
-,011

4033
-,005

4033
,004

4033
,032

4033
-,036

4033
1

2143
,044

1218
,125

4033
-,048

4033
-,060

,262

,000

,000

,000

,202

,553

,670

,000

,022

,034

,000

,000

,000

12559
-,002

12559
-,103

12559
-,222

12559
,177

12559
,236

12559
-,062

12559
,022

12559
-,148

4033
,076

12559
,044

2352
1

1249
-,032

12559
,143

12559
-,459

,937

,000

,000

,000

,000

,003

,295

,000

,000

,034

,272

,000

,000

2352
-,011

2352
,080

2352
,265

2352
-,193

2352
,033

2352
-,008

2352
,098

2352
-,059

2143
,590

2352
,125

2352
-,032

1149
1

2352
,219

2352
-,271

,690

,005

,000

,000

,245

,773

,001

,037

,000

,000

,272

,000

,000

1249
,033

1249
,051

1249
-,190

1249
-,197

1249
,223

1249
-,020

1249
-,029

1249
-,648

1218
,439

1249
-,048

1149
,143

1249
,219

1249
1

1249
-,033

,000

,000

,000

,000

,000

,026

,001

,000

,000

,000

,000

,000

,000

12559
,033

12559
,163

12559
,040

12559
-,168

12559
-,047

12559
,073

12559
-,119

12559
,122

4033
-,058

12559
-,060

2352
-,459

1249
-,271

12559
-,033

12559
1

,000

,000

,000

,000

,000

,000

,000

,000

,000

,000

,000

,000

,000

12559

12559

12559

12559

12559

12559

12559

12559

4033

12559

2352

1249

12559

12559

** Correlation is significant at the 0.01 level (2-tailed).


* Correlation is significant at the 0.05 level (2-tailed).

140

Correlao Estoque_log X Grade_log


3,0

2,5

2,0

1,5

1,0

SETOR

Estoque_log

,5

18
0,0

14

-,5

-,5

0,0

,5

1,0

1,5

2,0

2,5

Grade_log

Figura 28 Grfico scatterplot entre Estoque_log e Grade_log

Correlao Mostruario_log X Preo_pot


2,0

1,5

1,0

Mostruario_log

,5

SETOR
0,0

18
14
2

-,5
1,0

1,5

2,0

2,5

3,0

3,5

Preco_pot

Figura 29 Grfico scatterplot entre Mostruario_log e Preo_pot

141

Correlao Classe_distribuicao X Classe


10

SETOR
18
14

CLASSE

13
2

0
-1

Classe_distribuicao

Figura 30 Grfico scatterplot entre Classe_distribuicao e Classe

Correlao Estoque_log X Vendas


3,0

2,5

2,0

1,5

1,0

SETOR

Vendas_log

,5

18
0,0
14
2

-,5
-,5

0,0

,5

1,0

1,5

2,0

2,5

3,0

Estoque_log

Figura 31 Grfico scatterplot entre Estoque_log e Vendas_log

142

Correlao Pprazo X Vendas


3,0

2,5

2,0

1,5

1,0

SETOR

Vendas_log

,5

18
14

0,0
13
2

-,5
-20

20

40

60

80

100

120

PPRAZO

Figura 32 Grfico scatterplot entre Pprazo e Vendas_log

Autocorrelao da varivel Vendas_log

TOTAL7_1
1,0

,5

Partial ACF

0,0

-,5
Confidence Limits

Coefficient

-1,0

52
49
46
43
40
37
34
31
28
25
22
19
16
13
10
7
4
1

Lag Number

Figura 33 Grfico de autocorrelao da varivel Vendas_log

143

You might also like