Professional Documents
Culture Documents
Belm 2006
UNIVERSIDADE FEDERAL DO PAR CENTRO DE CINCIAS EXATAS E NATURAIS CURSO DE BACHARELADO EM CINCIA DA COMPUTAO
Trabalho de Concluso de Curso apresentado para obteno do grau de Bacharel em Cincia da Computao. Orientadora: Prof. Dra. Carla Alessandra Lima Reis.
Belm 2006
UNIVERSIDADE FEDERAL DO PAR CENTRO DE CINCIAS EXATAS E NATURAIS CURSO DE BACHARELADO EM CINCIA DA COMPUTAO
Para minha famlia, especialmente meus pais, Roberto e Nazar, que estiveram sempre do meu lado, a quem devo tudo o que sou e tudo o que um dia serei. Espero um dia retribuir uma pequena parte de tudo o que vocs fazem por mim. Para minha namorada Aline, que esteve sempre do meu lado me ajudando e me incentivando nos momentos difceis.
Bruno Barroso
Para meus pais queridos, Pedro Nolasco e Nilza Martins, que me apoiaram e incentivaram neste sonho que est se realizando, dedico todo o mrito dessa vitria a eles. Para minha namorada Waneila Maciel (meu Beb lindo), que me apoiou e me incentivou em todos os momentos, estando sempre ao meu lado e no me deixando desanimar nunca.
Pedro Nolasco
AGRADECIMENTOS
A Deus que nos abenoou com inteligncia e oportunidade para alcanar nossos objetivos. Universidade Federal do Par por nos ter acolhido. nossa Orientadora Carla Alessandra Lima Reis que com sua experincia e compreenso contribuiu para a realizao do trabalho. A professora Miriam Lcia Campos Serra Domingues que desempenhou um papel fundamental em nosso trabalho, estando sempre presente e disposta a ajudar com dedicao e amizade. Ao professor Aldebaro Barreto da Rocha Klautau Jnior pelas dicas dadas para realizao deste trabalho. Vanderlene Covre Rocha pelas dicas acrescidas a este trabalho. A Senhora Rivetla por ter cedido a base de dados de sua vdeo locadora. A todos os nossos amigos que acompanharam de perto nossa vida acadmica e tambm pelos bons momentos de alegria e descontrao. Ao prezado Alfredo Furtado que foi mais que um professor, mostrando que pode existir entre docentes e discentes, no apenas uma relao aluno-professor, mas uma verdadeira amizade, conseguindo com seu bom humor e carisma conciliar o aprendizado em sala de aula com o lazer nos domingos de confraternizao na sede social da Tuna Luso Brasileira.
SUMRIO
LISTA DE FIGURAS ................................................................................................................8 LISTA DE TABELAS ...............................................................................................................9 LISTA DE TABELAS ...............................................................................................................9 RESUMO .................................................................................................................................10 RESUMO .................................................................................................................................10 ABSTRACT .............................................................................................................................11 1 INTRODUO....................................................................................................................12 2 DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS .................................14 2.1 Descoberta de Conhecimento e Minerao de Dados ...................................................14 2.2 Pr-processamento de Dados........................................................................................16 2.2.1 Definio dos Objetivos ........................................................................................16 2.2.2 Coleta de Dados......................................................................................................17 2.2.3 Limpeza e Pr-processamento dos Dados ..............................................................18 2.2.4 Transformao de Dados .......................................................................................20 2.3 Minerao de Dados .....................................................................................................21 2.3.1 Metas do Data Mining ...........................................................................................22 2.3.2 Principais Tarefas no Data Mining........................................................................22 2.3.2.1 Classificao...................................................................................................22 2.3.2.2 Regresso ou Estimativa.................................................................................23 2.3.2.3 Associao ......................................................................................................23 2.3.2.4 Segmentao (Clustering)...............................................................................23 2.3.3 Tcnicas mais usadas no Data mining...................................................................23 2.3.3.1 rvores de Deciso.........................................................................................24 2.3.3.2 Regras de Associao .....................................................................................24 2.3.3.3 Redes Neurais .................................................................................................25 2.3.3.4 Algoritmos Genticos .....................................................................................25 2.3.4 Ferramentas Usadas no Data Mining ....................................................................25 2.4 Ps-processamento .......................................................................................................27 2.5 reas de Aplicao de KDD ........................................................................................27 3 REGRAS DE ASSOCIAO ............................................................................................29 3.1 Conceitos Bsicos.........................................................................................................30 3.2 Descrio Formal do Problema ....................................................................................30
3.3 Decomposio da Tarefa ..............................................................................................31 3.4 O Algoritmo de Apriori ................................................................................................31 3.4.1. Exemplo da utilizao do Algoritmo Apriori .........................................................35 4 FERRAMENTAS DE MINERAO DE DADOS ...........................................................37 4.1 WEKA (Waikato Environment for Knowledge Analysis) ............................................37 4.2 IBM DB2 Intelligent Miner for Data............................................................................43 5 ESTUDO DE CASO - BASE DE DADOS DE UMA LOCADORA DE FILMES .............47 5.1 Definio dos Objetivos .................................................................................................47 5.2 Seleo do Dados............................................................................................................48 5.3 Limpeza e Pr-processamento do Dados........................................................................50 5.3.1 Tabela Cliente........................................................................................................50 5.3.2 Tabela Gnero .......................................................................................................53 5.3.3 Tabela Filmes ........................................................................................................53 5.3.4 Tabela Locaes ....................................................................................................53 5.4 Transformao dos Dados ............................................................................................54 5.4.1 Tabela Cliente........................................................................................................54 5.4.2 Tabela Gnero .......................................................................................................55 5.4.3 Tabela Filmes ........................................................................................................55 5.4.4 Tabela Locaes ....................................................................................................55 5.5 Criao do Conjunto de Dados Objeto .........................................................................56 5.6 Aplicao das Ferramentas...........................................................................................56 5.6.1 Intelligent Miner for Data......................................................................................56 5.6.2 WEKA ...................................................................................................................60 5.7 Comparao das Ferramentas.......................................................................................63 5.8 Anlise dos Resultados.................................................................................................64 5.8.1 Estudo da Relao Gnero X Gnero....................................................................64 5.8.2 Estudo da Relao Sexo X Gnero........................................................................65 5.8.3 Estudo da Relao Mulheres X Faixa Etria X Gnero ........................................66 5.8.4 Estudo da Relao Homens X Faixa Etria X Gnero ..........................................66 6 CONCLUSES E TRABALHOS FUTUROS .....................................................................69 7 REFERNCIAS BIBLIOGRFICAS ..................................................................................71
LISTA DE FIGURAS
Figura 1 Interligao entre KDD e Data Mining. (CARVALHO, 2002) ..............................14 Figura 2 Minerao de dados como um campo multidisciplinar (CRATOCHVIL, 1999) ...15 Figura 3 Etapas do Processo de KDD. (FAYYAD, 1996) ....................................................16 Figura 4 Algoritmo Apriori (adaptado de ARBEX, 2006)....................................................32 Figura 5 A funo Apriori-gen (adapatado de ARBEX, 2006).............................................33 Figura 6 A funo Subset (adaptado de ARBEX, 2006).......................................................34 Figura 7 Funo ap-genrules (adaptado de ARBEX, 2006)..................................................34 Figura 8 Banco de Dados I (adaptado de DOMINGUES, 2004) ..........................................35 Figura 9 Passos do Algoritmo Apriori (adaptado de DOMINGUES , 2004)........................35 Figura 10 Itemsets freqemtes (adaptado de DOMINGUES , 2004)....................................36 Figura 11 Tela de Inicial do WEKA......................................................................................38 Figura 12 Tela Simple Client ................................................................................................38 Figura 13 Tela Explorer.........................................................................................................39 Figura 14 Tela Experimenter.................................................................................................39 Figura 15 Tela KnowledgeFlow ............................................................................................40 Figura 16 Arquivo ARFF ......................................................................................................42 Figura 17 rea de Trabalho do Intelligent Miner..................................................................43 Figura 18 Estrutura Bsica da Base de Dados.......................................................................48 Figura 19 Tabela Clientes com os dependentes no mesmo registro do Titular.....................51 Figura 20 Tabela Clientes com os dependentes separado do titular......................................51 Figura 21 Tela de Seleo da Tabela ou View do Banco de Dados......................................57 Figura 22 Tela de Escolha dos Tipos de Dados ....................................................................57 Figura 23 Dados no Formato Vertical ...................................................................................58 Figura 24 Tela de Seleo do Objeto de Dados de Entrada ..................................................58 Figura 25 Tela de Seleo dos Campos de Entrada...............................................................59 Figura 26 Tela de Definio dos Parmetros.........................................................................59 Figura 27 Tela de Resultados do IM .....................................................................................60 Figura 28 Dados no Formato Horizontal...............................................................................61 Figura 29 Tela WEKA Explorer com todas as sesses habilitadas.......................................61 Figura 30 Tela de Definio dos Parmetros.........................................................................62 Figura 31 Tela de Resultado do WEKA................................................................................63
LISTA DE TABELAS
Tabela 1. Comparao entre Tcnicas e Tarefas de Data Mining (FAYYAD, 1996)..............22 Tabela 2. Algumas Ferramentas para Data mining (REZENDE, 2003) ..................................26 Tabela 3. Resumo das Caractersticas do WEKA (GOLDSCHMIDT, 2005)..........................43 Tabela 4. Resumos das Caractersticas do Intelligent Miner (GOLDSCHMIDT, 2005).........46 Tabela 5. Estrutura da Tabela Cliente ......................................................................................49 Tabela 6. Estrutura da Tabela Filmes .......................................................................................49 Tabela 7. Estrutura da Tabela Gnero ......................................................................................50 Tabela 8. Estrutura da Tabela Locaes...................................................................................50 Tabela 9. Estrutura da Tabela Clientes aps o processo de limpeza e pr-processamento dos dados.........................................................................................................................................52 Tabela 10. Faixas de transformao do atributo idade .............................................................54 Tabela 11. Estrutura da Tabela Clientes aps o processo de transformao dos dados ...........54 Tabela 12. Estrutura da Tabela Locaes aps o processo de transformao..........................55 Tabela 13. Estrutura da tabela Movimentao .........................................................................56 Tabela 14. Regras Geradas com o Primeiro Objetivo ..............................................................65 Tabela 15. Regras Geradas com o Segundo Objetivo (Sexo Feminino) ..................................65 Tabela 16. Regras Geradas com o Segundo Objetivo (Sexo Masculino).................................66 Tabela 17. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 21 e 30 anos) .........66 Tabela 18. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 31 e 40 anos) .........66 Tabela 19. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 21 e 30 anos)............67 Tabela 20. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 31 e 40 anos)............67 Tabela 21. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 41 e 50 anos)............67
10
RESUMO
Este trabalho tem como objetivo apresentar um estudo sobre a rea de descoberta de conhecimento em banco de dados (KDD), suas tcnicas e ferramentas e a consolidao desse estudo atravs de uma aplicao prtica do processo KDD na base de dados de uma locadora de filmes. Neste trabalho, foi aplicada uma tcnica chamada Regras de Associao, atravs do algoritmo APRIORI, com o objetivo de extrair conhecimento que fosse relevante para o domnio da aplicao. Considerando a existncia de diversas ferramentas de KDD que atendem essa tcnica, foram escolhidas duas das ferramentas existentes para que fosse traado um comparativo. As ferramentas escolhidas para o estudo prtico foram: Intelligent Miner for Data e WEKA (Waikato Environment for Knowledge Analysis). Os resultados obtidos com a aplicao destas ferramentas podero ser usados para traar perfis dos clientes da locadora e analisar os hbitos de locaes dos clientes, a fim de levantar informaes relevantes para tomada de deciso envolvendo marketing e estratgia de venda. Alm disso, o trabalho visa contribuir com o estudo de ferramentas disponveis para descoberta de conhecimento, trazendo um estudo de caso que, por ser de domnio conhecido e de simples entendimento, pode ajudar a disseminar o uso das tcnicas de KDD. PALAVRAS-CHAVE: KDD, Data Mining, Weka, Intelligent Miner for Data, Regras de Associao, algoritmo APRIORI.
11
ABSTRACT
This work aims to study the KDD area and also to apply the studied techniques to a video rental store data base. To achieve this goal, we have applied association rules, through the APRIORI algorithm, in order to get useful knowledge for the application domain. Considering that there are many tools supporting KDD and application rules, we decided to choose two of them and compare the final results and the ease of use. The chosen tools were: Intelligent Miner for Data and WEKA (Waikato Environment for Knowledge Analysis). The results obtained with the employment of those tools can be used to establish profiles of the clients of the video rental store and to analyze the renting habits of its clients in order to collect relevant information. Also, this work aims to contribute as a small survey of existing tools, as it brings an application that is easy to understand, helping the dissemination of KDD techniques.
KEYWORDS: KDD, Data Mining, WEKA, Intelligent Miner for Data, Association Rules, APRIORI algorithm.
12
1 INTRODUO
Uma das primeiras aplicaes dos computadores foi gerenciar dados. Desde ento, as instituies que utilizam computadores tm armazenado dados em grandes volumes, e com uma velocidade de aquisio crescente. Avanos nas tecnologias de armazenamento de dados tais como dispositivos de armazenamento mais rpidos, com maior capacidade de armazenamento e mais baratos, alm de sistemas de gerenciamento de bancos de dados mais eficientes, tecnologias como Data Warehousing (conjunto de banco de dados integrados, utilizado para armazenar grandes volumes de dados de sistema de suporte deciso e aplicaes de KDD) e a prpria World Wide Web tm contribudo para fazer com que existam enormes volumes de dados disponveis a todos. A anlise das informaes contidas nesses volumes de dados realizada por consultas diretas com acesso a dados especficos para obter as informaes necessrias. Porm, com o aumento do volume dos dados, fica mais complexo explorar as informaes e encontrar informao potencialmente til para a tomada de deciso. Surgiu, portanto, a necessidade de uma nova gerao de tcnicas e ferramentas com a habilidade de assistir os analistas humanos de uma forma inteligente e automtica na procura de informaes teis, previamente desconhecidas, nos dados. Tais tcnicas e ferramentas so objetos de estudo de uma rea de pesquisa chamada de Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Databases KDD). Este trabalho tem como objetivo principal a realizao do processo de KDD, usando conceitos de regras de associao para processar e representar as relaes encontradas entre os itens armazenados na base de dados de locadora de filmes. Como objetivo especfico tem-se a utilizao e comparao das ferramentas Intelligent Miner for Data (proprietria) e a ferramenta WEKA (open source), visando obter associaes entre os dados que auxiliem a tomada de deciso e ainda, contribuir com informaes sobre aplicao do processo de KDD no estudo de caso escolhido. Neste captulo foi apresentado o contexto em que o trabalho est inserido, bem como os seus objetivos. O restante do trabalho est organizado conforme os itens a seguir:
13
No captulo 2 ser apresentada a fundamentao terica do estudo, mostrando as diversas etapas e sub-etapas do processo de descoberta, suas aplicaes e algumas ferramentas disponveis. No captulo 3 so apresentadas a tcnica Regras de Associao e o algoritmo de APRIORI utilizados para descobrir conhecimentos na base de dados. No captulo 4 so apresentadas s ferramentas Intelligent Miner for Data e WEKA que foram utilizadas no trabalho. No captulo 5 apresentado um estudo de caso, utilizando a base de dados de uma locadora de filmes, a tcnica e o algoritmo foram apresentados no Captulo 3. No captulo 6 so apresentados a concluso e os trabalhos futuros, com seus resultados e contribuies. E finalmente, no captulo 7 so apresentadas as referencias bibliogrficas utilizadas na elaborao desta monografia.
14
2.1 Descoberta de Conhecimento e Minerao de Dados O inicio do estudo de KDD se deu em 1989, na tentativa de procurar conhecimentos nos dados. Nos anos seguintes, ocorreram workshops sobre o assunto e em 1995 aconteceu a Primeira Conferncia Internacional de Prospeco e Minerao de Dados na cidade de Montreal, Canad (SANCHES, 2003). Segundo Carvalho (CARVALHO, 2002), muitas vezes os termos Minerao de Dados e Descoberta de Conhecimento em Banco de Dados so confundidos como sinnimos. Porm, o termo KDD empregado para descrever todo o processo de extrao de conhecimento de um conjunto de dados, enquanto que o termo MD refere-se a uma das etapas deste processo. A relao existente entre KDD e MD pode ser visualizada graficamente atravs da Figura 1.
A natureza do KDD tanto iterativa quanto interativa. A iteratividade tem sua natureza justificada pelo fato de que o conhecimento descoberto apresentado ao usurio pode ser usado da seguinte forma: como base para a medida de avaliao a ser aprimorada; como base para a minerao a ser refinada; novos dados podem ser selecionados ou transformados; ou ainda, novas fontes de dados podem ser integradas para adquirir resultados diferentes e
15
mais apropriados. Portanto, o processo pode ser realizado em etapas seqenciais de maneira que seja possvel sua volta s etapas anteriores, criando laos de ligao entre elas. O usurio tambm o responsvel pela tomada de vrias decises, como na modelagem das informaes, o tipo de algoritmo a ser usado e quais objetivos sero seguidos na busca do conhecimento, garantindo-se assim a sua natureza interativa. O processo de KDD interdisciplinar, pois combina mtodos e ferramentas de diversas reas, como: aprendizagem de mquina, reconhecimento de padres, redes neurais, inteligncia artificial, estatstica, banco de dados, sistemas especialistas e visualizao de dados, conforme Figura 2.
O processo de KDD dividido em seis etapas, tendo uma especial ateno nas etapas iniciais para evitar que sejam necessrias excessivas iteraes e/ou interaes. O processo de KDD pode ser visto na Figura 3.
16
Podem-se distribuir os passos do processo de KDD, vistos na figura 3.1, em trs etapas essenciais: o Pr-processamento, a Minerao de Dados e o Ps-processamento (FELDENS, 1997). A seguir e apresentada a uma descrio de cada uma das etapas (FAYYAD, 1996).
2.2 Pr-processamento de Dados Sua principal caracterstica fazer uma representao mais adequada aos algoritmos de minerao. No pr-processamento so realizados os seguintes passos: definio dos objetivos, coleta de dados, limpeza e pr-processamento dos dados e transformao de dados. 2.2.1 Definio dos Objetivos Um dos passos mais importantes da fase de pr-processamento a definio dos objetivos. nesse estgio que feita a compreenso do domnio de onde o conhecimento ser extrado e so estabelecidos os objetivos que sero alcanados. No existe um padro para delimitar o domnio da aplicao, pois cada aplicao possui caractersticas prprias. No entanto podem ser considerados alguns aspectos: identificar as possveis fontes de dados, saber se existe algum conhecimento prvio da aplicao, como distribuir o conhecimento extrado, estudar a viabilidade e custos da aplicao. Nesta fase, a tcnica a ser empregada definida, com base no problema a ser minerado.
17
2.2.2 Coleta de Dados O prximo passo coletar os atributos que sero utilizados na anlise. Coletar os dados uma tarefa crtica porque as fontes de dados utilizadas no processo de KDD podem ser internas e externas. Um dos principais problemas em coletar dados descobrir onde os dados esto armazenados nos banco de dados, pois muitos sistemas de gerenciamento de dados que esto funcionando hoje foram criados h muitos anos e no possuem documentao satisfatria, o que torna o processo de coleta de dados extremamente difcil. Porm essa tarefa pode ser facilitada quando as empresas utilizam a tecnologia de Data Warehouses, pois esses bancos de dados tentam integrar dados de diversos sistemas transacionais de forma confivel. Independente se a instituio possui ou no um Data Warehouse, a fase de coleta de dados pode ser considerada uma das mais trabalhosas. Alguns desafios que podem ser encontrados nessa fase so (PYLE, 1999): Problemas legais e ticos: podem existir barreiras legais ou ticas que impeam que dados sejam disponibilizados para anlise. Por exemplo, podem existir razes ticas que restrinjam o acesso aos dados que identificam pacientes na rea medica e cliente na rea legal. Motivos estratgicos: pode haver motivos estratgicos que impeam o acesso parte dos dados ou at mesmo a algumas estatsticas sobre os dados. Por exemplo, a proporo de operaes fraudulentas e no fraudulentas uma informao estratgica mantida em absoluto segredo pelas companhias de carto de crdito. Razes polticas: alguns dados podem pertencer a pessoas ou departamentos que pelos mais diversos motivos no apiam a iniciativa de analisar esses dados. Essas pessoas podem impor restries de acesso aos dados, atrasando ou inviabilizando a anlise. Formato dos dados: existem diversos formatos para mdias (disquetes e fitas de diferentes tipos, CD-ROM, entre outros), e para codificao de dados (ASCII, EBCDIC, etc) que podem complicar a coleta de dados de fontes distribudas.
18
Granularidade: nvel de detalhe em que os dados so armazenados. Os sistemas transacionais normalmente armazenam os dados com todo o detalhe possvel, para que possam realizar as suas tarefas. Entretanto, os Data Warehouses dificilmente armazenam os dados de forma detalhada, por motivos de desempenho. Por exemplo, os dados de venda de produtos podem ser totalizados, e somente o total de vendas no dia, de um determinado produto, seja armazenado. Esse fato faz com que os Data Warehouses sejam capazes de armazenar, e serem consultados, sobre dados referentes a vrios anos de movimento. A deciso da granularidade em que os dados so armazenados de extrema importncia, pois dados armazenados de forma sumarizada no podem ser transformados em dados detalhados novamente. Se por um lado as agregaes podem tornar um Data Warehouse mais gil e compacto, por outro lado, certas agregaes podem esconder detalhes dos dados que poderiam ser importante em uma anlise de MD. 2.2.3 Limpeza e Pr-processamento dos Dados Nesta fase busca-se aprimorar a qualidade dos dados coletados, pois os dados apresentam diversos problemas, tais como grande quantidade de valores desconhecidos, rudos (atributos com valores incorretos), grande desproporo entre o nmero de exemplos de cada classe, entre outros. Essa fase freqentemente tida como sendo uma fase que envolve uma grande quantidade de conhecimento de domnio, pois normalmente os dados coletados diretamente de banco de dados so de m qualidade. As principais tarefas da limpeza e pr-processamento de dados so (BATISTA, 2003): Identificao de inconsistncias: ocorre quando dados diferentes so representados pelo mesmo rtulo, ou quando o mesmo dado representado por rtulos diferentes. Um exemplo de inconsistncia ocorre quando um atributo assume diferentes valores, os quais representam, na verdade, uma mesma informao. Por exemplo, um atributo nomefaculdade, que armazena nomes de faculdades, assume os valores UFPA, Ufpa, Universidade Federal do Par, etc, sendo que todos esses valores representam uma mesma informao.
19
Identificao de poluio: existem diversas fontes de poluio de dados. De certa forma, pode-se entender por poluio a presena de dados distorcidos, os quais no representam os valores verdadeiros. Por exemplo, uma empresa de carto de crdito cujo banco de dados possua um campo sexo. Entretanto, alguns registros assumiam o valor E para esse atributo, o qual posteriormente, descobriu-se que correspondia informao Empresa. Originalmente, o sistema tinha sido projetado somente para cadastrar cartes para pessoas fsicas, porm, quando cartes para empresas foram permitidos, no havia um campo especfico para indicar que o cadastrado era uma empresa. Essa informao foi ento armazenada no campo sexo. Verificao de integridade: analisar a integridade dos dados freqentemente envolve uma anlise das relaes permitidas entre os atributos. Por exemplo, uma cliente pode ter varias locaes de vdeo, entretanto, um mesmo cliente no pode ter mais de um CPF em um dado sistema. Identificao de atributos duplicados e redundantes: Ocorre quando uma informao essencialmente idntica armazenada em diversos atributos. Um exemplo possuir atributos em uma mesma tabela como data de nascimento e idade. O maior dano causado pela redundncia para a maioria dos algoritmos utilizados na fase de MD um aumento no tempo de processamento. Entretanto, alguns mtodos so especialmente sensveis ao nmero de atributos, e variveis redundantes podem comprometer seus desempenhos. Tratamento de valores desconhecidos: comum encontrar registros com valores desconhecidos, como cada algoritmo trata os valores desconhecidos de uma forma preciso estabeleces critrios para o tratamento de atributos desconhecidos. Tratamento de conjunto de dados com classes desbalanceadas: conjuntos de dados com classes desbalanceadas so aqueles que possuem uma grande diferena entre o nmero de exemplos pertencentes a cada valor de um atributo classe qualitativo. A maioria dos algoritmos tem dificuldades em criar um modelo que classifique com preciso os exemplos da classe minoritria. Uma forma de solucionar esse problema procurar por uma distribuio da classe que fornea um desempenho aceitvel de classificao para a classe minoritria.
20
Seleo de atributos: consiste em encontrar um subconjunto de atributos no qual o algoritmo utilizado em MD ir se concentrar, pois muitos algoritmos no funcionam bem com uma grande quantidade de atributos, dessa forma a seleo de atributos pode melhorar o desempenho desses algoritmos. Construo de atributos: Se os atributos utilizados para a descrio do conjunto de dados so inadequados, os algoritmos utilizados em MD provavelmente criaro classificadores imprecisos ou excessivamente complexos. Assim, construo de atributos o processo de composio de atributos ditos primitivos, produzindo-se novos atributos possivelmente relevantes para a descrio de um conceito. 2.2.4 Transformao de Dados Aps os dados serem limpos e pr-processados, pode ser necessrio transformar a forma em que os dados esto representados com o objetivo de superar quaisquer limitaes existentes no algoritmo de extrao de padres que ser utilizado. A deciso de quais transformaes ser necessria depende do algoritmo que ser utilizado na fase de MD. Algumas dessas transformaes mais comuns so (BATISTA, 2003): Discretizao de atributos quantitativos: muitos algoritmos possuem a limitao de trabalhar somente com atributos qualitativos. Entretanto, muitos conjuntos de dados possuem atributos quantitativos, e para que esses algoritmos possam ser aplicados necessrio utilizar algum mtodo que transforma um atributo quantitativo em um atributo qualitativo, ou seja, em faixa de valores. Transformao de atributos qualitativos em quantitativos: Alguns algoritmos no so capazes de manipular atributos qualitativos. Dessa forma, necessrio converter os atributos qualitativos em atributos quantitativos. Existem diversas abordagens para realizar essa transformao dependendo das caractersticas e limitaes de cada algoritmo. Por exemplo, atributos qualitativos como pequeno, mdio e grande, podem ser mapeados para valores numricos como, por exemplo, pequeno = 1, mdio = 2 e grande = 3. Atributos de tipos de dados complexos: A maioria dos algoritmos utilizados para extrair padres no consegue trabalhar com tipos de dado mais complexos. Por exemplo, atributos do tipo data e hora no so normalmente analisados pela
21
maioria dos algoritmos utilizados na fase de MD. Dessa forma, necessrio converter esses atributos para algum outro tipo de dado com o qual esses algoritmos possam trabalhar. No caso especfico dos tipos de dado data e hora, a escolha mais simples pela converso para o tipo inteiro. Por exemplo, um atributo data de nascimento pode ser convertido para idade calculando-se a diferena em anos entre os valores do atributo data de nascimento e data atual.
2.3 Minerao de Dados Sua principal caracterstica a aplicao dos algoritmos aos dados pr-processados. Na etapa de Minerao de Dados, tm-se os seguintes passos: 1. Escolha da tarefa de Data Mining: uma combinao de tarefas deve ser escolhida dentre os vrios tipos de tarefas possveis como: classificao, regresso, associao, clustering; 2. Escolha do algoritmo de Data Mining: de acordo com a tarefa selecionada, um determinado algoritmo, tambm denominado de tcnica, ser aplicado nos dados, utilizando-se os modelos e parmetros mais apropriados; 3. Aplicao de Data Mining: busca por padres de interesse particular em uma forma representacional particular ou em um conjunto de aplicaes. A Tabela 1 apresenta um resumo das diversas tcnicas de minerao de dados, relacionando as possveis tarefas e os algoritmos que podem ser utilizados. Tcnica Regras de Associao rvore de Deciso Descrio Tarefas Algoritmo Apriori, AprioriTid, AprioriHybrid, AIS, SETM e DHP. CART, CHAID, C5.0, Quest, ID-3, SLIQ e SPRINT.
Estabelece uma correlao Associao estatstica entre os atributos de dados e conjunto de dados. Hierarquizao dos dados, Classificao baseada em estgios de deciso Regresso (ns) e na separao de classes e subconjuntos.
Algoritmos Genticos
Mtodos gerais de busca e Classificao otimizao, inspirados na Teoria Segmentao da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de ter
22
descendentes. Modelos inspirados na fisiologia Classificao do crebro, onde o Segmentao conhecimento fruto do mapa Regresso das conexes neuronais e dos pesos dessas conexes.
Perceptron, Rede MLP, Redes de Kohonen, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron e Rede BSB.
2.3.1 Metas do Data Mining Existem duas metas primarias que podem ser alcanadas atravs da Minerao de Dados (FAYYAD, 1996): Previso: determina as chances de uma ao ocorrer, para se antecipar os valores de variveis desconhecidas ou analisar um possvel valor para uma varivel com o passar do tempo, utilizando algumas variveis, como atributos da base de dados. Descrio: procura por padres que descrevem os dados e que sejam de entendimento dos usurios. 2.3.2 Principais Tarefas no Data Mining Existem diversas tarefas para alcanar as metas de previso e descrio. Alm disso, a tarefa a ser usada precisa ser definida logo no inicio do processo de KDD assim que for definido o domnio da aplicao, pois cada tarefa extrai um tipo de conhecimento. As principais tarefas so: classificao, regresso ou estimativa, associao e segmentao (clustering), as quais sero descritas a seguir segundo Fayyad (FAYYAD, 1996) e Viana (VIANA, 2004). 2.3.2.1 Classificao A classificao utiliza o aprendizado supervisionado de uma funo que classifica, ou seja, atribui uma classe a um item de dado, dentro de vrias classes estabelecidas previamente. Esta tcnica consiste em examinar as caractersticas de um objeto e atribuir (prever) a ele uma classe pr-definida, classificando estes novos objetos. Desta forma, esta tarefa considerada preditiva, pois pode prever automaticamente a classe de um novo dado.
23
No data mining so comuns as tarefas de classificao de clientes em baixo, mdio ou alto risco de emprstimo bancrio; de clientes potencialmente consumidores de um determinado produto a julgar pelo seu perfil; de transaes financeiras como legais, ilegais ou suspeitas em sistemas de proteo e fiscalizao, entre outras. 2.3.2.2 Regresso ou Estimativa A regresso consiste no aprendizado de uma funo que mapeia um item de dado para uma varivel de valor real, ou seja, define um valor numrico de alguma varivel desconhecida a partir dos valores de outras variveis. similar classificao, exceto pelo valor contnuo do atributo categrico, ao invs de nominal. Os mtodos de regresso permitem a discriminao dos dados atravs da combinao dos atributos de entrada, o que equivale a determinar retas de separao dos dados. 2.3.2.3 Associao A associao um mtodo no supervisionado, considerado descritivo, isto , usado para identificar padres em dados histricos. Este tarefa determina os grupos de itens que tendem a ocorrer ao mesmo tempo, em uma mesma transao, gerando-se uma grande quantidade de regras. Para encontrar exemplos de interesse, algumas mtricas so utilizadas. A regra de associao X => Y, onde X e Y so itens da transao, possuir suporte s se X e Y ocorrerem simultaneamente em s% das transaes. A mesma regra de associao X => Y, ter confiabilidade c se em c% das transaes em que o item X aparece em uma transao, o item Y tambm aparece. Esta a tarefa utilizada na elaborao deste trabalho. 2.3.2.4 Segmentao (Clustering) A clusterizao, agrupamento ou segmentao utiliza o aprendizado no supervisionado para identificar um conjunto finito de categorias ou agrupamentos utilizados para classificar os dados. O objetivo particionar a base de dados em grupos (clusters), sendo que os registros pertencentes a um grupo devem possuir similaridades entre si. Esta tarefa considera descritiva, pois encontra padres na base de dados. 2.3.3 Tcnicas mais usadas no Data mining Harrison (HARRISON, 1998) afirma que no h uma tcnica que resolva todos os problemas de minerao de dados. Diferentes mtodos servem para diferentes propsitos,
24
cada mtodo oferece suas vantagens e suas desvantagens, por isso, muito importante que se conhea bem o ambiente de aplicao e as tcnicas disponveis para que se possa escolher a mais adequada. A seguir so descritas as tcnicas de minerao de dados normalmente usadas. 2.3.3.1 rvores de Deciso Esta tcnica mais propcia para resoluo de problemas que envolvam as tarefas de Classificao e Regresso. Segundo Goebel e Gruenwald (GOEBEL, 1999), uma rvore de deciso uma rvore onde cada n no terminal representa um teste ou deciso sobre o item de dado. Na rvore de deciso os ns representam os atributos, as ligaes entre os ns representam os possveis valores dos atributos e as folhas representam as classes. O objetivo principal de uma rvore de deciso separar as classes; tuplas de classes diferentes tendem a ser alocadas em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das principais vantagens das rvores de deciso o fato de que o modelo bem explicvel, uma vez que tem a forma de regras explcitas (HARRISON, 1998). 2.3.3.2 Regras de Associao Est tcnica mais propicia para resoluo de problemas que envolva a tarefa de associao. Regras de associao estabelecem uma correlao estatstica entre certos itens de dados em um conjunto de dados (GOEBEL, 1999). Uma regra de associao tem a forma geral X1 ^ ... ^ Xn => Y [C,S], onde X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com um suporte mnimo de S e ^ denota um operador de conjuno (AND). Um exemplo prtico afirmar que 60% dos registros que contm X tambm contm Y; o percentual 60% chamado de confiana. J o suporte da regra X => Y o numero de ocorrncias deste conjunto de itens na mesma transao.
25
2.3.3.3 Redes Neurais A tcnica de Redes Neurais mais propcia para uso das tarefas de classificao, estimativa e segmentao. Redes Neurais so solues computacionais que envolvem o desenvolvimento de estruturas matemticas com a habilidade de aprendizagem. As redes neurais tm uma notvel habilidade de derivar medidas de dados complicados ou imprecisos e podem ser utilizadas para extrair padres e detectar tendncias que so muito complexas para serem percebidas tanto por seres humanos quando por outras tcnicas computacionais (DWBRASIL, 2005). Uma das principais vantagens das redes neurais sua variedade de aplicao, mas os seus dados de entrada so difceis de serem formados e os modelos produzidos por elas so difceis de entender (HARRISON, 1998). 2.3.3.4 Algoritmos Genticos A tcnica de Algoritmos genticos indicada no uso das tarefas de classificao e segmentao. Os Algoritmos genticos so algoritmos de busca baseado na seleo natural dos seres vivos. Segundo Goldberg (GOLDBERG, 1989), a cada gerao, novos indivduos (strings) so gerados a partir dos indivduos velhos. Cada individuo representa os parmetros pra soluo do problema e possui tambm um valor fitness, o qual indica o quo satisfatrio ele como soluo do problema. Os algoritmos genticos usam os operadores de seleo, cruzamento e mutao para desenvolver sucessivas geraes de solues. Com a evoluo do algoritmo, somente as solues com maior poder de previso sobrevivem, at os organismos convergirem em uma soluo ideal (HARRISON, 1998). 2.3.4 Ferramentas Usadas no Data Mining Muitas ferramentas esto disponveis no mercado e realizam diversas tarefas de minerao. De acordo com o problema a ser solucionado, uma delas poder ser escolhida para que se tenha o resultado desejado. Na tabela 2 so descritas algumas caractersticas de ferramentas comerciais e prottipos disponveis no mercado.
26
Nome
Tcnicas Disponveis
Fabricante/Site Megaputer Intelligence www.megaputer.com Rule Quest www.rulequest.com Attar Software Ltd. www.attar.com Dr Philip Vasey atravs do LPA PROLOG Microsoft Corp. www.Microsoft.com Oracle Corp. www.oracle.com Oracle Corp. www.oracle.com Silicon Graphics Inc. www.sgi.com University of Waikato www.waikato.ac.nz IBM Corp. www.ibm.com Silicon Graphics Inc. www.sgi.com/tech/mlc Rule Quest www.rulequest.com Rule Quest www.rulequest.com SPSS Inc. www.spss.com Data-Miner PTY LTD www.data-miner.com
PolyAnalyst classificao, regresso, regras associativas, clustering, sumarizao, e modelagem de Dependncia Magnum regras associativas Opus classificao, regresso, regras XpertRule associativas e clustering Miner regras associativas DataMite Microsoft Data Analyser 2002 Oracle 9i Data Mining Darwin MineSet WEKA Inteligent Miner classificao e clustering
classificao, regresso, Associativas classificao, regresso e Clustering classificao, regresso, regras associativas e clustering classificao, regresso, regras associativas e clustering regras associativas, padres seqenciais, classificao, clustering, sumarizao e modelagem de dependncia classificao, regresso e Clustering Classificao Regresso
classificao, regras associativas, clustering e padres seqenciais Data-Miner classificao e regresso Software Kit
A denominao especfico representa uma ferramenta para apoiar uma tarefa especfica, no possuindo a generalidade e a flexibilidade encontradas nos pacotes. Diante desse fato as ferramentas especficas tendem a ser mais simples e fceis de serem compreendidas.
27
As ferramentas WEKA e Intelligent Miner for Data sero apresentadas em maiores detalhes no Capitulo 4, pois foram escolhidas para a experimentao do estudo de caso desse trabalho.
2.4 Ps-processamento Sua principal caracterstica o uso das descobertas teis e suas representaes. Na etapa de ps-processamento, tm-se os seguintes passos: 1. Interpretao dos padres: avaliao e interpretao dos padres encontrados a fim de determinar aqueles que tero alguma utilidade e gerem algum conhecimento. Nesta etapa, pode ocorrer a necessidade de retorno a umas das etapas anteriores; 2. Consolidao do conhecimento: nesta fase efetivado o principal objetivo da minerao onde verificado e utilizado o novo conhecimento sobre os dados atravs das ferramentas de visualizao. Adicionalmente, deve ser feita uma documentao para auxiliar a compreenso do usurio.
2.5 reas de Aplicao de KDD As tcnicas de minerao de dados evoluram muito e podem ser utilizadas em uma grande variedade de reas de aplicao. A seguir, sero relacionadas algumas reas de interesse na utilizao de minerao de dados: Marketing: Tcnicas de minerao de dados so aplicadas para descobrir preferncias do consumidor e padres de compra, com o objetivo de realizar marketing direto de produtos e ofertas promocionais, de acordo com o perfil do consumidor. Deteco de fraudes: Muitas fraudes bvias (tais como, a compensao de cheque por pessoas falecidas) podem ser encontradas sem minerao de dados, mas padres mais sutis de fraude podem ser difceis de serem detectados, por exemplo, o desenvolvimento de modelos que predizem quem ser um bom cliente ou aquele que poder se tornar inadimplente em seus pagamentos.
28
Medicina: Caracterizar comportamento de paciente para prever visitas, identificar terapias mdicas de sucesso para diferentes doenas, buscar por padres de novas doenas. Instituies governamentais: descoberta de padres para melhorar as coletas de taxas ou descobrir fraudes. Cincia: tcnicas de minerao de dados podem ajudar cientistas em suas pesquisas, por exemplo, encontrar padres em estruturas moleculares, dados genticos, mudanas globais de clima, oferecendo concluses valiosas rapidamente. Banco: detectar padres de uso de carto de crdito fraudulento, identificar clientes leais, determinar gastos com carto de crdito por grupos de clientes, encontrar correlaes escondidas entre diferentes indicadores financeiros.
29
3 REGRAS DE ASSOCIAO
Atualmente, a descoberta de regras de associao parece ser uma das tcnicas de minerao de dados mais utilizada. Esta tcnica tem como premissa bsica encontrar elementos que implicam na presena de outros elementos em uma mesma transao, ou seja, encontrar relacionamentos ou padres freqentes entre conjuntos de dados. O termo transao indica quais itens foram consultados em uma determinada operao de consulta. O interesse nessa busca de informao ocorre, sobretudo, em virtude dos progressos feitos na tecnologia de cdigos de barra, que permitiu s organizaes de varejo coletar e armazenar grande quantidade de dados referentes s compras realizadas por seus clientes, conhecidas como dados de cesta. Esse processo analisa os hbitos de consumo dos clientes descobrindo associaes entre diferentes itens que so colocados nas cestas de compra. Por exemplo, a partir de uma base de dados, na qual se registram os itens adquiridos por clientes, uma estratgia de minerao, com uso de regras de associao, poderia gerar a seguinte afirmao: 90% dos clientes que adquirem po e manteiga tambm adquirem leite. Essa regra pode ser representada na forma: {po, manteiga} => {leite}. O exemplo ilustra uma das caractersticas mais atrativas das regras de associao: elas so expressas em uma forma muito fcil de ser compreendida. Organizaes de sucesso vem tais bancos de dados como importantes peas da sua infra-estrutura de marketing, pois atravs do conhecimento desses dados, as organizaes dirigem seus processos de marketing e promovem estratgias de layout e catlogos que possam trazer vantagens a partir dos dados coletados (AGRAWAL, 1996). Alm da anlise do comportamento do consumidor no comrcio varejista, a minerao de regras de associao poderia ser aplicada em outras reas, como nos servios bancrios e de telecomunicao, no histrico de pacientes e na anlise de admisso em cursos universitrios.
30
3.1 Conceitos Bsicos Uma regra de associao um relacionamento na forma A (antecedente) => B (conseqente), onde A e B so conjuntos de itens e A B = . Para cada regra de associao gerada calculado um fator de suporte e um fator de confiana. O suporte de uma regra A B , onde A e B so conjuntos de itens, dado pela seguinte frmula:
Suporte = Freqncia A e B Total de Transaes
Onde o numerador se refere ao nmero de transaes em que A e B ocorrem simultaneamente e o denominador ao total de transaes. A sua confiana dada pela seguinte frmula:
Confiana =
Freqncia de A e B Freqnciade A
Onde o numerador se refere ao nmero de transaes em que A e B ocorrem simultaneamente e o denominador se refere quantidade de transaes em que o item A ocorre. O suporte pode ser descrito como a probabilidade de uma transao qualquer satisfaa tanto A como B, ao passo que a confiana a probabilidade de que uma transao satisfaa B, dado que ela satisfaa A. Assim sendo, a tcnica de descoberta de regras de associao consiste na extrao de todas as regras com suporte e confiana maior ou igual ao suporte mnimo e confiana mnima especificados pelo usurio. 3.2 Descrio Formal do Problema A descrio formal do problema de minerao de regras de associao, conforme Agrawal (AGRAWAL, 1996) a seguinte: Sejam = {i1 , i2 , ... im } um conjunto de m itens
distintos e D uma base de dados formada por um conjunto de transaes, onde cada transao T composta por um conjunto de itens (itemset), tal que T I . Uma regra de associao uma expresso na forma A B , onde A I , B I , A , B , A B . A
31
denominado antecedente e B denominado conseqente da regra. Tanto o antecedente, quanto o conseqente de uma regra de associao podem ser formados por conjuntos contendo um ou mais itens. A quantidade de itens pertencentes a um conjunto de itens chamada de comprimento do conjunto. Um conjunto de itens de comprimento k costuma ser referenciado como um k-itemset. A regra A B vlida no conjunto de transaes D com grau de confiana c, se c% das transaes em D que contm A tambm contm B. A regra A B tm suportes em D, se s% das transaes em D contm A B .
32
O algoritmo Apriori usa o principio de que cada subconjunto de um conjunto de itens freqentes tambm deve ser freqente. Esta regra utilizada para reduzir o nmero de candidatos a serem comparados com cada transao no banco de dados. Todos os candidatos gerados que contenham algum subconjunto que no seja freqente so eliminados. Este principio denominado propriedade de antimonotonia da relao (ARBEX, 2006). A Figura 4 apresenta o algoritmo Apriori. 01) L1 = {Conjunto dos Itemsets freqentes de tamanho 1} 02) para ( k = 2; Lk 1 ; k + + ) 03) Ck = apriori-gen(Lk-1) //Gerao de candidatos para todas as transaes t 04) 05) Ct = subset(Ck, t) 06) para todos os candidatos c em Ct fazer c.contagem ++ fim de para todas 07) 08) Lk = {c em Ck | c.contagem minsup} 09) fim de para 10) Resposta = Reunio de todos os Lk
Figura 4 Algoritmo Apriori (adaptado de ARBEX, 2006)
33
itemsets, com a juno de Lk-1 com Lk-1 para gerar os itemsets candidatos. O critrio da linha 2
garante que apenas a primeira coluna das tabelas p e q (criadas a partir de Lk-1) sero selecionadas, isto necessrio, pois estas tabelas so criadas com duas colunas, a primeira contendo os itemsets e a segunda o suporte para cada itemset. O critrio da linha 4 garante que os itemsets candidatos formados estaro ordenados lexicograficamente, eliminando aqueles que possurem itens equivalentes (ARBEX, 2006). No passo Prune, linhas de 5 a 11 da funo Apriori-gen, so removidos todos os itens
c Ck tal que, qualquer sub-item c de tamanho k-1 no esteja em Lk-1, ou seja, os candidatos
com subconjunto no freqentes so eliminados. A funo subset, mostrada na Figura 6, recebe como argumento Ck, que possui os itens candidatos j podados, e as transaes t da base de dados, e retorna Ct que formado por todos os conjuntos candidatos (itemset) de Ck presentes em uma transao t (ARBEX, 2006).
34
01) para todos os conjuntos freqentes Lk, k 2 02) Hm = L k 03) chamar ap-genrules(Lk, Hm) 04) fim de para todos
Figura 6 A funo Subset (adaptado de ARBEX, 2006)
Nota-se que o algoritmo tem, em sua linha 3, uma chamada para a funo ap-genrules, que encarregada de calcular a confiana, bem como, escrever a regra encontrada. A funo mostrada na Figura 7. 01) ap-genrules(Lk, Hm) 02) H = {(m-1)-itens Hm-1 | Hm-1 Hm} //gera o conjunto H contendo os subconjuntos Hm com Hm-1 elementos para todos Hm-1 em A 03) 04) conf = suporte(Lk) / suporte(Hm-1) //calcula a confiana para a regra Hm-1 05) se (conf minconf) ento 06) escreva regra Hm-1 (Lk - Hm-1), com confiana=conf e suporte=suporte(Lk) 07) se (m-1 > 1) ento ap-genrules(Lk, Hm-1) 08) 09) fim de se 10) fim de para todos 11) fim
Figura 7 Funo ap-genrules (adaptado de ARBEX, 2006)
A funo ap-genrules recebe como argumento o conjunto freqente Lk por duas vezes, a primeira como Lk e a segunda como Hm, conjunto freqente com m-itens, onde inicialmente
35
vlidas e exibidas ao trmino da execuo do algoritmo ao lado de seus valores de suporte e confiana.
Em um banco de dados I = {A, B, C, D, E} e um conjunto de transaes D = {1,2,3,4,5,6}, conforme mostra a Figura 8, determinar os itemsets com minsup igual a 50%, ou seja, que ocorram em pelo menos trs transaes.
O algoritmo segue seus passos, conforme mostra a Figura 9, gerando os conjuntos candidatos e a partir destes descobrindo os itemsets freqentes, que so apresentados na Figura 10.
36
Neste exemplo, nota-se o uso da propriedade da antimonotonia da relao, pois os conjuntos C3 e C4 que deveriam possuir respectivamente 10 e 5 itemsets candidatos, se fossem geradas todas as combinaes dos itens com 3 e 4 elementos, no possuem, pois os
itemsets que no apresentam todos seus subconjuntos tambm freqentes so eliminados sem
a necessidade de calcular seu suporte.
37
38
Simple Client Nessa interface, a interao do usurio com o WEKA ocorre por
meio de linhas de comando. Requerendo um profundo conhecimento do programa. Contudo, extremamente flexvel e gil para usurios avanados. Na Figura 12, exibimos a tela do Simple Client.
39
40
O WEKA possui implementados diversos mtodos de associao, classificao e clusterizao. A incluso ou remoo de novos mtodos pode ser realizada de forma simples e rpida, o que torna a ferramenta customizvel e expansvel. Como exemplos dos mtodos implementados pelo WEKA, pode-se citar:
Mtodos de Classificao:
o rvore de deciso induzida, o Regras de aprendizagem o Naive Bayes o Tabelas de deciso o Regresso local de pesos o Aprendizado baseado em instncia o Regresso lgica o Perceptron
41
42
Caractersticas Acesso a Fontes de Dados Heterogneas Integrao de Conjuntos de Dados Facilidade para Incluso de Novas Operaes Facilidade para a Incluso de Novos Mtodos Recursos para Incluso de Novos Mtodos Processamento Paralelo/Distribudo Operaes/Mtodos Visualizao de Dados Disponveis Reduo de Dados Limpeza de Dados Codificao de Dados Classificao
Clusterizao Simplificao de
valores Sim No Sim Sim Sim No Distribuio de Freqncias; Medidas de Disperso; Histogramas Amostragem Substituio Discretizao automtica e manual. rvores de Deciso, Bayes, Redes Neurais... Simple-KMenas, Cobweb, FarthesFirst...
N/D
43
Resultados Organizao de Resultados Apresentao de Resultados Estruturas para Armazenamento de Modelos de Conhecimento Estruturas para Acompanhamento de Histricos de Aes
Agrupamentos de Padres; Ordenamento de Padres Conjunto de Regras; rvores de Deciso. Sim Sim
44
Com relao sua estrutura, o Intelligent Miner funciona em uma arquitetura cliente / servidor, onde o servidor pode ser executado em workstations com sistema operacional AIX, Sun Solaris ou Windows 2000/NT/WS2003/XP. O cliente pode ser executado em
45
A ferramenta tambm inclui funes que facilitam a anlise e preparao dos dados, sobretudo funes estatsticas, como anlise de fatores, regresso linear, anlise de componentes principais, ajustamento de curvas, regresso logstica, estatsticas univariantes e bivariantes. Alm de todas estas funes disponibilizadas, a ferramenta permite interoperabilidade com outras ferramentas de anlise, aumentando as capacidades de explorao e anlise de dados. Em termos de interface, o Intelligent Miner fornece acesso interativo a tarefas de Data
Mining, incluindo: ajuda on-line, guias de tarefas e representao grfica das bases de dados e
seus objetos. possvel a definio de macros de seqncias, que podem ser gravadas, alteradas, repetidas e transportadas de sistema para sistema. Um conjunto de funes de visualizao de resultados de Data Mining ou das funes estatsticas est presente para permitir melhor compreenso da informao. A ferramenta oferece ainda a Intelligent Miners programable interface que permite a definio de aplicaes personalizadas e especficas da indstria. So ainda oferecidas funes que facilitam a exportao de resultados para diversas ferramentas anlise, como por exemplo, ferramentas OLAP1, por exemplo, permite interoperabilidade com SPSS2 para proporcionar capacidades adicionais de explorao de dados e anlise estatstica. As operaes de Data Mining podem ser executadas diretamente sobre bases de dados DB2 (da IBM), arquivos, fontes de informao acessveis por DataJoiner. Adicionalmente, tambm so disponibilizadas funes de importao de dados de Oracle e Sysbase para DB2. O Intelligent Miner permite ainda tirar partido de processamento em bases de dados DB2 em paralelo Na Tabela 4 podemos verificar um resumo das caractersticas do Intelligent Miner.
Caractersticas Acesso a Fontes de Dados Heterogneas Integrao de Conjuntos de Dados Facilidade para Incluso de Novas Operaes Facilidade para a Incluso de Novos Mtodos Recursos para Incluso de Novos Mtodos Processamento Paralelo/Distribudo Operaes/Mtodos Visualizao de Dados
1
Valores
Sim Sim Sim Sim Sim Sim Histogramas, Grficos (de pizza, de
OLAP (On-Line Analytic Processing), ou seja, processamento analitico em tempo real, para rapidamente dar resposta a consultas complexas base de dados. 2 SPSS (Statistical Package for the Social Sciences), ou seja, pacote estatstico para as cincias sociais. So sistemas desenvolvidos para anlise estatstica e Data mining dos dados.
46
Reduo de Dados Limpeza de Dados Codificao de Dados Classificao Disponveis Normalizao Clusterizao Simplificao de Resultados Organizao de Resultados Apresentao de Resultados Estruturas para Armazenamento de Modelos de Conhecimento Estruturas para Acompanhamento de Histricos de Aes
linha, de barra) Clculo de valores, Seleo, Amostragem, Aplicao de filtros Substituio, Descarte Discretizao, Randomizao e Transformao automtica e manual rvore de Deciso (CART modificado), Mtodos Estatsticos, Redes Neurais No K-Means Informaes no disponvel Agrupamentos de Padres; Ordenamento de padres Grficos (pizza, barras), Tabelas, rvores, Clustes Sim Sim
47
Mining dentro das empresas no apoio deciso, decidiu-se utilizar uma base de dados
comercial para demonstrar a tcnica escolhida. Nesta rea, as informaes obtidas atravs de
48
No caso deste trabalho, o objetivo principal analisar os hbitos de locao dos clientes descobrindo associaes entre os diferentes gneros de filmes que so locados tambm analisar o perfil dos seus clientes.
As locaes dirias desta locadora esto armazenadas na tabela Locao, consistindo no cdigo do cliente, cdigo do filme, autorizado do cliente (quem fez a locao, se foi o cliente ou um de seus dependentes), data da locao, hora da locao, data da devoluo, hora da devoluo, operao de locao (documento-locacao), operao de devoluo (documentodevolucao) e valor da locao. Para cada filme de uma mesma operao (locao) criado um novo registro.
49
A tabela Cliente, armazena as informaes referentes aos clientes j cadastrados pela locadora. Cada cliente possui um cdigo interno. O nome do cliente, endereo, bairro, data de nascimento, dependentes desse cliente, entre outras informaes tambm so armazenadas na tabela Cliente. J a tabela Filme, armazena as informaes referentes aos filmes j cadastrados pela locadora. Cada filme possui um cdigo interno, alm do cdigo do gnero (gnero) a que pertence o filme. O titulo do filme, a sua data de aquisio, os autores, o preo, entre outras informaes tambm so armazenadas na tabela Filme. Para cada DVD ou VHS de um filme criado um novo registro. Existe tambm uma tabela auxiliar, chamada Gnero, que possui armazenado a descrio de cada cdigo de gnero (Ao, Aventura, Terror, Infantil, etc). Para criao do conjunto de dados objeto, foi necessria a criao de 4 tabelas: Clientes, Filmes, Gneros e Locaes. Para criao dessas tabelas foi utilizado o banco de dados Access 2000. A estrutura das tabelas Clientes, Filmes, Gneros e Locaes mostrada nas Tabelas 5, 6, 7 e 8, respectivamente.
Campo Cdigo Nome Bairro Dt-Nasc-Titular Profisso Autorizado1 Dt-Nasc-Autoriado1 Autorizado2 Dt-Nasc-Autoriado2 Autorizado3 Dt-Nasc-Autoriado3 Autorizado4 Dt-Nasc-Autoriado4
Tabela Cliente Descrio Cdigo nico do cliente Nome do cliente titular Bairro onde mora o cliente Data de nascimento do titular Profisso do titular Nome do primeiro dependente Data de nascimento do primeiro dependente Nome do segundo dependente Data de nascimento do segundo dependente Nome do terceiro dependente Data de nascimento do terceiro dependente Nome do quarto dependente Data de nascimento do quarto dependente
Tabela 5. Estrutura da Tabela Cliente
Tabela Filmes Descrio Cdigo nico do filme Titulo do filme em portugus Cdigo do gnero
Tabela 6. Estrutura da Tabela Filmes
Campo Cdigo
50
Gnero
Descrio do gnero
Tabela 7. Estrutura da Tabela Gnero
Tabela Locaes Descrio Operao da locao Cdigo do cliente responsvel pela locao Cdigo do filme da locao Identifica o tipo do cliente (Titular, Autorizado1, Autorizado2, Autorizado3 ou Autorizado4) Data da locao do filme Hora da locao do filme
Tabela 8. Estrutura da Tabela Locaes
Para carregar os dados referentes aos clientes, filmes, gneros e locaes foram gerados, a partir do banco de dados da locadora, quatro arquivos do tipo texto. Em seguida, esses arquivos foram importados para as tabelas criadas no banco de dados Access 2000. No total 4.298 registros foram adicionados na tabela Clientes, 5.186 registros na tabela Filmes, 30 registros na tabela Gneros e 27.184 registros na tabela Locaes. Alguns atributos das tabelas Clientes (rg, cpf, telefone, cep, etc), Filmes (diretor, ator1, ator2, durao, etc) e Locaes (data da devoluo, hora da devoluo, etc) foram desconsiderados no momento da importao, por serem irrelevantes para o objetivo desse estudo.
51
Conforme pode ser observado na estrutura apresentada anteriormente, a tabela Clientes possua em um nico registro os dados cadastrais dos seus clientes titulares e de seus dependentes, totalizando 4.298 registros (ver Figura 19).
Para facilitar o processo de descoberta de conhecimento foi necessrio separar essa informao em registros diferentes. Dessa forma, houve a necessidade de criar o campo ID (T, D1, D2, D3 e D4), para diferenciar os titulares de seus dependentes, conforme pode ser observado na Figura 20. Aps essa modificao, identificou-se a quantidade real de clientes da vdeo locadora totalizando 9.763 clientes (titulares e dependentes).
52
Aps a separao dos registros foi retirada a inconsistncia do atributo Bairro o qual continha vrios registros diferentes (escritos de forma errada) representando a mesma informao. Como por exemplo, o bairro Marco aparecia escrito de vrias maneiras diferentes: NARCO, MSRCO, MRCO, MARTCO, MERCO, MARC0 e MAECO. Os bairros cadastrados de forma errada foram corrigidos para a escrita correta. Depois de retirar a inconsistncia no atributo Bairro foi gerada a informao Sexo do cliente a partir de uma avaliao criteriosa e manual sobre o atributo Nome do cliente. Tambm foi gerada a informao rea de Atuao a partir do atributo Profisso, aonde os registros foram agrupados de acordo com a afinidade das funes. Por exemplo, as profisses: mdico, enfermeiro, auxiliar de enfermagem e todas as outras relacionadas sade foram relacionadas rea de Atuao Sade. J as profisses: professor, mestre, diretor de escola e todas relacionadas educao foram agrupados a rea de Atuao Educao. Ao final foram criados 40 reas de atuao (administrao, aposentado, informtica, jurdico, etc). Em seguida, verificou-se erros no cadastro do atributo Data de Nascimento, devido o sistema da vdeo locadora somente aceitar data no formato dd/mm/yy. Com isso todos os clientes cadastrados a partir do ano 2000 tiveram seu registro cadastrado de forma errada. Por exemplo, um cliente que nasceu 07/10/1969, devido ser cadastrado aps o ano 2000, no banco de dados, a data de nascimento se encontrava da seguinte forma 07/10/2069. Para solucionar este problema, foi criada uma funo no Access 2000 que subtraa 100 anos das datas de nascimento a partir de 2000. Ao trmino do processo de limpeza e pr-processamento dos dados, a tabela Clientes ficou com a estrutura mostrada na Tabela 9.
Tabela Cliente Descrio Cdigo nico do cliente Identificador do cliente (titular ou dependente) Nome do cliente Sexo do cliente Bairro onde mora o cliente Data de nascimento do cliente rea de atuao do cliente
Tabela 9. Estrutura da Tabela Clientes aps o processo de limpeza e pr-processamento dos dados
53
54
O atributo Data de Nascimento foi convertido para Idade tomando como base a
data corrente para gerar essa informao.
Intervalo (valor) At 20 Anos Entre 21 e 30 Anos Entre 31 e 40 Anos Entre 41 e 50 Anos Entre 51 e 60 Anos Acima de 60 Anos
Tabela 10. Faixas de transformao do atributo idade
Ao trmino do processo de transformao dos dados, a tabela Clientes ficou com a estrutura mostrada na Tabela 11.
Tabela Cliente Descrio Cdigo nico do cliente Identificador do cliente (Titular ou dependente) Nome do cliente Sexo do cliente Bairro onde mora o cliente Faixa de idade dos clientes rea de atuao do cliente
Tabela 11. Estrutura da Tabela Clientes aps o processo de transformao dos dados
55
Tabela Locaes Descrio Operao de locao Cdigo do cliente responsvel pela locao Cdigo do filme da locao Identifica o tipo do cliente (Titular, Autorizado1, Autorizado2, Autorizado3 ou Autorizado4) Dia da semana que foi realizada a locao Perodo do dia que a locao foi realizada
56
Tabela Movimentao Descrio Operao de locao Sexo do cliente responsvel pela locao rea de atuao profissional do cliente Dia da semana que foi realizada a locao Perodo do dia que a locao foi realizada Descrio do gnero do filme locado pelo cliente Faixa Etria do cliente responsvel pela locao
Tabela 13. Estrutura da tabela Movimentao
57
Criado o objeto de dados, foi necessrio utilizar a funo de pr-processamento chamada Articular Campos em Registro para converter o objeto de dados para o formato vertical, o qual o padro do IM para a tcnica de regra de associao. Segundo Gonalves (GONALVES, 2001), este formato utiliza mltiplas linhas para armazenar uma entidade, usando uma linha para cada atributo, sendo essas linhas ligadas por uma identificao comum.
58
Aps executar a funo de pr-processamento descrita anteriormente, os dados ficaram dispostos conforme mostrada na Figura 23, onde a identificao comum representada pelo campo Operao e os atributos pelo campo Itens.
Para realizar o processo de descobertas de regras de associao necessrio criar uma pesquisa de associao no IM. Para a criao desta pesquisa se deve informar o objeto de dados de entrada, os campos de entrada (campo de transao e campo de itens), alm dos parmetros (suporte mnimo, confiana mnima e comprimento mximo da regra), conforme Figura 24, Figura 25 e Figura 26, respectivamente.
59
Executada a pesquisa de associao, diversas regras foram geradas. Algumas dessas regras so mostradas na Figura 27.
60
5.6.2 WEKA
A instalao do WEKA ocorreu sem problemas. O acesso aos dados se deu a partir de um arquivo do tipo CSV. Para poder gerar os dados de entrada, criou-se uma consulta do tipo referncia cruzada no Access 2000, consulta esta que transforma linhas em colunas, para converter a tabela Movimentao para o formato horizontal de dados, o qual o padro do WEKA para tcnicas de regra de associao. Segundo Gonalves (GONALVES, 2001), este formato utiliza uma linha para cada transao e uma coluna para cada atributo.
61
Aps converter os dados para o formato horizontal, estes ficaram dispostos conforme mostrado na Figura 28, onde a primeira coluna representa o nmero da locao, as demais colunas representam os itens envolvidos na locao (gnero, idade, sexo, etc.). Quando existir o item na locao, o mesmo ser preenchido com um valor qualquer (neste caso utilizou-se o nmero 1) e quando este no existir dever ser preenchido com o smbolo ?, para o WEKA identificar que o item no est presente na locao.
Os dados foram exportados para um arquivo do tipo CSV e acessado pelo WEKA, conforme Figura 29.
62
Na sesso Preprocess o atributo Operao foi removido, j que para a regra de associao nesta ferramenta fica implcito que cada linha representa uma transao, sendo sua identificao desnecessria. Na sesso Associate o algoritmo de Apriori foi selecionado e foi definido seus parmetros de suporte mnimo, confiana mnima e nmero mximo de regras, conforma mostrado na Figura 30.
Executada a pesquisa de associao, diversas regras foram geradas. Algumas dessas regras so mostradas na Figura 31.
63
64
adicionar ou reorganizar as colunas. J a representao de dados no formato vertical (uma linha para cada atributo), utilizado pelo IM, elimina os problemas da representao horizontal, pois funciona muito melhor caso a entidade venha ter uma grande variedade em termos de nmero de atributos.
N Regra 1 2 3 4 5 6 7 8
Regra [ROMANCE] ==> [COMEDIA] [SUSPENSE] ==> [COMEDIA] [DESENHO ANIMADO] ==> [COMEDIA] [DRAMA] ==> [COMEDIA] [INFANTIL] ==> [COMEDIA] [FICCAO] ==> [ACAO] [TERROR] ==> [COMEDIA] [DESENHO ANIMADO] ==> [AVENTURA]
Suporte 2% 5% 2% 3% 2% 2% 3% 2%
Confiana 33 % 27 % 27 % 25 % 25 % 24 % 24 % 22 %
65
9 10 11 12 13 14 15 16 17
[SUSPENSE] ==> [ACAO] [DESENHO ANIMADO] ==> [ACAO] [AVENTURA] ==> [COMEDIA] [ACAO] ==> [COMEDIA] [INFANTIL] ==> [AVENTURA] [AVENTURA] ==> [ACAO] [TERROR] ==> [ACAO] [INFANTIL] ==> [ACAO] [ROMANCE] ==> [ACAO]
4% 2% 5% 6% 2% 5% 2% 2% 1%
22 % 22 % 22 % 21 % 21 % 20 % 20 % 20 % 20 %
Regra 1: Com um suporte de 2%, 33% dos clientes que locam filme de
Romance, tambm locam filme de Comdia. Pode-se observar que independente do gnero locado os cliente tendem a locar os filmes do gnero ao, aventura ou comdia. Assim, pode-se sugerir ao administrador locadora que reorganize o layout de seus produtos, deixando os filmes de gnero ao, aventura e comdia distante uns dos outros, para fazer o cliente percorrer toda a locadora caso ele queira locar um desses gneros.
N Regra 1 2 3 4 5 6 7 8 9
Regra [F] ==> [ACAO] [F] ==> [AVENTURA] [F] ==> [COMEDIA] [F] ==> [DESENHO ANIMADO] [F] ==> [DRAMA] [F] ==> [INFANTIL] [F] ==> [ROMANCE] [F] ==> [SUSPENSE] [F] ==> [TERROR]
Suporte 7% 8% 14 % 4% 5% 3% 3% 8% 4%
Confiana 21 % 22 % 40 % 13 % 14 % 10 % 8% 22 % 10 %
N Regra 1 2 3 4 5 6 7
Regra [M] ==> [ACAO] [M] ==> [AVENTURA] [M] ==> [COMEDIA] [M] ==> [DESENHO ANIMADO] [M] ==> [DRAMA] [M] ==> [FICCAO] [M] ==> [INFANTIL]
Suporte 20 % 15 % 17 % 5% 8% 5% 4%
Confiana 32 % 23 % 26 % 7% 12 % 8% 7%
66
8 9 10
4% 12 % 7%
7% 18 % 11 %
Pode-se observar que homens e mulheres praticamente tendem a locar filmes de mesmo gnero, com a diferena que as mulheres tendem a locar mais filmes de comdia (regra 3 da Tabela 15) e os homens filme de ao (regra 1 da Tabela 16), alm disso, os homens tendem a locar filmes porns (regra 8 da Tabela 16) e as mulheres no.
N Regra 1 2 3 4 5
Regra [F]+[ENTRE 21 E 30] ==> [ACAO] [F]+[ENTRE 21 E 30] ==> [AVENTURA] [F]+[ENTRE 21 E 30] ==> [COMEDIA] [F]+[ENTRE 21 E 30] ==> [DRAMA] [F]+[ENTRE 21 E 30] ==> [SUSPENSE]
Suporte 2% 2% 3% 1% 2%
Confiana 22 % 23 % 36 % 17 % 25 %
Tabela 17. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 21 e 30 anos)
N Regra 1 2 3 4 5 6 7 8 9
Regra [F]+[ENTRE 31 E 40] ==> [ACAO] [F]+[ENTRE 31 E 40] ==> [AVENTURA] [F]+[ENTRE 31 E 40] ==> [COMEDIA] [F]+[ENTRE 31 E 40] ==> [DESENHO ANIMADO] [F]+[ENTRE 31 E 40] ==> [DRAMA] [F]+[ENTRE 31 E 40] ==> [INFANTIL] [F]+[ENTRE 31 E 40] ==> [ROMANCE] [F]+[ENTRE 31 E 40] ==> [SUSPENSE] [F]+[ENTRE 31 E 40] ==> [TERROR]
Suporte 3% 3% 5% 2% 2% 2% 1% 3% 1%
Confiana 25 % 25 % 37 % 17 % 15 % 12 % 9% 24 % 9%
Tabela 18. Regras Geradas com o Terceiro Objetivo (Faixa Etria entre 31 e 40 anos)
Pode-se observar que independente da faixa etria as mulheres tendem a locar filmes de ao, aventura, comdia, drama e suspense, com uma tendncia maior a locar filmes de comdia (regra 2 da Tabela 17 e regra 3 da Tabela 18). Porm mulheres entre 31 e 40 anos, alm dos gneros citados anteriormente tambm tendem a locar filmes infantis e desenho animado (regras 4 e 6 da Tabela 18), pois possivelmente devem ter filhos, alm dos filmes de terror e romance (regras 7 e 9 da Tabela 18).
67
N Regra 1 2 3 4 5 6 7 8
Regra [M]+[ENTRE 21 E 30] ==> [ACAO] [M]+[ENTRE 21 E 30] ==> [AVENTURA] [M]+[ENTRE 21 E 30] ==> [COMEDIA] [M]+[ENTRE 21 E 30] ==> [DRAMA] [M]+[ENTRE 21 E 30] ==> [FICCAO] [M]+[ENTRE 21 E 30] ==> [PORNO] [M]+[ENTRE 21 E 30] ==> [SUSPENSE] [M]+[ENTRE 21 E 30] ==> [TERROR]
Suporte 6% 4% 5% 3% 2% 1% 4% 2%
Confiana 34 % 22 % 29 % 13 % 8% 7% 20 % 11 %
Tabela 19. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 21 e 30 anos)
N Regra 1 2 3 4 5 6 7 8 9 10
Regra [M]+[ENTRE 31 E 40] ==> [ACAO] [M]+[ENTRE 31 E 40] ==> [AVENTURA] [M]+[ENTRE 31 E 40] ==> [COMEDIA] [M]+[ENTRE 31 E 40] ==> [DESENHO ANIMADO] [M]+[ENTRE 31 E 40] ==> [DRAMA] [M]+[ENTRE 31 E 40] ==> [FICCAO] [M]+[ENTRE 31 E 40] ==> [INFANTIL] [M]+[ENTRE 31 E 40] ==> [PORNO] [M]+[ENTRE 31 E 40] ==> [SUSPENSE] [M]+[ENTRE 31 E 40] ==> [TERROR]
Suporte 7% 6% 6% 3% 4% 2% 3% 3% 5% 3%
Confiana 26 % 23 % 24 % 12 % 13 % 8% 10 % 10 % 19 % 9%
Tabela 20. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 31 e 40 anos)
N Regra 1 2 3 4 5 6 7 8 9
Regra [M]+[ENTRE 41 E 50] ==> [ACAO] [M]+[ENTRE 41 E 50] ==> [AVENTURA] [M]+[ENTRE 41 E 50] ==> [COMEDIA] [M]+[ENTRE 41 E 50] ==> [DESENHO ANIMADO] [M]+[ENTRE 41 E 50] ==> [DRAMA] [M]+[ENTRE 41 E 50] ==> [FICCAO] [M]+[ENTRE 41 E 50] ==> [PORNO] [M]+[ENTRE 41 E 50] ==> [SUSPENSE] [M]+[ENTRE 41 E 50] ==> [TERROR]
Suporte 6% 4% 4% 1% 2% 1% 1% 3% 1%
Confiana 36 % 25 % 24 % 7% 13 % 8% 9% 18 % 9%
Tabela 21. Regras Geradas com o Quarto Objetivo (Faixa Etria entre 41 e 50 anos)
Pode-se observar que independente da faixa etria os homens tendem a locar filmes de ao, aventura, comdia, drama, fico, porn, suspense e terror, com uma tendncia maior a locar filmes de ao (regra 1 das Tabelas 19, 20 e 21). Porm homens entre 31 e 40 anos e 41 e 50 anos, alm dos gneros citados anteriormente, tendem tambm a locar filmes de desenho animado (regra 4 das Tabelas 20 e 21), pois possivelmente devem ter filhos. Observou-se uma diferena dos homens na faixa de 31 a 40 anos, por tenderem a locar filmes infantis (regra 7 da Tabela 20), j que esse gnero somente aparece nesta faixa etria.
68
69
70
Todos os resultados encontrados foram apresentados para a dona do estabelecimento para anlise. Onde esta validou os resultados encontrados, como: a tendncia dos homens de locar filmes de ao e as mulheres de locar filmes de comdia. Sendo os gneros mais locados ao, comdia, aventura e suspense. No entanto, o que chamou mais sua ateno foi descoberta do conhecimento onde a locao de um gnero influencia na locao de outro, fazendo com que a mesma, de acordo com uma anlise mais detalhada dos resultados apresentados, reorganize a distribuio dos gneros disponveis, de modo que o cliente ande por toda a vdeo locadora na escolha do filme a ser locado. Como contribuio, este trabalho apresentou um estudo aprofundado sobre a tcnica de Data Mining Regras de Associao, assim como, a aplicao de um estudo de caso real utilizando esta tcnica e a documentao detalhada de todo este processo, de forma a auxiliar trabalhos futuros nessa rea. Como trabalhos futuros, sugere-se a aplicao de outras tcnicas de minerao de dados sobre os dados da vdeo locadora, como a classificao e/ou clusterizao, visando encontrar novos padres ou confirmar hipteses existentes acerca das informaes contidas na base de dados, como, por exemplo, o perfil especfico do cliente que loca um determinado gnero. Adicionalmente, sugere-se como trabalho futuro o desenvolvimento de uma nova verso do Algoritmo APRIORI para o WEKA, onde esta aceitaria como entrada de dados o formato vertical, evitando dessa forma as dificuldades encontradas no seu pr-processamento e as limitaes geradas pelo mtodo horizontal, j descrita no Captulo 5.
A verso do Intelligent Miner for Data utilizada neste trabalho foi cedida pela IBM para a Universidade Federal do Par UFPA.
71
7 REFERNCIAS BIBLIOGRFICAS
AGRAWAL, Rakesh et al. Fast Algorithms for Mining Association Rules. In: FAYYAD, Usama M. et al. Advances in Knowledge Discovery and Data Mining. Menlo Park: AAAI Press, 1996. 611p. ARBEX, Eduardo Compasso; SABOREDO, Alexandre de Paiva; MIRANDA, Dhalila. Implementao e Estudo de caso do algoritmo Apriori para Minerao de Dados. Curso de Sistemas de Informao, Associao Educacional Dom Bosco. Resende, Rio de Janeiro. Disponvel em: <http://www.aedb.br/seget/artigos04/193_artigo_SEGET.doc>. Acesso em 11 de maro de 2006. BATISTA, Gustavo Enrique de Almeida Prado Alves. Pr-Processamento de Dados em Aprendizado de Mquina Supervisionado. 2003, 232p. Tese de Doutorado. Universidade de So Carlos. CARVALHO, Lus Alfredo Vidal de. Datamining: A minerao de dados no Marketing, Medicina, Economia, Engenharia e Administrao. 2.ed. So Paulo: Editora rica, 2002. 238p. CRATOCHVIL, A. Data mining techniques in supporting decision making. Master thesis, Universiteit Leiden, 1999. DOMINGUES, Miriam Lcia. Minerao de Dados. Curso de Especializao em Sistema de Banco de Dados, Universidade Federal do Par, 2004. DWBRASIL. Disponvel em: <http://www.dwbrasil.com.br/html/dmining.html>. Acesso em 10 de maro de 2006. FAYYAD, U; Piatetsky-Shapiro, G; Smyth, P. Advances in Knowledge Discovery and Data Mining. Califrnia Amrica Association for Artificial Inteligence. 1996. 611p. FELDENS, M. A. Descoberta de conhecimento aplicada deteco de anomalias em base de dados. Porto Alegre: PPGCC da UFRGS, 1996. FRANK, Eibe. Machine Learning with WEKA. Department of Computer Science, University of Waikato, New Zealand. Disponvel em: <http://www.cs.waikato.ac.nz/ml/weka>. Acesso em 10 de maro de 2006.
72
GOEBEL, M.; GRUENWALD L. A survey of data mining and knowledge discovery software tools. 1999. Disponvel em <http://citeseer.ifi.unizh.ch/goebel99survey.html>. Acesso em 13 de Maio de 2005. GOLDBERG, D. E. Genetic algorithms in search, optimization and machine learning. Reading, MA: Addison Wesley, 1989. GOLDSCHMIDT, Ronaldo; PASSO, Emmanuel. Data Mining. Um guia Prtico: Conceitos, Tcnicas, Ferramentas, Orientaes e Aplicaes. So Paulo: Editora Campus, 2005. 261pg. GONALVES, Loren Pinto Ferreira. Avaliao de Ferramentas de Minerao de Dados como Fonte de Dados Relevantes para a Tomada de Deciso: Aplicao na Rede Unido de Supermercados, So Leopoldo-RS. 2001, 103p. Dissertao de Ps-Graduao. Universidade Federal do Rio Grande do Sul. HARRISON, T.H. Intranet data warehouse. Editora Berkeley, 1998. PYLE, Dorian. Data preparation for data mining. San Francisco: Morgan Kaufmann Publishers, 1999. REZENDE, Solange Oliveira. Sistema Inteligentes - Fundamentos e Aplicaes. 1 ed. So Carlos: Manole, 2003. 525p. SANCHES, Andr Rodrigo. Uma Viso Geral sobre Minerao de Dados. 2003, 44p. Monografia de Ps-Graduao. Universidade de So Paulo. VIANA, Reinaldo. Minerao de Dados: introduo e aplicaes. Revista SQL Magazine, n.10, 2004.