You are on page 1of 7

LogA-DM: An Approach of Dynamic Log Analysis

R. S. Machado, R. B. Almeida, A. C. Yamin and A. M. Pernas

Abstract In ubiquitous computing high levels of connectivity Os diferentes formatos e as informaes de cada tipo de log
are needed. Considering that, preoccupations related with fazem com que a tarefa de anlise dos mesmos deixe de ser
security aspects are indispensable. One strategy that can be trivial. Alm disso, os arquivos de log tendem a possuir
applied for improve security is the log analysis. Such strategies inmeras entradas, pois so gerados registros de praticamente
can be used to promote systems understanding, in particular,
the detection of intrusion attempts. The operation of modern
todas as atividades referentes s aplicaes em uso no sistema
computing systems, as the ones used in ubiquitous computing, computacional, o que tambm contribui para aumentar
tend to generate a large number of log records, which require significativamente o custo de uma anlise manual destes
the use of automatic tools to an easier analysis. Tools that registros [3].
employ data mining techniques to log analysis have been used in Como estratgia para reduzir a quantidade de registros a ser
order to detect attempted attacks on computer systems, assisting tratada, e assim viabilizar a anlise de logs por especialistas
security management. Thus, this paper proposes an approach to humanos, este trabalho explora a minerao de dados.
perform log analysis with intuit to prevent attack situations. The Diversas propostas utilizando minerao de dados foram
proposed solution explores two fronts: (i) log records of pesquisadas e aplicadas anlise de log [4] [5] [6].
applications, and (ii) log records from the network and transport
layers. To evaluate the proposed approach was designed a
Diferentemente destas abordagens este trabalho prope uma
prototype that employs modules for collection and normalization abordagem denominada LogA-DM, a qual realiza a anlise
of data. The normalization module also adds contextual dos registros de log de forma dinmica, ou seja, em tempo de
information in order to assist the analysis of critical security execuo e no somente a partir de registros histricos
situations. To conserve the systems autonomic operation, the Como estudo de caso, foi aplicada a abordagem LogA-DM
records of the network and transport layers are collected and nos servidores do projeto AMPLUS (Automatic Monitoring
evaluated from connections in progress. Tests were developed in and Programmable Logging Ubiquitous System) a fim de
the proposed solution, showing good result for typical categories aprimorar o entendimento do ambiente computacional por
of attack. meio do monitoramento dos registros de log das aplicaes
que executam nos sistemas computacionais presentes no
Keywords Ubiquitous Computing, Context-awareness, Log
projeto. Alm disso, o monitoramento do trfego da rede e a
Analysis, Data Mining.1
aplicao de uma tcnica de minerao de dados nos registros
deste trfego so utilizados com o intuito de detectar ataques
I. INTRODUO
contra os sistemas, melhorando a segurana do ambiente.

O PARADIGMA de computao ubqua (UbiComp) tem


como premissa prover computao de forma
transparente, estando o modelo computacional integrado as
Sendo os servidores do projeto AMPLUS operados de forma
primariamente autonmica, a soluo executada em tempo de
aplicao permite com que alertas sejam gerados de forma
demandas do usurio [1]. Nesta perspectiva, a mobilidade do direta pelo sistema, facilitando a tomada de deciso por parte
usurio e as decorrentes trocas de infraestrutura de acesso, do administrador do sistema.
presentes na UbiComp, potencializam a preocupao com a Este artigo est organizado da seguinte forma:
segurana da informao. primeiramente, na seo II, so apresentadas as principais
Este trabalho tem como objetivo central explorar a anlise caractersticas da Computao Ubqua que dizem respeito ao
dos arquivos de logs de equipamentos, enquanto tcnica para tema explorado no artigo e os principais aspectos relacionados
promover a segurana dos equipamentos no ambiente ubquo, tarefa de anlise de log, mostrando as principais
bem como da informao que trafega pelos mesmos. particularidades e benefcios da sua utilizao. Por sua vez, na
De modo mais especfico, a proposta empregar a anlise seo III, os trabalhos relacionados so analisados, realizando
de logs com o objetivo de melhorar a compreenso do uma breve descrio destes. Na seo IV discutida a
funcionamento do sistema, visando detectar tentativas de arquitetura do LogA-DM, caracterizando o funcionamento de
ataques, aes realizadas por um invasor, entre outras. cada mdulo. A seo V apresenta o estudo de caso
Os arquivos de log contm uma ordem cronolgica dos empregado para validar a arquitetura desenvolvida para o
eventos gerados pelos diferentes softwares em execuo, os LogA-DM, e os correspondentes resultados obtidos.
quais possuem formatos de logs especficos, produzindo assim Finalmente, na seo VI, so discutidas as concluses do
diferentes formatos de log a serem analisados [2]. trabalho desenvolvido.

R. S. Machado, Universidade Federal de Pelotas (UFPel), Pelotas, Rio II. REFERENCIAL TERICO
Grande do Sul, Brasil, rdsmachado@inf.ufpel.edu.br
R. B. Almeida, Universidade Federal de Pelotas (UFPel), Pelotas, Rio Esta seo apresenta algumas caractersticas da Computao
Grande do Sul, Brasil, rbalmeida@inf.ufpel.edu.br Ubqua e da tarefa de anlise de log.
A. C. Yamin, Universidade Federal de Pelotas (UFPel), Pelotas, Rio
Grande do Sul, Brasil, adenauer@inf.ufpel.edu.br
A. M. Pernas, Universidade Federal de Pelotas (UFPel), Pelotas, Rio
Grande do Sul, Brasil, marilza@inf.ufpel.edu.br
A. Computao Ubqua B. Anlise de log
Computao Ubqua, ou UbiComp, o termo utilizado para Log um arquivo gerado por uma determinada aplicao,
a terceira era da computao moderna (atual), onde uma que possu registro de eventos, os quais permitem que um
variedade de dispositivos eletrnicos, com diferentes perfis analista visualize as atividades que ocorrem nos sistemas
computacionais, que operando de modo conectado cooperam computacionais (servios em geral, e/ou o comportamento da
para fornecer servios para os usurios [7]. prpria rede de redes de computadores utilizada) [3]. Log
As aplicaes ubquas possuem basicamente trs considerado uma das principais fontes de dados para execuo
princpios, sendo eles [8]: de uma percia bem sucedida em um sistema [11]. Um arquivo
descentralizao: na computao ubqua, alguns de log pode ser produzido em modo texto, ou em outro modo
dispositivos ficam encarregados de executar tarefas de interesse especfico da aplicao em questo.
especficas, fazendo com que as responsabilidades sejam Diferentes componentes que integram o sistema
distribudas. Com isso preciso que os equipamentos computacional geram registros de log, tais como: sistema
trabalhem e cooperem entre si, criando ento uma rede operacional, SGBD (Sistemas Gerenciadores de Banco de
dinmica de relaes entre os dispositivos e os servidores Dados), IDS (Intrusion Detection System), firewall, antivrus,
do ambiente, caracterizando um sistema distribudo; dispositivos de rede, dentre outros. Os eventos inseridos nos
diversificao: sistemas computacionais devem saber arquivos de log podem ser referentes s atividades normais,
gerenciar as diferentes capacidades dos mais diversos alertas ou erros. Observa-se que cada tipo de log usualmente
equipamentos, escolhendo automaticamente aquele que possui um formato especfico, o que contribui para dificultar a
melhor se adequar determinada situao; sua anlise.
conectividade: na ubiquidade computacional existe a viso Atualmente, as diferentes atividades dos dispositivos
da conectividade ilimitada e sem fronteiras, em que os computacionais geram registros de log de tamanhos elevados,
equipamentos e as aplicaes que neles executam esto se trazendo dificuldades anlise manual destes registros.
movendo com o usurio, entrando e saindo de redes Devido a este fato, muitas vezes no possvel analisar os
heterogneas de forma transparente. registros coletados em um espao razovel de tempo, o que
Dentre os diversos requisitos de um ambiente ubquo, est pode tornar a implementao de contramedidas ineficiente,
conscincia de contexto, que pode ser resumida como: (i) a pois necessrio que a ao por parte do administrador do
capacidade de coletar informaes relevantes para o contexto sistema seja o mais imediata possvel ao acontecimento de um
de interesse das aplicaes; (ii) armazenar os dados coletados determinado evento ou conjunto destes, com o intuito de
em um histrico que pode ser utilizado para estabelecer reduzir o impacto de um possvel incidente de segurana, ou
tendncias sobre os valores de informaes de contexto, ou at mesmo evit-lo.
ainda; (iii) disparar aes e comportamentos que interfiram no Devido s dificuldades encontradas na anlise de log,
estado do ambiente do usurio [9]. verifica-se o aumento das pesquisas que buscam propostas
Nesta perspectiva, contexto definido como qualquer para auxiliar na realizao desta tarefa.
informao que possa ser usada para caracterizar a situao de A reviso de literatura indicou que os principais propostas
uma entidade (pessoa, local ou objeto) que considerada para auxlio de administradores na anlise de arquivos de log
relevante para a interao entre o usurio e a aplicao, implementam as seguintes funcionalidades [12]:
incluindo o prprio usurio e a aplicao [9] [10]. anlise lxica: processo relativo anlise dos registros de
Assim, o contexto pode ser considerado como uma log e produo de uma sada formatada em um padro mais
descrio complexa de conhecimento compartilhado sobre adequado para futuro processamento. O sistema deve
circunstncias fsicas, sociais, histricas, entre outras, onde permitir que diferentes arquivos de log em diferentes
aes ou eventos ocorrem. Deste modo, conscincia de padres possam ser analisados, pois em um ambiente
contexto a capacidade de um sistema em usar informaes dinmico muitos sistemas e, consequentemente tipos de
contextuais para prover servios e/ou informaes relevantes log, operam simultaneamente;
para o usurio [10]. anlise sobre eventos de log: processo para extrao de
Neste trabalho, a anlise dos logs coletados durante a informao relevante sobre as mensagens de log atravs de
operao do sistema ubquo utilizada como fonte de algoritmos, regras ou consultas. Nessa atividade, podem ser
informao contextual, pois so exploradas com o intuito de aplicadas tcnicas com o intuito de realizar um filtro nos
detectar conexes suspeitas e, quando analisadas em conjunto, registros coletados, identificando quais registros devem ser
prever situaes de ataque ao sistema computacional. analisados pelo analista e quais registros de log so
De modo mais especfico, destacam-se algumas motivaes registros normais, de rotina do sistema e podem ser
para aplicao de conscincia de contexto nos sistemas: ignorados, diminuindo assim o nmero de registros que
auxiliar na compreenso da realidade; devem ser analisados;
facilitar na adaptao de sistemas; transmisso: processo de transmisso dos registros de log
apoiar o processo de transformao dos dados em para um servidor remoto. importante ressaltar que essa
informao; atividade essencial para realizao da tarefa de anlise de
auxiliar na compreenso de eventos complexos, e; log, pois necessrio manter os registros de log coletados
ajudar na percepo da ocorrncia de situaes. em outro sistema para ter a garantia que os registros no
sejam alterados. Isso se d devido ao fato de que
normalmente quando um atacante consegue acesso a um IV. ABORDAGEM PROPOSTA: LOGA-DM
sistema ele modifica/apaga os registros gerados com o
O LogA-DM foi proposto considerando as premissas
intuito de esconder as atividades que realizar;
operacionais e as estratgias de implementao do middleware
armazenamento: processo que compreende em armazenar EXEHDA (Execution Environment for Highly Distributed
os registros de log para futuras consultas. Estas consultas
Applications), em desenvolvimento no grupo de pesquisa
podem ter uma motivao de auditoria ou investigao, ou LUPS (Laboratory of Ubiquitous and Parallel Systems) onde
ainda de entendimento de padres e minerao de o LogA-DM foi concebido. O EXEHDA possui uma
informao; arquitetura distribuda e oferece suporte aquisio,
visualizao: processo que permite a visualizao dos processamento e armazenamento de informaes contextuais,
registros de log, sejam eles registros atuais ou histricos. caractersticas estas oportunas s funcionalidades do LogA-
Isto permitir que analistas acompanhem a execuo do DM.
sistema atravs dos registros de log gerados. A seguir apresentado o middleware e, na sequncia, a
concepo do LogA-DM.
III. TRABALHOS RELACIONADOS
Em [13], proposto um prottipo que aplica tcnicas de A. Middleware EXEHDA
minerao de dados nos registros do trafego da rede, com o
intuito de classific-los como conexes normais e riscos de O ambiente EXEHDA consiste de um middleware, ou seja,
ataque. As tcnicas de rvore de Deciso e Algoritmos um software que faz a mediao entre o sistema operacional
Genticos foram aplicadas a uma base de dados de trafego da dos equipamentos e as demais aplicaes. Ele direcionado s
rede classificando as conexes em quatro diferentes categorias aplicaes distribudas, mveis e conscientes de contexto,
de ataque. Ambas as tcnicas alcanaram resultados sendo baseado em servios. Seus objetivos principais so:
satisfatrios e a melhor taxa de acerto foi do Algoritmo criar e gerenciar um ambiente ubquo formado por clulas de
Gentico que alcanou 92.595 % de conexes classificadas execuo distribudas e promover a computao sobre esse
corretamente. ambiente cuja composio dinmica e integralizada por
Em [14], apresentado uma abordagem para deteco de equipamentos heterogneos [15].
anomalias no trfego da rede, a qual consiste na combinao A Fig.1 apresenta um exemplo do ambiente ubquo
de duas tcnicas: Latent Dirichlet Allocation e Algoritmo gerenciado pelo EXEHDA, onde so ilustradas as vrias
Gentico. Com o intuito de testar a abordagem hbrida foi clulas de execuo que podem fazer parte deste ambiente.
utilizada a base de dados KDD Cup 99, nos testes realizados a Dentro de cada clula podem existir inmeros SB (Servidores
abordagem alcanou uma taxa de acertos geral de 88,5 %, com de Borda) que so os servidores responsveis pela
uma taxa de falso positivo de 6 %. comunicao com o meio atravs de sensores e atuadores.
Em [6], apresentado uma proposta de classificao do Alm disso, cada clula possui um servidor base, chamado de
trfego da rede com o intuito de auxiliar um IDS no SC (Servidor de Contexto), sendo responsvel por armazenar
tratamento de volumes significativos de informaes. Foram as informaes coletadas no RIC (Repositrio de Informaes
aplicados dois algoritmos da tcnica de rvore de Deciso, Contextuais), bem como permitir a manipulao
sendo uma verso com poda e outra sem. Os dois algoritmos (processamento, visualizao, etc.) destas informaes.
foram aplicadas a duas bases de dados com registros do
trfego da rede, sendo que a verso do algoritmo com poda
alcanou uma taxa de acertos superior em ambos os testes. No
teste utilizando a base de dados KDD Cup 99 a taxa de acertos
alcanada foi de 95,09 % mostrando um desempenho
satisfatrio para classificar registros do trfego da rede.
Analisando os trabalhos relacionados, diferentemente do
presente trabalho, eles analisam tipos de log especficos, no
possuindo a possibilidade de analisar tipos diferentes de
registros de log. A anlise de tipos de log distintos pode exigir
a utilizao de ferramentas diferentes para cada tipo de log.
Alm disso, outra desvantagem dos trabalhos relacionados em
relao ao presente trabalho, que so analisados somente
registros histricos de log, dificultando a tomada de ao Figura 1. Ambiente ubquo.
imediata por parte do administrador do sistema, o que
possvel por meio da anlise automtica destes registros em
tempo de conexo. Destaca-se ainda, que a taxa de acertos A seguir apresentada a arquitetura do LogA-DM.
geral alcanada pelos trabalhos relacionados utilizando a base
de dados KDD Cup 99 so inferiores aos resultados do B. Arquitetura
presente trabalho.
Neste trabalho, optou-se por diferenciar os registros de log
de aplicaes, dos registros de trfego de rede, os quais seriam
registros de log das camadas de rede e transporte.
Com isso o monitoramento do trfego da rede realizado Para realizar essa tarefa, foi utilizado um parser chamado
de maneira diferente dos registros de log de aplicaes, e esse Pyparsing. Pyparsing um mdulo Python puro que pode ser
monitoramento possui como finalidade identificar possveis facilmente adicionado a uma aplicao Python. Ele fornece
tentativas de ataques aos servidores. A identificao das um conjunto de classes para a construo de um analisador de
tentativas de ataque realizada atravs da utilizao da tcnica elementos atravs de expresses [17].
de classificao por rvores de Deciso. Para funcionamento deste mdulo foram desenvolvidas
A Fig.2 apresenta a arquitetura do analisador de log expresses definindo alguns formatos esperados, com o intuito
desenvolvido para o LogA-DM, apresentando os mdulos de separar os registros de log em campos. Aps essa separao
implementados. Pode-se observar na Fig.2 que a arquitetura pode ser feita uma adio de dados contextuais, como por
possui dois fluxos de dados, sendo um a partir dos coletores de exemplo, referentes geolocalizao de um endereo IP
logs, e o outro do coletor de trfego da rede, mostrando os (Internet Protocol) que realizou uma conexo com o servidor,
tratamentos realizados de maneira diferente para os registros ou o navegador e o sistema operacional do usurio que
de log de aplicaes e os registros de trfego da rede. requisitou uma pgina Web.
A Fig.3 mostra um exemplo do funcionamento do processo
de anlise lxica/sinttica em um registro de log da aplicao
Shorewall. Primeiramente, apresentado o campo Coletor de
Log, onde o registro da aplicao apresentado em seu
formato original. Em seguida, o campo Anlise
Lxica/Sinttica apresenta os campos para separao do
registro original. Por ltimo, o campo Sada da Anlise
Lxica mostra o registro formatado.

Figura 2. Arquitetura do LogA-DM.

Na Fig. 2, os coletores de logs enviam os registros para a


anlise lxica/sinttica, enquanto que o coletor de trfego da
rede encaminha os registros para o mdulo de classificao.
Aps os processos de anlise lxica/sinttica e classificao,
os registos so enviados para o SC onde so armazenados em Figura 3. Exemplo de funcionamento da anlise lxica/sinttica.
um banco de dados para futuras anlises. Como pode ser observado na Fig.3, a visualizao dos
dados presentes no registro de log se torna facilitada aps a
C. Mdulo de Coleta de Registros de Log anlise lxica/sinttica, j que o registro separado em
O coletor de logs internos monitora os arquivos de log, campos. Pode-se observar, comparando o registro de log
aguardando e coletando os registros no momento de sua original e a sada da anlise lxica/sinttica, que alguns
escrita nos respectivos arquivos. O coletor de logs externo campos foram eliminados, devido ao fato de no possurem
responsvel receber eventos de diferentes dispositivos, uma informao de interesse para a aplicao. Outro detalhe a
funcionando como um servidor Syslog [16]. ser notado que foram adicionadas informaes relacionadas
Durante o monitoramento possvel aplicar um filtro nos geolocalizao do IP que acessou o servio. Essa adio de
registros, com o intuito de coletar somente aqueles registros de informaes contextuais pode ser til para as anlises que
interesse, j que muitas vezes um arquivo de log pode possuir venham a ser realizadas.
uma variedade de registros de diferentes aplicaes.
E. Mdulo de Coleta do Trfego da Rede
D. Mdulo de Anlise Lxica/Sinttica Na concepo do LogA-DM a estratgia adotada realizar
Esse mdulo responsvel por realizar tarefas de o monitoramento do trfego da rede sem necessitar de uma
normalizao e contextualizao dos registros de log ferramenta para a gerao do arquivo de log, e neste caso,
coletados, separando-os em campos e adicionando optou-se por utilizar uma ferramenta de manipulao de
informaes de forma a contextualizar os dados presentes nos pacotes chamada Scapy.
registros. Alm disso, o mdulo realiza a eliminao de Scapy um framework desenvolvido em Python que
campos que no sejam de interesse para anlise. apresenta, dentre as suas funcionalidades, a possibilidade de
manipulao de pacotes IP. A ferramenta permite uma maior
interatividade em relao a outras ferramentas existentes, ser monitorado ou a criao de novas expresses, necessria
permitindo a manipulao de pacotes IP de maneira mais a alterao somente no banco de dados presente no SC.
flexvel. Outra funcionalidade interessante a de anlise da
rede (sniffer), a qual permite o monitoramento do trfego da
rede [18].
A funcionalidade sniffer utilizada neste mdulo de forma
a monitorar e capturar o trfego da rede. No momento da
captura de um pacote, analisado se este pacote de uma
nova sesso ou de uma sesso que j est sendo monitorada.
Aps a identificao do encerramento de uma sesso, ela
repassada para o mdulo de classificao onde realizada a
classificao desta conexo.

F. Mdulo de Classificao
Este mdulo responsvel por classificar as conexes
capturadas pelo mdulo de coleta do trfego da rede. O
mdulo de classificao utiliza a tcnica de rvores de
Deciso. Optou-se pela utilizao de uma verso otimizada do Figura 4. Exemplo de regras geradas da rvore treinada.
algoritmo CART (Classification And Regression Trees) [19].
Este algoritmo est disponvel no mdulo scikit-learn, o qual V. PROTOTIPAO E RESULTADOS OBTIDOS
consiste de um mdulo para a linguagem Python, onde se
encontra implementada uma variedade de tcnicas de Como estudo de caso para avaliao do prottipo
aprendizagem de mquina. desenvolvido para o LogA-DM foi utilizado o projeto
Com a utilizao da tcnica de rvore de Deciso torna-se AMPLUS, que tem por objetivo promover solues da
necessrio o emprego de uma base de dados para treinamento Computao Ubqua para o Laboratrio Didtico de Anlise
da rvore, de forma a realizar o aprendizado e assim conseguir de Sementes (LDAS) da FAEM/UFPEL (Faculdade de
classificar as conexes de forma adequada. Para isso, foi Agronomia Eliseu Maciel/Universidade Federal de Pelotas).
utilizado o conjunto de dados KDD Cup 99, amplamente Dentre os servios fornecidos destaca-se a conscincia de
utilizado nesse tipo de estudo. A base escolhida para contexto referente aos equipamentos do laboratrio.
treinamento constituda de 41 atributos referentes s O ambiente ubquo do projeto AMPLUS gerenciado pelo
informaes da conexo e a categoria referente mesma [20], Servio de Contexto do middleware EXEHDA, o qual tem por
Antes de iniciar a etapa de treinamento se fez necessrio base o SB e SC, bem como o RIC. O RIC possui como
um pr-processamento dos dados de forma a transformar os objetivo atender as demandas de registro e recuperao de
dados em valores numricos, onde o atributo protocolo era dados de contexto, funcionando como uma base de dados [21].
substitudo por o seu valor numrico, e o atributo servio foi Uma caracterstica de destaque da arquitetura do projeto a
trocado pelo nmero da porta padro de execuo do mesmo. variedade de dispositivos que podem fazer parte do sistema
Isto consequncia de uma restrio por parte do algoritmo ubquo, onde os SBs podem ser desde um computador de
CART utilizado, que s trabalha com dados numricos. ultima gerao com alta capacidade de processamento, como
Na Fig.4so apresentadas algumas regras geradas a partir um dispositivo embarcado que apresente baixo consumo
da rvore treinada, as quais fazem parte do conjunto de regras energtico.
aplicado ao classificador treinado para realizar a classificao Os registros coletados so mantidos no RIC presente no
das conexes capturadas. Pode-se notar que algumas delas so SC, onde podero ser analisados atravs de uma interface
mais simples, consistindo estas das regras onde as folhas Web. A visualizao dos dados presentes nos registros de log
encontram-se nos nveis mais prximos raiz. Conforme as se torna facilitada aps passar pelos mdulos implementados
folhas vo se afastando da raiz, as regras possuem um nmero por este trabalho, desta forma apoiando a tarefa de anlise de
maior de condies necessrias para classificao de uma log.
conexo entre normal e suspeita. A Fig.5 apresenta um exemplo de visualizao dos
registros de log da aplicao Shorewall por meio da interface
G. Mdulo de Comunicao com o Servidor de Contexto provida para acesso ao RIC. Alguns campos foram omitidos
devido limitao de espao para visualizao. Os campos
Esse mdulo responsvel pela comunicao com o SC, apresentados na Fig.5 so: a data de coleta do registro de log;
onde sero armazenados os registros de log coletados e o poltica utilizada para tratamento da requisio; zonas de
trfego da rede em um banco de dados. Este mdulo tambm origem e destino da conexo; IP de origem da conexo; porta
responsvel por buscar no banco de dados os itens que devem de origem da conexo; IP destino da conexo; porta de destino
ser monitorados pelo prottipo, j que a configurao do da conexo; protocolo utilizado na conexo; informaes de
prottipo e as informaes que ele precisa para executar, tais geolocalizao referente ao IP externo rede que est sendo
como as expresses desenvolvidas para a anlise monitorada (Cidade e Estado).
lxica/sinttica, sero mantidas no SC. Assim, caso seja
necessria alguma alterao, como incluso de um novo log a
TABELA I. RESULTADOS OBTIDOS PELOS CLASSIFICADORES.
Categoria Classificador com Classificador com
todos os atributos atributos reduzidos
Normal 98,18% 98,68%
DoS 99,99% 99,93%
R2L 17,95% 53,85%
U2R 25,71% 15,38%
Probing 99,20% 68,66%
Falso Positivo 1,82% 1,32%
Falso Negativo 1,77% 2,14%
Acerto Geral 98,07% 97,68%

De forma geral, ambos classificadores apresentaram bons


resultados para as categorias de conexes analisadas,
Figura 5. Visualizao dos registros de log da aplicao Shorewall. alcanando taxas aceitveis de falso positivo e falso negativo.
As taxas de acertos mais baixas das categorias R2L e U2R
Atravs da funcionalidade desenvolvida no mdulo de ocorrem devido ao nmero limitado de conexes destas
anlise lxica/sinttica, o administrador do sistema pode categorias em comparao com as outras presentes no
desenvolver expresses para tratar os diferentes formatos de conjunto de treinamento, j que o classificador necessita de
log existentes. Neste trabalho, foram desenvolvidas expresses um nmero significativo de conexes para aprender a
para tratamento dos registros de log das seguintes aplicaes: classificar de forma satisfatria as conexes.
Apache; DHCP; PostgreSQL; Shorewall; Squid; SSH; Syslog; Diferenas foram percebidas com relao s categorias
vsFTPd. Probing e U2R. Na categoria Probing, o classificador com
Com o objetivo de testar o mdulo de classificao, optou- atributos reduzidos teve um desempenho relativamente pior, o
se por utilizar um conjunto de treinamento e um conjunto de que se deve em grande parte eliminao dos atributos
teste disponvel em [22], sendo este um dos principais calculados, sendo analisadas as demais conexes em uma
conjuntos de dados utilizados para este tipo de trabalho. Nos janela de 2 segundos, j que esta categoria de ataque costuma
testes realizados, cada conexo pode ser classificada em uma gerar uma variedade de conexes em um intervalo pequeno de
das cinco conexes presentes no conjunto de treinamento, tempo.
sendo elas, normal, e quatro categorias suspeitas [23]: No caso da categoria U2R, o classificador com atributos
DoS (Denial of Service): atacante envia um grande nmero reduzidos alcanou um desempenho superior em relao ao
de mensagens com o intuito de esgotar algum dos recursos outro classificador. Acredita-se que esta melhora se deve ao
da vtima; fato da eliminao de atributos, pois possivelmente alguns
U2R (User to Root): atacante acessa o sistema como destes atributos estavam dificultando o aprendizado das
usurio normal e explora uma vulnerabilidade para ganhar classificaes das conexes da categoria U2R.
acesso como root ao sistema; Apesar do classificador com atributos reduzidos ter
R2L (Remote to Local): atacante no tem uma conta na alcanado resultados inferiores em relao ao outro
mquina e explora alguma vulnerabilidade para ganhar classificador, ele apresenta a vantagem de poder ser aplicado
acesso como usurio; no momento da coleta das conexes, no sendo necessrio
Probing: uma tentativa de reunir informaes sobre uma outro tipo de anlise para calcular valores de outros atributos.
rede de computador. Com os resultados alcanados, o classificador demonstra ser
Foram desenvolvidos dois classificadores utilizando a de grande utilidade, pois pode ser utilizado como um filtro
tcnica de rvores de Deciso, sendo que o primeiro trabalha para diminuir o nmero de registros que devem ser analisados
com todos os atributos presentes no conjunto de treinamento e por parte do administrador da rede. Alm disso, pode ser
o segundo trabalha com um grupo reduzido de atributos. O utilizada para apoiar deteco de ataques a rede, fornecendo
classificador com atributos reduzidos apresenta vantagem para a categoria do ataque, e consequentemente facilitando a
soluo desenvolvida por realizar a classificao das conexes tomada de deciso do administrador do sistema.
no momento de sua captura, no necessitando de
processamento extra para gerao de atributos. VI. CONCLUSO
Na Tabela I apresentada uma comparao entre os Com o intuito de automatizar a anlise de log, este trabalho
resultados obtidos entre o classificador utilizando todos os 41 desenvolveu uma abordagem para realizao automtica da
atributos presentes nos arquivos e o classificador que utiliza coleta dos registros de log de aplicaes e do trfego da rede.
somente cinco atributos. Estes resultados representam a Para isso, a soluo desenvolvida conta com mdulos para
porcentagem de conexes corretamente detectadas entre cada normalizao destes registros e a contextualizao dos dados
uma das categorias analisadas, as taxas de falso positivo, falso presentes nos mesmos. Adicionalmente, foi realizada a
negativo e a taxa de acertos geral do classificador, que modelagem da arquitetura de um servidor central, para
consiste na diviso do numero de conexes classificadas armazenamento dos registros coletados em um banco de
corretamente pelo nmero de conexes analisadas.
dados, visando sua posterior anlise e registro do histrico de [16] SYSLOG. Logged | Event and Log Management. Acessado em 01 set.
2015. Online. Disponvel em: http://www.syslog.org/.
funcionamento do sistema. [17] McGuire, P. Getting Started with Pyparsing.2007.OReilly Media,
Outra contribuio deste trabalho, relacionada anlise do first edition
trfego da rede, a possibilidade de classificar as conexes no [18] Kobayashi, T.H.; Batista, A.B.; Brito, A.M.; Motta Pires, P.S., Using a
momento de sua captura, ao contrrio de outros trabalhos que packet manipulation tool for security analysis of industrial network
protocols, in Emerging Technologies and Factory Automation, ETFA.
se propem a realizar a classificao somente de registros IEEE Conference on, vol., no., pp.744-747, 25-28 Sept. 2007.
histricos. Nos testes realizados, o desempenho do [19] L. Breiman; J. Freidman; R. Olshen; C. Stone. Classification and
classificador referente taxa de acertos foi satisfatrio, Regression Trees.1984.
demonstrando que o classificador utilizando a tcnica de [20] Stolfo, S. J.; Fan, W.; Lee, W.; Prodromidis, A.; Chan, P. K. Cost-
based Modeling for Fraud and Intrusion Detection: Results from the
rvores de Deciso pode ser utilizado para classificar as JAM Project. In: proceedings of the 2000 darpa information
conexes capturadas, trazendo um novo mecanismo para survivability conference and exposition, 1999. Anais IEEE Computer
facilitar a tomada de aes por parte do administrador dos Press, 1999. p.130144.
sistemas. [21] Gusmo, M. Uma Arquitetura de Software direcionada Conscincia
do Contexto na UbiComp. 2013. Dissertao (Mestrado em Cincia da
Como trabalhos futuros, espera-se desenvolver expresses Computao) Universidade Federal de Pelotas.
para tratamento dos registros de log de outras aplicaes, [22] KDD Cup, Acessado em 01 set, 2015. Online. Disponvel em:
estendendo a soluo criada. Alm disso, outros algoritmos http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.
para avaliao das conexes sero testados, de forma a tentar [23] Elekar, K.; Waghmare, M.M.; Priyadarshi, A., Use of rule base data
mining algorithm for intrusion detection, in Pervasive Computing
melhorar o desempenho do classificador desenvolvido. (ICPC), 2015 International Conference on , vol., no., pp.1-5, 8-10 Jan.
2015.
REFERNCIAS
[1] Weiser, M. The Computer for the 21st Century. Scientific American, Roger da Silva Machado possui graduao em Cincia da
v.265, n.3, p.66-75, January 1991. Computao na Universidade Federal de Pelotas (UFPel,
[2] Weiyi Shang; Nagappan, M.; Hassan, A.E.; Zhen Ming Jiang, 2013). Atualmente aluno do Programa de Mestrado em
Understanding Log Lines Using Development Knowledge, in Computao da UFPel. Esforos de estudo e pesquisa
Software Maintenance and Evolution (ICSME), 2014 IEEE International voltados para as reas de Computao Ubqua, Conscincia
Conference on , vol., no., pp.21-30, Sept. 29 2014-Oct. 3 2014 de Contexto, Minerao de Dados e Segurana da
[3] Nagappan, M.; Vouk, M.A., Abstracting log lines to log event types for Informao.
mining software system logs, in Mining Software Repositories (MSR),
2010 7th IEEE Working Conference on , vol., no., pp.114-117, 2-3 May Ricardo Borges Almeida possui graduao em Cincia da
2010. Computao pela Universidade Federal de Pelotas (UFPel,
[4] Wenke Lee; Stolfo, S.J.; Mok, K.W., A data mining framework for 2013).Atualmente aluno do Programa de Mestrado em
building intrusion detection models, in Security and Privacy, 1999. Computao da UFPel. Seus esforos de estudo e pesquisa
Proceedings of the 1999 IEEE Symposium on , vol., no., pp.120-132, so voltados para a rea de Segurana da Informao, Redes
1999. de Computadores e Computao Ubqua.
[5] Leonid Portnoy, Eleazar Eskin, Sal Stolfo, Intrusion Detection with
Unlabeled Data Using Clustering, in Proceedings of ACM CSS Adenauer Corra Yamin possui graduao em Engenharia
Workshop on Data Mining Applied to Security (DMSA), 2001. Eltrica pela Universidade Catlica de Pelotas (1981),
[6] Relan, N.G.; Patil, D.R., Implementation of network intrusion detection mestrado e doutorado em Computao pela Universidade
system using variant of decision tree algorithm, in Nascent Federal do Rio Grande do Sul (1994 e 2004). Atua como
Technologies in the Engineering Field (ICNTE), 2015 International professor orientador do Programa de Ps-Graduao em
Conference on , vol., no., pp.1-5, 9-10 Jan. 2015 Computao do Centro de Desenvolvimento Tecnolgico da
[7] Krumm, J. Ubiquitous Computing Fundamentals. 1st.ed : Chapman & UFPEL (PPGC/CDTec/UFPEL), e como professor do Centro
Hall/CRC, 2009. Politcnico da UCPEL (CPoli/UCPEL). Vem realizando produo cientfica
[8] Hansmann, U., Merk, L., Nicklous, M.S., Stober, T. (2001) Pervasive na rea de sistemas distribudos, com nfase em aspectos de alto desempenho
Computing Handbook, Ed. Springer. 409 pags. e ubiquidade.
[9] Dey, A. K. Understanding and Using Context. Personal and Ubiquitous
Computing, v.5, p.47, 2001. Ana Marilza Pernas possui graduao em Cincia da
[10] Pernas, A. M. F. Sensibilidade Situao em Sistemas Educacionais na Computao pela Universidade Federal de Pelotas (2002),
Web. 2012. Tese de Doutorado em Cincia da Computao Instituto mestrado em Cincia da Computao pela Universidade
de Informtica-UFRGS, Porto Alegre-RS. Federal de Santa Catarina (2004) e doutorado em Cincia da
[11] King, J., Measuring the forensic-ability of audit logs for Computao pela Universidade Federal do Rio Grande do Sul
nonrepudiation, in Software Engineering (ICSE), 2013 35th (2012). professora da Universidade Federal de Pelotas,
International Conference on , vol., no., pp.1419-1422, 18-26 May 2013. atuando principalmente nos temas: sistemas de informao,
[12] Anton Chuvakin, Kevin Schmidt, and Chris Phillips. Logging and Log banco de dados, modelagem conceitual, ontologias, sensibilidade ao contexto.
Management: The Authoritative Guide to Understanding the Concepts
Surrounding Logging and Log Management. Syngress Publishing.2012.
[13] Akbar, S.; Chandulal, J.A.; Rao, K.N.; Kumar, G.S., Improving
network security using machine learning techniques, in Computational
Intelligence & Computing Research (ICCIC), 2012 IEEE International
Conference on , vol., no., pp.1-5, 18-20 Dec. 2012
[14] Kasliwal, B.; Bhatia, S.; Saini, S.; Thaseen, I.S.; Kumar, C.A., A
hybrid anomaly detection model using G-LDA, in Advance Computing
Conference (IACC), 2014 IEEE International , vol., no., pp.288-293, 21-
22 Feb. 2014
[15] Lopes, J.; Souza, R.; Geyer, C.; Costa, C.; Barbosa, J.; Pernas, A.;
Yamin, A. A Middleware Architecture for Dynamic Adaptation in
Ubiquitous Computing. Journal of Universal Computer Science, v.20,
n.9, p.13271351, sep 2014.